14 décembre 2025
Colle ton cours, Revizly le transforme en résumé, fiches, flashcards et QCM.
Les modèles de langage (LLM) sont des systèmes probabilistes qui prédisent la suite d'une séquence de tokens en estimant leur probabilité conditionnelle. Ce cours couvre la génération de texte, les stratégies de décodage (greedy, beam search, sampling), l'impact des paramètres (température, top-k, top-p, repetition penalty), ainsi que la reproductibilité via le paramètre seed. Il insiste sur l'importance de choisir la bonne stratégie selon le contexte et de maîtriser les paramètres pour optimiser la qualité et la diversité des textes générés.
| Concept | Points Clés | Notes |
|---|---|---|
| Modèle de langage | Probabiliste, P(w1,...,wT) = ∏ P(wt | contexte) |
| Tokenisation | Sous-mots, méthodes BPE, WordPiece, SentencePiece | Réduit le vocabulaire, gère l'inconnu |
| Décodage Greedy | Max prob, rapide, déterministe | Peu créatif, risque boucle |
| Beam Search | Exploration parallèle, k séquences | Plus cohérent, plus lent |
| Sampling | Aléatoire contrôlé, température, top-k, top-p | Plus créatif, diversité |
| Température | T<1 : conservateur, T>1 : créatif | Ajuste la distribution |
| Top-k | Limite à k tokens, renormalise | Contrôle la diversité |
| Top-p | Cumulative prob. ≤ p, adaptatif | Flexible, évite la rigidité |
| Contrôle répétitions | Penalty, n-gram | Évite boucle, répétitions |
| Seed | Fixe l'aléatoire, reproductibilité | Développement vs production |
Modèle de langage
├─ Tokenisation
├─ Décodage
│ ├─ Greedy
│ ├─ Beam Search
│ └─ Sampling
│ ├─ Température
│ ├─ Top-k
│ └─ Top-p
├─ Contrôle répétitions
│ ├─ Repetition Penalty
│ └─ No-Repeat N-gram
└─ Reproductibilité
└─ Seed
Fiche de révision
Colle ton cours, Revizly le transforme en résumé, fiches, flashcards et QCM.
| Élément | Caractéristiques clés | Notes / Différences |
|---|---|---|
| Modèle de langage | Probabiliste, calcule $ P(w_1,...,w_T) $ | Prédiction du prochain token |
| Tokenisation | Sous-mots, méthodes BPE, WordPiece, SentencePiece | Réduit le vocabulaire, gère l'inconnu |
| Décodage Greedy | Max prob, rapide, déterministe | Peu créatif, risque boucle |
| Beam Search | Exploration parallèle, garde k séquences | Plus cohérent, plus lent |
| Sampling | Aléatoire, contrôlé par T, top-k, top-p | Plus diversifié |
| Température (T) | T<1 : distribution pointue, T>1 : distribution aplatie | Contrôle la créativité |
| Top-k | Limite à k tokens, renormalise la probabilité | Contrôle la diversité |
| Top-p (Nucleus) | Sélectionne tokens jusqu’à la somme des prob. = p | Flexible, évite rigidité |
| Contrôle répétitions | Repetition Penalty, No-Repeat N-gram | Évite boucle et répétitions |
| Seed | Fixe l’aléatoire pour reproductibilité | Développement vs production |
Modèle de langage
├─ Tokenisation
├─ Décodage
│ ├─ Greedy
│ ├─ Beam Search
│ └─ Sampling
│ ├─ Température
│ ├─ Top-k
│ └─ Top-p
├─ Contrôle répétitions
│ ├─ Repetition Penalty
│ └─ No-Repeat N-gram
└─ Reproductibilité
└─ Seed
Envie de plus de flashcards ?
Génère des dizaines de flashcards à partir de tes cours
Tokenisation — rôle ?
Cliquer pour retourner
Découpe le texte en unités manipulables
Envie de plus de QCM ?
Génère des dizaines de questions à partir de tes cours
Progression par thème
Basée sur vos réponses aux QCM
Thèmes commencés
Thèmes maîtrisés
Questions répondues
Fonctionnalité Premium
Avec Premium, visualisez exactement où vous en êtes dans chaque chapitre. Identifiez vos points forts et vos lacunes pour réviser plus efficacement.