Retour

Introduction aux modèles de langage et stratégies de décodage

14 décembre 2025

Crée tes propres fiches en 30 secondes

Colle ton cours, Revizly le transforme en résumé, fiches, flashcards et QCM.

Commencer gratuitement

1. Vue d'ensemble

Les modèles de langage (LLM) sont des systèmes probabilistes qui prédisent la suite d'une séquence de tokens en estimant leur probabilité conditionnelle. Ce cours couvre la génération de texte, les stratégies de décodage (greedy, beam search, sampling), l'impact des paramètres (température, top-k, top-p, repetition penalty), ainsi que la reproductibilité via le paramètre seed. Il insiste sur l'importance de choisir la bonne stratégie selon le contexte et de maîtriser les paramètres pour optimiser la qualité et la diversité des textes générés.

2. Concepts clés & Éléments essentiels

  • Modèle de langage : estime la probabilité d'une séquence de tokens, calcule P(w1, ..., wT) par produit conditionnel.
  • Tokenisation : découpage du texte en tokens (souvent sous-mots) via BPE, WordPiece, SentencePiece.
  • Stratégies de décodage :
    • Greedy : choix du token le plus probable à chaque étape, rapide, déterministe, mais peu créatif.
    • Beam Search : exploration parallèle de plusieurs séquences, garde k meilleures, plus cohérent, plus lent.
    • Sampling : choix probabiliste, contrôlé par température, top-k, top-p.
  • Paramètres de sampling :
    • Température (T) : contrôle la créativité, distribution plus ou moins pointue.
    • Top-k : limite la sélection aux k tokens les plus probables.
    • Top-p (Nucleus) : sélection dynamique des tokens dont la somme des probabilités atteint p.
  • Contrôle des répétitions :
    • Repetition Penalty : pénalise les tokens déjà générés.
    • No-Repeat N-gram : interdit la répétition de séquences de n tokens.
  • Reproductibilité :
    • Seed : fixe la graine aléatoire pour résultats reproductibles.
    • Utilisation recommandée en développement, déconseillée en production pour la diversité.
  • Paramètres clés :
    • max_new_tokens, temperature, top_k, top_p, num_beams, do_sample, repetition_penalty, no_repeat_ngram_size, seed.

3. Points à Haut Rendement

  • La probabilité d'une séquence : $$ P(w_1, ..., w_T) = \prod_{t=1}^T P(w_t | w_1, ..., w_{t-1}) $$
  • Tokenisation par sous-mots réduit le vocabulaire (~50k tokens) et gère les mots rares.
  • Décodage greedy : rapide, déterministe, mais peu créatif.
  • Beam search : explore plusieurs chemins, plus cohérent, adapté aux tâches factuelles.
  • Sampling : introduit de la diversité, paramétré par température, top-k, top-p.
  • La température modifie la distribution : T < 1 → distribution pointue, T > 1 → distribution aplatie.
  • Top-k limite à k tokens, renormalise leur probabilité.
  • Top-p sélectionne un nombre variable de tokens jusqu'à la somme des probabilités atteignant p.
  • Top-k et top-p peuvent être combinés pour un contrôle précis.
  • La pénalité de répétition et le no_repeat_ngram évitent les boucles et répétitions exactes.
  • Le seed permet la reproductibilité en contrôlant l'aléatoire.

4. Tableau de Synthèse

ConceptPoints ClésNotes
Modèle de langageProbabiliste, P(w1,...,wT) = ∏ P(wtcontexte)
TokenisationSous-mots, méthodes BPE, WordPiece, SentencePieceRéduit le vocabulaire, gère l'inconnu
Décodage GreedyMax prob, rapide, déterministePeu créatif, risque boucle
Beam SearchExploration parallèle, k séquencesPlus cohérent, plus lent
SamplingAléatoire contrôlé, température, top-k, top-pPlus créatif, diversité
TempératureT<1 : conservateur, T>1 : créatifAjuste la distribution
Top-kLimite à k tokens, renormaliseContrôle la diversité
Top-pCumulative prob. ≤ p, adaptatifFlexible, évite la rigidité
Contrôle répétitionsPenalty, n-gramÉvite boucle, répétitions
SeedFixe l'aléatoire, reproductibilitéDéveloppement vs production

5. Mini-Schéma ASCII

Modèle de langage
 ├─ Tokenisation
 ├─ Décodage
 │   ├─ Greedy
 │   ├─ Beam Search
 │   └─ Sampling
 │       ├─ Température
 │       ├─ Top-k
 │       └─ Top-p
 ├─ Contrôle répétitions
 │   ├─ Repetition Penalty
 │   └─ No-Repeat N-gram
 └─ Reproductibilité
     └─ Seed

6. Bullets de Révision Rapide

  • Modèle probabiliste estimant P(w1,...,wT).
  • Tokenisation sous-mots pour gestion efficace du vocabulaire.
  • Greedy : rapide, déterministe, peu créatif.
  • Beam search : explore plusieurs séquences, plus cohérent.
  • Sampling : introduit de la diversité, paramètre T, top-k, top-p.
  • Température : T<1 plus conservateur, T>1 plus créatif.
  • Top-k : limite à k tokens, renormalise.
  • Top-p : sélection dynamique jusqu'à p, distribution adaptative.
  • Combinaison top-k et top-p optimise contrôle.
  • Pénalité de répétition et n-gram pour éviter boucle.
  • Seed : fixe l'aléatoire, reproductibilité.
  • Choix de stratégie dépend de la tâche : factuelle ou créative.
  • Reproductibilité essentielle en développement, moins en production.
  • Paramètres clés : max_new_tokens, temperature, top-k, top-p, num_beams, repetition_penalty, no_repeat_ngram_size, seed.
  • La génération peut être contrôlée finement pour équilibrer cohérence et diversité.

Introduction aux modèles de langage et stratégies de décodage

Fiche de révision

Crée tes propres fiches en 30 secondes

Colle ton cours, Revizly le transforme en résumé, fiches, flashcards et QCM.

Commencer gratuitement

Fiche de Révision : Modèles de Langage et Décodage

1. 📌 L'essentiel

  • Un modèle de langage estime la probabilité d'une séquence de tokens : $ P(w_1, ..., w_T) = \prod_{t=1}^T P(w_t | w_1, ..., w_{t-1}) $.
  • La tokenisation sous-mots (BPE, WordPiece, SentencePiece) réduit le vocabulaire et gère les rares.
  • Stratégies de décodage principales : Greedy, Beam Search, Sampling.
  • Greedy : choix du token le plus probable à chaque étape, rapide mais peu créatif.
  • Beam Search : exploration de plusieurs séquences, plus cohérent mais plus lent.
  • Sampling : choix probabiliste contrôlé par température, top-k, top-p pour plus de diversité.
  • La température modifie la distribution : T<1 pour plus conservateur, T>1 pour plus créatif.
  • Top-k limite la sélection aux k tokens les plus probables, renormalisés.
  • Top-p (Nucleus) sélectionne un ensemble dynamique de tokens jusqu’à la somme des probabilités p.
  • Contrôler la répétition via Repetition Penalty ou No-Repeat N-gram.
  • La graine (seed) permet la reproductibilité des résultats.

2. 🧩 Structures & Composants clés

  • Modèle de langage : probabiliste, prédit le prochain token basé sur le contexte.
  • Tokenisation : découpe en sous-mots, gère l'inconnu.
  • Décodage :
    • Greedy : rapide, déterministe.
    • Search : exploration parallèle, k séquences.
    • Sampling : choix aléatoire, diversifié.
  • Paramètres de sampling :
    • Température (T) : contrôle la créativité.
    • Top-k : limite à k tokens.
    • Top-p : sélection dynamique jusqu’à p.
  • Contrôle des répétitions :
    • Repetition Penalty : pénalise les tokens déjà générés.
    • No-Repeat N-gram : évite la répétition de séquences.
  • Reproductibilité : seed fixe pour résultats identiques.

3. 🔬 Fonctions, Mécanismes & Relations

  • La probabilité d’une séquence est le produit des probabilités conditionnelles.
  • Tokenisation sous-mots permet une gestion efficace du vocabulaire.
  • Décodage greedy : choisit le token le plus probable, rapide mais peu créatif.
  • Beam search : explore plusieurs chemins, équilibre cohérence et complexité.
  • Sampling : introduit de la diversité, paramétré par T, top-k, top-p.
  • La température ajuste la distribution : T<1 favorise les tokens probables, T>1 augmente la diversité.
  • Top-k et top-p peuvent être combinés pour un contrôle précis.
  • La pénalité de répétition et le no_repeat_ngram évitent les boucles et répétitions excessives.
  • Le seed permet de reproduire une même séquence de génération.

4. Tableau comparatif

ÉlémentCaractéristiques clésNotes / Différences
Modèle de langageProbabiliste, calcule $ P(w_1,...,w_T) $Prédiction du prochain token
TokenisationSous-mots, méthodes BPE, WordPiece, SentencePieceRéduit le vocabulaire, gère l'inconnu
Décodage GreedyMax prob, rapide, déterministePeu créatif, risque boucle
Beam SearchExploration parallèle, garde k séquencesPlus cohérent, plus lent
SamplingAléatoire, contrôlé par T, top-k, top-pPlus diversifié
Température (T)T<1 : distribution pointue, T>1 : distribution aplatieContrôle la créativité
Top-kLimite à k tokens, renormalise la probabilitéContrôle la diversité
Top-p (Nucleus)Sélectionne tokens jusqu’à la somme des prob. = pFlexible, évite rigidité
Contrôle répétitionsRepetition Penalty, No-Repeat N-gramÉvite boucle et répétitions
SeedFixe l’aléatoire pour reproductibilitéDéveloppement vs production

5. 🗂️ Diagramme Hiérarchique ASCII

Modèle de langage
 ├─ Tokenisation
 ├─ Décodage
 │   ├─ Greedy
 │   ├─ Beam Search
 │   └─ Sampling
 │       ├─ Température
 │       ├─ Top-k
 │       └─ Top-p
 ├─ Contrôle répétitions
 │   ├─ Repetition Penalty
 │   └─ No-Repeat N-gram
 └─ Reproductibilité
     └─ Seed

6. ⚠️ Pièges & Confusions fréquentes

  • Confondre greedy et beam search : le premier est déterministe, l’autre explore plusieurs chemins.
  • Croire que température T>1 diminue la diversité : c’est l’inverse, T>1 augmente la diversité.
  • Utiliser top-k ou top-p seul sans ajuster la distribution.
  • Confondre Repetition Penalty et No-Repeat N-gram : leur rôle est différent.
  • Penser que seed garantit la diversité : non, elle est contrôlée par d’autres paramètres.
  • Ne pas adapter la stratégie de décodage à la tâche : factuelle vs créative.
  • Oublier de régler max_new_tokens pour limiter la longueur.
  • Confondre probabilités conditionnelles et choix de tokens.

7. ✅ Checklist Examen Final

  • Comprendre la formule de probabilité d’une séquence.
  • Expliquer la tokenisation sous-mots et ses avantages.
  • Différencier greedy, beam search et sampling.
  • Savoir comment la température influence la distribution.
  • Connaître le fonctionnement de top-k et top-p.
  • Savoir comment éviter les répétitions avec les pénalités.
  • Expliquer l’utilité du seed pour la reproductibilité.
  • Adapter la stratégie de décodage selon la tâche.
  • Maîtriser les paramètres clés : max_new_tokens, temperature, top-k, top-p, num_beams, repetition_penalty, seed.
  • Reconnaître les pièges courants lors de la génération.
  • Savoir combiner plusieurs stratégies pour un contrôle optimal.
  • Comprendre l’impact de chaque paramètre sur la diversité et la cohérence.
  • Être capable d’interpréter un tableau comparatif des méthodes.
  • Savoir quand privilégier la rapidité ou la qualité.
  • Connaître les limites de chaque méthode de décodage.

Introduction aux modèles de langage et stratégies de décodage

Envie de plus de flashcards ?

Génère des dizaines de flashcards à partir de tes cours

Premium
Progression : 0 / 3 cartes vues0%
Question

Tokenisation — rôle ?

Cliquer pour retourner

Réponse

Découpe le texte en unités manipulables

Introduction aux modèles de langage et stratégies de décodage

Envie de plus de QCM ?

Génère des dizaines de questions à partir de tes cours

Premium
Progression : 0 / 3 questions répondues0%
1

Quelle stratégie de décodage consiste à choisir à chaque étape le token le plus probable, de manière rapide et déterministe ?

Sampling
Beam Search
Reinforcement learning
Greedy

Introduction aux modèles de langage et stratégies de décodage

Progression par thème

Progression globale

Basée sur vos réponses aux QCM

67%
4/5

Thèmes commencés

2

Thèmes maîtrisés

24

Questions répondues

Détail par thème

1

Introduction au système

85%
2

Les différents types

72%
3

Structure axiale

45%
4

Structure appendiculaire

0%

Fonctionnalité Premium

Suivi de progression par thème

Premium

Avec Premium, visualisez exactement où vous en êtes dans chaque chapitre. Identifiez vos points forts et vos lacunes pour réviser plus efficacement.

Score par thème
Progression globale
Objectifs personnalisés
3,30€/mois-50% annuel
Passer Premium