1. Vue d'ensemble

Les modèles de langage (LLM) sont des systèmes probabilistes qui prédisent la suite d'une séquence de tokens en estimant leur probabilité conditionnelle. Ce cours couvre la génération de texte, les stratégies de décodage (greedy, beam search, sampling), l'impact des paramètres (température, top-k, top-p, repetition penalty), ainsi que la reproductibilité via le paramètre seed. Il insiste sur l'importance de choisir la bonne stratégie selon le contexte et de maîtriser les paramètres pour optimiser la qualité et la diversité des textes générés.

2. Concepts clés & Éléments essentiels

Modèle de langage : estime la probabilité d'une séquence de tokens, calcule P(w1, ..., wT) par produit conditionnel.
Tokenisation : découpage du texte en tokens (souvent sous-mots) via BPE, WordPiece, SentencePiece.
Stratégies de décodage :
- Greedy : choix du token le plus probable à chaque étape, rapide, déterministe, mais peu créatif.
- Beam Search : exploration parallèle de plusieurs séquences, garde k meilleures, plus cohérent, plus lent.
- Sampling : choix probabiliste, contrôlé par température, top-k, top-p.
Paramètres de sampling :
- Température (T) : contrôle la créativité, distribution plus ou moins pointue.
- Top-k : limite la sélection aux k tokens les plus probables.
- Top-p (Nucleus) : sélection dynamique des tokens dont la somme des probabilités atteint p.
Contrôle des répétitions :
- Repetition Penalty : pénalise les tokens déjà générés.
- No-Repeat N-gram : interdit la répétition de séquences de n tokens.
Reproductibilité :
- Seed : fixe la graine aléatoire pour résultats reproductibles.
- Utilisation recommandée en développement, déconseillée en production pour la diversité.
Paramètres clés :
- max_new_tokens, temperature, top_k, top_p, num_beams, do_sample, repetition_penalty, no_repeat_ngram_size, seed.

3. Points à Haut Rendement

La probabilité d'une séquence : $$ P(w_1, ..., w_T) = \prod_{t=1}^T P(w_t | w_1, ..., w_{t-1}) $$
Tokenisation par sous-mots réduit le vocabulaire (~50k tokens) et gère les mots rares.
Décodage greedy : rapide, déterministe, mais peu créatif.
Beam search : explore plusieurs chemins, plus cohérent, adapté aux tâches factuelles.
Sampling : introduit de la diversité, paramétré par température, top-k, top-p.
La température modifie la distribution : T < 1 → distribution pointue, T > 1 → distribution aplatie.
Top-k limite à k tokens, renormalise leur probabilité.
Top-p sélectionne un nombre variable de tokens jusqu'à la somme des probabilités atteignant p.
Top-k et top-p peuvent être combinés pour un contrôle précis.
La pénalité de répétition et le no_repeat_ngram évitent les boucles et répétitions exactes.
Le seed permet la reproductibilité en contrôlant l'aléatoire.

4. Tableau de Synthèse

Concept	Points Clés	Notes
Modèle de langage	Probabiliste, P(w1,...,wT) = ∏ P(wt	contexte)
Tokenisation	Sous-mots, méthodes BPE, WordPiece, SentencePiece	Réduit le vocabulaire, gère l'inconnu
Décodage Greedy	Max prob, rapide, déterministe	Peu créatif, risque boucle
Beam Search	Exploration parallèle, k séquences	Plus cohérent, plus lent
Sampling	Aléatoire contrôlé, température, top-k, top-p	Plus créatif, diversité
Température	T<1 : conservateur, T>1 : créatif	Ajuste la distribution
Top-k	Limite à k tokens, renormalise	Contrôle la diversité
Top-p	Cumulative prob. ≤ p, adaptatif	Flexible, évite la rigidité
Contrôle répétitions	Penalty, n-gram	Évite boucle, répétitions
Seed	Fixe l'aléatoire, reproductibilité	Développement vs production

5. Mini-Schéma ASCII

Modèle de langage
 ├─ Tokenisation
 ├─ Décodage
 │   ├─ Greedy
 │   ├─ Beam Search
 │   └─ Sampling
 │       ├─ Température
 │       ├─ Top-k
 │       └─ Top-p
 ├─ Contrôle répétitions
 │   ├─ Repetition Penalty
 │   └─ No-Repeat N-gram
 └─ Reproductibilité
     └─ Seed

6. Bullets de Révision Rapide

Modèle probabiliste estimant P(w1,...,wT).
Tokenisation sous-mots pour gestion efficace du vocabulaire.
Greedy : rapide, déterministe, peu créatif.
Beam search : explore plusieurs séquences, plus cohérent.
Sampling : introduit de la diversité, paramètre T, top-k, top-p.
Température : T<1 plus conservateur, T>1 plus créatif.
Top-k : limite à k tokens, renormalise.
Top-p : sélection dynamique jusqu'à p, distribution adaptative.
Combinaison top-k et top-p optimise contrôle.
Pénalité de répétition et n-gram pour éviter boucle.
Seed : fixe l'aléatoire, reproductibilité.
Choix de stratégie dépend de la tâche : factuelle ou créative.
Reproductibilité essentielle en développement, moins en production.
Paramètres clés : max_new_tokens, temperature, top-k, top-p, num_beams, repetition_penalty, no_repeat_ngram_size, seed.
La génération peut être contrôlée finement pour équilibrer cohérence et diversité.

Fiche de Révision : Modèles de Langage et Décodage

1. 📌 L'essentiel

Un modèle de langage estime la probabilité d'une séquence de tokens : $ P(w_1, ..., w_T) = \prod_{t=1}^T P(w_t | w_1, ..., w_{t-1}) $.
La tokenisation sous-mots (BPE, WordPiece, SentencePiece) réduit le vocabulaire et gère les rares.
Stratégies de décodage principales : Greedy, Beam Search, Sampling.
Greedy : choix du token le plus probable à chaque étape, rapide mais peu créatif.
Beam Search : exploration de plusieurs séquences, plus cohérent mais plus lent.
Sampling : choix probabiliste contrôlé par température, top-k, top-p pour plus de diversité.
La température modifie la distribution : T<1 pour plus conservateur, T>1 pour plus créatif.
Top-k limite la sélection aux k tokens les plus probables, renormalisés.
Top-p (Nucleus) sélectionne un ensemble dynamique de tokens jusqu’à la somme des probabilités p.
Contrôler la répétition via Repetition Penalty ou No-Repeat N-gram.
La graine (seed) permet la reproductibilité des résultats.

2. 🧩 Structures & Composants clés

Modèle de langage : probabiliste, prédit le prochain token basé sur le contexte.
Tokenisation : découpe en sous-mots, gère l'inconnu.
Décodage :
- Greedy : rapide, déterministe.
- Search : exploration parallèle, k séquences.
- Sampling : choix aléatoire, diversifié.
Paramètres de sampling :
- Température (T) : contrôle la créativité.
- Top-k : limite à k tokens.
- Top-p : sélection dynamique jusqu’à p.
Contrôle des répétitions :
- Repetition Penalty : pénalise les tokens déjà générés.
- No-Repeat N-gram : évite la répétition de séquences.
Reproductibilité : seed fixe pour résultats identiques.

3. 🔬 Fonctions, Mécanismes & Relations

La probabilité d’une séquence est le produit des probabilités conditionnelles.
Tokenisation sous-mots permet une gestion efficace du vocabulaire.
Décodage greedy : choisit le token le plus probable, rapide mais peu créatif.
Beam search : explore plusieurs chemins, équilibre cohérence et complexité.
Sampling : introduit de la diversité, paramétré par T, top-k, top-p.
La température ajuste la distribution : T<1 favorise les tokens probables, T>1 augmente la diversité.
Top-k et top-p peuvent être combinés pour un contrôle précis.
La pénalité de répétition et le no_repeat_ngram évitent les boucles et répétitions excessives.
Le seed permet de reproduire une même séquence de génération.

4. Tableau comparatif

Élément	Caractéristiques clés	Notes / Différences
Modèle de langage	Probabiliste, calcule $ P(w_1,...,w_T) $	Prédiction du prochain token
Tokenisation	Sous-mots, méthodes BPE, WordPiece, SentencePiece	Réduit le vocabulaire, gère l'inconnu
Décodage Greedy	Max prob, rapide, déterministe	Peu créatif, risque boucle
Beam Search	Exploration parallèle, garde k séquences	Plus cohérent, plus lent
Sampling	Aléatoire, contrôlé par T, top-k, top-p	Plus diversifié
Température (T)	T<1 : distribution pointue, T>1 : distribution aplatie	Contrôle la créativité
Top-k	Limite à k tokens, renormalise la probabilité	Contrôle la diversité
Top-p (Nucleus)	Sélectionne tokens jusqu’à la somme des prob. = p	Flexible, évite rigidité
Contrôle répétitions	Repetition Penalty, No-Repeat N-gram	Évite boucle et répétitions
Seed	Fixe l’aléatoire pour reproductibilité	Développement vs production

5. 🗂️ Diagramme Hiérarchique ASCII

Modèle de langage
 ├─ Tokenisation
 ├─ Décodage
 │   ├─ Greedy
 │   ├─ Beam Search
 │   └─ Sampling
 │       ├─ Température
 │       ├─ Top-k
 │       └─ Top-p
 ├─ Contrôle répétitions
 │   ├─ Repetition Penalty
 │   └─ No-Repeat N-gram
 └─ Reproductibilité
     └─ Seed

6. ⚠️ Pièges & Confusions fréquentes

Confondre greedy et beam search : le premier est déterministe, l’autre explore plusieurs chemins.
Croire que température T>1 diminue la diversité : c’est l’inverse, T>1 augmente la diversité.
Utiliser top-k ou top-p seul sans ajuster la distribution.
Confondre Repetition Penalty et No-Repeat N-gram : leur rôle est différent.
Penser que seed garantit la diversité : non, elle est contrôlée par d’autres paramètres.
Ne pas adapter la stratégie de décodage à la tâche : factuelle vs créative.
Oublier de régler max_new_tokens pour limiter la longueur.
Confondre probabilités conditionnelles et choix de tokens.

7. ✅ Checklist Examen Final

Comprendre la formule de probabilité d’une séquence.
Expliquer la tokenisation sous-mots et ses avantages.
Différencier greedy, beam search et sampling.
Savoir comment la température influence la distribution.
Connaître le fonctionnement de top-k et top-p.
Savoir comment éviter les répétitions avec les pénalités.
Expliquer l’utilité du seed pour la reproductibilité.
Adapter la stratégie de décodage selon la tâche.
Maîtriser les paramètres clés : max_new_tokens, temperature, top-k, top-p, num_beams, repetition_penalty, seed.
Reconnaître les pièges courants lors de la génération.
Savoir combiner plusieurs stratégies pour un contrôle optimal.
Comprendre l’impact de chaque paramètre sur la diversité et la cohérence.
Être capable d’interpréter un tableau comparatif des méthodes.
Savoir quand privilégier la rapidité ou la qualité.
Connaître les limites de chaque méthode de décodage.

1. Vue d'ensemble

2. Concepts clés & Éléments essentiels

Modèle de langage : estime la probabilité d'une séquence de tokens, calcule P(w1, ..., wT) par produit conditionnel.
Tokenisation : découpage du texte en tokens (souvent sous-mots) via BPE, WordPiece, SentencePiece.
Stratégies de décodage :
- Greedy : choix du token le plus probable à chaque étape, rapide, déterministe, mais peu créatif.
- Beam Search : exploration parallèle de plusieurs séquences, garde k meilleures, plus cohérent, plus lent.
- Sampling : choix probabiliste, contrôlé par température, top-k, top-p.
Paramètres de sampling :
- Température (T) : contrôle la créativité, distribution plus ou moins pointue.
- Top-k : limite la sélection aux k tokens les plus probables.
- Top-p (Nucleus) : sélection dynamique des tokens dont la somme des probabilités atteint p.
Contrôle des répétitions :
- Repetition Penalty : pénalise les tokens déjà générés.
- No-Repeat N-gram : interdit la répétition de séquences de n tokens.
Reproductibilité :
- Seed : fixe la graine aléatoire pour résultats reproductibles.
- Utilisation recommandée en développement, déconseillée en production pour la diversité.
Paramètres clés :
- max_new_tokens, temperature, top_k, top_p, num_beams, do_sample, repetition_penalty, no_repeat_ngram_size, seed.

3. Points à Haut Rendement

La probabilité d'une séquence : $$ P(w_1, ..., w_T) = \prod_{t=1}^T P(w_t | w_1, ..., w_{t-1}) $$
Tokenisation par sous-mots réduit le vocabulaire (~50k tokens) et gère les mots rares.
Décodage greedy : rapide, déterministe, mais peu créatif.
Beam search : explore plusieurs chemins, plus cohérent, adapté aux tâches factuelles.
Sampling : introduit de la diversité, paramétré par température, top-k, top-p.
La température modifie la distribution : T < 1 → distribution pointue, T > 1 → distribution aplatie.
Top-k limite à k tokens, renormalise leur probabilité.
Top-p sélectionne un nombre variable de tokens jusqu'à la somme des probabilités atteignant p.
Top-k et top-p peuvent être combinés pour un contrôle précis.
La pénalité de répétition et le no_repeat_ngram évitent les boucles et répétitions exactes.
Le seed permet la reproductibilité en contrôlant l'aléatoire.

4. Tableau de Synthèse

Concept	Points Clés	Notes
Modèle de langage	Probabiliste, P(w1,...,wT) = ∏ P(wt	contexte)
Tokenisation	Sous-mots, méthodes BPE, WordPiece, SentencePiece	Réduit le vocabulaire, gère l'inconnu
Décodage Greedy	Max prob, rapide, déterministe	Peu créatif, risque boucle
Beam Search	Exploration parallèle, k séquences	Plus cohérent, plus lent
Sampling	Aléatoire contrôlé, température, top-k, top-p	Plus créatif, diversité
Température	T<1 : conservateur, T>1 : créatif	Ajuste la distribution
Top-k	Limite à k tokens, renormalise	Contrôle la diversité
Top-p	Cumulative prob. ≤ p, adaptatif	Flexible, évite la rigidité
Contrôle répétitions	Penalty, n-gram	Évite boucle, répétitions
Seed	Fixe l'aléatoire, reproductibilité	Développement vs production

5. Mini-Schéma ASCII

Modèle de langage
 ├─ Tokenisation
 ├─ Décodage
 │   ├─ Greedy
 │   ├─ Beam Search
 │   └─ Sampling
 │       ├─ Température
 │       ├─ Top-k
 │       └─ Top-p
 ├─ Contrôle répétitions
 │   ├─ Repetition Penalty
 │   └─ No-Repeat N-gram
 └─ Reproductibilité
     └─ Seed

6. Bullets de Révision Rapide

Modèle probabiliste estimant P(w1,...,wT).
Tokenisation sous-mots pour gestion efficace du vocabulaire.
Greedy : rapide, déterministe, peu créatif.
Beam search : explore plusieurs séquences, plus cohérent.
Sampling : introduit de la diversité, paramètre T, top-k, top-p.
Température : T<1 plus conservateur, T>1 plus créatif.
Top-k : limite à k tokens, renormalise.
Top-p : sélection dynamique jusqu'à p, distribution adaptative.
Combinaison top-k et top-p optimise contrôle.
Pénalité de répétition et n-gram pour éviter boucle.
Seed : fixe l'aléatoire, reproductibilité.
Choix de stratégie dépend de la tâche : factuelle ou créative.
Reproductibilité essentielle en développement, moins en production.
Paramètres clés : max_new_tokens, temperature, top-k, top-p, num_beams, repetition_penalty, no_repeat_ngram_size, seed.
La génération peut être contrôlée finement pour équilibrer cohérence et diversité.

Fiche de Révision : Modèles de Langage et Décodage

1. 📌 L'essentiel

Un modèle de langage estime la probabilité d'une séquence de tokens : $ P(w_1, ..., w_T) = \prod_{t=1}^T P(w_t | w_1, ..., w_{t-1}) $.
La tokenisation sous-mots (BPE, WordPiece, SentencePiece) réduit le vocabulaire et gère les rares.
Stratégies de décodage principales : Greedy, Beam Search, Sampling.
Greedy : choix du token le plus probable à chaque étape, rapide mais peu créatif.
Beam Search : exploration de plusieurs séquences, plus cohérent mais plus lent.
Sampling : choix probabiliste contrôlé par température, top-k, top-p pour plus de diversité.
La température modifie la distribution : T<1 pour plus conservateur, T>1 pour plus créatif.
Top-k limite la sélection aux k tokens les plus probables, renormalisés.
Top-p (Nucleus) sélectionne un ensemble dynamique de tokens jusqu’à la somme des probabilités p.
Contrôler la répétition via Repetition Penalty ou No-Repeat N-gram.
La graine (seed) permet la reproductibilité des résultats.

2. 🧩 Structures & Composants clés

Modèle de langage : probabiliste, prédit le prochain token basé sur le contexte.
Tokenisation : découpe en sous-mots, gère l'inconnu.
Décodage :
- Greedy : rapide, déterministe.
- Search : exploration parallèle, k séquences.
- Sampling : choix aléatoire, diversifié.
Paramètres de sampling :
- Température (T) : contrôle la créativité.
- Top-k : limite à k tokens.
- Top-p : sélection dynamique jusqu’à p.
Contrôle des répétitions :
- Repetition Penalty : pénalise les tokens déjà générés.
- No-Repeat N-gram : évite la répétition de séquences.
Reproductibilité : seed fixe pour résultats identiques.

3. 🔬 Fonctions, Mécanismes & Relations

La probabilité d’une séquence est le produit des probabilités conditionnelles.
Tokenisation sous-mots permet une gestion efficace du vocabulaire.
Décodage greedy : choisit le token le plus probable, rapide mais peu créatif.
Beam search : explore plusieurs chemins, équilibre cohérence et complexité.
Sampling : introduit de la diversité, paramétré par T, top-k, top-p.
La température ajuste la distribution : T<1 favorise les tokens probables, T>1 augmente la diversité.
Top-k et top-p peuvent être combinés pour un contrôle précis.
La pénalité de répétition et le no_repeat_ngram évitent les boucles et répétitions excessives.
Le seed permet de reproduire une même séquence de génération.

4. Tableau comparatif

Élément	Caractéristiques clés	Notes / Différences
Modèle de langage	Probabiliste, calcule $ P(w_1,...,w_T) $	Prédiction du prochain token
Tokenisation	Sous-mots, méthodes BPE, WordPiece, SentencePiece	Réduit le vocabulaire, gère l'inconnu
Décodage Greedy	Max prob, rapide, déterministe	Peu créatif, risque boucle
Beam Search	Exploration parallèle, garde k séquences	Plus cohérent, plus lent
Sampling	Aléatoire, contrôlé par T, top-k, top-p	Plus diversifié
Température (T)	T<1 : distribution pointue, T>1 : distribution aplatie	Contrôle la créativité
Top-k	Limite à k tokens, renormalise la probabilité	Contrôle la diversité
Top-p (Nucleus)	Sélectionne tokens jusqu’à la somme des prob. = p	Flexible, évite rigidité
Contrôle répétitions	Repetition Penalty, No-Repeat N-gram	Évite boucle et répétitions
Seed	Fixe l’aléatoire pour reproductibilité	Développement vs production

5. 🗂️ Diagramme Hiérarchique ASCII

Modèle de langage
 ├─ Tokenisation
 ├─ Décodage
 │   ├─ Greedy
 │   ├─ Beam Search
 │   └─ Sampling
 │       ├─ Température
 │       ├─ Top-k
 │       └─ Top-p
 ├─ Contrôle répétitions
 │   ├─ Repetition Penalty
 │   └─ No-Repeat N-gram
 └─ Reproductibilité
     └─ Seed

6. ⚠️ Pièges & Confusions fréquentes

Confondre greedy et beam search : le premier est déterministe, l’autre explore plusieurs chemins.
Croire que température T>1 diminue la diversité : c’est l’inverse, T>1 augmente la diversité.
Utiliser top-k ou top-p seul sans ajuster la distribution.
Confondre Repetition Penalty et No-Repeat N-gram : leur rôle est différent.
Penser que seed garantit la diversité : non, elle est contrôlée par d’autres paramètres.
Ne pas adapter la stratégie de décodage à la tâche : factuelle vs créative.
Oublier de régler max_new_tokens pour limiter la longueur.
Confondre probabilités conditionnelles et choix de tokens.

7. ✅ Checklist Examen Final

Comprendre la formule de probabilité d’une séquence.
Expliquer la tokenisation sous-mots et ses avantages.
Différencier greedy, beam search et sampling.
Savoir comment la température influence la distribution.
Connaître le fonctionnement de top-k et top-p.
Savoir comment éviter les répétitions avec les pénalités.
Expliquer l’utilité du seed pour la reproductibilité.
Adapter la stratégie de décodage selon la tâche.
Maîtriser les paramètres clés : max_new_tokens, temperature, top-k, top-p, num_beams, repetition_penalty, seed.
Reconnaître les pièges courants lors de la génération.
Savoir combiner plusieurs stratégies pour un contrôle optimal.
Comprendre l’impact de chaque paramètre sur la diversité et la cohérence.
Être capable d’interpréter un tableau comparatif des méthodes.
Savoir quand privilégier la rapidité ou la qualité.
Connaître les limites de chaque méthode de décodage.

Introduction aux modèles de langage et stratégies de décodage

Crée tes propres fiches en 30 secondes

1. Vue d'ensemble

2. Concepts clés & Éléments essentiels

3. Points à Haut Rendement

4. Tableau de Synthèse

5. Mini-Schéma ASCII

6. Bullets de Révision Rapide

Introduction aux modèles de langage et stratégies de décodage

Crée tes propres fiches en 30 secondes

Fiche de Révision : Modèles de Langage et Décodage

1. 📌 L'essentiel

2. 🧩 Structures & Composants clés

3. 🔬 Fonctions, Mécanismes & Relations

4. Tableau comparatif

5. 🗂️ Diagramme Hiérarchique ASCII

6. ⚠️ Pièges & Confusions fréquentes

7. ✅ Checklist Examen Final

Introduction aux modèles de langage et stratégies de décodage

Introduction aux modèles de langage et stratégies de décodage

Quelle stratégie de décodage consiste à choisir à chaque étape le token le plus probable, de manière rapide et déterministe ?

Introduction aux modèles de langage et stratégies de décodage

Progression globale

Détail par thème

Introduction au système

Les différents types

Structure axiale

Structure appendiculaire

Suivi de progression par thème

Introduction aux modèles de langage et stratégies de décodage

Crée tes propres fiches en 30 secondes

1. Vue d'ensemble

2. Concepts clés & Éléments essentiels

3. Points à Haut Rendement

4. Tableau de Synthèse

5. Mini-Schéma ASCII

6. Bullets de Révision Rapide

Introduction aux modèles de langage et stratégies de décodage

Crée tes propres fiches en 30 secondes

Fiche de Révision : Modèles de Langage et Décodage

1. 📌 L'essentiel

2. 🧩 Structures & Composants clés

3. 🔬 Fonctions, Mécanismes & Relations

4. Tableau comparatif

5. 🗂️ Diagramme Hiérarchique ASCII

6. ⚠️ Pièges & Confusions fréquentes

7. ✅ Checklist Examen Final

Introduction aux modèles de langage et stratégies de décodage

Introduction aux modèles de langage et stratégies de décodage

Quelle stratégie de décodage consiste à choisir à chaque étape le token le plus probable, de manière rapide et déterministe ?

Introduction aux modèles de langage et stratégies de décodage

Progression globale

Détail par thème

Introduction au système

Les différents types

Structure axiale

Structure appendiculaire

Suivi de progression par thème