Fiche de révision : Introduction aux données et validation en ML

Plan du Cours

Espace de données d’apprentissage et composants
Dataset et types de sous-ensembles
Types de features et encodages
Sorties et nature des problèmes ML
Qualité des données et préparation
Transformation et feature engineering
Phases du processus d’apprentissage
Stratégies de validation des modèles
Métriques de régression et interprétation
Métriques de classification et matrice de confusion

1. Espace de données d’apprentissage et composants

Notions clés & Définitions

Espace de données d’apprentissage : L’espace de données d’apprentissage regroupe toutes les informations utilisées pour entraîner un modèle, incluant entrées, sorties attendues et leur représentation mathématique.
Features : Les features sont les variables d’entrée que le modèle observe pour faire ses prédictions.
Labels : Les labels sont les cibles (sorties attendues) que le modèle doit apprendre à prédire en apprentissage supervisé.
Dataset : Un dataset est un tableau structuré qui stocke les données d’apprentissage sous forme d’observations et de variables, avec éventuellement une étiquette.
Training set : Le training set est la partie du dataset utilisée pour entraîner le modèle.

Points essentiels

Les entrées $X$ correspondent aux features et forment une matrice de taille $n_{exemples} \times p_{features}$ .
Les sorties $y$ correspondent aux labels et forment un vecteur de taille $n_{exemples}$ .
La représentation des données doit être numérique pour être exploitable par le modèle.
Une transformation des données est souvent nécessaire pour obtenir un format numérique (ex. normalisation, encodage).
Un dataset est organisé en observations (lignes) et variables (colonnes).
En apprentissage supervisé, le dataset inclut une étiquette appelée target ou label, et il est découpé en training set, validation set et test set.

Astuce mémo

X = matrice (exemples × features) ; y = vecteur (exemples) ; dataset = lignes = observations, colonnes = variables.

2. Dataset et types de sous-ensembles

Notions clés & Définitions

Dataset : Un dataset est un ensemble d’exemples d’apprentissage, chacun décrit par des features $X$ et associé à une sortie $y$ .
Feature : Une feature est une variable mesurée pour chaque exemple, utilisée comme entrée du modèle.
Feature numérique continue : Une feature numérique continue prend des valeurs réelles sur un intervalle, comme la température ou le prix.
Feature catégorielle nominale : Une feature catégorielle nominale regroupe des catégories sans ordre, comme la ville ou la couleur.
Label y : Un label $y$ est la sortie associée à chaque exemple, dont la nature détermine le type de problème.

Points essentiels

Un exemple de dataset pour la prédiction du prix d’une maison associe des colonnes comme Surface, Chambres, Âge et Distance centre à une cible prix.
La représentation mathématique d’un dataset s’écrit $X$ comme une matrice où $x(i)_j$ est la valeur de la feature $j$ pour l’exemple $i$ .
En pratique, des outils comme Pandas construisent automatiquement la représentation matricielle à partir d’un tableau de données.
Les features numériques discrètes sont des entiers (ex : nombre de chambres, âge en années) et restent directement utilisables par les algorithmes.
Les features catégorielles ordinales nécessitent un encodage ordinal (Petit=1, Moyen=2, Grand=3) car il existe un ordre.
Les features binaires se codent en $0$ ou $1$ (ex : Oui/Non, Vrai/Faux).

Astuce mémo

Matrice $X$ = lignes = exemples, colonnes = features : $x(i)_j$ relie l’exemple $i$ à la feature $j$ .

3. Types de features et encodages

Notions clés & Définitions

Feature numérique : Une feature numérique prend des valeurs quantitatives (ex. prix, température, consommation) et peut être continue ou discrète.
Feature catégorielle : Une feature catégorielle regroupe des valeurs en classes (ex. type d’animal) sans ordre numérique naturel.
Variable cible discrète : Une variable cible discrète ne prend qu’un nombre fini de classes distinctes, ce qui oriente vers des modèles de classification.
Données manquantes : Des données manquantes correspondent à des champs non renseignés (NULL, NA ou vide) qui perturbent l’apprentissage.
Encodage UTF-8 : Un encodage comme UTF-8 définit comment les caractères sont représentés en mémoire pour éviter les problèmes de texte.

Points essentiels

La classification apparaît quand la variable cible est discrète avec un ensemble fini de classes (ex. spam/non-spam, chien/chat/oiseau).
Les features numériques posent des problèmes d’échelle car certains algorithmes (K-NN, SVM, réseaux de neurones) sont sensibles aux grandeurs des nombres.
La normalisation vise à mettre toutes les variables sur la même échelle pour éviter qu’une variable à grands nombres domine les distances ou calculs.
Les données manquantes peuvent être traitées par suppression si elles sont rares, ou par imputation (moyenne, médiane, etc.).
L’imputation par K-NN remplace une valeur manquante à partir des K voisins les plus proches, en s’appuyant sur la similarité des lignes.
Les incohérences incluent contradictions, formats différents et variations de casse (ex. Alger vs alger) qu’il faut harmoniser avant l’encodage et l’apprentissage.

Astuce mémo

Cible discrète → classes finies → classification ; Échelles différentes → normalisation (sinon le grand nombre “écrase” le reste).

4. Sorties et nature des problèmes ML

Notions clés & Définitions

Normalisation : La normalisation est une transformation qui met toutes les variables sur une échelle comparable pour éviter qu’une variable domine par ses valeurs numériques.
Min-Max Scaling : Le Min-Max Scaling est une normalisation qui ramène une variable dans l’intervalle [0,1] à partir de son minimum et de son maximum.
Standardization : La standardisation est une transformation qui recentre les données autour de 0 et les met à une dispersion de référence via l’écart-type.
Z-Score Standardization : Le Z-Score Standardization est une standardisation basée sur la moyenne μ et l’écart-type σ pour obtenir des valeurs centrées et comparables.
Encodage des variables catégorielles : L’encodage est une transformation qui convertit des variables catégorielles en représentation numérique exploitable par les algorithmes ML.

Points essentiels

Les algorithmes sensibles aux échelles (comme K-NN, SVM et réseaux de neurones) peuvent surpondérer une variable simplement parce que ses nombres sont plus grands.
La normalisation vise à rendre les variables comparables afin que l’algorithme traite chaque feature de façon plus équitable.
Min-Max Scaling utilise $x' = \frac{x-\min(x)}{\max(x)-\min(x)}$ et garantit $x'\in[0,1]$ .
La standardisation (Z-score) utilise $x' = \frac{x-\mu}{\sigma}$ et produit des données avec $\mu=0$ et $\sigma=1$ .
Exemple d’échelles : si Surface (50–200) et Prix (150–400) ont des amplitudes différentes, la normalisation les ramène sur [0,1] alors que la standardisation les centre autour de 0 avec des valeurs négatives et positives
L’encodage sert à transformer des variables catégorielles (non numériques) en variables numériques pour que le modèle puisse les utiliser.

Astuce mémo

Échelles → Normalisation (0-1) ou Standardisation (z-score) : K-NN/SVM/NN veulent des nombres comparables.

5. Qualité des données et préparation

Notions clés & Définitions

Binning sémantique : Le binning sémantique est une discrétisation qui regroupe les valeurs en intervalles ayant un sens métier ou une logique de catégories.
Quantiles : Les quantiles sont des découpages de la distribution en intervalles contenant le même nombre d’observations.
Discrétisation : La discrétisation est la transformation d’une variable continue en catégories ou intervalles pour simplifier l’analyse ou certains modèles.
Train set : Le train set est l’ensemble de données utilisé pour apprendre les paramètres du modèle.
Test set : Le test set est l’ensemble de données réservé à l’évaluation finale des performances du modèle.

Points essentiels

Un modèle ne doit jamais être évalué sur les données qui ont servi à l’entraînement, sinon on mesure surtout la mémorisation plutôt que la généralisation.
Une division typique est 80% train / 20% test, avec aussi des variantes courantes comme 70%/30% ou 90%/10% quand les données sont rares.
Pour optimiser des hyperparamètres, on utilise souvent trois ensembles : train (60%), validation (20%) et test (20%).
Le test set ne doit être utilisé qu’une seule fois, à la toute fin, pour l’évaluation finale des performances.
La discrétisation peut être utile pour des arbres de décision ou pour améliorer l’interprétation des résultats.
Le binning basé sur quantiles découpe les données pour obtenir le même nombre d’observations dans chaque intervalle.

Astuce mémo

Quantiles = mêmes effectifs par intervalle ; Test = dernière photo (une seule fois).

6. Transformation et feature engineering

Notions clés & Définitions

Feature engineering : Ensemble des transformations appliquées aux variables pour rendre les données plus exploitables par un modèle prédictif.
Transformation des données : Opérations qui modifient les entrées (ex. mise à l’échelle ou encodage) afin d’améliorer l’apprentissage et la qualité des prédictions.
Entraînement itératif : Procédure où les paramètres du modèle sont ajustés progressivement à partir d’une erreur mesurée sur les données d’entraînement.
Early stopping : Technique d’arrêt de l’entraînement quand l’erreur sur validation cesse de diminuer et commence à augmenter.
Sur-apprentissage : Situation où le modèle performe bien sur train mais généralise mal, car il a appris des motifs trop spécifiques aux données vues.

Points essentiels

Le schéma d’entraînement itératif suit : initialisation de θ, prédiction sur Xtrain, calcul de l’erreur J(θ), mise à jour θ = θ − α∇J(θ), puis répétition jusqu’à convergence.
Un exemple de convergence en régression linéaire montre que θ0 et θ1 se stabilisent après un nombre d’itérations (ex. 1000) et que l’erreur train peut chuter (ex. 100% → 50% → 10%).
Le critère d’arrêt principal est la convergence : l’erreur ne diminue presque plus.
Early stopping arrête l’entraînement lorsque l’erreur sur l’ensemble de validation commence à augmenter, signalant un début de sur-apprentissage.
En testing, on fige les paramètres θ appris puis on calcule les prédictions sur Xtest : $\hat{y}_{test}=f_{\theta}(X_{test})$ et on mesure des métriques de performance.
Comparer erreur test et erreur train aide à diagnostiquer : erreur test > erreur train est normal, écart modéré = bonne généralisation, écart important = sur-apprentissage.

Astuce mémo

Convergence = erreur qui baisse, Early stopping = validation qui remonte, Généralisation = écart train/test pas trop grand.

7. Phases du processus d’apprentissage

Notions clés & Définitions

Hold-Out : Stratégie d’évaluation qui sépare une seule fois le dataset en un ensemble d’entraînement et un ensemble de test.
Validation croisée k-fold : Stratégie d’évaluation qui découpe le dataset en k folds et répète l’entraînement k fois en testant un fold différent à chaque itération.
Leave-One-Out : Validation croisée extrême où k = n, chaque exemple sert une fois de test et les n−1 autres servent d’entraînement.
Train set : Sous-ensemble utilisé pour ajuster le modèle pendant l’entraînement.
Test set : Sous-ensemble utilisé pour mesurer la performance du modèle sur des données non vues pendant l’entraînement.

Points essentiels

Hold-Out divise typiquement le dataset en Train (70%) et Test (30%) via une séparation unique.
Hold-Out est simple et rapide, et convient bien aux grands datasets.
Avec Hold-Out, le score dépend fortement du tirage de la séparation train/test.
Hold-Out “gaspille” des données car le test set n’est jamais utilisé pour l’entraînement.
En k-fold, le score final se calcule comme la moyenne des scores des k itérations : Score = (1/k)∑_{i=1}^{k} Score_i.
En k-fold, à l’itération i, le fold i sert de test et les k−1 autres folds servent d’entraînement.

Astuce mémo

Hold-Out = 1 séparation (rapide), k-fold = k essais (moyenne), LOO = n essais (max données).

8. Stratégies de validation des modèles

Notions clés & Définitions

Validation croisée k-fold : La validation croisée k-fold est une méthode où l’on découpe les données en k folds et où chaque fold sert de test pendant que les autres servent à l’entraînement.
Leave-one-out (k = n) : Le leave-one-out est une validation croisée particulière où k vaut n, donc chaque exemple est utilisé une fois comme test et les n−1 autres comme entraînement.
Validation stratifiée : La validation stratifiée est une méthode qui conserve les mêmes proportions de classes dans chaque fold en séparant les exemples par classe puis en répartissant ces sous-ensembles.
Mean Squared Error : Le Mean Squared Error (MSE) est une métrique de régression qui mesure l’erreur quadratique moyenne entre les valeurs réelles et prédites.
Root Mean Squared Error : Le Root Mean Squared Error (RMSE) est la racine du MSE et donne une mesure d’erreur en conservant l’unité de la variable cible.

Points essentiels

En k-fold, chaque exemple appartient à un seul fold de test lors d’une itération, tandis que les autres folds constituent l’entraînement.
En leave-one-out, chaque exemple sert exactement une fois de test et les n−1 autres servent d’entraînement.
Le leave-one-out utilise au maximum les données pour l’entraînement et est déterministe, sans tirage aléatoire.
Le leave-one-out est très coûteux car il nécessite n entraînements, et la variance de l’estimation est élevée car chaque test set contient un seul exemple.
La validation stratifiée évite qu’un split aléatoire produise un test set sans certaines classes lorsque les classes sont déséquilibrées.
Exemple stratifié : si A=900 (90%) et B=100 (10%), un split 80/20 donne Train 720 A + 80 B et Test 180 A + 20 B en gardant les proportions.

Astuce mémo

k-fold : k tests, 1 fold à la fois ; leave-one-out : 1 test = 1 exemple ; stratifié : mêmes % de classes partout.

9. Métriques de régression et interprétation

Notions clés & Définitions

MSE : La MSE (Mean Squared Error) mesure l’erreur moyenne au carré entre $y_i$ et $2_i$ , pénalisant davantage les grosses erreurs.
MAE : Le MAE (Mean Absolute Error) mesure l’erreur moyenne en valeur absolue entre $y_i$ et $2_i$ , donc moins sensible aux valeurs extrêmes que la MSE.
RMSE : Le RMSE (Root Mean Squared Error) est la racine de la MSE, ce qui remet l’erreur dans l’unité de la variable cible.
Coefficient de détermination R² : Le coefficient de détermination $R^2$ quantifie la part de variance de $y$ expliquée par le modèle via un rapport entre somme des carrés des résidus et variance totale.
Erreurs de classification : Les erreurs de classification décrivent les cas où la prédiction de classe est correcte ou incorrecte, regroupés en TP, TN, FP et FN.

Points essentiels

La MSE pénalise plus fortement les outliers que la MAE car les erreurs sont élevées au carré avant moyenne.
MAE et MSE n’ont pas la même unité : la MSE est en (unité de $y$ ) $^2$ alors que le RMSE revient à l’unité de $y$ .
Formule de $R^2$ : $R^2 = 1 - \dfrac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}$ .
Interprétation de $R^2$ : $R^2$ représente le pourcentage de variance expliquée par le modèle.
Valeurs typiques de $R^2$ : $R^2=1$ signifie prédictions parfaites, $R^2=0$ signifie aussi bon qu’une moyenne, et $R^2$ peut être négatif si le modèle est très mauvais.
Pour l’exemple prix de maisons, les erreurs sont $-5, +10, -10, +5$ DA, donnant $MAE=7.5$ DA, $MSE=62.5$ (DA) $^2$ et $RMSE=7.9$ DA (approx.).

Astuce mémo

MAE = moyenne des erreurs absolues (robuste aux outliers), MSE = erreurs au carré (outliers punis), RMSE = MSE puis racine (retour à l’unité).

10. Métriques de classification et matrice de confusion

Notions clés & Définitions

Matrice de confusion : La matrice de confusion est un tableau qui compare les classes réelles aux classes prédites pour mesurer la qualité d’un modèle de classification.
Vrai positif : Un vrai positif correspond à une prédiction positive correcte quand la réalité est positive.
Faux négatif : Un faux négatif est une prédiction négative alors que la réalité est positive, ce qui fait manquer un cas positif.
Faux positif : Un faux positif est une prédiction positive alors que la réalité est négative, ce qui crée une alerte inutile.
Vrai négatif : Un vrai négatif correspond à une prédiction négative correcte quand la réalité est négative.

Points essentiels

La matrice de confusion croise la réalité (positif/négatif) et la prédiction (positif/négatif) avec TP, FN, FP, TN.
La diagonale de la matrice regroupe les prédictions correctes (TP et TN).
Accuracy = (TP + TN) / (TP + TN + FP + FN) et mesure la proportion de prédictions correctes.
Precision = TP / (TP + FP) et répond à la question « parmi les prédictions positives, combien sont vraiment positives ? ».
Recall = TP / (TP + FN) et répond à la question « parmi les vrais positifs, combien ont été détectés ? ».
Precision et Recall sont souvent en conflit : un modèle très précis tend à rater des positifs (beaucoup de FN), tandis qu’un modèle très sensible tend à créer des alertes (beaucoup de FP).

Astuce mémo

Diagonale = bon (TP/TN) ; hors diagonale = erreurs (FP/FN) ; Precision = « parmi mes + », Recall = « parmi les vrais + ».

Tableaux de synthèse

Comparaison des stratégies de validation

Méthode	Test	Points clés
Hold-Out	Une seule séparation train/test	Simple/rapide, dépend du tirage, test non utilisé pour entraîner
Validation croisée k-fold	Un fold différent à chaque itération	Score final = moyenne des k scores, utilise toutes les données, plus coûteux
Leave-One-Out (LOO)	Chaque exemple une fois en test	Max données, déterministe, très coûteux et variance élevée

Comparaison des métriques de régression

Métrique	Forme de l’erreur	Interprétation
MSE	Erreur au carré puis moyenne	Pénalise fortement les grosses erreurs, unité en (unité de y)²
RMSE	Racine de la MSE	Même unité que y, plus interprétable
MAE	Erreur absolue puis moyenne	Moins sensible aux outliers, même unité que y
R²	1 - (résidus²)/(variance totale)	% de variance expliquée, peut être négatif si très mauvais

Pièges & confusions fréquents

Confondre features (variables d’entrée X) et labels (cibles y) : on inverse alors la tâche d’apprentissage.
Croire qu’on peut évaluer sur le training set : on mesure la mémorisation au lieu de la généralisation.
Traiter toutes les features comme numériques : les catégorielles nominales/ordinales et binaires nécessitent des encodages adaptés.
Oublier la normalisation/standardisation alors que K-NN, SVM et réseaux de neurones sont sensibles aux échelles : une variable à grands nombres domine.
Mélanger Min-Max Scaling et Standardization : Min-Max donne x'∈[0,1], alors que le Z-score centre autour de 0 avec écart-type 1.
Confondre k-fold et leave-one-out : en LOO, k=n et chaque test set contient un seul exemple, donc c’est très coûteux.
Confondre Precision et Recall : Precision répond « parmi mes prédictions positives », Recall répond « parmi les vrais positifs » (souvent en conflit).

Checklist Examen

Définir l’espace de données d’apprentissage et citer ses composants : entrées X, sorties attendues y, et représentation numérique exploitable.
Donner les dimensions de X (n_exemples × p_features) et de y (n_exemples) et expliquer ce que représentent x(i)_j.
Expliquer ce qu’est un dataset et distinguer observations (lignes), variables (colonnes) et étiquette (target/label) en apprentissage supervisé.
Classer les types de features vus (numérique continue, numérique discrète, catégorielle nominale, catégorielle ordinale, binaire) et préciser le traitement attendu (ex. encodage ordinal, 0/1).
Relier la nature de y au type de problème : régression si y est continue, classification si y est discrète avec un ensemble fini de classes.
Identifier et traiter les problèmes de qualité : données manquantes (suppression/imputation/K-NN), incohérences (casse/formats), outliers (Z-score/IQR/Isolation Forest/DBSCAN), doublons.
Choisir une transformation pour les échelles : expliquer pourquoi normaliser et distinguer Min-Max Scaling (0-1) de la standardisation Z-score (μ=0, σ=1).
Décrire le feature engineering : sélection/création de features (ex. âge dérivé, panier moyen) et réduction de dimension (PCA).
Expliquer la discrétisation et citer les méthodes : binning à largeur égale, binning à fréquence égale (quantiles), binning sémantique, et quand c’est utile (ex. arbres de décision/interprétation).
Décrire les phases du processus : collecte, préparation, division Train/Test (et Train/Valid/Test), entraînement itératif (θ, prédiction, erreur, mise à jour), puis évaluation sur Test avec comparaison train/test.
Justifier la règle « ne jamais évaluer sur les données d’entraînement » et rappeler l’usage unique du test set à la fin.
Maîtriser les stratégies de validation : Hold-Out (une séparation), k-fold (score moyen sur k itérations), LOO (k=n, déterministe, coûteux), et validation stratifiée (mêmes proportions de classes).
Calculer et interpréter les métriques de régression : MSE, RMSE, MAE, et R² (formule et sens : variance expliquée, valeurs typiques).
Calculer et interpréter les métriques de classification à partir de la matrice de confusion : TP/TN/FP/FN, Accuracy, Precision, Recall, et comprendre le conflit Precision/Recall (F1-Score).

📋 Plan du Cours

📖 1. Espace de données d’apprentissage et composants

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 2. Dataset et types de sous-ensembles

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 3. Types de features et encodages

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 4. Sorties et nature des problèmes ML

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 5. Qualité des données et préparation

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 6. Transformation et feature engineering

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 7. Phases du processus d’apprentissage

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 8. Stratégies de validation des modèles

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 9. Métriques de régression et interprétation

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 10. Métriques de classification et matrice de confusion

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📊 Tableaux de synthèse

Comparaison des stratégies de validation

Comparaison des métriques de régression

⚠️ Pièges & confusions fréquents

✅ Checklist Examen

Teste tes connaissances

Révisez avec les flashcards

Cours similaires

Algorithmique et structures de données

Gestion des fichiers en PHP

Identification utilisateur en PHP

Automated PCB Fault Diagnosis

Rôle d'un système d'exploitation

Questions techniques projet Compawgnon

Crée tes propres fiches de révision

Plan du Cours

1. Espace de données d’apprentissage et composants

Notions clés & Définitions

Points essentiels

Astuce mémo

2. Dataset et types de sous-ensembles

Notions clés & Définitions

Points essentiels

Astuce mémo

3. Types de features et encodages

Notions clés & Définitions

Points essentiels

Astuce mémo

4. Sorties et nature des problèmes ML

Notions clés & Définitions

Points essentiels

Astuce mémo

5. Qualité des données et préparation

Notions clés & Définitions

Points essentiels

Astuce mémo

6. Transformation et feature engineering

Notions clés & Définitions

Points essentiels

Astuce mémo

7. Phases du processus d’apprentissage

Notions clés & Définitions

Points essentiels

Astuce mémo

8. Stratégies de validation des modèles

Notions clés & Définitions

Points essentiels

Astuce mémo

9. Métriques de régression et interprétation

Notions clés & Définitions

Points essentiels

Astuce mémo

10. Métriques de classification et matrice de confusion

Notions clés & Définitions

Points essentiels

Astuce mémo

Tableaux de synthèse

Pièges & confusions fréquents

Checklist Examen