Fiche de révision : Introduction aux données et validation en ML

📋 Plan du Cours

  1. Espace de données d’apprentissage et composants
  2. Dataset et types de sous-ensembles
  3. Types de features et encodages
  4. Sorties et nature des problèmes ML
  5. Qualité des données et préparation
  6. Transformation et feature engineering
  7. Phases du processus d’apprentissage
  8. Stratégies de validation des modèles
  9. Métriques de régression et interprétation
  10. Métriques de classification et matrice de confusion

📖 1. Espace de données d’apprentissage et composants

🔑 Notions clés & Définitions

  • Espace de données d’apprentissage : L’espace de données d’apprentissage regroupe toutes les informations utilisées pour entraîner un modèle, incluant entrées, sorties attendues et leur représentation mathématique.
  • Features : Les features sont les variables d’entrée que le modèle observe pour faire ses prédictions.
  • Labels : Les labels sont les cibles (sorties attendues) que le modèle doit apprendre à prédire en apprentissage supervisé.
  • Dataset : Un dataset est un tableau structuré qui stocke les données d’apprentissage sous forme d’observations et de variables, avec éventuellement une étiquette.
  • Training set : Le training set est la partie du dataset utilisée pour entraîner le modèle.

📝 Points essentiels

  • Les entrées XX correspondent aux features et forment une matrice de taille nexemples×pfeaturesn_{exemples} \times p_{features}.
  • Les sorties yy correspondent aux labels et forment un vecteur de taille nexemplesn_{exemples}.
  • La représentation des données doit être numérique pour être exploitable par le modèle.
  • Une transformation des données est souvent nécessaire pour obtenir un format numérique (ex. normalisation, encodage).
  • Un dataset est organisé en observations (lignes) et variables (colonnes).
  • En apprentissage supervisé, le dataset inclut une étiquette appelée target ou label, et il est découpé en training set, validation set et test set.

💡 Astuce mémo

X = matrice (exemples × features) ; y = vecteur (exemples) ; dataset = lignes = observations, colonnes = variables.

📖 2. Dataset et types de sous-ensembles

🔑 Notions clés & Définitions

  • Dataset : Un dataset est un ensemble d’exemples d’apprentissage, chacun décrit par des features XX et associé à une sortie yy.
  • Feature : Une feature est une variable mesurée pour chaque exemple, utilisée comme entrée du modèle.
  • Feature numérique continue : Une feature numérique continue prend des valeurs réelles sur un intervalle, comme la température ou le prix.
  • Feature catégorielle nominale : Une feature catégorielle nominale regroupe des catégories sans ordre, comme la ville ou la couleur.
  • Label y : Un label yy est la sortie associée à chaque exemple, dont la nature détermine le type de problème.

📝 Points essentiels

  • Un exemple de dataset pour la prédiction du prix d’une maison associe des colonnes comme Surface, Chambres, Âge et Distance centre à une cible prix.
  • La représentation mathématique d’un dataset s’écrit XX comme une matrice où x(i)jx(i)_j est la valeur de la feature jj pour l’exemple ii.
  • En pratique, des outils comme Pandas construisent automatiquement la représentation matricielle à partir d’un tableau de données.
  • Les features numériques discrètes sont des entiers (ex : nombre de chambres, âge en années) et restent directement utilisables par les algorithmes.
  • Les features catégorielles ordinales nécessitent un encodage ordinal (Petit=1, Moyen=2, Grand=3) car il existe un ordre.
  • Les features binaires se codent en 00 ou 11 (ex : Oui/Non, Vrai/Faux).

💡 Astuce mémo

Matrice XX = lignes = exemples, colonnes = features : x(i)jx(i)_j relie l’exemple ii à la feature jj.

📖 3. Types de features et encodages

🔑 Notions clés & Définitions

  • Feature numérique : Une feature numérique prend des valeurs quantitatives (ex. prix, température, consommation) et peut être continue ou discrète.
  • Feature catégorielle : Une feature catégorielle regroupe des valeurs en classes (ex. type d’animal) sans ordre numérique naturel.
  • Variable cible discrète : Une variable cible discrète ne prend qu’un nombre fini de classes distinctes, ce qui oriente vers des modèles de classification.
  • Données manquantes : Des données manquantes correspondent à des champs non renseignés (NULL, NA ou vide) qui perturbent l’apprentissage.
  • Encodage UTF-8 : Un encodage comme UTF-8 définit comment les caractères sont représentés en mémoire pour éviter les problèmes de texte.

📝 Points essentiels

  • La classification apparaît quand la variable cible est discrète avec un ensemble fini de classes (ex. spam/non-spam, chien/chat/oiseau).
  • Les features numériques posent des problèmes d’échelle car certains algorithmes (K-NN, SVM, réseaux de neurones) sont sensibles aux grandeurs des nombres.
  • La normalisation vise à mettre toutes les variables sur la même échelle pour éviter qu’une variable à grands nombres domine les distances ou calculs.
  • Les données manquantes peuvent être traitées par suppression si elles sont rares, ou par imputation (moyenne, médiane, etc.).
  • L’imputation par K-NN remplace une valeur manquante à partir des K voisins les plus proches, en s’appuyant sur la similarité des lignes.
  • Les incohérences incluent contradictions, formats différents et variations de casse (ex. Alger vs alger) qu’il faut harmoniser avant l’encodage et l’apprentissage.

💡 Astuce mémo

Cible discrète → classes finies → classification ; Échelles différentes → normalisation (sinon le grand nombre “écrase” le reste).

📖 4. Sorties et nature des problèmes ML

🔑 Notions clés & Définitions

  • Normalisation : La normalisation est une transformation qui met toutes les variables sur une échelle comparable pour éviter qu’une variable domine par ses valeurs numériques.
  • Min-Max Scaling : Le Min-Max Scaling est une normalisation qui ramène une variable dans l’intervalle [0,1] à partir de son minimum et de son maximum.
  • Standardization : La standardisation est une transformation qui recentre les données autour de 0 et les met à une dispersion de référence via l’écart-type.
  • Z-Score Standardization : Le Z-Score Standardization est une standardisation basée sur la moyenne μ et l’écart-type σ pour obtenir des valeurs centrées et comparables.
  • Encodage des variables catégorielles : L’encodage est une transformation qui convertit des variables catégorielles en représentation numérique exploitable par les algorithmes ML.

📝 Points essentiels

  • Les algorithmes sensibles aux échelles (comme K-NN, SVM et réseaux de neurones) peuvent surpondérer une variable simplement parce que ses nombres sont plus grands.
  • La normalisation vise à rendre les variables comparables afin que l’algorithme traite chaque feature de façon plus équitable.
  • Min-Max Scaling utilise x=xmin(x)max(x)min(x)x' = \frac{x-\min(x)}{\max(x)-\min(x)} et garantit x[0,1]x'\in[0,1].
  • La standardisation (Z-score) utilise x=xμσx' = \frac{x-\mu}{\sigma} et produit des données avec μ=0\mu=0 et σ=1\sigma=1.
  • Exemple d’échelles : si Surface (50–200) et Prix (150–400) ont des amplitudes différentes, la normalisation les ramène sur [0,1] alors que la standardisation les centre autour de 0 avec des valeurs négatives et positives
  • L’encodage sert à transformer des variables catégorielles (non numériques) en variables numériques pour que le modèle puisse les utiliser.

💡 Astuce mémo

Échelles → Normalisation (0-1) ou Standardisation (z-score) : K-NN/SVM/NN veulent des nombres comparables.

📖 5. Qualité des données et préparation

🔑 Notions clés & Définitions

  • Binning sémantique : Le binning sémantique est une discrétisation qui regroupe les valeurs en intervalles ayant un sens métier ou une logique de catégories.
  • Quantiles : Les quantiles sont des découpages de la distribution en intervalles contenant le même nombre d’observations.
  • Discrétisation : La discrétisation est la transformation d’une variable continue en catégories ou intervalles pour simplifier l’analyse ou certains modèles.
  • Train set : Le train set est l’ensemble de données utilisé pour apprendre les paramètres du modèle.
  • Test set : Le test set est l’ensemble de données réservé à l’évaluation finale des performances du modèle.

📝 Points essentiels

  • Un modèle ne doit jamais être évalué sur les données qui ont servi à l’entraînement, sinon on mesure surtout la mémorisation plutôt que la généralisation.
  • Une division typique est 80% train / 20% test, avec aussi des variantes courantes comme 70%/30% ou 90%/10% quand les données sont rares.
  • Pour optimiser des hyperparamètres, on utilise souvent trois ensembles : train (60%), validation (20%) et test (20%).
  • Le test set ne doit être utilisé qu’une seule fois, à la toute fin, pour l’évaluation finale des performances.
  • La discrétisation peut être utile pour des arbres de décision ou pour améliorer l’interprétation des résultats.
  • Le binning basé sur quantiles découpe les données pour obtenir le même nombre d’observations dans chaque intervalle.

💡 Astuce mémo

Quantiles = mêmes effectifs par intervalle ; Test = dernière photo (une seule fois).

📖 6. Transformation et feature engineering

🔑 Notions clés & Définitions

  • Feature engineering : Ensemble des transformations appliquées aux variables pour rendre les données plus exploitables par un modèle prédictif.
  • Transformation des données : Opérations qui modifient les entrées (ex. mise à l’échelle ou encodage) afin d’améliorer l’apprentissage et la qualité des prédictions.
  • Entraînement itératif : Procédure où les paramètres du modèle sont ajustés progressivement à partir d’une erreur mesurée sur les données d’entraînement.
  • Early stopping : Technique d’arrêt de l’entraînement quand l’erreur sur validation cesse de diminuer et commence à augmenter.
  • Sur-apprentissage : Situation où le modèle performe bien sur train mais généralise mal, car il a appris des motifs trop spécifiques aux données vues.

📝 Points essentiels

  • Le schéma d’entraînement itératif suit : initialisation de θ, prédiction sur Xtrain, calcul de l’erreur J(θ), mise à jour θ = θ − α∇J(θ), puis répétition jusqu’à convergence.
  • Un exemple de convergence en régression linéaire montre que θ0 et θ1 se stabilisent après un nombre d’itérations (ex. 1000) et que l’erreur train peut chuter (ex. 100% → 50% → 10%).
  • Le critère d’arrêt principal est la convergence : l’erreur ne diminue presque plus.
  • Early stopping arrête l’entraînement lorsque l’erreur sur l’ensemble de validation commence à augmenter, signalant un début de sur-apprentissage.
  • En testing, on fige les paramètres θ appris puis on calcule les prédictions sur Xtest : y^test=fθ(Xtest)\hat{y}_{test}=f_{\theta}(X_{test}) et on mesure des métriques de performance.
  • Comparer erreur test et erreur train aide à diagnostiquer : erreur test > erreur train est normal, écart modéré = bonne généralisation, écart important = sur-apprentissage.

💡 Astuce mémo

Convergence = erreur qui baisse, Early stopping = validation qui remonte, Généralisation = écart train/test pas trop grand.

📖 7. Phases du processus d’apprentissage

🔑 Notions clés & Définitions

  • Hold-Out : Stratégie d’évaluation qui sépare une seule fois le dataset en un ensemble d’entraînement et un ensemble de test.
  • Validation croisée k-fold : Stratégie d’évaluation qui découpe le dataset en k folds et répète l’entraînement k fois en testant un fold différent à chaque itération.
  • Leave-One-Out : Validation croisée extrême où k = n, chaque exemple sert une fois de test et les n−1 autres servent d’entraînement.
  • Train set : Sous-ensemble utilisé pour ajuster le modèle pendant l’entraînement.
  • Test set : Sous-ensemble utilisé pour mesurer la performance du modèle sur des données non vues pendant l’entraînement.

📝 Points essentiels

  • Hold-Out divise typiquement le dataset en Train (70%) et Test (30%) via une séparation unique.
  • Hold-Out est simple et rapide, et convient bien aux grands datasets.
  • Avec Hold-Out, le score dépend fortement du tirage de la séparation train/test.
  • Hold-Out “gaspille” des données car le test set n’est jamais utilisé pour l’entraînement.
  • En k-fold, le score final se calcule comme la moyenne des scores des k itérations : Score = (1/k)∑_{i=1}^{k} Score_i.
  • En k-fold, à l’itération i, le fold i sert de test et les k−1 autres folds servent d’entraînement.

💡 Astuce mémo

Hold-Out = 1 séparation (rapide), k-fold = k essais (moyenne), LOO = n essais (max données).

📖 8. Stratégies de validation des modèles

🔑 Notions clés & Définitions

  • Validation croisée k-fold : La validation croisée k-fold est une méthode où l’on découpe les données en k folds et où chaque fold sert de test pendant que les autres servent à l’entraînement.
  • Leave-one-out (k = n) : Le leave-one-out est une validation croisée particulière où k vaut n, donc chaque exemple est utilisé une fois comme test et les n−1 autres comme entraînement.
  • Validation stratifiée : La validation stratifiée est une méthode qui conserve les mêmes proportions de classes dans chaque fold en séparant les exemples par classe puis en répartissant ces sous-ensembles.
  • Mean Squared Error : Le Mean Squared Error (MSE) est une métrique de régression qui mesure l’erreur quadratique moyenne entre les valeurs réelles et prédites.
  • Root Mean Squared Error : Le Root Mean Squared Error (RMSE) est la racine du MSE et donne une mesure d’erreur en conservant l’unité de la variable cible.

📝 Points essentiels

  • En k-fold, chaque exemple appartient à un seul fold de test lors d’une itération, tandis que les autres folds constituent l’entraînement.
  • En leave-one-out, chaque exemple sert exactement une fois de test et les n−1 autres servent d’entraînement.
  • Le leave-one-out utilise au maximum les données pour l’entraînement et est déterministe, sans tirage aléatoire.
  • Le leave-one-out est très coûteux car il nécessite n entraînements, et la variance de l’estimation est élevée car chaque test set contient un seul exemple.
  • La validation stratifiée évite qu’un split aléatoire produise un test set sans certaines classes lorsque les classes sont déséquilibrées.
  • Exemple stratifié : si A=900 (90%) et B=100 (10%), un split 80/20 donne Train 720 A + 80 B et Test 180 A + 20 B en gardant les proportions.

💡 Astuce mémo

k-fold : k tests, 1 fold à la fois ; leave-one-out : 1 test = 1 exemple ; stratifié : mêmes % de classes partout.

📖 9. Métriques de régression et interprétation

🔑 Notions clés & Définitions

  • MSE : La MSE (Mean Squared Error) mesure l’erreur moyenne au carré entre yiy_i et 2_i, pénalisant davantage les grosses erreurs.
  • MAE : Le MAE (Mean Absolute Error) mesure l’erreur moyenne en valeur absolue entre yiy_i et 2_i, donc moins sensible aux valeurs extrêmes que la MSE.
  • RMSE : Le RMSE (Root Mean Squared Error) est la racine de la MSE, ce qui remet l’erreur dans l’unité de la variable cible.
  • Coefficient de détermination R² : Le coefficient de détermination R2R^2 quantifie la part de variance de yy expliquée par le modèle via un rapport entre somme des carrés des résidus et variance totale.
  • Erreurs de classification : Les erreurs de classification décrivent les cas où la prédiction de classe est correcte ou incorrecte, regroupés en TP, TN, FP et FN.

📝 Points essentiels

  • La MSE pénalise plus fortement les outliers que la MAE car les erreurs sont élevées au carré avant moyenne.
  • MAE et MSE n’ont pas la même unité : la MSE est en (unité de yy)2^2 alors que le RMSE revient à l’unité de yy.
  • Formule de R2R^2 : R2=1i=1n(yiy^i)2i=1n(yiyˉ)2R^2 = 1 - \dfrac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}.
  • Interprétation de R2R^2 : R2R^2 représente le pourcentage de variance expliquée par le modèle.
  • Valeurs typiques de R2R^2 : R2=1R^2=1 signifie prédictions parfaites, R2=0R^2=0 signifie aussi bon qu’une moyenne, et R2R^2 peut être négatif si le modèle est très mauvais.
  • Pour l’exemple prix de maisons, les erreurs sont 5,+10,10,+5-5, +10, -10, +5 DA, donnant MAE=7.5MAE=7.5 DA, MSE=62.5MSE=62.5 (DA)2^2 et RMSE=7.9RMSE=7.9 DA (approx.).

💡 Astuce mémo

MAE = moyenne des erreurs absolues (robuste aux outliers), MSE = erreurs au carré (outliers punis), RMSE = MSE puis racine (retour à l’unité).

📖 10. Métriques de classification et matrice de confusion

🔑 Notions clés & Définitions

  • Matrice de confusion : La matrice de confusion est un tableau qui compare les classes réelles aux classes prédites pour mesurer la qualité d’un modèle de classification.
  • Vrai positif : Un vrai positif correspond à une prédiction positive correcte quand la réalité est positive.
  • Faux négatif : Un faux négatif est une prédiction négative alors que la réalité est positive, ce qui fait manquer un cas positif.
  • Faux positif : Un faux positif est une prédiction positive alors que la réalité est négative, ce qui crée une alerte inutile.
  • Vrai négatif : Un vrai négatif correspond à une prédiction négative correcte quand la réalité est négative.

📝 Points essentiels

  • La matrice de confusion croise la réalité (positif/négatif) et la prédiction (positif/négatif) avec TP, FN, FP, TN.
  • La diagonale de la matrice regroupe les prédictions correctes (TP et TN).
  • Accuracy = (TP + TN) / (TP + TN + FP + FN) et mesure la proportion de prédictions correctes.
  • Precision = TP / (TP + FP) et répond à la question « parmi les prédictions positives, combien sont vraiment positives ? ».
  • Recall = TP / (TP + FN) et répond à la question « parmi les vrais positifs, combien ont été détectés ? ».
  • Precision et Recall sont souvent en conflit : un modèle très précis tend à rater des positifs (beaucoup de FN), tandis qu’un modèle très sensible tend à créer des alertes (beaucoup de FP).

💡 Astuce mémo

Diagonale = bon (TP/TN) ; hors diagonale = erreurs (FP/FN) ; Precision = « parmi mes + », Recall = « parmi les vrais + ».

📊 Tableaux de synthèse

Comparaison des stratégies de validation

MéthodeTestPoints clés
Hold-OutUne seule séparation train/testSimple/rapide, dépend du tirage, test non utilisé pour entraîner
Validation croisée k-foldUn fold différent à chaque itérationScore final = moyenne des k scores, utilise toutes les données, plus coûteux
Leave-One-Out (LOO)Chaque exemple une fois en testMax données, déterministe, très coûteux et variance élevée

Comparaison des métriques de régression

MétriqueForme de l’erreurInterprétation
MSEErreur au carré puis moyennePénalise fortement les grosses erreurs, unité en (unité de y)²
RMSERacine de la MSEMême unité que y, plus interprétable
MAEErreur absolue puis moyenneMoins sensible aux outliers, même unité que y
1 - (résidus²)/(variance totale)% de variance expliquée, peut être négatif si très mauvais

⚠️ Pièges & confusions fréquents

  1. Confondre features (variables d’entrée X) et labels (cibles y) : on inverse alors la tâche d’apprentissage.
  2. Croire qu’on peut évaluer sur le training set : on mesure la mémorisation au lieu de la généralisation.
  3. Traiter toutes les features comme numériques : les catégorielles nominales/ordinales et binaires nécessitent des encodages adaptés.
  4. Oublier la normalisation/standardisation alors que K-NN, SVM et réseaux de neurones sont sensibles aux échelles : une variable à grands nombres domine.
  5. Mélanger Min-Max Scaling et Standardization : Min-Max donne x'∈[0,1], alors que le Z-score centre autour de 0 avec écart-type 1.
  6. Confondre k-fold et leave-one-out : en LOO, k=n et chaque test set contient un seul exemple, donc c’est très coûteux.
  7. Confondre Precision et Recall : Precision répond « parmi mes prédictions positives », Recall répond « parmi les vrais positifs » (souvent en conflit).

✅ Checklist Examen

  1. Définir l’espace de données d’apprentissage et citer ses composants : entrées X, sorties attendues y, et représentation numérique exploitable.
  2. Donner les dimensions de X (n_exemples × p_features) et de y (n_exemples) et expliquer ce que représentent x(i)_j.
  3. Expliquer ce qu’est un dataset et distinguer observations (lignes), variables (colonnes) et étiquette (target/label) en apprentissage supervisé.
  4. Classer les types de features vus (numérique continue, numérique discrète, catégorielle nominale, catégorielle ordinale, binaire) et préciser le traitement attendu (ex. encodage ordinal, 0/1).
  5. Relier la nature de y au type de problème : régression si y est continue, classification si y est discrète avec un ensemble fini de classes.
  6. Identifier et traiter les problèmes de qualité : données manquantes (suppression/imputation/K-NN), incohérences (casse/formats), outliers (Z-score/IQR/Isolation Forest/DBSCAN), doublons.
  7. Choisir une transformation pour les échelles : expliquer pourquoi normaliser et distinguer Min-Max Scaling (0-1) de la standardisation Z-score (μ=0, σ=1).
  8. Décrire le feature engineering : sélection/création de features (ex. âge dérivé, panier moyen) et réduction de dimension (PCA).
  9. Expliquer la discrétisation et citer les méthodes : binning à largeur égale, binning à fréquence égale (quantiles), binning sémantique, et quand c’est utile (ex. arbres de décision/interprétation).
  10. Décrire les phases du processus : collecte, préparation, division Train/Test (et Train/Valid/Test), entraînement itératif (θ, prédiction, erreur, mise à jour), puis évaluation sur Test avec comparaison train/test.
  11. Justifier la règle « ne jamais évaluer sur les données d’entraînement » et rappeler l’usage unique du test set à la fin.
  12. Maîtriser les stratégies de validation : Hold-Out (une séparation), k-fold (score moyen sur k itérations), LOO (k=n, déterministe, coûteux), et validation stratifiée (mêmes proportions de classes).
  13. Calculer et interpréter les métriques de régression : MSE, RMSE, MAE, et R² (formule et sens : variance expliquée, valeurs typiques).
  14. Calculer et interpréter les métriques de classification à partir de la matrice de confusion : TP/TN/FP/FN, Accuracy, Precision, Recall, et comprendre le conflit Precision/Recall (F1-Score).

Testez vos connaissances

Testez vos connaissances sur Introduction aux données et validation en ML avec 20 questions à choix multiples avec corrections détaillées.

1. Que représente l’espace de données d’apprentissage dans un problème supervisé ?

2. Dans une représentation matricielle des données, que désigne généralement X ?

Faire le QCM →

Révisez avec les flashcards

Mémorisez les concepts clés de Introduction aux données et validation en ML avec 19 flashcards interactives.

Espace de données d’apprentissage — composants ?

Features, labels, représentation numérique

Dataset — sous-ensembles principaux ?

Training, validation, test

Features numériques — types ?

Continue, discrète

Voir les flashcards →

Cours similaires

Crée tes propres fiches de révision

Importe ton cours et l'IA génère fiches, QCM et flashcards en 30 secondes.

Générateur de fiches