Fiche de révision : Introduction à la classification et ses métriques

📋 Plan du Cours

  1. Problématique de classification pour variable qualitative et exemples d’application
  2. Régression logistique : modélisation de la probabilité, fonction de coût et estimation des paramètres
  3. Extension à la régression logistique multiple et interprétation des coefficients
  4. Algorithme des K plus proches voisins (KNN) : principe, choix de K et métriques de distance
  5. Mesures de performance en classification : précision, rappel, F1-score et spécificité
  6. Courbe ROC, aire sous la courbe (AUC) et sélection du seuil optimal
  7. Applications pratiques et questions sur la classification, surapprentissage et évaluation

📖 1. Problématique de classification pour variable qualitative et exemples d’application

🔑 Notions clés & Définitions

  • Problème de classification : Un problème de classification consiste à prédire une variable qualitative, c’est-à-dire à déterminer la classe à laquelle une observation appartient, comme par exemple distinguer un email spam d’un email non-spam.
  • Classification 2 Pourquoi : La classification est utilisée lorsque la variable à prédire est qualitative et ne convient pas à la régression linéaire, notamment pour des applications telles que la détection de fraude, la prédiction de récidive judiciaire ou le filtrage d’emails.
  • Performance Application et Questions : La performance en classification se mesure dans des applications concrètes comme la détection de fraude ou la prédiction de récidive, où il est essentiel d’évaluer la capacité du modèle à classer correctement les observations.
  • Evaluation de la performance Application : L’évaluation de la performance d’un modèle de classification utilise des métriques adaptées telles que la précision et le rappel pour mesurer la qualité des classifications réalisées.

📝 Points essentiels

  • La classification est utilisée lorsque la variable à prédire Y est qualitative, par exemple pour détecter un email spam ou une transaction frauduleuse.
  • La classification consiste à prédire la probabilité qu’une observation appartienne à une classe donnée (ex: spam ou non-spam).
  • La classification est une alternative à la régression linéaire lorsque Y n’est pas quantitative.
  • Logistique K plus proches voisins Evaluation de la performance Application et Questions Un Exemple d’entreprise Shift Technology: start-up française créée en 2014 Idée: détection de fraude basée sur l’intelligence artificielle (dédiée aux assureurs) Taux de pertinence de 75% (initialement) Problème de classification Un sinistre est déclaré et il faut déterminer s’il s’agit d’une fraude ou non Aujourd’hui valorisée à plus de 1 milliard d’euros 6 / 66 Introduction R.Linéaire ?
  • 2 Vrai ou Faux: Il s’agit de classification lorsqu’un modèle prédit si un email est du spam 3 Quel est le problème principal de la régression linéaire lorsqu’on l’applique à un problème de classification?

💡 À retenir

Comprendre que la classification répond au besoin spécifique de prédire des variables qualitatives dans des contextes concrets variés.

📖 2. Régression logistique : modélisation de la probabilité, fonction de coût et estimation des paramètres

🔑 Notions clés & Définitions

  • Régression logistique : Logistique K plus proches voisins Evaluation de la performance Application et Questions Retour sur l’application: Pr´ediction de la victoire aux l´egislatives Régression linéaire: y

📝 Points essentiels

  • La fonction de coût utilisée est non-convexe et définie par J(θ) = -1/m ∑ [Y_i log h(X_i) + (1 - Y_i) log(1 - h(X_i))].
  • Le coût pénalise fortement les mauvaises prédictions, tendant vers +∞ quand la prédiction est très erronée.
  • Les paramètres sont estimés par descente de gradient, mise à jour itérative des coefficients pour minimiser la fonction de coût.
  • 4 Vrai ou Faux: la fonction de coût de la régression logistique est la même que la fonction de coût de la régression linéaire 5 Vrai ou Faux: On ne peut pas utiliser la descente de gradient pour trouver les paramètres de la régression logistique 54 / 66 Introduction R.Linéaire ?
  • Logistique K plus proches voisins Evaluation de la performance Application et Questions Contexte On cherche à modéliser une probabilité comprise entre 0 et 1 On veut: 0 ≤ h(x) ≤ 1 De nombreuses fonctions respectent cette propriété Ici: fonction logistique → Régression logistique 15 / 66 Introduction R.Linéaire ?

💡 À retenir

Saisir comment la régression logistique modélise des probabilités et optimise ses paramètres via une fonction de coût adaptée.

📖 3. Extension à la régression logistique multiple et interprétation des coefficients

🔑 Notions clés & Définitions

  • Régression logistique multiple : Modèle statistique qui estime la probabilité qu'une variable binaire prenne la valeur 1 en fonction d'une ou plusieurs variables explicatives, en utilisant une fonction logistique.

📝 Points essentiels

  • La régression logistique multiple étend la modélisation à plusieurs variables explicatives X1, X2, ..., Xp.
  • La régression logistique multiple permet d’intégrer des variables quantitatives et qualitatives.

💡 À retenir

La régression logistique multiple est essentielle pour modéliser l’influence simultanée de plusieurs variables sur une probabilité, en utilisant une formule logistique adaptée.

📖 4. Algorithme des K plus proches voisins (KNN) : principe, choix de K et métriques de distance

🔑 Notions clés & Définitions

  • Principe : Le classificateur KNN attribue à une observation le label majoritaire parmi ses K voisins les plus proches dans l’espace des variables.
  • Plus proches voisins : Méthode qui classe une observation en fonction de la majorité des labels de ses K voisins les plus proches selon une métrique de distance.

📝 Points essentiels

  • Le choix de K est un compromis biais-variance : faible K donne faible biais mais forte variance, grand K inversement.
  • La proximité est définie par une métrique de distance, par exemple Euclidienne, Minkowski ou Manhattan.
  • Le classificateur estime la probabilité conditionnelle de classe comme la proportion des voisins appartenant à cette classe.

💡 À retenir

KNN classe une observation par proximité locale, où le choix de K et la métrique de distance sont cruciaux pour la performance.

📖 5. Mesures de performance en classification : précision, rappel, F1-score et spécificité

🔑 Notions clés & Définitions

  • Rappel : Mesure de la proportion d’exemples positifs correctement identifiés parmi tous les exemples positifs réels.
  • Précision : Mesure de la proportion de prédictions positives correctes parmi toutes les prédictions positives.

📝 Points essentiels

  • Le F1-score est la moyenne harmonique de la précision et du rappel, équilibrant les deux.
  • La spécificité mesure la proportion de vrais négatifs correctement identifiés.
  • Ces métriques sont essentielles pour évaluer la qualité d’un classificateur, notamment en cas d’événements rares.
  • Logistique K plus proches voisins Evaluation de la performance Application et Questions Mesurer la qualit´e de la classification Intuitivement: Le pourcentage de prédictions correctes pour chaque caté- gorie, Y= 0 et Y= 1 Le pourcentage global de prédictions correctes est une moyenne pondérée des deux, les poids étant les fractions des résultats 0 et 1, respectivement Mais Cette mesure n’est pas pertinente si on doit prédire un événement rare Ex: développer une maladie rare (0.01% des individus la développent) 37 / 66 Introduction R.Linéaire ?

💡 À retenir

Comprendre et utiliser les métriques clés telles que la précision, le rappel, le F1-score et la spécificité permet d’évaluer précisément la performance des classificateurs, en particulier pour les événements rares.

📖 6. Courbe ROC, aire sous la courbe (AUC) et sélection du seuil optimal

🔑 Notions clés & Définitions

  • Courbe ROC : Représentation graphique qui trace le taux de vrais positifs (sensibilité) en fonction du taux de faux positifs (1 - spécificité) pour différents seuils de classification afin d’évaluer la performance d’un modèle.
  • Aire sous la courbe (AUC) : Indicateur quantifiant la capacité globale d’un classificateur à distinguer entre les classes, où une valeur proche de 1 signifie une excellente discrimination.

📝 Points essentiels

  • L’AUC mesure la capacité globale du classificateur à séparer les classes, une AUC proche de 1 indique un excellent modèle.
  • Le seuil optimal peut être choisi au point le plus proche du coin supérieur gauche de la courbe ROC ou au point maximisant la distance à la diagonale.
  • Le choix du seuil dépend aussi des coûts d’erreur associés aux faux positifs et faux négatifs.
  • L’AUC est une métrique robuste pour comparer différents modèles indépendamment du seuil.

💡 À retenir

Le seuil optimal peut être choisi au point le plus proche du coin supérieur gauche de la courbe ROC ou au point maximisant la distance à la diagonale.

📖 7. Applications pratiques et questions sur la classification, surapprentissage et évaluation

🔑 Notions clés & Définitions

  • Cross-validation : Méthode d’évaluation de la capacité de généralisation d’un modèle consistant à diviser les données en plusieurs sous-ensembles, comme dans la LOOCV où chaque observation est utilisée une fois comme test, ou la K-fold où les données sont divisées en K groupes.
  • Matrice de confusion : Tableau résumant les résultats d’un classificateur en distinguant les prédictions vraies positives, vraies négatives, faux positifs et faux négatifs pour mesurer la qualité de la classification.
  • Voisins Evaluation de la performance : Processus d’évaluation de la qualité d’un modèle basé sur la classification par les K plus proches voisins, en mesurant la précision des prédictions sur des données test.

📝 Points essentiels

  • La cross-validation (LOOCV, K-fold) permet d’évaluer la capacité de généralisation d’un modèle.
  • La matrice de confusion résume les prédictions vraies positives, vraies négatives, faux positifs et faux négatifs.
  • L’évaluation doit prendre en compte le compromis précision/rappel selon le contexte d’application.
  • Les questions d’application vérifient la compréhension des concepts et l’interprétation des résultats.
  • Logistique K plus proches voisins Evaluation de la performance Application et Questions Arbitrage pr´ecision / rappel L’importance du seuil Il est possible d’obtenir le compromis précision/rappel d’un classifica- teur en calculant la valeur des deux métriques pour différents niveaux de seuil Remarque : le rappel diminue toujours avec la valeur du seuil, alors que l’évolution de la précision n’est pas monotone.

💡 À retenir

Intégrer les enjeux pratiques de l’évaluation et de la validation des modèles permet d’éviter le surapprentissage et d’assurer leur robustesse.

📊 Tableaux de Synthèse

Comparaison des métriques de performance

MétriqueObjectifIndicateur
PrécisionProportion de prédictions positives correctesVérifier la fiabilité des prédictions positives
RappelProportion d’exemples positifs correctement identifiésMesurer la sensibilité du modèle
F1-scoreMoyenne harmonique de précision et rappelÉquilibrer précision et rappel
SpécificitéProportion de vrais négatifs correctement identifiésÉvaluer la capacité à détecter les négatifs

Choix de K et métriques de distance en KNN

CritèreDescription
K optimalBiais-variance, compromis entre sous- et sur-apprentissage
Métrique de distanceEuclidienne, Minkowski, Manhattan, influence la proximité
Impact KFaible K: faible biais, forte variance; grand K: inversement

⚠️ Pièges & Confusions Fréquentes

  1. Confusion entre précision et rappel, notamment en cas d’événements rares.
  2. Choix inapproprié de K en KNN, menant à un sur- ou sous-apprentissage.
  3. Interprétation erronée de l’AUC comme seule mesure de performance.
  4. Utilisation exclusive de la précision dans des classes déséquilibrées.
  5. Mauvaise sélection du seuil de classification, affectant la sensibilité et la spécificité.
  6. Ignorer la validation croisée, menant à une évaluation biaisée.
  7. Confusion entre la fonction de coût de la régression logistique et celle de la régression linéaire.

✅ Checklist Examen

  1. Comprendre la différence entre classification et régression.
  2. Savoir modéliser une probabilité avec la régression logistique.
  3. Interpréter les coefficients en régression logistique multiple.
  4. Choisir K et la métrique de distance en KNN.
  5. Calculer et interpréter la précision, le rappel, le F1-score et la spécificité.
  6. Tracer la courbe ROC et calculer l’AUC.
  7. Utiliser la validation croisée pour évaluer la généralisation.
  8. Analyser la matrice de confusion pour comprendre les erreurs.
  9. Gérer le compromis entre précision et rappel selon le contexte.
  10. Éviter le surapprentissage en utilisant des méthodes de validation.

Testez vos connaissances

Testez vos connaissances sur Introduction à la classification et ses métriques avec 8 questions à choix multiples avec corrections détaillées.

1. Quelle affirmation correspond au sujet « Problématique de classification pour variable qualitative et exemples d’application » ?

2. Qu'est-ce qu'une classification dans le contexte de l'apprentissage automatique ?

Faire le QCM →

Révisez avec les flashcards

Mémorisez les concepts clés de Introduction à la classification et ses métriques avec 9 flashcards interactives.

Problème de classification — définition ?

Prédire une variable qualitative, comme spam/non-spam.

Problème de classification — définition?

Prédiction d'une classe qualitative.

Régression logistique — rôle ?

Modéliser la probabilité qu’une observation appartienne à une classe.

Voir les flashcards →

Cours similaires

Crée tes propres fiches de révision

Importe ton cours et l'IA génère fiches, QCM et flashcards en 30 secondes.

Générateur de fiches