Fiche de révision : Introduction à la classification et ses métriques

Plan du Cours

Problématique de classification pour variable qualitative et exemples d’application
Régression logistique : modélisation de la probabilité, fonction de coût et estimation des paramètres
Extension à la régression logistique multiple et interprétation des coefficients
Algorithme des K plus proches voisins (KNN) : principe, choix de K et métriques de distance
Mesures de performance en classification : précision, rappel, F1-score et spécificité
Courbe ROC, aire sous la courbe (AUC) et sélection du seuil optimal
Applications pratiques et questions sur la classification, surapprentissage et évaluation

1. Problématique de classification pour variable qualitative et exemples d’application

Notions clés & Définitions

Problème de classification : Un problème de classification consiste à prédire une variable qualitative, c’est-à-dire à déterminer la classe à laquelle une observation appartient, comme par exemple distinguer un email spam d’un email non-spam.
Classification 2 Pourquoi : La classification est utilisée lorsque la variable à prédire est qualitative et ne convient pas à la régression linéaire, notamment pour des applications telles que la détection de fraude, la prédiction de récidive judiciaire ou le filtrage d’emails.
Performance Application et Questions : La performance en classification se mesure dans des applications concrètes comme la détection de fraude ou la prédiction de récidive, où il est essentiel d’évaluer la capacité du modèle à classer correctement les observations.
Evaluation de la performance Application : L’évaluation de la performance d’un modèle de classification utilise des métriques adaptées telles que la précision et le rappel pour mesurer la qualité des classifications réalisées.

Points essentiels

La classification est utilisée lorsque la variable à prédire Y est qualitative, par exemple pour détecter un email spam ou une transaction frauduleuse.
La classification consiste à prédire la probabilité qu’une observation appartienne à une classe donnée (ex: spam ou non-spam).
La classification est une alternative à la régression linéaire lorsque Y n’est pas quantitative.
Logistique K plus proches voisins Evaluation de la performance Application et Questions Un Exemple d’entreprise Shift Technology: start-up française créée en 2014 Idée: détection de fraude basée sur l’intelligence artificielle (dédiée aux assureurs) Taux de pertinence de 75% (initialement) Problème de classification Un sinistre est déclaré et il faut déterminer s’il s’agit d’une fraude ou non Aujourd’hui valorisée à plus de 1 milliard d’euros 6 / 66 Introduction R.Linéaire ?
2 Vrai ou Faux: Il s’agit de classification lorsqu’un modèle prédit si un email est du spam 3 Quel est le problème principal de la régression linéaire lorsqu’on l’applique à un problème de classification?

À retenir

Comprendre que la classification répond au besoin spécifique de prédire des variables qualitatives dans des contextes concrets variés.

2. Régression logistique : modélisation de la probabilité, fonction de coût et estimation des paramètres

Notions clés & Définitions

Régression logistique : Logistique K plus proches voisins Evaluation de la performance Application et Questions Retour sur l’application: Pr´ediction de la victoire aux l´egislatives Régression linéaire: y

Points essentiels

La fonction de coût utilisée est non-convexe et définie par J(θ) = -1/m ∑ [Y_i log h(X_i) + (1 - Y_i) log(1 - h(X_i))].
Le coût pénalise fortement les mauvaises prédictions, tendant vers +∞ quand la prédiction est très erronée.
Les paramètres sont estimés par descente de gradient, mise à jour itérative des coefficients pour minimiser la fonction de coût.
4 Vrai ou Faux: la fonction de coût de la régression logistique est la même que la fonction de coût de la régression linéaire 5 Vrai ou Faux: On ne peut pas utiliser la descente de gradient pour trouver les paramètres de la régression logistique 54 / 66 Introduction R.Linéaire ?
Logistique K plus proches voisins Evaluation de la performance Application et Questions Contexte On cherche à modéliser une probabilité comprise entre 0 et 1 On veut: 0 ≤ h(x) ≤ 1 De nombreuses fonctions respectent cette propriété Ici: fonction logistique → Régression logistique 15 / 66 Introduction R.Linéaire ?

À retenir

Saisir comment la régression logistique modélise des probabilités et optimise ses paramètres via une fonction de coût adaptée.

3. Extension à la régression logistique multiple et interprétation des coefficients

Notions clés & Définitions

Régression logistique multiple : Modèle statistique qui estime la probabilité qu'une variable binaire prenne la valeur 1 en fonction d'une ou plusieurs variables explicatives, en utilisant une fonction logistique.

Points essentiels

La régression logistique multiple étend la modélisation à plusieurs variables explicatives X1, X2, ..., Xp.
La régression logistique multiple permet d’intégrer des variables quantitatives et qualitatives.

À retenir

La régression logistique multiple est essentielle pour modéliser l’influence simultanée de plusieurs variables sur une probabilité, en utilisant une formule logistique adaptée.

4. Algorithme des K plus proches voisins (KNN) : principe, choix de K et métriques de distance

Notions clés & Définitions

Principe : Le classificateur KNN attribue à une observation le label majoritaire parmi ses K voisins les plus proches dans l’espace des variables.
Plus proches voisins : Méthode qui classe une observation en fonction de la majorité des labels de ses K voisins les plus proches selon une métrique de distance.

Points essentiels

Le choix de K est un compromis biais-variance : faible K donne faible biais mais forte variance, grand K inversement.
La proximité est définie par une métrique de distance, par exemple Euclidienne, Minkowski ou Manhattan.
Le classificateur estime la probabilité conditionnelle de classe comme la proportion des voisins appartenant à cette classe.

À retenir

KNN classe une observation par proximité locale, où le choix de K et la métrique de distance sont cruciaux pour la performance.

5. Mesures de performance en classification : précision, rappel, F1-score et spécificité

Notions clés & Définitions

Rappel : Mesure de la proportion d’exemples positifs correctement identifiés parmi tous les exemples positifs réels.
Précision : Mesure de la proportion de prédictions positives correctes parmi toutes les prédictions positives.

Points essentiels

Le F1-score est la moyenne harmonique de la précision et du rappel, équilibrant les deux.
La spécificité mesure la proportion de vrais négatifs correctement identifiés.
Ces métriques sont essentielles pour évaluer la qualité d’un classificateur, notamment en cas d’événements rares.
Logistique K plus proches voisins Evaluation de la performance Application et Questions Mesurer la qualit´e de la classification Intuitivement: Le pourcentage de prédictions correctes pour chaque caté- gorie, Y= 0 et Y= 1 Le pourcentage global de prédictions correctes est une moyenne pondérée des deux, les poids étant les fractions des résultats 0 et 1, respectivement Mais Cette mesure n’est pas pertinente si on doit prédire un événement rare Ex: développer une maladie rare (0.01% des individus la développent) 37 / 66 Introduction R.Linéaire ?

À retenir

Comprendre et utiliser les métriques clés telles que la précision, le rappel, le F1-score et la spécificité permet d’évaluer précisément la performance des classificateurs, en particulier pour les événements rares.

6. Courbe ROC, aire sous la courbe (AUC) et sélection du seuil optimal

Notions clés & Définitions

Courbe ROC : Représentation graphique qui trace le taux de vrais positifs (sensibilité) en fonction du taux de faux positifs (1 - spécificité) pour différents seuils de classification afin d’évaluer la performance d’un modèle.
Aire sous la courbe (AUC) : Indicateur quantifiant la capacité globale d’un classificateur à distinguer entre les classes, où une valeur proche de 1 signifie une excellente discrimination.

Points essentiels

L’AUC mesure la capacité globale du classificateur à séparer les classes, une AUC proche de 1 indique un excellent modèle.
Le seuil optimal peut être choisi au point le plus proche du coin supérieur gauche de la courbe ROC ou au point maximisant la distance à la diagonale.
Le choix du seuil dépend aussi des coûts d’erreur associés aux faux positifs et faux négatifs.
L’AUC est une métrique robuste pour comparer différents modèles indépendamment du seuil.

À retenir

Le seuil optimal peut être choisi au point le plus proche du coin supérieur gauche de la courbe ROC ou au point maximisant la distance à la diagonale.

7. Applications pratiques et questions sur la classification, surapprentissage et évaluation

Notions clés & Définitions

Cross-validation : Méthode d’évaluation de la capacité de généralisation d’un modèle consistant à diviser les données en plusieurs sous-ensembles, comme dans la LOOCV où chaque observation est utilisée une fois comme test, ou la K-fold où les données sont divisées en K groupes.
Matrice de confusion : Tableau résumant les résultats d’un classificateur en distinguant les prédictions vraies positives, vraies négatives, faux positifs et faux négatifs pour mesurer la qualité de la classification.
Voisins Evaluation de la performance : Processus d’évaluation de la qualité d’un modèle basé sur la classification par les K plus proches voisins, en mesurant la précision des prédictions sur des données test.

Points essentiels

La cross-validation (LOOCV, K-fold) permet d’évaluer la capacité de généralisation d’un modèle.
La matrice de confusion résume les prédictions vraies positives, vraies négatives, faux positifs et faux négatifs.
L’évaluation doit prendre en compte le compromis précision/rappel selon le contexte d’application.
Les questions d’application vérifient la compréhension des concepts et l’interprétation des résultats.
Logistique K plus proches voisins Evaluation de la performance Application et Questions Arbitrage pr´ecision / rappel L’importance du seuil Il est possible d’obtenir le compromis précision/rappel d’un classifica- teur en calculant la valeur des deux métriques pour différents niveaux de seuil Remarque : le rappel diminue toujours avec la valeur du seuil, alors que l’évolution de la précision n’est pas monotone.

À retenir

Intégrer les enjeux pratiques de l’évaluation et de la validation des modèles permet d’éviter le surapprentissage et d’assurer leur robustesse.

Tableaux de Synthèse

Comparaison des métriques de performance

Métrique	Objectif	Indicateur
Précision	Proportion de prédictions positives correctes	Vérifier la fiabilité des prédictions positives
Rappel	Proportion d’exemples positifs correctement identifiés	Mesurer la sensibilité du modèle
F1-score	Moyenne harmonique de précision et rappel	Équilibrer précision et rappel
Spécificité	Proportion de vrais négatifs correctement identifiés	Évaluer la capacité à détecter les négatifs

Choix de K et métriques de distance en KNN

Critère	Description
K optimal	Biais-variance, compromis entre sous- et sur-apprentissage
Métrique de distance	Euclidienne, Minkowski, Manhattan, influence la proximité
Impact K	Faible K: faible biais, forte variance; grand K: inversement

Pièges & Confusions Fréquentes

Confusion entre précision et rappel, notamment en cas d’événements rares.
Choix inapproprié de K en KNN, menant à un sur- ou sous-apprentissage.
Interprétation erronée de l’AUC comme seule mesure de performance.
Utilisation exclusive de la précision dans des classes déséquilibrées.
Mauvaise sélection du seuil de classification, affectant la sensibilité et la spécificité.
Ignorer la validation croisée, menant à une évaluation biaisée.
Confusion entre la fonction de coût de la régression logistique et celle de la régression linéaire.

Checklist Examen

Comprendre la différence entre classification et régression.
Savoir modéliser une probabilité avec la régression logistique.
Interpréter les coefficients en régression logistique multiple.
Choisir K et la métrique de distance en KNN.
Calculer et interpréter la précision, le rappel, le F1-score et la spécificité.
Tracer la courbe ROC et calculer l’AUC.
Utiliser la validation croisée pour évaluer la généralisation.
Analyser la matrice de confusion pour comprendre les erreurs.
Gérer le compromis entre précision et rappel selon le contexte.
Éviter le surapprentissage en utilisant des méthodes de validation.

📋 Plan du Cours

📖 1. Problématique de classification pour variable qualitative et exemples d’application

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 2. Régression logistique : modélisation de la probabilité, fonction de coût et estimation des paramètres

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 3. Extension à la régression logistique multiple et interprétation des coefficients

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 4. Algorithme des K plus proches voisins (KNN) : principe, choix de K et métriques de distance

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 5. Mesures de performance en classification : précision, rappel, F1-score et spécificité

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 6. Courbe ROC, aire sous la courbe (AUC) et sélection du seuil optimal

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 7. Applications pratiques et questions sur la classification, surapprentissage et évaluation

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📊 Tableaux de Synthèse

Comparaison des métriques de performance

Choix de K et métriques de distance en KNN

⚠️ Pièges & Confusions Fréquentes

✅ Checklist Examen

Teste tes connaissances

Révisez avec les flashcards

Cours similaires

Algorithmique et structures de données

Gestion des fichiers en PHP

Identification utilisateur en PHP

Automated PCB Fault Diagnosis

Rôle d'un système d'exploitation

Questions techniques projet Compawgnon

Crée tes propres fiches de révision

Plan du Cours

1. Problématique de classification pour variable qualitative et exemples d’application

Notions clés & Définitions

Points essentiels

À retenir

2. Régression logistique : modélisation de la probabilité, fonction de coût et estimation des paramètres

Notions clés & Définitions

Points essentiels

À retenir

3. Extension à la régression logistique multiple et interprétation des coefficients

Notions clés & Définitions

Points essentiels

À retenir

4. Algorithme des K plus proches voisins (KNN) : principe, choix de K et métriques de distance

Notions clés & Définitions

Points essentiels

À retenir

5. Mesures de performance en classification : précision, rappel, F1-score et spécificité

Notions clés & Définitions

Points essentiels

À retenir

6. Courbe ROC, aire sous la courbe (AUC) et sélection du seuil optimal

Notions clés & Définitions

Points essentiels

À retenir

7. Applications pratiques et questions sur la classification, surapprentissage et évaluation

Notions clés & Définitions

Points essentiels

À retenir

Tableaux de Synthèse

Pièges & Confusions Fréquentes

Checklist Examen