Fiche de révision : Introduction au Machine Learning

📋 Plan du Cours

  1. Applications du machine learning : AlphaGo, reconnaissance d’images et systèmes de recommandation
  2. Définition du problème en machine learning : variables explicatives, variable cible et objectifs d’estimation
  3. Types d'apprentissage : supervisé, non supervisé, semi-supervisé et par renforcement
  4. Distinction entre régression et classification selon la nature de la variable cible
  5. Prédiction en machine learning : erreur réductible et erreur irréductible, et importance de la précision de la prédiction
  6. Inférence en machine learning : identification des relations entre variables explicatives et variable cible
  7. Choix et classification des algorithmes de machine learning : méthodes paramétriques et non paramétriques
  8. Mesure de la qualité de l’estimation : fonctions de perte pour la régression et la classification

📖 1. Applications du machine learning : AlphaGo, reconnaissance d’images et systèmes de recommandation

🔑 Notions clés & Définitions

  • Objectif : Identification des caractéristiques utiles, des valeurs aberrantes, ...
  • 1 Si oui : Critère de validation d'une performance ou d'un résultat, illustré par la supériorité des algorithmes de machine learning en classification d’images en 2015.
  • En pratique : Les algorithmes sont classés en deux familles 1 Méthodes paramétriques 2 Méthodes non-paramétriques 66 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples M´ethodes param´etriques Deux étapes 1 Formuler une hypothèse sur la forme f
  • K-anonymat : Technique d’anonymisation des données qui regroupe les observations en partitions contenant au moins k individus partageant les mêmes quasi-identifiants, assurant la confidentialité.

📝 Points essentiels

  • AlphaGo a battu le numéro 1 mondial en 2017 en utilisant des techniques de machine learning, notamment réseaux de neurones profonds et apprentissage par renforcement.
  • En 2015, les algorithmes de machine learning ont surpassé les humains dans la classification d’images, notamment pour aider au diagnostic médical.
  • Les systèmes de recommandation utilisent le clustering pour segmenter les consommateurs selon leurs caractéristiques, facilitant la personnalisation.
  • Le Deep Learning (apprentissage profond) Parfois présenté comme une nouvelle approche en IA, parfois comme un sous-champ du machine learning Algorithme = “réseaux de neurones’ artificiels’ qui extraient et traitent de manière successive des informations spécifiques d’une entrée (par ex- emple, une image) Initialement développés dans les années 1980 mais sans succés Délaissé entre le milieu des années 90 et 2012 du fait de la difficulté à la faire fonctionner avec les ordinateurs de cette époque cette technique permet, dans la version qui a resurgit depuis 2012 de prédire des problèmes très complexes Performances remarquables dans la traduction et la reconnaissance d’images et sons notamment notamment grâce à l’augmentation importante des capacités de calcul des machines informatiques et la disponibilité de volumes de plus en plus grands de données (Big Data) 34 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Deep Learning vs Machine Learning Champ relativement récent en très forte progression 35 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Que du bonheur ?

💡 À retenir

Cette section montre comment le machine learning, par des applications concrètes comme AlphaGo, la reconnaissance d’images et la segmentation, révolutionne divers domaines.

📖 2. Définition du problème en machine learning : variables explicatives, variable cible et objectifs d’estimation

🔑 Notions clés & Définitions

  • Objectif : Identification des caractéristiques utiles, des valeurs aberrantes, ...

📝 Points essentiels

  • La fonction f relie les variables explicatives X1,...,Xp à la variable cible Y avec un terme d’erreur aléatoire ϵ de moyenne nulle.
  • Les variables explicatives sont aussi appelées prédicteurs ou features.
  • La variable cible est aussi appelée variable réponse ou target.
  • L’objectif est d’estimer la fonction f à partir des données observées (x,y).
  • "Non, c’est le machine learning qui est le mieux !" - Apprentissage statistique : Performance prédictive Gestion des données massives Cadre d’hypothèses moins restrictif (notamment, pas d’hypothèse sur la forme fonctionnelle du modèle) Modèles qui s’adapte aux données Capacité de gestion d’un grand nombre de features (exemple avec le génome) - Econométrie : Prédiction parfois moins performantes Moins grande capacité de gestion des données massives (notamment lorsque le nombre de variables explicatives est grand) Cadre d’hypothèses obligeant de rentrer les données dans le modèle ⇒ Il n’y a finalement pas de meilleure pratique entre économétrie et machine learning ⇒ tout intérêt à connaitre les deux types d’approches pour en tirer le meilleur + éventuellement les faire se compléter l’une et l’autre 80 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Trifacta 97 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Attention `a la pr´eparation des donn´ees Problèmes fréquents : Observations en double Données manquantes Hétérogénéité dans les conventions de présentation des données : fréquence des observations, unités, format de la date, représentation des données manquantes, ...
  • Le machine learning consiste en l’application de méthodes statistiques non-paramétriques : on cherche à estimer la fonction f et non les paramètres β 74 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Apprentissage statistique et ´econom´etrie Points communs répondre à une problématique en ayant recours à une modélisation établir une relation entre les variables explicatives (features) et la variable expliquée/labels être capable de réaliser des prévisions éventuellement pouvoir drésser des conclusions générales (inférer sur les résultats) Ressources bases de données recours nécessaire, à un moment donné, à un a priori (des hypothèses) sur le fonctionnement théorique de l’objet modélisé Outils mathématiques statistiques analyse de données 75 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Apprentissage statistique calcul (pour certains modèles) Pas de paramètres donc pas d’inférence Problème récurrent dans l’interprétation causale 79 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Apprentissage statistique et ´econom´etrie Comparaison normative : une approche est-elle meilleure que l’autre ?

💡 À retenir

Comprendre la structure fondamentale du problème de machine learning est essentiel pour formuler correctement les objectifs d’estimation.

📖 3. Types d'apprentissage : supervisé, non supervisé, semi-supervisé et par renforcement

🔑 Notions clés & Définitions

  • Econométrie : Discipline qui applique des méthodes statistiques à l'économie pour modéliser et analyser des phénomènes économiques, souvent en construisant des modèles probabilistes.
  • Apprentissage statistique : Domaine qui utilise des algorithmes adaptatifs pour estimer une fonction à partir de données, permettant de résoudre des problématiques sans spécifier explicitement un modèle paramétrique.
  • Supervisé : Chaque observation i, on connaît à la fois la variable explicative xi et la variable expliquée yi Objectif: apprendre la relation entre les caractéristiques et les étiquettes afin de faire des prévisions sur de nouvelles données Il y a deux grandes catégories

📝 Points essentiels

  • L'apprentissage supervisé utilise des données avec variable cible observée pour apprendre la relation X→Y.
  • L'apprentissage non supervisé regroupe les données sans variable cible observée, par exemple via le clustering.
  • L'apprentissage semi-supervisé combine un petit sous-ensemble de données étiquetées avec un grand ensemble non étiqueté.
  • L'apprentissage par renforcement apprend par interaction avec un environnement, en recevant des récompenses ou pénalités, utilisé notamment dans AlphaGo.

💡 À retenir

Cette section distingue clairement les modes d'apprentissage selon la disponibilité des étiquettes et la nature de la tâche.

📖 4. Distinction entre régression et classification selon la nature de la variable cible

🔑 Notions clés & Définitions

  • Régression : La régression est une catégorie de problèmes où la variable cible est quantitative, c'est-à-dire une valeur numérique continue à prédire.
  • Classification : ? 4 Qu’est-ce qu’un problème d’inférence? 5 Quelle est la différence avec un problème de prédiction?

📝 Points essentiels

  • Le choix entre régression et classification dépend de la nature de la variable cible observée.
  • La régression concerne les problèmes où la variable cible est quantitative (numérique).
  • Est-ce qu’Y est une variable quantitative ou qualitative?

💡 À retenir

Le choix entre régression et classification dépend de la nature de la variable cible observée.

📖 5. Prédiction en machine learning : erreur réductible et erreur irréductible, et importance de la précision de la prédiction

🔑 Notions clés & Définitions

  • Source : Le modèle de prédiction est formulé comme Y = f(X) + ϵ, où f est une fonction inconnue des variables explicatives X, et ϵ un terme d’erreur aléatoire de moyenne 0 et indépendant de X.
  • Erreur réductible : La composante de l'erreur de prédiction moyenne quadratique liée à l'estimation de la fonction f, qui peut être diminuée par un meilleur modèle ou algorithme.
  • Erreur irréductible : La composante de l'erreur due à la variance du terme d’erreur ϵ, inhérente au processus aléatoire, qui ne peut être réduite même avec le meilleur modèle.
  • Machine Learning : 94 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Plus de Donn´ees ou des Meilleurs Algorithmes?

📝 Points essentiels

  • L’erreur de prédiction moyenne quadratique se décompose en erreur réductible, liée à l’estimation de f, et erreur irréductible, correspondant à la variance du terme d’erreur ϵ.
  • L’erreur réductible peut être diminuée par l’amélioration du modèle ou de l’algorithme utilisé pour estimer f.
  • La précision de la prédiction ˆY dépend directement de la qualité de l’estimation ˆf de la fonction f.
  • Arbitrage entre la qualité de la prédiction et l’interprétabilité du mod- èle Objectif = meilleure prédiction possible Choix probable d’une méthode non-paramétrique Estimation plus flexible de f Objectif = modèle interprétable ex: comprendre la relation entre Y et X (inférence) Choix probable d’une méthode paramétrique Il y a des cas où les deux objectifs sont importants : credit scoring En général, plus un modèle va être flexible dans sa capacité à estimer f, moins il va être interprétable (et inversement) Risque principal des modèles flexibles : SURAPPRENTISSAGE (OVER- FITTING) 72 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Flexibilit´e vs.
  • 5 Comment mesurer la qualité de l’estimation?

💡 À retenir

La distinction entre erreurs réductible et irréductible est cruciale pour comprendre les limites et objectifs de la prédiction, car seule l’erreur réductible peut être améliorée par le modèle.

📖 6. Inférence en machine learning : identification des relations entre variables explicatives et variable cible

🔑 Notions clés & Définitions

📝 Points essentiels

  • L’inférence vise à comprendre comment la variable cible Y change en fonction des variables explicatives X.
  • Elle cherche à identifier les prédicteurs importants via des tests de significativité.
  • Elle analyse la magnitude, le sens (positif ou négatif) et la complexité (linéaire ou non-linéaire) des relations entre Y et X.
  • Le machine learning consiste en l’application de méthodes statistiques non-paramétriques : on cherche à estimer la fonction f et non les paramètres β 74 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Apprentissage statistique et ´econom´etrie Points communs répondre à une problématique en ayant recours à une modélisation établir une relation entre les variables explicatives (features) et la variable expliquée/labels être capable de réaliser des prévisions éventuellement pouvoir drésser des conclusions générales (inférer sur les résultats) Ressources bases de données recours nécessaire, à un moment donné, à un a priori (des hypothèses) sur le fonctionnement théorique de l’objet modélisé Outils mathématiques statistiques analyse de données 75 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Apprentissage statistique Apprentissage statistique et ´econom´etrie Fondements philosophiques & théoriques différents modélisation : - l’économétrie est souvent (attention pas toujours) paramétrique (maxi- mum de vraissemblance, méthode des moments, etc...).
  • Identification des prédicteurs importants ex: tests de significativité Quelle est la relation entre Y et X?

💡 À retenir

L’inférence vise à comprendre comment la variable cible Y change en fonction des variables explicatives X.

📖 7. Choix et classification des algorithmes de machine learning : méthodes paramétriques et non paramétriques

🔑 Notions clés & Définitions

  • Méthodes paramétriques : Approches qui supposent une forme fonctionnelle fixe avec un nombre limité de paramètres à estimer, ce qui simplifie le problème d'estimation et facilite l'interprétation du modèle.
  • Machine Learning : 14 / 111 Introduction Générale Ce cours Un Peu d’Histoire Machine Learning Exemples Cadre de ce cours Livres de référence : An Introduction to Statistical Learning, par Trevor Hastie, Gareth James, Daniela Witten et Robert Tibshirani (disponible en PDF en ligne) Python machine learning: Machine learning and deep learning with Python, scikit- learn, and TensorFlow 2, par Raschka, S., et Mirjalili, V.

📝 Points essentiels

  • Un algorithme de machine learning est une procédure appliquée aux données pour obtenir un modèle, qui est le résultat appris par l’algorithme, comme les coefficients d’une régression.
  • Les méthodes paramétriques supposent une forme fonctionnelle fixe avec un nombre limité de paramètres, ce qui facilite l’interprétation mais limite la flexibilité.
  • Les méthodes non paramétriques n’imposent pas de forme fixe, s’adaptant ainsi à des relations plus complexes, mais sont souvent plus difficiles à interpréter.
  • Il n’existe pas d’algorithme dominant universellement, le choix dépend du problème spécifique à traiter.

💡 À retenir

Le choix entre méthodes paramétriques et non paramétriques conditionne la flexibilité et l’adaptabilité du modèle appris.

📖 8. Mesure de la qualité de l’estimation : fonctions de perte pour la régression et la classification

🔑 Notions clés & Définitions

  • Fonction de perte : Fonction qui mesure le coût de l'écart entre la valeur observée Y et la prédiction ˆY, utilisée pour quantifier la qualité d'une estimation et influencer l'ajustement des paramètres du modèle.

📝 Points essentiels

  • La fonction de perte quantifie le coût de l’écart entre la valeur observée Y et la prédiction ˆY, et son choix influence l’estimation des paramètres et la qualité du modèle.
  • Pour la régression, l’erreur quadratique (L(y−ˆy)=(y−ˆy)²) pénalise fortement les erreurs importantes, tandis que l’erreur absolue (L(y−ˆy)=|y−ˆy|) pénalise de façon linéaire.

💡 À retenir

La fonction de perte est un outil clé pour quantifier et optimiser la qualité des estimations en machine learning.

📅 Repères chronologiques

DateÉvénement
2015Algorithmes de machine learning surpassent les humains dans la classification d’images
2017AlphaGo bat le numéro 1 mondial
1980Développement initial du Deep Learning
2012Reprise du Deep Learning avec succès

📊 Tableaux de Synthèse

Comparaison entre méthodes paramétriques et non paramétriques

CaractéristiqueMéthodes paramétriquesMéthodes non paramétriques
Forme fonctionnelleFixeFlexible
InterprétabilitéFacileDifficile
FlexibilitéLimitéeÉlevée
ExemplesRégression linéaire, LogistiqueArbres de décision, KNN

⚠️ Pièges & Confusions Fréquentes

  1. Confusion entre erreur réductible et irréductible, en pensant que l'une peut être complètement éliminée.
  2. Mélanger la distinction entre prédiction et inférence, en pensant que la prédiction donne des relations causales.
  3. Sous-estimer l'importance de la sélection de la fonction de perte adaptée au problème.
  4. Confondre classification et régression en ne se basant que sur la nature de la variable cible.
  5. Ignorer la différence entre méthodes paramétriques et non paramétriques, menant à un mauvais choix de modèle.
  6. Supposer qu’un seul algorithme est optimal pour tous les problèmes.
  7. Négliger l’impact de la qualité des données sur la performance du modèle.

✅ Checklist Examen

  1. Comprendre la différence entre apprentissage supervisé, non supervisé, semi-supervisé et par renforcement.
  2. Savoir distinguer régression et classification selon la nature de la variable cible.
  3. Maîtriser la décomposition de l’erreur de prédiction en erreur réductible et irréductible.
  4. Identifier les méthodes paramétriques et non paramétriques et leurs usages.
  5. Connaître les fonctions de perte pour la régression et la classification.
  6. Savoir comment l’inférence permet d’identifier les relations entre variables.
  7. Comprendre l’importance de la précision de la prédiction dans le contexte du machine learning.
  8. Se familiariser avec les exemples d’applications : AlphaGo, reconnaissance d’images, systèmes de recommandation.
  9. Connaître l’histoire et l’évolution du Deep Learning depuis 1980.
  10. Savoir utiliser des ressources pour approfondir le machine learning.
  11. Reconnaître les techniques d’anonymisation comme le K-anonymat.

Testez vos connaissances

Testez vos connaissances sur Introduction au Machine Learning avec 8 questions à choix multiples avec corrections détaillées.

1. Qu'est-ce que le K-anonymat en traitement de données ?

2. Quelle affirmation correspond au sujet « Définition du problème en machine learning : variables explicatives, variable cible et objectifs d’estimation » ?

Faire le QCM →

Révisez avec les flashcards

Mémorisez les concepts clés de Introduction au Machine Learning avec 16 flashcards interactives.

Applications du ML — exemples ?

AlphaGo, reconnaissance d’images, recommandations

Problème ML — variables ?

Variables explicatives, variable cible, objectifs d’estimation

Types d'apprentissage — principaux ?

Supervisé, non supervisé, semi-supervisé, par renforcement

Voir les flashcards →

Cours similaires

Crée tes propres fiches de révision

Importe ton cours et l'IA génère fiches, QCM et flashcards en 30 secondes.

Générateur de fiches