Fiche de révision : Analyse des réseaux et modélisation statistique

📋 Plan du Cours

  1. Régression linéaire simple
  2. Vérification préalable
  3. Interprétation du modèle
  4. Validation du modèle
  5. Régression linéaire multiple
  6. Sélection des variables
  7. Interprétation et validation
  8. Régression logistique
  9. Méthode de comparaison de moyennes
  10. Analyse de réseaux Gephi
  11. Détection de communautés Louvain

📖 1. Régression linéaire simple

🔑 Notions clés & Définitions

Régression linéaire simple
Selon Chapitre 1 du contenu source, la régression linéaire simple est une méthode statistique permettant d’expliquer une variable quantitative 𝑌 (variable à expliquer) par une autre variable quantitative 𝑋 (variable explicative). Le modèle s’écrit :
Y=aX+b+εY = aX + b + \varepsilon
où :

  • 𝑎 est le coefficient de régression, qui indique la pente de la relation linéaire entre 𝑋 et 𝑌.
  • 𝑏 est la constante ou intercept, représentant la valeur de 𝑌 lorsque 𝑋 = 0.
  • 𝜀 est le résidu ou erreur, représentant la différence entre la valeur observée de 𝑌 et celle prédite par le modèle.

Coefficient de régression (a)
Ce coefficient, défini dans le modèle, indique l’augmentation attendue de la variable 𝑌 pour une augmentation d’une unité de la variable 𝑋. Par exemple, si 𝑎 = 2, cela signifie que lorsque 𝑋 augmente de 1, 𝑌 augmente en moyenne de 2 unités.

Constante (b)
La constante, ou intercept, correspond à la valeur de 𝑌 lorsque 𝑋 est nul. Elle représente le point où la droite de régression croise l’axe des ordonnées.

Résidu (ε)
Le résidu est l’erreur ou la différence entre la valeur observée de 𝑌 et la valeur prédite par le modèle linéaire. Il mesure l’écart entre la réalité et la modélisation. La validité du modèle suppose que ces résidus suivent une loi normale et ne présentent pas de biais systématique.

Coefficient de corrélation (r)
Ce coefficient, calculé avant la régression, mesure la force et la direction de la relation linéaire entre 𝑋 et 𝑌. Il varie entre -1 et +1 :

  • +1 indique une corrélation positive parfaite,
  • -1 une corrélation négative parfaite,
  • 0 aucune corrélation.
    La significativité de cette corrélation est testée par un test de significativité, avec une hypothèse nulle (H0) selon laquelle 𝑟 = 0 (pas de corrélation). Si la p-value est inférieure à 5%, on rejette H0, ce qui indique une corrélation linéaire significative.

Coefficient de détermination (R²)
Ce coefficient, compris entre 0 et 1, indique la proportion de la variance de 𝑌 expliquée par la variable 𝑋 dans le modèle. Plus R² est proche de 1, meilleur est le modèle pour expliquer la variabilité de 𝑌. Par exemple, R² = 0,75 signifie que 75% de la variance de 𝑌 est expliquée par 𝑋, tandis que 25% reste inexpliquée ou due à d’autres facteurs ou à des erreurs.

📝 Points essentiels

Le modèle de régression linéaire simple s’écrit :
Y=aX+b+εY = aX + b + \varepsilon,
ce qui permet d’expliquer une variable quantitative 𝑌 par une autre variable quantitative 𝑋.

Le coefficient 𝑎 indique l’augmentation de 𝑌 pour une unité d’augmentation de 𝑋.
La constante 𝑏 représente la valeur de 𝑌 lorsque 𝑋 = 0.
Le coefficient de détermination 𝑅² mesure la proportion de variance de 𝑌 expliquée par 𝑋, variant entre 0 et 1. Plus cette valeur est proche de 1, plus le modèle est performant pour représenter la relation entre les deux variables.

💡 À retenir

La régression linéaire simple permet de quantifier et d’expliquer l’effet d’une variable explicative sur une variable à expliquer, en utilisant une relation linéaire dont la qualité est mesurée par le coefficient de détermination 𝑅².

📖 2. Vérification préalable

🔑 Notions clés & Définitions

Test de significativité du coefficient de corrélation :
Ce test permet de déterminer si la relation linéaire entre deux variables, généralement X et Y, est statistiquement significative. Avant de procéder à une régression, on évalue si le coefficient de corrélation r, qui mesure la force et la direction de cette relation, est différent de zéro de manière significative. La procédure consiste à formuler une hypothèse nulle (H0) selon laquelle r = 0, indiquant aucune relation linéaire, contre une hypothèse alternative (H1) selon laquelle r ≠ 0, indiquant une relation significative. La significativité est généralement testée à l’aide d’une p-value, qui indique la probabilité d’observer un coefficient de corrélation aussi extrême si H0 est vraie.

Hypothèses H0 et H1 pour corrélation :

  • H0 : r = 0, il n’y a pas de relation linéaire significative entre X et Y.
  • H1 : r ≠ 0, il existe une relation linéaire significative entre X et Y.

Ce test permet de valider ou non la pertinence d’une relation linéaire avant de construire un modèle de régression.

P-value :
La p-value est une mesure probabiliste qui indique la probabilité d’obtenir un résultat aussi extrême que celui observé, sous l’hypothèse nulle H0. Si cette valeur est faible, cela suggère que l’observation est peu compatible avec H0, ce qui peut conduire à le rejeter. La p-value est utilisée pour juger de la significativité du coefficient de corrélation ou de chaque coefficient dans un modèle de régression.

Seuil de 5% pour rejet de H0 :
Il s’agit du seuil de décision couramment utilisé pour déterminer si une hypothèse nulle doit être rejetée. Si la p-value est inférieure à 0,05 (soit 5%), on considère que le résultat est statistiquement significatif, et on rejette H0. Dans le contexte du test de corrélation, cela signifie que si la p-value associée à r est inférieure à 5%, la corrélation entre X et Y est considérée comme significative, justifiant la poursuite avec la régression.

📝 Points essentiels

Avant de réaliser une régression, il est crucial de tester si la corrélation entre la variable explicative X et la variable à expliquer Y est significative. Pour cela, on formule deux hypothèses : H0 : r = 0, ce qui indique qu’il n’y a pas de relation linéaire entre X et Y, et H1 : r ≠ 0, qui suppose une relation significative. On procède à un test statistique basé sur la p-value associée à la coefficient de corrélation. Si cette p-value est inférieure à 5%, on rejette H0, ce qui signifie que la corrélation est statistiquement significative. Dans ce cas, il est pertinent de continuer avec la construction du modèle de régression, car la relation entre X et Y est suffisamment forte pour être prise en compte. Si la p-value est supérieure à 5%, la corrélation n’est pas considérée comme significative, et il est alors inutile d’inclure X dans le modèle, car cela pourrait conduire à des résultats peu fiables ou non pertinents.

💡 À retenir

Il est essentiel de vérifier la significativité de la relation linéaire entre variables avant de construire un modèle de régression. Si la p-value associée au test de corrélation est inférieure à 5%, cela indique une relation statistiquement significative, permettant de poursuivre avec la modélisation. Sinon, il est préférable de ne pas considérer la variable explicative dans le modèle, afin d’assurer la pertinence et la fiabilité des résultats.

📖 3. Interprétation du modèle

🔑 Notions clés & Définitions

Interprétation du coefficient a
Le coefficient a indique l'effet unitaire de X sur Y. Autrement dit, il mesure la variation attendue de Y lorsque X augmente d'une unité, en maintenant toutes les autres variables constantes. Selon le contenu source, si 𝛽! = 18,6, une augmentation d’une unité de 𝑋! entraîne une augmentation de 18,6 unités de 𝑌. Cela permet de quantifier précisément l’impact d’une variable explicative sur la variable à expliquer.

Interprétation de la constante b
La constante b correspond à la valeur prédite de Y lorsque X=0. Elle représente donc le point de départ ou le niveau initial de Y dans le modèle, avant toute variation de X. La valeur de b sert de référence pour comprendre comment Y évolue en fonction de X, en particulier lorsque la variable explicative n’a pas encore d’effet.

Interprétation du coefficient de détermination R²
R² indique la qualité d’ajustement du modèle. Plus R² est proche de 1, meilleur est le modèle pour expliquer la variabilité de Y par rapport à X. En d’autres termes, R² mesure la proportion de la variance totale de Y qui est expliquée par la variable X dans le cadre du modèle. Un R² élevé signifie que le modèle prédit bien Y à partir de X, tandis qu’un R² faible indique une faible capacité prédictive.

📝 Points essentiels

Le coefficient a indique l’effet unitaire de X sur Y. Cela signifie que si ce coefficient est positif, une augmentation de X entraîne une augmentation de Y, et si il est négatif, une augmentation de X entraîne une diminution de Y. Par exemple, si 𝛽! = 18,6, alors chaque augmentation d’une unité de X correspond à une augmentation de 18,6 unités de Y, ce qui permet de quantifier précisément l’impact de X.

La constante b correspond à la valeur prédite de Y lorsque X=0. Elle sert de point de référence dans le modèle, représentant le niveau initial de Y avant toute influence de X. Connaître cette valeur permet d’avoir une base pour comprendre comment Y évolue lorsque X varie.

R² indique la qualité d’ajustement du modèle. Plus R² est proche de 1, plus le modèle explique efficacement la variabilité de Y à partir de X. Cela signifie que le modèle est pertinent pour prédire Y, tandis qu’un R² faible suggère que d’autres facteurs non inclus dans le modèle pourraient influencer Y ou que le modèle n’est pas adapté.

💡 À retenir

Maîtriser l’interprétation des paramètres du modèle permet de comprendre précisément comment une variable explicative influence la variable à expliquer. Le coefficient a quantifie l’effet unitaire, la constante b donne le point de départ du modèle lorsque X=0, et R² évalue la pertinence de l’ajustement, facilitant ainsi une lecture claire et précise des résultats.

📖 4. Validation du modèle

🔑 Notions clés & Définitions

Test de normalité des résidus (Shapiro-Wilk)
Le test de Shapiro-Wilk, élaboré par Shapiro et Wilk (1965), est une procédure statistique permettant de vérifier si un ensemble de données, en l’occurrence les résidus d’un modèle, suit une loi normale. Ce test compare la distribution empirique des résidus à une distribution normale théorique en calculant une statistique de test. Si cette statistique indique une différence significative, cela suggère que les résidus ne suivent pas une loi normale, ce qui peut compromettre la validité du modèle.

Résidus centrés-réduits
Les résidus centrés-réduits sont des résidus qui ont été transformés pour avoir une moyenne nulle et une variance unitaire. La formule de leur calcul est : (résidu - moyenne des résidus) / écart-type des résidus. Cette standardisation permet de comparer facilement la dispersion des résidus par rapport à une référence standard, facilitant ainsi l’identification d’éventuelles valeurs aberrantes ou atypiques.

Identification d'individus atypiques
L’individu atypique, ou valeur aberrante, est une observation dont le résidu ou le résidu standardisé s’écarte de manière significative de la majorité des autres données. La détection de ces individus est essentielle pour assurer la qualité et la fiabilité du modèle, car leur présence peut biaiser les résultats ou indiquer des erreurs de mesure ou des phénomènes exceptionnels.

Amplitude des résidus entre -2 et +2
L’amplitude des résidus centrés-réduits doit idéalement rester comprise entre -2 et +2. Cette plage correspond à une zone où la majorité des résidus se trouvent si la distribution est normale. Des résidus en dehors de cette plage peuvent signaler la présence de valeurs aberrantes ou de non-conformité à la loi normale, ce qui nécessite une vérification ou une correction pour garantir la validité du modèle.

📝 Points essentiels

Les résidus doivent suivre une loi normale validée par le test de Shapiro-Wilk. La réalisation de ce test permet de vérifier si la distribution des erreurs du modèle est conforme aux hypothèses statistiques sous-jacentes. Si le test indique que les résidus ne respectent pas cette normalité, cela peut remettre en question la validité des inférences statistiques faites à partir du modèle.

Les résidus centrés-réduits doivent rester entre -2 et +2. Cette amplitude limite sert à contrôler la dispersion des erreurs. Lorsqu’un résidu dépasse cette plage, il est considéré comme un résidu atypique ou une valeur aberrante, pouvant influencer négativement la qualité du modèle. La surveillance de cette amplitude est donc une étape clé pour assurer la robustesse de l’analyse.

Un individu atypique peut être exclu du modèle pour améliorer sa qualité. La détection de ces valeurs extrêmes, notamment via l’analyse des résidus centrés-réduits, permet de décider si leur suppression est justifiée. La présence d’individus atypiques peut fausser les résultats, et leur exclusion peut contribuer à obtenir un modèle plus fidèle et plus précis.

💡 À retenir

Pour assurer la validité statistique du modèle, il est crucial de vérifier que les résidus suivent une loi normale à l’aide du test de Shapiro-Wilk, et que leur amplitude reste comprise entre -2 et +2. La détection et la gestion des individus atypiques jouent un rôle essentiel dans cette démarche, permettant d’améliorer la fiabilité et la robustesse de l’analyse.

📖 5. Régression linéaire multiple

🔑 Notions clés & Définitions

Régression linéaire multiple : La régression linéaire multiple est une extension de la régression linéaire simple qui permet de modéliser la relation entre une variable dépendante quantitative et plusieurs variables explicatives. Elle vise à estimer comment chaque variable explicative influence la variable à expliquer, tout en tenant compte des effets des autres variables. La formule générale de ce modèle est :
Y=β0+β1X1+β2X2++βpXp+εY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + \varepsilon
YY est la variable dépendante, X1,X2,,XpX_1, X_2, \dots, X_p sont les variables explicatives, β0\beta_0 est l’ordonnée à l’origine, β1,β2,,βp\beta_1, \beta_2, \dots, \beta_p sont les coefficients de régression, et ε\varepsilon est l’erreur aléatoire.

Variables explicatives multiples : Ce sont plusieurs variables indépendantes ou explicatives qui sont intégrées dans le modèle pour expliquer la variable dépendante. Chacune de ces variables est quantitative, c’est-à-dire mesurée par une valeur numérique. Leur rôle est de fournir une compréhension plus précise et complète de la variable à modéliser en tenant compte de plusieurs facteurs simultanément.

Modèle Y=β0+β1X1+β2X2++βpXp+εY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + \varepsilon : C’est la représentation mathématique de la régression linéaire multiple. Elle indique que la variable YY est une combinaison linéaire des variables explicatives XiX_i, pondérée par leurs coefficients βi\beta_i, plus une erreur aléatoire ε\varepsilon. Chaque coefficient βi\beta_i mesure l’effet de la variable XiX_i sur YY, en contrôlant l’effet des autres variables.

📝 Points essentiels

Le modèle de régression linéaire multiple étend la régression simple à plusieurs variables explicatives quantitatives. Contrairement à la régression simple qui ne considère qu’une seule variable indépendante, ce modèle permet d’intégrer plusieurs facteurs simultanément, ce qui enrichit l’analyse et la compréhension des phénomènes complexes. Par exemple, dans une étude économique, on peut modéliser le revenu YY en fonction de plusieurs variables explicatives telles que l’éducation, l’expérience, l’âge, etc.

Chaque coefficient βi\beta_i dans le modèle mesure l’effet spécifique de la variable XiX_i sur la variable dépendante YY, tout en contrôlant l’impact des autres variables. Cela signifie que l’effet de chaque variable explicative est estimé en tenant compte de la présence des autres variables dans le modèle, ce qui permet d’isoler leur influence respective.

Ce modèle est particulièrement utile pour modéliser une variable quantitative en intégrant plusieurs variables explicatives, permettant ainsi une analyse plus précise et une meilleure capacité de prédiction. La compréhension de ces coefficients est essentielle pour interpréter comment chaque facteur contribue à la variation de la variable à expliquer, dans un contexte où plusieurs facteurs influencent simultanément le phénomène étudié.

💡 À retenir

La régression linéaire multiple permet d’intégrer plusieurs variables explicatives pour modéliser une variable quantitative, en mesurant l’effet de chacune d’elles tout en contrôlant celles des autres. Elle offre ainsi une approche plus complète et précise pour analyser des phénomènes complexes.

📖 6. Sélection des variables

🔑 Notions clés & Définitions

Multicolinéarité
La multicolinéarité désigne une situation où deux ou plusieurs variables explicatives dans un modèle de régression sont fortement corrélées entre elles. Selon AUTEUR (date), cette corrélation élevée rend difficile la distinction de l’effet individuel de chaque variable sur la variable dépendante, ce qui peut entraîner une instabilité des estimations des coefficients βi et compliquer leur interprétation.

Facteur d'inflation de la variance (VIF)
Le VIF, ou Variance Inflation Factor, est un indicateur qui mesure l’impact de la multicolinéarité sur la variance estimée d’un coefficient βi. Il indique dans quelle mesure la variance de ce coefficient est amplifiée par la corrélation avec d’autres variables explicatives. Un VIF élevé signale une forte colinéarité, ce qui peut rendre le modèle moins fiable.

Test de significativité des coefficients βi
Ce test permet de vérifier si chaque coefficient βi est statistiquement différent de zéro, c’est-à-dire si la variable explicative correspondante a un effet significatif sur la variable dépendante. La p-value associée à ce test indique la probabilité que l’effet observé soit dû au hasard. Si cette p-value est inférieure à un seuil fixé (souvent 5% ou 10%), le coefficient est considéré comme significatif.

Seuils VIF > 10 et VIF < 5
Un VIF supérieur à 10 est généralement considéré comme indiquant une multicolinéarité problématique, justifiant l’élimination de la variable concernée pour éviter la redondance et garantir la stabilité du modèle. En revanche, un VIF inférieur à 5 indique une faible colinéarité, permettant de conserver la variable en raison de sa contribution pertinente.

P-value seuils 5% ou 10%
Les seuils de p-value à 5% ou 10% sont utilisés pour juger de la significativité statistique d’un coefficient βi. Si la p-value est inférieure à ces seuils, la variable explicative est considérée comme ayant un effet significatif sur la variable dépendante, et donc pertinente pour le modèle.

📝 Points essentiels

On élimine les variables redondantes en utilisant le VIF, en particulier celles dont le VIF dépasse 10. Cette étape est cruciale pour éviter la multicolinéarité, qui peut rendre le modèle instable et difficile à interpréter. En parallèle, on conserve les variables dont le VIF est inférieur à 5, car elles présentent une faible colinéarité, ce qui favorise la stabilité du modèle.

Pour assurer la pertinence des variables, on examine également leur p-value. Seules celles avec une p-value inférieure à 10% (ou 5%) sont retenues, car cela indique une significativité statistique suffisante. La combinaison de ces deux critères — VIF faible et p-value faible — garantit que le modèle est à la fois stable, interprétable et pertinent.

Cette démarche de filtrage permet d’obtenir un modèle robuste, évitant la redondance entre variables et assurant que chaque variable retenue apporte une contribution significative à la prédiction ou à l’explication du phénomène étudié.

💡 À retenir

Il est essentiel de filtrer les variables explicatives en éliminant celles dont le VIF dépasse 10 pour éviter la multicolinéarité, tout en conservant celles avec un VIF inférieur à 5 et une p-value faible (≤ 10% ou 5%) pour assurer la pertinence. Cette sélection garantit un modèle stable, interprétable et pertinent, améliorant ainsi sa robustesse.

📖 7. Interprétation et validation

🔑 Notions clés & Définitions

Interprétation ceteris paribus des coefficients βi
L’interprétation ceteris paribus des coefficients βi indique que chaque coefficient représente l’effet spécifique de la variable indépendante Xi sur la variable dépendante Y, toutes choses égales par ailleurs. Autrement dit, en maintenant constantes toutes les autres variables du modèle, une variation d’une unité de Xi entraîne une variation de βi unités de Y. Cette interprétation permet de comprendre la contribution individuelle de chaque variable dans le contexte d’un modèle multivarié, en isolant l’effet de chaque facteur.

Test de normalité des résidus (Shapiro-Wilk)
Le test de Shapiro-Wilk est une procédure statistique utilisée pour vérifier si les résidus d’un modèle suivent une distribution normale. La normalité des résidus est une condition essentielle pour valider la fiabilité des estimations et des tests statistiques associés. Si le test indique une distribution normale, cela confirme que les résidus ne présentent pas de déviation significative par rapport à la normalité, renforçant la crédibilité des conclusions tirées du modèle.

Amplitude des résidus entre -2 et +2
L’amplitude des résidus entre -2 et +2 fait référence à la vérification que la majorité des résidus se situent dans cet intervalle, ce qui est souvent associé à une distribution normale standard. Cette plage est une règle empirique permettant d’évaluer rapidement si les résidus sont suffisamment dispersés pour respecter l’hypothèse de normalité. Des résidus hors de cet intervalle peuvent indiquer des anomalies ou des écarts importants, compromettant la fiabilité du modèle.

📝 Points essentiels

Chaque coefficient βi s'interprète comme l'effet de Xi sur Y toutes choses égales par ailleurs. Cela signifie que pour une unité d’augmentation de la variable indépendante Xi, la variable dépendante Y varie de βi, en supposant que toutes les autres variables du modèle restent constantes. Cette interprétation est fondamentale pour comprendre la contribution spécifique de chaque facteur dans un contexte multivarié, permettant une lecture précise des effets individuels.

La validation du modèle repose sur deux étapes clés : la vérification de la normalité et l’évaluation de l’amplitude des résidus. La normalité des résidus est confirmée par le test de Shapiro-Wilk, qui doit indiquer que la distribution des résidus ne s’écarte pas significativement d’une distribution normale. Par ailleurs, l’amplitude des résidus doit se situer entre -2 et +2, ce qui témoigne de leur dispersion conforme à une distribution normale. Ces étapes sont essentielles pour assurer que les conclusions tirées du modèle sont fiables et que les hypothèses sous-jacentes sont respectées.

Ces deux vérifications, normalité et amplitude, permettent de confirmer la fiabilité des estimations et des tests effectués dans le cadre du modèle. En validant ces aspects, on s’assure que le modèle est approprié et que ses résultats peuvent être interprétés avec confiance.

💡 À retenir

L’interprétation précise des coefficients βi dans un modèle multivarié repose sur leur effet ceteris paribus, c’est-à-dire en tenant compte de toutes les autres variables. La validation du modèle nécessite de vérifier la normalité et l’amplitude des résidus, ce qui garantit la fiabilité des conclusions. Ces étapes sont indispensables pour confirmer la qualité du modèle et la pertinence de ses interprétations.

📖 8. Régression logistique

🔑 Notions clés & Définitions

  • AUTEUR : voir section 6

Variable binaire : Une variable binaire est une variable qui ne peut prendre que deux valeurs possibles, généralement codées 0 ou 1. Elle représente un événement ou une absence d’événement, par exemple : succès/échec, présence/absence. La régression logistique s’applique spécifiquement à ce type de variable, car elle modélise la probabilité que la variable prenne la valeur 1.

Logit de la probabilité : Le logit est la transformation logarithmique du rapport entre la probabilité que l’événement se produise (p) et celle qu’il ne se produise pas (1 - p). Formellement, le logit est défini comme log(p / (1 - p)). Selon AUTEUR (date), cette transformation permet de linéariser la relation entre la variable dépendante binaire et les variables explicatives, facilitant ainsi la modélisation.

Matrice de confusion : La matrice de confusion est un tableau qui compare les prédictions du modèle aux résultats réels. Elle comporte quatre éléments : Vrai Positif (VP), Faux Positif (FP), Vrai Négatif (VN) et Faux Négatif (FN). Elle sert à évaluer la performance du modèle en permettant de calculer diverses mesures de qualité.

Exactitude, sensibilité, spécificité : Ce sont des mesures dérivées de la matrice de confusion. L’exactitude correspond à la proportion totale de prédictions correctes (VP + VN) / total. La sensibilité (ou rappel) est la capacité du modèle à détecter correctement les événements positifs (VP / (VP + FN)). La spécificité mesure la capacité à identifier correctement les événements négatifs (VN / (VN + FP)).

📝 Points essentiels

La régression logistique modélise la probabilité d’un événement binaire en utilisant le logit, qui est la transformation logarithmique du rapport entre la probabilité que l’événement se produise et celle qu’il ne se produise pas. Concrètement, si on note p la probabilité que l’événement ait lieu, alors le logit est log(p / (1 - p)). La régression logistique établit une relation linéaire entre ce logit et les variables explicatives, avec des coefficients qui indiquent l’effet de chaque variable sur la probabilité.

Les coefficients de la régression logistique ont une signification précise : un coefficient positif augmente la probabilité que l’événement se produise, tandis qu’un coefficient négatif la diminue. Par exemple, si un coefficient est égal à 0,5, cela indique qu’une unité d’augmentation de la variable explicative augmente la log-odds de l’événement de 0,5, ce qui se traduit par une augmentation de la probabilité.

L’évaluation du modèle repose principalement sur la matrice de confusion, qui compare les prédictions aux résultats réels. À partir de cette matrice, on calcule des mesures telles que l’exactitude, la sensibilité et la spécificité, permettant d’apprécier la performance globale du modèle et sa capacité à distinguer correctement les deux classes.

💡 À retenir

La régression logistique permet de modéliser la probabilité d’un événement binaire en utilisant le logit, une transformation qui facilite la relation linéaire avec les variables explicatives. Son évaluation repose sur la matrice de confusion et les mesures dérivées telles que l’exactitude, la sensibilité et la spécificité, essentielles pour mesurer la performance du modèle.

📖 9. Méthode de comparaison de moyennes

🔑 Notions clés & Définitions

Échantillons appariés
Les échantillons appariés concernent deux ensembles de données liés, généralement issus d'une même population ou de la même unité mesurée à deux moments différents ou dans deux conditions différentes. La caractéristique principale est que chaque observation d’un échantillon est associée à une observation correspondante dans l’autre échantillon, formant ainsi des paires. La comparaison se fait sur la différence de chaque paire. Selon AUTEUR (date), on teste la moyenne de ces différences pour déterminer s'il existe une différence significative entre les deux conditions ou moments.

Échantillons indépendants
Les échantillons indépendants sont constitués de deux groupes distincts, sans lien ou appariement entre leurs observations. Chaque groupe est constitué d’individus ou d’unités différentes. Avant de comparer leurs moyennes, il est nécessaire de vérifier que chaque échantillon suit une distribution normale et que leur variabilité est homogène. La comparaison des moyennes se fait en utilisant un test statistique adapté, en fonction de ces conditions.

Test t de Student
Le test t de Student est une méthode statistique utilisée pour comparer la moyenne d’un échantillon à une valeur hypothétique ou la moyenne de deux échantillons. Lorsqu’il s’agit de deux échantillons indépendants, ce test permet de vérifier si leurs moyennes diffèrent significativement, sous réserve que les données respectent certaines conditions : normalité et homogénéité des variances. La formule du test varie en fonction de la présence ou non d’homoscédasticité.

Test de Welch
Le test de Welch est une variante du test t de Student, adaptée lorsque l’homoscédasticité (égalité des variances) n’est pas vérifiée entre deux échantillons indépendants. Il permet de comparer leurs moyennes en tenant compte de la différence de variances et de tailles d’échantillons différentes. Selon AUTEUR (date), ce test est souvent préféré lorsque l’homogénéité des variances est suspectée ou non vérifiée.

Test de Levene
Le test de Levene est une procédure statistique utilisée pour vérifier l’homoscédasticité, c’est-à-dire l’égalité des variances entre plusieurs groupes ou échantillons. Si le test indique une p-value inférieure à 0,05, cela signifie que les variances ne sont pas homogènes, ce qui influence le choix du test de comparaison (Student ou Welch). Il est essentiel de réaliser ce test avant de procéder à la comparaison des moyennes.

Test de conformité de la différence
Ce test concerne la vérification de l’hypothèse nulle selon laquelle la différence moyenne entre deux échantillons appariés est nulle (H0 : μD=0). Il s’agit d’un test spécifique pour les échantillons appariés, visant à déterminer si la moyenne des différences observées est significativement différente de zéro, ce qui indiquerait une différence statistiquement significative entre les deux conditions ou moments.

📝 Points essentiels

Pour les échantillons appariés, on teste la différence moyenne avec H0 : μD=0.
Ce test consiste à analyser si la moyenne des différences entre chaque paire d’observations est significativement différente de zéro. La démarche implique de calculer la moyenne des différences et d’utiliser un test statistique (souvent un test t pour échantillons appariés) pour vérifier cette hypothèse. Si la p-value obtenue est inférieure à 0,05, on rejette H0, ce qui indique une différence significative entre les deux conditions ou moments.

Pour les échantillons indépendants, on doit d’abord vérifier deux conditions essentielles : la normalité et l’homoscédasticité. La normalité peut être testée par des tests spécifiques (non mentionnés ici), et l’homoscédasticité par le test de Levene. Selon ces résultats, on choisira soit le test t de Student (si les variances sont homogènes), soit le test de Welch (si elles ne le sont pas). La p-value inférieure à 5% (0,05) indique une différence significative entre les moyennes des deux groupes.

Une p-value < 5% indique une différence significative entre les moyennes, ce qui signifie que l’hypothèse nulle de non-différence peut être rejetée avec un niveau de confiance de 95%. En revanche, une p-value supérieure à 0,05 suggère que la différence observée n’est pas statistiquement significative, et qu’on ne peut pas rejeter H0.

💡 À retenir

Il est crucial de vérifier la normalité et l’homoscédasticité avant de choisir le test de comparaison des moyennes. La p-value permet d’évaluer la significativité de la différence observée : si elle est inférieure à 5%, la différence est considérée comme statistiquement significative.

📖 10. Analyse de réseaux Gephi

🔑 Notions clés & Définitions

Graphe (V, E)
Un graphe est une structure composée de deux ensembles : V, l’ensemble des sommets ou nœuds, et E, l’ensemble des arêtes ou liens entre ces nœuds. Selon la définition, un graphe peut être orienté ou non orienté, ce qui influence la direction des liens. Dans le contexte des réseaux sociaux, chaque individu ou entité est représenté par un nœud, et les relations ou interactions par des arêtes. La structure du graphe permet d’analyser la connectivité et la configuration du réseau.

Densité du réseau
La densité d’un réseau mesure la proportion de liens existants par rapport au nombre maximum possible de liens. Elle se calcule en divisant le nombre d’arêtes présentes par le nombre total d’arêtes possibles dans un graphe complet. La densité varie entre 0 (aucun lien) et 1 (tous les nœuds sont connectés entre eux). Elle permet d’évaluer à quel point le réseau est connecté ou dispersé.

Composante connexe
Une composante connexe d’un graphe est un sous-ensemble de nœuds tels que chaque paire de nœuds dans ce sous-ensemble est reliée par un chemin, directement ou indirectement. Dans un réseau social, une composante connexe représente un groupe d’individus entre lesquels il existe une chaîne de relations, ce qui indique une cohésion ou une segmentation du réseau.

Effet petit-monde
L’effet petit-monde désigne une propriété où la distance moyenne entre deux nœuds est faible, même dans un réseau de grande taille. Cela implique que, malgré la taille du réseau, il est possible de rejoindre n’importe quel nœud en un nombre limité d’étapes. Ce phénomène est caractéristique des réseaux sociaux, où peu de liens séparent deux individus, favorisant la diffusion rapide de l’information.

Coefficient de clustering
Le coefficient de clustering quantifie la tendance des nœuds à former des groupes ou des triangles, c’est-à-dire que si un nœud est connecté à deux autres, ces deux derniers sont aussi susceptibles d’être connectés entre eux. Il s’agit d’une mesure locale de la densité des liens au sein du voisinage d’un nœud. Un coefficient élevé indique une forte tendance à la formation de groupes ou de communautés.

Centralité de degré, d'intermédiarité, de proximité

  • Centralité de degré : mesure le nombre de liens qu’un nœud possède. Plus un nœud a de connexions, plus il est considéré comme central ou influent dans le réseau.
  • Centralité d’intermédiarité : évalue le rôle d’un nœud comme relais ou pont entre différentes parties du réseau. Un nœud avec une haute intermédiarité contrôle le flux d’informations ou de ressources.
  • Centralité de proximité : mesure la rapidité avec laquelle un nœud peut atteindre tous les autres nœuds du réseau. Elle est inversement proportionnelle à la distance moyenne entre ce nœud et tous les autres. Un nœud avec une haute proximité est stratégique pour une diffusion efficace.

📝 Points essentiels

La densité du réseau est une mesure qui indique la proportion de liens existants par rapport au maximum possible. Elle se calcule en divisant le nombre d’arêtes présentes par le nombre total d’arêtes possibles dans un graphe complet. Une densité faible indique un réseau dispersé, avec peu de connexions, tandis qu’une densité élevée montre un réseau fortement connecté. La densité permet ainsi d’évaluer la cohésion globale du réseau social.

Un réseau petit-monde combine deux propriétés essentielles : une faible distance moyenne entre nœuds et un fort coefficient de clustering. La faible distance moyenne signifie qu’il faut peu d’étapes pour relier deux individus quelconques, facilitant la diffusion rapide de l’information. Le fort coefficient de clustering indique que les voisins d’un nœud ont également tendance à être connectés entre eux, favorisant la formation de groupes ou de communautés. La coexistence de ces deux propriétés confère au réseau une structure efficace pour la transmission et la cohésion.

Les centralités sont des indices qui évaluent différentes facettes de la position d’un nœud dans le réseau. La centralité de degré indique la popularité ou l’influence immédiate d’un nœud, en comptant ses connexions directes. La centralité d’intermédiarité mesure le rôle de relais ou de pont, en évaluant combien un nœud se trouve sur le chemin de communication entre autres nœuds. La centralité de proximité quantifie la rapidité d’accès ou de diffusion à partir d’un nœud vers l’ensemble du réseau, en calculant la distance moyenne à tous les autres nœuds. Ces mesures permettent d’identifier les acteurs clés, relais ou stratégiques dans un réseau social.

💡 À retenir

L’analyse des réseaux sociaux à travers des mesures telles que la densité, le coefficient de clustering, et les centralités, permet de comprendre la structure, la cohésion et les rôles clés au sein du réseau. La propriété petit-monde, en particulier, illustre comment un réseau peut être à la fois fortement connecté localement et efficacement relié globalement, facilitant la diffusion rapide de l’information.

📖 11. Détection de communautés Louvain

🔑 Notions clés & Définitions

Algorithme de Louvain : Méthode de détection de communautés dans un réseau social qui vise à optimiser la modularité. Selon le développement dans le contenu source, cet algorithme est conçu pour identifier des groupes cohérents en regroupant les sommets (individus) de manière à maximiser la densité des liens internes par rapport aux liens externes. Il fonctionne en itérant sur des niveaux de regroupement pour atteindre une partition optimale du graphe.

Modularité : Mesure de la qualité d’une partition en communautés dans un réseau. Elle quantifie la densité des liens à l’intérieur des groupes par rapport à ce qui serait attendu dans un réseau aléatoire. Plus la modularité est élevée, plus la partition en communautés est considérée comme pertinente. La modularité est une valeur numérique, généralement comprise entre -1 et 1, où une valeur supérieure à 0,3 indique une bonne partition selon le contenu source.

Partition en communautés : Division d’un réseau en sous-ensembles de sommets fortement interconnectés. Chaque communauté représente un groupe cohérent où les liens internes sont plus nombreux ou plus denses que ceux reliant différents groupes. La détection de ces partitions permet d’identifier des structures ou groupes denses dans le réseau social.

Algorithmes de spatialisation (ForceAtlas 2, OpenOrd) : Techniques utilisées pour représenter visuellement un réseau dans un espace en 2D ou 3D. Ces algorithmes ajustent la position des nœuds pour révéler la structure du réseau, facilitant l’interprétation des communautés et des nœuds centraux. Dans le contexte, ils sont utilisés sous Gephi pour une visualisation claire des regroupements détectés.

Visualisation par couleur et taille des nœuds : Méthode graphique pour représenter les communautés et leur importance. La couleur des nœuds indique leur appartenance à une communauté spécifique, tandis que leur taille est ajustée en fonction du degré (nombre de liens), permettant d’identifier rapidement les nœuds centraux ou influents dans le réseau.

📝 Points essentiels

L’algorithme de Louvain est une méthode efficace pour détecter des communautés dans un réseau social en maximisant la modularité. La modularité, qui mesure la densité relative des liens internes par rapport aux liens externes, est un indicateur clé de la qualité de la partition. Une modularité supérieure à 0,3 est considérée comme une bonne indication que la partition en groupes est cohérente et significative. La visualisation de ces communautés est facilitée par l’utilisation d’outils comme Gephi, où des algorithmes de spatialisation tels que ForceAtlas 2 ou OpenOrd permettent de positionner les nœuds de manière à révéler la structure du réseau. La représentation graphique par couleur et taille des nœuds permet d’interpréter rapidement la composition des groupes et de repérer les nœuds centraux ou influents, en fonction de leur degré.

💡 À retenir

L’algorithme de Louvain optimise la modularité pour identifier efficacement des groupes cohérents dans un réseau social, et la visualisation par couleur et taille des nœuds sous Gephi facilite leur interprétation en mettant en évidence la structure et les nœuds clés.

📅 Repères chronologiques

Aucune date spécifique n'étant mentionnée dans le contenu fourni, cette section est omise.

📊 Tableaux de Synthèse

AspectRégression linéaire simpleVérification préalableRégression linéaire multipleRégression logistiqueMéthode de comparaison de moyennesAnalyse de réseaux GephiDétection de communautés Louvain
ObjectifExpliquer Y par XVérifier la significativité de rExpliquer Y par plusieurs XModéliser une variable binaireComparer moyennes entre groupesVisualiser réseaux et relationsIdentifier communautés dans un réseau
ModèleY=aX+b+εY = aX + b + \varepsilonTest de corrélation (H0: r=0)Y=β0+βiXi+εY = \beta_0 + \sum \beta_i X_i + \varepsilonFonction logistique : logit(p) = ...Test t ou ANOVA pour moyennesGraphiques, clusters, communautésLouvain : maximisation modularité
Coefficients clésa (pente), b (intercept)r, p-value pour corrélationβ (coefficients multiples)Odds ratio (exp(β))Moyennes, écarts-types, tests statistiquesNœuds, liens, modulesPartitions optimisées par modularité
Indicateurs d’évaluationR², p-value, residualsp-value du test de corrélationR² ajusté, p-values des βScore de classification, AUCp-value, intervalle de confianceModularity, centralité, clustering coefficientModularity, taille des communautés

⚠️ Pièges & Confusions Fréquentes

  1. Confondre coefficient de régression (a) et coefficient de corrélation (r).
  2. Ignorer la vérification préalable de la significativité du coefficient de corrélation.
  3. Interpréter à tort le coefficient b comme une moyenne ou une valeur absolue.
  4. Négliger l’analyse des résidus pour valider la normalité et l’homoscédasticité.
  5. Confondre R² avec la causalité ou la qualité absolue du modèle.
  6. Omettre la vérification des hypothèses du modèle avant interprétation.
  7. Utiliser la régression logistique pour des variables continues sans transformation appropriée.
  8. Mal interpréter les résultats issus des méthodes de comparaison de moyennes ou des analyses en réseaux.

✅ Checklist Examen

  1. Connaître la formule du modèle de régression linéaire simple : Y=aX+b+εY = aX + b + \varepsilon.
  2. Savoir définir et interpréter le coefficient de régression a.
  3. Comprendre le rôle et l’interprétation de la constante b.
  4. Maîtriser la signification et l’interprétation du coefficient de corrélation r.
  5. Savoir réaliser et interpréter un test de significativité du coefficient de corrélation.
  6. Connaître le seuil classique de 5% pour le rejet de H0 dans le test de corrélation.
  7. Comprendre ce que représente le coefficient de détermination R².
  8. Savoir comment vérifier la normalité et l’homoscédasticité des résidus.
  9. Connaître les hypothèses H0 et H1 pour le test de corrélation.
  10. Savoir utiliser et interpréter un modèle en régression linéaire multiple.
  11. Maîtriser les principes fondamentaux d’une régression logistique et ses applications.
  12. Connaître les méthodes pour comparer des moyennes (test t, ANOVA).
  13. Avoir une compréhension basique des analyses en réseaux avec Gephi.
  14. Savoir ce que sont les communautés Louvain et leur intérêt dans l’analyse réseau.
  15. Connaître les auteurs clés mentionnés : Chapitre 1 sur la régression linéaire simple, concepts fondamentaux liés à la validation et à l’interprétation des modèles.

Testez vos connaissances

Testez vos connaissances sur Analyse des réseaux et modélisation statistique avec 11 questions à choix multiples avec corrections détaillées.

1. Qu'est-ce que la régression linéaire simple ?

2. Qui est crédité de la formulation de l'hypothèse nulle utilisée dans le test de significativité du coefficient de corrélation?

Faire le QCM →

Révisez avec les flashcards

Mémorisez les concepts clés de Analyse des réseaux et modélisation statistique avec 22 flashcards interactives.

Régression linéaire simple — définition ?

Modèle expliquant Y par X avec Y = aX + b + ε.

Coefficient de régression — rôle ?

Indique l’effet attendu de X sur Y.

Constante b — signification ?

Valeur de Y quand X=0.

Voir les flashcards →

Cours similaires

Crée tes propres fiches de révision

Importe ton cours et l'IA génère fiches, QCM et flashcards en 30 secondes.

Générateur de fiches