Fiche de révision : Analyse des réseaux et modélisation statistique

Plan du Cours

Régression linéaire simple
Vérification préalable
Interprétation du modèle
Validation du modèle
Régression linéaire multiple
Sélection des variables
Interprétation et validation
Régression logistique
Méthode de comparaison de moyennes
Analyse de réseaux Gephi
Détection de communautés Louvain

1. Régression linéaire simple

Notions clés & Définitions

Régression linéaire simple
Selon Chapitre 1 du contenu source, la régression linéaire simple est une méthode statistique permettant d’expliquer une variable quantitative 𝑌 (variable à expliquer) par une autre variable quantitative 𝑋 (variable explicative). Le modèle s’écrit :
$Y = aX + b + \varepsilon$
où :

𝑎 est le coefficient de régression, qui indique la pente de la relation linéaire entre 𝑋 et 𝑌.
𝑏 est la constante ou intercept, représentant la valeur de 𝑌 lorsque 𝑋 = 0.
𝜀 est le résidu ou erreur, représentant la différence entre la valeur observée de 𝑌 et celle prédite par le modèle.

Coefficient de régression (a)
Ce coefficient, défini dans le modèle, indique l’augmentation attendue de la variable 𝑌 pour une augmentation d’une unité de la variable 𝑋. Par exemple, si 𝑎 = 2, cela signifie que lorsque 𝑋 augmente de 1, 𝑌 augmente en moyenne de 2 unités.

Constante (b)
La constante, ou intercept, correspond à la valeur de 𝑌 lorsque 𝑋 est nul. Elle représente le point où la droite de régression croise l’axe des ordonnées.

Résidu (ε)
Le résidu est l’erreur ou la différence entre la valeur observée de 𝑌 et la valeur prédite par le modèle linéaire. Il mesure l’écart entre la réalité et la modélisation. La validité du modèle suppose que ces résidus suivent une loi normale et ne présentent pas de biais systématique.

Coefficient de corrélation (r)
Ce coefficient, calculé avant la régression, mesure la force et la direction de la relation linéaire entre 𝑋 et 𝑌. Il varie entre -1 et +1 :

+1 indique une corrélation positive parfaite,
-1 une corrélation négative parfaite,
0 aucune corrélation.
La significativité de cette corrélation est testée par un test de significativité, avec une hypothèse nulle (H0) selon laquelle 𝑟 = 0 (pas de corrélation). Si la p-value est inférieure à 5%, on rejette H0, ce qui indique une corrélation linéaire significative.

Coefficient de détermination (R²)
Ce coefficient, compris entre 0 et 1, indique la proportion de la variance de 𝑌 expliquée par la variable 𝑋 dans le modèle. Plus R² est proche de 1, meilleur est le modèle pour expliquer la variabilité de 𝑌. Par exemple, R² = 0,75 signifie que 75% de la variance de 𝑌 est expliquée par 𝑋, tandis que 25% reste inexpliquée ou due à d’autres facteurs ou à des erreurs.

Points essentiels

Le modèle de régression linéaire simple s’écrit :
$Y = aX + b + \varepsilon$ ,
ce qui permet d’expliquer une variable quantitative 𝑌 par une autre variable quantitative 𝑋.

Le coefficient 𝑎 indique l’augmentation de 𝑌 pour une unité d’augmentation de 𝑋.
La constante 𝑏 représente la valeur de 𝑌 lorsque 𝑋 = 0.
Le coefficient de détermination 𝑅² mesure la proportion de variance de 𝑌 expliquée par 𝑋, variant entre 0 et 1. Plus cette valeur est proche de 1, plus le modèle est performant pour représenter la relation entre les deux variables.

À retenir

La régression linéaire simple permet de quantifier et d’expliquer l’effet d’une variable explicative sur une variable à expliquer, en utilisant une relation linéaire dont la qualité est mesurée par le coefficient de détermination 𝑅².

2. Vérification préalable

Notions clés & Définitions

Test de significativité du coefficient de corrélation :
Ce test permet de déterminer si la relation linéaire entre deux variables, généralement X et Y, est statistiquement significative. Avant de procéder à une régression, on évalue si le coefficient de corrélation r, qui mesure la force et la direction de cette relation, est différent de zéro de manière significative. La procédure consiste à formuler une hypothèse nulle (H0) selon laquelle r = 0, indiquant aucune relation linéaire, contre une hypothèse alternative (H1) selon laquelle r ≠ 0, indiquant une relation significative. La significativité est généralement testée à l’aide d’une p-value, qui indique la probabilité d’observer un coefficient de corrélation aussi extrême si H0 est vraie.

Hypothèses H0 et H1 pour corrélation :

H0 : r = 0, il n’y a pas de relation linéaire significative entre X et Y.
H1 : r ≠ 0, il existe une relation linéaire significative entre X et Y.

Ce test permet de valider ou non la pertinence d’une relation linéaire avant de construire un modèle de régression.

P-value :
La p-value est une mesure probabiliste qui indique la probabilité d’obtenir un résultat aussi extrême que celui observé, sous l’hypothèse nulle H0. Si cette valeur est faible, cela suggère que l’observation est peu compatible avec H0, ce qui peut conduire à le rejeter. La p-value est utilisée pour juger de la significativité du coefficient de corrélation ou de chaque coefficient dans un modèle de régression.

Seuil de 5% pour rejet de H0 :
Il s’agit du seuil de décision couramment utilisé pour déterminer si une hypothèse nulle doit être rejetée. Si la p-value est inférieure à 0,05 (soit 5%), on considère que le résultat est statistiquement significatif, et on rejette H0. Dans le contexte du test de corrélation, cela signifie que si la p-value associée à r est inférieure à 5%, la corrélation entre X et Y est considérée comme significative, justifiant la poursuite avec la régression.

Points essentiels

Avant de réaliser une régression, il est crucial de tester si la corrélation entre la variable explicative X et la variable à expliquer Y est significative. Pour cela, on formule deux hypothèses : H0 : r = 0, ce qui indique qu’il n’y a pas de relation linéaire entre X et Y, et H1 : r ≠ 0, qui suppose une relation significative. On procède à un test statistique basé sur la p-value associée à la coefficient de corrélation. Si cette p-value est inférieure à 5%, on rejette H0, ce qui signifie que la corrélation est statistiquement significative. Dans ce cas, il est pertinent de continuer avec la construction du modèle de régression, car la relation entre X et Y est suffisamment forte pour être prise en compte. Si la p-value est supérieure à 5%, la corrélation n’est pas considérée comme significative, et il est alors inutile d’inclure X dans le modèle, car cela pourrait conduire à des résultats peu fiables ou non pertinents.

À retenir

Il est essentiel de vérifier la significativité de la relation linéaire entre variables avant de construire un modèle de régression. Si la p-value associée au test de corrélation est inférieure à 5%, cela indique une relation statistiquement significative, permettant de poursuivre avec la modélisation. Sinon, il est préférable de ne pas considérer la variable explicative dans le modèle, afin d’assurer la pertinence et la fiabilité des résultats.

3. Interprétation du modèle

Notions clés & Définitions

Interprétation du coefficient a
Le coefficient a indique l'effet unitaire de X sur Y. Autrement dit, il mesure la variation attendue de Y lorsque X augmente d'une unité, en maintenant toutes les autres variables constantes. Selon le contenu source, si 𝛽! = 18,6, une augmentation d’une unité de 𝑋! entraîne une augmentation de 18,6 unités de 𝑌. Cela permet de quantifier précisément l’impact d’une variable explicative sur la variable à expliquer.

Interprétation de la constante b
La constante b correspond à la valeur prédite de Y lorsque X=0. Elle représente donc le point de départ ou le niveau initial de Y dans le modèle, avant toute variation de X. La valeur de b sert de référence pour comprendre comment Y évolue en fonction de X, en particulier lorsque la variable explicative n’a pas encore d’effet.

Interprétation du coefficient de détermination R²
R² indique la qualité d’ajustement du modèle. Plus R² est proche de 1, meilleur est le modèle pour expliquer la variabilité de Y par rapport à X. En d’autres termes, R² mesure la proportion de la variance totale de Y qui est expliquée par la variable X dans le cadre du modèle. Un R² élevé signifie que le modèle prédit bien Y à partir de X, tandis qu’un R² faible indique une faible capacité prédictive.

Points essentiels

Le coefficient a indique l’effet unitaire de X sur Y. Cela signifie que si ce coefficient est positif, une augmentation de X entraîne une augmentation de Y, et si il est négatif, une augmentation de X entraîne une diminution de Y. Par exemple, si 𝛽! = 18,6, alors chaque augmentation d’une unité de X correspond à une augmentation de 18,6 unités de Y, ce qui permet de quantifier précisément l’impact de X.

La constante b correspond à la valeur prédite de Y lorsque X=0. Elle sert de point de référence dans le modèle, représentant le niveau initial de Y avant toute influence de X. Connaître cette valeur permet d’avoir une base pour comprendre comment Y évolue lorsque X varie.

R² indique la qualité d’ajustement du modèle. Plus R² est proche de 1, plus le modèle explique efficacement la variabilité de Y à partir de X. Cela signifie que le modèle est pertinent pour prédire Y, tandis qu’un R² faible suggère que d’autres facteurs non inclus dans le modèle pourraient influencer Y ou que le modèle n’est pas adapté.

À retenir

Maîtriser l’interprétation des paramètres du modèle permet de comprendre précisément comment une variable explicative influence la variable à expliquer. Le coefficient a quantifie l’effet unitaire, la constante b donne le point de départ du modèle lorsque X=0, et R² évalue la pertinence de l’ajustement, facilitant ainsi une lecture claire et précise des résultats.

4. Validation du modèle

Notions clés & Définitions

Test de normalité des résidus (Shapiro-Wilk)
Le test de Shapiro-Wilk, élaboré par Shapiro et Wilk (1965), est une procédure statistique permettant de vérifier si un ensemble de données, en l’occurrence les résidus d’un modèle, suit une loi normale. Ce test compare la distribution empirique des résidus à une distribution normale théorique en calculant une statistique de test. Si cette statistique indique une différence significative, cela suggère que les résidus ne suivent pas une loi normale, ce qui peut compromettre la validité du modèle.

Résidus centrés-réduits
Les résidus centrés-réduits sont des résidus qui ont été transformés pour avoir une moyenne nulle et une variance unitaire. La formule de leur calcul est : (résidu - moyenne des résidus) / écart-type des résidus. Cette standardisation permet de comparer facilement la dispersion des résidus par rapport à une référence standard, facilitant ainsi l’identification d’éventuelles valeurs aberrantes ou atypiques.

Identification d'individus atypiques
L’individu atypique, ou valeur aberrante, est une observation dont le résidu ou le résidu standardisé s’écarte de manière significative de la majorité des autres données. La détection de ces individus est essentielle pour assurer la qualité et la fiabilité du modèle, car leur présence peut biaiser les résultats ou indiquer des erreurs de mesure ou des phénomènes exceptionnels.

Amplitude des résidus entre -2 et +2
L’amplitude des résidus centrés-réduits doit idéalement rester comprise entre -2 et +2. Cette plage correspond à une zone où la majorité des résidus se trouvent si la distribution est normale. Des résidus en dehors de cette plage peuvent signaler la présence de valeurs aberrantes ou de non-conformité à la loi normale, ce qui nécessite une vérification ou une correction pour garantir la validité du modèle.

Points essentiels

Les résidus doivent suivre une loi normale validée par le test de Shapiro-Wilk. La réalisation de ce test permet de vérifier si la distribution des erreurs du modèle est conforme aux hypothèses statistiques sous-jacentes. Si le test indique que les résidus ne respectent pas cette normalité, cela peut remettre en question la validité des inférences statistiques faites à partir du modèle.

Les résidus centrés-réduits doivent rester entre -2 et +2. Cette amplitude limite sert à contrôler la dispersion des erreurs. Lorsqu’un résidu dépasse cette plage, il est considéré comme un résidu atypique ou une valeur aberrante, pouvant influencer négativement la qualité du modèle. La surveillance de cette amplitude est donc une étape clé pour assurer la robustesse de l’analyse.

Un individu atypique peut être exclu du modèle pour améliorer sa qualité. La détection de ces valeurs extrêmes, notamment via l’analyse des résidus centrés-réduits, permet de décider si leur suppression est justifiée. La présence d’individus atypiques peut fausser les résultats, et leur exclusion peut contribuer à obtenir un modèle plus fidèle et plus précis.

À retenir

Pour assurer la validité statistique du modèle, il est crucial de vérifier que les résidus suivent une loi normale à l’aide du test de Shapiro-Wilk, et que leur amplitude reste comprise entre -2 et +2. La détection et la gestion des individus atypiques jouent un rôle essentiel dans cette démarche, permettant d’améliorer la fiabilité et la robustesse de l’analyse.

5. Régression linéaire multiple

Notions clés & Définitions

Régression linéaire multiple : La régression linéaire multiple est une extension de la régression linéaire simple qui permet de modéliser la relation entre une variable dépendante quantitative et plusieurs variables explicatives. Elle vise à estimer comment chaque variable explicative influence la variable à expliquer, tout en tenant compte des effets des autres variables. La formule générale de ce modèle est :
$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + \varepsilon$
où $Y$ est la variable dépendante, $X_1, X_2, \dots, X_p$ sont les variables explicatives, $\beta_0$ est l’ordonnée à l’origine, $\beta_1, \beta_2, \dots, \beta_p$ sont les coefficients de régression, et $\varepsilon$ est l’erreur aléatoire.

Variables explicatives multiples : Ce sont plusieurs variables indépendantes ou explicatives qui sont intégrées dans le modèle pour expliquer la variable dépendante. Chacune de ces variables est quantitative, c’est-à-dire mesurée par une valeur numérique. Leur rôle est de fournir une compréhension plus précise et complète de la variable à modéliser en tenant compte de plusieurs facteurs simultanément.

Modèle $Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + \varepsilon$ : C’est la représentation mathématique de la régression linéaire multiple. Elle indique que la variable $Y$ est une combinaison linéaire des variables explicatives $X_i$ , pondérée par leurs coefficients $\beta_i$ , plus une erreur aléatoire $\varepsilon$ . Chaque coefficient $\beta_i$ mesure l’effet de la variable $X_i$ sur $Y$ , en contrôlant l’effet des autres variables.

Points essentiels

Le modèle de régression linéaire multiple étend la régression simple à plusieurs variables explicatives quantitatives. Contrairement à la régression simple qui ne considère qu’une seule variable indépendante, ce modèle permet d’intégrer plusieurs facteurs simultanément, ce qui enrichit l’analyse et la compréhension des phénomènes complexes. Par exemple, dans une étude économique, on peut modéliser le revenu $Y$ en fonction de plusieurs variables explicatives telles que l’éducation, l’expérience, l’âge, etc.

Chaque coefficient $\beta_i$ dans le modèle mesure l’effet spécifique de la variable $X_i$ sur la variable dépendante $Y$ , tout en contrôlant l’impact des autres variables. Cela signifie que l’effet de chaque variable explicative est estimé en tenant compte de la présence des autres variables dans le modèle, ce qui permet d’isoler leur influence respective.

Ce modèle est particulièrement utile pour modéliser une variable quantitative en intégrant plusieurs variables explicatives, permettant ainsi une analyse plus précise et une meilleure capacité de prédiction. La compréhension de ces coefficients est essentielle pour interpréter comment chaque facteur contribue à la variation de la variable à expliquer, dans un contexte où plusieurs facteurs influencent simultanément le phénomène étudié.

À retenir

La régression linéaire multiple permet d’intégrer plusieurs variables explicatives pour modéliser une variable quantitative, en mesurant l’effet de chacune d’elles tout en contrôlant celles des autres. Elle offre ainsi une approche plus complète et précise pour analyser des phénomènes complexes.

6. Sélection des variables

Notions clés & Définitions

Multicolinéarité
La multicolinéarité désigne une situation où deux ou plusieurs variables explicatives dans un modèle de régression sont fortement corrélées entre elles. Selon AUTEUR (date), cette corrélation élevée rend difficile la distinction de l’effet individuel de chaque variable sur la variable dépendante, ce qui peut entraîner une instabilité des estimations des coefficients βi et compliquer leur interprétation.

Facteur d'inflation de la variance (VIF)
Le VIF, ou Variance Inflation Factor, est un indicateur qui mesure l’impact de la multicolinéarité sur la variance estimée d’un coefficient βi. Il indique dans quelle mesure la variance de ce coefficient est amplifiée par la corrélation avec d’autres variables explicatives. Un VIF élevé signale une forte colinéarité, ce qui peut rendre le modèle moins fiable.

Test de significativité des coefficients βi
Ce test permet de vérifier si chaque coefficient βi est statistiquement différent de zéro, c’est-à-dire si la variable explicative correspondante a un effet significatif sur la variable dépendante. La p-value associée à ce test indique la probabilité que l’effet observé soit dû au hasard. Si cette p-value est inférieure à un seuil fixé (souvent 5% ou 10%), le coefficient est considéré comme significatif.

Seuils VIF > 10 et VIF < 5
Un VIF supérieur à 10 est généralement considéré comme indiquant une multicolinéarité problématique, justifiant l’élimination de la variable concernée pour éviter la redondance et garantir la stabilité du modèle. En revanche, un VIF inférieur à 5 indique une faible colinéarité, permettant de conserver la variable en raison de sa contribution pertinente.

P-value seuils 5% ou 10%
Les seuils de p-value à 5% ou 10% sont utilisés pour juger de la significativité statistique d’un coefficient βi. Si la p-value est inférieure à ces seuils, la variable explicative est considérée comme ayant un effet significatif sur la variable dépendante, et donc pertinente pour le modèle.

Points essentiels

On élimine les variables redondantes en utilisant le VIF, en particulier celles dont le VIF dépasse 10. Cette étape est cruciale pour éviter la multicolinéarité, qui peut rendre le modèle instable et difficile à interpréter. En parallèle, on conserve les variables dont le VIF est inférieur à 5, car elles présentent une faible colinéarité, ce qui favorise la stabilité du modèle.

Pour assurer la pertinence des variables, on examine également leur p-value. Seules celles avec une p-value inférieure à 10% (ou 5%) sont retenues, car cela indique une significativité statistique suffisante. La combinaison de ces deux critères — VIF faible et p-value faible — garantit que le modèle est à la fois stable, interprétable et pertinent.

Cette démarche de filtrage permet d’obtenir un modèle robuste, évitant la redondance entre variables et assurant que chaque variable retenue apporte une contribution significative à la prédiction ou à l’explication du phénomène étudié.

À retenir

Il est essentiel de filtrer les variables explicatives en éliminant celles dont le VIF dépasse 10 pour éviter la multicolinéarité, tout en conservant celles avec un VIF inférieur à 5 et une p-value faible (≤ 10% ou 5%) pour assurer la pertinence. Cette sélection garantit un modèle stable, interprétable et pertinent, améliorant ainsi sa robustesse.

7. Interprétation et validation

Notions clés & Définitions

Interprétation ceteris paribus des coefficients βi
L’interprétation ceteris paribus des coefficients βi indique que chaque coefficient représente l’effet spécifique de la variable indépendante Xi sur la variable dépendante Y, toutes choses égales par ailleurs. Autrement dit, en maintenant constantes toutes les autres variables du modèle, une variation d’une unité de Xi entraîne une variation de βi unités de Y. Cette interprétation permet de comprendre la contribution individuelle de chaque variable dans le contexte d’un modèle multivarié, en isolant l’effet de chaque facteur.

Test de normalité des résidus (Shapiro-Wilk)
Le test de Shapiro-Wilk est une procédure statistique utilisée pour vérifier si les résidus d’un modèle suivent une distribution normale. La normalité des résidus est une condition essentielle pour valider la fiabilité des estimations et des tests statistiques associés. Si le test indique une distribution normale, cela confirme que les résidus ne présentent pas de déviation significative par rapport à la normalité, renforçant la crédibilité des conclusions tirées du modèle.

Amplitude des résidus entre -2 et +2
L’amplitude des résidus entre -2 et +2 fait référence à la vérification que la majorité des résidus se situent dans cet intervalle, ce qui est souvent associé à une distribution normale standard. Cette plage est une règle empirique permettant d’évaluer rapidement si les résidus sont suffisamment dispersés pour respecter l’hypothèse de normalité. Des résidus hors de cet intervalle peuvent indiquer des anomalies ou des écarts importants, compromettant la fiabilité du modèle.

Points essentiels

Chaque coefficient βi s'interprète comme l'effet de Xi sur Y toutes choses égales par ailleurs. Cela signifie que pour une unité d’augmentation de la variable indépendante Xi, la variable dépendante Y varie de βi, en supposant que toutes les autres variables du modèle restent constantes. Cette interprétation est fondamentale pour comprendre la contribution spécifique de chaque facteur dans un contexte multivarié, permettant une lecture précise des effets individuels.

La validation du modèle repose sur deux étapes clés : la vérification de la normalité et l’évaluation de l’amplitude des résidus. La normalité des résidus est confirmée par le test de Shapiro-Wilk, qui doit indiquer que la distribution des résidus ne s’écarte pas significativement d’une distribution normale. Par ailleurs, l’amplitude des résidus doit se situer entre -2 et +2, ce qui témoigne de leur dispersion conforme à une distribution normale. Ces étapes sont essentielles pour assurer que les conclusions tirées du modèle sont fiables et que les hypothèses sous-jacentes sont respectées.

Ces deux vérifications, normalité et amplitude, permettent de confirmer la fiabilité des estimations et des tests effectués dans le cadre du modèle. En validant ces aspects, on s’assure que le modèle est approprié et que ses résultats peuvent être interprétés avec confiance.

À retenir

L’interprétation précise des coefficients βi dans un modèle multivarié repose sur leur effet ceteris paribus, c’est-à-dire en tenant compte de toutes les autres variables. La validation du modèle nécessite de vérifier la normalité et l’amplitude des résidus, ce qui garantit la fiabilité des conclusions. Ces étapes sont indispensables pour confirmer la qualité du modèle et la pertinence de ses interprétations.

8. Régression logistique

Notions clés & Définitions

AUTEUR : voir section 6

Variable binaire : Une variable binaire est une variable qui ne peut prendre que deux valeurs possibles, généralement codées 0 ou 1. Elle représente un événement ou une absence d’événement, par exemple : succès/échec, présence/absence. La régression logistique s’applique spécifiquement à ce type de variable, car elle modélise la probabilité que la variable prenne la valeur 1.

Logit de la probabilité : Le logit est la transformation logarithmique du rapport entre la probabilité que l’événement se produise (p) et celle qu’il ne se produise pas (1 - p). Formellement, le logit est défini comme log(p / (1 - p)). Selon AUTEUR (date), cette transformation permet de linéariser la relation entre la variable dépendante binaire et les variables explicatives, facilitant ainsi la modélisation.

Matrice de confusion : La matrice de confusion est un tableau qui compare les prédictions du modèle aux résultats réels. Elle comporte quatre éléments : Vrai Positif (VP), Faux Positif (FP), Vrai Négatif (VN) et Faux Négatif (FN). Elle sert à évaluer la performance du modèle en permettant de calculer diverses mesures de qualité.

Exactitude, sensibilité, spécificité : Ce sont des mesures dérivées de la matrice de confusion. L’exactitude correspond à la proportion totale de prédictions correctes (VP + VN) / total. La sensibilité (ou rappel) est la capacité du modèle à détecter correctement les événements positifs (VP / (VP + FN)). La spécificité mesure la capacité à identifier correctement les événements négatifs (VN / (VN + FP)).

Points essentiels

La régression logistique modélise la probabilité d’un événement binaire en utilisant le logit, qui est la transformation logarithmique du rapport entre la probabilité que l’événement se produise et celle qu’il ne se produise pas. Concrètement, si on note p la probabilité que l’événement ait lieu, alors le logit est log(p / (1 - p)). La régression logistique établit une relation linéaire entre ce logit et les variables explicatives, avec des coefficients qui indiquent l’effet de chaque variable sur la probabilité.

Les coefficients de la régression logistique ont une signification précise : un coefficient positif augmente la probabilité que l’événement se produise, tandis qu’un coefficient négatif la diminue. Par exemple, si un coefficient est égal à 0,5, cela indique qu’une unité d’augmentation de la variable explicative augmente la log-odds de l’événement de 0,5, ce qui se traduit par une augmentation de la probabilité.

L’évaluation du modèle repose principalement sur la matrice de confusion, qui compare les prédictions aux résultats réels. À partir de cette matrice, on calcule des mesures telles que l’exactitude, la sensibilité et la spécificité, permettant d’apprécier la performance globale du modèle et sa capacité à distinguer correctement les deux classes.

À retenir

La régression logistique permet de modéliser la probabilité d’un événement binaire en utilisant le logit, une transformation qui facilite la relation linéaire avec les variables explicatives. Son évaluation repose sur la matrice de confusion et les mesures dérivées telles que l’exactitude, la sensibilité et la spécificité, essentielles pour mesurer la performance du modèle.

9. Méthode de comparaison de moyennes

Notions clés & Définitions

Échantillons appariés
Les échantillons appariés concernent deux ensembles de données liés, généralement issus d'une même population ou de la même unité mesurée à deux moments différents ou dans deux conditions différentes. La caractéristique principale est que chaque observation d’un échantillon est associée à une observation correspondante dans l’autre échantillon, formant ainsi des paires. La comparaison se fait sur la différence de chaque paire. Selon AUTEUR (date), on teste la moyenne de ces différences pour déterminer s'il existe une différence significative entre les deux conditions ou moments.

Échantillons indépendants
Les échantillons indépendants sont constitués de deux groupes distincts, sans lien ou appariement entre leurs observations. Chaque groupe est constitué d’individus ou d’unités différentes. Avant de comparer leurs moyennes, il est nécessaire de vérifier que chaque échantillon suit une distribution normale et que leur variabilité est homogène. La comparaison des moyennes se fait en utilisant un test statistique adapté, en fonction de ces conditions.

Test t de Student
Le test t de Student est une méthode statistique utilisée pour comparer la moyenne d’un échantillon à une valeur hypothétique ou la moyenne de deux échantillons. Lorsqu’il s’agit de deux échantillons indépendants, ce test permet de vérifier si leurs moyennes diffèrent significativement, sous réserve que les données respectent certaines conditions : normalité et homogénéité des variances. La formule du test varie en fonction de la présence ou non d’homoscédasticité.

Test de Welch
Le test de Welch est une variante du test t de Student, adaptée lorsque l’homoscédasticité (égalité des variances) n’est pas vérifiée entre deux échantillons indépendants. Il permet de comparer leurs moyennes en tenant compte de la différence de variances et de tailles d’échantillons différentes. Selon AUTEUR (date), ce test est souvent préféré lorsque l’homogénéité des variances est suspectée ou non vérifiée.

Test de Levene
Le test de Levene est une procédure statistique utilisée pour vérifier l’homoscédasticité, c’est-à-dire l’égalité des variances entre plusieurs groupes ou échantillons. Si le test indique une p-value inférieure à 0,05, cela signifie que les variances ne sont pas homogènes, ce qui influence le choix du test de comparaison (Student ou Welch). Il est essentiel de réaliser ce test avant de procéder à la comparaison des moyennes.

Test de conformité de la différence
Ce test concerne la vérification de l’hypothèse nulle selon laquelle la différence moyenne entre deux échantillons appariés est nulle (H0 : μD=0). Il s’agit d’un test spécifique pour les échantillons appariés, visant à déterminer si la moyenne des différences observées est significativement différente de zéro, ce qui indiquerait une différence statistiquement significative entre les deux conditions ou moments.

Points essentiels

Pour les échantillons appariés, on teste la différence moyenne avec H0 : μD=0.
Ce test consiste à analyser si la moyenne des différences entre chaque paire d’observations est significativement différente de zéro. La démarche implique de calculer la moyenne des différences et d’utiliser un test statistique (souvent un test t pour échantillons appariés) pour vérifier cette hypothèse. Si la p-value obtenue est inférieure à 0,05, on rejette H0, ce qui indique une différence significative entre les deux conditions ou moments.

Pour les échantillons indépendants, on doit d’abord vérifier deux conditions essentielles : la normalité et l’homoscédasticité. La normalité peut être testée par des tests spécifiques (non mentionnés ici), et l’homoscédasticité par le test de Levene. Selon ces résultats, on choisira soit le test t de Student (si les variances sont homogènes), soit le test de Welch (si elles ne le sont pas). La p-value inférieure à 5% (0,05) indique une différence significative entre les moyennes des deux groupes.

Une p-value < 5% indique une différence significative entre les moyennes, ce qui signifie que l’hypothèse nulle de non-différence peut être rejetée avec un niveau de confiance de 95%. En revanche, une p-value supérieure à 0,05 suggère que la différence observée n’est pas statistiquement significative, et qu’on ne peut pas rejeter H0.

À retenir

Il est crucial de vérifier la normalité et l’homoscédasticité avant de choisir le test de comparaison des moyennes. La p-value permet d’évaluer la significativité de la différence observée : si elle est inférieure à 5%, la différence est considérée comme statistiquement significative.

10. Analyse de réseaux Gephi

Notions clés & Définitions

Graphe (V, E)
Un graphe est une structure composée de deux ensembles : V, l’ensemble des sommets ou nœuds, et E, l’ensemble des arêtes ou liens entre ces nœuds. Selon la définition, un graphe peut être orienté ou non orienté, ce qui influence la direction des liens. Dans le contexte des réseaux sociaux, chaque individu ou entité est représenté par un nœud, et les relations ou interactions par des arêtes. La structure du graphe permet d’analyser la connectivité et la configuration du réseau.

Densité du réseau
La densité d’un réseau mesure la proportion de liens existants par rapport au nombre maximum possible de liens. Elle se calcule en divisant le nombre d’arêtes présentes par le nombre total d’arêtes possibles dans un graphe complet. La densité varie entre 0 (aucun lien) et 1 (tous les nœuds sont connectés entre eux). Elle permet d’évaluer à quel point le réseau est connecté ou dispersé.

Composante connexe
Une composante connexe d’un graphe est un sous-ensemble de nœuds tels que chaque paire de nœuds dans ce sous-ensemble est reliée par un chemin, directement ou indirectement. Dans un réseau social, une composante connexe représente un groupe d’individus entre lesquels il existe une chaîne de relations, ce qui indique une cohésion ou une segmentation du réseau.

Effet petit-monde
L’effet petit-monde désigne une propriété où la distance moyenne entre deux nœuds est faible, même dans un réseau de grande taille. Cela implique que, malgré la taille du réseau, il est possible de rejoindre n’importe quel nœud en un nombre limité d’étapes. Ce phénomène est caractéristique des réseaux sociaux, où peu de liens séparent deux individus, favorisant la diffusion rapide de l’information.

Coefficient de clustering
Le coefficient de clustering quantifie la tendance des nœuds à former des groupes ou des triangles, c’est-à-dire que si un nœud est connecté à deux autres, ces deux derniers sont aussi susceptibles d’être connectés entre eux. Il s’agit d’une mesure locale de la densité des liens au sein du voisinage d’un nœud. Un coefficient élevé indique une forte tendance à la formation de groupes ou de communautés.

Centralité de degré, d'intermédiarité, de proximité

Centralité de degré : mesure le nombre de liens qu’un nœud possède. Plus un nœud a de connexions, plus il est considéré comme central ou influent dans le réseau.
Centralité d’intermédiarité : évalue le rôle d’un nœud comme relais ou pont entre différentes parties du réseau. Un nœud avec une haute intermédiarité contrôle le flux d’informations ou de ressources.
Centralité de proximité : mesure la rapidité avec laquelle un nœud peut atteindre tous les autres nœuds du réseau. Elle est inversement proportionnelle à la distance moyenne entre ce nœud et tous les autres. Un nœud avec une haute proximité est stratégique pour une diffusion efficace.

Points essentiels

La densité du réseau est une mesure qui indique la proportion de liens existants par rapport au maximum possible. Elle se calcule en divisant le nombre d’arêtes présentes par le nombre total d’arêtes possibles dans un graphe complet. Une densité faible indique un réseau dispersé, avec peu de connexions, tandis qu’une densité élevée montre un réseau fortement connecté. La densité permet ainsi d’évaluer la cohésion globale du réseau social.

Un réseau petit-monde combine deux propriétés essentielles : une faible distance moyenne entre nœuds et un fort coefficient de clustering. La faible distance moyenne signifie qu’il faut peu d’étapes pour relier deux individus quelconques, facilitant la diffusion rapide de l’information. Le fort coefficient de clustering indique que les voisins d’un nœud ont également tendance à être connectés entre eux, favorisant la formation de groupes ou de communautés. La coexistence de ces deux propriétés confère au réseau une structure efficace pour la transmission et la cohésion.

Les centralités sont des indices qui évaluent différentes facettes de la position d’un nœud dans le réseau. La centralité de degré indique la popularité ou l’influence immédiate d’un nœud, en comptant ses connexions directes. La centralité d’intermédiarité mesure le rôle de relais ou de pont, en évaluant combien un nœud se trouve sur le chemin de communication entre autres nœuds. La centralité de proximité quantifie la rapidité d’accès ou de diffusion à partir d’un nœud vers l’ensemble du réseau, en calculant la distance moyenne à tous les autres nœuds. Ces mesures permettent d’identifier les acteurs clés, relais ou stratégiques dans un réseau social.

À retenir

L’analyse des réseaux sociaux à travers des mesures telles que la densité, le coefficient de clustering, et les centralités, permet de comprendre la structure, la cohésion et les rôles clés au sein du réseau. La propriété petit-monde, en particulier, illustre comment un réseau peut être à la fois fortement connecté localement et efficacement relié globalement, facilitant la diffusion rapide de l’information.

11. Détection de communautés Louvain

Notions clés & Définitions

Algorithme de Louvain : Méthode de détection de communautés dans un réseau social qui vise à optimiser la modularité. Selon le développement dans le contenu source, cet algorithme est conçu pour identifier des groupes cohérents en regroupant les sommets (individus) de manière à maximiser la densité des liens internes par rapport aux liens externes. Il fonctionne en itérant sur des niveaux de regroupement pour atteindre une partition optimale du graphe.

Modularité : Mesure de la qualité d’une partition en communautés dans un réseau. Elle quantifie la densité des liens à l’intérieur des groupes par rapport à ce qui serait attendu dans un réseau aléatoire. Plus la modularité est élevée, plus la partition en communautés est considérée comme pertinente. La modularité est une valeur numérique, généralement comprise entre -1 et 1, où une valeur supérieure à 0,3 indique une bonne partition selon le contenu source.

Partition en communautés : Division d’un réseau en sous-ensembles de sommets fortement interconnectés. Chaque communauté représente un groupe cohérent où les liens internes sont plus nombreux ou plus denses que ceux reliant différents groupes. La détection de ces partitions permet d’identifier des structures ou groupes denses dans le réseau social.

Algorithmes de spatialisation (ForceAtlas 2, OpenOrd) : Techniques utilisées pour représenter visuellement un réseau dans un espace en 2D ou 3D. Ces algorithmes ajustent la position des nœuds pour révéler la structure du réseau, facilitant l’interprétation des communautés et des nœuds centraux. Dans le contexte, ils sont utilisés sous Gephi pour une visualisation claire des regroupements détectés.

Visualisation par couleur et taille des nœuds : Méthode graphique pour représenter les communautés et leur importance. La couleur des nœuds indique leur appartenance à une communauté spécifique, tandis que leur taille est ajustée en fonction du degré (nombre de liens), permettant d’identifier rapidement les nœuds centraux ou influents dans le réseau.

Points essentiels

L’algorithme de Louvain est une méthode efficace pour détecter des communautés dans un réseau social en maximisant la modularité. La modularité, qui mesure la densité relative des liens internes par rapport aux liens externes, est un indicateur clé de la qualité de la partition. Une modularité supérieure à 0,3 est considérée comme une bonne indication que la partition en groupes est cohérente et significative. La visualisation de ces communautés est facilitée par l’utilisation d’outils comme Gephi, où des algorithmes de spatialisation tels que ForceAtlas 2 ou OpenOrd permettent de positionner les nœuds de manière à révéler la structure du réseau. La représentation graphique par couleur et taille des nœuds permet d’interpréter rapidement la composition des groupes et de repérer les nœuds centraux ou influents, en fonction de leur degré.

À retenir

L’algorithme de Louvain optimise la modularité pour identifier efficacement des groupes cohérents dans un réseau social, et la visualisation par couleur et taille des nœuds sous Gephi facilite leur interprétation en mettant en évidence la structure et les nœuds clés.

Repères chronologiques

Aucune date spécifique n'étant mentionnée dans le contenu fourni, cette section est omise.

Tableaux de Synthèse

Aspect	Régression linéaire simple	Vérification préalable	Régression linéaire multiple	Régression logistique	Méthode de comparaison de moyennes	Analyse de réseaux Gephi	Détection de communautés Louvain
Objectif	Expliquer Y par X	Vérifier la significativité de r	Expliquer Y par plusieurs X	Modéliser une variable binaire	Comparer moyennes entre groupes	Visualiser réseaux et relations	Identifier communautés dans un réseau
Modèle	$Y = aX + b + \varepsilon$	Test de corrélation (H0: r=0)	$Y = \beta_0 + \sum \beta_i X_i + \varepsilon$	Fonction logistique : logit(p) = ...	Test t ou ANOVA pour moyennes	Graphiques, clusters, communautés	Louvain : maximisation modularité
Coefficients clés	a (pente), b (intercept)	r, p-value pour corrélation	β (coefficients multiples)	Odds ratio (exp(β))	Moyennes, écarts-types, tests statistiques	Nœuds, liens, modules	Partitions optimisées par modularité
Indicateurs d’évaluation	R², p-value, residuals	p-value du test de corrélation	R² ajusté, p-values des β	Score de classification, AUC	p-value, intervalle de confiance	Modularity, centralité, clustering coefficient	Modularity, taille des communautés

Pièges & Confusions Fréquentes

Confondre coefficient de régression (a) et coefficient de corrélation (r).
Ignorer la vérification préalable de la significativité du coefficient de corrélation.
Interpréter à tort le coefficient b comme une moyenne ou une valeur absolue.
Négliger l’analyse des résidus pour valider la normalité et l’homoscédasticité.
Confondre R² avec la causalité ou la qualité absolue du modèle.
Omettre la vérification des hypothèses du modèle avant interprétation.
Utiliser la régression logistique pour des variables continues sans transformation appropriée.
Mal interpréter les résultats issus des méthodes de comparaison de moyennes ou des analyses en réseaux.

Checklist Examen

Connaître la formule du modèle de régression linéaire simple : $Y = aX + b + \varepsilon$ .
Savoir définir et interpréter le coefficient de régression a.
Comprendre le rôle et l’interprétation de la constante b.
Maîtriser la signification et l’interprétation du coefficient de corrélation r.
Savoir réaliser et interpréter un test de significativité du coefficient de corrélation.
Connaître le seuil classique de 5% pour le rejet de H0 dans le test de corrélation.
Comprendre ce que représente le coefficient de détermination R².
Savoir comment vérifier la normalité et l’homoscédasticité des résidus.
Connaître les hypothèses H0 et H1 pour le test de corrélation.
Savoir utiliser et interpréter un modèle en régression linéaire multiple.
Maîtriser les principes fondamentaux d’une régression logistique et ses applications.
Connaître les méthodes pour comparer des moyennes (test t, ANOVA).
Avoir une compréhension basique des analyses en réseaux avec Gephi.
Savoir ce que sont les communautés Louvain et leur intérêt dans l’analyse réseau.
Connaître les auteurs clés mentionnés : Chapitre 1 sur la régression linéaire simple, concepts fondamentaux liés à la validation et à l’interprétation des modèles.

📋 Plan du Cours

📖 1. Régression linéaire simple

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 2. Vérification préalable

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 3. Interprétation du modèle

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 4. Validation du modèle

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 5. Régression linéaire multiple

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 6. Sélection des variables

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 7. Interprétation et validation

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 8. Régression logistique

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 9. Méthode de comparaison de moyennes

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 10. Analyse de réseaux Gephi

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 11. Détection de communautés Louvain

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📅 Repères chronologiques

📊 Tableaux de Synthèse

⚠️ Pièges & Confusions Fréquentes

✅ Checklist Examen

Teste tes connaissances

Révisez avec les flashcards

Cours similaires

Applications et propriétés générales

Calcul algébrique : sommes et produits

Introduction à la psychologie clinique

Vecteurs, coordonnées et nombres complexes

Système éducatif de l’IB

Extériorisations et images rétiniennes

Crée tes propres fiches de révision

Plan du Cours

1. Régression linéaire simple

Notions clés & Définitions

Points essentiels

À retenir

2. Vérification préalable

Notions clés & Définitions

Points essentiels

À retenir

3. Interprétation du modèle

Notions clés & Définitions

Points essentiels

À retenir

4. Validation du modèle

Notions clés & Définitions

Points essentiels

À retenir

5. Régression linéaire multiple

Notions clés & Définitions

Points essentiels

À retenir

6. Sélection des variables

Notions clés & Définitions

Points essentiels

À retenir

7. Interprétation et validation

Notions clés & Définitions

Points essentiels

À retenir

8. Régression logistique

Notions clés & Définitions

Points essentiels

À retenir

9. Méthode de comparaison de moyennes

Notions clés & Définitions

Points essentiels

À retenir

10. Analyse de réseaux Gephi

Notions clés & Définitions

Points essentiels

À retenir

11. Détection de communautés Louvain

Notions clés & Définitions

Points essentiels

À retenir

Repères chronologiques

Tableaux de Synthèse

Pièges & Confusions Fréquentes

Checklist Examen