Fiche de révision : Titre : Fondamentaux de la statistique descriptive et inférentielle

Plan du Cours

Statistique descriptive vs inférentielle
Population, échantillon et rappel descriptif
Dispersion et boîte à moustaches
Processus du test d’hypothèse et erreurs
Niveau de signification, p-value et décision
Tests de normalité et choix paramétrique
Comparaison de moyennes et tests t
Comparaison de k moyennes ANOVA et non paramétriques
Comparaison de variances et test de Fisher
Tests d’association et corrélation Pearson Spearman

1. Statistique descriptive vs inférentielle

Notions clés & Définitions

Statistique descriptive : La statistique descriptive résume et décrit des données observées à l’aide de mesures et de graphiques.
Statistique inférentielle : La statistique inférentielle utilise un échantillon pour tirer des conclusions sur une population via des tests et des probabilités.
Population vs échantillon : Une population est l’ensemble visé, tandis qu’un échantillon est la partie observée utilisée pour faire des inférences.
Boîte à moustaches : La boîte à moustaches est un diagramme qui visualise la médiane, la dispersion et les valeurs extrêmes à partir des quartiles.
IQR : L’IQR est l’intervalle interquartile, qui mesure la dispersion centrale entre Q1 et Q3.

Points essentiels

La statistique descriptive met l’accent sur la forme et la dispersion des données (symétrie, concentration, étalement) plutôt que sur une décision probabiliste.
La statistique inférentielle suit un enchaînement Question → Hypothèses → Test d’hypothèse → Conclusion à partir des données.
Dans l’exemple des parcelles, l’engrais organique correspond à une production plus homogène (variation modérée) tandis que l’autre engrais montre davantage de variation.
Le box plot s’appuie sur Q1, Q2 (médiane) et Q3 pour situer les valeurs et repérer les extrêmes.
L’IQR sert à définir des bornes d’exclusion des valeurs extrêmes via Q1−1,5·IQR et Q3+1,5·IQR.
Le test d’hypothèse compare une situation de référence (H0 : pas d’effet) à une alternative (H1 : effet/changement/différence).

Astuce mémo

Descriptif = Décrire (box plot, IQR) ; Inférentiel = Décider (H0/H1, p-value).

2. Population, échantillon et rappel descriptif

Notions clés & Définitions

Population : En statistique, la population désigne l’ensemble complet des individus ou observations que l’on veut étudier.
Échantillon : En statistique, l’échantillon est une partie de la population utilisée pour faire des estimations ou des tests.
P-value : La p-value est la probabilité d’obtenir une statistique de test au moins aussi extrême si l’hypothèse nulle H₀ est vraie.
Hypothèse nulle H₀ : L’hypothèse nulle H₀ est l’hypothèse de référence supposée vraie avant de décider de la rejeter ou non.
Hypothèse alternative H₁ : L’hypothèse alternative H₁ exprime l’idée contraire à H₀ et correspond à ce qu’on cherche à mettre en évidence.

Points essentiels

Règle de décision : si p-value ≤ α alors on rejette H₀, sinon on ne rejette pas H₀.
La p-value sert à trancher dans un test d’hypothèse en comparant son niveau d’évidence à α.
H₀ et H₁ se formulent pour une comparaison de paramètres (ex. moyennes) entre deux groupes.
Dans un rappel descriptif, on résume les données avec des mesures comme moyennes, écart-types et variances.
Le choix du test dépend du type de comparaison (2 moyennes, k moyennes, 2 variances, association) et du schéma (indépendant ou apparié).
Test de normalité : H₀ = données normales et H₁ = données non normales, avec des tests comme Shapiro-Wilk, Kolmogorov-Smirnov, Anderson-Darling ou Jarque-Bera.

Astuce mémo

p-value ≤ α ⇒ rejet : « si c’est trop improbable, on écarte H₀ ».

3. Dispersion et boîte à moustaches

Notions clés & Définitions

Dispersion : La dispersion mesure à quel point les valeurs d’un échantillon s’écartent de leur centre (moyenne ou médiane).
Boîte à moustaches : La boîte à moustaches est un diagramme qui résume la dispersion via quartiles et étendue représentée par des moustaches.
Test t de Student : Le test t de Student compare des moyennes en utilisant une statistique t et une loi de Student pour décider de rejeter ou non H0.
Mann-Whitney : Le test de Mann-Whitney compare deux distributions en utilisant des rangs plutôt que les moyennes.
Kruskal-Wallis : Le test de Kruskal-Wallis généralise Mann-Whitney à la comparaison de k groupes indépendants.

Points essentiels

Pour comparer 2 moyennes avec un test t (groupes indépendants), on utilise H0 : μA = μB et H1 : μA ≠ μB avec α = 5%.
La statistique t s’écrit $t=\dfrac{\bar x_1-\bar x_2}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$ où $s_p$ est l’écart-type poolé.
Les degrés de liberté pour le test t à 2 moyennes (Student) sont $d\!d\!l=n_1+n_2-2$ .
Règle bilatérale : si $t<t_{crit}$ on ne rejette pas H0, et si $t>t_{crit}$ on rejette H0 (avec $t_{crit}$ issu de la table de Student).
Pour Mann-Whitney, on calcule $U_i=\dfrac{n_1n_2+n_i(n_i+1)}{2}-R_i$ où $R_i$ est la somme des rangs du groupe i.
Règle Mann-Whitney : on prend la valeur la plus petite entre les deux U, puis on compare à $U_{crit}$ (si $U\le U_{crit}$ on rejette H0, sinon on ne la rejette pas).

Astuce mémo

t : (différence de moyennes) / (dispersion poolée) ; Mann-Whitney : rangs → U (on garde le plus petit U).

4. Processus du test d’hypothèse et erreurs

Notions clés & Définitions

Hypothèse nulle H0 : L’hypothèse nulle est l’assertion de départ testée pour décider si les données apportent une preuve suffisante contre elle.
Arbre de décision du test : L’arbre de décision est une procédure qui oriente le choix du test selon la question, le type de groupes et la nature des variables.
Degré de liberté : Le degré de liberté est le paramètre $d.d.l$ qui fixe la loi de référence (souvent la loi de Student) pour déterminer la valeur critique.
Valeur critique : La valeur critique est le seuil issu de la loi de référence et du niveau qui sépare la zone de rejet de la zone de non-rejet.
Erreur de première espèce : L’erreur de première espèce correspond au rejet de $H0$ alors qu’elle est vraie.

Points essentiels

On fixe $H0$ puis on choisit le test via l’arbre selon Groupe/Échantillon et le type de variable (quanti/qualitative, indépendante/apparié).
On fixe le niveau de risque puis on détermine la valeur critique à partir de la table de la loi du test (Student, Mann-Whitney, Wilcoxon, etc.).
Décision bilatérale : on rejette $H0$ si la statistique tombe dans la zone extrême (comparaison à la valeur critique bilatérale).
Décision unilatérale : on rejette $H0$ si la statistique dépasse le seuil du côté concerné par l’alternative.
Test de Student (2 moyennes appariées) : $t=\dfrac{\overline{x_D}}{s/\sqrt{n}}$ avec $d.d.l=n-1$ et comparaison à $t_{critique}$ .
Règle de décision Student : si $t<t_{critique}$ on ne rejette pas $H0$ ; si $t>t_{critique}$ on rejette $H0$ (selon le sens de la comparaison).

Astuce mémo

Seuil → Valeur critique → Zone de rejet : $H0$ survit si la statistique reste “à l’intérieur”.

5. Niveau de signification, p-value et décision

Notions clés & Définitions

Niveau de signification α : Le niveau de signification α fixe la probabilité maximale d’erreur de première espèce acceptée avant de décider de rejeter H0.
p-value : La p-value mesure la compatibilité des données avec H0, et sert de critère pour décider de rejeter ou non H0.
Valeur critique : La valeur critique est le seuil issu de la table de la statistique de test, séparant la zone de rejet de la zone de non-rejet.
Règle de décision bilatérale : En test bilatéral, la zone de rejet est symétrique et la décision dépend de la statistique par rapport à la valeur critique bilatérale.
Règle de décision unilatérale : En test unilatéral, la zone de rejet est d’un seul côté et la décision dépend de la statistique par rapport à la valeur critique unilatérale.

Points essentiels

On compare la statistique de test à la valeur critique de la table (bilatérale ou unilatérale) pour décider de rejeter H0 ou non.
Si la statistique est du côté de rejet (selon le sens indiqué par la table), alors on rejette H0, sinon on ne rejette pas H0.
Pour les tests Mann–Whitney/Wilcoxon, on utilise la valeur critique notée Wcrit ou Ucrit selon le test et le tableau, avec la règle Fait référence à W et U.
Pour Mann–Whitney/Wilcoxon bilatéral, la décision suit la comparaison à la valeur critique correspondante de la table (U≤Ucrit : non rejet, U>Ucrit : rejet).
Pour ANOVA (F), on compare F à Fcrit : si F≤Fcrit on ne rejette pas H0, et si F>Fcrit on rejette H0.
Pour un test, le choix bilatéral/unilatéral dépend du type d’hypothèse et conditionne la valeur critique lue dans la table (même α).

Astuce mémo

α fixe le seuil, p-value mesure la compatibilité, et la décision se fait par comparaison à la valeur critique (zone de rejet).

6. Tests de normalité et choix paramétrique

Notions clés & Définitions

Test de Student : Test paramétrique de comparaison de deux moyennes, utilisé pour des échantillons indépendants lorsque les conditions paramétriques sont respectées.
Mann-Whitney : Test non-paramétrique de comparaison de deux moyennes basé sur les rangs, adapté quand les hypothèses paramétriques ne sont pas satisfaites.
Wilcoxon : Test non-paramétrique apparié de comparaison de deux moyennes, fondé sur les rangs des différences.
ANNOVA : Test paramétrique de comparaison de k moyennes pour des groupes indépendants, généralisation de la comparaison de deux moyennes.
Kruskal-Wallis : Test non-paramétrique indépendant de comparaison de k moyennes basé sur les rangs.

Points essentiels

Choix paramétrique vs non-paramétrique dépend des hypothèses (notamment normalité et variances) et du type de données (indépendant ou apparié).
Comparaison de 2 moyennes indépendante : Test de Student ou Mann-Whitney selon la validité des hypothèses.
Comparaison de 2 moyennes appariée : Test de Student apparié ou Wilcoxon selon la validité des hypothèses.
Comparaison de k moyennes indépendante : ANNOVA ou Kruskal-Wallis selon la validité des hypothèses.
Comparaison de k moyennes appariée : ANNOVA appariée ou Friedman.
Comparaison de 2 variances indépendante/appariée : Test de Fisher pour décider sur l’égalité des variances.

Astuce mémo

Indépendant = rangs (Mann-Whitney/Kruskal-Wallis), Apparié = différences (Wilcoxon/Friedman).

7. Comparaison de moyennes et tests t

Notions clés & Définitions

Test de Student : Test paramétrique utilisé pour comparer des moyennes, avec une version pour échantillons indépendants et une version pour échantillons appariés.
Test de Mann-Whitney : Test non paramétrique de comparaison de deux moyennes basé sur les rangs, adapté aux échantillons indépendants.
Test de Wilcoxon : Test non paramétrique de comparaison de deux moyennes basé sur les rangs, adapté aux données appariées.
Test de Friedman : Test non paramétrique de comparaison de k moyennes pour mesures répétées au sein des mêmes participants.

Points essentiels

Pour comparer 2 moyennes, si les groupes sont indépendants on utilise Student ou Mann-Whitney, et si les mesures sont appariées on utilise Student apparié ou Wilcoxon.
Le test de Friedman sert à comparer k moyennes quand les observations sont intra-participant (classement dans chaque individu).
Dans Friedman, on note k le nombre de modalités et n le nombre d’individus, et on calcule une statistique basée sur la somme des rangs Rj.
Dans Friedman, le nombre de degrés de liberté est ddl = k − 1 et la décision se fait avec une valeur critique du χ².
Règle de décision Friedman : si χ² ≤ χ²_critique on ne rejette pas H0, et si χ² > χ²_critique on rejette H0.
Table de Friedman : on choisit bilatéral ou unilatéral selon α et on compare la statistique χ² à la valeur critique correspondante.

Astuce mémo

Indépendant → Mann-Whitney (rangs) ; Apparié → Wilcoxon (rangs) ; k mesures répétées → Friedman (χ² sur rangs).

8. Comparaison de k moyennes ANOVA et non paramétriques

Notions clés & Définitions

ANOVA à un facteur : Test paramétrique qui compare les moyennes de $k$ groupes indépendants en supposant des conditions de validité sur la variance et la distribution.
Kruskal-Wallis : Test non paramétrique qui compare $k$ groupes indépendants quand on ne veut pas supposer la normalité des données.
Friedman : Test non paramétrique qui compare $k$ mesures appariées (mêmes sujets) quand la variable quantitative n’est pas supposée suivre une loi normale.
Groupes indépendants : Configuration où les observations de chaque groupe proviennent de sujets différents, ce qui oriente le choix du test.
Groupes appariés : Configuration où les observations sont liées (mêmes sujets mesurés plusieurs fois), ce qui oriente le choix du test.

Points essentiels

Pour comparer $k$ moyennes avec des groupes indépendants, on utilise l’ANOVA si les hypothèses paramétriques sont acceptables.
Pour comparer $k$ moyennes avec des groupes indépendants sans hypothèses paramétriques, on utilise le test de Kruskal-Wallis.
Pour comparer $k$ moyennes avec des mesures appariées, l’ANOVA correspondante est remplacée par le test de Friedman en non paramétrique.
Le test de Kruskal-Wallis et le test de Friedman sont adaptés quand la variable quantitative ne suit pas une distribution normale (selon le contexte du cours).
Le choix du test dépend d’abord du schéma Groupe/Echantillon : indépendants pour Kruskal-Wallis, appariés pour Friedman.

Astuce mémo

Indépendants → Kruskal-Wallis (K comme “K” pour “K groupes indépendants”), Appariés → Friedman (mêmes sujets, même “F”ramework).

9. Comparaison de variances et test de Fisher

Notions clés & Définitions

Test de Fisher : Test statistique utilisé pour comparer des variances entre deux groupes, en particulier quand les données sont indépendantes ou appariées selon le contexte du plan d’étude.
Test de Levene : Test de comparaison de variances basé sur la dispersion, souvent utilisé pour limiter la sensibilité aux écarts à la normalité par rapport à d’autres tests.
Test de Bartlett : Test de comparaison de variances fondé sur la variance et la normalité, généralement plus adapté quand l’hypothèse de normalité est raisonnable.
Degrés de liberté ddl : Paramètre $ddl$ qui fixe la loi de référence du test khi-deux et dépend des nombres de lignes et de colonnes du tableau de contingence.

Points essentiels

Pour comparer 2 variances, on utilise le test de Fisher quand les groupes sont indépendants ou appiariés selon le plan.
Pour comparer $k$ variances, on utilise des tests adaptés aux groupes indépendants ou appariés, notamment Levene ou Bartlett.
Le test de Levene est associé à la comparaison de variances pour des groupes indépendants/appariés dans l’arbre de décision.
Le test de Bartlett est aussi utilisé pour la comparaison de $k$ variances dans l’arbre de décision.
Dans un tableau de contingence, les degrés de liberté du test khi-deux valent $ddl=(\text{nombre de lignes}-1)\times(\text{nombre de colonnes}-1)$ .

Astuce mémo

Fisher = variances à comparer (2 groupes) ; Levene/Bartlett = variances à comparer (k groupes).

10. Tests d’association et corrélation Pearson Spearman

Notions clés & Définitions

Test de Pearson : Test paramétrique mesurant l’association linéaire entre deux variables quantitatives via le coefficient de corrélation $r$ .
Coefficient de corrélation de Pearson : Mesure standardisée de la liaison linéaire entre deux variables quantitatives, notée $r$ , calculée à partir de la covariance et des écarts-types.
Test de Spearman : Test non paramétrique évaluant l’association monotone entre deux variables quantitatives en utilisant les rangs et $ho$ .
Coefficient de corrélation de Spearman : Mesure d’association basée sur les rangs, notée $ho$ , calculée à partir de la somme des carrés des différences de rangs.
Association par corrélation : Approche statistique reliant deux variables quantitatives à l’aide d’un coefficient de corrélation plutôt que d’un test d’égalité de moyennes.

Points essentiels

Pearson teste l’association linéaire entre deux variables quantitatives à partir de $r$ et d’un test $t$ .
Le test de Pearson utilise $t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$ avec $\mathrm{DDL}=n-2$ .
La décision se fait avec une valeur critique de Student : on ne rejette $H_0$ si $t\le t_{crit}$ et on rejette $H_0$ si $t>t_{crit}$ .
La formule de $r$ s’appuie sur la covariance : $\mathrm{Cov}(X,Y)=\dfrac{\sum (x_i-\bar x)(y_i-\bar y)}{n-1}$ et $r=\dfrac{\mathrm{Cov}(X,Y)}{s_x s_y}$ .
Spearman teste une association monotone en attribuant des rangs, puis en calculant $\rho=1-\dfrac{6\sum d_i^2}{n(n^2-1)}$ .
Le test de Spearman utilise $t=\rho\sqrt{\dfrac{n-2}{1-\rho^2}}$ avec $\mathrm{DDL}=n-2$ et la même règle de décision par comparaison à $t_{crit}$ .

Astuce mémo

Pearson = $r$ sur valeurs (linéaire) ; Spearman = $\rho$ sur rangs (monotone).

Tableaux de synthèse

Choix du test selon Groupe/Échantillon et nature paramétrique

Problématique	Indépendants	Appariés
2 moyennes	Test de student ; Test de Mann-Whitney	Test de student ; Test de Wilcoxon
k moyennes	ANNOVA ; Test de Kruskal-Wallis	ANNOVA ; Test de Friedman
2 variances	Test de Fisher	Test de Fisher
k variances	Test de Levene ; Bartlett	Test de Levene ; Bartlett

Association entre variables quantitatives

Variable	Test	Hypothèse/forme
Quantitative & quantitative	Pearson	Association linéaire via r (test t)
Quantitative & quantitative	Spearman	Association monotone via rangs (test t)

Pièges & confusions fréquents

Confondre statistique descriptive et inférentielle : la première décrit (box plot, IQR) tandis que la seconde décide via H0/H1 et une règle de rejet.
Inverser la règle de décision : confondre p-value ≤ α (rejeter H0) avec p-value > α (ne pas rejeter H0).
Mélanger bilatéral et unilatéral : utiliser une valeur critique bilatérale quand l’alternative n’est que d’un seul côté (ou l’inverse).
Se tromper de schéma Groupe/Échantillon : appliquer Mann-Whitney à des mesures appariées (ou Wilcoxon à des groupes indépendants).
Confondre les notations de dispersion/exclusion : utiliser Q1−1,5·IQR et Q3+1,5·IQR comme si c’était l’IQR lui-même (l’IQR = Q3−Q1).
Pour Pearson/Spearman, confondre la base de calcul : Pearson sur valeurs (r), Spearman sur rangs (ρ).
Pour Friedman/Kruskal-Wallis, confondre le contexte : Friedman = mesures répétées intra-participant (χ²), Kruskal-Wallis = k groupes indépendants (H).

Checklist Examen

Distinguer statistique descriptive vs inférentielle et citer au moins un outil de chaque (box plot/IQR vs test d’hypothèse).
Expliquer population vs échantillon et relier l’échantillon à la logique d’inférence.
Définir H0 et H1 dans un test (ex. égalité vs différence de moyennes) et formuler la question statistique.
Énoncer la règle de décision générale avec p-value et α : p-value ≤ α rejette H0, sinon ne rejette pas H0.
Interpréter un box plot : repérer Q1, Q2 (médiane), Q3 et comprendre le rôle des bornes Q1−1,5·IQR et Q3+1,5·IQR pour les extrêmes.
Choisir le test selon normalité et schéma : Student vs Mann-Whitney (2 moyennes), Student apparié vs Wilcoxon (2 moyennes appariées).
Choisir le test pour k moyennes : ANNOVA vs Kruskal-Wallis (indépendants) et ANNOVA vs Friedman (appariés).
Choisir le test pour variances : Fisher pour 2 variances et Levene/Bartlett pour k variances, en reliant au plan indépendant/apparié.
Pour Student (2 moyennes indépendantes), écrire la statistique t et les degrés de liberté d.d.l = n1+n2−2 puis appliquer la règle t vs tcritique.
Pour Mann-Whitney/Wilcoxon, calculer U (avec la formule donnée) ou W (avec rangs) et appliquer la règle de comparaison à la valeur critique (U≤Ucrit ou U>Ucrit ; W≤Wcrit ou W>Wcrit selon le cours).
Pour ANOVA (k moyennes indépendantes), utiliser F = MSbetween/MSwithin, identifier d.f. entre et d.f. within, puis appliquer F vs Fcritique.
Pour corrélation, calculer/identifier Pearson (r et t avec DDL=n−2) et Spearman (ρ via rangs et t avec DDL=n−2) puis appliquer la décision par comparaison à tcritique.

📋 Plan du Cours

📖 1. Statistique descriptive vs inférentielle

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 2. Population, échantillon et rappel descriptif

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 3. Dispersion et boîte à moustaches

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 4. Processus du test d’hypothèse et erreurs

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 5. Niveau de signification, p-value et décision

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 6. Tests de normalité et choix paramétrique

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 7. Comparaison de moyennes et tests t

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 8. Comparaison de k moyennes ANOVA et non paramétriques

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 9. Comparaison de variances et test de Fisher

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 10. Tests d’association et corrélation Pearson Spearman

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📊 Tableaux de synthèse

Choix du test selon Groupe/Échantillon et nature paramétrique

Association entre variables quantitatives

⚠️ Pièges & confusions fréquents

✅ Checklist Examen

Teste tes connaissances

Révisez avec les flashcards

Cours similaires

Diagrammes SysML en MPSI

Analyse des systèmes industriels

Expression du patrimoine génétique

Formule brute d’un alcool

Dimensionnement des fusibles électriques

Mouvements et forces

Crée tes propres fiches de révision

Plan du Cours

1. Statistique descriptive vs inférentielle

Notions clés & Définitions

Points essentiels

Astuce mémo

2. Population, échantillon et rappel descriptif

Notions clés & Définitions

Points essentiels

Astuce mémo

3. Dispersion et boîte à moustaches

Notions clés & Définitions

Points essentiels

Astuce mémo

4. Processus du test d’hypothèse et erreurs

Notions clés & Définitions

Points essentiels

Astuce mémo

5. Niveau de signification, p-value et décision

Notions clés & Définitions

Points essentiels

Astuce mémo

6. Tests de normalité et choix paramétrique

Notions clés & Définitions

Points essentiels

Astuce mémo

7. Comparaison de moyennes et tests t

Notions clés & Définitions

Points essentiels

Astuce mémo

8. Comparaison de k moyennes ANOVA et non paramétriques

Notions clés & Définitions

Points essentiels

Astuce mémo

9. Comparaison de variances et test de Fisher

Notions clés & Définitions

Points essentiels

Astuce mémo

10. Tests d’association et corrélation Pearson Spearman

Notions clés & Définitions

Points essentiels

Astuce mémo

Tableaux de synthèse

Pièges & confusions fréquents

Checklist Examen