Fiche de révision : Titre : Fondamentaux de la statistique descriptive et inférentielle

📋 Plan du Cours

  1. Statistique descriptive vs inférentielle
  2. Population, échantillon et rappel descriptif
  3. Dispersion et boîte à moustaches
  4. Processus du test d’hypothèse et erreurs
  5. Niveau de signification, p-value et décision
  6. Tests de normalité et choix paramétrique
  7. Comparaison de moyennes et tests t
  8. Comparaison de k moyennes ANOVA et non paramétriques
  9. Comparaison de variances et test de Fisher
  10. Tests d’association et corrélation Pearson Spearman

📖 1. Statistique descriptive vs inférentielle

🔑 Notions clés & Définitions

  • Statistique descriptive : La statistique descriptive résume et décrit des données observées à l’aide de mesures et de graphiques.
  • Statistique inférentielle : La statistique inférentielle utilise un échantillon pour tirer des conclusions sur une population via des tests et des probabilités.
  • Population vs échantillon : Une population est l’ensemble visé, tandis qu’un échantillon est la partie observée utilisée pour faire des inférences.
  • Boîte à moustaches : La boîte à moustaches est un diagramme qui visualise la médiane, la dispersion et les valeurs extrêmes à partir des quartiles.
  • IQR : L’IQR est l’intervalle interquartile, qui mesure la dispersion centrale entre Q1 et Q3.

📝 Points essentiels

  • La statistique descriptive met l’accent sur la forme et la dispersion des données (symétrie, concentration, étalement) plutôt que sur une décision probabiliste.
  • La statistique inférentielle suit un enchaînement Question → Hypothèses → Test d’hypothèse → Conclusion à partir des données.
  • Dans l’exemple des parcelles, l’engrais organique correspond à une production plus homogène (variation modérée) tandis que l’autre engrais montre davantage de variation.
  • Le box plot s’appuie sur Q1, Q2 (médiane) et Q3 pour situer les valeurs et repérer les extrêmes.
  • L’IQR sert à définir des bornes d’exclusion des valeurs extrêmes via Q1−1,5·IQR et Q3+1,5·IQR.
  • Le test d’hypothèse compare une situation de référence (H0 : pas d’effet) à une alternative (H1 : effet/changement/différence).

💡 Astuce mémo

Descriptif = Décrire (box plot, IQR) ; Inférentiel = Décider (H0/H1, p-value).

📖 2. Population, échantillon et rappel descriptif

🔑 Notions clés & Définitions

  • Population : En statistique, la population désigne l’ensemble complet des individus ou observations que l’on veut étudier.
  • Échantillon : En statistique, l’échantillon est une partie de la population utilisée pour faire des estimations ou des tests.
  • P-value : La p-value est la probabilité d’obtenir une statistique de test au moins aussi extrême si l’hypothèse nulle H₀ est vraie.
  • Hypothèse nulle H₀ : L’hypothèse nulle H₀ est l’hypothèse de référence supposée vraie avant de décider de la rejeter ou non.
  • Hypothèse alternative H₁ : L’hypothèse alternative H₁ exprime l’idée contraire à H₀ et correspond à ce qu’on cherche à mettre en évidence.

📝 Points essentiels

  • Règle de décision : si p-value ≤ α alors on rejette H₀, sinon on ne rejette pas H₀.
  • La p-value sert à trancher dans un test d’hypothèse en comparant son niveau d’évidence à α.
  • H₀ et H₁ se formulent pour une comparaison de paramètres (ex. moyennes) entre deux groupes.
  • Dans un rappel descriptif, on résume les données avec des mesures comme moyennes, écart-types et variances.
  • Le choix du test dépend du type de comparaison (2 moyennes, k moyennes, 2 variances, association) et du schéma (indépendant ou apparié).
  • Test de normalité : H₀ = données normales et H₁ = données non normales, avec des tests comme Shapiro-Wilk, Kolmogorov-Smirnov, Anderson-Darling ou Jarque-Bera.

💡 Astuce mémo

p-value ≤ α ⇒ rejet : « si c’est trop improbable, on écarte H₀ ».

📖 3. Dispersion et boîte à moustaches

🔑 Notions clés & Définitions

  • Dispersion : La dispersion mesure à quel point les valeurs d’un échantillon s’écartent de leur centre (moyenne ou médiane).
  • Boîte à moustaches : La boîte à moustaches est un diagramme qui résume la dispersion via quartiles et étendue représentée par des moustaches.
  • Test t de Student : Le test t de Student compare des moyennes en utilisant une statistique t et une loi de Student pour décider de rejeter ou non H0.
  • Mann-Whitney : Le test de Mann-Whitney compare deux distributions en utilisant des rangs plutôt que les moyennes.
  • Kruskal-Wallis : Le test de Kruskal-Wallis généralise Mann-Whitney à la comparaison de k groupes indépendants.

📝 Points essentiels

  • Pour comparer 2 moyennes avec un test t (groupes indépendants), on utilise H0 : μA = μB et H1 : μA ≠ μB avec α = 5%.
  • La statistique t s’écrit t=xˉ1xˉ2sp1n1+1n2t=\dfrac{\bar x_1-\bar x_2}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}sps_p est l’écart-type poolé.
  • Les degrés de liberté pour le test t à 2 moyennes (Student) sont d ⁣d ⁣l=n1+n22d\!d\!l=n_1+n_2-2.
  • Règle bilatérale : si t<tcritt<t_{crit} on ne rejette pas H0, et si t>tcritt>t_{crit} on rejette H0 (avec tcritt_{crit} issu de la table de Student).
  • Pour Mann-Whitney, on calcule Ui=n1n2+ni(ni+1)2RiU_i=\dfrac{n_1n_2+n_i(n_i+1)}{2}-R_iRiR_i est la somme des rangs du groupe i.
  • Règle Mann-Whitney : on prend la valeur la plus petite entre les deux U, puis on compare à UcritU_{crit} (si UUcritU\le U_{crit} on rejette H0, sinon on ne la rejette pas).

💡 Astuce mémo

t : (différence de moyennes) / (dispersion poolée) ; Mann-Whitney : rangs → U (on garde le plus petit U).

📖 4. Processus du test d’hypothèse et erreurs

🔑 Notions clés & Définitions

  • Hypothèse nulle H0 : L’hypothèse nulle est l’assertion de départ testée pour décider si les données apportent une preuve suffisante contre elle.
  • Arbre de décision du test : L’arbre de décision est une procédure qui oriente le choix du test selon la question, le type de groupes et la nature des variables.
  • Degré de liberté : Le degré de liberté est le paramètre d.d.ld.d.l qui fixe la loi de référence (souvent la loi de Student) pour déterminer la valeur critique.
  • Valeur critique : La valeur critique est le seuil issu de la loi de référence et du niveau  qui sépare la zone de rejet de la zone de non-rejet.
  • Erreur de première espèce : L’erreur de première espèce correspond au rejet de H0H0 alors qu’elle est vraie.

📝 Points essentiels

  • On fixe H0H0 puis on choisit le test via l’arbre selon Groupe/Échantillon et le type de variable (quanti/qualitative, indépendante/apparié).
  • On fixe le niveau de risque  puis on détermine la valeur critique à partir de la table de la loi du test (Student, Mann-Whitney, Wilcoxon, etc.).
  • Décision bilatérale : on rejette H0H0 si la statistique tombe dans la zone extrême (comparaison à la valeur critique bilatérale).
  • Décision unilatérale : on rejette H0H0 si la statistique dépasse le seuil du côté concerné par l’alternative.
  • Test de Student (2 moyennes appariées) : t=xDs/nt=\dfrac{\overline{x_D}}{s/\sqrt{n}} avec d.d.l=n1d.d.l=n-1 et comparaison à tcritiquet_{critique}.
  • Règle de décision Student : si t<tcritiquet<t_{critique} on ne rejette pas H0H0 ; si t>tcritiquet>t_{critique} on rejette H0H0 (selon le sens de la comparaison).

💡 Astuce mémo

Seuil  → Valeur critique → Zone de rejet : H0H0 survit si la statistique reste “à l’intérieur”.

📖 5. Niveau de signification, p-value et décision

🔑 Notions clés & Définitions

  • Niveau de signification α : Le niveau de signification α fixe la probabilité maximale d’erreur de première espèce acceptée avant de décider de rejeter H0.
  • p-value : La p-value mesure la compatibilité des données avec H0, et sert de critère pour décider de rejeter ou non H0.
  • Valeur critique : La valeur critique est le seuil issu de la table de la statistique de test, séparant la zone de rejet de la zone de non-rejet.
  • Règle de décision bilatérale : En test bilatéral, la zone de rejet est symétrique et la décision dépend de la statistique par rapport à la valeur critique bilatérale.
  • Règle de décision unilatérale : En test unilatéral, la zone de rejet est d’un seul côté et la décision dépend de la statistique par rapport à la valeur critique unilatérale.

📝 Points essentiels

  • On compare la statistique de test à la valeur critique de la table (bilatérale ou unilatérale) pour décider de rejeter H0 ou non.
  • Si la statistique est du côté de rejet (selon le sens indiqué par la table), alors on rejette H0, sinon on ne rejette pas H0.
  • Pour les tests Mann–Whitney/Wilcoxon, on utilise la valeur critique notée Wcrit ou Ucrit selon le test et le tableau, avec la règle Fait référence à W et U.
  • Pour Mann–Whitney/Wilcoxon bilatéral, la décision suit la comparaison à la valeur critique correspondante de la table (U≤Ucrit : non rejet, U>Ucrit : rejet).
  • Pour ANOVA (F), on compare F à Fcrit : si F≤Fcrit on ne rejette pas H0, et si F>Fcrit on rejette H0.
  • Pour un test, le choix bilatéral/unilatéral dépend du type d’hypothèse et conditionne la valeur critique lue dans la table (même α).

💡 Astuce mémo

α fixe le seuil, p-value mesure la compatibilité, et la décision se fait par comparaison à la valeur critique (zone de rejet).

📖 6. Tests de normalité et choix paramétrique

🔑 Notions clés & Définitions

  • Test de Student : Test paramétrique de comparaison de deux moyennes, utilisé pour des échantillons indépendants lorsque les conditions paramétriques sont respectées.
  • Mann-Whitney : Test non-paramétrique de comparaison de deux moyennes basé sur les rangs, adapté quand les hypothèses paramétriques ne sont pas satisfaites.
  • Wilcoxon : Test non-paramétrique apparié de comparaison de deux moyennes, fondé sur les rangs des différences.
  • ANNOVA : Test paramétrique de comparaison de k moyennes pour des groupes indépendants, généralisation de la comparaison de deux moyennes.
  • Kruskal-Wallis : Test non-paramétrique indépendant de comparaison de k moyennes basé sur les rangs.

📝 Points essentiels

  • Choix paramétrique vs non-paramétrique dépend des hypothèses (notamment normalité et variances) et du type de données (indépendant ou apparié).
  • Comparaison de 2 moyennes indépendante : Test de Student ou Mann-Whitney selon la validité des hypothèses.
  • Comparaison de 2 moyennes appariée : Test de Student apparié ou Wilcoxon selon la validité des hypothèses.
  • Comparaison de k moyennes indépendante : ANNOVA ou Kruskal-Wallis selon la validité des hypothèses.
  • Comparaison de k moyennes appariée : ANNOVA appariée ou Friedman.
  • Comparaison de 2 variances indépendante/appariée : Test de Fisher pour décider sur l’égalité des variances.

💡 Astuce mémo

Indépendant = rangs (Mann-Whitney/Kruskal-Wallis), Apparié = différences (Wilcoxon/Friedman).

📖 7. Comparaison de moyennes et tests t

🔑 Notions clés & Définitions

  • Test de Student : Test paramétrique utilisé pour comparer des moyennes, avec une version pour échantillons indépendants et une version pour échantillons appariés.
  • Test de Mann-Whitney : Test non paramétrique de comparaison de deux moyennes basé sur les rangs, adapté aux échantillons indépendants.
  • Test de Wilcoxon : Test non paramétrique de comparaison de deux moyennes basé sur les rangs, adapté aux données appariées.
  • Test de Friedman : Test non paramétrique de comparaison de k moyennes pour mesures répétées au sein des mêmes participants.

📝 Points essentiels

  • Pour comparer 2 moyennes, si les groupes sont indépendants on utilise Student ou Mann-Whitney, et si les mesures sont appariées on utilise Student apparié ou Wilcoxon.
  • Le test de Friedman sert à comparer k moyennes quand les observations sont intra-participant (classement dans chaque individu).
  • Dans Friedman, on note k le nombre de modalités et n le nombre d’individus, et on calcule une statistique basée sur la somme des rangs Rj.
  • Dans Friedman, le nombre de degrés de liberté est ddl = k − 1 et la décision se fait avec une valeur critique du χ².
  • Règle de décision Friedman : si χ² ≤ χ²_critique on ne rejette pas H0, et si χ² > χ²_critique on rejette H0.
  • Table de Friedman : on choisit bilatéral ou unilatéral selon α et on compare la statistique χ² à la valeur critique correspondante.

💡 Astuce mémo

Indépendant → Mann-Whitney (rangs) ; Apparié → Wilcoxon (rangs) ; k mesures répétées → Friedman (χ² sur rangs).

📖 8. Comparaison de k moyennes ANOVA et non paramétriques

🔑 Notions clés & Définitions

  • ANOVA à un facteur : Test paramétrique qui compare les moyennes de kk groupes indépendants en supposant des conditions de validité sur la variance et la distribution.
  • Kruskal-Wallis : Test non paramétrique qui compare kk groupes indépendants quand on ne veut pas supposer la normalité des données.
  • Friedman : Test non paramétrique qui compare kk mesures appariées (mêmes sujets) quand la variable quantitative n’est pas supposée suivre une loi normale.
  • Groupes indépendants : Configuration où les observations de chaque groupe proviennent de sujets différents, ce qui oriente le choix du test.
  • Groupes appariés : Configuration où les observations sont liées (mêmes sujets mesurés plusieurs fois), ce qui oriente le choix du test.

📝 Points essentiels

  • Pour comparer kk moyennes avec des groupes indépendants, on utilise l’ANOVA si les hypothèses paramétriques sont acceptables.
  • Pour comparer kk moyennes avec des groupes indépendants sans hypothèses paramétriques, on utilise le test de Kruskal-Wallis.
  • Pour comparer kk moyennes avec des mesures appariées, l’ANOVA correspondante est remplacée par le test de Friedman en non paramétrique.
  • Le test de Kruskal-Wallis et le test de Friedman sont adaptés quand la variable quantitative ne suit pas une distribution normale (selon le contexte du cours).
  • Le choix du test dépend d’abord du schéma Groupe/Echantillon : indépendants pour Kruskal-Wallis, appariés pour Friedman.

💡 Astuce mémo

Indépendants → Kruskal-Wallis (K comme “K” pour “K groupes indépendants”), Appariés → Friedman (mêmes sujets, même “F”ramework).

📖 9. Comparaison de variances et test de Fisher

🔑 Notions clés & Définitions

  • Test de Fisher : Test statistique utilisé pour comparer des variances entre deux groupes, en particulier quand les données sont indépendantes ou appariées selon le contexte du plan d’étude.
  • Test de Levene : Test de comparaison de variances basé sur la dispersion, souvent utilisé pour limiter la sensibilité aux écarts à la normalité par rapport à d’autres tests.
  • Test de Bartlett : Test de comparaison de variances fondé sur la variance et la normalité, généralement plus adapté quand l’hypothèse de normalité est raisonnable.
  • Degrés de liberté ddl : Paramètre ddlddl qui fixe la loi de référence du test khi-deux et dépend des nombres de lignes et de colonnes du tableau de contingence.

📝 Points essentiels

  • Pour comparer 2 variances, on utilise le test de Fisher quand les groupes sont indépendants ou appiariés selon le plan.
  • Pour comparer kk variances, on utilise des tests adaptés aux groupes indépendants ou appariés, notamment Levene ou Bartlett.
  • Le test de Levene est associé à la comparaison de variances pour des groupes indépendants/appariés dans l’arbre de décision.
  • Le test de Bartlett est aussi utilisé pour la comparaison de kk variances dans l’arbre de décision.
  • Dans un tableau de contingence, les degrés de liberté du test khi-deux valent ddl=(nombre de lignes1)×(nombre de colonnes1)ddl=(\text{nombre de lignes}-1)\times(\text{nombre de colonnes}-1).

💡 Astuce mémo

Fisher = variances à comparer (2 groupes) ; Levene/Bartlett = variances à comparer (k groupes).

📖 10. Tests d’association et corrélation Pearson Spearman

🔑 Notions clés & Définitions

  • Test de Pearson : Test paramétrique mesurant l’association linéaire entre deux variables quantitatives via le coefficient de corrélation rr.
  • Coefficient de corrélation de Pearson : Mesure standardisée de la liaison linéaire entre deux variables quantitatives, notée rr, calculée à partir de la covariance et des écarts-types.
  • Test de Spearman : Test non paramétrique évaluant l’association monotone entre deux variables quantitatives en utilisant les rangs et ho ho.
  • Coefficient de corrélation de Spearman : Mesure d’association basée sur les rangs, notée ho ho, calculée à partir de la somme des carrés des différences de rangs.
  • Association par corrélation : Approche statistique reliant deux variables quantitatives à l’aide d’un coefficient de corrélation plutôt que d’un test d’égalité de moyennes.

📝 Points essentiels

  • Pearson teste l’association linéaire entre deux variables quantitatives à partir de rr et d’un test tt.
  • Le test de Pearson utilise t=rn21r2t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}} avec DDL=n2\mathrm{DDL}=n-2.
  • La décision se fait avec une valeur critique de Student : on ne rejette H0H_0 si ttcritt\le t_{crit} et on rejette H0H_0 si t>tcritt>t_{crit}.
  • La formule de rr s’appuie sur la covariance : Cov(X,Y)=(xixˉ)(yiyˉ)n1\mathrm{Cov}(X,Y)=\dfrac{\sum (x_i-\bar x)(y_i-\bar y)}{n-1} et r=Cov(X,Y)sxsyr=\dfrac{\mathrm{Cov}(X,Y)}{s_x s_y}.
  • Spearman teste une association monotone en attribuant des rangs, puis en calculant ρ=16di2n(n21)\rho=1-\dfrac{6\sum d_i^2}{n(n^2-1)}.
  • Le test de Spearman utilise t=ρn21ρ2t=\rho\sqrt{\dfrac{n-2}{1-\rho^2}} avec DDL=n2\mathrm{DDL}=n-2 et la même règle de décision par comparaison à tcritt_{crit}.

💡 Astuce mémo

Pearson = rr sur valeurs (linéaire) ; Spearman = ρ\rho sur rangs (monotone).

📊 Tableaux de synthèse

Choix du test selon Groupe/Échantillon et nature paramétrique

ProblématiqueIndépendantsAppariés
2 moyennesTest de student ; Test de Mann-WhitneyTest de student ; Test de Wilcoxon
k moyennesANNOVA ; Test de Kruskal-WallisANNOVA ; Test de Friedman
2 variancesTest de FisherTest de Fisher
k variancesTest de Levene ; BartlettTest de Levene ; Bartlett

Association entre variables quantitatives

VariableTestHypothèse/forme
Quantitative & quantitativePearsonAssociation linéaire via r (test t)
Quantitative & quantitativeSpearmanAssociation monotone via rangs (test t)

⚠️ Pièges & confusions fréquents

  1. Confondre statistique descriptive et inférentielle : la première décrit (box plot, IQR) tandis que la seconde décide via H0/H1 et une règle de rejet.
  2. Inverser la règle de décision : confondre p-value ≤ α (rejeter H0) avec p-value > α (ne pas rejeter H0).
  3. Mélanger bilatéral et unilatéral : utiliser une valeur critique bilatérale quand l’alternative n’est que d’un seul côté (ou l’inverse).
  4. Se tromper de schéma Groupe/Échantillon : appliquer Mann-Whitney à des mesures appariées (ou Wilcoxon à des groupes indépendants).
  5. Confondre les notations de dispersion/exclusion : utiliser Q1−1,5·IQR et Q3+1,5·IQR comme si c’était l’IQR lui-même (l’IQR = Q3−Q1).
  6. Pour Pearson/Spearman, confondre la base de calcul : Pearson sur valeurs (r), Spearman sur rangs (ρ).
  7. Pour Friedman/Kruskal-Wallis, confondre le contexte : Friedman = mesures répétées intra-participant (χ²), Kruskal-Wallis = k groupes indépendants (H).

✅ Checklist Examen

  1. Distinguer statistique descriptive vs inférentielle et citer au moins un outil de chaque (box plot/IQR vs test d’hypothèse).
  2. Expliquer population vs échantillon et relier l’échantillon à la logique d’inférence.
  3. Définir H0 et H1 dans un test (ex. égalité vs différence de moyennes) et formuler la question statistique.
  4. Énoncer la règle de décision générale avec p-value et α : p-value ≤ α rejette H0, sinon ne rejette pas H0.
  5. Interpréter un box plot : repérer Q1, Q2 (médiane), Q3 et comprendre le rôle des bornes Q1−1,5·IQR et Q3+1,5·IQR pour les extrêmes.
  6. Choisir le test selon normalité et schéma : Student vs Mann-Whitney (2 moyennes), Student apparié vs Wilcoxon (2 moyennes appariées).
  7. Choisir le test pour k moyennes : ANNOVA vs Kruskal-Wallis (indépendants) et ANNOVA vs Friedman (appariés).
  8. Choisir le test pour variances : Fisher pour 2 variances et Levene/Bartlett pour k variances, en reliant au plan indépendant/apparié.
  9. Pour Student (2 moyennes indépendantes), écrire la statistique t et les degrés de liberté d.d.l = n1+n2−2 puis appliquer la règle t vs tcritique.
  10. Pour Mann-Whitney/Wilcoxon, calculer U (avec la formule donnée) ou W (avec rangs) et appliquer la règle de comparaison à la valeur critique (U≤Ucrit ou U>Ucrit ; W≤Wcrit ou W>Wcrit selon le cours).
  11. Pour ANOVA (k moyennes indépendantes), utiliser F = MSbetween/MSwithin, identifier d.f. entre et d.f. within, puis appliquer F vs Fcritique.
  12. Pour corrélation, calculer/identifier Pearson (r et t avec DDL=n−2) et Spearman (ρ via rangs et t avec DDL=n−2) puis appliquer la décision par comparaison à tcritique.

Testez vos connaissances

Testez vos connaissances sur Titre : Fondamentaux de la statistique descriptive et inférentielle avec 20 questions à choix multiples avec corrections détaillées.

1. Quelle affirmation décrit le mieux la statistique descriptive ?

2. Quel enchaînement correspond à la statistique inférentielle ?

Faire le QCM →

Révisez avec les flashcards

Mémorisez les concepts clés de Titre : Fondamentaux de la statistique descriptive et inférentielle avec 20 flashcards interactives.

Statistique descriptive — rôle ?

Résumé et description des données observées.

Statistique inférentielle — rôle ?

Tirer des conclusions sur la population à partir d’un échantillon.

Population — définition ?

Ensemble complet des individus ou observations étudiés.

Voir les flashcards →

Cours similaires

Crée tes propres fiches de révision

Importe ton cours et l'IA génère fiches, QCM et flashcards en 30 secondes.

Générateur de fiches