Fiche de révision : Analyse des Relations et Concordance en Statistique
📋 Plan du Cours
Données appariées
Test du chi2 classique
Test de Mac-Nemar
Comparaison de proportions
Relation entre mesures
Coefficient Kappa de Cohen
Interprétation Kappa
Biais systématique
Test unilatéral vs bilatéral
Concordance et discordance
Proportions d’agréments
📖 1. Données appariées
🔑 Notions clés & Définitions
Données appariées : Deux mesures ou informations concernant le même objet ou la même personne, permettant de comparer ou d’étudier leur relation. AMMEUX (2025) : "Les données appariées peuvent être de nature qualitative ou quantitative."
Tableau de contingence pour données appariées qualitatives : Outil permettant de représenter la répartition des mesures ou jugements liés à un même objet, sous forme de tableau à deux dimensions, facilitant la comparaison et l’analyse de concordance ou discordance.
Utilisation des données appariées : Inclut la comparaison pour détecter des différences ou relations, l’évaluation de la concordance entre deux mesures, et l’évaluation de la performance d’un test ou d’une méthode diagnostique. AMMEUX (2025) : "Comparer, rechercher une relation, objectiver la concordance ou évaluer la performance."
Nature qualitative ou quantitative : Les données appariées peuvent être de type qualitatif (jugements, catégories) ou quantitatif (mesures numériques), selon la nature des mesures.
Rechercher une relation : Utilisation des données appariées pour déterminer s’il existe une association ou dépendance entre deux séries de mesures ou jugements. AMMEUX (2025) : "Recherche de relation entre deux séries de mesure."
📝 Points essentiels
Les données appariées concernent deux mesures ou informations relatives au même objet ou individu, permettant d’étudier leur concordance ou relation.
Le tableau de contingence est un outil central pour représenter ces données, notamment pour les données qualitatives, en distinguant les cas concordants (a+d) et discordants (b+c).
La comparaison des données se concentre principalement sur les discordances, en les comparant à une répartition théorique de 50/50, via des tests statistiques comme le chi2 classique ou le chi2 de Mac-Nemar.
La recherche de relation entre deux séries de mesures s’effectue en utilisant le test du chi2 pour évaluer l’indépendance, par exemple dans l’étude de la relation entre couleur des yeux et des cheveux.
La concordance est quantifiée par le coefficient Kappa de Cohen, qui mesure la proportion de concordance réelle ajustée par la concordance attendue aléatoire, avec une évaluation de sa significativité par intervalle de confiance.
La valeur du Kappa peut être ajustée pour tenir compte de la concordance maximale possible dans les données, permettant une interprétation plus précise.
💡 À retenir
Les données appariées permettent d’évaluer la concordance, la relation ou la performance entre deux mesures liées au même objet ou individu, en utilisant des outils statistiques comme le tableau de contingence, le chi2, et le coefficient Kappa.
📖 2. Test du chi2 classique
🔑 Notions clés & Définitions
Test du chi2 classique : Méthode statistique permettant de comparer globalement les distributions de deux variables qualitatives pour vérifier leur indépendance. Il s'agit d'évaluer si la répartition observée diffère significativement de la répartition attendue sous l'hypothèse d'indépendance (voir aussi la référence à la comparaison globale des distributions).
Hypothèse nulle (H0) : La supposition selon laquelle il n'existe pas de relation ou de dépendance entre deux variables, c'est-à-dire qu'elles sont indépendantes. En test du chi2, H0 est rejetée si la différence entre les distributions observée et attendue est statistiquement significative.
Seuil critique du chi2 : Valeur seuil à partir de laquelle on considère que la différence entre la distribution observée et la distribution attendue est significative. Elle dépend du degré de liberté (ddl) et du niveau de confiance (par exemple, 5%). Si le chi2 calculé dépasse ce seuil, H0 est rejetée.
Calcul du chi2 : La formule générale est : X2=∑Ei(Oi−Ei)2
où Oi est l'effectif observé et Ei l'effectif attendu sous H0. La somme porte sur toutes les catégories.
Degré de liberté (ddl) : Nombre de catégories moins un, ou (nombre de lignes - 1) × (nombre de colonnes - 1) pour un tableau de contingence. Il détermine la distribution du chi2 pour la comparaison avec le seuil critique.
📝 Points essentiels
Le test du chi2 classique compare la distribution globale des deux variables qualitatives en utilisant l'ensemble des données.
La valeur du chi2 est calculée à partir des effectifs observés et attendus sous l'hypothèse d'indépendance.
La décision statistique consiste à comparer le chi2 calculé au seuil critique (X²th) correspondant au ddl et au niveau de confiance choisi (souvent 5%). Si X2>Xth2, on rejette H0, indiquant une relation significative entre les variables.
La formule du chi2 est adaptée pour des effectifs théoriques ≥ 5 dans chaque catégorie, conformément à la condition d'application.
La référence à la valeur seuil X²th = 3,84 pour un ddl=1 et alpha=5% illustre cette démarche.
💡 À retenir
Le test du chi2 classique permet d'évaluer globalement si deux variables qualitatives sont indépendantes ou liées, en comparant la distribution observée à une distribution théorique sous l'hypothèse d'indépendance, avec une décision basée sur le seuil critique.
📖 3. Test de Mac-Nemar
🔑 Notions clés & Définitions
Test de Mac-Nemar (source) : test statistique spécifique aux données appariées discordantes, permettant de comparer une répartition binaire observée à une répartition théorique de 50/50. Il s’utilise lorsque l’on souhaite analyser la différence entre deux mesures appariées de nature binaire en vérifiant si la répartition des discordances est significativement différente de l’équilibre attendu.
Formule simplifiée du chi2 de Mac-Nemar : 𝑋²𝑀𝑁 = (b − c)² / (b + c), utilisable uniquement lorsque la condition d’application est respectée. Elle permet de tester l’indépendance entre deux mesures binaires appariées en comparant la différence des discordances b et c à une distribution de référence.
Condition d’application : effectifs théoriques ≥ 5, soit b + c ≥ 10. Si cette condition n’est pas remplie, une correction de Yates doit être appliquée pour ajuster la formule.
Correction de Yates : ajustement de la formule du chi2 de Mac-Nemar lorsque b + c < 10, donnant 𝑋²𝑀𝑁 = (|b − c| − 1)² / (b + c). Elle permet d’éviter une surestimation de la significativité dans les petits échantillons.
Comparaison à une répartition 50/50 : le test de Mac-Nemar compare la répartition des discordances (b et c) à l’hypothèse nulle d’égalité, c’est-à-dire que la probabilité d’observer b ou c est équivalente, correspondant à une répartition 50/50.
📝 Points essentiels
Le test de Mac-Nemar est utilisé pour analyser la concordance ou discordance dans des données appariées binaires, en particulier pour déterminer si la différence entre deux mesures discordantes est significative.
La formule simplifiée 𝑋²𝑀𝑁 = (b − c)² / (b + c) est valable lorsque b + c ≥ 10. Si cette condition n’est pas remplie, la correction de Yates doit être appliquée pour éviter une erreur de type I.
La condition d’application est essentielle : si b + c < 10, la correction de Yates doit être utilisée pour ajuster le test.
La comparaison avec la répartition 50/50 permet de tester si la différence observée dans les discordances est significative ou si elle pourrait résulter du hasard.
La valeur critique pour le chi2 de Mac-Nemar est généralement 3,84 pour un seuil de 5% avec 1 degré de liberté. Si 𝑋²𝑀𝑁 < 3,84, on ne rejette pas l’hypothèse d’indépendance (H0).
💡 À retenir
Le test de Mac-Nemar est une méthode simple et efficace pour analyser la différence dans des données appariées binaires discordantes, en vérifiant si la répartition des discordances diffère significativement de l’équilibre attendu de 50/50, sous réserve du respect des conditions d’application.
📖 4. Comparaison de proportions
🔑 Notions clés & Définitions
Proportions d’agréments positifs : Pourcentage de jugements positifs concordants parmi tous les jugements positifs au moins une fois, calculé par 𝑝+ = 𝑎 / (𝑎 + 𝑏 + 𝑐) (source : AMMEUX, 2025).
Proportions d’agréments négatifs : Pourcentage de jugements négatifs concordants parmi tous les jugements négatifs au moins une fois, calculé par 𝑝− = 𝑑 / (𝑏 + 𝑐 + 𝑑) (source : AMMEUX, 2025).
Intervalle de confiance pour proportions d’agréments : Estimation de la précision des proportions d’agréments positifs ou négatifs, généralement calculée par 𝑠𝑝+ = √[𝑝+(1−𝑝+) / (𝑎 + 𝑏 + 𝑐)] et 𝑠𝑝− = √[𝑝−(1−𝑝−) / (𝑏 + 𝑐 + 𝑑)] (source : AMMEUX, 2025).
Évaluation de la dispersion des discordances : Analyse de la répartition des discordances pour détecter un biais systématique, en comparant la distribution observée à une répartition théorique 50/50 à l’aide du chi2 normal ou du chi2 de Mac-Nemar (source : AMMEUX, 2025).
Comparaison de proportions entre deux groupes ou deux temps : Méthode statistique visant à déterminer si deux proportions (ex : taux de concordance) diffèrent significativement, en utilisant notamment le test du chi2 ou le chi2 de Mac-Nemar (source : AMMEUX, 2025).
📝 Points essentiels
La comparaison de proportions d’agréments permet d’évaluer la similitude ou la différence entre deux jugements ou deux groupes, en se concentrant sur les jugements concordants ou discordants (source : AMMEUX, 2025).
Les proportions d’agréments positifs et négatifs sont calculées à partir des effectifs observés dans le tableau de contingence, en tenant compte des jugements positifs ou négatifs répétés (a, d) ou discordants (b, c).
Les intervalles de confiance pour ces proportions permettent d’estimer la précision de la mesure et de déterminer si une différence est statistiquement significative.
La dispersion des discordances, analysée par chi2 ou Mac-Nemar, teste l’hypothèse d’un biais systématique dans la répartition des discordances, en comparant la distribution observée à une répartition théorique 50/50 (source : AMMEUX, 2025).
Le test du chi2 classique est utilisé pour comparer deux proportions ou distributions globales, tandis que le chi2 de Mac-Nemar est spécifique aux données appariées binaires, notamment pour tester l’indépendance ou la présence d’un biais dans les discordances (source : AMMEUX, 2025).
💡 À retenir
La comparaison de proportions d’agréments permet d’évaluer la similitude ou la différence entre deux jugements ou groupes, en utilisant notamment les intervalles de confiance et l’analyse de la dispersion des discordances pour détecter un biais systématique.
📖 5. Relation entre mesures
🔑 Notions clés & Définitions
Données appariées (Dr Franck AMMEUX, 2025) : Deux mesures ou deux informations concernant le même objet ou la même personne, pouvant être qualitatives ou quantitatives. Exemple : mesures avant/après sur le même individu.
Hypothèse d'indépendance (Dr Franck AMMEUX, 2025) : Supposition selon laquelle deux variables ne sont pas liées, c’est-à-dire que la distribution de l’une ne dépend pas de l’autre.
Test du chi2 (Dr Franck AMMEUX, 2025) : Outil statistique permettant de détecter une relation ou un lien entre deux variables qualitatives en comparant la répartition observée à une répartition théorique (souvent 50/50).
Relation entre deux séries de mesure (Dr Franck AMMEUX, 2025) : Existence ou absence d’un lien statistique entre deux mesures effectuées sur le même objet ou la même personne, évaluée par des tests statistiques comme le chi2 ou le coefficient Kappa.
📝 Points essentiels
La recherche de relation entre deux séries de mesures qualitatives s’appuie sur la comparaison des données discordantes, en utilisant notamment le test du chi2 classique ou le test de Mac-Nemar pour les données appariées (AMMEUX, 2025).
Le test du chi2 permet de vérifier si la répartition des discordances diffère significativement d’une répartition théorique de 50/50, ce qui indiquerait une dépendance entre les variables.
Le test de Mac-Nemar est une version simplifiée du chi2, spécifique aux données appariées binaires, conditionné à des effectifs suffisants (b+c ≥ 10). En cas d’effectifs faibles, une correction de Yates est appliquée.
La formule du chi2 de Mac-Nemar : XMN2=b+c(b−c)2
où b et c sont les effectifs discordants.
La valeur du chi2 comparée à un seuil critique (par exemple 3,84 pour 1 degré de liberté au seuil de 5%) permet de conclure à l’existence ou non d’un lien entre les deux séries de mesures.
La recherche d’un lien implique l’hypothèse nulle d’indépendance (H0), rejetée si le chi2 est significatif.
La mesure de la concordance entre deux jugements qualitatifs binaires peut aussi s’évaluer par le coefficient Kappa, qui quantifie la proportion de concordance corrigée de la concordance aléatoire (AMMEUX, 2025).
💡 À retenir
La recherche de relation entre deux séries de mesures qualitatives repose principalement sur la comparaison des discordances à une répartition théorique, via le test du chi2 ou le test de Mac-Nemar, permettant de déterminer si ces mesures sont indépendantes ou liées.
📖 6. Coefficient Kappa de Cohen
🔑 Notions clés & Définitions
Coefficient Kappa de Cohen (1960) : mesure de la concordance entre deux jugements qualitatifs binaires, ajustée pour la concordance attendue par hasard, permettant d’évaluer la fiabilité ou la similitude entre deux évaluateurs.
Concordance observée (pO) : proportion de cas où les deux jugements sont identiques, calculée par pO=na+d, avec a et d étant les effectifs concordants dans le tableau de contingence.
Concordance aléatoire (pc) : proportion attendue de concordance si les jugements sont indépendants, calculée par pc=n2(a+b)(a+c)+(c+d)(b+d), en utilisant les marges du tableau.
Formule du Kappa : K=1−pcpO−pc, permettant d’ajuster la concordance observée en soustrayant la concordance attendue par hasard.
Évaluation de la significativité : le Kappa est considéré comme significatif si sa valeur dépasse l’intervalle de confiance basé sur l’écart-type sK0=npc(1−pc), et si K>ε, où ε dépend du test unilatéral ou bilatéral (ex : 1,96 pour 5%).
📝 Points essentiels
Le Kappa de Cohen permet de mesurer la fiabilité ou la concordance entre deux jugements qualitatifs binaires en tenant compte de la concordance attendue par hasard, ce qui le distingue du simple pourcentage de concordance.
La formule du Kappa : K=1−pcpO−pc, où pO=na+d et pc est calculé à partir des marges du tableau de contingence, reflète la proportion de concordance réelle ajustée pour celle qui serait due au hasard.
La significativité du Kappa s’évalue par l’intervalle de confiance, en comparant la valeur de K à ε, calculé à partir de sK0. Un Kappa significatif indique une concordance supérieure à celle attendue par hasard.
La valeur du Kappa peut être négative si la discordance est forte, ce qui indique une absence ou une inversion de la concordance.
Le Kappa ajusté (ou pondéré) permet de tenir compte de la concordance maximale possible compte tenu des marges, offrant une évaluation plus précise de la fiabilité.
💡 À retenir
Le coefficient Kappa de Cohen quantifie la concordance entre deux jugements binaires en ajustant pour la concordance attendue par hasard, et son interprétation doit toujours être accompagnée de son intervalle de confiance pour déterminer sa significativité.
📖 7. Interprétation Kappa
🔑 Notions clés & Définitions
Interprétation arbitraire des valeurs du Kappa : Classification qualitative de la concordance selon la valeur du coefficient Kappa. AMMEUX (2025) : "excellente" pour Kappa entre 0,81 et 1, "bonne" entre 0,61 et 0,80, "moyenne" entre 0,41 et 0,60, "faible" entre 0,21 et 0,40, "mauvaise" entre 0 et 0,20.
Kappa négatif : Valeur du coefficient Kappa inférieure à 0, indiquant une forte discordance entre les jugements ou mesures, ce qui peut survenir en cas de données très discordantes.
Kappa ajusté : Version pondérée du Kappa qui tient compte de la concordance maximale possible compte tenu des données disponibles. AMMEUX (2025) : "Kappa ajusté = (Kappa) × (concordance maximale possible, pm)", permettant une évaluation plus précise de la concordance.
Kappa ajusté : Interprétation identique au Kappa classique, mais avec une valeur corrigée pour la maximisation de la concordance possible, offrant une mesure plus fidèle de la concordance réelle.
📝 Points essentiels
La valeur du Kappa doit être interprétée en tenant compte de ses limites arbitraires, car une même valeur peut correspondre à des niveaux de concordance différents selon le contexte.
La possibilité d’un Kappa négatif indique une discordance très forte, ce qui peut signaler un biais ou une erreur dans la mesure ou la classification.
Le Kappa ajusté permet de pondérer le coefficient en fonction de la concordance maximale théorique (calculée via pm), ce qui affine l’évaluation de la concordance réelle. AMMEUX (2025) : "Le Kappa ajusté est calculé par 𝐾𝑚 = 𝑝𝑚 − 𝑝𝑐 / 1 − 𝑝𝑐", où 𝑝𝑚 est la concordance maximale possible.
L’interprétation du Kappa ajusté reste identique à celle du Kappa classique, mais avec une valeur corrigée pour mieux refléter la réalité des données.
💡 À retenir
L’interprétation du Kappa doit se faire avec prudence : une valeur seule ne suffit pas, il faut aussi considérer sa significativité et la possibilité d’un Kappa négatif ou ajusté pour une évaluation plus précise de la concordance.
📖 8. Biais systématique
🔑 Notions clés & Définitions
Biais systématique : Erreur systématique qui influence la répartition des discordances dans une étude, pouvant fausser l’interprétation des résultats. Il s’agit d’un biais qui ne résulte pas du hasard mais d’un défaut méthodologique ou d’un phénomène intrinsèque à la mesure ou à la population.
Recherche d'un biais dans la répartition des discordances : Analyse visant à détecter si la distribution des discordances (différences entre deux mesures ou jugements) présente une asymétrie ou une tendance particulière, susceptible d’indiquer un biais systématique.
Utilisation des proportions d’agréments pour détecter un biais : Méthode consistant à comparer les proportions de jugements concordants positifs ou négatifs (agréments) pour identifier une éventuelle asymétrie ou biais dans la répartition des discordances, en particulier en analysant si ces proportions diffèrent significativement de ce qui serait attendu en absence de biais.
Complémentarité avec l’étude de la concordance : L’évaluation du biais systématique doit venir en complément de la mesure de la concordance (ex : Kappa), afin de différencier une faible concordance due à un vrai désaccord ou à un biais systématique dans la répartition des discordances.
Recherche d’un biais dans la répartition des discordances (reprise) : Analyse spécifique pour détecter si les discordances ne sont pas réparties de manière homogène, mais plutôt en faveur d’un jugement ou d’une catégorie particulière, ce qui pourrait indiquer un biais.
Importance de compléter l’étude : La détection d’un biais systématique est essentielle pour assurer la validité des conclusions, car une simple mesure de concordance peut masquer une répartition asymétrique des discordances qui biaise l’interprétation.
📝 Points essentiels
La recherche d’un biais systématique consiste à analyser si la répartition des discordances n’est pas homogène, ce qui pourrait indiquer une influence systématique plutôt qu’un simple hasard.
La comparaison des proportions d’agréments positifs (jugements positifs concordants) et négatifs (jugements négatifs concordants) permet d’identifier une asymétrie pouvant révéler un biais.
La détection de biais systématique doit compléter l’évaluation de la concordance (ex : Kappa), car une faible concordance ne signifie pas forcément un biais, mais une répartition asymétrique des discordances peut en être la cause.
La méthode consiste à utiliser des proportions d’agréments et des tests statistiques (ex : chi2) pour analyser la répartition des discordances.
La présence d’un biais systématique peut fausser l’interprétation des résultats, notamment en sous-estimant ou surestimant la véritable concordance ou performance d’un test.
💡 À retenir
Le biais systématique se détecte en analysant la répartition asymétrique des discordances à l’aide des proportions d’agréments, et sa prise en compte est essentielle pour valider la fiabilité des mesures ou jugements.
📖 9. Test unilatéral vs bilatéral
🔑 Notions clés & Définitions
Test unilatéral : test statistique où l'hypothèse alternative (H1) stipule une différence dans une seule direction (par exemple, K > K0). Il augmente la puissance pour détecter une différence spécifique, en ne testant que si une valeur est supérieure ou inférieure à une valeur critique. (Source : Dr Franck AMMEUX, 2025)
Test bilatéral : test statistique où l'hypothèse alternative ne précise pas la direction de la différence (par exemple, K ≠ K0). Il vérifie la présence d'une différence dans les deux sens, mais avec une puissance moindre comparée au test unilatéral pour une même alpha. (Source : Dr Franck AMMEUX, 2025)
Hypothèse alternative unilatérale : hypothèse selon laquelle la différence existe dans une seule direction, avec un sens connu (ex : K > K0). Elle permet d'augmenter la puissance du test en concentrant la zone critique d'examen. (Source : Dr Franck AMMEUX, 2025)
Puissance accrue du test unilatéral : capacité plus grande du test unilatéral à détecter une différence réelle lorsqu’elle existe, par rapport au test bilatéral, en raison de la concentration de la zone critique dans une seule queue de la distribution. (Source : Dr Franck AMMEUX, 2025)
Interprétation des résultats non significatifs : dans un test unilatéral, un résultat non significatif ne prouve pas l'absence de différence, mais indique simplement que la différence n’est pas détectée dans la direction testée. La conclusion doit être prudente, notamment si le test est unilatéral. (Source : Dr Franck AMMEUX, 2025)
📝 Points essentiels
La différence fondamentale réside dans la formulation des hypothèses : le test bilatéral vérifie l’existence d’une différence sans en préciser la direction (H1 : K ≠ K0), tandis que le test unilatéral se concentre sur une seule direction (H1 : K > K0 ou K < K0). (Source : Dr Franck AMMEUX, 2025)
La valeur critique (ε) diffère selon le type de test : pour un test bilatéral à 5%, ε = 1,96 ; pour un test unilatéral à 5%, ε = 1,645 si H1 : K > K0. La valeur de ε est plus faible en unilatéral, rendant le test plus sensible. (Source : Dr Franck AMMEUX, 2025)
Un résultat non significatif dans un test unilatéral ne signifie pas l’absence de différence, mais indique simplement que la différence n’est pas détectée dans la direction testée. La prudence est de mise dans l’interprétation. (Source : Dr Franck AMMEUX, 2025)
La puissance du test unilatéral est plus élevée, ce qui facilite la détection d’une différence dans la direction souhaitée, mais au prix d’une perte d’information sur l’autre sens. (Source : Dr Franck AMMEUX, 2025)
Lorsqu’on souhaite démontrer que K est significativement supérieur à K0, il est plus facile d’obtenir une signification avec un test unilatéral (ε = 1,645) qu’avec un bilatéral (ε = 1,96), augmentant ainsi la sensibilité de l’analyse. (Source : Dr Franck AMMEUX, 2025)
💡 À retenir
Le test unilatéral est plus puissant pour détecter une différence dans une seule direction, mais il doit être utilisé avec précaution, car un résultat non significatif ne prouve pas l’absence de différence.
📖 10. Concordance et discordance
🔑 Notions clés & Définitions
Concordance : Situation où deux jugements ou mesures appariés donnent des résultats identiques ou très proches, indiquant une harmonie ou accord entre eux. Selon Dr Franck AMMEUX (2025), la concordance est évaluée par le calcul de la proportion d’accord observée (p₀) entre deux jugements ou mesures.
Discordance : Situation où deux jugements ou mesures appariés donnent des résultats opposés ou très différents, reflétant un désaccord ou une divergence. Les discordances sont analysées pour tester si leur répartition diffère d’une répartition théorique de 50/50, notamment via le test de Mac-Nemar ou le chi2 classique.
Effectifs concordants (a+d) : Nombre de cas où les deux jugements ou mesures sont positifs (a) ou négatifs (d). Ces effectifs représentent la proportion d’accord global dans le tableau de contingence.
Effectifs discordants (b+c) : Nombre de cas où les jugements ou mesures sont opposés, c’est-à-dire un positif et un négatif (b ou c). Ces effectifs sont utilisés pour tester la significativité de la discordance par des tests statistiques comme le chi2 de Mac-Nemar.
Lien avec la mesure de concordance (Kappa) : Le coefficient Kappa, développé par Cohen (1960), quantifie la concordance en ajustant la proportion d’accord observée (p₀) par la proportion d’accord attendu par hasard (p_c). La formule est : K=1−pcp0−pc
où p0=na+d et pc est la concordance attendue par hasard, calculée à partir des marges du tableau.
📝 Points essentiels
La concordance se mesure par la proportion d’accord observée (p₀), qui correspond à na+d, et par le coefficient Kappa qui ajuste cette proportion en tenant compte de l’accord attendu par hasard (p_c) ( Cohen (1960) ).
La discordance est analysée via les effectifs b et c, qui représentent les cas où les jugements ou mesures sont opposés. La répartition de ces discordances est comparée à une répartition théorique de 50/50 pour déterminer si le désaccord est significatif.
La comparaison des discordances utilise des tests statistiques : le chi2 classique pour tester la différence entre la répartition observée et la répartition théorique, ou le chi2 de Mac-Nemar pour les données binaires appariées, sous condition que b+c ≥ 10.
Le coefficient Kappa permet d’évaluer la qualité de la concordance en tenant compte du hasard, avec une interprétation qualitative (excellente, bonne, moyenne, faible, mauvaise) selon sa valeur ( Landis & Koch (1977) ). La significativité du Kappa est vérifiée via un intervalle de confiance ou un test statistique.
💡 À retenir
La concordance et la discordance dans les données appariées se quantifient par le calcul des effectifs concordants et discordants, et par le coefficient Kappa, qui ajuste la proportion d’accord en tenant compte du hasard. La répartition des discordances est analysée pour déterminer si elle diffère significativement d’une répartition aléatoire de 50/50, à l’aide de tests statistiques appropriés.
📖 11. Proportions d’agréments
🔑 Notions clés & Définitions
Proportion d’agréments positifs : La proportion de jugements où deux évaluateurs ou deux mesures donnent des résultats positifs et concordants, parmi tous les jugements positifs au moins une fois.
Proportion d’agréments négatifs : La proportion de jugements où deux évaluateurs ou deux mesures donnent des résultats négatifs et concordants, parmi tous les jugements négatifs au moins une fois.
Intervalle de confiance pour une proportion : La fourchette dans laquelle se situe la vraie proportion d’agréments avec un niveau de confiance fixé (souvent 95%), permettant d’évaluer la précision de l’estimation.
Utilisation pour évaluer la similitude des jugements : Ces proportions permettent d’apprécier la cohérence ou la concordance entre deux jugements ou mesures, en quantifiant leur accord.
AUTEUR (date) : La méthode d’évaluation des proportions d’agréments est essentielle pour analyser la fiabilité ou la reproductibilité des jugements qualitatifs, notamment dans le contexte de la mesure de la concordance (voir section 6).
📝 Points essentiels
Les proportions d’agréments positifs et négatifs sont calculées à partir des jugements concordants (positifs ou négatifs) par rapport à l’ensemble des jugements au moins une fois positifs ou négatifs, respectivement.
Ces proportions s’expriment en pourcentage ou en valeur décimale, accompagnées d’un intervalle de confiance pour mesurer leur précision.
Leur calcul permet de quantifier la cohérence entre deux jugements qualitatifs binaires, en complément du coefficient Kappa, notamment pour détecter une homogénéité dans la répartition des discordances.
La comparaison de ces proportions à une répartition théorique (50/50) ou à d’autres références permet d’évaluer si la concordance observée est significative ou simplement due au hasard.
La méthode est utilisée pour analyser la dispersion des discordances et détecter d’éventuels biais systématiques dans la répartition des jugements.
La formule de l’intervalle de confiance pour une proportion est généralement : sp+=a+b+cp+(1−p+)
et de même pour p−.
💡 À retenir
Les proportions d’agréments positifs et négatifs, accompagnées de leurs intervalles de confiance, sont des outils simples et efficaces pour mesurer la cohérence des jugements qualitatifs binaires et détecter d’éventuels biais ou incohérences dans l’évaluation.
📊 Tableaux de Synthèse
Critère / Test
Données Appariées
Test du chi2 classique
Test de Mac-Nemar
Auteur / Référence
Type de données
Qualitatives ou quantitatives
Qualitatives (tableau de contingence)
Binaire, données appariées
AMMEUX (2025)
Objectif
Confronter deux mesures ou jugements
Vérifier indépendance entre deux variables
Analyser discordances binaires appariées
Mac-Nemar, 1940
Outil principal
Tableau de contingence
Test statistique (chi2)
Chi2 de Mac-Nemar (formule simplifiée ou correction)
Mac-Nemar (1940)
Hypothèse nulle (H0)
Absence de relation ou concordance
Indépendance entre variables
Répartition des discordances = 50/50
AMMEUX (2025)
Critère de décision
Chi2 calculé vs seuil critique
Chi2 > seuil critique → rejet H0
Chi2 > 3,84 (pour alpha=5%) → rejet H0
Mac-Nemar (1940)
Condition d’application
Effectifs ≥ 5 par catégorie
Effectifs ≥ 5 dans chaque cellule
Effectifs b + c ≥ 10 (pour formule simplifiée)
Mac-Nemar (1940)
Formule principale
N/A
X2=∑Ei(Oi−Ei)2
XMN2=(b−c)2/(b+c)
Mac-Nemar (1940)
Correction à appliquer
N/A
N/A
Correction de Yates si b + c < 10
Mac-Nemar (1940)
⚠️ Pièges & Confusions Fréquentes
Confondre le test du chi2 classique et le test de Mac-Nemar, leur domaine d’application étant différent (indépendance vs discordances binaires).
Utiliser la formule simplifiée du chi2 de Mac-Nemar sans vérifier si b + c ≥ 10, ce qui peut conduire à des erreurs.
Omettre la correction de Yates lorsque b + c < 10 dans le test de Mac-Nemar, faussant la significativité.
Interpréter à tort le coefficient Kappa comme une simple proportion de concordance, sans ajuster pour la concordance attendue.
Confondre test unilatéral et bilatéral sans préciser l’hypothèse alternative.
Ne pas vérifier que les effectifs sont suffisants pour appliquer le test du chi2 ou Mac-Nemar (effectifs faibles).
Ignorer la différence entre la recherche de relation globale (chi2) et l’analyse de discordances spécifiques (Mac-Nemar).
✅ Checklist Examen
Connaître la définition de données appariées selon AMMEUX (2025).
Savoir représenter une relation entre deux mesures appariées à l’aide d’un tableau de contingence.
Expliquer l’objectif du test du chi2 classique et ses hypothèses (indépendance, effectifs ≥ 5).
Savoir calculer et interpréter la valeur du chi2, et connaître le seuil critique pour un ddl=1 à 5%.
Définir le test de Mac-Nemar et ses conditions d’application (effectifs b + c ≥ 10).
Connaître la formule simplifiée du chi2 de Mac-Nemar et la correction de Yates.
Savoir quand appliquer la correction de Yates dans le test de Mac-Nemar.
Expliquer la différence entre un test unilatéral et bilatéral dans ce contexte.
Savoir interpréter la valeur de Kappa de Cohen, ses limites et comment il mesure la concordance.
Comprendre l’interprétation de l’intervalle de confiance de Kappa.
Identifier les biais systématiques pouvant affecter la concordance ou la relation entre mesures.
Connaître la différence entre concordance et discordance dans le contexte des données appariées.
Testez vos connaissances
Testez vos connaissances sur Analyse des Relations et Concordance en Statistique avec 11 questions à choix multiples avec corrections détaillées.
1. Qu'est-ce qu'une donnée appariée dans le contexte de l'analyse statistique?
2. Quelle est la valeur seuil du chi2 pour un degré de liberté égal à 1 au seuil de 5% ?