LE TEST DE KHI-DEUX :
Ajustement, Indépendance, Homogénéité, Conformité
Amor BELHEDI, FSHS, Université de Tunis
Construction du Test Conditions du Test Test de l'indépendance Test de conformité Test d'homogénéité Test d'Ajustement
Introduction Présenter & Décrire une variable Réduire & Résumer une distribution Notions et Distributions de Probabilités Corrélation & Régression linéaire simple Corrélation & Régression simples courbes Test de Khi-deux Corrélation dans un tableau Chroniques & Distributions temporelles Corrélation & Régression multiples Droites des Moindres Rectangles Analyse Factorielle Classification & Typologie Tests des hypothèses Sondages & Distributions d'échantillonnage Quelques Eléments de calcul matriciel Tables Statistiques Papiers Fonctionnels Bibliographie Sommaire
Très souvent,
on est confronté à vérifier si deux variables sont liées ou indépendantes, si un
échantillon suit la même oi que la population mère dont il est isuu, si deux
échantillons suivent la même loi de distribution, enfin si une distribution
donnée n'est pas significativement différente d'une distribution théorique
preise comme référence? Dans tous ces cas, on a ffaire à voir dans quelle mesure
les écarts constatées peuevnt être imputés au hasard?.
Dans chacun des cas cités précedemment, on a affaire à un
test d'indépendance, de conformité ou de concordance, d'homogénéité ou
d'ajustement. Dans tous ces cas, c'est le test de Khi-deux qui est le plus
utilisé.
1 -
CONSTRUCTION DU TEST
La construction d'un test d'une hypothèse passe par plusieurs étapes
1.1 - Définir l'hypothèse de
travail appelée aussi l'hypothèse nulle (Ho):
Il s'agit de définir et préciser l'hypothèse qu'on va tester et vérifier; par
exemple, la croissance urbaine est-elle liée à la taille des villes? La distribution des taux de croissance des villes suit-elle une loi
normale?, Le chômage à Tunis est-il réellement différent du niveau constaté au
niveau national?...
Dans le cas du test de l'indépendance, L'hypothèse la plus
simple étant par exemple l'indépendance dans le mesure où il y a une seule
situation qui correspond à l'indépendance totale tandis que la dépendance peut
avoir plusieurs formes (linéaire, puissance, logistique...) ce qui interdit la
possibilité du cacul des effectifs théoriques. C'est la même démarche dans les
autres types de test.
1.2 - Calculer les effectifs théoriques sous cette hypothèse de travail définie précédemment par exemple l'indépendance ou l'homogénéité ou la distribution théorique si on cherche à tester la normalité d'une distribution, on doit calculer les valeurs théoriques dans le cas d'une distribution normale.
1.3- L'écart entre les deux valeurs observées et théoriques suit une loi définie, c'est la loi Khi-deux à v degré de liberté . Il s'agit donc de calculer cet écart..
1.4 - On adopte une procédure de
décision en choisissant un risque d'erreur (a
) ou un seuil de
signification (1-a)
au delà (en deça) duquel on rejette l'hypothèse Ho:
l'écart observé est significatif et il n'est pas dû au hasard, on adopte
l'hypothèse alternative (H1). La différence peut être
imputée au hasard jusqu'à une limite supérieure (ou inférieure) donnée
par la table statistique de Khi-deux (La).
Le paramètre
a
est le risque qu'on accepte de courir en tirant des conclusions. Il est souvent
inférieur à 10% mais le seuil le plus faible serait le meilleur. Le seuil de
signification est la probabilité pour que la conclusion soit correcte, c'est le
complément à l'unité pour
a.
Pour un risque
a =
0.05, la probabilité ou le seuil de
signification est de 0.95, soit 5% et 95% respectivement. En tirant une telle
conclusion, il y a un risque de 5% de se tromper. Au seuil de 90%, le
test est dit significatif, il est très significatif à 95% et hautement
significatif à plus de 90%.
D => La
: L'écart est significatif et ne peut pas être dû au hasard. On rejette Ho.
D < La
: L'écart n'est pas
significatif, il est dû au hasard. On adopte Ho

P(E < La)
= a
P(E => La)
= a
Conditions du Test de Khi-deux
Le test de
Khi-deux est un test très robuste mais il exige un certain nombre de conditions
dont on peut citer quelques unes:
1 - Le test de Khi-deux
s'applique aux effectifs et aux variables continues
2 - Un effectif total éagl ou dépassant 20 . Dans un petit
tableau de 2 x 2, le total doit être égal ou supérieu à 50.
3 - Le total des lignes et des colonnes doit être au moins égal à
5, certains exigent même que tous les effectifs théoriques des cases ne doivent
pas être en dessous de ce seuil de 5. dans le cas où on a des effectifs
inférieurs à 5, on peut regrouper les lignes ou les colonnes correspondantes.
II – LE TEST D’AJUSTEMENT
On utilise souvent le test de Khi-deux (c2) pour voir si le modèle adopté est satisfaisant ou si les données suivent une distribution donnée (on utilise aussi le test de Kolmogorov-Smirnov C (cf. les tests d'hypothèse). On peut se demander si le modèle adopté est valable, autrement dit dans quelle mesure les résidus sont dus au hasard?.
2.1 - Principe du test
Le test de Khi-deux
nous permet de voir dans quelle mesure les différences observées entre le modèle
adopté et le modèle théorique sont-elles dues au hasard, sont non significatifs
d’une différence qualitative de modèle ou de loi de distribution et que les
données suivent bien tel modèle ou telle loi , les différences enregistrées
sont aléatoires.
La différence entre les
effectifs observés et les effectifs théoriques suit la loi de Khi2 à
(n - 2) ddl. La somme des écarts étant toujours nulle, on est obligé d'élever au
carré ces différences. Pour restrer sur l amême échelle, on se trouve amené à
pondérer ces carrés par la valeur théoriques des effectifs. On peut donc écrire
que comme suit:
c2calc =
S
(Yo -Yc)2/Yc
Si c2 calc < c2a, n -2 : le modèle adopté est satisfaisant et les écarts sont dus au hasard.
On peut utiliser le test de Khi-deux dans deux cas: soit pour comparer une distribution réelle et empirique à une distribution théorique, soit pour comparer aussi deux distributions entre elles. Dans les deux cas, il s’agit de voir dans quelle mesure les différences enregistrées sont-elles dues au hasard.
2.1- Les étapes de construction du test
Les étapes de construction du test sont identiques à celles décrites ci dessus selon la démarche globale de la construction des tests:
a- On formule l'hypothèse de travail ou de base (Ho): les données observées x suivent une loi donnée x'. La formulation d’une telle hypothèse suppose la connaissance préalable de certaines lois de probabilités.
b- On calcule, sous cette hypothèse nulle, les valeurs théoriques (n'i ou n'ij) en fonction des paramètres de la loi de distribution indiquée comme la loi normale ou la loi exponentielle par exemple (cf. le chapitre des probabilités).
c- On détermine l'écart entre les fréquences observées (ni ou nij) et théoriques (ni' ou n'ij). La somme des carrés des écarts suit une loi Khi-deux à (v) degrés de liberté: D = SS (ni - n'i)2/n'i
d- On détermine le degré de liberté. Le degré de liberté (ddl ou v) est le nombre de fois qu’on peut choisir les éléments d’un système déterminé (dont on connait le nombre total des éléments et la somme des valeurs par exemple). Le degré de liberté est égal à v = n -1 en cas d’un seul caractère et v = (k1 -1)(k2 - 1) dans le cas de deux caractères combinés sous la forme d’un tableau. Dans le cas d'une estimation de paramètres à partir d'un échantillon, il faut retrancher en plus (p) qui représente le nombre des paramètres estimés.
Exemple: Dans un groupe de 4 éléments dont on sait que la somme des valeurs est de 60 par exemple, on peut choisir librement le premier élément (20 par exemple mais on pourrait choisir 15 ou 35…), le second (10), le troisième (20 ou 40 si on admet les valeurs négatives). Dans ce cas, le dernier élément du système concerné ne peut plus être choisi, il est surdéterminé et sa valeur ne peut être que 10 ou –10 selon le choix effectué ci-dessus pour le 3ème élément. Le dernier élément ne peut pas être choisi.
De la même manière dans un tableau combinant deux variables par exemple, les éléments de la dernière ligne et de la dernière colonne ne sont pas choisis, d’où on a un degré de libertés ddl ou v = (l-1)(c-1) où l: le nombre de lignes et c: le nombre de colonnes. Dans un tableau à 3 lignes et 4 colonnes, on peut choisir les valeurs de toutes les cases à part celles de la dernière ligne et colonne, c’est à dire on peut choisir (3-1)(4-1) = 6 éléments, les 6 éléments restants se trouvent surdéterminés automatiquement.
e- On fixe un seuil de signification et de décision et on lit la table de Khi-deux c2 : Cette table nous donne les limites supérieures dues au hasard pour un degré de libertés donné. Plus la distribution est proche du modèle choisi, plus les écarts sont minimes et se trouvent imputés au hasard. Plus les différences sont élevées, plus elles ont de chance d’exprimer une différence réelle entre la distribution empirique et la distribution théorique à tel point qu’on ne peut pas dire que les données suivent cette loi. Pour pouvoir décider si ces écarts sont significatifs ou non, on utilise la table de Khi-deux qui nous donne les seuils limites à ne pas dépasser pour que les écarts soient imputés au hasard:
Si c2calc <= c2a,n : le modèle adopté est satisfaisant, les écarts sont dus au hasard
La
valeur alpha est celle du risque de se tromper qu’on accepte volontiers en
tirant la conclusion que la distribultion D suit la loi L. De préférence, on
choisit toujours le risque le plus faible (1 ou 2%), si non un peu plus élevé
(5%), si non 10% limite qu’on ne dépasse pas pour ce genre de test dans la
mesure où on sait d’avance qu’on va se tromper plus d’une fois sur dix, ce qui
est inacceptable.
Exemple: Peut-on dire que
les données suivantes relatives au taux de croissance des villes françaises
entre 1962 et 1968 suivent une loi normale de moyenne 14.1 et d'écart type 7.8?
On a affaire ici à une série classée, on peut utiliser le test de Khi deux ou de
Kolmogorov.
|
Classe |
ni |
Classe standardisée |
F(Bi) |
Fréq théorique fi' |
Effectif théorique ni' |
(ni - ni')/ni' |
|
< 2.5 |
3 |
-2.12 |
0.017 |
0.17 |
0.833 |
5.637 |
|
2.5 - 8.5 |
9 |
-2.12, -0.71 |
0.238 |
0.221 |
10.829 |
0.309 |
|
8.5 - 14.5 |
17 |
-0.71, 0.051 |
0.519 |
0.281 |
13.769 |
0.758 |
|
14.5 - 20.5 |
12 |
0.051 - 0.82 |
0.793 |
0.274 |
13.426 |
0.1514 |
|
20.5 - 26.5 |
5 |
0.82 - 1.589 |
0.942 |
0.149 |
7.301 |
0.725 |
|
26.5 - 32.5 |
2 |
1.589 - 2.358 |
0.990 |
0.048 |
2.352 |
0.0526 |
|
32.5 - 38.5 |
1 |
2.358 - 3.128 |
0.999 |
0.009 |
0.441 |
0.7085 |
|
|
49 |
|
|
1 |
49 |
8.341 |
- La première étape consiste
à standardiser les bornes ou les centres de classes en utilisant m = 14,1 et
s =
7,8.
- En second lieur, on
détermine les fréquences cumulées à la borne supérieure F(Bi) et on lit les
valeurs correspondantes dans la table de N(0, 1). A la valeur -2.12 on a 1
-0.983 = 0.017, à la valeur -0.71 on a 1 - 0.761 = 0.238 et à la valeur 0.051 on
a 0.519...
- On calcule les fréquences simples théoriques qui sont
égales à la différence des fréquences cumulées successives : 0.017, (0.238 -
0.017) = 0.221, (0.519 - 0.238) = 0.281...
- On détermine ensuite les effectifs théoriques ni' en multipliant par n: 0.017
x 47 = 0.799.
- On calcule la quantité KD=
SS(ni - ni')2/ni'
qui est égale à 8.341.
- Au degré de liberté v = k
- 1, on a C20.05 =
9.49 ce qui nous permet d'accepter l'hypothèse de travail: la distribution peut
être ajustée par une loi normale de moyenne 14.1 et d'écart type 7.8: N(14.1,
7.8).
III - LE
TEST D'INDEPENDANCE
On a déjà vu le cas de ce test
lors de l'analyse de la relation entre deux variables dans un tableau, on en rappelle ici les grandes lignes. Pour tester la dépendance de deux
variables, on procède comme suit :
a - On formule l'hypothèse de
travail Ho :
les deux variables sont indépendantes l’une de l’autre. Il est plus aisé de
formuler l’indépendance dans la mesure où il y a un seul cas qui y correspond et
don’t on peut calculer facilement les effectifs correspondants alors que les cas
de dépendance sont très nombreux et épousent différentes formes.
b - On calcule les valeurs théoriques (n'ij) qui correspondant à cette hypothèse de l'indépendance des deux variables. En cas d'indépendance, les effectifs théoriques sont égaux à: n'ij = ni. n.j /n avec ni. : total de la ligne i correspondante dans le cas d’un tableau, n.j: total de la colonne j et n: l’effectif total du tableau. Dans le cas d’une seule ligne (ou colonne), l’effectif théorique est ni’ = n/k où k: est le nombre de modalités et n: l’effectif total.
c - La somme des carrés des écarts ou des différences des effectifs D = SS (nij - n'ij)2/n'i suit la loi de Khi-Deux au risque a et à v degrés de liberté.
d – On détermine le degré de libertés (v, ddl) qui est le nombre de fois qu'on puisse choisir un élément dans un système. il est égal à v = n -1 pour une ligne (colonne) et v = (c - 1)(l - 1) pour un tableau. En effet, le dernier élément, les éléments de la dernière ligne ou colonne sont surdéterminés automatiquement par le choix fait pour les autres éléments du système.
e – On fixe le risque d'erreur a : 0,1 - 0,05 - 0,01... C’est le seuil de décision et le risque d’erreur qu’on accepte en tirant une conclusion donnée.
f – On lit la table de Khi-deux c2a,v . Cette table donne la limite supérieure des écarts dûs au hasard. En ligne, on a le degré de libertés (v) tandis qu'en colonne on a le risque d'erreur choisi a. Pour qu'il y ait une liaison entre x et y au risque a, il faut que: c2obs >= c2a,v .
Le test de c2 exige un certain nombre de conditions qu'il faut respecter: des données en effectifs, le nombre d'observation dans un tableau doit dépasser 20 (50 dans le cas d'un tableau 2 x 2) et l'effectif par case doit être supérieur à 5.
Exemple: Sur une carte morphologique on a relevé l'orientation des dépôts selon le tableau suivant. Y'a-t-il une liaison entre l'orientation des dépôts et leur nombre?. Autrement, les deux phénomènes sont-ils dépendants??.
|
Orientation |
0-89°: SW-NE |
90-179° : SE-NW |
180-269°: SE-SW |
270-360°: NW-SE |
|
Nombre de dépôts |
31 |
14 |
10 |
13 |
- L'hypothèse nulle est Ho: Les deux phénomènes sont indépendants. Dans ce cas,on aurait un nombre théorique égal de dépôt dans chaque orientation, soit 68/4 =14. On calcule les écarts entre les valeurs observées et théoriques :
|
Orientation |
0-89: SW-NE |
90-179 : SE-NW |
180-269: NE-SW |
270-360: NW-SE |
Total |
|
Nombre observé ni |
31 |
14 |
10 |
13 |
68 |
|
Nombre calculé: n'i |
17 |
17 |
17 |
17 |
68 |
|
Ecart: ni -n'i |
14 |
-3 |
-7 |
-4 |
|
|
Caé des écarts : (ni -n'i)2 |
196 |
9 |
49 |
16 |
|
|
(ni -n'i)2/n'i |
11.53 |
0.53 |
2.88 |
0.94 |
15.88 |
- Le nombre de degré de liberté est : v = n - 1 = 3. On choisit un seuil de signification de 0.01. On lit la table de c20.01, 3 = 11.35. On a donc : c2 obs > c2 0.01,3 : d'où Rejet de Ho au seuil de 99%: la différence observée entre les valeurs observées et théoriques n'est due au hasard que pour 1%. Il y a bel et bien une relation entre les deux caractères et le nombre de dépôts est dépendant de l'orientation .
Exemple: Dans une région, la localisation des villages se distribue suit selon le type de sols. Peut-on dire qu'elle dépend de la nature du sol?. L'hypothèse de travail stipule l'indépendance des deux variables, dans quel cas le nombre théorique de villages doit être proportionnel à la superficie: E = (Nb observé. Si)/S avec S: superficie totale et Si: superficie de la zone concernée. On constate que les types 1 et 2 ont un effectif inférieur à 5 ce qui pose un problème pour le test de Khi-deux. On a deux choix possibles, soit récolter plus de données, soit regrouper les deux premières catégories?. La seconde solution nous donne le tableau à droite.
|
Type de sol |
Nb de Villages |
Superf (km2) |
Nb théor E |
(O - E)2/E |
|
Nb observé |
Nb théor E |
(O - E)2/E |
|
Alluvions mal drainés |
2 |
32 |
5.28 |
1.969 |
|
|
|
|
|
Gravillons bien drainés |
12 |
16 |
2.6 |
33.984 |
|
14 |
7.8 |
4.93 |
|
Grès à pente forte |
13 |
111 |
18.1 |
1.437 |
|
13 |
18.1 |
1.44 |
|
Grès à pente faible |
23 |
147 |
24.1 |
0.05 |
|
23 |
24.1 |
0.05 |
|
|
50 |
306 |
50 |
37.44 |
|
50 |
50 |
6.42 |
Le degré de liberté est v = n - 1 = 2. La lecture de la table de Khi-deux montre qu'avec un ddl de 2 et un risque d'erreur de 5%, on a 5.99 ce qui inférieur à la valeur calculée, d'où on peut tirer la conclusion que la localisation des villages est liée à la nature du sol au seuil de 95%.
Exemple: La prévision météo pour le lendemain a donné pour 215 jours le résultat suivant.Y'a-t-il un lien entre les prévisions et la réalité?. Autrement, les observations sont-elles indépendantes de la réalité?
|
|
Ciel peu nuageux 1 |
Ciel couvert 0 |
Total |
|
Ciel peu nuageux 1 |
17 (3.7) 13.3 176.89 47.808 44.281 |
9 (22.3) -13.3 176.89 7.932 7.347 |
26 |
|
Ciel couvert 0 |
13 (26.3) -13.3 176.89 6.725 6.229 |
174 (160.7) 13.3 176.89 1.1007 1.0195 |
187 |
|
Total |
3 |
183 |
213 |
Dans le cas de l'indépendance (Ho), la valeur de chaque case est égale au rapport entre le produit du total de la ligne et de la colonne correspondantes et l'effectif global (chiffres entre parenthèses).
On détermine les écarts (3° chiffre), leurs carrés (4°), le rapport à la valeur observée (5° chiffre) et la somme des carrés des écarts pondérés ce qui nous donne la valeur de: c2obs = 63.472.
Le degré de liberté est égal à ( 2 - 1)(2 - 1) = 1. on a ici un cas particulier où le ddl est égal à un ce nous oblige à apporter la correction de Yeates, le dernier chiffre de la case tient compte de cette correction. La valeur devient alors : 58.875.
En regardant la table de c2 on constate qu'à un ddl et au seuil de 99%, on a 6.63. La valeur observée est très inférieure à celle calculée, on déduit que les deux paramètres sont dépendants. Les observations sont dépendantes des prévisions au seuil de 99%
On peut aussi calculer le coefficient Phi à partir de ce tableau: j = (17*174-9*13)/(26*187*30*183)1/2 = 2841/5166.466 = 0.54989
- Mesure de l'effet différentiel
On peut mesurer
l'effet différentiel d'un phénomène donné sur un sous groupe ou le
coefficient de réussite d'une action entreprise qui peut être résumés dans
un tableau 2x2. C'est le cas par exemple lorsqu'on veut voir si les observations
sur un sous-groupe sont reliées à une autre variable ou une action donnée. C'est
le cas aussi quand on veut mesurer la réussite d'une action comme pour les
prévisions météorologiques par exemple.
Le coefficient s'écrit: S = (C -
C')/(n - C') avec C: la somme de la diagonale
principale (NO - SE) où il y a concordance totale des deux variables (oui/oui -
non/non), par exemple le nombre de prévisions réalisées correctes, C': la somme
des valeurs théoriques de la même diagonale: C = n11 + n22, C' = n11' + n22'.
|
|
oui |
non |
Total ni. |
|
oui |
n11 n11' |
- |
n1. |
|
non |
- |
n22 n22' |
n2. |
|
Total n.j |
n.1 |
n.2 |