Home           Nous écrire               Liens Utiles           Votre Opinion            Fin de Page
 

                                                                         LE TEST DE KHI-DEUX :
                           
Ajustement, Indépendance, Homogénéité, Conformité

                                                                                                   
Amor BELHEDI, FSHS, Université de Tunis


Construction du Test    Conditions du Test     Test de l'indépendance     Test de conformité    Test d'homogénéité   Test d'Ajustement


Introduction  Présenter & Décrire une variable  Réduire & Résumer une distribution  Notions et Distributions de Probabilités   Corrélation & Régression linéaire simple  Corrélation & Régression simples courbes  Test de Khi-deux   Corrélation dans un tableau  Chroniques & Distributions temporelles   Corrélation & Régression multiples   Droites des Moindres Rectangles   Analyse Factorielle   Classification & Typologie  Tests des hypothèses  Sondages & Distributions d'échantillonnage  Quelques Eléments de calcul matriciel  Tables Statistiques   Papiers Fonctionnels   Bibliographie Sommaire

 

            Très souvent, on est confronté à vérifier si deux variables sont liées ou indépendantes, si un échantillon suit la même oi que la population mère dont il est isuu, si deux échantillons suivent la même loi de distribution, enfin si une distribution donnée n'est pas significativement différente d'une distribution théorique preise comme référence? Dans tous ces cas, on a ffaire à voir dans quelle mesure les écarts constatées peuevnt être imputés au hasard?.
    Dans chacun des cas cités précedemment, on a affaire à un test d'indépendance, de conformité ou de concordance, d'homogénéité ou d'ajustement. Dans tous ces cas, c'est le test de Khi-deux qui est le plus utilisé.


1 - CONSTRUCTION DU TEST

             La construction d'un test d'une hypothèse passe par plusieurs étapes  

1.1 - Définir l'hypothèse de travail appelée aussi l'hypothèse nulle (Ho): Il s'agit de définir et préciser l'hypothèse qu'on va tester et vérifier; par exemple, la croissance urbaine est-elle liée à la taille des villes?  La distribution des taux de croissance des villes suit-elle une loi normale?, Le chômage à Tunis est-il réellement différent du niveau constaté au niveau national?... 
    Dans le cas du test de l'indépendance, L'hypothèse la plus simple étant par exemple l'indépendance dans le mesure où il y a une seule situation qui correspond à l'indépendance totale tandis que la dépendance peut avoir plusieurs formes (linéaire, puissance, logistique...) ce qui interdit la possibilité du cacul des effectifs théoriques. C'est la même démarche dans les autres types de test.

1.2 - Calculer les effectifs théoriques sous cette hypothèse de travail définie précédemment par exemple l'indépendance ou l'homogénéité ou  la distribution théorique si on cherche à tester la normalité d'une distribution, on doit calculer les valeurs théoriques dans le cas d'une distribution normale.

1.3- L'écart entre les deux valeurs observées et théoriques suit une loi définie, c'est la loi Khi-deux à v degré de liberté . Il s'agit donc de calculer cet écart..

1.4 - On adopte une procédure de décision  en choisissant un risque d'erreur  (a ) ou un  seuil de signification (1-a) au delà (en deça) duquel on rejette l'hypothèse Ho: l'écart observé est significatif et il n'est pas dû au hasard, on adopte l'hypothèse alternative (H1). La différence peut être imputée au hasard  jusqu'à une limite supérieure (ou inférieure) donnée par la  table statistique de Khi-deux (La).
            Le paramètre
a est le risque qu'on accepte de courir en tirant des conclusions. Il est souvent inférieur à 10% mais le seuil le plus faible serait le meilleur. Le seuil de signification est la probabilité pour que la conclusion soit correcte, c'est le complément à l'unité pour a. Pour un risque a = 0.05, la probabilité ou le seuil de signification est de 0.95, soit 5% et 95% respectivement. En tirant une telle conclusion, il y a un risque de 5% de se tromper. Au seuil de 90%, le test est dit significatif, il est très significatif à 95% et hautement significatif à plus de 90%.

D  =>   La  L'écart est significatif et ne peut pas être dû au hasard. On rejette Ho.
D <      L
a :   L'écart n'est pas significatif, il est dû au hasard. On adopte Ho

 

                        P(E < La) = a                              P(E => La) = a
 

Conditions du Test de Khi-deux

    Le test de Khi-deux est un test très robuste mais il exige un certain nombre de conditions dont on peut citer quelques unes:
    1 - Le test de Khi-deux s'applique aux effectifs et aux variables continues
    2 - Un effectif total éagl ou dépassant 20 . Dans un petit tableau de 2 x 2, le total doit être égal ou supérieu à 50.
   3 - Le total des lignes et des colonnes doit être au moins égal à 5, certains exigent même que tous les effectifs théoriques des cases ne doivent pas être en dessous de ce seuil de 5. dans le cas où on a des effectifs inférieurs à 5, on peut regrouper les lignes ou les colonnes correspondantes.


II – LE TEST  D’AJUSTEMENT

             On utilise souvent le test de Khi-deux  (c2) pour voir si le modèle adopté est satisfaisant ou si les données suivent une distribution donnée (on utilise aussi le test de Kolmogorov-Smirnov C (cf. les tests d'hypothèse). On peut se demander si le modèle adopté est valable, autrement dit dans quelle mesure les résidus sont dus au hasard?.

 2.1 -      Principe du test 

            Le test de Khi-deux nous permet de voir dans quelle mesure les différences observées entre le modèle adopté et le modèle théorique sont-elles dues au hasard, sont non significatifs d’une différence qualitative de modèle ou de loi de distribution et que les données suivent bien tel modèle  ou telle loi , les différences enregistrées sont aléatoires. 
            La différence entre les effectifs observés et les effectifs théoriques suit la loi de Khi
2 à (n - 2) ddl. La somme des écarts étant toujours nulle, on est obligé d'élever au carré ces différences. Pour restrer sur l amême échelle, on se trouve amené à pondérer ces carrés par la valeur théoriques des effectifs. On peut donc écrire que comme suit:                                                                 c2calc = S (Yo -Yc)2/Yc

Si c2 calc < c2a, n -2  : le modèle adopté est satisfaisant et les écarts sont dus au hasard.

             On peut utiliser le test de Khi-deux dans deux cas: soit pour comparer une distribution réelle et empirique à une distribution théorique, soit pour comparer aussi deux distributions entre elles. Dans les deux cas, il s’agit de voir dans quelle mesure les différences enregistrées sont-elles dues au hasard.

 2.1-      Les étapes de construction du test

             Les étapes de construction du test sont  identiques à celles décrites ci dessus selon la démarche globale de la construction des tests:

 a- On formule l'hypothèse de travail ou de base (Ho): les données observées x suivent une loi donnée x'. La formulation d’une telle hypothèse suppose la connaissance préalable de certaines lois de probabilités.

 b- On calcule, sous cette hypothèse nulle, les valeurs théoriques (n'i ou n'ij) en fonction des paramètres de la loi de distribution indiquée comme la loi normale ou la loi exponentielle par exemple (cf. le chapitre des probabilités).

 c- On détermine l'écart entre les fréquences observées (ni ou nij) et théoriques (ni' ou n'ij). La somme des carrés des écarts suit une loi Khi-deux à (v) degrés de liberté: D = SS (ni - n'i)2/n'i     

 d- On détermine le degré de liberté. Le degré de liberté (ddl ou v) est le nombre de fois qu’on peut choisir les éléments d’un système déterminé (dont on connait le nombre total des éléments et la somme des valeurs par exemple). Le degré de liberté est égal à v =  n -1  en cas d’un seul caractère et  v = (k-1)(k2 - 1) dans  le cas de deux caractères combinés sous la forme d’un tableau. Dans le cas d'une estimation de paramètres à partir d'un échantillon, il faut retrancher en plus (p) qui représente le nombre des paramètres estimés. 

Exemple: Dans un groupe de 4 éléments dont on sait que la somme des valeurs est de 60 par exemple, on peut choisir librement le premier élément (20 par exemple mais on pourrait choisir 15 ou 35…), le second (10), le troisième (20 ou 40 si on admet les valeurs négatives). Dans ce cas, le dernier élément du système concerné ne peut plus être choisi, il est surdéterminé et sa valeur ne peut être que 10 ou –10 selon le choix effectué ci-dessus  pour le 3ème élément. Le dernier élément ne peut pas être choisi.

            De la même manière dans un tableau combinant deux variables par exemple, les éléments de la dernière ligne et de la dernière colonne ne sont pas choisis, d’où on a un  degré de libertés ddl ou v = (l-1)(c-1) où l: le nombre de lignes et c: le nombre de colonnes. Dans un tableau à 3 lignes et 4 colonnes, on peut choisir les valeurs de toutes les cases à part celles de la dernière ligne et colonne, c’est à dire on peut choisir (3-1)(4-1) = 6 éléments, les 6 éléments restants se trouvent surdéterminés automatiquement.

 e- On fixe un seuil de signification et de décision et on lit la table de  Khi-deux c2 : Cette table nous donne les limites supérieures dues au hasard pour un degré de libertés donné. Plus la distribution est proche du modèle choisi, plus les écarts sont minimes et se trouvent imputés au hasard. Plus les différences sont élevées, plus elles ont de chance d’exprimer une différence réelle entre la distribution empirique et la distribution théorique à tel point qu’on ne peut pas dire que les données suivent cette loi. Pour  pouvoir décider si ces écarts sont significatifs ou non, on utilise la table de Khi-deux qui nous donne les seuils limites à ne pas dépasser pour que les écarts soient imputés au hasard:

            Si c2calc   <= c2a,n :  le modèle adopté est satisfaisant, les écarts sont dus au hasard

             La valeur alpha est celle du risque de se tromper qu’on accepte  volontiers en tirant la conclusion que la distribultion D suit la loi L. De préférence, on choisit toujours le risque le plus faible (1 ou 2%), si non un peu plus élevé (5%), si non 10% limite qu’on ne dépasse pas pour ce genre de test dans la mesure où  on sait d’avance qu’on va se tromper plus d’une fois sur dix, ce qui est inacceptable.

Exemple: Peut-on dire que les données suivantes relatives au taux de croissance des villes françaises entre 1962 et 1968 suivent une loi normale de moyenne 14.1 et d'écart type 7.8? On a affaire ici à une série classée, on peut utiliser le test de Khi deux ou de Kolmogorov.

Classe

ni

Classe

standardisée

F(Bi)

Fréq théorique fi'

Effectif théorique  ni'

(ni - ni')/ni'

 

< 2.5

3

-2.12

0.017

0.17

0.833

5.637

 

2.5 - 8.5

9

-2.12, -0.71

0.238

0.221

10.829

0.309

 

8.5 - 14.5

17

-0.71, 0.051

0.519

0.281

13.769

0.758

 

14.5 - 20.5

12

0.051 - 0.82

0.793

0.274

13.426

0.1514

 

20.5 - 26.5

5

0.82 - 1.589

0.942

0.149

7.301

0.725

 

26.5 - 32.5

2

1.589 - 2.358

0.990

0.048

2.352

0.0526

 

32.5 - 38.5

1

2.358 - 3.128

0.999

0.009

0.441

0.7085

 

 

49

 

 

1

49

8.341

 

- La première étape consiste à standardiser les bornes ou les centres de classes en utilisant m = 14,1 et s = 7,8.
- En second lieur, on détermine les fréquences cumulées à la borne supérieure F(Bi) et on lit les valeurs correspondantes dans la table de N(0, 1). A la valeur -2.12 on a 1 -0.983 = 0.017, à la valeur -0.71 on a 1 - 0.761 = 0.238 et à la valeur 0.051 on a 0.519...
- On calcule les fréquences simples théoriques qui sont égales à la différence des fréquences cumulées successives : 0.017, (0.238 - 0.017) = 0.221, (0.519 - 0.238) = 0.281...
- On détermine ensuite les effectifs théoriques ni' en multipliant par n: 0.017 x 47 = 0.799.
- On calcule la quantité KD= SS(ni - ni')2/ni' qui est égale à 8.341.
- Au degré de liberté v = k - 1, on a C20.05 = 9.49 ce qui nous permet d'accepter l'hypothèse de travail: la distribution peut être ajustée par une loi normale de moyenne 14.1 et d'écart type 7.8: N(14.1, 7.8).

 
III  - LE TEST D'INDEPENDANCE
 

                  On a déjà vu le cas de ce test lors de l'analyse de la relation entre deux variables dans un tableau, on en rappelle ici les grandes lignes. Pour  tester la dépendance de deux variables, on procède comme suit :
a - On formule l'hypothèse de travail H
o : les deux variables sont indépendantes l’une de l’autre. Il est plus aisé de formuler l’indépendance dans la mesure où il y a un seul cas qui y correspond et don’t on peut calculer facilement les effectifs correspondants alors que les cas de dépendance sont très nombreux et épousent différentes formes.

b - On calcule les valeurs théoriques (n'ij)  qui correspondant à cette hypothèse de l'indépendance des deux variables. En cas d'indépendance, les effectifs théoriques sont égaux à:  n'ij = ni. n.j /n avec ni. : total de la ligne i correspondante dans le cas d’un tableau, n.j: total de la colonne j et n: l’effectif total du tableau. Dans le cas d’une seule ligne (ou colonne), l’effectif théorique est ni’ = n/k où k: est le nombre de modalités et n: l’effectif total.

c - La somme des carrés des écarts ou des différences des effectifs D = SS (nij - n'ij)2/n'suit la loi de Khi-Deux au risque a et à v degrés de liberté.

d – On détermine le degré de libertés (v, ddl) qui est le nombre de fois qu'on puisse choisir un élément dans un système. il est égal à v = n -1 pour une ligne (colonne) et v = (c - 1)(l - 1) pour un tableau. En effet, le dernier élément, les éléments de la dernière ligne ou colonne sont surdéterminés automatiquement par le choix fait pour les autres éléments du système.

e – On fixe le risque d'erreur a : 0,1 - 0,05 - 0,01... C’est le seuil de décision et le risque d’erreur qu’on accepte en tirant une conclusion donnée.

f – On lit la table de Khi-deux c2a,v . Cette  table donne la limite supérieure des écarts dûs au hasard. En ligne, on a le degré de libertés (v) tandis qu'en colonne on a le risque d'erreur choisi a. Pour qu'il y ait une liaison entre x et y au risque a, il faut que:  c2obs >=  c2a,v .

            Le test de c2 exige un certain nombre de conditions qu'il faut respecter: des données en effectifs, le nombre d'observation dans un tableau doit dépasser 20 (50 dans le cas d'un tableau 2 x 2) et l'effectif par case doit être supérieur à 5.

 Exemple: Sur une carte morphologique on a relevé l'orientation des dépôts selon le tableau suivant. Y'a-t-il une liaison entre l'orientation des dépôts et leur nombre?. Autrement, les deux phénomènes sont-ils dépendants??.

Orientation

0-89°: SW-NE

90-179° : SE-NW

180-269°: SE-SW

270-360°: NW-SE

 

Nombre de dépôts

31

14

10

13

 

 - L'hypothèse nulle est Ho: Les deux phénomènes sont indépendants. Dans ce cas,on aurait un nombre théorique égal de dépôt dans chaque orientation, soit 68/4 =14. On calcule les écarts entre les  valeurs observées et théoriques :

Orientation

0-89: SW-NE

90-179 : SE-NW

180-269: NE-SW

270-360: NW-SE

Total

 

Nombre observé ni

31

14

10

13

68

 

Nombre calculé: n'i

17

17

17

17

68

 

Ecart: ni -n'i

14

-3

-7

-4

 

 

Caé des écarts : (ni -n'i)2

196

9

49

16

 

 

(ni -n'i)2/n'i

11.53

0.53

2.88

0.94

15.88

 

 - Le nombre de degré de liberté est : v = n  - 1 = 3. On choisit un seuil de signification de 0.01. On lit la table de c20.01, 3 = 11.35. On a donc :  c2 obs    >  c2 0.01,3 : d'où Rejet de Ho au seuil de 99%: la différence observée entre les valeurs observées et théoriques n'est due au hasard que pour 1%.  Il y a bel et bien une relation entre les deux caractères et le nombre de dépôts est dépendant de l'orientation .

Exemple: Dans une région, la localisation des villages se distribue suit selon le type de sols. Peut-on dire qu'elle dépend de la nature du sol?. L'hypothèse de travail stipule l'indépendance des deux variables, dans quel cas le nombre théorique de villages doit être proportionnel à la superficie: E = (Nb observé. Si)/S avec S: superficie totale et Si: superficie de la zone concernée. On constate que les types 1 et 2 ont un effectif inférieur à 5 ce qui pose un problème pour le test de Khi-deux. On a deux choix possibles, soit récolter plus de données, soit regrouper les deux premières catégories?. La seconde solution nous donne le tableau à droite. 

Type de sol

Nb de

Villages

Superf (km2)

Nb théor E

(O - E)2/E

 

Nb observé

Nb théor E

(O - E)2/E

 

Alluvions mal drainés

2

32

5.28

1.969

 

 

 

 

 

Gravillons bien drainés

12

16

2.6

33.984

 

14

7.8

4.93

 

Grès à pente forte

13

111

18.1

1.437

 

13

18.1

1.44

 

Grès à pente faible

23

147

24.1

0.05

 

23

24.1

0.05

 

 

50

306

50

37.44

 

50

50

6.42

 

 Le degré de liberté est v = n  - 1 = 2. La lecture de la table de Khi-deux montre qu'avec un ddl de 2 et un risque d'erreur de 5%, on a 5.99 ce qui inférieur à la valeur calculée, d'où on peut tirer la conclusion que la localisation des villages est liée à la nature du sol au seuil de 95%.

Exemple: La prévision météo pour le lendemain a  donné pour 215 jours le résultat suivant.Y'a-t-il un lien entre les prévisions et la réalité?. Autrement, les observations sont-elles indépendantes de la réalité?

 

Ciel peu nuageux  1

Ciel couvert    0

Total

 

Ciel peu nuageux  1

17    (3.7)          13.3

176.89    47.808    44.281

9      (22.3)           -13.3

176.89      7.932       7.347

26

 

Ciel couvert          0

13    (26.3)        -13.3

176.89      6.725     6.229

174   (160.7)       13.3

176.89       1.1007    1.0195

187

 

Total

3

183

213

 

                Dans le cas de l'indépendance (Ho), la valeur de chaque case est égale au rapport entre le produit du total de la ligne et de la colonne correspondantes et l'effectif global (chiffres entre parenthèses).

                On détermine les écarts (3° chiffre), leurs carrés (4°), le rapport à la valeur observée (5° chiffre) et la somme des carrés des écarts pondérés ce qui nous donne la valeur de: c2obs =  63.472. 

                Le degré de liberté est égal à ( 2 - 1)(2 - 1) = 1. on a ici un cas particulier où le ddl est égal à un ce nous oblige à apporter la correction de Yeates, le dernier chiffre de la case tient compte de cette correction. La valeur devient alors : 58.875.

                En regardant la table de c2  on constate qu'à un ddl et au seuil de 99%, on a 6.63. La valeur observée est très inférieure à celle calculée, on déduit que les deux paramètres sont dépendants. Les  observations sont dépendantes des prévisions au seuil de 99%

                On peut aussi calculer le coefficient Phi à partir de ce tableau: j = (17*174-9*13)/(26*187*30*183)1/2 = 2841/5166.466 = 0.54989

 
- Mesure de l'effet différentiel

            On peut mesurer l'effet différentiel d'un phénomène donné sur un sous groupe ou le coefficient de réussite d'une action entreprise qui peut être résumés dans un tableau 2x2. C'est le cas par exemple lorsqu'on veut voir si les observations sur un sous-groupe sont reliées à une autre variable ou une action donnée. C'est le cas aussi quand on veut mesurer la réussite d'une action comme pour les prévisions météorologiques par exemple.
Le coefficient s'écrit:  S = (C - C')/(n - C')  avec C: la somme de la diagonale principale (NO - SE) où il y a concordance totale des deux variables (oui/oui - non/non), par exemple le nombre de prévisions réalisées correctes, C': la somme des valeurs théoriques de la même diagonale: C = n11 + n22, C' = n11' + n22'.
 

 

oui

non

Total   ni.

 

oui

n11         n11'

-

n1.

 

non

-

n22       n22'

n2.

 

Total  n.j

n.1

n.2