Home           Nous écrire         Liens Utiles           Votre Opinion            Fin de Page
 

                                     LES TESTS  D'HYPOTHESES    

                                                                                                                                                             
 Amor BELHEDI, FSHS, Université de Tunis  


Construction du Test     Types de tests        Les Tests d'Ajustement    Les Tests d'indépendance  Le Test de Khi-Deux    Le Test de Kolmogorov-Smirnov         Les tests de Conformité     Les Tests d'Homogénéité     Le test d'Egalité   Autres tests d'hypothèses


Introduction  Présenter & Décrire une variable  Réduire & Résumer une distribution  Notions et Distributions de Probabilités   Corrélation & Régression linéaire simple  Corrélation & Régression simples courbes  Test de Khi-deux   Corrélation dans un tableau  Chroniques & Distributions temporelles   Corrélation & Régression multiples   Droites des Moindres Rectangles   Analyse Factorielle   Classification & Typologie  Tests des hypothèses  Sondages & Distributions d'échantillonnage  Quelques Eléments de calcul matriciel  Tables Statistiques   Papiers Fonctionnels   Bibliographie Sommaire

               

           Dans la réalité, toute mesure aussi simple soit-elle se trouve entachée d’erreur qu’on commet en mesurant le même phénomène. C’est ainsi qu’en mesurant la longueur d’une vitre cassée on se trouve souvent amenée à prendre les mesures à plusieurs reprises et on n’est pas toujours sûr de prendre les bonnes. Par ailleurs, à part les analyses exhaustives, toutes étude menée  à partir d’un échantillon se trouve toujours entachée d’erreur. En comparant deux quantités, on commet souvent des erreurs et on risque de tirer une conclusion fausse. La statistique se fonde sur l’erreur qu’il convient de limiter d’un côté, de mesurer de l’autre.

             Très souvent, les valeurs observées dans un échantillon tendent à converger vers la valeur réelle des paramètres de la population d'origine sur la base de la loi des grands nombres qui constitue le fondement de l'échantillonnage et des sondages. Ces paramètres observés constituent de véritables variables aléatoires qui tendent à suivre une certaine loi donnée, ce sont  les lois de distribution d'échantillonnage.

            La connaissance de ces lois nous permet de tester les hypothèses de travail pour pouvoir les infirmer ou les confirmer surtout dans les cas où les données sont très proches et peu nuancées. Il existe autant de types de tests d'hypothèses que de catégories de problèmes posés.

            Il s'agit de voir dans quelle mesure une distribution observée sui une loi ou un modèle quelconque? On peut chercher à voir si deux variables sont indépendantes ou dans quelle mesure le coefficient de corrélation obtenu est-il différent de zéro (test de Pearson) ou de son erreur-type? On peut aussi chercher à vérifier dans quelle mesure la moyenne obtenue d'une enquête, est-elle réellement différente de celle obtenue pour une autre?...

            On peut aussi comparer une valeur d'un échantillon à un paramètre de la population d'origine, comparer les paramètres de deux échantillons ou plus pour voir s'ils ont été tirés de la même population,...

 

1 - CONSTRUCTION DU TEST

             La construction d'un test d'une hypothèse passe par plusieurs étapes selon la nature du test lui-même.

 1 - Les étapes de construction d'un test

             Quelque soit la nature du test, sa construction suit toujours un certain nombre d'étapes qu'on peut résumer comme suit:

a - Définir l'hypothèse de travail appelée aussi l'hypothèse nulle (Ho): Il s'agit de définir et préciser l'hypothèse qu'on va tester et vérifier; par exemple, la distribution des taux de croissance des villes suit-elle une loi normale, le niveau du chômage est-il réellement plus élevé à Tunis?

b - Calculer les valeurs théoriques sous cette hypothèse de travail définie précedemment: si on cherche à tester la normalité d'une distribution, on doit calculer les valeurs théoriques dans le cas d'une distribution normale.

c - L'écart entre les deux valeurs observées et théoriques suit une loi définie (L) selon le type d'écart et indépendamment de la loi de distribution. Il dépend seulement du type de paramètre utilisé pour le définir: pour la fréquence, c'est la loi tiliser de Khi-Deux, pour la moyenne c'est la loi de Student... Il s'agit donc de calculer cet écart.

d - On adopte une procédure de décision  en choisissant un risque d'erreur  (a ) ou un  seuil de signification (1-a) au delà (en deça) duquel on rejette l'hypothèse Ho: l'écart observé est significatif et il n'est pas dû au hasard, on adopte l'hypothèse alternative (H1).
            La différence peut être imputée au hasard  jusqu'à une limite supérieure (ou inférieure) donnée par les différentes tables statistiques (L
a).
            Le paramètre
a est le risque qu'on accepte de courir en tirant des conclusions. Il est souvent inférieur à 10% mais le seuil le plus faible serait le meilleur. Le seuil de signification est la probabilité pour que la conclusion soit correcte, c'est le complément à l'unité pour a. Pour un risque a = 0.05, la probabilité ou le seuil de signification est de 0.95, soit 5% et 95% respectivement. En tirant une telle conclusion, il y a un risque de 5% de se tromper.
             Au seuil de 90%, le test est dit significatif, il est très significatif à 95% et hautement significatif à plus de 99%.
D  =>   L
a : L'écart est significatif et ne peut pas être dû au hasard. On rejette Ho.
D <      L
a : L'écart n'est pas significatif, il est dû au hasard. On adopte Ho

                        P(E < La) = 1- a                              P(E => La) = a

             L'hypothèse alternative peut être de trois formes dans le cas des tests d'égalité :
 - Test unilatéral:  il s'agit de voir si      
 x  > xo   : Région critique à droite
 x < xo   : Région critique à gauche

 - Test bilatéral : x différent de  xo : la région critique est symétrique de part et d'autre 

       X  > xo                                        X  < xo                                               x  différent de  xo

 
2  -
Les types de test

             On peut distinguer deux types de tests selon qu'ils supposent certaines conditions ou non à la population concernée: les tests paramétriques et les tests non paramétriques.
 a- Les tests paramétriques: Ce sont des tests qui supposent certaines conditions dans la distribution de la population comme la normalité de la population, l'indépendance des observations, la continuité de la variable... On peut citer les tests de regression, les tests d'ajustement et de modèle de distribution, les tests de conformité, les tests d'homogénéité et les tests d'égalité....

 b- Les tests non paramétriques: Ce sont des tests qui n'exigent pas de conditions particulières à la distribution de la population. La distribution d'échantillonnage est indépendante de celle de la population. On peut citer le test Khi-deux ou de Kolmogorov-Smirnov....

 
II – LES TEST D’AJUSTEMENT

             On peut utiliser deux tests pour voir si le modèle adopté est satisfaisant ou si les données suivent une distribution donnée:
-   le test de Khi-Deux
(c2)
-   et le test de Kolmogorov-Smirnov  (C). 

1 - Le test de Khi-Deux (c2 )  

            Le test de Khi-deux s'applique aux fréquences des variables continues. On peut se demander si le modèle adopté est valable, autrement dit dans quelle mesure les résidus sont dus au hasard?.

 1.1-      Principe du test 

            Le test de Khi-deux nous permet de voir dans quelle mesure les différences observées entre le modèle adopté et le modèle théorique sont dues au hasard, sont non significatives d’une différence qualitative de modèle ou de loi de distribution et que les données suivent bien tel modèle  ou telle loi , autrement les écarts enregistrés sont aléatoires. 

            La différence entre les effectifs observés et les effectifs théoriques suit la loi de Khi2 à n-2 ddl. On peut écrire comme suit:   
                                              
c2calc = S (Yo -Yc)2/Yc             avec Yo : les valeurs observées, Yc : les valeurs calculées.

Si c2calc < c2a, n -2  : le modèle adopté est satisfaisant et les écarts sont dus au hazard, 

avec a : le risque d’erreur, n: le nombre d’observations

             On peut utiliser le test de Khi-deux dans deux cas: soit pour comparer une distribution réelle et empirique à une distribution théorique, soit pour comparer aussi deux distributions entre elles. Dans les deux cas, il s’agit de voir dans quelle mesure les différences enregistrées sont-elles dues au hasard.


1.2-      Les étapes de construction du test

             Les étapes de construction du test sont  identiques à celles décrites ci dessus selon la démarche globale de la construction des tests:

 a- On formule l'hypothèse de travail ou de base (Ho): les données observées x suivent une loi donnée x'. La formulation d’une telle hypothèse suppose la connaissance préalable de certaines lois de probabilités.

 b- On calcule, sous cette hypothèse nulle, les valeurs théoriques (n'i ou n'ij) en fonction des paramètres de la loi de distribution indiquée comme la loi normale ou la loi exponentielle par exemple (cf. le chapitre des probabilités).

 c- On détermine l'écart entre les fréquences observées (ni ou nij) et théoriques (ni' ou n'ij). La somme des carrés des écarts suit une loi Khi-deux à (v) degrés de liberté: D = SS (ni - n'i)2/n'i     

ou D = = SS (Yobs – Ycalc)2/Ycalc   selon le type de test.   

d- On détermine le degré de liberté. Le degré de liberté (ddl ou v) est le nombre de fois qu’on peut choisir les éléments d’un système déterminé (dont on connait le nombre total des éléments et la somme des valeurs par exemple). Le degré de liberté est égal à v =  n -1  en cas d’un seul caractère et  v = (k-1)(k2 - 1) dans  le cas de deux caractères combinés sous la forme d’un tableau ou v = (c - 1)(l - 1) avec l: le nombre de lignes c: le nombre de colonnes. Dans le cas d'une estimation de paramètres à partir d'un échantillon, il faut retrancher en plus (p) qui représente le nombre des paramètres estimés.

 Exemple: Dans un groupe de 4 éléments dont on sait que la somme des valeurs est de 60 par exemple, on peut choisir librement le premier élément (20 par exemple mais on pourrait choisir 15 ou 35…), le second (10), le troisième (20 ou 40 si on admet les valeurs négatives). Dans ce cas, le dernier élément du système concerné ne peut plus être choisi, il est surdéterminé et sa valeur ne peut être que 10 ou –10 selon le choix effectué ci-dessus  pour le 3ème élément.

            De la même manière, dans un tableau combinant deux variables par exemple, les éléments de la dernière ligne et de la dernière colonne nepeuvent pas être choisis, d’où on a un  degré de libertés ddl ou v = (l-1)(c-1) où l: le nombre de lignes et c: le nombre de colonnes. Dans un tableau à 3 lignes et 4 colonnes, on peut choisir les valeurs de toutes les cases à part celles de la dernière ligne et colonne, c’est à dire on peut choisir (3-1)(4-1) = 6 éléments, les 6 éléments restants se trouvent surdéterminés automatiquement.

 e- On fixe un seuil de signification et de décision et on lit la table de  Khi-deux c2 : Cette table nous donne les limites supérieures dues au hasard pour un degré de libertés donné. Plus la distribution est proche du modèle choisi, plus les écarts sont minimes et se trouvent imputés au hasard. Plus les différences sont élevées, plus elles ont de chance d’exprimer une différence réelle entre la distribution empirique et la distribution théorique à tel point qu’on ne peut pas dire que les données suivent cette loi. Pour  pouvoir décider si ces écarts sont significatifs ou non, on utilise la table de Khi-deux qui nous donne les seuils limites à ne pas dépasser pour que les écarts soient imputés au hasard:

            Si c2 calc   <= c2 a,n  :  le modèle adopté est satisfaisant, les écarts sont dus au hasard

             La valeur alpha (a) est celle du risque de se tromper qu’on accepte  volontiers en tirant la conclusion que la distribultion D suit la loi L. De préférence, on choisit toujours le risque le plus faible (1 ou 2%), si non un peu plus élevé (5%), si non 10% limite qu’on ne dépasse pas pour ce genre de test dans la mesure où  on sait d’avance qu’on va se tromper plus d’une fois sur dix, ce qui est inacceptable.

Exemple: Peut-on dire que les données suivantes relatives aux taux de croissance des villes françaises entre 1962 et 1968 suivent une loi normale de moyenne 14.1 et d'écart type 7.8? On a affaire ici à une série classée, on peut utiliser le test de Khi deux ou de Kolmogorov. 

Classe

ni

Classe

standardisée

F(Bi)

Fréq théorique fi'

Effectif théorique  ni'

(ni - ni')2/ni'

 

< 2.5

3

-2.12

0.017

0.17

0.833

5.637

 

2.5 - 8.5

9

-2.12, -0.71

0.238

0.221

10.829

0.309

 

8.5 - 14.5

17

-0.71, 0.051

0.519

0.281

13.769

0.758

 

14.5 - 20.5

12

0.051 - 0.82

0.793

0.274

13.426

0.1514

 

20.5 - 26.5

5

0.82 - 1.589

0.942

0.149

7.301

0.725

 

26.5 - 32.5

2

1.589 - 2.358

0.990

0.048

2.352

0.0526

 

32.5 - 38.5

1

2.358 - 3.128

0.999

0.009

0.441

0.7085

 

 

49

 

 

1

49

8.341

 

 - La première étape consiste à standardiser les bornes ou les centres de classes en utilisant m = 14,1 et s = 7,8.
- En second lieu, on détermine les fréquences cumulées à la borne supérieure F(Bi) et on lit les valeurs correspondantes dans la table de N(0, 1). A la valeur -2.12 on a 1 -0.983 = 0.017, à la valeur -0.71 on a 1 - 0.761 = 0.238 et à la valeur 0.051 on a 0.519...
- On calcule les fréquences simples théoriques qui sont égales à la différence des fréquences cumulées successives : 0.017, (0.238 - 0.017) = 0.221, (0.519 - 0.238) = 0.281...
- On détermine ensuite les effectifs théoriques ni' en multipliant par n: 0.017 x 49 = 0.833.
- On calcule la quantité D= SS(ni - ni')
2/ni' qui est égale à 8.341.
- Au degré de liberté v = k - 1, on a C
20.05 = 9.49 ce qui nous permet d'accepter l'hypothèse de travail: la distribution peut être ajustée par une loi normale de moyenne 14.1 et d'écart type 7.8: N(14.1, 7.8).

 2- Le test de Kolmogorov

             Il intéresse une variable continue avec une série courte. C'est un test qui s'applique aux fréquences cumulées ou Fonction de répartition (Gx), il utilise le plus grand écart, en valeur absolue, entre la valeur observée (Gobs) et celle calculée (Gc). Cet écart suit la loi de Kolmogorov-Smirnov au seuil a

Si | G obs - Gc | <  Ca  : les écarts sont dus au hasard.

            Les étapes de construction du test sont les suivantes :
a- L'hypothèse de travail est que les observations (x) suivent une loi x', d'où l'égalité des deux fréquences cumulées (
Gc = Gc'). Ho = x suit Loi x', d'où on a : Gx= Gx'
b- On mesure l'écart le plus élevé entre les deux fonctions de répartition. Cet écart suit la loi de Kolomogorov-Smirnov:   Max D = |
Gx  - Gx' |   suit Ca
 c- On choisit un seuil de décision
 et on lit la table de Kolomogorov-Smirnov: si Cobs < Ca : l'écart est dû au hasard, il n'est pas significatif, on accepte Ho: x suit la loi x' au seuil (1 - a). 

            Lorsque les observations sont standardisées, la distribution suit la loi normale qu'on utilise souvent pour l’approximation de la loi de Kolmogorov et de nombreuses autres lois de distributions.

                Le test de Kolmogorov conduit au même résultat. Il s'agit de standardiser les valeurs distinctes ordonnées et déterminer les fréquences théoriques dans la table normale: 0.5 donne (-0.5 - 14.1)/7.8 = -1.743 on lit sur la table 1 - (Fx) = 0.0409. On détermine les écarts à la fréquence inférieure (ni' - ni-1) et supérieur (ni' - ni): 0.0122 - 0 = 0.0122 et 0.0409 - 0.204 = 0.0205 d'un côté et 0.0122 - 0.024 = 0.0082 et  0.0409 - 0.0408 = 0.0001 de l'autre. Le fréquence observée croit chaque fois de 1/n. On détermine le plus grand écart D = 0.093 et on lit la Table de Kolmogorov au seuil de 95% pour obtenir C = 0.194 ce qui nous permet d'accepter l'hypothèse nulle. 

xi

ni

ni'

ni' - ni' -1

ni' - ni

 

-3.5

0.0204

0.0122

0.0122

0.0082

 

0.5

0.0408

0.0409

0.0205

0.0001

 

...

....

....

....

....

 

37.7

0.9991

0.9988

0.0202

0.0003

 

 Exemple: La distribution des villes selon la taille dans deux régions A et B est résumée dans le tableau suivant, peut-on dire que les villes de A sont de plus grande taille que B?.On a le choix ici de procéder au test de Khi-deux ou de Kolmogorov, c'est le second qu'on va utilise. 

A

60

52

40

38

-

32

24

20

19

-

-

14

-

-

-

10

 

B

-

52

-

-

36

-

-

-

-

18

16

14

13

12

11

-

 

F(A)

0.1

0.2

0.3

0.4

0.4

0.5

0.6

0.7

0.8

0.8

0.8

0.9

0.9

0.9

0.9

1

 

F(B)

0.0

0.125

0.125

0.125

0.25

0.25

0.25

0.25

0.25

0.375

0.5

0.625

0.75

0.875

1

1

 

FA - FB

0.1

0.075

0.175

0.275

0.15

0.25

0.35

0.45

0.55

0.425

0.3

0.275

0.15

0.025

-0.1

0

 

 L'hypothèse de travail est qu'il n' y a pas de différence entre les deux distributions. Sous cette hypothèse on détermine la fréquence cumulée ou fonction de répartition FA et Fb et la différence. La différence maximale |FA - FB| suit la loi de kolmogorov.  Dcalc = 0.550. Avec nA = 10 et nB = 8 et un risque d'erreur de 1% on a la valeur théorique D = 0.49 ce qui est plus faible que la valeur calculée, d'où on rejette l'hypothèse de travail, la différence est significative et les villes de A  sont plus grandes que celles de la région B au seuil de 99%.

On peut procéder au test d'indépendance de Khi-deux en regroupant les villes en classes (< 20 et > 20 par exemple) tout en apportant la correction de Yeates ou regrouper les classes si c'est nécessaire.
 

3- Exemple de tests d’ajustement

             Certaines lois sont très utilisées et des tests spécifiques ont été élaborés dont  la démarche suit le principe général exposé ci-dessus. On peut citer à titre d’exemple les tests de normalité et d’exponentialité.

             3.1- Le test de normalité

             L’hypothèse de travail est que les données xi suivent la loi normale N avec une moyenne m et un écart type s: Ho = xi suit la loi normale N(m, s).
            - On estime la moyenne (x
a = m) et l'écart-type s = (S(xi - xa)2/(n - 1))1/2.
            - On effectue ensuite le test de Kolmogorov C
a

------------------------------------------------------------------------------------
 Seuil de signification                         95%                           99%
-----------------------------------------------------------------------------------
(n1/2 + 0.85/n1/2 - 0.01) Ca >                0.895                     1.035      Rejet de Ho
Si n > 30 , on  a Da =                            1.36/n1/2                       1.63/n1/2
------------------------------------------------------------------------------------

             3.2- Le test d'exponentialité

             L’hypothèse de travail est que les données xi suivent la loi exponentielle avec une moyenne l . On formule ainsi l’hypothèse de base: Ho: xi suit une distribution exponentielle de paramètre l = m :  fx = Exp(-x/l) /l 

--------------------------------------------------------------------------------------
 Seuil      de signification                                    95%                           99%
--------------------------------------------------------------------------------------
(Ca- 0.2/n)(n1/2 + 0.26 + 0.5/n1/2) <              1.094                      1.308       Rejet de Ho
-------------------------------------------------------------------------------------

Exemple: La durée de vie du matériel est la suivante: 133, 169, 8, 122 et 58. Peu-on dire que la distribution suit la loi exponentielle?.  Sous cette hypothèse on a : l = m = Sxi/n = 98 et on peut donc écire : F(x) = 1 - e-x/98.  

xi

8

58

122

133

169

 

F(xi)

0.079

0.447

0.74