Amor BELHEDI, FSHS, Université de Tunis
Construction du Test Types de tests Les Tests d'Ajustement Les Tests d'indépendance Le Test de Khi-Deux Le Test de Kolmogorov-Smirnov Les tests de Conformité Les Tests d'Homogénéité Le test d'Egalité Autres tests d'hypothèses
Introduction Présenter & Décrire une variable Réduire & Résumer une distribution Notions et Distributions de Probabilités Corrélation & Régression linéaire simple Corrélation & Régression simples courbes Test de Khi-deux Corrélation dans un tableau Chroniques & Distributions temporelles Corrélation & Régression multiples Droites des Moindres Rectangles Analyse Factorielle Classification & Typologie Tests des hypothèses Sondages & Distributions d'échantillonnage Quelques Eléments de calcul matriciel Tables Statistiques Papiers Fonctionnels Bibliographie Sommaire
Dans la réalité, toute mesure aussi simple soit-elle se trouve entachée d’erreur qu’on commet en mesurant le même phénomène. C’est ainsi qu’en mesurant la longueur d’une vitre cassée on se trouve souvent amenée à prendre les mesures à plusieurs reprises et on n’est pas toujours sûr de prendre les bonnes. Par ailleurs, à part les analyses exhaustives, toutes étude menée à partir d’un échantillon se trouve toujours entachée d’erreur. En comparant deux quantités, on commet souvent des erreurs et on risque de tirer une conclusion fausse. La statistique se fonde sur l’erreur qu’il convient de limiter d’un côté, de mesurer de l’autre.
Très souvent, les valeurs observées dans un échantillon tendent à converger vers la valeur réelle des paramètres de la population d'origine sur la base de la loi des grands nombres qui constitue le fondement de l'échantillonnage et des sondages. Ces paramètres observés constituent de véritables variables aléatoires qui tendent à suivre une certaine loi donnée, ce sont les lois de distribution d'échantillonnage.
La connaissance de ces lois nous permet de tester les hypothèses de travail pour pouvoir les infirmer ou les confirmer surtout dans les cas où les données sont très proches et peu nuancées. Il existe autant de types de tests d'hypothèses que de catégories de problèmes posés.
Il s'agit de voir dans quelle mesure une distribution observée sui une loi ou un modèle quelconque? On peut chercher à voir si deux variables sont indépendantes ou dans quelle mesure le coefficient de corrélation obtenu est-il différent de zéro (test de Pearson) ou de son erreur-type? On peut aussi chercher à vérifier dans quelle mesure la moyenne obtenue d'une enquête, est-elle réellement différente de celle obtenue pour une autre?...
On peut aussi comparer une valeur d'un échantillon à un paramètre de la population d'origine, comparer les paramètres de deux échantillons ou plus pour voir s'ils ont été tirés de la même population,...
1 - CONSTRUCTION DU TEST
La construction d'un test d'une hypothèse passe par plusieurs étapes selon la nature du test lui-même.
1 - Les étapes de construction d'un test
Quelque soit la nature du test, sa construction suit toujours un certain nombre d'étapes qu'on peut résumer comme suit:
a - Définir l'hypothèse de travail appelée aussi l'hypothèse nulle (Ho): Il s'agit de définir et préciser l'hypothèse qu'on va tester et vérifier; par exemple, la distribution des taux de croissance des villes suit-elle une loi normale, le niveau du chômage est-il réellement plus élevé à Tunis?
b - Calculer les valeurs théoriques sous cette hypothèse de travail définie précedemment: si on cherche à tester la normalité d'une distribution, on doit calculer les valeurs théoriques dans le cas d'une distribution normale.
c - L'écart entre les deux valeurs observées et théoriques suit une loi définie (L) selon le type d'écart et indépendamment de la loi de distribution. Il dépend seulement du type de paramètre utilisé pour le définir: pour la fréquence, c'est la loi tiliser de Khi-Deux, pour la moyenne c'est la loi de Student... Il s'agit donc de calculer cet écart.
d - On adopte une procédure de
décision en choisissant un risque d'erreur (a
) ou un seuil de
signification (1-a)
au delà (en deça) duquel on rejette l'hypothèse Ho:
l'écart observé est significatif et il n'est pas dû au hasard, on adopte
l'hypothèse alternative (H1).
La différence peut être imputée au hasard jusqu'à une limite
supérieure (ou inférieure) donnée par les différentes tables statistiques (La).
Le paramètre
a
est le risque qu'on accepte de courir en tirant des conclusions. Il est souvent
inférieur à 10% mais le seuil le plus faible serait le meilleur. Le seuil de
signification est la probabilité pour que la conclusion soit correcte, c'est le
complément à l'unité pour
a.
Pour un risque
a =
0.05, la probabilité ou le seuil de
signification est de 0.95, soit 5% et 95% respectivement. En tirant une telle
conclusion, il y a un risque de 5% de se tromper.
Au seuil de 90%, le test est dit significatif, il est très
significatif à 95% et hautement significatif à plus de 99%.
D => La :
L'écart est significatif et ne peut pas être dû au hasard. On rejette Ho.
D < La
: L'écart n'est pas
significatif, il est dû au hasard. On adopte Ho

P(E < La) = 1- a P(E => La) = a
L'hypothèse
alternative peut être de trois formes dans le cas des tests d'égalité :
- Test unilatéral: il s'agit de voir si
x > xo : Région critique à droite
x < xo : Région critique à gauche
- Test bilatéral : x différent de xo : la région critique est symétrique de
part et d'autre

X > xo X < xo x différent de xo
2 -
Les types de test
On peut distinguer
deux types de tests selon qu'ils supposent certaines conditions ou non à la
population concernée: les tests paramétriques et les tests non paramétriques.
a- Les tests paramétriques: Ce sont des tests qui supposent certaines
conditions dans la distribution de la population comme la normalité de la
population, l'indépendance des observations, la continuité de la variable... On
peut citer les tests de regression, les tests d'ajustement et de modèle de
distribution, les tests de conformité, les tests d'homogénéité et les tests
d'égalité....
b- Les tests non paramétriques: Ce sont des tests qui n'exigent pas de conditions particulières à la distribution de la population. La distribution d'échantillonnage est indépendante de celle de la population. On peut citer le test Khi-deux ou de Kolmogorov-Smirnov....
II – LES TEST D’AJUSTEMENT
On peut utiliser deux
tests pour voir si le modèle adopté est satisfaisant ou si les données suivent
une distribution donnée:
- le test de Khi-Deux (c2)
- et le test de Kolmogorov-Smirnov (C).
1 - Le test de Khi-Deux (c2 )
Le test de Khi-deux s'applique aux fréquences des variables continues. On peut se demander si le modèle adopté est valable, autrement dit dans quelle mesure les résidus sont dus au hasard?.
1.1- Principe du test
Le test de Khi-deux nous permet de voir dans quelle mesure les différences observées entre le modèle adopté et le modèle théorique sont dues au hasard, sont non significatives d’une différence qualitative de modèle ou de loi de distribution et que les données suivent bien tel modèle ou telle loi , autrement les écarts enregistrés sont aléatoires.
La différence entre les
effectifs observés et les effectifs théoriques suit la loi de Khi2 à
n-2 ddl. On peut écrire comme suit:
c2calc =
S
(Yo -Yc)2/Yc
avec Yo : les valeurs observées, Yc : les valeurs calculées.
Si c2calc < c2a, n -2 : le modèle adopté est satisfaisant et les écarts sont dus au hazard,
avec a : le risque d’erreur, n: le nombre d’observations
On peut
utiliser le test de Khi-deux dans deux cas: soit pour comparer une distribution
réelle et empirique à une distribution théorique, soit pour comparer aussi deux
distributions entre elles. Dans les deux cas, il s’agit de voir dans quelle
mesure les différences enregistrées sont-elles dues au hasard.
1.2- Les étapes de construction du test
Les étapes de construction du test sont identiques à celles décrites ci dessus selon la démarche globale de la construction des tests:
a- On formule l'hypothèse de travail ou de base (Ho): les données observées x suivent une loi donnée x'. La formulation d’une telle hypothèse suppose la connaissance préalable de certaines lois de probabilités.
b- On calcule, sous cette hypothèse nulle, les valeurs théoriques (n'i ou n'ij) en fonction des paramètres de la loi de distribution indiquée comme la loi normale ou la loi exponentielle par exemple (cf. le chapitre des probabilités).
c- On détermine l'écart entre les fréquences observées (ni ou nij) et théoriques (ni' ou n'ij). La somme des carrés des écarts suit une loi Khi-deux à (v) degrés de liberté: D = SS (ni - n'i)2/n'i
ou D = = SS (Yobs – Ycalc)2/Ycalc selon le type de test.
d- On détermine le degré de liberté. Le degré de liberté (ddl ou v) est le nombre de fois qu’on peut choisir les éléments d’un système déterminé (dont on connait le nombre total des éléments et la somme des valeurs par exemple). Le degré de liberté est égal à v = n -1 en cas d’un seul caractère et v = (k1 -1)(k2 - 1) dans le cas de deux caractères combinés sous la forme d’un tableau ou v = (c - 1)(l - 1) avec l: le nombre de lignes c: le nombre de colonnes. Dans le cas d'une estimation de paramètres à partir d'un échantillon, il faut retrancher en plus (p) qui représente le nombre des paramètres estimés.
Exemple: Dans un groupe de 4 éléments dont on sait que la somme des valeurs est de 60 par exemple, on peut choisir librement le premier élément (20 par exemple mais on pourrait choisir 15 ou 35…), le second (10), le troisième (20 ou 40 si on admet les valeurs négatives). Dans ce cas, le dernier élément du système concerné ne peut plus être choisi, il est surdéterminé et sa valeur ne peut être que 10 ou –10 selon le choix effectué ci-dessus pour le 3ème élément.
De la même manière, dans un tableau combinant deux variables par exemple, les éléments de la dernière ligne et de la dernière colonne nepeuvent pas être choisis, d’où on a un degré de libertés ddl ou v = (l-1)(c-1) où l: le nombre de lignes et c: le nombre de colonnes. Dans un tableau à 3 lignes et 4 colonnes, on peut choisir les valeurs de toutes les cases à part celles de la dernière ligne et colonne, c’est à dire on peut choisir (3-1)(4-1) = 6 éléments, les 6 éléments restants se trouvent surdéterminés automatiquement.
e- On fixe un seuil de signification et de décision et on lit la table de Khi-deux c2 : Cette table nous donne les limites supérieures dues au hasard pour un degré de libertés donné. Plus la distribution est proche du modèle choisi, plus les écarts sont minimes et se trouvent imputés au hasard. Plus les différences sont élevées, plus elles ont de chance d’exprimer une différence réelle entre la distribution empirique et la distribution théorique à tel point qu’on ne peut pas dire que les données suivent cette loi. Pour pouvoir décider si ces écarts sont significatifs ou non, on utilise la table de Khi-deux qui nous donne les seuils limites à ne pas dépasser pour que les écarts soient imputés au hasard:
Si c2 calc <= c2 a,n : le modèle adopté est satisfaisant, les écarts sont dus au hasard
La valeur alpha (a) est celle du risque de se tromper qu’on accepte volontiers en tirant la conclusion que la distribultion D suit la loi L. De préférence, on choisit toujours le risque le plus faible (1 ou 2%), si non un peu plus élevé (5%), si non 10% limite qu’on ne dépasse pas pour ce genre de test dans la mesure où on sait d’avance qu’on va se tromper plus d’une fois sur dix, ce qui est inacceptable.
Exemple: Peut-on dire que les données suivantes relatives aux taux de croissance des villes françaises entre 1962 et 1968 suivent une loi normale de moyenne 14.1 et d'écart type 7.8? On a affaire ici à une série classée, on peut utiliser le test de Khi deux ou de Kolmogorov.
|
Classe |
ni |
Classe standardisée |
F(Bi) |
Fréq théorique fi' |
Effectif théorique ni' |
(ni - ni')2/ni' |
|
< 2.5 |
3 |
-2.12 |
0.017 |
0.17 |
0.833 |
5.637 |
|
2.5 - 8.5 |
9 |
-2.12, -0.71 |
0.238 |
0.221 |
10.829 |
0.309 |
|
8.5 - 14.5 |
17 |
-0.71, 0.051 |
0.519 |
0.281 |
13.769 |
0.758 |
|
14.5 - 20.5 |
12 |
0.051 - 0.82 |
0.793 |
0.274 |
13.426 |
0.1514 |
|
20.5 - 26.5 |
5 |
0.82 - 1.589 |
0.942 |
0.149 |
7.301 |
0.725 |
|
26.5 - 32.5 |
2 |
1.589 - 2.358 |
0.990 |
0.048 |
2.352 |
0.0526 |
|
32.5 - 38.5 |
1 |
2.358 - 3.128 |
0.999 |
0.009 |
0.441 |
0.7085 |
|
|
49 |
|
|
1 |
49 |
8.341 |
- La
première étape consiste à standardiser les bornes ou les centres de classes en
utilisant m = 14,1 et s =
7,8.
- En second lieu, on détermine les fréquences cumulées à la borne supérieure
F(Bi) et on lit les valeurs correspondantes dans la table de N(0, 1). A la
valeur -2.12 on a 1 -0.983 = 0.017, à la valeur -0.71 on a 1 - 0.761 = 0.238 et
à la valeur 0.051 on a 0.519...
- On calcule les fréquences simples théoriques qui sont égales à la
différence des fréquences cumulées successives : 0.017, (0.238 - 0.017) = 0.221,
(0.519 - 0.238) = 0.281...
- On détermine ensuite les effectifs théoriques ni' en multipliant par n: 0.017
x 49 = 0.833.
- On calcule la quantité D= SS(ni - ni')2/ni'
qui est égale à 8.341.
- Au degré de liberté v = k - 1, on a C20.05 =
9.49 ce qui nous permet d'accepter l'hypothèse de travail: la distribution peut
être ajustée par une loi normale de moyenne 14.1 et d'écart type 7.8: N(14.1,
7.8).
2- Le test de Kolmogorov
Il intéresse une variable continue avec une série courte. C'est un test qui s'applique aux fréquences cumulées ou Fonction de répartition (Gx), il utilise le plus grand écart, en valeur absolue, entre la valeur observée (Gobs) et celle calculée (Gc). Cet écart suit la loi de Kolmogorov-Smirnov au seuil a
Si | G obs - Gc | < Ca : les écarts sont dus au hasard.
Les étapes de
construction du test sont les suivantes :
a- L'hypothèse de travail est que les observations (x) suivent une loi x', d'où
l'égalité des deux fréquences cumulées (Gc =
Gc').
Ho = x suit Loi x', d'où on a :
Gx= Gx'
b- On mesure l'écart le plus élevé entre les deux fonctions de répartition. Cet
écart suit la loi de Kolomogorov-Smirnov: Max D = |
Gx
- Gx'
| suit Ca
c- On choisit un seuil de décision
et
on lit la table de Kolomogorov-Smirnov: si Cobs <
Ca :
l'écart est dû au hasard, il n'est pas significatif, on accepte Ho:
x suit la loi x' au seuil (1 -
a).
Lorsque les observations sont standardisées, la distribution suit la loi normale qu'on utilise souvent pour l’approximation de la loi de Kolmogorov et de nombreuses autres lois de distributions.
Le test de Kolmogorov conduit au même résultat. Il s'agit de standardiser les valeurs distinctes ordonnées et déterminer les fréquences théoriques dans la table normale: 0.5 donne (-0.5 - 14.1)/7.8 = -1.743 on lit sur la table 1 - (Fx) = 0.0409. On détermine les écarts à la fréquence inférieure (ni' - ni-1) et supérieur (ni' - ni): 0.0122 - 0 = 0.0122 et 0.0409 - 0.204 = 0.0205 d'un côté et 0.0122 - 0.024 = 0.0082 et 0.0409 - 0.0408 = 0.0001 de l'autre. Le fréquence observée croit chaque fois de 1/n. On détermine le plus grand écart D = 0.093 et on lit la Table de Kolmogorov au seuil de 95% pour obtenir C = 0.194 ce qui nous permet d'accepter l'hypothèse nulle.
|
xi |
ni |
ni' |
ni' - ni' -1 |
ni' - ni |
|
-3.5 |
0.0204 |
0.0122 |
0.0122 |
0.0082 |
|
0.5 |
0.0408 |
0.0409 |
0.0205 |
0.0001 |
|
... |
.... |
.... |
.... |
.... |
|
37.7 |
0.9991 |
0.9988 |
0.0202 |
0.0003 |
Exemple: La distribution des villes selon la taille dans deux régions A et B est résumée dans le tableau suivant, peut-on dire que les villes de A sont de plus grande taille que B?.On a le choix ici de procéder au test de Khi-deux ou de Kolmogorov, c'est le second qu'on va utilise.
|
A |
60 |
52 |
40 |
38 |
- |
32 |
24 |
20 |
19 |
- |
- |
14 |
- |
- |
- |
10 |
|
B |
- |
52 |
- |
- |
36 |
- |
- |
- |
- |
18 |
16 |
14 |
13 |
12 |
11 |
- |
|
F(A) |
0.1 |
0.2 |
0.3 |
0.4 |
0.4 |
0.5 |
0.6 |
0.7 |
0.8 |
0.8 |
0.8 |
0.9 |
0.9 |
0.9 |
0.9 |
1 |
|
F(B) |
0.0 |
0.125 |
0.125 |
0.125 |
0.25 |
0.25 |
0.25 |
0.25 |
0.25 |
0.375 |
0.5 |
0.625 |
0.75 |
0.875 |
1 |
1 |
|
FA - FB |
0.1 |
0.075 |
0.175 |
0.275 |
0.15 |
0.25 |
0.35 |
0.45 |
0.55 |
0.425 |
0.3 |
0.275 |
0.15 |
0.025 |
-0.1 |
0 |
L'hypothèse de travail est qu'il n' y a pas de différence entre les deux distributions. Sous cette hypothèse on détermine la fréquence cumulée ou fonction de répartition FA et Fb et la différence. La différence maximale |FA - FB| suit la loi de kolmogorov. Dcalc = 0.550. Avec nA = 10 et nB = 8 et un risque d'erreur de 1% on a la valeur théorique D = 0.49 ce qui est plus faible que la valeur calculée, d'où on rejette l'hypothèse de travail, la différence est significative et les villes de A sont plus grandes que celles de la région B au seuil de 99%.
On
peut procéder au test d'indépendance de Khi-deux en regroupant les villes en
classes (< 20 et > 20 par exemple) tout en apportant la correction de Yeates ou
regrouper les classes si c'est nécessaire.
3- Exemple de tests d’ajustement
Certaines lois sont très utilisées et des tests spécifiques ont été élaborés dont la démarche suit le principe général exposé ci-dessus. On peut citer à titre d’exemple les tests de normalité et d’exponentialité.
3.1- Le test de normalité
L’hypothèse de travail
est que les données xi suivent la loi normale N avec une moyenne m et un écart
type s: Ho = xi suit la loi normale N(m, s).
- On estime la moyenne (xa =
m) et l'écart-type s = (S(xi
- xa)2/(n
- 1))1/2.
- On effectue ensuite le test de Kolmogorov Ca
------------------------------------------------------------------------------------
Seuil de signification 95%
99%
-----------------------------------------------------------------------------------
(n1/2 +
0.85/n1/2 -
0.01) Ca > 0.895
1.035 Rejet de Ho
Si n > 30 , on a Da =
1.36/n1/2
1.63/n1/2
------------------------------------------------------------------------------------
3.2- Le test d'exponentialité
L’hypothèse de travail est que les données xi suivent la loi exponentielle avec une moyenne l . On formule ainsi l’hypothèse de base: Ho: xi suit une distribution exponentielle de paramètre l = m : fx = Exp(-x/l) /l
--------------------------------------------------------------------------------------
Seuil de signification
95% 99%
--------------------------------------------------------------------------------------
(Ca- 0.2/n)(n1/2 + 0.26 + 0.5/n1/2) <
1.094 1.308 Rejet de Ho
-------------------------------------------------------------------------------------
Exemple: La durée de vie du matériel est la suivante: 133, 169, 8, 122 et 58. Peu-on dire que la distribution suit la loi exponentielle?. Sous cette hypothèse on a : l = m = Sxi/n = 98 et on peut donc écire : F(x) = 1 - e-x/98.
|
xi |
8 |
58 |
122 |
133 |
169 |
|
F(xi) |
0.079 |
0.447 |
0.74 |