CORRELATION & REGRESSION SIMPLES DANS UN TABLEAUX
AUTRES FORMES DE CORRELATION
Amor BELHEDI,
FSHS, Université de Tunis
Les données ordinales et binaires Le taux d'autocorrélation, La corrélation dans un tableau Le Rapport de corrélation
Introduction Présenter & Décrire une variable Réduire & Résumer une distribution Notions et Distributions de Probabilités Corrélation & Régression linéaire simple Corrélation & Régression simples courbes Test de Khi-deux Corrélation dans un tableau Chroniques & Distributions temporelles Corrélation & Régression multiples Droites des Moindres Rectangles Analyse Factorielle Classification & Typologie Tests des hypothèses Sondages & Distributions d'échantillonnage Quelques Eléments de calcul matriciel Tables Statistiques Papiers Fonctionnels Bibliographie Sommaire
Si le coefficient de corrélation linéaire est le plus utilisé, il ne
s'applique cependant q'aux données quantitaives couplées où à chaque observation
correpond un couple de valeurs xi, yi. Il existe plusieurs autres coefficients
de corrélations très intéressants plus adaptées à certains types de données
comme les données ordinales
où les variables sont rangées selon un certain ordre, les données binaires où
les variables n'offrent que deux modalités qualitatives ou les tableaux croisés
qui sont souvent le fruit d'un pré-traitement et qu'on peut trouver dans
d'autres travaux ou documents.
On examinera dans ce chapitre le cas des données ordinales et binaires (les valeurs se trouvent rangées selon un ordre, l'une ou les deux variables sont binaires ), l'autocorrélation et les tableaux à double entrées.
I - LES DONNES ORDINALES ET BINAIRES
Très souvent, on se trouve devant des données rangées ou qui n'offrent que deux alternatives comme le sexe ou la présence d'une espèce végétale. Dans ces cas, le coefficient linéaire n'est pas opératoire et il faut faire appel à d'autres coefficients de corrélation.
1- Les données ordinales: le coefficient de corrélation des rangs ou le Rho de Spearman
Lorsque les données sont ordonnées, on utilise coefficient de corrélation des rangs ou le Rho de Spearman qui n'est autre que le coefficient de corrélation linéaire simple appliqué aux données rangées. Il s'écrit comme suit : r = 1 - 6 S(rxi - ryi)2 /n(n2 - 1)
Avec rxi et ryi sont les rangs respectifs de x et y, n: le nombre d'observations.
Evidemment l'utilisation du rang simplifie l'ordre des données et n'est utilisable que lorsque seulement le rang des observations compte ou lorsqu'on ne peut pas quantifier les données. Il s'agit d'ordonner les deux variables par ordre croissant en adoptant le même sens. En cas de rangs ex-aequo, on leur donne le rang moyen obtenu par les valeurs correspondantes (3.5 pour le 3ème et le 4ème rangs). Le nombre d'ex-aequo ne doit pas cependant dépasser 10% de l'effectif total.
Signification de la relation
Pour que la valeur observée de Rho soit significatiove, il faut qu'elle dépasse la valeur théorique de Rho, lue dans la table de Spearman au risque alpha et au degré de liberté v:
rcalc >= rthéorique rcalc >= r(a, n) : r est significatif, x et y sont liés au risque a.
La limite la plus importante, c'est qu'on ne peut pas identifier la forme de la relation entre les deux variables et calculer ses paramètres.
Exemple: En reprenant les données de la fécondité on va utiliser le Rho de Spearman.
|
Région
|
y observé Fécondité observée
|
x observé Planning observé
|
Rang de la Fécondité
|
Rang du Planning
|
Ecart des rangs
|
Carré des écarts
|
|
Tunis
|
133.1
|
39.3
|
7
|
1
|
6
|
36
|
|
Sfax
|
137.4
|
33.1
|
5
|
2
|
3
|
9
|
|
Sahel
|
148.1
|
28.2
|
3
|
5
|
-2
|
4
|
|
Nord-Est
|
137.3
|
32.6
|
6
|
3
|
3
|
9
|
|
Nord-Ouest
|
139.1
|
28.7
|
4
|
4
|
0
|
0
|
|
Centre-Ouest
|
192.8
|
11.4
|
1
|
7
|
-6
|
36
|
|
Sud
|
183.2
|
15.9
|
2
|
6
|
-4
|
16
|
La somme des carrés des écarts des rangs est de 110. r = 1 - 6 S(rxi - ryi)2 /n(n2 - 1). r = 1 -6.110/7(72 - 1) = -0.9642285714. L'examen de la Table de r de Spearman nous donne pour 7 observations et au seuil de 99% la valeur de 0.89 ce qui montre qu'il existe une relation hautement significative entre les deux variables.
Le calcul du coefficient de corrélation linéaire de Pearson nous donne la même expliquant 93% de la variance. La relation peut 'écrire F = -0.96423 PF + 7.857 et l'erreur-type est de 0.53.
Lorsque n dépasse 10 on peut utiliser d'autres lois d'approximation comme la loi de Student et la loi normale selon les formules suivantes (Cf. Chap 3, 12 & 13):
r ((n - 2)/(1- r2 ))1/2 suit la loi de Student
r(n - 1)1/2 suit la loiUa
2 - Une seule variable binaire : le coefficient bisérial de point
Lorsqu'on a une variable (y) binaire qui ne prend que deux alternatives (sain et malade, noir et blanc, maâle et femelle, des valeurs 0 et 1...) tandis que la seconde variable x est quantitative, on utilise le coefficient bisérial de point. On divise les données en deux groupes selon la variable binaire y (0, 1): le groupe 1 où y est égal à 0 par exemple, il a un effectif n1 et une moyenne xa1 (n1, x1); le groupe 2 où y est égal à 1 par exemple et caractérisé par un effectif n2 et une moyenne xa2. Pour y = 0 on a n1 et x1 et pour y = 1 on a n2 et x2 et n = n1 + n2. Le Coefficient bisérial de point s'écrit comme suit :
r = (xa2 - xa1)(n1.n2)1/2/nsx
La signification du coefficient peut être testée par la Table de Bravais Pearson de la corrélation linéaire mais là aussi on ne peut pas procéder à la régression.
Exemple: Soit deux types de sol: de bons sols (1) et des sols halomorphes (0) dont a mesuré les rendements. Y'a-t-il une relation entre le rendement et la nature des sols ?
|
|
X1
|
Y1
|
X2
|
Y2
|
|
x
|
y
|
|
|
20
|
1
|
10
|
0
|
Moyenne
|
15
|
0.5
|
|
|
15
|
1
|
12
|
0
|
Ecart type
|
4.8477
|
0.25
|
|
|
10
|
1
|
13
|
0
|
|
|
|
|
|
25
|
1
|
15
|
0
|
|
|
|
|
Effectif
|
4
|
4
|
4
|
4
|
|
|
|
|
Moyenne
|
17.5
|
1
|
12.5
|
0
|
|
|
|
On a: r = (17.5 - 12.5)(4*4)1/2/8*4.847679857 = 5*4/8*4.847679857 = 20/38.78 = 0.5157162469. Le coefficient est de 0.515, l'examen du tableau de r montre la valeur n'est pas significatives. Autrement 'halomorphie n'influence pas le rendement du sol dans ce cas. Le calcul du coefficient linéaire de Pearson donne une valeur de 1.03 ce qui n'a pas de sens.
Exemple: On a les données suivantes et on se propose de calculer le coefficient sérial de point, il est égal à: (-40.3) / 6.21,602 = -0.926.
|
|
X1
|
Y1
|
X2
|
Y2
|
|
x
|
y
|
|
|
10
|
1
|
-10
|
0
|
Moyenne
|
0
|
0.5
|
|
|
20
|
1
|
-20
|
0
|
Ecart type
|
21.602
|
0.5
|
|
|
30
|
1
|
-30
|
0
|
|
|
|
|
Effectif
|
3
|
3
|
3
|
3
|
|
|
|
|
Moyenne
|
20
|
1
|
-20
|
0
|
|
|
|
3 - Deux variables binaires: le coefficient de point, Phi j
Lorsqu'on a affaire à deux variables binaires (x1= 0, x2 = 1, y1= 0 et y2 = 1) on utilise le coefficient de point ou Phi (j). Le tableau suivant permet de visualiser les différents éléments avec nij: l'effectif de la case ij, i: ligne et j: colonne, n: l'effectif global, n.i: le total de la ligne i et n.j: le total de la colonne j.
|
x \ y
|
Oui
|
Non
|
Total
|
|
Oui
|
n11 a
|
n12 b
|
n1. a+b
|
|
Non
|
n21 c
|
n22 d
|
n2. c+d
|
|
Total
|
n.1 a+c
|
n.2 b+d
|
n
|
Le coefficient de point Phi est le rapport entre la différence des produits extrêmes-moyens et la racine carrée du produit des lignes et des colonnes. Il s'écrit de deux manières comme suit[1]: j = (n11 n22 - n12 n21)/(n1.n2.n.1n.2)1/2 ou j = (ad - bc)/((a + b)(c + d)(a + c)(b + d))1/2
Exemple: La prévision météorologique pour le lendemain a donné, pour 215 jours dans une station , le résultat suivant. Y'a-t-il un lien entre les prévisions et la réalité?. Autrement, les observations sont -elles liées aux prévisions. D'une autre manière, les prévisions sont-elles correctes?
|
|
Ciel peu nuageux 1
|
Ciel couvert 0
|
Total
|
|
Ciel peu nuageux 1
|
17
|
9
|
26
|
|
Ciel couvert 0
|
13
|
174
|
187
|
|
Total
|
30
|
183
|
213
|
j = (17*174 - 9*13)/(26*187*30*183)1/2 = 2841/5166.466 = 0.54989.
On l'utilise lorsqu'on a à mesurer la corrélation entre une distribution globale d'une variable x et celle d'un sous-groupe r qui répond à un critère donné avec une dichotomisation vraie, c'est à dire que la dichotomisation s'opère sur une base interne comme la réponse à une question donnée (oui/non) et le résultat global à l'ensemble des questions par exemple..
Soit xr: la moyenne du groupe r, xa: la moyenne globale, s: l'écart-type global, p: proportion du groupe r dans l'ensemble, q = 1 - p. On a la relation suivante pour le coefficient point bissérial:
Rpb = ((xr - xa)/s)(p/q)1/2.
On peut aussi utiliser le test de Student pour vérifier la signification de la corrélation avec t = (rpb(n - 2)1/2)/(1 - rpb2)1/2 >= ta, n-2.
Exemple: Un test de 10 questions binaires a été appliqué à 100 étudiants. On peut comparer le résultat obtesur une question donnée Q1 à laquelle 60 ont répondu correctement et le résultat global de l'ensemble des questions. xr: représente la moyenne du groupe qui répond correctement à la question, x: la moyenne globale des 100 étudiants, s: l'écart-type global et p: la proportion de ceux qui ont répondu correctement, soit 0.6 et q = 1 - 0.6 = 0.4. Le degré de liberté de T est n - 2, soit 98.
Il est utililisé lorsque la dichotomisation est forcée (fausse dichotomie), c'est à dire qu'une des variables, continue, se trouve dichotomisée sur la base d'un critère externe à la variable comme le résultat de fin d'année par exemple.
rb = ((xr - x)/s)(p/y) où y est l'ordonnée réduite qui correspond à une aire égale à p, par exemple 0.3989 pour une loi normale avec 50%.
Le coefficient a un écart-type de srb = (pq/y)1/2 - rb2)n1/2. La signification de la corrélation bissériale est mesurée par la quantité t = rb/srb >= ta.
Il intéresse un tableau dichotomique 2x2 et s'écrit f = (n11.n22)/(n11.n12.n21.n22)1/2.
Pour v = 1, on a f2 = nc2.
3- Le tau de Kendall t
Le tau de Kendall s'appuie sur le rang des valeurs combinées des différentes observations. On peut utiliser deux méthodes de calcul du