Home           Nous écrire                  Liens Utiles           Votre Opinion            Fin de Page
 

         CORRELATION & REGRESSION SIMPLES DANS UN TABLEAUX

                                 AUTRES FORMES DE CORRELATION 

                                                                                                   
 
Amor BELHEDI, FSHS, Université de Tunis


Les données ordinales et binaires   Le taux  d'autocorrélation,   La corrélation dans un tableau  Le Rapport de corrélation


 Introduction  Présenter & Décrire une variable  Réduire & Résumer une distribution  Notions et Distributions de Probabilités   Corrélation & Régression linéaire simple  Corrélation & Régression simples courbes  Test de Khi-deux   Corrélation dans un tableau  Chroniques & Distributions temporelles   Corrélation & Régression multiples   Droites des Moindres Rectangles   Analyse Factorielle   Classification & Typologie  Tests des hypothèses  Sondages & Distributions d'échantillonnage  Quelques Eléments de calcul matriciel  Tables Statistiques   Papiers Fonctionnels   Bibliographie Sommaire  

 


            Si le coefficient de corrélation linéaire est le plus utilisé, il ne s'applique cependant q'aux données quantitaives couplées où à chaque observation correpond un couple de valeurs xi, yi. Il existe plusieurs autres coefficients de corrélations très intéressants  plus adaptées à certains types de données
comme les données ordinales où les variables sont rangées selon un certain ordre, les données binaires où les variables n'offrent que deux modalités qualitatives ou les tableaux croisés qui sont souvent le fruit d'un pré-traitement et qu'on peut trouver dans d'autres travaux ou documents.

            On examinera dans ce chapitre le cas des données ordinales et binaires (les valeurs se trouvent rangées selon un ordre, l'une ou les deux variables sont binaires ), l'autocorrélation et les tableaux à double entrées.

 

 

I - LES DONNES ORDINALES ET BINAIRES

           

            Très souvent, on se trouve devant des données rangées ou qui n'offrent que deux alternatives comme le sexe ou la présence d'une espèce végétale. Dans ces  cas, le coefficient linéaire n'est pas opératoire et il faut faire appel à d'autres coefficients de corrélation.

 

1- Les données ordinales: le coefficient de corrélation des rangs ou le Rho de Spearman

 

            Lorsque les données sont ordonnées, on utilise coefficient de corrélation des rangs ou le Rho de Spearman qui n'est autre que le coefficient de corrélation linéaire simple  appliqué aux données rangées. Il s'écrit comme suit : r = 1 - 6 S(rxi - ryi)2 /n(n2 - 1)

Avec rxi et ryi sont les rangs respectifs de x et y, n: le nombre d'observations.

           

            Evidemment l'utilisation du rang simplifie l'ordre des données et n'est utilisable que lorsque seulement le rang des observations compte ou lorsqu'on ne peut pas quantifier les données. Il s'agit d'ordonner les deux variables par ordre croissant en adoptant le même sens. En cas de rangs ex-aequo, on leur donne le rang moyen obtenu par les valeurs correspondantes (3.5 pour le 3ème et le 4ème rangs). Le nombre d'ex-aequo ne doit pas cependant dépasser  10% de l'effectif total.

 

Signification de la relation

            Pour que la valeur observée de Rho soit significatiove, il faut qu'elle dépasse  la valeur théorique de Rho, lue dans la table de Spearman au risque alpha et au degré de liberté v:

 rcalc >= rthéorique  rcalc  >= r(a, n)  : r est significatif, x et y sont liés au risque a.

            La limite la plus importante, c'est qu'on ne peut pas identifier la forme de la relation entre les deux variables et calculer ses paramètres.

 

Exemple: En reprenant les données de la fécondité on va utiliser le Rho de Spearman.

 

Région

 

y observé

Fécondité observée

 

x observé

Planning observé

 

Rang de la Fécondité

 

Rang du Planning

 

Ecart des rangs

 

Carré des écarts

 

 

Tunis

 

133.1

 

39.3

 

7

 

1

 

6

 

36

 

 

Sfax

 

137.4

 

33.1

 

5

 

2

 

3

 

9

 

 

Sahel

 

148.1

 

28.2

 

3

 

5

 

-2

 

4

 

 

Nord-Est

 

137.3

 

32.6

 

6

 

3

 

3

 

9

 

 

Nord-Ouest

 

139.1

 

28.7

 

4

 

4

 

0

 

0

 

 

Centre-Ouest

 

192.8

 

11.4

 

1

 

7

 

-6

 

36

 

 

Sud

 

183.2

 

15.9

 

2

 

6

 

-4

 

16

 

 

 

                  La somme des carrés des écarts des rangs est de 110. r = 1 - 6 S(rxi - ryi)2 /n(n2 - 1).  r  = 1 -6.110/7(72 - 1) = -0.9642285714. L'examen de la Table de r de Spearman nous donne pour 7 observations et au seuil de 99% la valeur de 0.89 ce qui montre qu'il existe une relation hautement significative entre les deux variables.

                Le calcul du coefficient de corrélation linéaire de Pearson nous donne la même expliquant 93% de la variance. La relation peut 'écrire F = -0.96423 PF + 7.857 et l'erreur-type est de 0.53.

 

            Lorsque n dépasse 10 on peut utiliser d'autres lois d'approximation comme la loi de Student et la loi normale selon les formules suivantes (Cf. Chap 3, 12 & 13):

            r ((n - 2)/(1- r2 ))1/2   suit la loi de Student

            r(n - 1)1/2                                suit la loiUa

 

2 - Une seule variable binaire : le coefficient bisérial de point

 

            Lorsqu'on a une variable (y) binaire qui ne prend que deux  alternatives (sain et malade, noir et blanc, maâle et femelle, des valeurs 0 et 1...) tandis que la seconde variable x est quantitative, on utilise le coefficient bisérial de point. On divise les données en deux groupes selon la variable binaire y (0, 1): le groupe 1 où y est égal à 0 par exemple, il a un effectif n1 et une moyenne xa1 (n1, x1); le groupe 2 où y est égal à 1 par exemple et caractérisé par un effectif n2 et une moyenne xa2. Pour y = 0 on a n1 et x1  et pour  y = 1 on a  n2 et x2 et n = n1 + n2. Le Coefficient bisérial de point s'écrit comme suit :

r = (xa2 - xa1)(n1.n2)1/2/nsx

 

            La signification du coefficient peut être testée par la Table de Bravais Pearson de la corrélation linéaire mais là aussi on ne peut pas procéder à la régression.

 

Exemple: Soit  deux types de sol: de bons sols (1) et des sols halomorphes (0) dont a mesuré les rendements. Y'a-t-il une relation entre le rendement et la nature des sols ?

 

 

 

X1

 

Y1

 

X2

 

Y2

 

 

 

x

 

y

 

 

 

 

20

 

1

 

10

 

0

 

Moyenne

 

15

 

0.5

 

 

 

 

15

 

1

 

12

 

0

 

Ecart type

 

4.8477

 

0.25

 

 

 

 

10

 

1

 

13

 

0

 

 

 

 

 

 

 

 

 

 

25

 

1

 

15

 

0

 

 

 

 

 

 

 

 

Effectif

 

4

 

4

 

4

 

4

 

 

 

 

 

 

 

 

Moyenne

 

17.5

 

1

 

12.5

 

0

 

 

 

 

 

 

 

 

 

                On a: r = (17.5 - 12.5)(4*4)1/2/8*4.847679857 = 5*4/8*4.847679857 = 20/38.78 = 0.5157162469. Le coefficient est de 0.515, l'examen du tableau de r montre la valeur n'est pas significatives. Autrement 'halomorphie n'influence pas le rendement du sol dans ce cas. Le calcul du coefficient linéaire de Pearson  donne une valeur de 1.03 ce qui n'a pas de sens.

 

Exemple:  On a les données suivantes et on se propose de calculer le coefficient sérial de point, il est égal à: (-40.3) / 6.21,602 = -0.926.

 

 

 

X1

 

Y1

 

X2

 

Y2

 

 

 

x

 

y

 

 

 

 

10

 

1

 

-10

 

0

 

Moyenne

 

0

 

0.5

 

 

 

 

20

 

1

 

-20

 

0

 

Ecart type

 

21.602

 

0.5

 

 

 

 

30

 

1

 

-30

 

0

 

 

 

 

 

 

 

 

Effectif

 

3

 

3

 

3

 

3

 

 

 

 

 

 

 

 

Moyenne

 

20

 

1

 

-20

 

0

 

 

 

 

 

 

 

 

 

3 - Deux variables binaires: le coefficient de point, Phi j

 

            Lorsqu'on a affaire à deux variables binaires (x1= 0, x2 = 1,  y1= 0 et y2 = 1) on utilise le coefficient de point ou Phi (j). Le tableau suivant permet de visualiser les différents éléments avec nij: l'effectif de la case ij, i: ligne et j: colonne, n: l'effectif global, n.i: le total de la ligne i et n.j: le total de la colonne j.

 

x    \      y

 

Oui

 

Non

 

Total

 

 

Oui

 

n11            a

 

n12          b

 

n1.           a+b

 

 

Non

 

n21       c 

 

n22          d

 

n2.            c+d

 

 

Total

 

n.1      a+c

 

n.2          b+d

 

n

 

 

 

            Le coefficient de point Phi est le rapport entre la différence des produits extrêmes-moyens et la racine carrée du produit des lignes et des colonnes. Il s'écrit  de deux manières comme suit[1]: j = (n11 n22 - n12 n21)/(n1.n2.n.1n.2)1/2  ou  j = (ad - bc)/((a + b)(c + d)(a + c)(b + d))1/2

 

Exemple: La prévision météorologique pour le lendemain a donné, pour 215 jours dans une station , le résultat suivant. Y'a-t-il un lien entre les prévisions et la réalité?. Autrement, les observations sont -elles liées aux prévisions. D'une autre manière, les prévisions sont-elles correctes?

 

 

 

Ciel peu nuageux  1

 

Ciel couvert    0

 

Total

 

 

Ciel peu nuageux  1

 

17

 

9

 

26

 

 

Ciel couvert          0

 

13

 

174

 

187

 

 

Total

 

30

 

183

 

213

 

 

 

j = (17*174 - 9*13)/(26*187*30*183)1/2 = 2841/5166.466 = 0.54989.

 

Le coefficient point  bissérial : rpb

 

            On l'utilise lorsqu'on a à mesurer la corrélation entre une distribution globale d'une variable x et celle d'un sous-groupe r qui répond à un critère donné avec une dichotomisation vraie, c'est à dire que la dichotomisation s'opère sur une base interne comme la réponse à une question donnée (oui/non) et le résultat global à l'ensemble des questions par exemple..

Soit xr: la moyenne du groupe r, xa: la moyenne globale, s: l'écart-type global, p: proportion du groupe r  dans l'ensemble, q = 1 - p. On a la relation suivante pour le coefficient point bissérial:

Rpb = ((xr - xa)/s)(p/q)1/2.

            On peut aussi utiliser le test de Student pour vérifier la signification de la corrélation avec t = (rpb(n - 2)1/2)/(1 - rpb2)1/2 >= ta, n-2.

 

Exemple: Un test de 10 questions binaires a été appliqué à 100 étudiants. On peut comparer le résultat obtesur une question donnée Q1 à laquelle 60 ont répondu correctement et le résultat global de l'ensemble des questions. xr: représente la moyenne du groupe qui répond correctement à la question, x: la moyenne globale des 100 étudiants, s: l'écart-type global et p: la proportion de ceux qui ont répondu correctement, soit 0.6 et q = 1 - 0.6 = 0.4. Le degré de liberté de T est n - 2, soit 98.

 

Le coefficient bissérial rb

 

            Il est utililisé lorsque la dichotomisation est forcée (fausse dichotomie), c'est à dire qu'une des variables, continue, se trouve dichotomisée sur la base d'un critère externe à la variable comme le résultat de fin d'année par exemple.

rb = ((xr - x)/s)(p/y) où y est l'ordonnée réduite qui correspond à une aire égale à p, par exemple 0.3989 pour une loi normale avec 50%.

            Le coefficient a un écart-type de srb = (pq/y)1/2 - rb2)n1/2.     La signification de la corrélation bissériale est mesurée par la quantité t = rb/srb >= ta.

 

Le coefficient Phi

 

Il intéresse un tableau dichotomique 2x2 et s'écrit f = (n11.n22)/(n11.n12.n21.n22)1/2.

Pour v = 1, on a f2 = nc2.

 

 

3- Le tau de Kendall t

 

            Le tau de Kendall s'appuie sur le rang des valeurs combinées des différentes observations. On peut utiliser deux  méthodes de calcul du