Home           Nous écrire               Liens Utiles           Votre Opinion            Fin de Page
 

        LA CORRELATION ET LA REGRESSION LINEAIRE SIMPLE
                                                    Deux variables quantitatives sous forme de liste

                                                                                                                              
 
Amor BELHEDI, FSHS, Université de Tunis


Le nuage de points       Le Tableau de contingence    La corrélation linéaire    La signification de la corrélation   La régression   linéaire    L'erreur-type   La représentation graphique      Les résidus   Interprétation des écarts   Les tests de la régression


Introduction  Présenter & Décrire une variable  Réduire & Résumer une distribution  Notions et Distributions de Probabilités   Corrélation & Régression linéaire simple  Corrélation & Régression simples courbes  Test de Khi-deux   Corrélation dans un tableau  Chroniques & Distributions temporelles   Corrélation & Régression multiples   Droites des Moindres Rectangles   Analyse Factorielle   Classification & Typologie  Tests des hypothèses  Sondages & Distributions d'échantillonnage  Quelques Eléments de calcul matriciel  Tables Statistiques   Papiers Fonctionnels   Bibliographie Sommaire
             

            Souvent on est amené à analyser la relation qui peut exister entre deux variables. Y-at-il une relation entre deux variables données?. De quelle intensité et de quelle forme est-elle?. Pour le besoin de l'analyse, on dispose de deux séries statistiques x et y . L'analyse porte ainsi sur une distribution à deux carcatères (ou dimensions) ou bivariée et a pour objet l'étude de l'intensité de cette relation (la corrélation) et sa forme (la régression).
           
La distribution bivariée est une distribution à chaque observation i correspond un couple de deux modalités xi, yi, elle se présente sous forme d'une liste (ou d'un tableau). Elle peut être ordonnée selon l'un des deux caractères et chacune des deux modalités peut être classée.
           
Dans ce chapitre on s'interessera à la relation linéaire entre deux variables quantitatives, on étudiera dans un chapitre suivant la relation courbe  entre deux variables ou dans dans un tableau.
 

I - PRESENTATION :  Nuage de points et Table de contingence 

            Comme pour le cas d'une distribution d'une variable (univariée), on a deux manières de présenter une distribution bivariée : le graphique et le tableau.

 1 - Le graphique : le nuage de points

             L'objectif étant de représenter la relation qui existe entre deux variables x et y, dans un système d'axes orthonormé x, y, on représente chaque observation i par ses deux coordonnées xi, yi respectives, on obtient ainsi un ensemble de points qu'on appelle nuage de points. Le nuage de points  est un ensemble de points dont chacun représente une observation et correspond à l'intersection de ses deux coordonnées (valeurs) correspondantes xi, yi dans un système orthonormé d'axes (x, y).

 

 

 

   Nuage de points                                       Diagramme de dispersion

2 - Le tableau à double entrée

 

            C'est un tableau à double entrée où on a en lignes les observations et en colonnes les deux variables x et y. Chaque observation i a deux valeurs xi et yi correspondant aux deux variablex x et y.  

 

II - INDEPENDANCE, DEPENDANCE ET LIAISON FONCTIONNELLE

 

            Le graphique ou le tableau est de nature à permettre de voir si les deux caractères sont liés, dépendants ou totalement indépendants. Ce premier test est à confirmer (ou infirmer) par un autre test plus puissant par la suite, il permet néanmoins une première sélection évitant la perte de temps et les calculs souvent inutiles. Lorsque le nombre d'observations est réduit, un simple graphique nous permet souvent de voir s'il y a ou non une relation entre les deux variables et de quel type elle est si jamais elle existe. Le calcul permet ensuite de confirmer cette première conclusion.

 

1 - L'indépendance

           

            Elle exprime l'absence totale de relation entre les deux variables x et y. Elle se manifeste graphiquement par un nuage de points sous forme d'un alignement parallèle à l'un des axes ( x ou y) ou d'une disposition circulaire ou elliptique. L'alignement parallèle exprime que l'une des variables est constante quelque soit la valeur de l'autre tandis que la disposition circulaire ou elliptique exprime une distribution aléatoire des observations les unes par rapport aux autres puisque chaque valeur de x (ou de y) correspond simultanément à plusieurs valeurs de la seconde variable.

 

x = constante pour tout y                         y = constante pour  x                  x et y sont distribues aléatoirement

 

 

            Dans un tableau, l'indépendance s'exprime par des données égales ou d'une valeur constante pour une des variables. Dans ce cas, la connaissance de la valeur d'une variable ne permet guère celle du second caractère. Les deux variables sont indépendantes, le calcul ne doit être entamé qu'en cas doute.

 

2 - La  liaison fonctionnelle

 

            Il existe une liaison fonctionnelle entre x et y si à chaque valeur de l'une correspond une valeur donnée de y. La connaissance de x (ou de y) nous permet ainsi de déterminer y (ou x) de façon unique. On note la relation: y = f(x) où y est fonction de x.

            La liaison fonctionnelle linéaire se traduit sur le graphique par un alignement du nuage de points qui prend l'allure générale d'une ligne droite. Elle se traduit dans un tableau par la concentration des valeurs sur la diagonale, il y a une seule valeur par ligne et par colonne.

 

3 - La dépendance

 

            En géographie et dans les sciences humaines et sociales en général, il est rare de trouver une liaison fonctionnelle ou une indépendance totale, le cas le plus fréquent est la dépendance: les deux variables entretiennent une relation plus ou moins forte selon les cas. 

            La dépendance s'exprime par une liaison plus complexe qui incorpore une partie certaine de y (qu'on peut déterminer avec certitude en connaissant la valeur de x: y= f(x)) et une partie aléatoire, probable (e) et réduite (on lui donne souvent le symbole d'epsilon pour exprimer le caractère négligeable dans le modèle). Le modèle général s'écrit alors sous la forme:

y =    f(x)         +/-                  e

                        Partie certaine    +       Partie aléatoire

 

            Il existe une liaison entre x et y mais la connaissance de l'un ne permet de déterminer le second que dans une certaine probabilité, exprimée par e. En connaissant x, on peut déterminer y avec une certaine probabilité qui est d'autant plus élevée que l'intervalle  d’occurrence est  étendu. Cette incertitude peut être imputée à quatre types d’effet qui peuvent exister d’une manière isolée ou concomittante :

1- l'intervention d'autres variables que x qui affectent la relation  (entre y et x) et influent sur la valeur de y. Il est tout à fait évident que chaque élément (ou variable) se trouve très souvent lié et de là expliqué par plus d’une variable et la faiblesse de la relation exprime plutôt la présence de plus d’une variables en jeu. C’est ainsi par exemple que le niveau de scolarisation ne peut être imputé seulement à l’urbanisation, uniquement au revenu, essentiellement à l’appartenance socio-professionnelle, au genre ou à la tradition locale… Lorsqu’on ne retient qu’une seule variable explicative, c’est comme on ampute la réalité d’une partie plus ou moins importante selon les cas.

2 - la présence de facteurs aléatoires d'erreurs. En effet, en plus du facteur de base x, plus ou moins important, il y a toujours une multitude de facteurs à la fois inconnus et réduits qui interviennent dans le processus et finissent par dévier les différentes valeurs de y tantôt vers la hausse, tantôt vers la baisse ce qui explique la présence de résidus.

3- des erreurs d'échantillonnage peuvent être aussi imputés au choix des unités étudiées et des observations retenues pour l’analyse qui relève du chercheur lui-même ou le dépasse.Ce facteur d’erreur intervient systématiquement lorsque l’étude ne porte pas sur l’ensemble de la population.

4- des erreurs de mesure relatifs aux instruments utilisés, aux méthodes adoptées et aux techniques sollicitées pour effectuer ces mesures. Il en est ainsi lorsqu’on embrasse un phénomène assez complexe qui orrespond à plusieurs définitions comme l’urbanisation ou le chômage.

La partie aléatoire est mesurée par la variance résiduelle, celle qui reste inexpliquée par x. Tout le problème consiste alors à minimiser cette partie aléatoire et la méthode adoptée s'appuie  sur ce principe (Cf. infra).

 

                       

                                     Liaison fonctionnelle                        Dépendance

                                 y = f(x)                            y = f(x) +/- e

            Graphiquement, la dépendance s'exprime par la présence d'une certaine tendance  dans le nuage de points sans que les points soient totalement alignés comme dans le cas de la liaison fonctionnelle ou totale. Le nuage de points prend l'allure d'une ligne droite dans le cas d'une relation liinéaire mais il peut épouser plusieurs formes de courbes (Cf Chap suivant).

            Dans un tableau, une relation linéaire de dépendance s'exprime par un rapport de proportionnalité entre les valeurs x, y. Les valeurs du tableau augmentent dans un sens (ou dans l’autre) de la diagonale tout en diminuant tout autour avec des valeurs nulles de part et dautre de cette diagonale princiaple (haut gauche – bas droite).

 

III - LE MODELE LINEAIRE : le rapport proportionnel

 

            Avant de procéder aux calculs, il faut bien s'assurer que le nuage de points a une allure générale linéaire (autrement passer au chapitre suivant) et que les données présentent un rapport de proportionnalité quelconque.

            Le modèle linéaire exprime un rapport de proportionnalité fixe et absolu entre deux variables, à une variation absolue de la variable x d'une unité (1) correspond une variation d'une quantité constante (a). La variation est ici prise dans le sens de hausse ou de baisse selon le type de relation qui lie les deux variables.

            Le modèle linéaire a une équation de la forme y = ax + b. Le paramètre (a) représente la pente, qui exprime la quantité de variation de y lorsque x varie d'une unité tandis que (b) représente  la valeur de y lorsque x = 0. Lorsque a positif on a une relation croissante ou directe et les deux variables varient dans le même sens selon un rapport constant de 1 à a, c'est le cas par exemple de la scolarisation et de l'urbanisation. Quand a est négatif on a une relation décroissante ou inverse, les variables x et y varient en sens  opposé, lorque l'une augmente l'autre diminue comme la pression et la température, l'offre et le prix d'un bien, l'urbanisation et le % de la population active agricole...

            Graphiquement l'équation est représentée par une droite dans un système d'axes orthonormé où a est la pente angulaire de la droite qui mesure la variation verticale (y) sur une distance de 1 unité de x (l'angle de la droite avec l'horizontale). Le paramètre b est l'intersection de la droite d'ajustement D avec l'axe des y.   Lorsque a est positif, la droite est croissante (elle va dans le sens des axes x, y), quand a est négatif la droite estdécroissante (elle va dans le sens de l'axe x et en sens inl'axe y).

 

Exemples: La relation qui lie le tarif d'un trajet urbainparcouru en un taxi et la distanest de T = 20d + 380. T est en millimes, d en hm A chaque 10m parcourus, l'usager doit payer 20 millimes de plus mais en ouvrant la porte du taxi il doit débourser 380 millimes.

                La relation entre le nombre de déplacements secondaires quotidiens par personne (Ds)  et le taux de motorisation des ménages à Tunis en 1977 (Tm) est de Ds = 5,981 Tm + 3,7 (Cf. A Belhedi - 1980 : Les déplacements urbains tunisois. Géographie et développement, 1, 47-75). A une augmentation de 1% du taux de motorisation correspond une hausse des déplacements secondaires (loisirs, course, visite...) de 5,981. Le taux de motorisation expliquait 93% des déplacements secondaires de l'époque.

 

IV - LA CORRELATION LINEAIRE SIMPLE: l'inensité de la relation

 

            La corrélation linéaire mesure le degré de liaison linéaire entre deux variables. Le coefficient le plus utilisé est le coefficient de corrélation linéaire ou coéfficient de Bravais Pearson.

 

1 - Le coefficient de corrélation linéaire

 

            Le coefficient de corréaltion linéaire (ou coéfficent de Bravais Pearson) est égal au rapport entre la covariance yx et le produit des deux écarts-types de x et y, il est noté r et égal au rapport de la covariance entre x et y  au produit des deux écart types de x et de y :

r = Covariance (x, y)/sx.sy   ,    r = Cov xy/sx.sy

            La covariance xy est la moyenne arithmétique du produit des écarts à la moyenne des deux variables x et y. Elle mesure la co-variation des deux variables l'une par rapport à l'autre et prend en compte leur variation commune. On peut l'écrire sous la forme:

                         Cov xy =  S(xi - xa)(yj - ya)/n    ou[1]     Cov xy =  S xi yj/n - xaya.

            La covariance est au plus égale au produit des deux écart-types: Cov xy <= sx.sy . Son signe indique le sens de la relation (croissante ou décroissante), il est identique au signe de r et de a.

 

            Le coefficient de corrélation linéaire varie de 0 en cas d'une indépendance totale à l'unité (1) en cas d'une liaison fonctionnelle (y = f(x)). Le signe indique le sens de la relation, elle est croissante ou directe si r > 0, décroissante ou inverse si r < 0:

-1                                                   l'                       0                  l