Le nuage de points Le Tableau de contingence La corrélation linéaire La signification de la corrélation La régression linéaire L'erreur-type La représentation graphique Les résidus Interprétation des écarts Les tests de la régression
Introduction
Présenter
& Décrire une variable
Réduire
& Résumer une distribution
Notions
et Distributions de Probabilités
Corrélation
& Régression linéaire simple
Corrélation
& Régression simples courbes
Test
de Khi-deux
Corrélation
dans un tableau
Chroniques
& Distributions temporelles
Corrélation
& Régression multiples
Droites
des Moindres Rectangles
Analyse
Factorielle
Classification
& Typologie
Tests
des hypothèses
Sondages
& Distributions d'échantillonnage
Quelques
Eléments de calcul matriciel
Tables
Statistiques
Papiers
Fonctionnels
Bibliographie
Sommaire
1
L'objectif étant de représenter la relation qui existe entre deux variables x et y, dans un système d'axes orthonormé x, y, on représente chaque observation i par ses deux coordonnées xi, yi respectives, on obtient ainsi un ensemble de points qu'on appelle nuage de points. Le nuage de points est un ensemble de points dont chacun représente une observation et correspond à l'intersection de ses deux coordonnées (valeurs) correspondantes xi, yi dans un système orthonormé d'axes (x, y).


Nuage de points Diagramme de dispersion
2 - Le tableau à double entrée
C'est un tableau à double entrée où on a en lignes les observations et en colonnes les deux variables x et y. Chaque observation i a deux valeurs xi et yi correspondant aux deux variablex x et y.
II - INDEPENDANCE, DEPENDANCE ET LIAISON FONCTIONNELLE
Le graphique ou le tableau est de nature à permettre de voir si les deux caractères sont liés, dépendants ou totalement indépendants. Ce premier test est à confirmer (ou infirmer) par un autre test plus puissant par la suite, il permet néanmoins une première sélection évitant la perte de temps et les calculs souvent inutiles. Lorsque le nombre d'observations est réduit, un simple graphique nous permet souvent de voir s'il y a ou non une relation entre les deux variables et de quel type elle est si jamais elle existe. Le calcul permet ensuite de confirmer cette première conclusion.
1 - L'indépendance
Elle exprime l'absence totale de relation entre les deux variables x et y. Elle se manifeste graphiquement par un nuage de points sous forme d'un alignement parallèle à l'un des axes ( x ou y) ou d'une disposition circulaire ou elliptique. L'alignement parallèle exprime que l'une des variables est constante quelque soit la valeur de l'autre tandis que la disposition circulaire ou elliptique exprime une distribution aléatoire des observations les unes par rapport aux autres puisque chaque valeur de x (ou de y) correspond simultanément à plusieurs valeurs de la seconde variable.

x = constante pour tout y y = constante pour x x et y sont distribues aléatoirement
Dans un tableau, l'indépendance s'exprime par des données égales ou d'une valeur constante pour une des variables. Dans ce cas, la connaissance de la valeur d'une variable ne permet guère celle du second caractère. Les deux variables sont indépendantes, le calcul ne doit être entamé qu'en cas doute.
2 - La liaison fonctionnelle
Il existe une liaison fonctionnelle entre x et y si à chaque valeur de l'une correspond une valeur donnée de y. La connaissance de x (ou de y) nous permet ainsi de déterminer y (ou x) de façon unique. On note la relation: y = f(x) où y est fonction de x.
La liaison fonctionnelle linéaire se traduit sur le graphique par un alignement du nuage de points qui prend l'allure générale d'une ligne droite. Elle se traduit dans un tableau par la concentration des valeurs sur la diagonale, il y a une seule valeur par ligne et par colonne.
3 - La dépendance
En géographie et dans les sciences humaines et sociales en général, il est rare de trouver une liaison fonctionnelle ou une indépendance totale, le cas le plus fréquent est la dépendance: les deux variables entretiennent une relation plus ou moins forte selon les cas.
La dépendance s'exprime par une liaison plus complexe qui incorpore une partie certaine de y (qu'on peut déterminer avec certitude en connaissant la valeur de x: y= f(x)) et une partie aléatoire, probable (e) et réduite (on lui donne souvent le symbole d'epsilon pour exprimer le caractère négligeable dans le modèle). Le modèle général s'écrit alors sous la forme:
y = f(x) +/- e
Partie certaine + Partie aléatoire
Il existe une liaison entre x et y mais la connaissance de l'un ne permet de déterminer le second que dans une certaine probabilité, exprimée par e. En connaissant x, on peut déterminer y avec une certaine probabilité qui est d'autant plus élevée que l'intervalle d’occurrence est étendu. Cette incertitude peut être imputée à quatre types d’effet qui peuvent exister d’une manière isolée ou concomittante :
1- l'intervention d'autres variables que x qui affectent la relation (entre y et x) et influent sur la valeur de y. Il est tout à fait évident que chaque élément (ou variable) se trouve très souvent lié et de là expliqué par plus d’une variable et la faiblesse de la relation exprime plutôt la présence de plus d’une variables en jeu. C’est ainsi par exemple que le niveau de scolarisation ne peut être imputé seulement à l’urbanisation, uniquement au revenu, essentiellement à l’appartenance socio-professionnelle, au genre ou à la tradition locale… Lorsqu’on ne retient qu’une seule variable explicative, c’est comme on ampute la réalité d’une partie plus ou moins importante selon les cas.
2 - la présence de facteurs aléatoires d'erreurs. En effet, en plus du facteur de base x, plus ou moins important, il y a toujours une multitude de facteurs à la fois inconnus et réduits qui interviennent dans le processus et finissent par dévier les différentes valeurs de y tantôt vers la hausse, tantôt vers la baisse ce qui explique la présence de résidus.
3- des erreurs d'échantillonnage peuvent être aussi imputés au choix des unités étudiées et des observations retenues pour l’analyse qui relève du chercheur lui-même ou le dépasse.Ce facteur d’erreur intervient systématiquement lorsque l’étude ne porte pas sur l’ensemble de la population.
4- des erreurs de mesure relatifs aux instruments utilisés, aux méthodes adoptées et aux techniques sollicitées pour effectuer ces mesures. Il en est ainsi lorsqu’on embrasse un phénomène assez complexe qui orrespond à plusieurs définitions comme l’urbanisation ou le chômage.
La partie aléatoire est mesurée par la variance résiduelle, celle qui reste inexpliquée par x. Tout le problème consiste alors à minimiser cette partie aléatoire et la méthode adoptée s'appuie sur ce principe (Cf. infra).

Liaison fonctionnelle Dépendance
y = f(x) y = f(x) +/- e
Graphiquement, la dépendance s'exprime par la présence d'une certaine tendance dans le nuage de points sans que les points soient totalement alignés comme dans le cas de la liaison fonctionnelle ou totale. Le nuage de points prend l'allure d'une ligne droite dans le cas d'une relation liinéaire mais il peut épouser plusieurs formes de courbes (Cf Chap suivant).
Dans un tableau, une relation linéaire de dépendance s'exprime par un rapport de proportionnalité entre les valeurs x, y. Les valeurs du tableau augmentent dans un sens (ou dans l’autre) de la diagonale tout en diminuant tout autour avec des valeurs nulles de part et dautre de cette diagonale princiaple (haut gauche – bas droite).
III - LE MODELE LINEAIRE : le rapport proportionnel
Avant de procéder aux calculs, il faut bien s'assurer que le nuage de points a une allure générale linéaire (autrement passer au chapitre suivant) et que les données présentent un rapport de proportionnalité quelconque.
Le modèle linéaire exprime un rapport de proportionnalité fixe et absolu entre deux variables, à une variation absolue de la variable x d'une unité (1) correspond une variation d'une quantité constante (a). La variation est ici prise dans le sens de hausse ou de baisse selon le type de relation qui lie les deux variables.
Le modèle linéaire a une équation de la forme y = ax + b. Le paramètre (a) représente la pente, qui exprime la quantité de variation de y lorsque x varie d'une unité tandis que (b) représente la valeur de y lorsque x = 0. Lorsque a positif on a une relation croissante ou directe et les deux variables varient dans le même sens selon un rapport constant de 1 à a, c'est le cas par exemple de la scolarisation et de l'urbanisation. Quand a est négatif on a une relation décroissante ou inverse, les variables x et y varient en sens opposé, lorque l'une augmente l'autre diminue comme la pression et la température, l'offre et le prix d'un bien, l'urbanisation et le % de la population active agricole...
Graphiquement l'équation est représentée par une droite dans un système d'axes orthonormé où a est la pente angulaire de la droite qui mesure la variation verticale (y) sur une distance de 1 unité de x (l'angle de la droite avec l'horizontale). Le paramètre b est l'intersection de la droite d'ajustement D avec l'axe des y. Lorsque a est positif, la droite est croissante (elle va dans le sens des axes x, y), quand a est négatif la droite estdécroissante (elle va dans le sens de l'axe x et en sens inl'axe y).
Exemples: La relation qui lie le tarif d'un trajet urbainparcouru en un taxi et la distanest de T = 20d + 380. T est en millimes, d en hm A chaque 10m parcourus, l'usager doit payer 20 millimes de plus mais en ouvrant la porte du taxi il doit débourser 380 millimes.
La relation entre le nombre de déplacements secondaires quotidiens par personne (Ds) et le taux de motorisation des ménages à Tunis en 1977 (Tm) est de Ds = 5,981 Tm + 3,7 (Cf. A Belhedi - 1980 : Les déplacements urbains tunisois. Géographie et développement, 1, 47-75). A une augmentation de 1% du taux de motorisation correspond une hausse des déplacements secondaires (loisirs, course, visite...) de 5,981. Le taux de motorisation expliquait 93% des déplacements secondaires de l'époque.
IV - LA CORRELATION LINEAIRE SIMPLE: l'inensité de la relation
La corrélation linéaire mesure le degré de liaison linéaire entre deux variables. Le coefficient le plus utilisé est le coefficient de corrélation linéaire ou coéfficient de Bravais Pearson.
1 - Le coefficient de corrélation linéaire
Le coefficient de corréaltion linéaire (ou coéfficent de Bravais Pearson) est égal au rapport entre la covariance yx et le produit des deux écarts-types de x et y, il est noté r et égal au rapport de la covariance entre x et y au produit des deux écart types de x et de y :
r = Covariance (x, y)/sx.sy , r = Cov xy/sx.sy
La covariance xy est la moyenne arithmétique du produit des écarts à la moyenne des deux variables x et y. Elle mesure la co-variation des deux variables l'une par rapport à l'autre et prend en compte leur variation commune. On peut l'écrire sous la forme:
Cov xy = S(xi - xa)(yj - ya)/n ou[1] Cov xy = S xi yj/n - xaya.
La covariance est au plus égale au produit des deux écart-types: Cov xy <= sx.sy . Son signe indique le sens de la relation (croissante ou décroissante), il est identique au signe de r et de a.
Le coefficient de corrélation linéaire varie de 0 en cas d'une indépendance totale à l'unité (1) en cas d'une liaison fonctionnelle (y = f(x)). Le signe indique le sens de la relation, elle est croissante ou directe si r > 0, décroissante ou inverse si r < 0:
-1 l' 0 l