LA DROITE DE MOINDRES RECTANGLES,
LA REGRESSION ORTHOGONALE ET L'ACP
Amor BELHEDI, FSHS, Université de Tunis
Notion de Droites de Moindres Rectangles La Droite de Régression Orthogonale L'Axe Principal L'Analyse en Composantes Principales
Introduction Présenter & Décrire une variable Réduire & Résumer une distribution Notions et Distributions de Probabilités Corrélation & Régression linéaire simple Corrélation & Régression simples courbes Test de Khi-deux Corrélation dans un tableau Chroniques & Distributions temporelles Corrélation & Régression multiples Droites des Moindres Rectangles Analyse Factorielle Classification & Typologie Tests des hypothèses Sondages & Distributions d'échantillonnage Quelques Eléments de calcul matriciel Tables Statistiques Papiers Fonctionnels Bibliographie Sommaire
La régression de y en x (ou x en y) ne se justifie que lorsqu'une des variables est expliquée par l'autre, c'est à dire qu'on a affaire à une variable expliquée et une variable explicative. En réalité, souvent les deux variables sont interdépendantes, se se situent sur le même pied d'égalité et il n y a pas de raison de minimiser la somme des carrés parallèlement à l'un des axes de coordonnées, mais à l'un et à l'autre des deux axes à la fois.
La solution est intermédiaire au problème de régression, c'est le cas par exemple lorsqu'on étudie la variation simultanée de deux données d'un même système ou de deux caractéristiques d'un même organisme...
Cette démarche nous conduit à la recherche de la droite des moindres rectangles et débouche sur l'analyse factorielle ou analyse en composantes principales (ACP).
I - LA DROITE DES MOINDRES RECTANGLES
La solution à ce problème est obtenue en minimisant la somme des produits des écarts (xi -x(yi)) et (y-y(xi)) mesurés en valeur absolue, les uns parallèlement à l'axe des abscisses, les autres parallèlement à l'axe des ordonnées.
1 - La droite des moindes rectangles
L'équation de la droite s'écrit: y = ax + b. La somme à minimiser est: S(( xi - x(y)) (yi -y(xi))) = S(( xi - (yi - b)/a) (yi - b - axi)) = S (yi - b - axi)2 /a
Le minimum est atteint lorsque par dérivation partielle et annulation des équations: dS/db = dS/da = 0. On a alors les deux équations:
S(yi - b - axi) = 0
S(yi - b - axi)(yi - b + axi) = 0
Comme dans la régression, la première équation donne: b = y - ax. En remplaçant b par sa valeur dans la seconde équation, on obtient: a = +/-sy/sx. La droite passe par les deux moyennes (x, y), le signe étant celui de la covariance. L'équation de la droite des moindres rectangles s'écrit alors : y = +/- sy / sx(xi - x) + y ou (yi - y)/ sy = +/- (xi - x)/sy.
La droite ne dépend que des moyennes et des écart-types des deux variables (x, y), son coefficient angulaire n'est que la moyenne géométrique des coefficients des deux droites de régression (r = (a.a')1/2), elle passe entre les deux droites de régression Dy et Dx, c'est la droite des moindres rectangles.
La droite de moindes rectangles minimise l'aire des rectangles de côtés: | xi - x(y) | et | yi - y(xi) |, les sommets sont xi, yi, deux points sur la droite de même abscisse et ordonnée. On l'appelle aussi, l'axe principal (ou majeur) réduit, droite de corrélation organique, droite de regression orthogonale (ou diagonale).

Au lieu de minimiser les écarts parallèlement à l'un des axes (perpendiculairement à l'autre), on les minimise perpendiculairement à la droite recherchée elle-même. La distance d'un point xi, yi à la droite d'équation y = ax + b est : I yi - b - axi I / (1 + a2)1/2.
En minimisant la somme des carrés des écarts : S (yi - b - axi)2 /(1 + a2), on obtient les valeurs : b =(y - ax)2 /(1 + a2) et a = 2 Cov xy/ (s2x - s2y + ((s2x - s2y)2 + 4 Cov2xy)1/2.
La droite passe également par les deux moyennes (x, y), entre les deux droites de régression, sa position dépend des valeurs relatives des variances. Si les deux variances sont égales on a : a = +/- 1.
Si s2x est très élevé à s2y, a est très proche du coefficient de régression linéaire a, à l'inverse lorsque s2y est très élevé, le coefficient se rapproche de a'.
2 - La droite de régression orthogonale
En standardisant les variables, on peut éviter cet inconvénient. On a : xi' = (xi - x)/sx, et yi' = (yi - y)/sy. On a alors: xi' = yi' = 0 et s2x = s2y = 1. Dans ce cas la valeur de a = +/- 1, le signe de a étant celui de la covariance et de la corrélation.
On retrouve ainsi la droite des moindres rectangles: x'i = y'i ou (xi -x)/sx = (yi -y)/sy. C'est la droite la régression orthogonale.
La droite des moindres rectangles n'est autre que la droite de régression orthogonale calculée par l'intermédiaire des variables réduites.
La corrélation linéaire r est liée à la somme des produits des écarts de la droite des moindres rectangles: S(yi - b - axi)2 / | a | = 2nsx.sy(1 - | r |).
Lorsqu'il s'agit d'une régression orthogonale, on a: S(yi - b - axi)2/(1 + a2) = n(1- | r |). La variance des écarts par rapport à le droite de régression est: 1 - | r | tandis que la variance mesurée parallèlement à la droite est: 1 + | r | .
3 - Les axes principaux
Dans le plan x, y, on considère deux axes u et v de coefficients directeurs a, b et a' et b':
a2 + b2 = 1 a et b > 0 sens positif I
a'2 + b'2 = 1 a' < 0 et b' > 0 sens positif II
En considérant la projection des points observés xi, yi sur les axes u et v, on définit une nouvelle distribution : Ui = axi + byi et Vi = a'xi + b'yi.
On peut déterminer a, b, a' et b' de manière à rendre optimum (maximum, minimum) les variances s2u et s2v : a = b = 21/2/2 et a' = b' = -21/2/2. Les axes U et V sont perpendiculaires et aa' + bb' = 0.
Lorsque la covariance > 0 et r > 0, le maximum de variance correspond à l'axe U et le minimum à l'axe V: Axe U: Axe majeur (max de variance), Axe V: Axe mineur (min de variance).
Lorsque la covariance et la corrélation sont < 0, l'axe V est l'axe majeur tandis que l'axe U constitue l'axe mineur. L'axe majeur est confondu avec la droite de régression orthogonale:
r > 0 axe majeur V = 0 et a'x + by' = 0, (xi - x)/sx = (yi - y)/sy

r < 0 : axe majeur U = 0 et ax + by = 0: (xi - x)/sx = - (yi - y)/sy
Variance de l'axe majeur : S12 = 1 - | r | Variance de l'axe mineur : S22 = 1+ | r |
Les variances sont, en fait, la solution de l'équation caractéristique (R - sI) = 0 avec R: la matrice des corrélations rij, s2: la valeur propre, I: la matrice identité avec des unités dans la diagonale et des zéro dans les autres cases et D: le déterminant de la matrice[1].
1 - S2 r
r 1 - S2
Elle s'écrit aussi: (1 - S2)2 - r2 = (1 - S - r)(1 + r - S), d'où S1 = 1+ | r | et S2 = 1 - r|. Les coefficients directeurs des deux axes sont les solutions des deux systèmes suivants :
1 - S2 r a a(1 - s2) + br = 0
r 1 - S2 b = 0 ar + b(1- s2) = 0
1 - S2 r a' a'(1 - s2) + b'r = 0
r 1 - S2 b' = 0 a'r + b'(1- s2) = 0
4 - La recherche de l'axe principal
Ui = ax + by u = ax + by s2u = S(ax + by)2/n
Vi = a'x + b'y v = a'x + b'y s2u = S(a'x + b'y)2/n
s2u = S(a2x2 + b2y2 + 2abxy )/n = (a2 Sx2 + b2 Sy2 + 2abxy) =
s2u = (a2 + b2 + 2ab.Cov yx/sy.sx).
s2u = a2 + b2 + 2ab.ryx
s2v = a'2 + b2 + 2a'b'.ryx
Le maximum est atteint lorsque du2/da = du2/db = 0. On obtient les relations suivantes:
s2u + d2v = 2 a = b = 21/2/2
aa' + bb' = 0 b = b' = - 21/2/2
Lorsque la covariance est positive, l'axe majeur U est confondu avec la droite orthogonale:
En multipliant cette matrice par les données standardisées, on obtient les coordonnées des observations sur les axes ou les scores.
Exemple: Urbanisation (en %) et revenu (en $/hab) en Asie 1972
|
Pays |
Chine |
Inde |
Indo nésie |
Mon golie |
Népal |
Philip pines |
Sri Lanca |
Thai lande |
Corée Sud |
Viet nam |
Com bodge |
Laos |
|
Urb |
13.6 |
19.8 |
14.9 |
40.8 |
3.6 |
30 |
19.1 |
18.2 |
33.2 |
9.5 |
10.3 |
15 |
|
Rev |
90 |
100 |
100 |
430 |
40 |
180 |
180 |
150 |
180 |
90 |
120 |
100 |
La régression linéaire est exprimée par les deux equations suivantes avec une variance expliquée de 81,4%: U (%) = 0,1 Rev + 3.941 et Rev ($/hab) = 7.94 U - 4 avec r = 0,90218, r2= 0,813928.
Moyenne Rev = 146,666, Urb : 18,97%. Ecart-type : Rev = 90,675 , Urb : 10,310
La droite des moindres rectangles est: y = 0.1137 x + 2.299.
(yi - y)/sy = (xi - x)/sx ou y = sy (xi - x)/sx - y (y - 18.975)/10.310 = (x - 146,666)/90.675
La droite de régression orthogonale est: Urb = 0,2051Rev - 11,11 avec a = 2 Cov.yx/(s2x - s2y +((s2x -s2y) + 4 cov yx2)1/2 = 0,2051. b = y - ax = -11.11. Sur des variables réduites, on a: x' = y'. Variance Max = 1 + r = 1,902. Variance min = 1 - r = 0,0978
La recherchdes axes principaux est S12 = 1 + r = 1,902 et S22 = 1 - r = 0,0978. On peut alors écrire l'équation caractéristique suivante :
1 - S2 0.90218
0.90218 1 - S2 = 0 d'où : S12 = 1.90218 et S22 = 0.0978
1 - S2 0.90218 . a
0.90218 1 - S2 . b = 0 On obtient alors les valeurs: a = b = 0,707. a2 + b2 = 1.
a' = -0,9994 et b' = 0,1083. a'2 + b'= 1
Le système est indéterminé et ne définit a et b qu'à une constante près, on a: a2 + b2 = 1. On donne à a une valeur égale à b et on déduit b, on a alors les axes factoriels :
|
|
I |
II |
|
y (Urbanisation en %) |
0.707 |
-0.999 |
|
x (Rev en $/hab) |
0.707 |
0.108 |
(0.707)2 +(0.999)2 = 1.4978 75%
(0.707)2 +(0.1089)2 = 0.5115 25%
La valeur totale est égale à 2. Le premier axe résume S12/2 = 0.95108 (95.1%) tandis que le second résume S22/2 = 0.0488 (4.89%).
Les scores: en multipliant cette matrice par les données standardisées, on obtient les coordonnées des observations ou les scores suivants.
Matrice des Scores
|
Pays |
Axe I |
Axe II |
|
Chine |
-0.809 |
0.453 |
|
Inde |
-0.306 |
-0.135 |
|
Indonésie |
-0.642 |
0.339 |
|
Mongolie |
3.775 |
-1.876 |
|
Népal |
-1.885 |
1.362 |
|
Philippines |
1.015 |
-1.028 |
|
Sri Lanca |
0.267 |
0.027 |
|
Thailande |
-0.002 |
0.078 |
|
Corée S |
1.234 |
-1.377 |
|
Vietnam N |
-1.090 |
0.850 |
|
Cambodge |
-0.802 |
0.808 |
|
Laos |
-0.635 |
0.329 |
Le modèle, appliqué ici à deux variables, peut être généralisé à un nombre plus élevé de variables et on aborde ici l'analyse factorielle en composantes principales où la relation de base s'écrit alors comme suit:
(xi - x)/sx = (yi - y)/sy = (zi - z)/sz = ... = (ti - t)/st
II - L'ANALYSE EN COMPOSANTES PRINCIPALES (ACP)
La notion d'axe majeur peut être généralisée et on procède ainsi à la détermination du premier axe principal :
Ui = a1x' + b1y' + cz'
S12 = SU1i2 Max et a12 + b12 + C12 = 1
Cette variance est la racine carrée la plus élevée de l'équation caractéristique[2] suivante pour trois variables x1, x2, x3: D[R - sI] = 0 avec R: la matrice des corrélations linéaires rij, I: la matrice identité, s: la valeur propre et D: le déterminant de la matrice:
1 - S2 r12 r13
D r12 1- S2 r23
r13 r23 1-S2 = 0
Le second axe est perpendiculaire à U et correspond au maximum de variance, c'est la 2° solution de l'équation. Le 3 ème axe correspond à la 3 ème valeur la plus élevée et il est perpendiculaire aux deux premiers axes...
Les variables réduites sont remplacées par un système de variables transposées orthogonales, de variance progressivement décroissante. Les variances Si2 sont les valeurs propres de la matrice de corrélation [Rxx]:
R = 1 r12 r13
r21 1 r23
r31 r32 1
Elles sont définies par l'équation caractéristique: [R - s2I] = 0. Dans une matrice de rang 2 (deux variables), les valeurs propres sont les racines de l'équation caractéristique suivante: (R - s.I) = 0 ce qui nous donne: (1 - s)2 - rx1x22.
I a I
Les coefficients directeurs sont les vecteurs propres correspondants: [R - s2I]. I b I= 0
avec la contrainte : a 2+ b 2 + c 2 = 1 I c I
La somme des variances est égale à n (n est le rang de la matrice): Ssi2 = n tandis que la variance expliquée est exprimée par le rapport : si 2/n.
On a trois droites dont les équations sont comme suit : a b c
x'/a1 = y'/b1 = z'/c1 U1 = a1x' +b1y' +c1z' > 0 > 0 > 0
x'/a2 = - y'/b2 = - '/c2 U2 = a2x' +b2y' +c2z' > 0 > 0 < 0
x'/a3 = - y'/b3 = z'/c3 U3 = a3x' +b3y' +c3z' > 0 < 0 > 0
L'égalité des coéfficients a, b et c montre que la droite occupe une position centrale par rapport aux variables:
x' = (xi - x)/sx U1 = (xi - x)/sxa1 = (yi - y)/syb1 = (zi - z)/szc1
y' = (yi - y)/sy U2 = (xi - x)/sxa2 = - (yi - y)/syb2 = - (zi - z)/szc2
z' = (zi - z)/sz U3 = (xi - x)/sxa3 = - (yi - y)/syb3 = - (zi - z)/szc3
Exemple : Urbanisation (X1), Revenu par Hab (X2) et espérance de vie (X3) en Asie 1972.
|
Pays |
Chine |
Inde |
Indo nésie |
Mon golie |
Népal |
Philippines |
Sri Lanca |
Thai lande |
Corée S |
Viet nam |
Com bodge |
Laos |
|
Urba % |
13.6 |
19.8 |
14.9 |
40.8 |
3.6 |
30 |
19.1 |
18.2 |
33.2 |
9.5 |
10.3 |
15 |
|
Rev/hab $ |
90 |
100 |
100 |
430 |
40 |
180 |
180 |
150 |
180 |
90 |
120 |
100 |
|
Espérance |
50 |
41 |
47 |
57 |
40 |
49 |
61 |
54 |
51 |
50 |
42 |
47 |
Moyenne : Revenu = 146,666, Urbanisation : 18,97%, Espérence de vie : 49.88 ans
Ecart-type : Revenu = 90,675 , Urbanisation : 10,310, Espérence de vie : 8.061
La matrice de corrélation (R) se présente comme suit :