Home                                                                                                                                                  Fin de Page
 

                    LA DROITE DE MOINDRES RECTANGLES,

                  LA REGRESSION ORTHOGONALE ET L'ACP

                                                                                           
Amor BELHEDI, FSHS, Université de Tunis


Notion de Droites de Moindres Rectangles   La Droite de Régression Orthogonale      L'Axe Principal    L'Analyse en Composantes Principales


Introduction  Présenter & Décrire une variable  Réduire & Résumer une distribution  Notions et Distributions de Probabilités   Corrélation & Régression linéaire simple  Corrélation & Régression simples courbes  Test de Khi-deux   Corrélation dans un tableau  Chroniques & Distributions temporelles   Corrélation & Régression multiples   Droites des Moindres Rectangles   Analyse Factorielle   Classification & Typologie  Tests des hypothèses  Sondages & Distributions d'échantillonnage  Quelques Eléments de calcul matriciel  Tables Statistiques   Papiers Fonctionnels   Bibliographie Sommaire

 

            La régression de y en x (ou x en y) ne se justifie que lorsqu'une des variables est expliquée par l'autre, c'est à dire qu'on a affaire à une variable expliquée et une variable explicative. En réalité, souvent les deux variables sont interdépendantes, se se situent sur le même pied d'égalité et il n y a pas de raison de minimiser la somme des carrés parallèlement à l'un des axes de coordonnées, mais à l'un et à l'autre des deux axes à la fois.

            La solution est intermédiaire au problème de régression, c'est le cas par exemple lorsqu'on étudie la variation simultanée de deux données d'un même système ou de deux caractéristiques d'un même organisme...

            Cette démarche nous conduit à la recherche de la droite des moindres rectangles et débouche sur l'analyse factorielle ou analyse en composantes principales (ACP).

 

I - LA DROITE DES MOINDRES RECTANGLES

 

            La solution à ce problème est obtenue en minimisant la somme des produits des écarts (xi -x(yi)) et (y-y(xi)) mesurés en valeur absolue, les uns parallèlement à l'axe des abscisses, les autres parallèlement à l'axe des ordonnées.

 

1 - La droite des moindes rectangles

 

            L'équation de la droite s'écrit:  y = ax + b. La somme à minimiser est: S(( xi - x(y)) (yi -y(xi))) = S(( xi - (yi - b)/a) (yi - b - axi)) =  S (yi - b - axi)2 /a

            Le minimum est atteint lorsque par dérivation partielle et annulation des équations: dS/db =  dS/da = 0. On  a alors les deux équations:

S(yi - b - axi) = 0

S(yi - b - axi)(yi - b  + axi) = 0

 

            Comme dans la régression, la première équation donne: b = y - ax.  En remplaçant b par sa valeur dans la seconde équation, on obtient: a = +/-sy/sx. La droite passe par les deux moyennes (x, y), le signe étant celui de la covariance. L'équation de la droite des moindres rectangles s'écrit alors : y =  +/- sy / sx(xi - x) + y       ou  (yi - y)/ sy  =  +/- (xi - x)/sy.

            La droite ne dépend que des moyennes et des écart-types des deux variables (x, y), son coefficient angulaire n'est que la moyenne géométrique des coefficients des deux droites de régression (r = (a.a')1/2), elle passe entre les deux droites de régression Dy et Dx, c'est la droite des moindres rectangles.

            La droite de moindes rectangles  minimise l'aire des rectangles de côtés:  | xi - x(y) | et  | yi - y(xi) |, les sommets sont xi, yi, deux points sur la droite de même abscisse et ordonnée. On l'appelle aussi, l'axe principal (ou majeur) réduit, droite de corrélation organique, droite de regression orthogonale (ou diagonale).

 

 

            Au lieu de minimiser les écarts parallèlement à l'un des axes (perpendiculairement à l'autre), on les minimise perpendiculairement à la droite recherchée elle-même. La distance d'un point xi, yi à la droite d'équation y = ax + b   est :  I yi - b - axi I / (1 + a2)1/2

            En minimisant la somme des carrés des écarts : S (yi - b - axi)2 /(1 + a2), on obtient les valeurs : b =(y - ax)2 /(1 + a2) et  a = 2 Cov xy/ (s2x - s2y + ((s2x - s2y)2 + 4 Cov2xy)1/2.

 

            La droite passe également par les deux moyennes (x, y), entre les deux droites de régression, sa position dépend des valeurs relatives des variances. Si les deux variances sont égales on a :  a = +/- 1.

            Si s2x est très élevé à s2y, a est très proche du coefficient de régression linéaire a, à l'inverse lorsque  s2y est très élevé, le coefficient se rapproche de a'.

 

2 - La droite de régression orthogonale

           

            En standardisant les variables, on peut éviter cet  inconvénient. On a : xi' = (xi - x)/sx, et yi' = (yi - y)/sy. On a alors: xi' = yi' = 0 et  s2x = s2y = 1. Dans ce cas la valeur de a = +/- 1, le signe de a étant celui de la covariance et de la corrélation.

            On retrouve ainsi la droite des moindres rectangles: x'i = y'i ou (xi -x)/sx = (yi -y)/sy. C'est la droite la régression orthogonale.

            La droite des moindres rectangles n'est autre que la droite de régression orthogonale calculée par l'intermédiaire des variables réduites.

 

            La corrélation linéaire r est liée à la somme des produits des écarts de la droite des moindres rectangles:   S(yi - b - axi)2 / | a | = 2nsx.sy(1 - | r |).

            Lorsqu'il s'agit d'une régression orthogonale, on a:  S(yi - b - axi)2/(1 + a2) =  n(1- | r |). La variance des écarts par rapport à le droite de régression est: 1 - | r |  tandis que la variance mesurée parallèlement à la droite est: 1 + | r | .

 

 

 

3 - Les axes principaux

           

            Dans le plan x, y, on considère deux axes u et v de coefficients directeurs a, b et a' et b':

a2 + b2  = 1    a et b > 0          sens positif   I

a'2 + b'2 = 1    a' < 0 et b' > 0  sens positif  II

            En considérant la projection des points observés xi, yi sur les axes u et v, on définit une nouvelle distribution : Ui = axi + byi   et Vi = a'xi + b'yi.

 

            On peut déterminer a, b, a' et b' de manière à rendre optimum (maximum, minimum) les variances s2u et s2v : a = b = 21/2/2  et a' = b' = -21/2/2.  Les axes U et V sont perpendiculaires et aa' + bb' = 0.

            Lorsque la covariance > 0 et r > 0, le maximum de variance correspond à l'axe U et le minimum à l'axe V: Axe U: Axe majeur (max de variance), Axe V: Axe mineur (min de variance).

            Lorsque la covariance et la corrélation sont < 0, l'axe V est l'axe majeur tandis que l'axe U constitue l'axe mineur. L'axe majeur est confondu avec la droite de régression orthogonale:

r > 0 axe majeur V = 0 et a'x + by' = 0,   (xi - x)/sx = (yi - y)/sy

 

 

 

r < 0 : axe majeur U = 0 et ax + by = 0:  (xi - x)/sx =  - (yi - y)/sy

Variance de l'axe majeur : S12 = 1 - | r |       Variance de l'axe mineur : S22 = 1+ | r |

 

            Les variances sont, en fait, la solution de l'équation caractéristique (R - sI) = 0 avec R: la matrice des corrélations rij, s2: la valeur propre, I: la matrice identité avec des unités dans la diagonale et des zéro dans les autres cases et D: le déterminant de la matrice[1].

 1 - S2    r

  r            1 - S2

 

            Elle s'écrit aussi: (1 - S2)2 - r2 = (1 - S - r)(1 + r - S),  d'où  S1 = 1+ | r |  et  S2 =  1 - r|. Les coefficients directeurs  des deux axes sont les solutions des deux systèmes suivants :

1 - S2            r a                      a(1 - s2) + br = 0

r               1 - S2              b          = 0       ar + b(1- s2) = 0

 

1 - S2            r a'                     a'(1 - s2) + b'r = 0

r               1 - S2              b'          = 0      a'r + b'(1- s2) = 0

4 - La recherche de l'axe principal

 

Ui = ax + by                u = ax + by      s2u = S(ax + by)2/n

Vi = a'x + b'y               v = a'x + b'y     s2u = S(a'x + b'y)2/n

s2u = S(a2x2 + b2y2 + 2abxy )/n = (a2 Sx2 + b2 Sy2 + 2abxy) =

 s2u =  (a2  + b2  + 2ab.Cov yx/sy.sx).

 s2u = a2  + b2  + 2ab.ryx

 s2v = a'2  + b2  + 2a'b'.ryx

 

            Le maximum est atteint lorsque du2/da = du2/db = 0. On obtient les relations suivantes:

s2u + d2v = 2              a = b = 21/2/2

aa' + bb' = 0                b = b' = - 21/2/2

 

            Lorsque la covariance est positive, l'axe majeur U est confondu avec la droite orthogonale:

            En multipliant cette matrice par les données standardisées, on obtient les coordonnées des observations sur les axes ou les scores.

 

Exemple:  Urbanisation (en %) et revenu (en $/hab) en Asie  1972

 

Pays

Chine

Inde

Indo

nésie

Mon

golie

Népal

Philip

pines

Sri Lanca

Thai

lande

Corée Sud

Viet

nam

Com

bodge

Laos

Urb

13.6

19.8

14.9

40.8

3.6

30

19.1

18.2

33.2

9.5

10.3

15

Rev

90

100

100

430

40

180

180

150

180

90

120

100

               

                La régression linéaire est exprimée par les deux equations suivantes avec une variance expliquée de 81,4%: U (%) = 0,1 Rev + 3.941   et    Rev ($/hab) = 7.94 U - 4  avec r = 0,90218, r2= 0,813928.

Moyenne Rev = 146,666, Urb : 18,97%. Ecart-type : Rev = 90,675 , Urb : 10,310

                La droite des moindres rectangles est: y = 0.1137 x + 2.299.

(yi - y)/sy = (xi - x)/sx         ou   y = sy (xi - x)/sx - y    (y - 18.975)/10.310 = (x - 146,666)/90.675

                La droite de régression orthogonale est: Urb = 0,2051Rev - 11,11 avec a = 2 Cov.yx/(s2x - s2y +((s2x -s2y) + 4 cov yx2)1/2 = 0,2051.  b = y - ax = -11.11.  Sur des variables réduites, on a: x' = y'.  Variance Max = 1 + r = 1,902.  Variance min  = 1 - r =   0,0978

 

La recherchdes axes principaux est S12 = 1 + r = 1,902  et  S22 = 1 - r = 0,0978. On peut alors écrire l'équation caractéristique suivante :

1 - S2                      0.90218

0.90218                  1 - S2                      = 0     d'où : S12 = 1.90218  et S22 = 0.0978

 

1 - S2                      0.90218   .  a

0.90218                  1 - S2      .  b          = 0      On obtient alors les valeurs: a = b = 0,707.   a2 + b2  = 1. 

                                                                                                                              a' = -0,9994 et b' = 0,1083.   a'2 + b'= 1

 

                Le système est indéterminé et ne définit a et b qu'à une constante près, on a:  a2 + b2  = 1. On donne à a une valeur égale à b et on déduit b, on a alors les axes factoriels :

 

 

I

II

y (Urbanisation en %)

0.707

-0.999

x (Rev en $/hab)

0.707

0.108

 

                (0.707)2 +(0.999)2 = 1.4978   75%

                (0.707)2 +(0.1089)2 = 0.5115                 25%

 

                La valeur totale est égale à 2. Le premier axe résume S12/2 = 0.95108 (95.1%)  tandis que le second résume S22/2 = 0.0488 (4.89%).

                Les scores: en multipliant cette matrice par les données standardisées, on obtient les coordonnées des observations ou les scores suivants.

 

             Matrice des Scores

 

Pays

Axe I

Axe II

Chine

-0.809

0.453

Inde

-0.306

-0.135

Indonésie

-0.642

0.339

Mongolie

3.775

-1.876

Népal

-1.885

1.362

Philippines

1.015

-1.028

Sri Lanca

0.267

0.027

Thailande

-0.002

0.078

Corée S

1.234

-1.377

Vietnam N

-1.090

0.850

Cambodge

-0.802

0.808

Laos

-0.635

0.329

 

 

            Le modèle, appliqué ici à deux variables, peut être généralisé à un nombre plus élevé de variables et on aborde ici l'analyse factorielle en composantes principales où la relation de base s'écrit alors comme suit:

            (xi - x)/sx = (yi - y)/sy = (zi - z)/sz = ... = (ti - t)/st

 

II - L'ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

 

            La notion d'axe majeur peut être généralisée et on procède ainsi à la détermination du premier axe principal :

            Ui = a1x' + b1y' + cz'

            S12 = SU1i2 Max  et    a12 + b12 + C12 = 1

 

            Cette variance est la racine carrée la plus élevée de l'équation caractéristique[2] suivante  pour trois variables x1, x2, x3: D[R - sI] = 0 avec R: la matrice des corrélations linéaires rij, I: la matrice identité, s: la valeur propre et D: le déterminant de la matrice:

 

            1 - S2   r12       r13

     D    r12       1- S2    r23

            r13       r23       1-S2     = 0

 

            Le second axe est perpendiculaire à U et correspond au maximum de variance, c'est la 2° solution de l'équation. Le 3 ème axe correspond à la 3 ème valeur la plus élevée et il est perpendiculaire aux deux premiers axes...

 

            Les variables réduites sont remplacées par un système de variables transposées orthogonales, de variance progressivement décroissante. Les variances Si2 sont  les valeurs propres de la matrice de corrélation [Rxx]:

 

R =       1         r12       r13

            r21         1        r23

            r31       r32       1

 

            Elles sont définies par l'équation caractéristique: [R - s2I] = 0. Dans une matrice de rang 2 (deux variables), les valeurs propres sont les racines de l'équation caractéristique suivante: (R - s.I) = 0  ce qui nous donne:  (1 - s)2 - rx1x22.

 

                                                                                                                                         I a I

            Les coefficients directeurs sont les vecteurs propres correspondants:  [R - s2I]. I b I= 0

avec la contrainte : a 2+ b 2 + c 2 = 1                                                                                  I c I

                                                                                         

            La somme des variances est égale à n (n est le rang de la matrice): Ssi2 = n  tandis que la variance expliquée est exprimée par le rapport :  si 2/n.

 

            On a trois droites dont les équations sont comme suit :                                                                                                                         a          b         c

x'/a1 = y'/b1 = z'/c1                 U1 = a1x' +b1y' +c1z' > 0       > 0       > 0

x'/a2 = - y'/b2 = - '/c2             U2 = a2x' +b2y' +c2z' > 0       > 0       < 0

x'/a3 = - y'/b3 = z'/c3              U3 = a3x' +b3y' +c3z' > 0       < 0       > 0

 

            L'égalité des coéfficients a, b et c montre que la droite occupe une position centrale par rapport aux variables:

x'  = (xi -  x)/sx                       U1 = (xi - x)/sxa1 =     (yi -  y)/syb1 =    (zi -  z)/szc1

y'  = (yi -  y)/sy                       U2 =  (xi - x)/sxa2 =  - (yi -  y)/syb2 =  - (zi -  z)/szc2

z'  = (zi -  z)/sz                        U3 =  (xi - x)/sxa3 =  - (yi -  y)/syb3 =  - (zi -  z)/szc3

 

 

Exemple : Urbanisation (X1), Revenu par Hab (X2) et espérance de vie (X3) en Asie 1972.

 

Pays

Chine

Inde

Indo

nésie

Mon

golie

Népal

Philippines

Sri Lanca

Thai

lande

Corée S

Viet

nam

Com

bodge

Laos

Urba %

13.6

19.8

14.9

40.8

3.6

30

19.1

18.2

33.2

9.5

10.3

15

Rev/hab $

90

100

100

430

40

180

180

150

180

90

120

100

Espérance

50

41

47

57

40

49

61

54

51

50

42

47

 

Moyenne  : Revenu = 146,666, Urbanisation : 18,97%, Espérence de vie : 49.88 ans

Ecart-type : Revenu = 90,675 , Urbanisation : 10,310, Espérence de vie : 8.061

La matrice de corrélation (R) se présente comme suit :