L'ANALYSE FACTORIELLE
Amor BELHEDI, FSHS, Université de Tunis
Le modèle général La matrice des Données Les types de l'analyse factorielle L'Analyse en Composantes Principales (ACP) L'Analyse Factorielles de Correspondances (AFC) L'Analyse Factorielle Générale Les saturations Les Scores La méthode du Centroïde La représentation géométrique La représentation graphique La formulation matricielle
Introduction
Présenter
& Décrire une variable
Réduire
& Résumer une distribution
Notions
et Distributions de Probabilités
Corrélation
& Régression linéaire simple
Corrélation
& Régression simples courbes
Test
de Khi-deux
Corrélation
dans un tableau
Chroniques
& Distributions temporelles
Corrélation
& Régression multiples
Droites
des Moindres Rectangles
Analyse
Factorielle
Classification
& Typologie
Tests
des hypothèses
Sondages
& Distributions d'échantillonnage
Quelques
Eléments de calcul matriciel
Tables
Statistiques
Papiers
Fonctionnels
Bibliographie
Sommaire
C'est aussi le cas de plusieurs variables qui présentent de fortes corrélations entre elles comme la scolarisation, le revenu, le statut social, le type de logement, la CSP ou la motorisation si bien que le problème d'interprétaion et de choix se pose?. Même si certaines sont fortement corrélées entre elles. On a trouve ainsi de fortes corrélations entre toutes ces variables citées ci-dessus mais laquelle de ces variables explique l'autre?. En réalité, ces variables se trouvent sur-déterminées conjointement, à des titres variables, par un facteur invisible, donc non mesurable directement, et se trouve à l'origine des fortes intercorrélations, c'est le statut socio-économique dans ce cas par exemple qui se trouve derrière toutes ces variables.
On ne peut mesurer ces facteurs qu'indirectement par l'intermédiaire des variables qui les expriment. C'est ainsi que l'analyse factorielle se présnet comme une méthode de réduction et de synthèse à la fois.
Nous avons vu dan sle chapitre précédent comment la méthode des moindres rectangles conduit à l'analyse en composantes principales et constitue une synthèse de l'information pour les deux variables simultanément.
La technique consiste à résumer la matrice-données avec une perte minimale et contrôlée de l'information initiale par un nombre réduit de facteurs aussi différenciés que possible.? C'est une transformation linéaire dont le modèle général s'écrit de la forme :
xi = SaijFj + Uj
avec xi: l'observation i sur x. Fj: le facteur j. Uj: élément aléatoire et aij: saturation ou corrélation de la variable i sur le facteur j.
On peut distinguer trois étapes fondamentales: la matrice-données et son traitement, la matrice factorielle qui résume la corrélation variables-facteurs et la matrice des scores qui exprime la projection des observations sur les facteurs identifiés.
1 - LA MATRICE DONNEES: choix et prétraitement
C'est une matrice X(n,p) à n observations (lignes) et p variables (colonnes) dont chaque case représente la valeur (xij) de la variable j pour l'observation i..
X(n, p)
|
|
1 2 j p |
|
1 |
x11 x12 x1j x1p |
|
2 |
x21 x22 x2j x2p |
|
.. |
... . .... ... . ... |
|
i |
xi1 xi2 xij xip |
|
n |
xn1 xn2 xnj xnp |
Matrice Données
On peut représenter chaque observation par un point dans un espace à p dimensions (Rp) comme on représente chacune des variables p par un point dans un espace à n dimensions (Rn). Chaque vecteur est un point dans l'espace Rp ou Rn selon l'optique de l'analyse retenue (colonnes ou lignes).
1- Le choix des données
La pertinence des résultats dépend du choix des données initiales si bien qu'il faut définir la problematique d'ensemble pour pouvoir choisir les variables appropriées. Il est évident que la réduction, le nombre de facteurs, la variance expliquée et la nature des facteurs dégagés ne sont que l'expression des données introduites au début de l'analyse si bien qu'il faut faire beaucoup d'attention à ce niveau. Le résultat dépend de l'échelle d'analyse et du découpage adopté pour la collecte des données. La grille d'information constitue ainsi un filtre sélectif qui va déterminer l'output. la nature des variables doit correspondre à la problématique d'analyse. Si on veut étudier les inégalités régionales, les variables doivent exprimer ces inégalités, si on veut étudier le développement industriel les variables doivent être en conséquence. Toute information non pertinente introduit ddes biais dans les résultats.
a- Le nombre de variables
Le nombre d'observations doit être supérieur au nombre de variables pour pouvoir effectuer l'analyse selon les lignes (p < n-1) et vice versa pour les colonnes.
b- Eviter la redondance
Plus on retient des variables très corrélées, plus il y a de la redondance et plus la réduction est élevée (un nombre réduit de facteurs) mais plus la différenciation se trouve un peu réduite. Il convient dès le début d'éliminer les variables qui ne sont en réalité qu'une combinaison arithmétique (toute information qu'on peut obtenir par les opérations arithmétiques classiques: +, -, x et :) des autres variables et ne garder que les faits représentatifs sur la base de la problématique définie. L'information apportée par la population agricole lorsqu'on a celle des services et du secteur secondaire ou la part des vieux lorsqu'on a déjà celle des jeunes et des adultes est inutile, au contraire elle contribue à gonfler la variance expliquée.
c- Limiter l'effet de taille
Il faut veiller à éliminer l'effet de la taille qui se trouve incorporé dans les données absolues et les effectifs et ce en mesurant autant que possible les variables en pourcentage ce qui permet de relativiser les faits, éliminer l'effet taille et concerner beaucoup plus la structure des faits que leur taille. C'est ainsi par exemple des données relatives à la population, la population urbaine ou agricole, le nombre d'établissements qui expriment avant tout l'effet de taille et classent les espaces selon leurs poids alors que les mêmes variables exprimées en % reflètent beaucoup plus la structure de ces espaces et pondère l'effet dimensionnel. Tunis se détache trop du reste des villes tunisiennes dans le premier cas et tire le nuage vers elle, elle reste dominante dan sle second cas sans déformer trop le nuage de points et de là les résultats. Elle pourrait avoir des valeurs trés faibles en terme de structure même si elle occupe les premiers rangs en valeur absolue, c'est le cas par exemple de l apopulation agricole.
On a vu que le premier facteur exprime le maximum de variance, il reflète toujours l'effet de taille d'où la necessité de recourir à la rotation (Cf. infra).
d- Un rapport raisonnable facteurs-variables
Il y a autant de facteurs que de variables, seulement ces facteurs ont un poids décroissant selon l'ordre d'extraction. Le choix des données doit se faire selon un dosage raisonnable entre le nombre de champs balayés et le nombre de variables par champ.
En effet, des données très diversifiées risquent de nous livrer de nombreux facteurs équivalents où chcun résume une seule variable. Si on choisit, au contraire, toutes les variables dans un seul champ, on risque d'avoir un seul facteur qui résume le maximum de variance?.
La solution raisonnable passe par la position intermédiaire: il s'agit d'avoir un nombre réduit de facteurs avec à l'intérieur lemaximum de variables.
e- Le découpage spatial
Souvent, les observations sont représentées par les espaces ou les lieux en géographie. Plus le découpage est fin et plus les nuances sont claires et la différenciation spatiale est nette. L'analyse factorielle permet l'analyse des structures spatiales et la différenciation spatiale des lieux mais aussi leur dynamique en fonction de la nature des variables utilisées.
2- Types d'analyse factorielle
On peut distinguer en gros trois grands types d'analyse factorielle selon l'objectif fixé et la nature des données disponibles: l'analyse en composantes principales (ACP), l'analyse de correspondances factorielles (AFC ou ACF) et l'analyse des facteurs communs et spécifiques (AF).
a- L'Analyse en Composantes Principales (ACP)
C'est la méthode la plus simple et la moins exigente puisqu'elle ne demande aucune condition préavec toutefois un certain nombre de contraintes: 1- la matrice de données doit être composée d'une seule catégorie de données. 2- les données sont quantitatives et mesurables.
La standardisation permet de normaliser les données et de réduire l'éffet de taille qui est souvent exprimé par le premier facteur, donc de reduire la part de ce dernier.
On peut distinguer deux types d'analyse factorielle en composantes principales ou ACP selon qu'on travaille sur une matrice réduite ou standardisée.
- L'ACP non normée
La matrice-données X(n,p) est centrée sur les variables (en colonne) ce qui donne la matrice X1(n,p). L'analyse de cette matrice donne lieu à la matrice Variances-Covariances [V]:
X (n, p) donne (centrage) X1(n, p) donne V = [ X1'.X1 ]
- L'ACP Normée
La matrice X(n,p) est standardisée sur les variables (en colonne) donnant une matrice X2(n,p) dont l'analyse donne lieu à la matrice de corrélation [R ]:
X (n, p) donne (standardisation) X2(n, p) donne R = [ X1'.X1 ]
Cette matrice sert d'affiner les données avant de commencer le traitement. Elle est de nature à montrer clairement la redondance (très fortes corrélations circulaires) et l'indépendance (corrélations proches de zéro). L'analyse de la matrice de corrélation est de nature à permettre à éliminer les très fortes comme les très faibles corrélations, de déceler les noyaux de variables intercorrélées et les variables isolées.
L'idéal serait d'avoir un nombre restreint de noyaux de variables reliées entre elles ce qui réduit les facteurs spécifiques et améliore la réduction. Il s'agit alors de garder un nombre limité de variables à partir des noyaux détectés dans la matrice.
b- L'Analyse Factorielle de Correspondance (AFC)
L'AFC intéresse les tableaux de contingence (des effectifs) qui sont de type probabiliste ce qui nécessite la métrique de Khi-deux.
La case nij du tableau indique l'effectif ou la fréquence nij correspondant aux modalités i et i, assimilés à une probabilité d'être j alors que la modalité i est déjà réalisée. C'est la probabilité conditionnelle p i et j: p i et j = pi/j pi. = pj/i p;j
pi/j et pj/i : Probabilité conditionnelle de i si j est réalisé et vice versa
pi. et p.j : Probabilité marginale ou globale de i et de j
Dans ce modèle, on utilise la métrique c2 qui fait que la distance entre i et h est exprimée ainsi (elle peut être pondérée): d2(i, h) = S(pi et j/pi. - ph et j/ph.)2
En divisant par p.j on obtient : d2(i, h) = S(pi et j/pi.(p.j)1/2 - ph et j/ph.(p.j)1/2)2
En calculant cette distance entre les lignes, on obtient la matrice des distances S. Chaque vecteur est une somme de carrés assimilée à la somme de carrés de variables aléatoires indépendantes et normalement distribuées (c2).
La symétrie du tableau de contingence permet de passer de l'analyse dans Rp à celle de l'analyse dans Rn. Le résultat ne change pas lorsqu'on regroupe deux classes en une seule (objet/indicateur). Les coordonnées des deux espaces sont fournies sur le même graphique.
L'analyse de correspondances peut toucher les nombres positifs dont l'écart ne dépasse pas 100 et les valeurs binaires (0, 1).
c- L'Analyse des Facteurs communes et spécifiques (AF)
Chaque vecteur de la matrice-données X(n, p) contient une information double: une partie commune et une partie sépcifique :
- La partie commune qui peut être résumée par quelques facteurs: hj2. Elle est exprimée par les communautés.
- La partie spécifique relative à chaque variable constitue le résidu aléatoire et les erreurs de mesure : se2
Dans la matrice de corrélation (R) on remplace les unités de la diagonale principale par les communautés ou les valeurs qu'on estime résumer la partie commune. L'idéal serait l'unité mais différentes méhodes existent pour déterminer ces communautés :
Le modèle général s'écrit alors: sj2 = hj2 + sej2 . Lorsque le résidu aléatoire sej2 tend vers zéro, on retrouve l'ACP qui n'est qu'une forme particulière de l'Analyse Factorielle Générale (AFG) ou l'analyse des facteurs (AF) .
Le problème qui se pose est celui de l'estimation de ces communautés. Il existe de nombreuses méthodes pour cela comme la moyenne, le coefficient de détermination ou la plus grande corrélation... La solution courante est le coefficient de détermination multiple (R2j) mais il est souvent faible ce qui fait qu'on retient très souvent la plus forte corrélation de la matrice.
X(n, p) donne (standardisation) R(p, p) donne (communautés) R'(p, p).
II - L'ANALYSE FACTORIELLE
L'analyse consiste à condenser la matrice de données transformées obtenue X' (p, p) en une matrice factorielle F(p, f) où chaque facteur est une combinaison linéaire des variables (f < p). La matrice X'(p, p) peut correspondre à quatre types de matrice : R, R' , V, et S et à chaque type de matrice correspond une catégorie d'analyse factorielle :
|
Type de matrice |
Type d'analyse |
|
R : Matrice de corrélation R' : Matrice de corrélation avec communautés V: Matrice de variances-covariances S : Matrice des distances (Khi-deux) |
ACP Normée Analyse des Facteurs ACP Non Nomrmée AFC |
Le facteur étant une combinaison linéaire des variables, (xij = Saij.Fj +Uj), deux hypothèses sous-jacentes à l'analyse factorielle sont à préciser:
- la linéarité de la relation: la relation entre variables et facteurs est linéaire.
- la normalité: les variables et les facteurs ont une distribution normale. Pour cela, il suffit que les facteurs le soient.
A partir de là, la démarche à suivre est presque la même quelque soit le type d'analyse à faire. Il s'agit de déterminer les valeurs et les vecteurs propres de la matrice transformée (R, R', V ou S) de plusieurs manières. Les vecteurs propres (et les valeurs propres associées) sont les composants fondamentaux d'une matrice (Cf. annexe) et il existe plusieurs méthodes pour décomposer une matrice en ses vecteurs propres (ACP, centroïde, vraisemblance...). Dans la suite du texte, il s'agira souvent de l'ACP qui constitue la méthode la plus classique et la plus utilisée à moins qu'on a affaire à des effectifs où il s'agit de procéder à une analyse de correspondances.
Lorsque les facteurs sont indépendants, la somme des carrés des saturations d'une variable i sur l'ensemble des facteurs est égale à l'unité tandis que le coefficient de corrélation linéaire entre deux variables rij est la somme des produits des saturations de ces deux variables i et j sur l'ensemble des facteurs p. On peut écrire les relations de base suivantes:
Saip = 1 : ai12 + ai22 + ... aip2