L'ANALYSE FACTORIELLE
Amor BELHEDI, FSHS, Université de Tunis
Le modèle général La matrice des Données Les types de l'analyse factorielle L'Analyse en Composantes Principales (ACP) L'Analyse Factorielles de Correspondances (AFC) L'Analyse Factorielle Générale Les saturations Les Scores La méthode du Centroïde La représentation géométrique La représentation graphique La formulation matricielle
Introduction
Présenter
& Décrire une variable
Réduire
& Résumer une distribution
Notions
et Distributions de Probabilités
Corrélation
& Régression linéaire simple
Corrélation
& Régression simples courbes
Test
de Khi-deux
Corrélation
dans un tableau
Chroniques
& Distributions temporelles
Corrélation
& Régression multiples
Droites
des Moindres Rectangles
Analyse
Factorielle
Classification
& Typologie
Tests
des hypothèses
Sondages
& Distributions d'échantillonnage
Quelques
Eléments de calcul matriciel
Tables
Statistiques
Papiers
Fonctionnels
Bibliographie
Sommaire
C'est aussi le cas de plusieurs variables qui présentent de fortes corrélations entre elles comme la scolarisation, le revenu, le statut social, le type de logement, la CSP ou la motorisation si bien que le problème d'interprétaion et de choix se pose?. Même si certaines sont fortement corrélées entre elles. On a trouve ainsi de fortes corrélations entre toutes ces variables citées ci-dessus mais laquelle de ces variables explique l'autre?. En réalité, ces variables se trouvent sur-déterminées conjointement, à des titres variables, par un facteur invisible, donc non mesurable directement, et se trouve à l'origine des fortes intercorrélations, c'est le statut socio-économique dans ce cas par exemple qui se trouve derrière toutes ces variables.
On ne peut mesurer ces
facteurs qu'indirectement par l'intermédiaire des variables qui les expriment.
C'est ainsi que l'analyse factorielle se présnet comme une méthode de
réduction et de synthèse à la fois.
Nous avons vu dan sle
chapitre précédent comment la méthode des moindres rectangles conduit à
l'analyse en composantes principales et constitue une synthèse de l'information
pour les deux variables simultanément.
La technique consiste à
résumer la matrice-données avec une perte minimale et contrôlée de l'information
initiale par un nombre réduit de facteurs aussi différenciés que possible.?
C'est une transformation linéaire dont le modèle général s'écrit de la forme : xi =
SaijFj +
Uj
avec xi: l'observation i sur x. Fj:
le facteur j. Uj: élément aléatoire et aij: saturation ou corrélation de la
variable i sur le facteur j.
On peut distinguer trois étapes fondamentales: la matrice-données et son traitement, la matrice factorielle qui résume la corrélation variables-facteurs et la matrice des scores qui exprime la projection des observations sur les facteurs identifiés.
1 - LA MATRICE DONNEES: choix et prétraitement
C'est une matrice X(n,p) à n observations (lignes) et p variables (colonnes) dont chaque case représente la valeur (xij) de la variable j pour l'observation i..
X(n, p)
|
|
1 2 j p |
|
1 |
x11 x12 x1j x1p |
|
2 |
x21 x22 x2j x2p |
|
.. |
... . .... ... . ... |
|
i |
xi1 xi2 xij xip |
|
n |
xn1 xn2 xnj xnp |
Matrice Données
On peut représenter chaque observation par un point dans un espace à p dimensions (Rp) comme on représente chacune des variables p par un point dans un espace à n dimensions (Rn). Chaque vecteur est un point dans l'espace Rp ou Rn selon l'optique de l'analyse retenue (colonnes ou lignes).
1- Le choix des données
La pertinence des résultats dépend du choix des données initiales si bien qu'il faut définir la problematique d'ensemble pour pouvoir choisir les variables appropriées. Il est évident que la réduction, le nombre de facteurs, la variance expliquée et la nature des facteurs dégagés ne sont que l'expression des données introduites au début de l'analyse si bien qu'il faut faire beaucoup d'attention à ce niveau. Le résultat dépend de l'échelle d'analyse et du découpage adopté pour la collecte des données. La grille d'information constitue ainsi un filtre sélectif qui va déterminer l'output. la nature des variables doit correspondre à la problématique d'analyse. Si on veut étudier les inégalités régionales, les variables doivent exprimer ces inégalités, si on veut étudier le développement industriel les variables doivent être en conséquence. Toute information non pertinente introduit ddes biais dans les résultats.
a- Le nombre de variables
Le nombre
d'observations doit être supérieur au nombre de variables pour pouvoir effectuer
l'analyse selon les lignes (p < n-1) et vice versa pour les colonnes.
b- Eviter la redondance
Plus on retient des
variables très corrélées, plus il y a de la redondance et plus la réduction est
élevée (un nombre réduit de facteurs) mais plus la différenciation se trouve un
peu réduite. Il convient dès le début d'éliminer les variables qui ne sont en
réalité qu'une combinaison arithmétique (toute information qu'on peut obtenir
par les opérations arithmétiques classiques: +, -, x et :) des autres variables
et ne garder que les faits représentatifs sur la base de la problématique
définie. L'information apportée par la population agricole lorsqu'on a celle
des services et du secteur secondaire ou la part des vieux lorsqu'on a déjà
celle des jeunes et des adultes est inutile, au contraire elle contribue à
gonfler la variance expliquée.
c- Limiter l'effet de taille
Il faut veiller à
éliminer l'effet de la taille qui se trouve incorporé dans les données absolues
et les effectifs et ce en mesurant autant que possible les variables en
pourcentage ce qui permet de relativiser les faits, éliminer l'effet taille et
concerner beaucoup plus la structure des faits que leur taille. C'est ainsi par
exemple des données relatives à la population, la population urbaine ou agricole,
le nombre d'établissements qui expriment avant tout l'effet de taille et
classent les espaces selon leurs poids alors que les mêmes variables exprimées
en % reflètent beaucoup plus la structure de ces espaces et pondère l'effet
dimensionnel. Tunis se détache trop du reste des villes tunisiennes dans le
premier cas et tire le nuage vers elle, elle reste dominante dan sle second cas
sans déformer trop le nuage de points et de là les résultats. Elle pourrait
avoir des valeurs trés faibles en terme de structure même si elle occupe les
premiers rangs en valeur absolue, c'est le cas par exemple de l apopulation
agricole.
On a vu que le premier facteur exprime le maximum de variance, il reflète toujours l'effet de taille d'où la necessité de recourir à la rotation (Cf. infra).
d- Un rapport raisonnable facteurs-variables
Il y a autant de
facteurs que de variables, seulement ces facteurs ont un poids décroissant selon
l'ordre d'extraction. Le choix des données doit se faire selon un dosage
raisonnable entre le nombre de champs balayés et le nombre de variables par
champ.
En effet, des données très diversifiées risquent de nous livrer de nombreux facteurs équivalents où chcun résume une seule variable. Si on choisit, au contraire, toutes les variables dans un seul champ, on risque d'avoir un seul facteur qui résume le maximum de variance?.
La solution raisonnable passe par la position intermédiaire: il s'agit d'avoir un nombre réduit de facteurs avec à l'intérieur lemaximum de variables.
e- Le découpage spatial
Souvent, les
observations sont représentées par les espaces ou les lieux en géographie. Plus
le découpage est fin et plus les nuances sont claires et la différenciation
spatiale est nette. L'analyse factorielle permet l'analyse des structures
spatiales et la différenciation spatiale des lieux mais aussi leur dynamique en
fonction de la nature des variables utilisées.
2- Types d'analyse factorielle
On peut distinguer en gros trois grands types d'analyse factorielle selon l'objectif fixé et la nature des données disponibles: l'analyse en composantes principales (ACP), l'analyse de correspondances factorielles (AFC ou ACF) et l'analyse des facteurs communs et spécifiques (AF).
a- L'Analyse en Composantes
Principales (ACP)
C'est la méthode la
plus simple et la moins exigente puisqu'elle ne demande aucune condition préavec
toutefois un certain nombre de contraintes: 1- la matrice de données doit être
composée d'une seule catégorie de données. 2- les données sont quantitatives et
mesurables.
La standardisation
permet de normaliser les données et de réduire l'éffet de taille qui est souvent
exprimé par le premier facteur, donc de reduire la part de ce dernier.
On peut distinguer deux types d'analyse factorielle en composantes principales ou ACP selon qu'on travaille sur une matrice réduite ou standardisée.
- L'ACP non normée
La matrice-données
X(n,p) est centrée sur les variables (en colonne) ce qui donne la matrice
X1(n,p). L'analyse de cette matrice donne lieu à la matrice Variances-Covariances
[V]:
X (n, p) donne (centrage)
X1(n,
p) donne V = [ X1'.X1 ]
- L'ACP Normée
La matrice X(n,p) est
standardisée sur les variables (en colonne) donnant une matrice X2(n,p) dont
l'analyse donne lieu à la matrice de corrélation [R ]:
X (n, p) donne (standardisation)
X2(n,
p) donne R = [ X1'.X1 ]
Cette matrice sert
d'affiner les données avant de commencer le traitement. Elle est de nature à
montrer clairement la redondance (très fortes corrélations circulaires) et
l'indépendance (corrélations proches de zéro). L'analyse de la matrice de
corrélation est de nature à permettre à éliminer les très fortes comme les très
faibles corrélations, de déceler les noyaux de variables intercorrélées et les
variables isolées.
L'idéal serait d'avoir
un nombre restreint de noyaux de variables reliées entre elles ce qui réduit les
facteurs spécifiques et améliore la réduction. Il s'agit alors de garder un
nombre limité de variables à partir des noyaux détectés dans la matrice.
b- L'Analyse Factorielle de
Correspondance (AFC)
L'AFC intéresse les
tableaux de contingence (des effectifs) qui sont de type probabiliste
ce qui nécessite la métrique de Khi-deux.
La case nij du tableau
indique l'effectif ou la fréquence nij correspondant aux modalités i et i,
assimilés à une probabilité d'être j alors que la modalité i est déjà réalisée.
C'est la probabilité conditionnelle p i et j: p i et j = pi/j pi. = pj/i p;j
pi/j et pj/i : Probabilité
conditionnelle de i si j est réalisé et vice versa
pi. et p.j : Probabilité marginale
ou globale de i et de j
Dans ce modèle, on
utilise la métrique
c2
qui fait que la distance entre i et h est exprimée ainsi (elle peut être
pondérée): d2(i,
h) = S(pi
et j/pi. - ph et j/ph.)2
En divisant par p.j on obtient : d2(i,
h) = S(pi
et j/pi.(p.j)1/2
- ph et j/ph.(p.j)1/2)2
En calculant cette
distance entre les lignes, on obtient la matrice des distances S. Chaque
vecteur est une somme de carrés assimilée à la somme de carrés de variables
aléatoires indépendantes et normalement distribuées (c2).
La symétrie du tableau
de contingence permet de passer de l'analyse dans Rp à
celle de l'analyse dans Rn.
Le résultat ne change pas lorsqu'on regroupe deux classes en une seule (objet/indicateur).
Les coordonnées des deux espaces sont fournies sur le même graphique.
L'analyse de
correspondances peut toucher les nombres positifs dont l'écart ne dépasse pas
100 et les valeurs binaires (0, 1).
c- L'Analyse des Facteurs communs
et spécifiques (AF)
Chaque vecteur de la
matrice-données X(n, p) contient une information double: une partie commune et
une partie sépcifique :
- La partie commune qui
peut être résumée par quelques facteurs: hj2.
Elle est exprimée par les communautés.
- La partie spécifique
relative à chaque variable constitue le résidu aléatoire et les erreurs
de mesure :
se2
Dans la matrice de
corrélation (R) on remplace les unités de la diagonale principale par les
communautés ou les valeurs qu'on estime résumer la partie commune. L'idéal
serait l'unité mais différentes méhodes existent pour déterminer ces communautés
:
Le modèle général
s'écrit alors:
sj2
= hj2 +
sej2
.
Lorsque le résidu aléatoire
sej2
tend vers zéro, on retrouve
l'ACP qui n'est qu'une forme particulière de l'Analyse Factorielle Générale (AFG)
ou l'analyse des facteurs (AF) .
Le problème qui se pose est celui de l'estimation de ces communautés. Il existe de nombreuses méthodes pour cela comme la moyenne, le coefficient de détermination ou la plus grande corrélation... La solution courante est le coefficient de détermination multiple (R2j) mais il est souvent faible ce qui fait qu'on retient très souvent la plus forte corrélation de la matrice.
X(n, p) donne (standardisation) R(p, p) donne (communautés) R'(p, p).
II - L'ANALYSE FACTORIELLE
L'analyse consiste à condenser la matrice de données transformées obtenue X' (p, p) en une matrice factorielle F(p, f) où chaque facteur est une combinaison linéaire des variables (f < p). La matrice X'(p, p) peut correspondre à quatre types de matrice : R, R' , V, et S et à chaque type de matrice correspond une catégorie d'analyse factorielle :
|
Type de matrice |
Type d'analyse |
|
R : Matrice de corrélation R' : Matrice de corrélation avec communautés
V: Matrice de variances-covariances |
ACP Normée Analyse des Facteurs ACP Non Nomrmée AFC |
Le facteur étant une
combinaison linéaire des variables, (xij =
Saij.Fj
+ Uj), deux hypothèses sous-jacentes à l'analyse factorielle sont à préciser:
- la
linéarité de la relation: la relation entre variables et facteurs est
linéaire.
- la
normalité: les variables et les facteurs ont une distribution normale. Pour
cela, il suffit que les facteurs le soient.
A partir de là, la démarche à suivre est presque la même quelque soit le type d'analyse à faire. Il s'agit de déterminer les valeurs et les vecteurs propres de la matrice transformée (R, R', V ou S) de plusieurs manières. Les vecteurs propres (et les valeurs propres associées) sont les composants fondamentaux d'une matrice (Cf. annexe) et il existe plusieurs méthodes pour décomposer une matrice en ses vecteurs propres (ACP, centroïde, vraisemblance...). Dans la suite du texte, il s'agira souvent de l'ACP qui constitue la méthode la plus classique et la plus utilisée à moins qu'on a affaire à des effectifs où il s'agit de procéder à une analyse de correspondances.
Lorsque les facteurs sont indépendants, la somme des carrés des saturations d'une variable i sur l'ensemble des facteurs est égale à l'unité tandis que le coefficient de corrélation linéaire entre deux variables rij est la somme des produits des saturations de ces deux variables i et j sur l'ensemble des facteurs p. On peut écrire les relations de base suivantes:
Saip
= 1 : ai12 +
ai22
+ ... aip2
= 1
Saipajp = rij
: ai1aj1+
ai2aj2 +
... aipajp
= rij
1 - La représentation matricielle
L'utilisation du calcul matriciel simplifie encore plus la résolution du problème (Cf. annexe). La première étape consiste à transformer la matrice-données en une matrice Distances S, de Variances-Covariances V ou de Corrélations R. Ces matrices sont symétriques (vecteurs propores orthogonaux) si bien qu'il y a autant de valeurs propres non nulles (facteurs) que la rang de la matrice, elles sont des matrices convergentes (matrices régulières) .
Valeurs et vecteurs propres
Chaque matrice converge
vers ses vecteurs propres (Cf. annexe) si elle est multipliée par une valeur
fixe. Si on pose M une matrice (R, R', V ou S), on démontre que en multipliant
la matrice M par un vecteur IXiI et en répétant le processus autant de fois, on
converge vers le vecteur propre. Le rapport des deux dernières valeurs est la
valeur prrope :
[M]. IX1I = [X2]
[M]. IX2I = [X3]
.............................
[M]. IXn-1I = [Xn]
Lorsqu'il y a convergence, on peut écrire la relation suivante: Xn-1/Xn = li = a2n-1/a2n= a'2n-1/a'2n avec xn-1 : vecteur propre = Ui, li: valeur propre
La matrice des sturations
La matrice des
staurations exprime les corrélations qui lient les variables aux facteurs. Les
valeurs varient de -1 à +1 à l'instar de la corrélation linéaire.
Par ailleurs, pour une
matrice de corrélation R (ou R'), le problème consiste à trouver une matrice
[A] qui multipliée psa transposée[1]
donne la matrice de corrélation R ou celle des communautés R': [R] = [A].[A']
et
[R']
= [A][A'].
On peut écrire les relations sous la forme linéaire suivante Xi = Saij