L'ANALYSE CLASSIFICATOIRE,
POSTFACTORIELLE & TYPOLOGIQUE
Amor BELHEDI, FSHS, Université de
Tunis
L'Analyse Factorielle de Second Degré L'Analyse Factorielle en Série La Matrice de Transformation Structurelle La Classification L'Analyse Discriminante L'Analyse Canonique La Régionalisation
Introduction Présenter & Décrire une variable Réduire & Résumer une distribution Notions et Distributions de Probabilités Corrélation & Régression linéaire simple Corrélation & Régression simples courbes Test de Khi-deux Corrélation dans un tableau Chroniques & Distributions temporelles Corrélation & Régression multiples Droites des Moindres Rectangles Analyse Factorielle Classification & Typologie Tests des hypothèses Sondages & Distributions d'échantillonnage Quelques Eléments de calcul matriciel Tables Statistiques Papiers Fonctionnels Bibliographie Sommaire
Classification et typologie constituent une étape critique dans l'abstraction et le processus de connaissance de toute discipline. On ne va pas traiter ici des nombres classifications et typologies devenus maintenant triviales dans les divers domaines de la géographie qui utilisent un ou deux paramètres comme la classification des climats, des sols, de la dynamique démographique ou de la structure d'activité économique, elles relèveraient plutôt d'une étude de l'analyse quantitative générale en géographie ou de chacune des disciplines[1].
L'analyse de classification, l'analyse typologique et la régionalisation constituent un des objectifs fondamentaux de l'analyse des données en Géographie. Ces analyses sont faites à partir des données brutes ou encore mieux des scores factoriels ce qui est plus pertinent dans la mesure où les données sont déjà réduites et filtrées. Ainsi, au lieu de procéder à une typologie sur la base de quelques dizaines de variables, on opère sur les scores factoriels de quelques facteurs déjà identifiés par l'analyse factorielle. L'analyse multivariée se fait ainsi en deux étapes, d'abord l'analyse factorielle pour réduire et filtrer, ensuite l'nalayse postfactorielle pour classer, identifier des types ou dinstinguer des groupes ou faire ressortir des régions.
L'analyse factorielle était vers le début des années 1970 l'outil le plus élaboré et le terme de l'analyse multivariée tellement elle se présentait déjà difficile. Elle est devenue de nos jours, de plus en plus le point de départ de nombreuses analyses plus élaborées de réduction, de classification ou de typologie.
Il ne s'agit guère ici de présenter les méthodes d'analyse multivariée, tellement elles sont nombreuses et très variées mais on s'arrêtra essentiellement à quelques unes d'entre-elles. On peut citer l'analyse factorielle de second degré, la classification hiérarchique, l'analyse typologique, l'analyse discriminante ou canonique et la régionalisation.
I - L'ANALYSE FACTORIELLE DE SCOND DEGRE
C'est une analyse factorielle effectuée en deux étapes successives. Elle s'impose lorque le nombre de variables est élevé par rapport au nombre d'observations dans la mesure où il faut respecter la contrainte rapport variables/observations.
Cette situation s'avère très intéressante lorqu'on affaire à un découpage grosssier ou un nombre d'obsevations réduit. Dans ce cas, l'analyse d'un nombre réduit de variables n'épuise pas la réalité et pose même le problème du choix des variables. Une solution au problème est apportée par l'analyse factorielle de second degré. La première analyse se fait sur plusieurs champs relativement différenciés et homogènes qu'on essaie de résumer par un nombre réduit de facteurs comme la structure économique, la structuré démographique, le champs social...
Une fois ces champs résumés chacun par un nombre réduit de factuers allant de 1 à 3 facteurs importants, on procède à une seconde analyse factorielle sur les scores des facteurs de base dégagés en première étape.
Cette technique est de nature à permettre une synthèse encore plus condensée des données et une réduction plus poussée de l'information qui se font en deux étapes. Elle pose seulement un problème d'interprétation qui peut se poser au niveau de certains facteurs de second degré.
Exemple: Analyse factorielle à deux degrés du niveau de développement économique en Tunisie. Cf A Belhedi: Le niveau de développement socio-économique réginal en Tunisie. in "Quelques aspects du développement régional et local en Tunisie. cahiers du Ceres, 20, 1998.
Pour 23 gouvernorat on a procédé à l'ACP de 83 variables qui ont été regroupées en plusieurs champs: l'habitat, le logement, la mobilité, la démographie,la dessertedes équipements socio-collectifs, les infrastructures, la desserte et les infrastructures, le potentiel économique, l'infrastructure socio-économique et la structure de l'activité économique. L'analyse de second degré a touché seulement les deux premiers facteurs qui résument l'essentiel de l'information de chaque champ allant de 72 à 90% selon les cas.
La seconde analyse a permis de dégager 4 facteusr avec respectivement 36, 3, 16, 4, 11, 7 et 10,5%. Le premier facteur exprime le niveau de développement socio-économique avec une opposition bipolaire très nette entre deux sous-ensembles (Cf. tableau): le littoral moins les gouvernorats de Bizerte-Mahdia, plus ceux de ozeur-Kebili d'un côté, l'ensemble ouest diminué de Tozeur-Kebili et augmenté de Bizerte-Mahdia de l'autre.
|
Gouvernorat |
Score du Facteur I |
Gouvernorat |
Score du Facteur I |
|
Tunis |
2.260 |
Gafsa |
-0.128 |
|
Benarous |
1.421 |
Mahdia |
-0.250 |
|
Monastir |
1.370 |
Bizerte |
-0.357 |
|
Sousse |
1.133 |
Kef |
-0.755 |
|
Ariana |
0.964 |
Beja |
-1.033 |
|
Tozeur |
0.676 |
Zaghouan |
-1.040 |
|
Kebili |
0.586 |
Sidi Bouzid |
-1.098 |
|
Gabes |
0.427 |
Kairouan |
-1.207 |
|
Nabeul |
0.397 |
Kairouan |
-1.214 |
|
Sfax |
0.332 |
Siliana |
-1.241 |
|
Mednine |
0.178 |
Jendouba |
-1.362 |
|
Tataouine |
0.085 |
|
|
II - L'ANALYSE FACTORIELLE EN SERIE
L'analyse de la dynamique spatiale se fait à travers le temps en déterminant les mécanismes de passage entre les différentes situations en t0, t1, t2, ...tn.
L'analyse factorielle en série consiste à mettre verticalement en série plusieurs matrices de données se référant aux mêmes variables pour différentes dates ti et procéder à une analyse factoriell sur cette matrice résultante. Les facteurs dégagés résument ainsi la corrélation entre les mêmes variables à travers leur évolution dans le temps comme la scolarisation ou l'urbanisation.
Les scores factoriels d'un espace donné permettent de le situer à chaque période ti et d'utiliser les trajectoires pour la typologie de l'évolution de chaque espace dans le temps. Dans l'analyse factorielle en série, l'espace i en temps t0 est considéré comme un autre espace en t1, t2 ou tn. L'analyse de l'évolution des scores observés aux différentes dates nous permet d'interpréter le sens de cette évolution et de procèder à une typologie des évolutions et des espaces en fonction des profils dessinés sur le plan factoriel.
Pour pouvoir effectuer cette analyse, il faut avoir le même découpage spatial et les mêmes varaibles d'une période à une autre ce qui n'est pas souvent facile.
III - LA MATRICE DE TRANSFORMATION STRUCTURELLE
Lorsqu'on dispose de plusieurs matrices d'infoarmations décrivant les sitautions observées à des dates données pour différents espaces, on peut analyse la façon dont s'est opéré le passage d'un état à un autre. La démarche consiste à déterminer les coefficients de transformation assurant le passage entre deux matrices de données se référant à des dates différentes en utilisant le calcul matriciel.
La matrice données en tn est égale à celle de tn-1 multipliée par une matrice passage entre les deux dates n-1 et n, il s'agit d'une matrice de transformation structurelle:
[Dn] = [Dn-1].[Sij] d'où on peut écrire que [Sij] = [Dn]. [Dn-1]-1
Les coefficients Sij représentent les coefficients de transformation structurelle et de passage entre les deux dates correspondantes. Là aussi, il faut avoir le même découpage spatial et les mêmes variables utilisées aux différentes dates. D'autres méthodes sont à signaler qui utilisent l'analyse chronologique dont on peut citer les processus markoviens,...
VI - LA CLASSIFICATION
La classification constitue une étape importante vers l'abstraction, on peut citer la classification de Linné en sciences naturelles au XVIII° siècle et celle des climats de Koppen en 1911. Un des objectifs de la réduction factorielle est d'aboutir à une classification des observations selon leurs proximités et leurs ressemblances. Si l'analyse factorielle met en évidence les structures, la classification permet d'opérer des partitions et de distinguer des classes ou types en affectant les individus à une classe en tenant compte de toute l'information et non pas seulement d'une variable ou d'un seul facteur. Cette analyse est à mener de préférence sur les scores factordans la mesure où les données se trouvent déjà réduites et chaque axe factoriel résume une part importante de l'information souvent regroupée par domaine ou champ, mais elle peut être conduite sur les données brutes.
1 - Le modèle
Une classification est une partition où chaque élément est affecté à une classe donnée[2]. selon la méthode de classification qui peut être directe en un nombre fixé de classes ou sous la forme d'une hiérarchie emboîtée à plusieurs niveaux d'agrégation. Le modèle général s'appuie sur la distance entre un individu et un autre individu ou groupe. Plus cette distance est réduité, plus les deux entitiés sont proches et la classification se fait sur cette base quelque soit l améthode utilisée dans la détermination des classes, le critère de regroupement ou la nature de la distance utilisée.
Très souvent, la méthode consiste à calculer une matrice de distances ou de similarités entre les individus qui sont souvent des espaces en géographie en fonction des données correspondantes aux différentes variables ou aux divers scores factoriels considérés. On obtient ainsi une matrice des Distances (D) ou des Similarités (S) qui nous permet d'agréger les individus en classes selon un shéma hiérarchique ou non.
2 - Types de classification
On distingue deux grandes catégories de classification: la classification hiérarchique et la classification non hiérarchique.
a- La classification hiérarchique
C'est une classification hiérarchique à plusieurs niveaux où les groupes se trouvent emboîtés les uns dans les autres. On distingue deux types: la classification ascendante et la classification descendante. La classification hiérarchique est une hiérarchie emboitée qui se présente sous la forme d'un arbre classificatoire à plusieurs niveaux d'agrégation qui est obtenu par subdivision successive de l'ensemble général, c'est la classification hiérarchique descendante, soit en effectuant un regroupement successif des unités, c'est la classification hiérarchique ascendante.
* La classification hiérarchique ascendante (CHA ou CAH en anglais) consiste à, à partir des éléments, constituer des groupes en fonction de leurs ressemblances et des plus petites distances qui les séparent jusqu'à aboutir à un seul groupe qui contient toutes les observations. Elle va de (n-1) à 1. C'est comme on veut regrouper les gouvernorats, on passe ainsi de 24 pour les regrouper progressivement selon les affinités jusqu'à n'avoir qu'un seul: l'ensemble du pays. Cette méthode permet de tenir compte de plusieurs critères, n'exige pas d'hypothèse théorique mais nécessite le recours sytématique au calcul automatique.
* La classification hiérarchique descendante (CHD ou CDH) procède par le chemin inverse: elle consiste à subdiviser l'ensemble en groupes homogènes qui à leurs tours se trouvent subdivisés jusqu'à aboutir aux n unités élémentaires. Elle va de 1 à (n - 1). C'est le cas lorsqu'on veut subdiviser la Tunisie en groupes homogènes. On divise le pays en deux sous-ensembles qui chacun à son tour va être subdivisé en deux et le processus continue jusqu'à aboutir aux 24 gouvernorats. La subdivision de la CAH n'et pas forcément la même qu'on peut obtenir avec la CDH. C'est la méthode la plus ancienne, opérant sur des critères simples et ne nécessitant pas forcément beaucoup de calculs, la plus connue est de celle de Linné du monde végétal et animal en familles, genres et espèces. On cite aussi la classification des climats de Koppen en 1911 qui groupe 29 classes mais le nombre théorique de classes est de 108 sur la base d'une combinaison de quatre variables à 3, 3, 3, et 4 modalités.
On peut utiliser les résultats de l'analyse factorielle par ordre décroissant des facteurs identifiés et en se limitant aux plus importants si non on aura un nombre très élevé de classes pour procéder à une analyse arborescente. Très souvent, on se limite à trois classes par facteurs (> 0.4, +0.4 à -0.4, et < 0.4). Chaque groupe identifié sur le premier facteur (F1) se trouve, à son tour, subdivié en trois sous-classes selon les scores du second facteur F2 et ainsi de suite. Le nombre théorique de classes[3] est de c=mf avec c: le nombre de classes finales, m: le nombre de modalités retenues et f: le nombre de facteurs utilisés. Cette méthode a l'inconvénient d'aboutir très rapidement à un nombre élevé de classes; mais utilisée avec prudence, elle donne de bons résultats.
Exemple: En reprenant les données de l'ACP du chapitre précédent, on peut procéder à una analyse arborescente sur la base des scores factoriels A: score >0.4, B: score de 0.4 à -0.4 et C: score <0.4.
|
Région |
Urb |
Eau |
Elec |
Voit |
Tel |
|
|
Région |
I |
II |
III |
|
|
Classe |
Régions |
|
|
TU |
92.1 |
95 |
98.1 |
23.9 |
13.8 |
|
|
TU |
0.73 |
1.425 |
0.226 |
|
|
AAB |
TU, CE |
|
|
NE |
58.7 |
67.4 |
85.1 |
12.9 |
8.5 |
|
|
NE |
0.45 |
-0.314 |
-0.657 |
|
|
ABC |
NE |
|
|
NO |
34.4 |
45.9 |
76.3 |
9.2 |
3.6 |
|
|
NO |
-0.015 |
-0.642 |
-1.616 |
|
|
ACA |
SO |
|
|
CE |
69.6 |
76.4 |
92.3 |
17.8 |
10.4 |
|
|
CE |
0.596 |
0.479 |
-0.376 |
|
|
BCC |
NO |
|
|
CO |
29.5 |
36.8 |
59.8 |
9 |
7.9 |
|
|
CO |
-1.996 |
-0.258 |
0.126 |
|
|
CAA |
SE |
|
|
SE |
61.9 |
65.4 |
89.4 |
18.7 |
14 |
|
|
SE |
-0.552 |
0.864 |
0.917 |
|
|
CBB |
CO |
|
|
SO |
66.4 |
81.9 |
92 |
8.7 |
16.3 |
|
|
SO |
0.79 |
-1.554 |
1.38 |
|
|
|
|
|
Matrice données Matrice factorielle Classes et régions
La simplicité de la méthode de la classification descendante se trouve contrecarrée par deux griefs:
- le nombre de variables utilisés doit être limité puisque le nombre théorique de classes est de: c = P mv où v: la variable, m: le nombre de modalités. Pour 4 variables à 3 modalités chacune on a c = 3.3.3.3 = 81 classes. Le traitement automatique a simplifié les choses mais les calculs demeurent toujours importants.
- la justification théorique se pose pour l'ordre des critères utilisés.
b - La classification non hiérarchique
C'est une classification où les éléments ne sont pas forcément emboîtés et où un élément peut appartenir à plus d'un groupe.
Plusieurs méthodes utilisées débouchent directement sur une partition en un nombre fixe de classes, on peut citer le cas des nuées dynamiques:
A partir d'une partition initiale en k classes, des permutations successives d'unités supplémentaires sont opérées de manière à minimiser les différences intra-classes et maximiser les différences interclasses.
Sur la base d'une matrice des distances, on détermine une partition initiale Ci0 dont on peut calculer les centres de gravité Gi0.
On calcule la distance de chaque individu i à chaque centre de gravité et on affecte i à la classe dont le centre de gravité est le plus proche et on obtient ainsi une nouvelle partition Ci1 dont on calcule les centres de gravité Gi1.
On continue le processus jusqu'à ce qu'il n'y ait plus de modifications dans les partitions de deux étapes successives. La convergence exprime ainsi la stabilité de la prtition. La partition finale dépend de lapartition initiale et du nombre de classes choisi.
3 - Le regroupement
Une fois la matrice des distances calculée, on procède au regroupemnt des observations selon la plus petite distance qui se trouve dans la matrice. Le regroupement se fait progressivement de n observations jusqu'à former un seul ensemble
- Déterminer les distances [dij] et les confiner dans une matrice [D]
- Identifier la plus petite distance dans la matrice (d1) et regrouper les observations concernées qui forment le noyau du premier groupe.
- Recalculer les nouvelles distances de ce groupe identifié au reste des espaces ou des observations qui sont devenus maintenant (n - 1).
- Identifier de nouveau la plus petite distance (d2) et regrouper les éléments concernés. Cette distance peut concerner simplement une troisième observation qui va s'ajouter au premier groupe déjà identifié ou former un nouveau groupe.
- Recalculer de nouveau les nouvelles distances aux autres observations qui ne sont plus maintenent que (n - 2)
- Continuer le processus jusqu'à aboutir à un seul groupe qui renferme toutes les observations. A chaque étape, on recalcule la matrice des distances. Ainsi, on(n - 1) matrices distances à calculer.. Pour 24 gouvernorats en Tunisie, on aura besoin de23 matrices qui contient chacune un élément de moins que sa précédente: ((n 1) matrices de (n - 1), (n - 2), (n - 3),... 3, 2 éléments.
b- Les types de distances
Il existe plusieurs types de distance utilisées dans le regroupement des observations (euclidienne, rectilinaire, Mahalanobis, Jaccard, Rieman...). La distance la plus utilisée est la distance euclidienne qui utilise la théorème de Pythagore et la propriétté du triangle rectangle qui stipule que le carré de l'hpothénuse est égal à la some des carrés des deux autres. Cette distance est bien adaptée lorsqu'il s'agit de mesures et de résultas de l'ACP. Il y aussi la distance Khi-deux qui est utilisée lorsqu'on a affaire à des fréquences ou des résulltats de l'ACF. Mais là aussi, il faut choisir la distance qui convient le plus au type du problème posé.
c- La méthode de regroupement
Plusieurs méthodes de regroupement des individus sont utilisées, on peut citer les principales méthodes suivantes:
- Méthode du plus proche voisin ou du saut minimum: La distance entre deux groupes ou classes est définie par la plus courte distance qui sépare un individu de c1 et un autre de c2: d(c1,c2) = min[d(i, j) où i appartient à c1 et j à c2. La simplicité de cette méthode se trouve contrecarée par l'effet de chaînage où deux classes peuvent être considérées comme très proches pour la simple raison que deux de leurs éléments sont les plus proches.
- Méthode du diamètre maximum: La distance entre deux classes est définie par la plus grande distance séparant unn individu de c1 d'un autre de c2: d(c1, c2) = Max[d(i, j). Ce crière minimise le plus grand écart entre classes et permet d'obtenir des classes plus compactes.
- Méthode de la distance moyenne: c'est la moyenne des distances entre tous les éléments de c1 et de c2: d(c1, c2) = S(d(i, j)/n1.n2.
- Méthode de la distance entre centres de gravité: la distance entre classes est celle deur centre de gravité: d(c1, c2) = d(G1, G2).
- L'algorithme de Ward, cet algorithme a été utilisé dans la classification des systèmes d'habitat à Tunis[4].
Il existe d'autres méthodes d'agrégatio et la difficulté principale réside dans le choix de l'une de ces méthodes surtout qu'on aboutit souvent à des résultats différents.
d- L'arbre de classification
Le regroupement se trouve exprimé par l'arbre classificatoire, ou arbre factoriel lorsqu'il s'agit d'une analyse à partir des scores factoriels, qui permet de visualier les groupes et le niveau où s'opère le regroupement selon une échelle des distances qui va de la plus petite vers la distance maximale enregistrée dans les matrices Dij, appelé scalogramme. Sur un axe, on a les observations disposées selon les affinités observées, sur le second axe on a l'échelle classificatoire des distances qui montre l'indice de niveau de l'agrégation..
Les niveaux de regroupement (CAH) ou de bifurcation (CDH) représentent les noeuds et constituent les seuils permettant de fixer le nombre de groupe à retenir pour la présentation finale. L'arbre va de 1 à (n - 1) et on peut s'arrêter en fonction du nombre de groupe souhaité.
e- Le nombre de groupes
Le nombre de groupes potentiels va de 1 à (n - 1). Ce nombre, comme les classes, ne doit être ni trop petit, ni trop grand. Une division de la Tunisie en deux groupes est insuffisante tandis que 12 ou 15 groupes serait non pertinent.
Une bonne classification est celle qui optimise le rapport de variances, les groupes seraient le plus homogène possible à l'intérieur mais sont différents les uns des autres. Cette situation peut s'exprimer par le rapport entre la variance intragroupe et la variance intergroupes: Il s'agit de maximiser le rapport des variances: v = Var intra/Var inter. Plus ce rapport est réduit et plus la classification est bonne.
Le nombre de groupes peut être fixé d'avance et on choisit la classification qui optimise (v) ce qui nécessite de nombreuses itérations jusqu'à ce que'on aboutisse à la classification qui répond aux deux contraintes (v min, nombre de groupes fixé).
L'inertie totale (I) mesure la dispersion des individus autour du centre de gravité G du nuage, l'inertie de classe c exprime celle d'une classe, et Ip: l'inertie de la partition, mi: masse relative de l'individu i, mc: masse relative de la classe c avec mc = S(mi; i élément de c), C: le nombre de classes
I = S(mi d2(i, G); i=1,2,...n) .
Ic = S(mi d2(i, Gc); i: élément de c).
Ip: S(mc d2(Gc, G), Gc); c=1,2... C).
Sur la base de la décomposition de la variance, l'inertie totale du nuage de points est la somme de l'inertie interclasse ou de partition (Ip) et de l'inertie intraclasse qui elle même est la somme des inerties de chaque classe. On peut écrire alors la relation: I = Ip + SIc. Une partition est optimale lorsque Ic est maximale et SIc est minimale et dans la partition, il s'agit de regrouper les classes qui augmentent (ou diminuent) le moins l'inertie intraclasses (interclasses).
L'arbre classificatoire est suffisamment détaillé pour permettre un découpage fin et souple et une fois le regroupement arrêté, on peut fixer le nombre de groupes voulus et se limiter aux seuils d'aggrégation ou de bifurcation escompés[5]. La cartographie des résultats permet de visualiser les groupes.
La CHA se limite à délimiter les classes mais ne donne pas pourquoi tel individu est intégré à telle classe. Une méthode consiste à reporter les groupes identifiés sur le plan factoriel de l'ACP
Exemple: Classification hiérarchique ascendante des régions tunisiennes sur la base de cinq indicateurs socio-économiques en 1994. L'analyse de l'ACP avec rotation varimax brut montre trois facteurs importants avec 44.1 - 27.8 et 26.4% (Cf Chap précédent). Le premier exprime le niveau d'équipement, le second facteur exprime la motorisation tandis que le dernier reflète l'équipement téléphonique.
|
Région |
Urb |
Eau |
Elect |
Voit |
Tel |
|
Var |
I |
II |
III |
|
Région |
I |
II |
III |
|
|
|
TU |
92.1 |
95 |
98.1 |
23.9 |
13.8 |
|
Urb |
0.73 |
0.52 |
0.41 |
|
TU |
0.73 |
1.425 |
0.226 |
|
|
|
NE |
58.7 |
67.4 |
85.1 |
12.9 |
8.5 |
|
Eau |
0.82 |
0.34 |
0.43 |
|
NE |
0.45 |
-0.314< |