Analyse univariée ou unidimensionnelle
Série & distribution statistiques Table de fréquences Représentation graphique Partition en classes
Introduction Présenter & Décrire une variable Réduire & Résumer une distribution Notions et Distributions de Probabilités Corrélation & Régression linéaire simple Corrélation & Régression simples courbes Test de Khi-deux Corrélation dans un tableau Chroniques & Distributions temporelles Corrélation & Régression multiples Droites des Moindres Rectangles Analyse Factorielle Classification & Typologie Tests des hypothèses Sondages & Distributions d'échantillonnage Quelques Eléments de calcul matriciel Tables Statistiques Papiers Fonctionnels Bibliographie Sommaire
Après la collecte des données relative à un caractère, la première
étape de l'analyse consiste à présenter et décrire les données récoltées soue
une forme simple, succincte et claire avant de procéder à les résumer par des
indicateurs, d'analyser la distribution des observations et de pouvoir comparer
les distributions ou les différentes observations entre elles.
Cette analyse est appelée univariée ou unidimensionnelle dans
la mesure où elle se limite à l'étude d'un seul caractère ou une seule variable.
Comment présenter et représenter une variable sous la forme d'un tableau ou d'un
graphique, Comment déterminer les classes et quelle méthode de
partition utiliser ?. c'est ce à quoi ce chapitre essaie de répondre.
Une fois, les données sont collectées, la première étape de l'analyse consiste à
décrire et présenter ces données recueillies directement ou indirectement
sous une forme simple, claire, concise et lisible. Il s'agit d'ordonner les
valeurs observées, les regrouper en classes, les présenter sous forme de
tableaux ou de graphiques et essayer de saisir le sens à chacune de ces étapes:
autrement structurer les données et les présenter sous une forme
structurée, claire et simplifiée et tenter de trouver un sens à cette structure.
1 - Série et distribution statistiques: Ordonner et ranger les données
1.1- Série et distribution statistiques: Souvent on confond les deux termes. Une série statistique est un ensemble de chiffres ou de données. Une fois que ces chiffres sont ordonnés, on obtient une distribution statistique. La première étape consiste ainsi à ordonner les données dans un sens déterminé (croissant ou décroissant) pour pouvoir les analyser par la suite: regrouper ces données en classes, faire des graphiques ou procéder à des calculs (d'une moyenne ou d'une proportion...) et des analyses diverses. Une distribution statistique est donc une série statistique qui a été déjà ordonnée selon un ordre croissant ou décroissant.
Exemple: les chiffres 0, 1, 2, 0, 10, 4, 3, 2, 1, 1, 2, 1 représentent uns série statistique, c'est le cas par exemple des données lorsqu'on fait une enquête sur le terrain, on récolte des données dans le désordre le plus total. La série ci-dessus devient alors une distribution lorsqu'on l'ordonne dans le sens croissant ou décroissant comme suit : 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 4, 10 ou 10, 4,, 3, 2, 2, 2, 1,1,1,1, 0, 0.
1.2- Types
de distributions: On distingue trois types de distributions: la
distribution statistique, chronologique et spatiale.
La distribution statistique est toute série statistique ordonnée quelque soit la nature des variables: exemple l'investissement par secteur d'activité durant le X ème plan 2002-2006. Le terme de distribution statistique est général et englobe les deux derniers types de distribution.
La distribution chronologique est une distribution où le temps constitue un de ses paramètres. C'est le cas par exemple du trafic de l'aéroport Tunis-Carthage entre 1990 et 2003, la température moyenne mensuelle...
La distribution spatiale est une distribution statistique où l'espace représente une des variables: distribution des densités ou du taux d'urbanisation par gouvernorat, délégation ou quartier.... C'est ce dernier type de distribution qui se trouve le plus utilisé en géographie.
On peut évidemment avoir affaire à une combinaison de deux derniers types donnant ainsi lieu à une distribution spatialo-chronologique. C'est le cas par exemple de l'évolution du taux d'urbanisation selon les gouvernorats entre 1956 et 2004. L'analyse peut se faire spatialement selon les gouvernorats à une année donnée, dans le temps pour un espace déterminé ou les deux à la fois en décelant les types d'évolution selon les espaces.
1.3- Présentation des données: On peut présenter les données selon deux modes différents mais complémentaires: un mode chiffré par les tableaux et un mode graphique: les graphiques.
2 - Les tableaux : la table de fréquences
Il s'agit de présenter les données recueillies par une enquête ou à partir d'un fichier par exemple sous une forme concise et claire d'un tableau appelé souvent table de fréquences. La table de fréquences est un tableau où à chaque valeur, modalité ou classe correspond un effectif ou une fréquence.
La
tabulation est donc cette opération qui permet de transformer les données
recueillies sous forme de liste en un tableau simple et concis. Elle consiste à
déterminer les valeurs ou les modalités distinctes avec les effectifs qui leur
correspondent ce qui nécessite qu'on ordonne la série avant de pouvoir regrouper
les observations par valeur, modalité ou classe (Cf. plus loin). Il s'agit alors
de transformer une série en une distribution statistique.
Exemple: Ainsi la série: 0, 1, 2, 0, 10, 4, 3, 2, 1, 1, 2, 1 devient une distribution statistique comme suit: 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 4, 10. Le sens du rangement est indifférent. Enfin, la distribution peut être présentée sous forme d'un tableau comme suit :
|
Valeurs |
0 |
1 |
2 |
3 |
4 |
10 |
Total |
|
Effectif |
2 |
4 |
3 |
1 |
1 |
1 |
12 |
A chaque valeur correspond le nombre de fois d'occurrence ou sa fréquence. C'est ainsi que la valeur 0 se répète deux fois tandis que la valeur 1 a une fréquence de 4.
2.1 -
Les types de fréquence
En fait, on peut distinguer plusieurs types de fréquences: la fréquence simple, la fréquence relative, la fréquence cumulée qui peut être simple ou relative tandis que la cumulation peut être croissante ou décroissante.
a - La fréquence simple ou absolue: C'est l'effectif d'un phénomène donné, c'est le nombre de fois qu'un phénomène apparaît ou se répète dans une distribution donnée. La fréquence simple exprime le poids ou l'importance absolue d'un phénomène donné, elle est notée ni. Dans le second exemple, la valeur 1 se répète 4 fois tandis que les valeurs 3, 4 et 10 ne se rencontrent qu'une seule fois.
On confond parfois les termes effectif et fréquence mais la fréquence simple (ou absolue) n'est qu'un effectif, un nombre qui exprime l'importance absolue d'un phénomène: le nombre d'élèves d'un lycée, le nombres de propriétaires fonciers ou le nombre de salariés dans une entreprise... C'est le nombre de fois qu'un caractère se répète, le nombre d'unités dans la population qui possèdent une modalité ou correspondent à une valeur donnée: le caractère élève, salarié ou propriétaire, ceux dont l'âge est de 15 ans ou qui disposent d'une terre de 15 à 20 ha...
Tandis que le terme de fréquence est plus général, il englobe à la fois la notion deffectif appellé aussi fréquence simple ou absolue et limportance relative dun phénomène donné dan sun ensemble exprimée par la fréquence relative.
b - La fréquence relative: C'est la part relative d'un phénomène donné par rapport à l'ensemble de l'effectif. Elle est égale au rapport entre l'effectif de la classe, de la modalité ou de la valeur i (ni) et l'effectif global (n): ni' ou fi = ni/n.
La fréquence
relative exprime le poids relatif d'un phénomène donné par rapport à
l'ensemble. Dans l'exemple 2, la valeur 1 représente le tiers des valeurs: 4/12
= 0.3333. La fréquence relative est exprimée par rapport à l'unité (n = 1) ou ce
qui est souvent utilisé par simplicité en pourcentage: la valeur 4 a une
fréquence de 0.3333 ou plus simplement de 33.33%.
2.2 - La cumulation
On peut procéder au cumul successif des fréquences simples (effectifs) ou des fréquences relatives pour déterminer l'effectif ou la fréquence (relative) supérieurs ou inférieurs à une valeur donnée (x), c'est la fréquence cumulée. La cumulation peut être selon un ordre ascendant ou croissant (Fréquence cumulée croissante), descendant ou décroissant (fréquence cumulée décroissante) et porter sur la fréquence simple (effectif réel) ou la fréquence relative.
a - La fréquence cumulée croissante : Elle consiste à cumuler successivement, par ordre croissant, les fréquences à partir des plus faibles valeurs en ajoutant à chaque fois la fréquence suivante. Elle exprime l'effectif ou la fréquence des valeurs inférieures ou égales à un seuil donné xi : elle est notée Nic = Sinfxi ni = Nic avec Fx =< xi
b - La fréquence cumulée décroissante : C'est la sommation successive, par ordre décroissant, des fréquences ou des effectifs en commençant par les plus grandes valeurs. Elle exprime l'effectif ou la fréquence correspondant à un seuil supérieur ou égal à une valeur donnée xi : elle est notée Nid = Ssupxi ni = Nid avec Fx => xi
Exemple: Structure agraire d'un périmètre irrigué. L'exemple de la structure agraire dans un périmètre agraire va nous permettre de comprendre le cheminement pour le calcul des différentes fréquences.
|
Taille en ha |
Nombre d'exploitants |
|
0 - 5 |
400 |
|
5 - 10 |
50 |
|
10 - 20 |
3 |
|
20 - 50 |
15 |
|
Total (n) |
500 |
L'effectif est représenté dans la colonne 2, tandis que la fréquence relative (col 3) est obtenue en divisant chaque effectif ni par l'effectif total 500. Ainsi, dans la première ligne, on lit 0.8 = 400/500, soit 80% si on veut exprimer la fréquence relative en pourcentage (%) = (400/500)*100=80%.
Table de Fréquences
|
Variable |
Fréquence Simple Nombre Exploitants |
Fréquence Relative |
% |
Fréquence Simple Cumulée Croissante |
Fréquence Relative Cumulée Croissante |
Fréquence Simple |
Fréquence Relative |
|
0 - 5 |
400 |
0.80 |
80 |
400 |
0.80 |
500 |
1.00 |
|
5 - 10 |
50 |
0.10 |
10 |
450 |
0.90 |
100 |
0.20 |
|
10 - 20 |
35 |
0.07 |
7 |
485 |
0.97 |
50 |
0.10 |
|
20 - 50 |
15 |
0.03 |
3 |
500 |
1.00 |
15 |
0.03 |
|
Total |
500 |
1 |
100 |
|
|
|
|
La fréquence cumulée est obtenue en sommant successivement les fréquences par
ordre croissant ou décroissant. Si on veut savoir quel est l'effectif des
exploitants dont la taille est inférieure ou égale à 10 ha, on n'a qu'à regarder
la 2° ligne, soit 450 exploitants, 0.90 ou 90%. Ces 450 regroupent en fait 400
(80%) exploitants qui ont moins de 5 ha et 50 autres (10%) qui disposent de 5 à
10 ha. Au total, 450 (90%) exploitants ont 10 ha ou moins.
A l'inverse, si on cherche à déterminer la fréquence des exploitants qui ont plus d'une taille donnée, c'est la fréquence cumulée croissante qu'elle soit simple ou relative. Ainsi, les exploitants qui ont 10 ha et plus sont représentés dans la 2° ligne des deux dernières colonnes: 100 exploitants ou 20%.
Ces données chiffrées peuvent être maintenant visualisées par des graphiques qui ont la faculté d'exprimer certaines propriétés qui peuvent être voilées ou difficilement lisibles sur un tableau.
3 - Les graphiques
On peut distinguer plusieurs types de graphiques selon la nature de la variable et ce qu'on veut montrer. On a deux grands types de représentation: le graphique ou diagramme différentiel et le diagramme intégral selon qu'on veut exprimer l'importance de chaque valeur ou classe en soi (D. différentiel) ou son importance par rapport à l'ensemble (D intégral).
3.1 - Les graphiques différentiels
Le graphique ou diagramme différentiel permet de représenter graphiquement les différentes fréquences séparément et de montrer leur importance absolue les unes par rapport aux autres.
Si la variable est qualitative ou discrète on a le diagramme en Bâtonnets, en Bâtons ou en Barres qui exprime ce caractère discret et discontinu. Lorsque la variable est quantitative continue, on a affaire à l'histogramme ou au polygone des fréquences.
a - Le diagramme en bâtonnets et en barres: lorsque la variable est qualitative ou discrète on utilise le diagramme en bâtons (ou bâtonnets) ou en barres. La différence entre les bâtonnets et les barres est simplement la largeur des colonnes, les barres sont plus larges.
* Le diagramme en bâtons: C'est un ensemble de segments de droite dont la base représente la modalité ou la valeur discrète, tandis que la hauteur exprime la fréquence simple (effectif) ou relative (%).
* Le diagramme en barres: C'est un ensemble de rectangles non jointifs ou barres dont la base représente la variable (qualitative ou discrète) et la hauteur exprime la fréquence: nombre de ménages ou de logements selon la taille,...
b - L'histogramme et le polygone de fréquences: lorsque la variable est continue, on la représente par un graphique qui exprime cette continuité: l'histogramme ou le polygone des fréquences.
* L'histogramme: C'est une série de rectangles jointifs dont la base représente la classe et la hauteur exprime la fréquence (simple ou relative). Il permet de représenter graphiquement les variables quantitatives continues, sous forme de classes de valeurs (Cf. infra): nombre d'exploitants selon la taille, population selon les classes d'âge,...
* Le polygone des fréquences: C'est une ligne brisée reliant le milieu du sommet de chaque rectangle de l'histogramme tout en joignant deux classes fictives de fréquence nulle, de part et d'autre des classes réelles pour donner à la distribution une allure continue et de relier les bornes externes des classes fictives ajoutées. Le polygone des fréquences permet de donner une idée sur la silhouette générale ou l'allure de la distribution.
c -
Le passage entre variable discrète et variable continue:
Le
passage d'une variable discrète à une variable continue peut être assuré dans
deux conditions seulement:
1- lorsque
les valeurs sont très rapprochées les unes des autres.
2 - lorsque
le nombre de valeurs ou classes est très élevé (Cf. infra).
Le passage en sens inverse est aussi possible lorsque les conditions opposées se trouvent réunies. Dans tous les cas, le graphique doit exprimer la nature de la variable, une variable continue s'exprime par un graphique continu tandis qu'une variable discrète ou qualitative doit être représentée par un graphique exprimant cette discontinuité.

3.2 - Le diagramme intégral
Le diagramme intégral permet de représenter graphiquement l'ensemble de la distribution si bien que chaque classe ou effectif se trouvent rapportés à l'ensemble de l'effectif (n) ou 100%.
On peut distinguer trois catégories de diagrammes selon la nature de la variable
a - Le diagramme des fréquences cumulées: C'est un diagramme en bâtons dont la hauteur correspond aux fréquences cumulées (simples ou relatives) croissantes (ou décroissantes). Il sert à représenter les variables qualitatives ou discrètes.
b -
La courbe des fréquences cumulées: Pour les variables continues , on obtient
l'histogramme des fréquences cumulées selon la même démarche présentée ci-dessus.
La hauteur correspond aux fréquences cumulées (simples ou relatives) croissantes
(ou décroissantes) et la base est exprimée par les classes. On peut exprimer
l'allure générale de l'histogramme intégral par une courbe plus simple appelée
la courbe des fréquences cumulées ou
ogive des fréquences cumulées. Elle est obtenue en joignant les
coins supérieurs droits de chaque rectangle tout en ajoutant une classe fictive
de fréquence nulle à gauche.
Lorsqu'il
s'agit de fréquences cumulées décroissantes, ce sont les coins supérieurs
gauches qu'il faut relier tout en ajoutant la classe fictive à droite.
Les deux
courbes de fréquences cumulées croissantes (CFCC) et décroissantes (CFCD) se
coupent au milieu de la distribution, à un niveau qui correspond à 50% des
effectifs qu'on appelle médiane (Cf. plus loin).
Affinage et lissage de la courbe cumulée:
On peut affiner ou lisser la courbe cumulée lorsque le nombre de classes est
élevé et l'intervalle est réduit afin d'éliminer les irrégularités et donner la
sensation de la régularité à la courbe. Soit i = le rang de l'unité selon
l'ordre des valeurs; en cas d'ex-aequo, on donne un rang différent et n:
l'effectif total, on a alors la formulation suivante : (2i - 1)/2n
ou ( i - 0.5)/n.
c -
Le diagramme en secteurs: C'est un diagramme circulaire où le cercle
se trouve divisé en secteurs angulaires selon l'importance relative des
phénomènes. L'importance du secteur est mesurée en degrés (grade ou gradient)
selon la règle suivante: a= (ni/n).360 ou a = fi.360.
Ce type de
graphique est très utilisé dans la vulgarisation et les travaux non
géographiques, il est souvent plus connu par le diagramme en Camembert. C'est un
graphique intégral qui permet d'exprimer l'importance relative des classes ou
des modalités. L'utilisation de la troisième dimension (graphique en 3D) déforme
cependant la vision.
d -
Le diagramme proportionnel en barre: C'est un diagramme en barre dont
la hauteur globale correspondant à l'effectif global (n ou 100%) se trouve
divisée en fonction de l'importance relative des différentes classes ou des
modalités. C'est l'équivalent du diagramme circulaire.
Ces deux
derniers diagrapermettent de représenter graphiquement aussi bien les variables
qualitatives, discrètes que continues à la fois.
Jusqu'ici, on
a supposé que les classes sont données ou leur définition ne posait pas de
problèmes. Il se trouve qème de partition en classes se pose dès le moment qu'il
s'agisse de données de première main (liste ou enquête dont les données n'ont
pas encore été traitées) ou lorsque le nombre d'observations est très élevé..
4 - La partition en classes
Trois problèmes se posent pour qui veut définir des classes, d'abord l'intervalle, en second lieu le nombre de ces classes, enfin leur délimitation.
4.1 -
La classe: C'est un intervalle continu de valeurs caractérisé par un
intervalle (Di), représenté
par son centre (xi) et
délimité par ses bornes (supérieure: Bi et
inférieure: bi).
a- La
borne de classe est la valeur limite supérieure (Bi) ou inférieure (bi) de
la classe. La classe 0 - 10 est délimitée par deux bornes, une borne inférieure
0 et une borne supérieure 10.
b-
L'intervalle de classe: C'est l'amplitude qui sépare les deux bornes
de la classe, c'est l'amplitude de la classe. Il est égal à la différence des
deux bornes : Di = Bi
- bi
On peut
distinguer trois catégories d'intervalles: l'intervalle ouvert, fermé et semi-ouvert:
-
L'intervalle ouvert: les deux bornes de la classe ne sont pas incluses.
L'intervalle 5 - 10 regroupe toutes les valeurs de 5,0001 à 9.9999 sans inclure
le 5 et le 10. Son utilisation est cependant rare parce que difficile à
manipuler, il est noté: ]bi - Bi[: ]5 - 10[,.. Il peut être utilisé pour
exprimer une discontinuité dans la distribution des données, c'est le cas par
exemple lorsqu'il n'y a pas de valeurs inférieures ou égales à 5, entre 10 et 15
et 25 et 40: on aura les classes suivantes ]5 - 10[, ]15 - 25[, ]40 -
50[,... .
- L'intervalle fermé: les deux bornes sont incluses dans la classe. La classe 5 - 10 comprend toutes les valeurs y compris les valeurs 5 et 10: exemple 0 - 5, 6 - 10, 11 - 14, 15 -19,... Ce type d'intervalle est adapté aux variables discrètes dans la mesure où il n'y a que des entiers et il n'y a pas de valeurs entre le 5 et le 6, le 10 et le 11 comme la taille d'un ménage ou le nombre de villes, le nombre de pièces d'un logement ou de parcelles par exploitation. L'intervalle fermé est noté: [bi - Bi]: [5 - 10 ], [10 - 19],... Ce type d'intervalle est à utiliser lorsque la variable est discrète.
- L'intervalle semi-ouvert: c'est un intervalle qui englobe la borne inférieure (bi) mais pas la borne supérieure (Bi), il est noté [bi - Bi[. La classe 5 - 10 comprend la valeur 5 et va jusqu'à 9.9999 sans inclure la valeur 10 qui se trouve incorporée dans la classe immédiatement supérieure, par exemple 10 - 20.
C'est ce dernier intervalle qui est le plus souvent utilisé vu la simplicité de lecture qu'il offre. La borne supérieure d'une classe donnée représente en même temps la borne inférieure de la classe suivante: 0 - 5, 5 - 10, 10 - 20, 20 - 50, 50 - 100... Ce type d'intervalle est à utiliser lorsque la variable est continue.
Evidemment la combinaison des types d'intervalles est possible mais elle rend la lecture peu aisée et elle est à éviter sauf dans les cas où elle s'impose.
c - Le centre de classe (xi ou ci): c'est la demi-somme des deux bornes de la classe considérée i: xi = (bi + Bi)/2. C'est en réalité la moyenne des valeurs d'une classe dans la mesure où on suppose que toutes les observations dans une classe sont concentrées au centre. Ainsi, la classe 5-10 ha de l'exemple 2 qui contient 50 exploitations, le centre de cette classe est de 7,5. C'est comme si toutes les exploitations avaient une taille moyenne de 7,5 ha et se trouvent de ce fait concentrées au milieu de la classe. La perte de l'information est d'autant élevée que les observations se trouvent localisées près de l'une des deux bornes de la classe.
d - La
simplification et la perte d'information: le prix à payer
Supposons une
fois que dans l'exemple 2, les 50 exploitations ont toutes une taille comprise
entre 9 et 10 ha, soit 9,5*50 = 475 ha, la perte de l'information est alors
élevée puisque avec 7,5 ha on a 375 ha, soit 100 ha de moins que la réalité!.
Supposons maintenant le second cas où les exploitations se trouvent concentrées
près de la borne inférieure, soit entre 5 et 6 ha ce qui nous donne une
superficie totale de 275 ha, c'est à dire 100 ha de moins! La simplification se
paie à ce prix et on peut faire autant pour toutes les autres classes. L'enjeu
se situe au niveau de 100 ha, soit 26.66% en moins ou en plus.
La perte
d'information serait nulle dans deux cas seulement, lorsque la distribution est
strictement symétrique par rapport au centre de classe ou quand toutes les
observations sont égales à ce centre de classe.
La partition
en classes simplifie en réalité la présentation et réduit les données mais a un
inconvénient majeur: la perte de l'information. Pour minimiser cette perte, il
faut suivre un certain nombre de règles dans la partition en classes.
4.2 - Les règles de partition
La partition en classe, pour être efficace, doit obéir à certaines règles qu'on essaie de respecter dans la mesure du possible selon l'objectif poursuivi de l'analyse. Ces règles entrent souvent en contradiction entre elles si bien qu'il est vain de vouloir les satisfaire toutes simultanément. Selon les objectifs de la partition on doit privilégier certaines règles plus que d'autres.
a - Le
nombre de classes:
Le nombre
de classe ne doit être ni très élevé, ni trop réduit. Lorsque le nombre de
classes est très élevé, la distribution tend à être aléatoire et la perte
d'information est très importante tandis que la lecture devient très difficile.
Lorsqu'on a une distribution de 12 observations par exemple, et on fixe le
nombre de classe à 5 ou 6, on a beaucoup de chances à enregistrer un nombre
d'observations par classe peu différent de 2. Lorsque le nombre de classe
augmente encore plus, la fréquence va varier entre 0, 1 et 2. Sur un autre plan,
lorsque le nombre de classes dépasse la dizaine la lecture du tableau ou du
graphique devient difficile et l'analyse perd de son utilité. Le chiffre 15
apparaît comme une limite supérieure du nombre de classes à ne pas
dépasser.
D'un autre
côté, un nombre trop réduit de classes rend la distribution trop grossière et ne
permet guère une analyse fine. Si l'on reprend l'exemple précédent et on fixe le
nombre de classe à deux, on a une grande chance d'avoir deux groupes dont
l'effectif serait peu différent de 5, 6 ou 7. Lorsque l'effectif global est plus
important, le risque est encore plus grand. Au dessous de cinq classes, la
distribution tend à être grossière et l'information est limitée, le nombre de
classes doit être supérieur ou égal à cinq.
Enfin, il y a
un seuil au dessous duquel certaines lois statistiques ne sont pas applicables,
c'est le cas des Tests et en particulier celui de Khi2 (Cf.
plus loin). Ce seuil est de 5 unités. Le nombre d'observations par classe
doit être, dans la mesure du possible, supérieur ou égal à cinq: ni => 5.
Au total, le
nombre de classes (c) doit être compris entre 5 et 15 et l'effectif par classe
dépassant 5 unités: 5 < c < 15 et ni => 5. Ces deux conditions réunies font que
l'effectif global doit dépasser 25 mais en réalité on se trouve souvent devant
de petits échantillons et on est obligé de procéder à la partition en classes si
bien qu'on est amené parfois à sacrifier l'une des deux conditions.
b - L'intervalle de classe: régulier et entier
L'intervalle de classe doit être un entier pour rendre la lecture, la comparaison et les calculs faciles. L'intervalle de classe doit être régulier pour éviter le problème de pondération des graphiques.
En effet, le rectangle dans l'histogramme est une aire égale au produit de sa largeur, représentée par l'intervalle de classe et sa longueur (ici la hauteur) exprimée par la fréquence: si = Di.ni. Pour pouvoir garder la même superficie d'un rectangle lorsque une de ses dimensions (ici la base) augmente (diminue) dans une proportion donnée on doit diviser (multiplier) la seconde dimension (ici la hauteur) dans même proportion (le même coefficient).
Lorsque l'intervalle de classe se trouve multiplié par un nombre (p), pour garder la même aire on doit diviser la fréquence par la même valeur, c'est la pondération de l'his qu'on soucomtenue de la difficulté de représentation graphique (Cf. second exemple).
L'inconvénient majeur de l'intervalle régulier réside dans la possibilité d'obtenir parfois des classes vides, des classes avec des effectifs nuls, ce qui est de nature à introduire des discontinuités probablement artificielles dans la distribution.
c - Les bornes de classe : des nombres entiers
Les bornes de classe doivent être des nombres entiers pour la facilité de lecture et la simplicité des calculs ce qui permet souvent d'obtenir des centres de classe (xi) sous forme de nombres entiers ou de nombres décimaux simples. Le centre de classe n'est que la demi-somme des deux bornes, il est entier seulement lorsque les bornes sont des nombres entiers pairs ou impairs simultanément. Pour éviter les décimales, il faut utiliser les entiers pairs ou impairs pour les bornes de classe.
d - Mettre en relief les discontinuités: Inverser l'optique
Les vides qui existent dans une distribution de données ne sont ni neutres, ni fortuites, ils expriment en réalité une structure avec ses pleins et ses vides si bien qu'il faut les mettre en relief et ne pas les voiler pour pouvoir trouver une explication. Une façon de mettre en relief ces discontinuités est de placer les bornes de classe à leur niveau.
Cette règle entre cependant en contradiction avec celle des intervalles réguliers mais elle évite d'avoir des classes vides et est très pertinente là où on cherche à découvrir une structure spatiale ou socio-économique d'une distribution, la signification des vides est aussi intéressante que celle des pleins (Cf. infra). Elle est cependant fort déconseillée lorsqu'on veut simplement présenter les données. Le problème réside toutefois dans la difficulté de déterminer ces vides et ces discontinuités, a partir de quel seuil peut-on considérer qu'il y a une discontinuité?. Au lieu de donner l'impression d'un continuum, en forçant souvent la réalité, par l'utilisation d'un intervalle régulier qui cache et évacue les discontinuités, on s'intéresse plus particulièrement à ces vides en les mettant en relief ce qui nous permettra par la suite de saisir le fondement de ces discontinuités.
La partition n'est, en définitive, qu'un compromis entre ces impératifs contradictoires que le chercheur est tenu à respecter d'une manière plus ou moins rigoureuse selon ses objectifs et les besoins de l'analyse. Certaines règles ont une portée pratique de manière à simplifier la lecture, la manipulation ou le calcul (intervalle régulier, nombre entier pour les bornes, l'intervalle et le centre de classe, nombre de classe < 15) alors que d'autres par contre sont de nature plus théorique (ni > 5, mise en relief des discontinuités).
Exemple: Intervalles de classes. Dans cet exemple, la signification des intervalles est différente. Dans le cas a, la classe 0 - 5 englobe toutes les valeurs: 5 < xi > 0. C'est à dire toutes les valeurs entre 0 et 5 mais pas les bornes, les valeurs 0 et 5 ne sont pas incluses.
a - Intervalle ouvert b - Intervalle fermé c - Intervalle semi-ouvert
0
- 5
0 - 4
0 - 5
5 - 10
5 - 9
5 - 10
10 - 20
10 - 19
10 - 20
20 - 50
20 - 50 10 - 50
Dans le cas b, la classe 0 - 4 englobe toutes les valeurs entre 0 et 4 mais sans
atteindre le 5 qui se trouve dans la seconde classe. Les valeurs vont de 0 à
4,9999 et de 5 à 9,99999...Ce type d'intervalle est souvent utilisé pour les
classes d'âge lorsqu'on raisonne en termes d'années révolues.
Dans le dernier cas (c), la classe 0 - 5 regroupe toutes les valeurs de 0
jusqu'à 4.9999, la valeur 5 n'est pas incluse, elle forme la borne inférieure de
la seconde classe. ce dernier intervalle est équivalent au second seulement il
en diffère au niveau de l'écriture. Il est le plus utilisé pour sa facilité de
lecture.
|
Histogramme normal Histogramme pondéré
|
Exemple: Pondération de l'histogramme. Si on reprend le second exemple, on
constate que le intervalle de classe n'est pas régulier, il va de 5 ha dans les
deux premières classes jusqu'à 30 pour l a dernière classe.
Si on prenait pour intervalle de base (Io),
celui de la première classe (5 ), en passant à la 2° classe, il n'y a pas de
changement, mais lorsqu'on va à la 3° classe on constate que l'intervalle passe
de 5 à 10 ha et se trouve multiplié par 2. Pour garder la même superficie, on
doit diviser la fréquence qui est de 35 par 2, soit 17,5.
Au niveau de la dernière classe,l'intervalle se trouve multiplié par 6 (on est
passé de 5 à 30), si bien qu'on doit diviser l'effectif par 6 ce qui nous donne
15/6 = 2,5.
4.3 - Les méthodes de partition
Il existe plusieurs méthodes de partition qui vont de méthodes de présentation arbitraires parfois très sommaires à des méthodes de recherches fondées théoriquement mais qui nécessitent un traitement préalable des données[1].
a - La méthode arbitraire: c'est le cas de la plupart des méthodes utilisées qui manquent de fondement théorique clair et rationnel et posent le problème de la comparabilité des résultats, son caractère subjectif est certain. Cette méthode peut être à intervalle constant ou variable. Dans l'exemple 2 on pourrait prendre la partition à intervalle régulier de 5: 0-5, 5-10, 15-20, 20-25,...ou à intervalle irrégulier: 0-5, 5-10, 10-25, 25-50, ou encore 0-10, 10-25, 25-50,..
b -
La méthode statistique à intervalle régulier:
Cette méthode privilégie la régularité de l'intervalle des classes au dépens des
autres règles et essaie de fixer un nombre de classes en fonction de l'effectif
global .
-
Méthode de la racine carrée:
Le nombre de classes (c) est égal à la racine carrée de l'effectif (n) :
c = (n)1/2.
-
Méthode de Brooks-Carruthers:
Le nombre de classes doit être inférieur à 5 fois le logarithme de l'effectif
global: c < 5 log n
-
Méthode de Yole:
Le nombre de classes est fonction de la racine quatrième de l'effectif
c = 2,5 (n)1/4.
-
Méthode de Huntesberger:
Le nombre de classe est fonction du logarithme de l'effectif : c = 1
+ 3,3 log n. Cette méthode est présentée parfois sous le nom de méthode de
Sturge avec une formule légèrement différente avce c = 1 + (10 log n)/3.
Si on prend comme limite raisonnable un nombre de classe égal à 15, on constate que chacune des méthodes est efficace seulement sur un intervalle donné. Ainsi, la méthode de la racine carrée atteint ses limites au niveau de 225 (Cf. Tableau). C'est pour cette raison qu'une méthode synthétique s'impose.
- Une méthode synthétique: Sur la base d'une interpolation linéaire de ces différentes méthodes, on peut proposer une méthode synthétique[2] qui tient compte des différents résultats et limites à la fois. Elle s'écrit comme suit : c = 4,1 n0,13.
Tableau comparatif des méthodes statistiques de partition
|
Méthode |
Limite inférieure (c = 5) |
limite supérieure (c =15) |
|
Racine carrée |
25 |
225 |
|
Brooks-Carruthers |
11 |
1000 |
|
Yole |
20 |
1500 |
|
Huntsberger |
17 |
17500 |
|
Belhedi |