Home           Nous écrire                Liens Utiles           Votre Opinion            Fin de Page
 

                 ANALYSE DE LA DISTRIBUTION D'UNE VARIABLE
                                 Analyse univariée ou unidimensionnelle 

                                    Décrire, présenter & structurer les données

                                                                                           
Amor BELHEDI, FSHS, Université de Tunis


Série & distribution statistiques     Table de fréquences     Représentation graphique      Partition en classes


Introduction  Présenter & Décrire une variable  Réduire & Résumer une distribution  Notions et Distributions de Probabilités   Corrélation & Régression linéaire simple  Corrélation & Régression simples courbes  Test de Khi-deux   Corrélation dans un tableau  Chroniques & Distributions temporelles   Corrélation & Régression multiples   Droites des Moindres Rectangles   Analyse Factorielle   Classification & Typologie  Tests des hypothèses  Sondages & Distributions d'échantillonnage  Quelques Eléments de calcul matriciel  Tables Statistiques   Papiers Fonctionnels   Bibliographie Sommaire

 

    Après la collecte des données relative à un caractère, la première étape de l'analyse consiste à présenter et décrire les données récoltées soue une forme simple, succincte et claire avant de procéder à les résumer par des indicateurs, d'analyser la distribution des observations et de pouvoir comparer les distributions ou les différentes observations entre elles.
    Cette analyse est appelée univariée ou unidimensionnelle dans la mesure où elle se limite à l'étude d'un seul caractère ou une seule variable. Comment présenter et représenter une variable sous la forme d'un tableau ou d'un graphique,  Comment déterminer les classes  et quelle méthode de partition utiliser ?. c'est ce à  quoi ce chapitre essaie de répondre.

             Une fois, les données sont collectées, la première étape de l'analyse consiste à décrire et présenter ces données recueillies directement ou indirectement sous une forme simple, claire, concise et lisible. Il s'agit d'ordonner les valeurs observées, les regrouper en classes, les présenter sous forme de tableaux ou de graphiques et essayer de saisir le sens à chacune de ces étapes: autrement structurer les données et les présenter sous une forme structurée, claire et simplifiée et tenter de trouver un sens à cette structure.
 

 1 - Série et distribution statistiques: Ordonner et ranger les données

             1.1- Série et distribution statistiques: Souvent on confond les deux termes. Une série statistique est un ensemble de chiffres ou de données. Une fois que ces chiffres sont ordonnés, on obtient une distribution statistique. La première étape consiste ainsi à ordonner les données dans un sens déterminé (croissant ou décroissant) pour pouvoir les analyser par la suite: regrouper ces données en classes, faire des graphiques ou procéder à des calculs (d'une moyenne ou d'une proportion...) et des analyses diverses. Une distribution statistique est donc une série statistique qui a été déjà ordonnée selon un ordre croissant ou décroissant.

Exemple: les chiffres 0, 1, 2, 0, 10, 4, 3, 2, 1, 1, 2, 1 représentent uns série statistique, c'est le cas par exemple des données lorsqu'on fait une enquête sur le terrain, on récolte des données dans le désordre le plus total. La série ci-dessus devient alors une distribution  lorsqu'on l'ordonne dans le sens croissant ou décroissant comme suit : 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 4, 10 ou 10, 4,, 3, 2, 2, 2, 1,1,1,1, 0, 0.

 
            1.2- Types de distributions: On distingue trois types de distributions: la distribution statistique, chronologique et spatiale.

            La distribution statistique est toute série statistique ordonnée quelque soit la nature des variables: exemple l'investissement par secteur d'activité durant le X ème plan 2002-2006. Le terme de distribution statistique est général et englobe les deux derniers types de distribution.

             La distribution chronologique est une distribution où le temps constitue un de ses paramètres. C'est le cas par exemple du trafic de l'aéroport Tunis-Carthage entre 1990 et 2003, la température moyenne mensuelle...

            La distribution spatiale est une distribution statistique où l'espace représente une des variables: distribution des densités ou du taux d'urbanisation par gouvernorat, délégation ou quartier.... C'est ce dernier type de distribution qui se trouve le plus utilisé en géographie.

            On peut évidemment avoir affaire à une combinaison de deux derniers types donnant ainsi lieu à une distribution spatialo-chronologique. C'est le cas par exemple de l'évolution du taux d'urbanisation selon les gouvernorats entre 1956 et 2004. L'analyse peut se faire spatialement selon les gouvernorats à une année donnée, dans le temps pour un espace déterminé ou les deux à la fois en décelant les types d'évolution selon les espaces.

            1.3- Présentation des données: On peut présenter les données selon deux modes différents mais complémentaires: un mode chiffré par les tableaux et un mode graphique:  les graphiques.

 
2 - Les tableaux : la table de fréquences

             Il s'agit de présenter les données recueillies par une enquête ou à partir d'un fichier par exemple sous une forme concise et claire d'un tableau appelé souvent table de fréquences. La table de fréquences est un tableau où à chaque valeur, modalité ou classe correspond un effectif ou une fréquence.

            La tabulation est donc cette opération qui permet de transformer les données recueillies sous forme de liste en un tableau simple et concis. Elle consiste à déterminer les valeurs ou les modalités distinctes avec les effectifs qui leur correspondent ce qui nécessite qu'on ordonne la série avant de pouvoir regrouper les observations par valeur, modalité ou classe (Cf. plus loin). Il s'agit alors de transformer une série en une distribution statistique.
 

Exemple: Ainsi la série: 0, 1, 2, 0, 10, 4, 3, 2, 1, 1, 2, 1 devient une distribution statistique comme suit: 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 4, 10. Le sens du rangement  est indifférent. Enfin,  la distribution peut être présentée sous  forme d'un tableau comme suit :

Valeurs

0

1

2

3

4

10

Total

Effectif

2

4

3

1

1

1

12

             A chaque valeur correspond le nombre de fois d'occurrence ou sa fréquence. C'est ainsi que la valeur 0 se répète deux fois tandis que la valeur 1 a une fréquence de 4.


2.1 -
Les types de fréquence

            En fait, on peut distinguer plusieurs types de fréquences: la fréquence simple, la fréquence relative, la fréquence cumulée qui peut être simple ou relative tandis que la cumulation peut être croissante ou décroissante.

            a - La fréquence simple ou absolue: C'est l'effectif d'un phénomène donné, c'est le nombre de fois qu'un phénomène apparaît ou se répète dans une distribution donnée. La fréquence simple exprime le poids ou l'importance absolue d'un phénomène donné, elle est notée ni. Dans le second exemple, la valeur 1 se répète 4 fois tandis que les valeurs 3, 4 et 10 ne se rencontrent qu'une seule fois.

            On confond parfois les termes effectif et fréquence mais la fréquence simple (ou absolue) n'est qu'un effectif, un nombre qui exprime l'importance absolue d'un phénomène: le nombre d'élèves d'un lycée, le nombres de propriétaires fonciers ou le nombre de salariés dans une entreprise... C'est le nombre de fois qu'un caractère se répète, le nombre d'unités dans la population qui possèdent une modalité ou correspondent à une valeur donnée: le caractère élève, salarié ou propriétaire, ceux dont l'âge est de 15 ans ou qui disposent d'une terre de 15 à 20 ha...

            Tandis que le terme de fréquence est plus général, il englobe à la fois la notion d’effectif appellé aussi fréquence simple ou absolue et l’importance relative d’un phénomène donné dan sun ensemble exprimée par la fréquence relative.

            b - La fréquence relative: C'est la part relative d'un phénomène donné par rapport à l'ensemble de l'effectif. Elle est égale au rapport entre l'effectif de la classe, de la modalité ou de la valeur i (ni) et l'effectif global (n): ni' ou fi = ni/n. 

            La fréquence relative exprime le poids relatif d'un phénomène donné par rapport à l'ensemble. Dans l'exemple 2, la valeur 1 représente le tiers des valeurs: 4/12 = 0.3333. La fréquence relative est exprimée par rapport à l'unité (n = 1) ou ce qui est souvent utilisé par simplicité en pourcentage: la valeur 4 a une fréquence de 0.3333 ou plus simplement de 33.33%.
 

2.2 - La cumulation

            On peut procéder au cumul successif des fréquences simples (effectifs) ou des fréquences relatives pour déterminer l'effectif ou la fréquence (relative) supérieurs ou inférieurs à une valeur donnée (x), c'est la fréquence cumulée. La cumulation peut être selon un ordre ascendant ou croissant (Fréquence cumulée croissante), descendant ou décroissant (fréquence cumulée décroissante) et porter sur la fréquence simple (effectif réel) ou la fréquence relative.

            a - La fréquence cumulée croissante : Elle consiste à cumuler successivement, par ordre croissant, les fréquences à partir des plus faibles valeurs en ajoutant à chaque fois la fréquence suivante. Elle exprime l'effectif ou la fréquence des valeurs inférieures ou égales à un seuil  donné xi : elle est notée  Nic = Sinfxi ni = Nic  avec Fx  =< xi

            b - La fréquence cumulée décroissante : C'est la sommation successive, par ordre décroissant, des fréquences ou des effectifs en commençant par les plus grandes valeurs. Elle exprime l'effectif ou la fréquence correspondant à un seuil supérieur ou égal à une valeur donnée xi : elle est notée  Nid = Ssupxi ni = Nid  avec Fx  => xi

Exemple: Structure agraire d'un périmètre irrigué. L'exemple de la structure agraire dans un périmètre agraire va nous permettre de comprendre le cheminement pour le calcul des différentes fréquences.

Taille en ha

Nombre d'exploitants

  0  -   5

400

  5 -  10

50

10 -  20

3

20 -  50

15

Total (n)

500

                 L'effectif est représenté dans la colonne 2, tandis que la fréquence relative (col 3) est obtenue en divisant chaque effectif ni par l'effectif total 500. Ainsi, dans la première ligne, on lit 0.8 = 400/500, soit 80% si on veut exprimer la fréquence relative en pourcentage (%) = (400/500)*100=80%.

                                                                               Table de Fréquences 

Variable
   xi 
 Taille  en ha

Fréquence Simple     Nombre Exploitants
ni

Fréquence Relative
fi = ni/n

%
ni/n*100

Fréquence Simple Cumulée Croissante
FSCC
Nic=<xi

Fréquence Relative Cumulée Croissante
FRCC
Fi='<xi

Fréquence Simple 
Cumulée Décroissante
FSCD
Nid=<xi

Fréquence Relative
Cumulée Décroissante
FRCD
Fi=>xi

  0  -   5

400

0.80

80

400                 

0.80

500

1.00

  5 -  10

50

0.10

10

450

0.90

100

0.20

10 -  20

35

0.07

7

485

0.97

50

0.10

20 -  50

15

0.03

3

500

1.00

15

0.03

Total

 500

1

100

 

 

 

 

 
                La fréquence cumulée est obtenue en sommant successivement les fréquences par ordre croissant ou décroissant.  Si on veut savoir quel est l'effectif des exploitants dont la taille est inférieure ou égale à 10 ha, on n'a qu'à regarder la 2° ligne, soit 450 exploitants, 0.90 ou 90%. Ces 450 regroupent en fait 400 (80%) exploitants qui ont moins de 5 ha et 50 autres (10%) qui disposent de 5 à 10 ha. Au total, 450 (90%) exploitants ont 10 ha ou moins.

                A l'inverse, si on cherche à déterminer la fréquence des exploitants qui ont plus d'une taille donnée, c'est la fréquence cumulée croissante qu'elle soit simple ou relative. Ainsi, les exploitants qui ont 10 ha et plus sont représentés dans la 2° ligne des deux dernières colonnes: 100 exploitants ou 20%.

             Ces données chiffrées peuvent être maintenant visualisées par des graphiques qui ont la faculté d'exprimer certaines propriétés qui peuvent être voilées ou difficilement lisibles sur un tableau.

 
3 - Les graphiques

             On peut distinguer plusieurs types de graphiques selon la nature de la variable et ce qu'on veut montrer. On a deux grands types de représentation: le graphique ou diagramme différentiel et le diagramme intégral selon qu'on veut exprimer l'importance de chaque valeur ou classe en soi (D. différentiel) ou son importance par rapport à l'ensemble (D intégral).

 3.1 - Les graphiques différentiels

             Le graphique ou diagramme différentiel permet de représenter graphiquement les différentes fréquences séparément et de montrer leur importance absolue les unes par rapport aux autres.

            Si la variable est qualitative ou discrète on a le diagramme en Bâtonnets, en Bâtons ou en Barres qui exprime ce caractère discret et discontinu. Lorsque la variable est quantitative continue, on a affaire à l'histogramme ou au polygone des fréquences.

 a - Le diagramme en bâtonnets et en barres: lorsque la variable est qualitative ou discrète on utilise le diagramme en bâtons (ou bâtonnets) ou en barres. La différence entre les bâtonnets et les barres est simplement la largeur des colonnes, les barres sont plus larges.

            * Le diagramme en bâtons: C'est un ensemble de segments de droite dont la base représente la modalité ou la valeur discrète, tandis que la hauteur exprime la fréquence simple (effectif) ou relative (%).

            * Le diagramme en barres: C'est un ensemble de rectangles non jointifs ou barres dont la base représente la variable (qualitative ou discrète) et la hauteur exprime la fréquence: nombre de ménages ou de logements selon la taille,...

 b - L'histogramme et le polygone de fréquences: lorsque la variable est continue, on la représente par un graphique qui exprime cette continuité: l'histogramme ou le polygone des fréquences.

            * L'histogramme: C'est une série de rectangles jointifs dont la base représente la classe et la hauteur exprime la fréquence (simple ou relative). Il permet de représenter graphiquement les variables quantitatives continues, sous forme de classes de valeurs (Cf. infra): nombre d'exploitants selon la taille, population selon les classes d'âge,...

            * Le polygone des fréquences: C'est une ligne brisée reliant le milieu du sommet de chaque rectangle de l'histogramme tout en joignant deux classes fictives de fréquence nulle, de part et d'autre des classes réelles pour donner à la distribution une allure continue et de relier les bornes externes des classes fictives ajoutées. Le polygone des fréquences permet de donner une idée sur la silhouette générale ou l'allure de la distribution.

 c - Le passage entre variable discrète et variable continue: Le passage d'une variable discrète à une variable continue peut être assuré dans deux conditions seulement:
            1- lorsque les valeurs sont très rapprochées les unes des autres.
            2 - lorsque le nombre de valeurs ou classes est très élevé (Cf. infra).

            Le passage en sens inverse est aussi possible lorsque les conditions opposées se trouvent réunies. Dans tous les cas, le graphique doit exprimer la nature de la variable, une variable continue s'exprime par un graphique continu tandis qu'une variable discrète ou qualitative doit être représentée par un graphique exprimant cette discontinuité.

                                                                                                      Types de graphiques selon les variables
 

 

 3.2 - Le diagramme intégral

             Le diagramme intégral permet de représenter graphiquement l'ensemble de la distribution si bien que chaque classe ou effectif se trouvent rapportés à l'ensemble de l'effectif (n) ou 100%.

             On peut distinguer trois catégories de diagrammes  selon la nature de la variable

             a - Le diagramme des fréquences cumulées: C'est un diagramme en bâtons dont la hauteur correspond aux fréquences cumulées (simples ou relatives) croissantes (ou décroissantes). Il sert à représenter les variables qualitatives ou discrètes.

             b - La courbe des fréquences cumulées: Pour les variables continues , on obtient l'histogramme des fréquences cumulées selon la même démarche présentée ci-dessus. La hauteur correspond aux fréquences cumulées (simples ou relatives) croissantes (ou décroissantes) et la base est exprimée par les classes. On peut exprimer l'allure générale de l'histogramme intégral par une courbe plus simple appelée la courbe des fréquences cumulées ou ogive des fréquences cumulées. Elle est obtenue en joignant les coins supérieurs droits de chaque rectangle tout en ajoutant une classe fictive  de fréquence nulle à gauche.
            Lorsqu'il s'agit de fréquences cumulées décroissantes, ce sont les coins supérieurs gauches qu'il faut relier tout en ajoutant la classe fictive à droite.
            Les deux courbes de fréquences cumulées croissantes (CFCC) et décroissantes (CFCD) se coupent au milieu de la distribution, à un niveau qui correspond à 50% des effectifs qu'on appelle médiane (Cf. plus loin).
 
            Affinage et lissage de la courbe cumulée: On peut affiner ou lisser la courbe cumulée lorsque le nombre de classes est élevé et l'intervalle est réduit afin d'éliminer les irrégularités et donner la sensation de la régularité à la courbe. Soit i = le rang de l'unité selon l'ordre des valeurs; en cas d'ex-aequo, on donne un rang différent et n: l'effectif total,  on a alors la formulation suivante : (2i - 1)/2n   ou    ( i - 0.5)/n.

             c - Le diagramme en secteurs: C'est un diagramme circulaire où le cercle se trouve divisé en secteurs angulaires selon l'importance relative des phénomènes. L'importance du secteur est mesurée en degrés (grade ou gradient) selon la règle suivante: a= (ni/n).360 ou   a = fi.360.
            Ce type de graphique est très utilisé dans la vulgarisation et les travaux non géographiques, il est souvent plus connu par le diagramme en Camembert. C'est un graphique intégral qui permet d'exprimer l'importance relative des classes ou des modalités. L'utilisation de la troisième dimension (graphique en 3D) déforme cependant la vision.

             d - Le diagramme proportionnel en barre: C'est un diagramme en barre dont la hauteur globale correspondant à l'effectif global (n ou 100%) se trouve divisée en fonction de l'importance relative des différentes classes ou des modalités. C'est l'équivalent du diagramme circulaire.
            Ces deux derniers diagrapermettent de représenter graphiquement aussi bien les variables qualitatives, discrètes que continues à la fois.

            Jusqu'ici, on a supposé que les classes sont données ou leur définition ne posait pas de problèmes. Il se trouve qème de partition en classes se pose dès le moment qu'il s'agisse de données de première main (liste ou enquête dont les données n'ont pas encore été traitées) ou lorsque le nombre d'observations est très élevé..
 

 4 - La partition en classes  

            Trois problèmes se posent pour qui veut définir des classes, d'abord l'intervalle, en second lieu le nombre de ces classes, enfin  leur délimitation.

            4.1 - La classe: C'est un intervalle continu de valeurs caractérisé par un intervalle (Di), représenté par son centre (xi) et délimité par ses bornes (supérieure: Bi et inférieure: bi).
            a- La borne de classe est la valeur limite supérieure (Bi) ou inférieure (bi) de la classe. La classe 0 - 10 est délimitée par deux bornes, une borne inférieure 0 et une borne supérieure 10.

           
b- L'intervalle de classe: C'est l'amplitude qui sépare les deux bornes de la classe, c'est l'amplitude de la classe. Il est égal à la différence des deux bornes : Di = Bi - bi 

            On peut distinguer trois catégories d'intervalles: l'intervalle ouvert, fermé et semi-ouvert:
            - L'intervalle ouvert: les deux bornes de la classe ne sont pas incluses. L'intervalle 5 - 10 regroupe toutes les valeurs de 5,0001 à 9.9999 sans inclure le 5 et le 10. Son utilisation est cependant rare parce que difficile à manipuler, il est noté: ]bi - Bi[: ]5 - 10[,.. Il peut être utilisé pour exprimer une discontinuité dans la distribution des données, c'est le cas par exemple lorsqu'il n'y a pas de valeurs inférieures ou égales à 5, entre 10 et 15 et 25 et  40: on aura les classes suivantes ]5 - 10[, ]15 - 25[, ]40 - 50[,... .

            - L'intervalle fermé: les deux bornes sont incluses dans la classe. La classe 5 - 10 comprend toutes les valeurs y compris les valeurs 5 et 10: exemple 0 - 5, 6 - 10, 11 - 14, 15 -19,... Ce type d'intervalle est adapté aux variables discrètes dans la mesure où il n'y a que des entiers et il n'y a pas de valeurs entre le 5 et le 6, le 10 et le 11 comme la taille d'un ménage ou le nombre de villes, le nombre de pièces d'un logement ou de parcelles par exploitation. L'intervalle fermé est noté: [bi - Bi]: [5 - 10 ], [10 - 19],... Ce type d'intervalle est à utiliser lorsque la variable est discrète.

            - L'intervalle semi-ouvert: c'est un intervalle qui englobe la borne inférieure (bi) mais pas la borne supérieure (Bi), il est noté [bi - Bi[. La classe 5 - 10 comprend la valeur 5 et va jusqu'à 9.9999 sans inclure la valeur 10 qui se trouve incorporée dans la classe immédiatement supérieure, par exemple 10 - 20.

            C'est ce dernier intervalle qui est le plus souvent utilisé vu la simplicité de lecture qu'il offre. La borne supérieure d'une classe donnée représente en même temps la borne inférieure de la classe suivante: 0 - 5, 5 - 10, 10 - 20, 20 - 50, 50 - 100... Ce type d'intervalle est à utiliser lorsque la variable est continue.

            Evidemment la combinaison des types d'intervalles est possible mais elle rend la lecture peu aisée et elle est à éviter sauf dans les cas où elle s'impose.

             c - Le centre de classe (xi ou ci): c'est la demi-somme des deux bornes de la classe considérée i: xi = (bi + Bi)/2. C'est en réalité la moyenne des valeurs d'une classe dans la mesure où on suppose que toutes les observations dans une classe sont concentrées au centre. Ainsi, la classe 5-10 ha de l'exemple 2 qui contient 50 exploitations, le centre de cette classe est de 7,5. C'est comme si toutes les exploitations avaient une taille  moyenne de 7,5 ha et se trouvent de ce fait concentrées au milieu de la classe. La perte de l'information est d'autant élevée que les observations se trouvent localisées près de l'une des deux bornes de la classe.


            d - La simplification et la perte d'information: le prix à payer

            Supposons une fois que dans l'exemple 2, les 50 exploitations ont toutes une taille comprise entre 9 et 10 ha, soit 9,5*50 = 475 ha, la perte de l'information est alors élevée puisque avec 7,5 ha on a 375 ha, soit 100 ha de moins que la réalité!. Supposons maintenant le second cas où les exploitations se trouvent concentrées près de la borne inférieure, soit entre 5 et 6 ha ce qui nous donne une superficie totale de 275 ha, c'est à dire 100 ha de moins! La simplification se paie à ce prix et on peut faire autant pour toutes les autres classes. L'enjeu se situe au niveau de 100 ha, soit 26.66% en moins ou en plus.
            La perte d'information serait nulle dans deux cas seulement, lorsque la distribution est strictement symétrique par rapport au centre de classe ou quand toutes les observations sont égales à ce centre de classe.
            La partition en classes simplifie en réalité la présentation et réduit les données mais a un inconvénient majeur: la perte de l'information. Pour minimiser cette perte, il faut suivre un certain nombre de règles dans la partition en classes.
 

             4.2 - Les règles de  partition

             La partition en classe, pour être efficace, doit obéir à certaines règles qu'on essaie de respecter dans la mesure du possible selon l'objectif poursuivi de l'analyse. Ces règles entrent souvent en contradiction entre elles si bien qu'il est vain de vouloir les satisfaire toutes simultanément. Selon les objectifs de la partition on doit privilégier certaines règles plus que d'autres.

            a - Le nombre de classes:
           
Le nombre de classe ne doit être ni très élevé, ni trop réduit. Lorsque le nombre de classes est très élevé, la distribution tend à être aléatoire et la perte d'information est très importante tandis que la lecture devient très difficile. Lorsqu'on a une distribution de 12 observations par exemple, et on fixe le nombre de classe à 5 ou 6, on a beaucoup de chances à enregistrer un nombre d'observations par classe peu différent de 2. Lorsque le nombre de classe augmente encore plus, la fréquence va varier entre 0, 1 et 2. Sur un autre plan, lorsque le nombre de classes dépasse la dizaine la lecture du tableau ou du graphique devient difficile et l'analyse perd de son utilité. Le chiffre 15 apparaît comme une limite supérieure du nombre de classes à ne pas dépasser.
            D'un autre côté, un nombre trop réduit de classes rend la distribution trop grossière et ne permet guère une analyse fine. Si l'on reprend l'exemple précédent et on fixe le nombre de classe à deux, on a une grande chance d'avoir deux groupes dont l'effectif serait peu différent de 5, 6 ou 7. Lorsque l'effectif global est plus important, le risque est encore plus grand. Au dessous de cinq classes, la distribution tend à être grossière et l'information est limitée, le nombre de classes doit être supérieur ou égal à cinq.
            Enfin, il y a un seuil au dessous duquel certaines lois statistiques ne sont pas applicables, c'est le cas des Tests et en particulier celui de Khi
2 (Cf. plus loin). Ce seuil est de 5 unités. Le nombre d'observations par classe doit être, dans la mesure du possible, supérieur ou égal à cinq: ni => 5.
            Au total, le nombre de classes (c) doit être compris entre 5 et 15 et l'effectif par classe dépassant 5 unités: 5 < c < 15 et ni => 5. Ces deux conditions réunies font que l'effectif global doit dépasser 25 mais en réalité on se trouve souvent devant de petits échantillons et on est obligé de procéder à la partition en classes si bien qu'on est amené parfois à sacrifier l'une des deux conditions.        

             b - L'intervalle de classe: régulier et entier

            L'intervalle de classe doit être un entier pour rendre la lecture, la comparaison et les calculs faciles. L'intervalle de classe doit être régulier pour éviter le problème de pondération des graphiques.        

            En effet, le rectangle dans l'histogramme est une aire égale au produit de sa largeur, représentée par l'intervalle de classe et sa longueur (ici la hauteur) exprimée par la fréquence: si = Di.ni. Pour pouvoir garder la même superficie d'un rectangle lorsque une de ses dimensions (ici la base) augmente (diminue) dans une proportion donnée on doit diviser (multiplier) la seconde dimension (ici la hauteur) dans même proportion (le même coefficient).

            Lorsque l'intervalle de classe se trouve multiplié par un nombre (p), pour garder la même aire on doit diviser la fréquence par la même valeur, c'est la pondération de l'his qu'on soucomtenue de la difficulté de représentation graphique (Cf. second exemple).

            L'inconvénient majeur de l'intervalle régulier réside dans la possibilité d'obtenir parfois des classes vides, des classes avec des effectifs nuls, ce qui est de nature à introduire des discontinuités probablement artificielles dans la distribution.

             c - Les bornes de classe : des nombres entiers

            Les bornes de classe doivent être des nombres entiers pour la facilité de lecture et la simplicité des calculs ce qui permet souvent d'obtenir des centres de classe (xi) sous forme de nombres entiers ou de nombres décimaux simples. Le centre de classe n'est que la demi-somme des deux bornes, il est entier seulement lorsque les bornes sont des nombres entiers pairs ou impairs simultanément. Pour éviter les décimales, il faut utiliser les entiers pairs ou impairs pour les bornes de classe.

             d - Mettre en relief  les discontinuités: Inverser l'optique

            Les vides qui existent dans une distribution de données ne sont ni neutres, ni fortuites, ils expriment en réalité une structure avec ses pleins et ses vides si bien qu'il faut les mettre en relief et ne pas les voiler pour pouvoir trouver une explication. Une façon de mettre en relief ces discontinuités est de placer les bornes de classe à leur niveau.

            Cette règle entre cependant en contradiction avec celle des intervalles réguliers mais elle évite d'avoir des classes vides et est très pertinente là où on cherche à découvrir une structure spatiale ou socio-économique d'une distribution, la signification des vides est aussi intéressante que celle des pleins (Cf. infra). Elle est cependant fort déconseillée lorsqu'on veut simplement présenter les données. Le problème réside toutefois dans la difficulté  de déterminer ces vides et ces discontinuités, a partir de quel seuil peut-on considérer qu'il y a une discontinuité?. Au lieu de donner l'impression d'un continuum, en forçant souvent la réalité, par l'utilisation d'un intervalle régulier qui cache et évacue les discontinuités, on s'intéresse plus particulièrement à ces vides en les mettant en relief ce qui nous permettra par la suite de saisir  le fondement de ces discontinuités.

             La partition n'est, en définitive, qu'un compromis entre ces impératifs contradictoires que le chercheur est tenu à respecter d'une manière plus ou moins rigoureuse selon ses objectifs et les besoins de l'analyse. Certaines règles ont une portée pratique de manière à simplifier la lecture, la manipulation ou le calcul (intervalle régulier, nombre entier pour les bornes, l'intervalle et le centre de classe, nombre de classe < 15) alors que d'autres par contre sont de nature plus théorique (ni > 5, mise en relief des discontinuités).

 Exemple: Intervalles de classes. Dans cet exemple, la signification des intervalles est différente. Dans le cas a, la classe 0 - 5 englobe toutes les valeurs: 5 < xi > 0. C'est à dire toutes les valeurs entre 0 et 5 mais pas les bornes, les valeurs 0 et 5 ne sont pas incluses.  

a - Intervalle ouvert    b - Intervalle fermé        c - Intervalle semi-ouvert

0 -   5                                      0 -   4                                      0  -   5
5 -   10                                    5 -   9                                      5  -  10

10 - 20                                   10 - 19                                    10  - 20

20 - 50                                    20 - 50                                   10 - 50

                 Dans le cas b, la classe 0 - 4 englobe toutes les valeurs entre 0 et 4 mais sans atteindre le 5 qui se trouve dans la seconde classe. Les valeurs vont de 0 à 4,9999 et de 5 à 9,99999...Ce type d'intervalle est souvent utilisé pour les classes d'âge lorsqu'on raisonne en termes d'années révolues.
                Dans le dernier cas (c), la classe 0 - 5 regroupe toutes les valeurs de 0 jusqu'à 4.9999, la valeur 5 n'est pas incluse, elle forme la borne inférieure de la seconde classe. ce dernier intervalle est équivalent au second seulement il en diffère au niveau de l'écriture. Il est le plus utilisé pour sa facilité de lecture.

 

Histogramme normal                          Histogramme pondéré 

                           

Exemple: Pondération de l'histogramme. Si on reprend le second exemple, on constate que le intervalle de classe n'est pas régulier, il va de 5 ha dans les deux premières classes jusqu'à 30 pour l a dernière classe.
                Si on prenait pour intervalle de base (I
o), celui de la première classe (5 ), en passant à la 2° classe, il n'y a pas de changement, mais lorsqu'on va à la 3° classe on constate que l'intervalle passe de 5 à 10 ha et se trouve multiplié par 2. Pour garder la même superficie, on doit diviser la fréquence qui est de 35 par 2, soit 17,5.
                Au niveau de la dernière classe,l'intervalle se trouve multiplié par 6 (on est passé de 5 à 30), si bien qu'on doit diviser l'effectif par 6 ce qui nous donne 15/6 = 2,5.

 
4.3 - Les méthodes de partition
 

            Il existe plusieurs méthodes de partition qui vont de méthodes de présentation arbitraires parfois très sommaires à des méthodes de recherches fondées théoriquement mais qui nécessitent un traitement préalable des données[1].

            a - La méthode arbitraire: c'est le cas de la plupart des méthodes utilisées qui manquent de fondement théorique clair et rationnel et posent le problème de la comparabilité des résultats, son caractère subjectif est certain. Cette méthode peut être à intervalle constant ou variable. Dans l'exemple 2 on pourrait prendre la partition à intervalle régulier de 5: 0-5, 5-10, 15-20, 20-25,...ou à intervalle irrégulier: 0-5, 5-10, 10-25, 25-50,  ou encore 0-10, 10-25, 25-50,..

            b - La méthode statistique à intervalle régulier: Cette méthode privilégie la régularité de l'intervalle des classes au dépens des autres règles et essaie de fixer un nombre de classes en fonction de l'effectif global .
           
- Méthode de la racine carrée: Le nombre de classes (c) est égal à la racine carrée de l'effectif (n) : c =  (n)1/2.
           
- Méthode de Brooks-Carruthers: Le nombre de classes doit être inférieur à 5 fois le logarithme de l'effectif global: c < 5 log n
           
- Méthode de Yole: Le nombre de classes est fonction de la racine quatrième de l'effectif   c = 2,5  (n)1/4.
           
- Méthode de Huntesberger: Le nombre de classe est  fonction du logarithme de l'effectif :  c = 1 + 3,3 log n. Cette méthode est présentée parfois sous le nom de méthode de Sturge avec une formule légèrement différente avce c = 1 + (10 log n)/3.

            Si on prend comme limite raisonnable un nombre de classe égal à 15, on constate que chacune des méthodes est efficace seulement sur un intervalle donné. Ainsi, la méthode de la racine carrée atteint ses limites au niveau de 225 (Cf. Tableau). C'est pour cette raison qu'une méthode synthétique s'impose.

            - Une méthode synthétique: Sur la base d'une interpolation linéaire de ces différentes méthodes, on peut proposer une méthode synthétique[2] qui tient compte des différents résultats et limites à la fois. Elle s'écrit comme suit : c = 4,1 n0,13.

                                 Tableau comparatif des méthodes statistiques de partition 

       Méthode

Limite inférieure

       (c = 5)

limite supérieure

        (c =15)

Racine carrée       

25

225

Brooks-Carruthers

11

1000

Yole       

20

1500

Huntsberger

17

17500

Belhedi