Home           Nous écrire               Liens Utiles           Votre Opinion            Fin de Page
 

                  ANALYSE DE LA DISTRIBUTION D'UNE VARIABLE
                                 Analyse univariée ou unidimensionnelle 
                                       
                                                  Réduire et résumer les données

                                                                                               
Amor BELHEDI, FSHS, Université de Tunis


     Paramètres de Centralité  (moyenne, médiane, mode)   Paramètres de Dispersion   ( Etendue, Variance,   Ecart-type ... )  Paramètres de Concentration       Paramètres de Symétrie   Paramètres d'Aplatissement    Standardisation


Introduction  Présenter & Décrire une variable  Réduire & Résumer une distribution  Notions et Distributions de Probabilités   Corrélation & Régression linéaire simple  Corrélation & Régression simples courbes  Test de Khi-deux   Corrélation dans un tableau  Chroniques & Distributions temporelles   Corrélation & Régression multiples   Droites des Moindres Rectangles   Analyse Factorielle   Classification & Typologie  Tests des hypothèses  Sondages & Distributions d'échantillonnage  Quelques Eléments de calcul matriciel  Tables Statistiques   Papiers Fonctionnels   Bibliographie Sommaire

 

        Après la présentation des données sous forme de tableaux ou de graphiques simples et clairs et leur structuration en classes, la seconde étape de l'analyse consiste à  résumer ces données par des indicateurs simples et significatifs à la fois, d'analyser la distribution des valeurs et de pouvoir comparer les distributions ou les observations entre elles.
   
   Il s'agit désormais de résumer et réduire ces données très détaillées et parfois trop encombrantes par des indicateurs simples et synthétiques. Comment résumer l'ensembles des valeurs par des indicateurs simples et synthétiques qui nous donnent une idée, comment comparer la position des différentes observations ou la distribution de plusieurs variables entre elles?.
 

            Il s'agit de résumer les données d'une distribution par des paramètres simples, uniques, représentatifs et synthétiques pour pouvoir comparer les résultats de différentes distributions réelles ou théoriques. Comment caractériser le centre d'une distribution et en donner un ordre de grandeur, comment mesurer la variabilité et les écarts des différentes valeurs les unes aux autres ou par rapport à un paramètre de centralité (c'est la dispersion)?. Comment exprimer la symétrie ou la dissymétrie d'une distribution? Comment mesurer la concentration d'un fait ou son équitable répartition; enfin comment comparer les différentes distributions indépendamment des unités de mesure ou des échelles en utilisant une référence unique (la standardisation)?
    On peut distinguer ainsi plusieurs types de paramètres selon l'objet de l'analyse: les paramètres de centralité ou de tendance centrale, de position, de dispersion, de symétrie, de forme et de concentration.

 
I - LES PARAMETRES DE CENTRALITE

             Ce sont des paramètres qui permettent de résumer les valeurs centrales de la distribution en termes de valeur ou de grandeur (la moyenne), de position (la médiane et les quantiles) ou de fréquence (le mode). On les appelle paramètres de tendance centrale ou de centralité.

 1 - La moyenne : l'ordre de grandeur 

            La moyenne est la valeur obtenue lorsque toutes les valeurs sont égales, lorsque la distribution est équitable. Elle exprime  l'ordre de  grandeur ou de  valeur des quantités. 

Exemple: On dit qu'un élève a une moyenne de 10.5, c'est comme s'il avait obtenu dans chaque matière une note de 10.5. On parle d'un revenu moyen de 250 D/mois /ménage, c'est à dire que si tous les ménages auraient le même revenu, chacun toucherait 250 D. Une ville s'est accrue à un taux moyen de 3.2% /an, est une ville qui croit chaque année au rythme de 3.2% comme si son rythme est totalement régulier au cours de toute la période.

             Il existe plusieurs types de moyennes, la plus utilisée et la plus simple de toutes est la moyenne arithmétique. 

1.1 - La moyenne arithmétique 

             La moyenne arithmétique est le rapport entre la somme des valeurs et leur nombre. Elle est souvent notée x avec une barre au dessus et se lit 'x barre', on peut aussi aussi utiliser le symbole xa pour des raisons pratiques, on a ainsi: xa = Sxi/n. C'est la forme de moyenne la plus utilisée. On peut distinguer plusieurs types de moyennes: la moyenne simple, pondérée et clasée.

a- La moyenne simple: Elle concerne les séries ordonnées où chaque valeur ne se répète qu'une seule fois. La moyenne est égale à la somme des valeurs rapportée à leur nombre (n): xa = Sxi/n.

Exemple: Moyenne de notes d'un étudiant. Soit les valeurs des notes obtenues par un étudiant dans cinq matières différentes: 10, 12, 8, 14, 6. La moyenne des notes est de : xa = (10 + 12 + 14 + 8 + 6) / 5 = 10. C'est comme si cet étudiant a obtenu une note de 10 dans chaque matière.

b- La moyenne classée: Elle concerne les séries classées où à chaque valeur correspond un effectif, les valeurs xi se répètent plus d'une fois dans une distribution. La moyenne est égale aux centres de classes (xi) pondérés par les effectifs correspondants (ni) qu'on rapporte à l'effectif global (n) :

                        xa = S(xi.ni)/n

            Le calcul de la moyenne dans une série classée passe par les 4 étapes suivantes: 1- Déterminer les centres de classe (xi). 2- Multiplier les centres de classe par l'effectif correspondant (ni). 3- Etablir la somme de ces produits. 4- Diviser cette somme sur l'effectif global (n).

 Exemple: Quelle est la taille moyenne des exploitations agricoles dont la distribution se trouve résumé par le tableau suivant.

Taille en ha  x

Nb Exploitants

 ni

Centre de Classes

xi

Superficie

xi.ni

0-5

400

2,5

1000

5-10

50

7,5

  375

10-20

35

15

  625

20-50

15

35

  625

Total

500

 

2625

                 Dans cet exemple, le calcul de la moyenne passe par les 4 étapes suivantes:
1 - Déterminer les centres de classe (xi), c'est la colonne 3.
2 - Multiplier les centres de classe par l'effectif correspondant (ni) : colonne 4.
3 - Etablir la somme de ces produits: total de la colonne 4.
4 - Diviser cette somme sur l'effectif global (n): 2625/500 = 5.25. La moyenne des exploitations  ou la taille moyenne dans ce périmètre est de 5.25 ha.

 c- La moyenne pondérée: Elle concerne la moyenne des moyennes, c'est à dire le calcul d'une moyenne de groupes ni, caractérisés déjà par leurs moyennes correspondantes (xi). La moyenne pondérée est égale à la somme des moyennes (ou des valeurs) pondérées par l'effectif des groupes correspondants qu'on divise sur l'effectif global: xa = S (xi.ni) /n   avec xi: la moyenne du groupe i, ni: l'effectif du groupe i, n = S ni

 Exemple: Taux moyen d'urbanisation. Soit trois gouvernorats d'un ensemble régional, le taux d'urbanisation étant de 100%, 95% et 92%, la population respective est de 750, 460 et 490 mille hab. Quel est le taux moyen d'urbanisation?.
                En fait, il est erroné de procéder à la somme des 3 taux qu'on divise sur trois, soit (100 + 95 + 92)/3 = 95.66% dans la mesure où le poids démographique des trois zones est loin d'être le même. En outre, les taux d'urbanisation sont déjà des moyennes exprimant le rapport entre les citadins et la population totale. Il y a lieu donc de calculer la moyenne des moyennes.
                La moyenne réelle est alors: (100 x750.000 +95 x 460.000 + 92 x 490)/(750.000 + 460.000 + 490.000) = 96,34 %.

 d- Définition générale de la moyenne arithmétique

            La moyenne arithmétique est le rapport entre la somme des valeurs (x), des centres de classes ou des moyennes de groupes (xi) pondérés par leur effectif correspondant (ni) d'un côté et l'effectif global des observations (n) d'autre part  xa = S(xi.ni)/n

Avec    xi = Valeur de x, centre de classe i, moyenne de groupe i
            ni = Effectif correspondant à la valeur i, au centre de classe i ou au groupe i
            n  = Effectif global (n = Sni) 

e- Propriétés de la moyenne arithmétique

1 - La très forte sensibilité aux valeurs extrêmes, une seule valeur extrême peut modifier profondément la moyenne: 400, 500, 600 et 700 - 400, 500, 600 et 10000 - 400, 500, 600 et 0 ont une moyenne de 750, 2850 et 350 respectivement alors qu'une seule valeur a changé.

2 - La somme des écarts à la moyenne est toujours nulle: S(xi - xa)/n = 0, d'où l'utilisation fréquente du carré des écarts S(xi - xa)2 ou de l'écart moyen S(|xi - xa |)/n  pour mesurer la dispersion des valeurs autour de la moyenne (Cf. infra).

3 - Si on pose x' = a - bx,  on a  xa = (x' - a)/b. On utilise cette propriété pour le calcul de la moyenne provisoire xo . Soit xo la moyenne provisoire, on a xi' = xi - xo, on démontre que xa = x' + xo

4 - La moyenne est relativement  peu sensible à la partition en classes

5 - La somme des carrés des écarts à la moyenne est la somme minimale que toute autre somme des carrés des écarts à une autre valeur quelconque:  S(xi - xa)2 = Sxi2 + nx2 - 2x Sxi = Sxi2 - nx2

6 - La moyenne arithmétique, comme la plupart des paramètres statistiques classiques, rend mal compte de la distribution spatiale: supposons qu'on divise un espace en n aires a, b, c et d... caractérisée chacune par une valeur donnée avec ni! : le nombre de valeurs distinctes et i = 1, 2, 3 ...k, P: est le produit, le nombre possible de distributions spatiales est donné par la formule suivante: Ds =  n!/Pni!.

 Exemple: Dans le cas où on a les valeurs  0, 2, 3 et 3 , on a n = 4 ,  k = 3 et ni = 1, 2, 3  ou 12 distributions différentes possibles: Ds = 4!/1!.1!.2! = 12, alors que la moyenne est dans tous les cas égale à 2. Le tableau suivant représente quelques dispositions spatiales pour une même moyenne globale de la région. 

0

2

 

0

3

 

2

0

 

3

3

 

3

0

3

3

 

2

3

 

3

3

 

0

2

 

2

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

0

 

3

3

 

3

2

 

0

3

 

3

2

3

2

 

2

0

 

3

0

 

3

2

 

0

3

 
1.2 - La moyenne géométrique
: les phénomènes de croissance               

            Très souvent, on se trouve confronté à des phénomènes multiplicatifs dont la moyenne arithmétique ne peut pas en rendre compte, c'est le cas des phénomènes de croissance où la moyenne géométrique est plus appropriée.

 a- Définition

            La moyenne géométrique est la racine n ème du produit des valeurs xi. Elle est notée xg ou G. On a ainsi G = xg =  (P xi)1/n .
Avec n: le nombre de valeurs xiP : le symbole du produit.
            En utilisant le logarithme, on trouve que le logarithme de la moyenne géométrique est la moyenne arithmétique des logarithmes:  
 log G = log xg = 1/n (S log xi).
            La moyenne géométrique est toujours inférieure à la moyenne arithmétique sauf en cas d'égalité des valeurs xi : Xa <= Xg.

Exemple: Taux moyen de croissance d'une ville. Soit une ville dont la population en 1991 a été de 100.000 hab., elle a atteint 120.000 hab. en 1992 et 140.000 en 1993. Quel serait son taux moyen de croissance. Autrement quel est le taux de croissance annuelle?.
Méthode 1
: Cette ville s'est accrue de 20.000 hab. chaque année ce qui correspond à 20% pour 1991 - 92 (120 -100)/100 = 20/100 = 0.20 = 20%) et 16.66% pour 1992 - 93 (140 - 120/120 = 20/120 = 0.1666 = 16.66%). On peut penser que le taux moyen est de: (20 + 16,66)/2 = 18,33%. Pour être vrai, ce taux doit reconstituer l'évolution de la population et nous permettre de retrouver 140.000 hab. au bout de deux ans, ce qui n'est pas le cas:
En 1992, la population est de 100.000 + 100.000 * .1833 = 100.000(1 +.1833) =118.333 hab.
En 1993, la population est de 118.333 + 118.333 * .1833 = 118.333(1 + .1833) = 140.023 hab.
                Il y a donc une différence de 23 personnes ce qui n'est pas négligeable en matière de croissance surtout lorsqu'on imagine ce processus sur une plus longue période et non pas seulement sur deux ans.
 

Méthode 2: On peut aussi penser à une autre méthode qui consiste à calculer le taux  sur les deux années et le diviser ensuite sur deux pour avoir la moyenne: (140.000 - 110.000)/100.000 = 0.40 =  40%, soit un taux moyen de 20%. Ce taux n'est pas valable aussi puisqu'il ne nous permet pas de retrouver  la population après deux ans: En 1992, on a 100.000 (1.20) = 120.000 hab., en 1993 on obtient 120.000(1.20) = 144.000 hab.,  soit 4000 hab. de plus ?.

 Méthode 3: Le taux moyen est égal à la racine carrée du produit des deux taux observés : 0.20 x 0.1666 = 0.118322 = 18.322%. Seul ce taux nous permet de retrouver au bout de deux ans l'effectif de 140.000 hab. En 1992, on a 118.322, en 1993 on obtient 140.000.

 b- Application : Le taux moyen de croissance

            Soit une ville de taille Po, elle croit à un rythme régulier (taux moyen) de i, elle atteint le niveau P1 la première année, P2 la seconde année et Pn la n° année :
Année o = Po                                              = Po
Année 1 = P1  =  Po + Po.i                         =  Po.(1 +  i)
Année 2 = P2  =  P1+  P1.i     = P1.(1+ i)   =  Po.(1 +  i)
2
Année 3 = P3  =  P2 + P2.i     = P2.(1+ i)   =  Po.(1 +  i)
3
.....................................................................................

Année  n = Pn  =  Pn-1 + Pn-1.(1+ i)          = Po. (1 +  i)n
 

            On peut écrire alors la forme générale: Pn = Po.(1 + i) avec Pn : Valeur au temps n, Po: valeur au temps de base (o), n: la période (années, mois....), et i : le taux moyen de croissanc. Cette formule nous permet de calculer le taux i en connaissant les données de départ et d'arrivée (Po et Pn) en utilisant la racine n° ou le logarithme:

- Méthode de la racine: On peut écrire:  (1 + i)n = Pn/Po   et de là  (1 + i) = (Pn/po)1/n . Le taux moyen de croissance est alors de:  i =  (Pn/Po)1/n - 1
-
Méthode du Logarithme:
En utilisant la transformation logarithmique de la formule de départ, on obtient:
log Pn = log Po + n.log (1 + i), d'où:  log (1 + i) = (log Pn - log Po)/n = 1/n log (Pn/Po). On peut écrire alors: (1 + i) = 10 log (Pn/Po)/n  ,  d'où   i = 10log (Pn/Po)/n - 1.  Si on utilise le logarithme népérien on a  i = Exp In (Pn/Po)/n - 1
 

La moyenne géométrique

mg = (1 + i1)(1 + i2)....(1 + in))1/2
Puisque la moyenne i est obtenue lorsque i1 = i2 = ... in, on peut écrire que :
mg = i = ((1 + i)(1 + i)...(1 +  i))1/n  = ((1 + i)n )1/n  ce qui nous permet d'écrire que i = (Pn -Po)/Po = Pn/Po - 1 ,  d'où la relation: i = (Pn /Po)1/n - 1  

            En outre, en utilisant  les rapports de croissance absolue, on arrive à la même formule :
Les taux de croissance absolue d’une année (0, 1, 2,…n-1, n)à l’autre sont exprimés par les rapports : P1/Po, P2/P1, … Pn/Pn-1. On peut  écrire que le taux moyen de croissance absolue (1 + i) est la moyenne géométrique de ces taux absolus, d’où on peut écrire que :
(1+ i) = (P1/Po)(P2/P1)(…)(Pn-1/Pn-2)(Pn/Pn-1))
1/n.
En simplifiant par les termes successifs P1, P2,…Pn-1, on trouve que :  (1 + i) = (Pn/P1)1/n  et que  i = (Pn/P1) 1/n - 1
 

1.3 - La moyenne harmonique : les ratios et les rapports

             La moyenne harmonique est égale à l'inverse de la moyenne arithmétique des inverses (1/xi).  Elle est notée H ou xh. Elle s'écrit comme suit: H = xh = (1/n S ni. 1/xi)-1. L'inverse de la moyenne arithmétique est égal à la moyenne arithmétique des inverses : H-1 = 1/n S(ni.1/xiou H-1 = 1/P S(Pi.1/xi)
P : La population totale, Pi : la population ou le poids correspondant à de la valeur i, xi le rapport ou le ratio (i).

            Elle intéresse les ratios et les rapports comme le nombre de habitants par médecin, par lit hospitalier ou touristique, la densité… Pour la densité di , on a: d =1/PS(Pi.1/di)-1  avec di: la densité de la zone i, Pi et P: la population de la zone i et totale. Pour le ratio «nombre d’habitants/médecin », on peut écrire la moyenne harmonique comme suit avec P et P: la population, Mi, le nombre de médecins: Nbre (hab/med) = 1/PS(Pi.1/(Pi/Mi))-1. Pour le ratio «nombre de médecins/hab», on a le rapport inverse avec: Nbre (med/hab) = 1/MS(Pi.1/(Mi/Pi))-1 

         Elle est toujours inférieure à la moyenne géométrique sauf en cas d'égalité des valeurs. On a ainsi la relation : xh <= xg <= xa. Elle introduit une discrimination au profit des petites valeurs[1], c'est le cas par exemple du modèle gravitaire et de l'étude des zones d'influence.

 
Exemple: Nombre moyen de habitants par médecin. Soit deux régions dont le nombre d'habitants/médecin est égal à 2500 et 3500 respectivement, la population étant de 350.000 et 140.000 hab. Quel est le nombre moyen d'habitants/Médecin?.

Méthode 1 : On calcule le nombre total de médecins qu'on rapporte à la population totale:
La population totale est de 500.000 hab., le nombre de médecin est de 140 pour la région A, et de 40 pour la région B.
Le nombre moyen d'habitants/Med est alors de : 500.000/(140+40) = 2.777,77 = 2.778 hab/Med. 

Méthode 2 : H ou xh = 1/500.000 (350.000 x 1/2500 + 160.000 x 1/3500) -1 = 2.777,777 = 2.778

 
1.4 - La moyenne quadratique
: les surfaces

             La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés des valeurs xi. Elle est notée xq ou Q. Elle s'écrit comme suit: Q2 = xq =1/n S xid'où on peut écrire la relation :  Q = xq = (1/n(Sxi2))1/2

            Elle est utile pour le calcul de la surface moyenne, en cartographie, dans le calcul du barycentre régional ou des phénomènes  dont la diffusion n'est pas influencée par la distance comme l'aire de vente des services de base.

 Exemple: Côté moyen de formes carrées. Soit les parcelles suivantes dont la superficie est de 5, 10, 15, 20, 25 m2, quel est le côté de la parcelle moyenne?
                x
q =  (52 + 102 + 152 + 202 + 252)/5)1/2 = (1375)1/2 = 16,583
                La taille moyenne de la parcelle un carré de 16,583 m de côté, soit une superficie de 274,5 m2. C'est le résultat qu'on obtient en divisant 1375 sur 5, comme si on disposait des superficies et le problème revient à calculer une simple moyenne arithmétique.

 
1.5 - Formulation générale de la moyenne

              La formule générale de la moyenne peut s'écrire comme suit: m = 1/n (Sxia)1/a    avec la moyenne harmonique puissance (a < -1) ou simple (a = -1), la moyenne arithmétique (a = 1) géométrique (a = 1, xi = log xi' ), la moyenne en puissance (a >1) ou quadratique (a = 2).

 1.6 - Relation entre les moyennes

             Le rapport entre les différentes moyennes est le suivant par ordre décroissant:  Q => X => G => H ou xq => xa => xg => xh. En cas d'égalité des valeurs xi,  les quatre moyennes sont équivalentes: Q = X = G = H ou xq = xa = xg = xh 

 Exemple : Comparaison de moyennes. Soit les valeurs 5, 7, 10, 12, 16. Quelles sont les différentes moyennes?
x
a =  1/5(5 + 7 + 10 + 12 + 16)                                                             = 10  
x
g =  (5*7*10*12*16)1/5 = (67200)1/5                                               = 9.234
x
h =  (0.2 + 0.1428 + 0.1 + 0.08333 + 0.0625)/5) - 1                          = 3.429
x
q = (52  + 72  + 102  + 122  + 162  )/5)1/2                                         = 10.714
On obtient ainsi :
xq > xa > xg > xh avec 10.714 > 10 > 9.234 > 3.429. 

Exemple: On dispose de 5 valeurs égales à 10. Calculer les différentes moyennes?
x
a = (10 + 10 + 10 + 10 + 10)/5                                                            = 10
x
g = (10*10*10*10*10)1/5 = (100.000)1/5                                       = 10
x
h = (0.1 + 0.1+ 0.1+ 0.1+ 0.1)/5)-1 = (0.5)/5)-1 = 0.1-1    = 10
x
q = (100 + 100 + 100 + 100 + 100)/5)1/2 = 1001/2           = 10
On a x
q = xa = xg = xh = 10  

 
2 - La médiane
: la position centrale

             La médiane est la valeur qui divise une distribution en deux parties égales en nombre d'observations. La médiane est la valeur qui a autant d'observations à gauche qu'à droite.  Elle est notée Me. On a  Infi Me = Supi Me.

 2.1 - Cas d'une série ordonnée

             La série ordonnée est une série dont les observations sont rangées dans un certain ordre (croissant ou décroissant). Deux cas se présentent en fonction de la parité de la distribution :

            a- Distribution impaire: Lorsque la distribution est impaire, la médiane est une valeur qui occupe la position médiane, sa position est déterminée  par la formule suivante:   Me =  (n + 1)/2.

Exemple: Soient les distributions impaires suivantes dont on veut calculer les médianes Me:
Distributions                                 Effectif n   Position de Me   Valeur de Me
0, 1 , 2                                                    3                             2                            1
2, 3, ,5, 8,                                               5                             3                            4             
5, 7, 8, 9, 10, 13, 20                               7                             4                            9
 

            b- Distribution paire: Quand la distribution est paire, on n'a pas une valeur médiane mais un intervalle médian. La médiane se trouve dans un intervalle borné par les deux valeurs qui occupent la position centrale et dont la position est déterminée par la formule suivante: Me = [ n/2, (n/2) + 1].

 Exemple: Soit la distribution ordonnée paire suivante: 2,  4,  6,  8, 10, 12.  Dans cetsérie, on a 6 observations et aucune valeur n'occupe le centre, on a un intervalle médian borné par la 3° valeurs  (n/2) et  la 4° valeur ((n/2)+1). L'intervalle médian est alors [6, 8].

 
2.2 - Cas d'une série classée
 

            Lorsque les observations ont des effectifs variables, la position de la médiane se trouve affectée par la nature de la répartition. La médiane est déterminée selon la règle de la proportionnalité.

            On estime que dans la classe médiane, l'écart entre la médiane (Me) et la Borne Supérieure de cette classe (Bi) est proportionnelle à l'écart entre la fréquence cumulée correspondante à cette Borne (NBi) et la fréquence cumulée qui correspond à la médiane, soit n/2 (ou 50%).

            On peut écrire  alors que: (Bi - Me)/(NBi - n/2) = (Bi - bi)/(NBi - Nbi)
avec (Bi - bi): l'intervalle de la classe médiane I, (NBi - Nbi): l'écart des fréquences cumulées correspondant aux deux bornes de cette classe, soit l'effectif ni, n: l'effectif global.
On a: (Bi - Me)/(NBi - n/2) = I/ni.
On obtient la valeur de la médiane:    Me = Bi - I.(Nbi - n/2)/ni

                  bi    ------------------------------------------------------------------------     Nbi

                  
 

  I            Me    ___________________________________________     n/2                  ni

                   Bi - Me                                            (NBi - n/2

                  Bi   -----------------------------------------------------------------------     NBi

             La médiane est la valeur qui laisse de part et d'autre la moitié (50%)  de la population ou des unités d'une distribution 50% des unités ont une valeur qui dépasse celle de la médiane et 50% ont une valeur qui lui est inférieure. La médiane permet de pondérer la moyenne et de rectifier le jugement en donnant une information supplémentaire sur la nature de la répartition des observations. L'écart entre la moyenne et médiane exprime l'asymétrie de la distribution, plus il est élevé et plus la distribution est dissymétrique (Cf. infra).

Exemple: Médiane d'une série classée. La taille des exploitations agricoles dans un village est représenté dans le tableau suivant. Quelle est la taille moyenne des exploitations dans ce village?. 

taille en ha xi

Nb Exploitants ni

Nb Cumulé  Ni

0 - 5

100

100

5 - 10

200

300

10 - 20

150

450

20 - 50

80

530

50-100

20

550

100 - 200

10

560

Total

560

 

                La classe médiane est représentée par la classe qui contient n/2, soit dans cet exemple 280 (560/2 = 280), soit la seconde classe 5 - 10 ha. Le rapport entre (10 - 5 )/(300 - 100) est égal à celui entre  (Bi - Me)/(300 - 280) .
Me = 10 - 5/200(300 - 280) = 10 - 5/200(20) = 10 - 100/200 = 9,5 ha.
                Dans ce périmètre, la moitié des exploitations ont une taille supérieure à 9,5 ha, l'autre moitié lui est inférieure. La moyenne étant de 17,5 ha. La moyenne nous permet d'avoir une idée sur l'ordre de grandeur des valeurs tandis que la médiane nous permet de mieux se situer par rapport à cet ordre. Si toutes les exploitations avaient la même taille on obtiendrait 17.5 ha mais il se trouve que la moitié de ces exploitations ont une taille inférieure à 9.5 ha.

             Graphiquement, la médiane est la valeur qui correspond à la fréquence n/2 ou 50% dans une courbe ou un diagramme des fréquences cumulées. Elle correspond à l'intersection des deux courbes de fréquences cumulées (croissantes et décroissantes). Sur une courbe affinée (Cf. ci-dessus), on utilise souvent la formule: (2i - 1)/2n = 0.5, soit la médiane correspond à la valeur i = (n - 1)/2.

 
2.3 - Propriétés

             La médiane est un paramètre de valeur centrale mais aussi de position, elle représente le centre de gravité d'une distribution. Contrairement à la moyenne, elle est peu sensible aux valeurs extrêmes, elle ne tient compte que du nombre des observations et non de leur valeur[2]. Elle est insensible aux valeurs. En outre, elle minimise la somme des écarts à toutes les valeurs: S| xi - Me | = Minimum, aucun autre paramètre statistique n'atteint ce minimum. Cette propriété est fondamentale dans l'analyse des localisations en géographie et en géomarketing.

 2.4 - Applications:  la localisation optimale

             La médiane constitue le paramètre qui minimise la somme des écarts des différentes observations. Elle requiert une importance fondamentale en matière de localisation et constitue une réponse au problème de la localisation optimale qui minimise l'ensemble des distances à parcourir à tous les points. C'est le cas par exemple de la localisation d'un réservoir d'hydrocarbures par rapport aux stations services localisées le long d'une route (une dimension) ou dans une région (deux dimensions).

Exemple: Le long d'une route on a les villes situées aux distances suivantes du Nord au Sud: 60, 100, 150, 200, 250, 300, 350, 400, 450, 500 et 550 kms. Où localiser le réservoir de produits pétroliers et stratégiques pour l'approvisionnement de ces villes?.

                Dans ce cas, on a un problème de localisation optimale et c'est la médiane qui correspond à cette localisation, soit la ville située à 300  kms. La somme des écarts est de 1490 kms (240 +200 +150 + 100 + 50 + 0 + 50 + 100 + 150 + 200 + 250) avec 740 kms vers le nord et 750 vers le sud. La moyenne de ces distances est de 296.363 kms, la somme des distances est de 1493.638 kms. La médiane constitue le point où les distances à parcourir sont à peu près équivalentes d'un côté comme de l'autre.

i_________i_____i_______i________i________i_________i_________i_________i________i_________i_______i
0               60      100       150          200             250             300             350           400            450            500        550

                                                                                                      
                      Me
               

3 - Le mode : l'ordre de la fréquence et la dominance

             Le mode est la valeur ou la modalité la plus fréquente, c'est aussi la classe  qui a l'effectif le plus élevé dans une distribution statistique, dans ce cas on parle de classe modale. Il est noté Mo.

            Dans une série classée, le mode est déterminé par interpolation linéaire avec la formule suivante: Mo = bi + I.d1/(d1 + d2) avec bi: borne inférieure de la classe modale, I: son intervalle, d1: différence entre les fréquences de la classe modale et la classe précédente, d2: différence de fréquence entre classe modale et classe suivante.

            Graphiquement, le mode est la valeur qui correspond à la fréquence la plus élevée dans un histogramme ou un diagramme en bâton. Dans une série classée, on peut, par interpolation aussi, déterminer le mode en joignant, de part et d'autre de la classe modale, le sommet extérieur du rectangle encadrant et le sommet intérieur opposé de la classe modale, le point d'intersection des deux droites représente le mode. La classe encadrante attire le mode en fonction de son poids relatif.

 Exemple: Dans l'exemple précédent des exploitations agricoles, on constate que la classe |5-10] ha représente la classe modale puisque son effectif atteint 200. On a bi = 5, d1 = 100 et d2 = 50 et I = 5 d'où on tire Mo = 5 + 5.100/(100 + 50) = 8.333 ha. C'est ainsi que la troisième classe a un effectif plus élevé attire  relativement plus le mode vers elle.

             Une distribution peut être uni, bi ou multimodale lorsqu'elle combine plus d'un ensemble, c'est le cas par exemple de la consommation de l'énergie ou de l'urbanisation dans le monde où on a deux modes correspondant aux pics des pays industrialisés et des pays en voie de développement. On parle ainsi de mode principal et secondaire lorsque l'un est plus important que l'autre.

            Le mode est très utilisé en géographie d'une manière indirecte dans la mesure où on parle souvent de dominance et de fréquence. Le paysage n'est en fait que cet agencement dominant qu'on retrouve souvent dans une région donnée. On parle de spécialisation d'une ville, d'un quartier ou d'une région pour exprimer le fait qu'un caractère dominant ou fréquent arrive à marquer l'ensemble. 

            Habituellement, le mode est considéré  comme un paramètre de valeur centrale mais on peut bien avoir un mode placé à l'une des extrémités d'une distr, comme est le cas des distributions en J ou en U.

 
4 - Rapport entre les paramètres de centralité

            Le rapport entre les trois ètres de tendance centrale (ou de centralité) exprime la symétrie de la distribution et son sens (droite ou gauche). Dans une distribution totalement symétrique, les trois paramètres sont égaux (Mo = Me = xa), les grandes valeurs sont autant importantes que les petites. Plus la dissymétrie est prononcée, plus l'écart entre ces paramètres s'élève. La médiane s'intercale toujours entre les deux autres paramètres.

            Dans une distribution dissymétrique à droite (le sens de la faible pente est vers la droite), le mode est inférieur à la médiane qui est plus faible que la moyenne (Mo < Me < xa), les grandes valeurs l'emportent et arrivent à étirer la distribution (la courbe) vers la droite tandis que les faibles valeurs l'emportent en nombre. Dans une distribution dissymétrique à gauche (le sens de la faible pente vers la gauche), on a le rapport inverse:  Mo > Me > xa.

            Le rapport de Pearson est égal au rapport entre l'écart moyenne-mode et de l'écart moyenne-médiane: P = (xa - Mo)/(xa- Me). Il est égal à 3 dans une distribution légèrement dissymétrique, il s'élève avec la dissymétrie de la distribution[3].

Exemple: Si on reprend l'exemple précédent, on constate que la moyenne est de 17.5 ha, la médiane est de 9.5 ha et le Mode est situé dans la classe 5-10 ha, soit approximativement 7.5 ha si on se limite au centre de la classe modale. On a donc: Mo (7.5) < Me (9.5) < xa (17.5). C'est une distribution dissymétrique à droite, c'est à dire que les faibles valeurs l'emportent en effectif mais les valeurs élevées l'emportent quant à la valeur. Le rapport de Pearson est égal à  (17.5 -9.5)/(9.5 - 7.5) = 8/2 = 4 ce qui exprime une dissymétrie prononcée. 

            Ces paramètres de centralité nous informent sur l'ordre de grandeur des observations (la moyenne), la valeur qui détient la position centrale (la médiane) ou la plus fréquente (le mode) mais ne nous apportent rien quant à la nature de la distribution autour de ces paramètres si bien qu'on peut avoir une même moyenne qui correspond à des situations très différentes voire contradictoires, c'est pour cette raison qu'on a recours aux paramètres de position et de dispersion. L'exemple suivant montre l'incapacité de la moyenne à rendre compte de la nature de la distribution et de mesurer la variabilité.

 Exemple: Soit 4 stations pluviométriques A, B, C et D qui ont enregistré les quantités de pluies suivantes :
Station     Hiver        Printemps   Eté       Automne      Moyenne saisonnière

A              100                  50             0              50                              50