Analyse univariée ou unidimensionnelle
Paramètres de Centralité (moyenne, médiane, mode) Paramètres de Dispersion ( Etendue, Variance, Ecart-type ... ) Paramètres de Concentration Paramètres de Symétrie Paramètres d'Aplatissement Standardisation
Introduction Présenter & Décrire une variable Réduire & Résumer une distribution Notions et Distributions de Probabilités Corrélation & Régression linéaire simple Corrélation & Régression simples courbes Test de Khi-deux Corrélation dans un tableau Chroniques & Distributions temporelles Corrélation & Régression multiples Droites des Moindres Rectangles Analyse Factorielle Classification & Typologie Tests des hypothèses Sondages & Distributions d'échantillonnage Quelques Eléments de calcul matriciel Tables Statistiques Papiers Fonctionnels Bibliographie Sommaire
Après la présentation des données sous forme
de tableaux ou de graphiques simples et clairs et leur structuration en classes, la
seconde étape de l'analyse consiste à
résumer ces données par des indicateurs simples et significatifs à la fois, d'analyser la distribution des
valeurs et de
pouvoir comparer les distributions ou les observations entre elles.
Il s'agit
désormais de résumer et réduire ces données très détaillées et parfois
trop encombrantes par des indicateurs simples et synthétiques.
Comment résumer l'ensembles des
valeurs par des indicateurs simples et synthétiques qui nous donnent une idée,
comment comparer la position des différentes observations ou la distribution de
plusieurs variables entre elles?.
Il s'agit de résumer les données d'une distribution par des paramètres
simples, uniques, représentatifs et synthétiques pour pouvoir comparer les
résultats de différentes distributions réelles ou théoriques. Comment
caractériser le centre d'une distribution et en donner un ordre de grandeur,
comment mesurer la variabilité et les écarts des différentes valeurs les unes
aux autres ou par rapport à un paramètre de centralité (c'est la dispersion)?.
Comment exprimer la symétrie ou la dissymétrie d'une distribution? Comment
mesurer la concentration d'un fait ou son équitable répartition; enfin comment
comparer les différentes distributions indépendamment des unités de mesure ou
des échelles en utilisant une référence unique (la standardisation)?
On peut distinguer
ainsi plusieurs types de paramètres selon l'objet de l'analyse: les paramètres de
centralité ou de tendance centrale, de position, de dispersion, de symétrie, de forme et de
concentration.
I - LES PARAMETRES DE CENTRALITE
Ce sont des paramètres qui permettent de résumer les valeurs centrales de la distribution en termes de valeur ou de grandeur (la moyenne), de position (la médiane et les quantiles) ou de fréquence (le mode). On les appelle paramètres de tendance centrale ou de centralité.
1 - La moyenne : l'ordre de grandeur
La moyenne est la valeur obtenue lorsque toutes les valeurs sont égales, lorsque la distribution est équitable. Elle exprime l'ordre de grandeur ou de valeur des quantités.
Exemple: On dit qu'un élève a une moyenne de 10.5, c'est comme s'il avait obtenu dans chaque matière une note de 10.5. On parle d'un revenu moyen de 250 D/mois /ménage, c'est à dire que si tous les ménages auraient le même revenu, chacun toucherait 250 D. Une ville s'est accrue à un taux moyen de 3.2% /an, est une ville qui croit chaque année au rythme de 3.2% comme si son rythme est totalement régulier au cours de toute la période.
Il existe plusieurs types de moyennes, la plus utilisée et la plus simple de toutes est la moyenne arithmétique.
1.1 - La moyenne arithmétique
La moyenne arithmétique est le rapport entre la somme des valeurs et leur nombre. Elle est souvent notée x avec une barre au dessus et se lit 'x barre', on peut aussi aussi utiliser le symbole xa pour des raisons pratiques, on a ainsi: xa = Sxi/n. C'est la forme de moyenne la plus utilisée. On peut distinguer plusieurs types de moyennes: la moyenne simple, pondérée et clasée.
a- La moyenne simple: Elle concerne les séries ordonnées où chaque valeur ne se répète qu'une seule fois. La moyenne est égale à la somme des valeurs rapportée à leur nombre (n): xa = Sxi/n.
Exemple: Moyenne de notes d'un étudiant. Soit les valeurs des notes obtenues par un étudiant dans cinq matières différentes: 10, 12, 8, 14, 6. La moyenne des notes est de : xa = (10 + 12 + 14 + 8 + 6) / 5 = 10. C'est comme si cet étudiant a obtenu une note de 10 dans chaque matière.
b- La moyenne classée: Elle concerne les séries classées où à chaque valeur correspond un effectif, les valeurs xi se répètent plus d'une fois dans une distribution. La moyenne est égale aux centres de classes (xi) pondérés par les effectifs correspondants (ni) qu'on rapporte à l'effectif global (n) :
xa = S(xi.ni)/n
Le calcul de la moyenne dans une série classée passe par les 4 étapes suivantes: 1- Déterminer les centres de classe (xi). 2- Multiplier les centres de classe par l'effectif correspondant (ni). 3- Etablir la somme de ces produits. 4- Diviser cette somme sur l'effectif global (n).
Exemple: Quelle est la taille moyenne des exploitations agricoles dont la distribution se trouve résumé par le tableau suivant.
|
Taille en ha x |
Nb Exploitants ni |
Centre de Classes xi |
Superficie xi.ni |
|
0-5 |
400 |
2,5 |
1000 |
|
5-10 |
50 |
7,5 |
375 |
|
10-20 |
35 |
15 |
625 |
|
20-50 |
15 |
35 |
625 |
|
Total |
500 |
|
2625 |
Dans
cet exemple, le calcul de la moyenne passe par les 4 étapes suivantes:
1 - Déterminer les centres de classe (xi), c'est la colonne 3.
2 - Multiplier les centres de classe par l'effectif correspondant (ni) : colonne
4.
3 - Etablir la somme de ces produits: total de la colonne 4.
4 - Diviser cette somme sur l'effectif global (n): 2625/500 = 5.25. La moyenne
des exploitations ou la taille moyenne dans ce périmètre est de 5.25 ha.
c- La moyenne pondérée: Elle concerne la moyenne des moyennes, c'est à dire le calcul d'une moyenne de groupes ni, caractérisés déjà par leurs moyennes correspondantes (xi). La moyenne pondérée est égale à la somme des moyennes (ou des valeurs) pondérées par l'effectif des groupes correspondants qu'on divise sur l'effectif global: xa = S (xi.ni) /n avec xi: la moyenne du groupe i, ni: l'effectif du groupe i, n = S ni
Exemple: Taux moyen
d'urbanisation. Soit trois gouvernorats d'un ensemble régional, le taux
d'urbanisation étant de 100%, 95% et 92%, la population respective est de 750,
460 et 490 mille hab. Quel est le taux moyen d'urbanisation?.
En fait, il est erroné de procéder à la somme des 3 taux qu'on
divise sur trois, soit (100 + 95 + 92)/3 = 95.66% dans la mesure où le poids
démographique des trois zones est loin d'être le même. En outre, les taux
d'urbanisation sont déjà des moyennes exprimant le rapport entre les citadins et
la population totale. Il y a lieu donc de calculer la moyenne des moyennes.
La moyenne réelle est alors: (100 x750.000 +95 x 460.000 + 92 x
490)/(750.000 + 460.000 + 490.000) = 96,34 %.
d- Définition générale de la moyenne arithmétique
La moyenne arithmétique est le rapport entre la somme des valeurs (x), des centres de classes ou des moyennes de groupes (xi) pondérés par leur effectif correspondant (ni) d'un côté et l'effectif global des observations (n) d'autre part xa = S(xi.ni)/n
Avec xi =
Valeur de x, centre de classe i, moyenne de groupe i
ni = Effectif
correspondant à la valeur i, au centre de classe i ou au groupe i
n = Effectif global (n = Sni)
e- Propriétés de la moyenne arithmétique
1 - La très forte sensibilité aux valeurs extrêmes, une seule valeur extrême peut modifier profondément la moyenne: 400, 500, 600 et 700 - 400, 500, 600 et 10000 - 400, 500, 600 et 0 ont une moyenne de 750, 2850 et 350 respectivement alors qu'une seule valeur a changé.
2 - La somme des écarts à la moyenne est toujours nulle: S(xi - xa)/n = 0, d'où l'utilisation fréquente du carré des écarts S(xi - xa)2 ou de l'écart moyen S(|xi - xa |)/n pour mesurer la dispersion des valeurs autour de la moyenne (Cf. infra).
3 - Si on pose x' = a - bx, on a xa = (x' - a)/b. On utilise cette propriété pour le calcul de la moyenne provisoire xo . Soit xo la moyenne provisoire, on a xi' = xi - xo, on démontre que xa = x' + xo
4 - La moyenne est relativement peu sensible à la partition en classes
5 - La somme des carrés des écarts à la moyenne est la somme minimale que toute autre somme des carrés des écarts à une autre valeur quelconque: S(xi - xa)2 = Sxi2 + nx2 - 2x Sxi = Sxi2 - nx2
6 - La moyenne arithmétique, comme la plupart des paramètres statistiques classiques, rend mal compte de la distribution spatiale: supposons qu'on divise un espace en n aires a, b, c et d... caractérisée chacune par une valeur donnée avec ni! : le nombre de valeurs distinctes et i = 1, 2, 3 ...k, P: est le produit, le nombre possible de distributions spatiales est donné par la formule suivante: Ds = n!/Pni!.
Exemple: Dans le cas où on a les valeurs 0, 2, 3 et 3 , on a n = 4 , k = 3 et ni = 1, 2, 3 ou 12 distributions différentes possibles: Ds = 4!/1!.1!.2! = 12, alors que la moyenne est dans tous les cas égale à 2. Le tableau suivant représente quelques dispositions spatiales pour une même moyenne globale de la région.
|
0 |
2 |
|
0 |
3 |
|
2 |
0 |
|
3 |
3 |
|
3 |
0 |
|
3 |
3 |
|
2 |
3 |
|
3 |
3 |
|
0 |
2 |
|
2 |
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
0 |
|
3 |
3 |
|
3 |
2 |
|
0 |
3 |
|
3 |
2 |
|
3 |
2 |
|
2 |
0 |
|
3 |
0 |
|
3 |
2 |
|
0 |
3 |
1.2 - La moyenne géométrique: les phénomènes de croissance
Très souvent, on se trouve confronté à des phénomènes multiplicatifs dont la moyenne arithmétique ne peut pas en rendre compte, c'est le cas des phénomènes de croissance où la moyenne géométrique est plus appropriée.
a- Définition
La moyenne géométrique est la racine n ème du produit des valeurs xi.
Elle est notée xg ou
G. On a ainsi G = xg =
(P xi)1/n
.
Avec n: le nombre de valeurs xi,
P : le symbole du produit.
En utilisant le logarithme, on trouve que le logarithme de la
moyenne géométrique est la moyenne arithmétique des logarithmes:
log G = log xg =
1/n (S log xi).
La moyenne géométrique est toujours inférieure à la moyenne
arithmétique sauf en cas d'égalité des valeurs xi :
Xa <= Xg.
Exemple: Taux moyen de
croissance d'une ville. Soit une ville dont la population en 1991 a été de
100.000 hab., elle a atteint 120.000 hab. en 1992 et 140.000 en 1993. Quel
serait son taux moyen de croissance. Autrement quel est le taux de croissance
annuelle?.
Méthode 1 : Cette ville s'est accrue
de 20.000 hab. chaque année ce qui correspond à 20% pour 1991 - 92 (120
-100)/100 = 20/100 = 0.20 = 20%) et 16.66% pour 1992 - 93 (140 - 120/120 =
20/120 = 0.1666 = 16.66%). On peut penser que le taux moyen est de: (20 +
16,66)/2 = 18,33%. Pour être vrai, ce taux doit reconstituer l'évolution de la
population et nous permettre de retrouver 140.000 hab. au bout de deux ans, ce
qui n'est pas le cas:
En 1992, la population est de 100.000 + 100.000 * .1833 = 100.000(1 +.1833)
=118.333 hab.
En 1993, la population est de 118.333 + 118.333 * .1833 = 118.333(1 + .1833) =
140.023 hab.
Il y a donc une différence de 23 personnes ce qui n'est pas
négligeable en matière de croissance surtout lorsqu'on imagine ce processus sur
une plus longue période et non pas seulement sur deux ans.
Méthode 2: On peut aussi penser à une autre méthode qui consiste à calculer le taux sur les deux années et le diviser ensuite sur deux pour avoir la moyenne: (140.000 - 110.000)/100.000 = 0.40 = 40%, soit un taux moyen de 20%. Ce taux n'est pas valable aussi puisqu'il ne nous permet pas de retrouver la population après deux ans: En 1992, on a 100.000 (1.20) = 120.000 hab., en 1993 on obtient 120.000(1.20) = 144.000 hab., soit 4000 hab. de plus ?.
Méthode 3: Le taux moyen est égal à la racine carrée du produit des deux taux observés : 0.20 x 0.1666 = 0.118322 = 18.322%. Seul ce taux nous permet de retrouver au bout de deux ans l'effectif de 140.000 hab. En 1992, on a 118.322, en 1993 on obtient 140.000.
b- Application : Le taux moyen de croissance
Soit une ville de taille Po, elle croit à un rythme régulier (taux moyen) de i,
elle atteint le niveau P1 la première année, P2 la seconde année et Pn la n°
année :
Année o = Po = Po
Année 1 = P1 = Po + Po.i = Po.(1 + i)
Année 2 = P2 = P1+ P1.i = P1.(1+ i) = Po.(1 + i)2
Année 3 = P3 = P2 + P2.i = P2.(1+ i) = Po.(1 + i)3
.....................................................................................
Année n = Pn
= Pn-1 + Pn-1.(1+ i) = Po. (1 + i)n
On peut écrire alors la forme générale: Pn = Po.(1 + i)n avec Pn : Valeur au temps n, Po: valeur au temps de base (o), n: la période (années, mois....), et i : le taux moyen de croissanc. Cette formule nous permet de calculer le taux i en connaissant les données de départ et d'arrivée (Po et Pn) en utilisant la racine n° ou le logarithme:
- Méthode
de la racine: On peut écrire: (1 + i)n =
Pn/Po et de là (1 + i) = (Pn/po)1/n
.
Le taux moyen de croissance est
alors de: i = (Pn/Po)1/n -
1
- Méthode du Logarithme: En utilisant la transformation logarithmique
de la formule de départ, on obtient:
log Pn = log Po + n.log (1 + i), d'où: log (1 + i) = (log Pn - log Po)/n = 1/n
log (Pn/Po). On peut écrire alors: (1 + i) = 10
log (Pn/Po)/n ,
d'où i =
10log (Pn/Po)/n -
1. Si on utilise le logarithme népérien on a
i = Exp
In (Pn/Po)/n -
1
La moyenne géométrique
mg = (1 + i1)(1 + i2)....(1 + in))1/2
Puisque la moyenne i est obtenue lorsque i1 = i2 = ... in, on peut
écrire que :
mg = i = ((1 + i)(1 + i)...(1 + i))1/n
= ((1 + i)n )1/n
ce qui nous permet d'écrire que i = (Pn -Po)/Po = Pn/Po - 1 , d'où la
relation: i = (Pn /Po)1/n -
1
En outre, en utilisant les rapports de croissance absolue, on arrive à la même
formule :
Les taux de croissance absolue dune année (0, 1, 2,
n-1, n)à lautre sont
exprimés par les rapports : P1/Po, P2/P1,
Pn/Pn-1. On peut écrire que le taux
moyen de croissance absolue (1 + i) est la moyenne géométrique de ces taux
absolus, doù on peut écrire que :
(1+ i) = (P1/Po)(P2/P1)(
)(Pn-1/Pn-2)(Pn/Pn-1))1/n.
En simplifiant par les termes successifs P1, P2,
Pn-1, on trouve que :
(1 + i) = (Pn/P1)1/n
et que i = (Pn/P1)
1/n - 1
1.3 - La moyenne harmonique : les ratios et les rapports
La moyenne harmonique est égale à l'inverse de la moyenne arithmétique
des inverses (1/xi). Elle
est notée H ou xh.
Elle s'écrit comme suit: H = xh =
(1/n S ni.
1/xi)-1.
L'inverse de la moyenne arithmétique est égal à la moyenne arithmétique
des inverses : H-1 =
1/n S(ni.1/xi)
ou H-1 =
1/P S(Pi.1/xi)
P : La population totale, Pi : la population ou le poids correspondant à
de la valeur i, xi le rapport ou le ratio (i).
Elle intéresse les ratios et les rapports comme le nombre de habitants par médecin, par lit hospitalier ou touristique, la densité Pour la densité di , on a: d =1/PS(Pi.1/di)-1 avec di: la densité de la zone i, Pi et P: la population de la zone i et totale. Pour le ratio «nombre dhabitants/médecin », on peut écrire la moyenne harmonique comme suit avec P et P: la population, Mi, le nombre de médecins: Nbre (hab/med) = 1/PS(Pi.1/(Pi/Mi))-1. Pour le ratio «nombre de médecins/hab», on a le rapport inverse avec: Nbre (med/hab) = 1/MS(Pi.1/(Mi/Pi))-1
Elle est toujours inférieure à la moyenne géométrique sauf en cas d'égalité des valeurs. On a ainsi la relation : xh <= xg <= xa. Elle introduit une discrimination au profit des petites valeurs[1], c'est le cas par exemple du modèle gravitaire et de l'étude des zones d'influence.
Exemple: Nombre moyen de habitants par médecin. Soit deux
régions dont le nombre d'habitants/médecin est égal à 2500 et 3500
respectivement, la population étant de 350.000 et 140.000 hab. Quel est le
nombre moyen d'habitants/Médecin?.
Méthode 1
: On calcule le nombre total de médecins qu'on rapporte à la population totale:
La population totale est de 500.000 hab., le nombre de médecin est de 140 pour
la région A, et de 40 pour la région B.
Le nombre moyen d'habitants/Med est alors de : 500.000/(140+40) = 2.777,77 =
2.778 hab/Med.
Méthode 2 : H ou xh = 1/500.000 (350.000 x 1/2500 + 160.000 x 1/3500) -1 = 2.777,777 = 2.778
1.4 - La moyenne quadratique : les surfaces
La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés des valeurs xi. Elle est notée xq ou Q. Elle s'écrit comme suit: Q2 = xq =1/n S xi2 d'où on peut écrire la relation : Q = xq = (1/n(Sxi2))1/2
Elle est utile pour le calcul de la surface moyenne, en cartographie, dans le calcul du barycentre régional ou des phénomènes dont la diffusion n'est pas influencée par la distance comme l'aire de vente des services de base.
Exemple: Côté moyen de
formes carrées. Soit les parcelles suivantes dont la superficie est de 5, 10,
15, 20, 25 m2, quel est le côté de la parcelle moyenne?
xq =
(52 + 102 +
152 + 202 +
252)/5)1/2 =
(1375)1/2 =
16,583
La taille moyenne de la parcelle un carré de 16,583 m de côté,
soit une superficie de 274,5 m2. C'est le résultat qu'on obtient en divisant
1375 sur 5, comme si on disposait des superficies et le problème revient à
calculer une simple moyenne arithmétique.
1.5 - Formulation générale de la moyenne
La formule générale de la moyenne peut s'écrire comme suit: m = 1/n (Sxia)1/a avec la moyenne harmonique puissance (a < -1) ou simple (a = -1), la moyenne arithmétique (a = 1) géométrique (a = 1, xi = log xi' ), la moyenne en puissance (a >1) ou quadratique (a = 2).
1.6 - Relation entre les moyennes
Le rapport entre les différentes moyennes est le suivant par ordre décroissant: Q => X => G => H ou xq => xa => xg => xh. En cas d'égalité des valeurs xi, les quatre moyennes sont équivalentes: Q = X = G = H ou xq = xa = xg = xh
Exemple : Comparaison de
moyennes. Soit les valeurs 5, 7, 10, 12, 16. Quelles sont les différentes
moyennes?
xa =
1/5(5 + 7 + 10 + 12 + 16)
= 10
xg =
(5*7*10*12*16)1/5 =
(67200)1/5
= 9.234
xh =
(0.2 + 0.1428 + 0.1 + 0.08333 + 0.0625)/5) - 1
= 3.429
xq =
(52 +
72 +
102 +
122
+ 162 )/5)1/2
= 10.714
On obtient ainsi : xq >
xa >
xg >
xh avec
10.714 > 10 > 9.234 > 3.429.
Exemple: On dispose de 5
valeurs égales à 10. Calculer les différentes moyennes?
xa =
(10 + 10 + 10 + 10 + 10)/5
= 10
xg =
(10*10*10*10*10)1/5 = (100.000)1/5
= 10
xh =
(0.1 + 0.1+ 0.1+ 0.1+ 0.1)/5)-1 =
(0.5)/5)-1 = 0.1-1
= 10
xq =
(100 + 100 + 100 + 100 + 100)/5)1/2 =
1001/2
= 10
On a xq =
xa =
xg =
xh =
10
2 - La médiane: la position centrale
La médiane est la valeur qui divise une distribution en deux parties égales en nombre d'observations. La médiane est la valeur qui a autant d'observations à gauche qu'à droite. Elle est notée Me. On a Infi Me = Supi Me.
2.1 - Cas d'une série ordonnée
La série ordonnée est une série dont les observations sont rangées dans un certain ordre (croissant ou décroissant). Deux cas se présentent en fonction de la parité de la distribution :
a- Distribution impaire: Lorsque la distribution est impaire, la médiane est une valeur qui occupe la position médiane, sa position est déterminée par la formule suivante: Me = (n + 1)/2.
Exemple: Soient les
distributions impaires suivantes dont on veut calculer les médianes Me:
Distributions Effectif n Position de Me
Valeur de Me
0, 1 , 2
3 2 1
2, 3, ,5, 8,
5 3 4
5, 7, 8, 9, 10, 13, 20
7 4 9
b- Distribution paire: Quand la distribution est paire, on n'a pas une valeur médiane mais un intervalle médian. La médiane se trouve dans un intervalle borné par les deux valeurs qui occupent la position centrale et dont la position est déterminée par la formule suivante: Me = [ n/2, (n/2) + 1].
Exemple: Soit la distribution ordonnée paire suivante: 2, 4, 6, 8, 10, 12. Dans cetsérie, on a 6 observations et aucune valeur n'occupe le centre, on a un intervalle médian borné par la 3° valeurs (n/2) et la 4° valeur ((n/2)+1). L'intervalle médian est alors [6, 8].
2.2 - Cas d'une série classée
Lorsque les observations ont des effectifs variables, la position de la médiane se trouve affectée par la nature de la répartition. La médiane est déterminée selon la règle de la proportionnalité.
On estime que dans la classe médiane, l'écart entre la médiane (Me) et la Borne Supérieure de cette classe (Bi) est proportionnelle à l'écart entre la fréquence cumulée correspondante à cette Borne (NBi) et la fréquence cumulée qui correspond à la médiane, soit n/2 (ou 50%).
On peut écrire alors que: (Bi -
Me)/(NBi - n/2) = (Bi
- bi)/(NBi
- Nbi)
avec (Bi - bi):
l'intervalle de la classe médiane I, (NBi -
Nbi): l'écart des fréquences
cumulées correspondant aux deux bornes de cette classe, soit l'effectif ni,
n: l'effectif global.
On a: (Bi - Me)/(NBi
- n/2) = I/ni.
On obtient la valeur de la médiane: Me = Bi -
I.(Nbi - n/2)/ni
bi ------------------------------------------------------------------------ Nbi
I Me ___________________________________________ n/2 ni
Bi - Me (NBi - n/2
Bi ----------------------------------------------------------------------- NBi
La médiane est la valeur qui laisse de part et d'autre la moitié (50%) de la population ou des unités d'une distribution 50% des unités ont une valeur qui dépasse celle de la médiane et 50% ont une valeur qui lui est inférieure. La médiane permet de pondérer la moyenne et de rectifier le jugement en donnant une information supplémentaire sur la nature de la répartition des observations. L'écart entre la moyenne et médiane exprime l'asymétrie de la distribution, plus il est élevé et plus la distribution est dissymétrique (Cf. infra).
Exemple: Médiane d'une série classée. La taille des exploitations agricoles dans un village est représenté dans le tableau suivant. Quelle est la taille moyenne des exploitations dans ce village?.
|
taille en ha xi |
Nb Exploitants ni |
Nb Cumulé Ni |
|
0 - 5 |
100 |
100 |
|
5 - 10 |
200 |
300 |
|
10 - 20 |
150 |
450 |
|
20 - 50 |
80 |
530 |
|
50-100 |
20 |
550 |
|
100 - 200 |
10 |
560 |
|
Total |
560 |
|
La classe
médiane est représentée par la classe qui contient n/2, soit dans cet exemple
280 (560/2 = 280), soit la seconde classe 5 - 10 ha. Le rapport entre (10 - 5
)/(300 - 100) est égal à celui entre (Bi - Me)/(300 - 280) .
Me = 10 - 5/200(300 - 280) = 10 - 5/200(20) = 10 - 100/200 = 9,5 ha.
Dans ce périmètre, la moitié des exploitations ont une taille
supérieure à 9,5 ha, l'autre moitié lui est inférieure. La moyenne étant de 17,5
ha. La moyenne nous permet d'avoir une idée sur l'ordre de grandeur des valeurs
tandis que la médiane nous permet de mieux se situer par rapport à cet ordre. Si
toutes les exploitations avaient la même taille on obtiendrait 17.5 ha mais il
se trouve que la moitié de ces exploitations ont une taille inférieure à 9.5 ha.
Graphiquement, la médiane est la valeur qui correspond à la fréquence n/2 ou 50% dans une courbe ou un diagramme des fréquences cumulées. Elle correspond à l'intersection des deux courbes de fréquences cumulées (croissantes et décroissantes). Sur une courbe affinée (Cf. ci-dessus), on utilise souvent la formule: (2i - 1)/2n = 0.5, soit la médiane correspond à la valeur i = (n - 1)/2.
2.3 - Propriétés
La médiane est un paramètre de valeur centrale mais aussi de position, elle représente le centre de gravité d'une distribution. Contrairement à la moyenne, elle est peu sensible aux valeurs extrêmes, elle ne tient compte que du nombre des observations et non de leur valeur[2]. Elle est insensible aux valeurs. En outre, elle minimise la somme des écarts à toutes les valeurs: S| xi - Me | = Minimum, aucun autre paramètre statistique n'atteint ce minimum. Cette propriété est fondamentale dans l'analyse des localisations en géographie et en géomarketing.
2.4 - Applications: la localisation optimale
La médiane constitue le paramètre qui minimise la somme des écarts des différentes observations. Elle requiert une importance fondamentale en matière de localisation et constitue une réponse au problème de la localisation optimale qui minimise l'ensemble des distances à parcourir à tous les points. C'est le cas par exemple de la localisation d'un réservoir d'hydrocarbures par rapport aux stations services localisées le long d'une route (une dimension) ou dans une région (deux dimensions).
Exemple: Le long d'une route on a les villes situées aux distances suivantes du Nord au Sud: 60, 100, 150, 200, 250, 300, 350, 400, 450, 500 et 550 kms. Où localiser le réservoir de produits pétroliers et stratégiques pour l'approvisionnement de ces villes?.
Dans ce cas, on a un problème de localisation optimale et c'est la médiane qui correspond à cette localisation, soit la ville située à 300 kms. La somme des écarts est de 1490 kms (240 +200 +150 + 100 + 50 + 0 + 50 + 100 + 150 + 200 + 250) avec 740 kms vers le nord et 750 vers le sud. La moyenne de ces distances est de 296.363 kms, la somme des distances est de 1493.638 kms. La médiane constitue le point où les distances à parcourir sont à peu près équivalentes d'un côté comme de l'autre.
i_________i_____i_______i________i________i_________i_________i_________i________i_________i_______i
0 60 100 150 200
250 300 350
400 450 500 550
Me
3 - Le mode : l'ordre de la fréquence et la dominance
Le mode est la valeur ou la modalité la plus fréquente, c'est aussi la classe qui a l'effectif le plus élevé dans une distribution statistique, dans ce cas on parle de classe modale. Il est noté Mo.
Dans une série classée, le mode est déterminé par interpolation linéaire avec la formule suivante: Mo = bi + I.d1/(d1 + d2) avec bi: borne inférieure de la classe modale, I: son intervalle, d1: différence entre les fréquences de la classe modale et la classe précédente, d2: différence de fréquence entre classe modale et classe suivante.
Graphiquement, le mode est la valeur qui correspond à la fréquence la plus élevée dans un histogramme ou un diagramme en bâton. Dans une série classée, on peut, par interpolation aussi, déterminer le mode en joignant, de part et d'autre de la classe modale, le sommet extérieur du rectangle encadrant et le sommet intérieur opposé de la classe modale, le point d'intersection des deux droites représente le mode. La classe encadrante attire le mode en fonction de son poids relatif.
Exemple: Dans l'exemple précédent des exploitations agricoles, on constate que la classe |5-10] ha représente la classe modale puisque son effectif atteint 200. On a bi = 5, d1 = 100 et d2 = 50 et I = 5 d'où on tire Mo = 5 + 5.100/(100 + 50) = 8.333 ha. C'est ainsi que la troisième classe a un effectif plus élevé attire relativement plus le mode vers elle.
Une distribution peut être uni, bi ou multimodale lorsqu'elle combine plus d'un ensemble, c'est le cas par exemple de la consommation de l'énergie ou de l'urbanisation dans le monde où on a deux modes correspondant aux pics des pays industrialisés et des pays en voie de développement. On parle ainsi de mode principal et secondaire lorsque l'un est plus important que l'autre.
Le mode est très utilisé en géographie d'une manière indirecte dans la mesure où on parle souvent de dominance et de fréquence. Le paysage n'est en fait que cet agencement dominant qu'on retrouve souvent dans une région donnée. On parle de spécialisation d'une ville, d'un quartier ou d'une région pour exprimer le fait qu'un caractère dominant ou fréquent arrive à marquer l'ensemble.
Habituellement, le mode est considéré comme un paramètre de valeur centrale mais on peut bien avoir un mode placé à l'une des extrémités d'une distr, comme est le cas des distributions en J ou en U.
4 - Rapport entre les paramètres de centralité
Le rapport entre les trois ètres de tendance centrale (ou de centralité) exprime la symétrie de la distribution et son sens (droite ou gauche). Dans une distribution totalement symétrique, les trois paramètres sont égaux (Mo = Me = xa), les grandes valeurs sont autant importantes que les petites. Plus la dissymétrie est prononcée, plus l'écart entre ces paramètres s'élève. La médiane s'intercale toujours entre les deux autres paramètres.
Dans une distribution dissymétrique à droite (le sens de la faible pente est vers la droite), le mode est inférieur à la médiane qui est plus faible que la moyenne (Mo < Me < xa), les grandes valeurs l'emportent et arrivent à étirer la distribution (la courbe) vers la droite tandis que les faibles valeurs l'emportent en nombre. Dans une distribution dissymétrique à gauche (le sens de la faible pente vers la gauche), on a le rapport inverse: Mo > Me > xa.
Le rapport de Pearson est égal au rapport entre l'écart moyenne-mode et de l'écart moyenne-médiane: P = (xa - Mo)/(xa- Me). Il est égal à 3 dans une distribution légèrement dissymétrique, il s'élève avec la dissymétrie de la distribution[3].
Exemple: Si on reprend l'exemple précédent, on constate que la moyenne est de 17.5 ha, la médiane est de 9.5 ha et le Mode est situé dans la classe 5-10 ha, soit approximativement 7.5 ha si on se limite au centre de la classe modale. On a donc: Mo (7.5) < Me (9.5) < xa (17.5). C'est une distribution dissymétrique à droite, c'est à dire que les faibles valeurs l'emportent en effectif mais les valeurs élevées l'emportent quant à la valeur. Le rapport de Pearson est égal à (17.5 -9.5)/(9.5 - 7.5) = 8/2 = 4 ce qui exprime une dissymétrie prononcée.
Ces paramètres de centralité nous informent sur l'ordre de grandeur des observations (la moyenne), la valeur qui détient la position centrale (la médiane) ou la plus fréquente (le mode) mais ne nous apportent rien quant à la nature de la distribution autour de ces paramètres si bien qu'on peut avoir une même moyenne qui correspond à des situations très différentes voire contradictoires, c'est pour cette raison qu'on a recours aux paramètres de position et de dispersion. L'exemple suivant montre l'incapacité de la moyenne à rendre compte de la nature de la distribution et de mesurer la variabilité.
Exemple: Soit 4 stations
pluviométriques A, B, C et D qui ont enregistré les quantités de pluies
suivantes :
Station Hiver Printemps Eté
Automne Moyenne saisonnière
A 100 50 0
50 50