Paramètres de dispersion
Statistiques – Paramètres de dispersion, écart-type
Préambule
L’objet des statistiques est l’étude de phénomène à travers la collecte, le traitement, l’analyse et la présentation des données.
On présente ci-dessous par ordre croissant les notes obtenues par Judith et Anatole en mathématiques au cours de deux années :
Judith |
4 | 6 | 7 | 8 | 12 | 13 | 14 | 15 | 15 | 16 | 19 | 20 |
Anatole | 8 | 9 |
10 |
11 | 12 | 12 | 13 | 14 | 14 | 15 | 16 | 16 |
Un paramètre de position : la moyenne
On commence par calculer la moyenne des notes obtenues par les deux élèves.
$\bar{x}_J = \dfrac{150}{12} = 12,5$
$\bar{x}_A = \dfrac{150}{12} = 12,5$
Les deux élèves ont donc la même moyenne.
La moyenne est un paramètre de position.
Paramètres de dispersion
Les paramètres de dispersion permettent d’étudier la répartition des notes.
Les quartiles
Le premier quartile $Q_1$ d’une série ordonnée est la plus petite des valeurs pour laquelle 25 % au moins des valeurs de la série sont inférieures ou égales à celle-là.
Le troisième quartile $Q_3$ d’une série ordonnée est la plus petite des valeurs pour laquelle 75 % au moins des valeurs de la série sont inférieures ou égale sà celle-là.
On prendre garde au fait que les valeurs doivent être ordonnées dans l’ordre croissant.
Exemple avec le tableau précédent :
On calcule alors le rapport de l’effectif noté $N$ par 4 pour déterminer la position du premier quartile.
$\dfrac{N}{4} = \dfrac{12}{4} = 3$
Le premier quartile est donc la troisième valeur de la série. Si la valeur que l’on avait trouvée n’était pas en entier, on aurait alors pris le premier entier strictement au dessus.
Pour Judith, on a donc
$Q_1 = 7$ et pour Anatole $Q_1 = 10$.
Pour trouver la position du troisième quartile, on calcule le rapport $\dfrac{3N}{4} = 9$.
Pour Judith, on a donc
$Q_3 = 15$ et pour Anatole $Q_1 = 14$.
On définit alors l’intervalle interquartile : $I_Q = [Q_1; Q_3]$ et l’écart interquartile $Q_3 – Q_1$.
On trouve que l’écart interquartile vaut 8 pour Judith et 4 pour Anatole.
Ainsi, il apparaît que les notes de Judith sont plus écartées que celles d’Anatole.
Variance et écart-type
Pour quantifier davantage la dispersion des notes, on définit la variance :
$V = \dfrac{1}{N} \displaystyle \sum (x_i – \bar{x})^2$.
En d’autres termes, il s’agit de la moyenne des écarts des valeurs de la série à la moyenne de la série élevés au carré.
De même, on définit l’écart type comme la racine carrée de la variance :
$\sigma = \sqrt{V}$.
Exemple :
On calcule alors ces nouveaux outils pour les notes des deux élèves.
Judith : $V_J = \dfrac{1}{12} \times( (4 – 12,5)^2 + (6 – 12,5)^2 + … + (19 – 12,5)^2 + (20 – 12,5)^2) = \dfrac{1}{12} \times 291 = 145,5$ et $\sigma_J \approx 12,1$
Anatole : $V_A = \dfrac{1}{12} \times 77 \approx 6,42$ et $\sigma_J \approx 2,5$.
Pour améliorer l’analyse de l’écart des notes constaté avec l’écart interquartile, on regarde l’écart type.
On remarque alors que celui de Judith est plus grand, témoignant une plus grande dispersion des notes autour de la moyenne.
Ainsi, la moyenne arithmétique qui est un outil de position, n’est pas suffisant pour décrire correctement une série statistique : il est donc important de calculer l’écart interquartile et l’écart type.