La statistique descriptive est une branche des mathématiques qui s’intéresse à la collecte, à l’organisation, à la présentation et à l’interprétation des données. Elle permet de résumer et de décrire l’essence des données recueillies. Cette discipline est essentielle pour analyser et interpréter de grandes quantités d’informations et pour prendre des décisions basées sur des données empiriques. Le cœur de l’analyse statistique repose sur deux concepts fondamentaux :
- la tendance centrale
- et la dispersion.
Mesures de tendance centrale
Les mesures de tendance centrale indiquent où se situent les données en fonction d’un point central. Il existe trois mesures principales : la moyenne, la médiane et le mode.
La moyenne
La moyenne est le calcul le plus répandu pour représenter la tendance centrale. Elle est obtenue en additionnant toutes les valeurs et en divisant la somme par le nombre total de valeurs. Symboliquement, si nous avons un ensemble de valeurs. La moyenne est très sensible aux valeurs extrêmes, ou anomalies, ce qui peut parfois être trompeur quant à la représentation des données.
Exemples : 7 élèves ont été notés pour un examen. Voici les notes :
- Elève 1 : 18
- Elève 2 : 5
- Elève 3 : 10
- Elève 4 : 11
- Elève 5 : 8
- Elève 6 : 8
- Elève 7 : 20
Moyenne = (18 + 5 + 10 + 11 + 8 + 8 + 20) / 7 (nombre d’élèves) = 11,4
La médiane
La médiane est la valeur qui divise un ensemble ordonné de données en deux parties égales. Pour trouver la médiane, on doit d’abord ordonner les valeurs de la plus petite à la plus grande. Si le nombre de valeurs est impair, la médiane est celle qui se trouve au milieu. Si le nombre est pair, la médiane sera la moyenne des deux valeurs du milieu. La médiane est moins sensible aux valeurs extrêmes que la moyenne et est souvent plus représentative de l’ensemble des données.
Exemple :
Reprenons les mêmes notes :
- Elève 2 : 5
- Elève 5 : 8
- Elève 6 : 8
- Elève 3 : 10
- Elève 4 : 11
- Elève 1 : 18
- Elève 7 : 20
Médiane = 10
Le mode
Le mode est la valeur qui apparaît le plus fréquemment dans un ensemble de données. Il peut y avoir plus d’un mode dans un ensemble (on parle alors de distribution bimodale ou multimodale) ou pas de mode du tout. Le mode est utile pour les données catégorielles où on cherche le plus souvent à connaître la catégorie la plus fréquente. Il est peu souvent utilisé. Dans l’exemple ci-dessus le mode peut être égale à 8 car c’est la seule note qu’on retrouve 2 fois.
Mesures de dispersion
La dispersion mesure la façon dont les données sont étalées ou dispersées. Les principales mesures de dispersion sont la portée, l’écart interquartile, la variance et l’écart-type.
La portée
La portée ou étendue est la différence entre la plus grande et la plus petite valeur d’un ensemble de données. Elle donne une idée de la dispersion, mais elle est très influencée par les valeurs extrêmes.
Dans notre exemple ci dessous, la portée est égale à 15.
L’écart interquartile (EIQ)
L’écart interquartile est la différence entre le troisième quartile (Q3) et le premier quartile (Q1). Ce calcul fournit la portée de la moitié centrale des données et minimise l’impact des valeurs extrêmes. Pour le calculer, on divise l’ensemble de données triées en quatre parties égales. L’EIQ est alors Q3 – Q1.
La variance et l’écart-type
La variance mesure la dispersion des données autour de la moyenne. Une variance élevée indique que les points de données sont éloignés de la moyenne et les uns des autres. L’écart-type est la racine carrée de la variance et présente l’avantage d’être exprimé dans les mêmes unités que les données de départ.
V= ( Σ (x-μ)² ) / N ou μ est la moyenne, x représente les valeurs et N le nombre de valeur.
Dans notre exemple la variance est = ((5-11,4)² + (8-11,4)² + (8-11,4)² + (10-11,4)² + (11-11,4)² + (18-11,4)² + (20-11,4)²) / 7 = 26,24. L’écart-type est donc de 5.12.
Tips pour mieux retenir ces calculs
Pensez à la moyenne comme à la balance, la médiane comme le milieu, et le mode comme « à la mode » (la plus fréquente). Pour les mesures de dispersion, souvenez-vous que l’étendue est simplement la gamme, l’EIQ est le milieu de portée, et la variance et l’écart-type sont liés à la moyenne.
Découvrez nos autres articles de mathématiques
- révisions : préparer la rentrée de seconde en sciences et philosophie
- La trigonométrie en mathématiques
- Maîtriser le théorème de Pythagore: relation fondamentale entre les côtés d’un triangle rectangle
- Explorer le théorème d’Euclide: droites perpendiculaires et parallèles dans un triangle
- Quête de vérité: fiche de révision bac philosophie sur la vérité à la portée de tous
- Démystifier les lois des exposants: règles de multiplication, division et puissances
- Les identités remarquables: formules pour simplification et factorisation
- Comprendre le théorème de Thalès: proportionnalité dans les triangles et lignes parallèles
- Les statistiques descriptives: tendance centrale et dispersion