Statistiques Descriptives - Guide Complet pour Élèves de 1ère en France
Introduction
{"country":"France","level":"1ère","subject":"Enseignement scientifique","chapter":"Mathématiques et modélisation scientifique","subchapter":"Analyse de l'information chiffrée","section":"Statistiques descriptives"}
Qu'est-ce que les statistiques descriptives ?
Définition
Les statistiques descriptives sont des méthodes mathématiques qui permettent de résumer, organiser et représenter des données numériques pour en tirer des conclusions :
- Objectif : Décrire les caractéristiques d'un ensemble de données
- But : Résumer l'information de manière compréhensible
- Méthodes : Tableaux, graphiques, indicateurs numériques
- Applications : Sciences, économie, sociologie, médecine
Statistiques descriptives ⊂ Analyse de données
Types de variables
Classification
Caractéristiques non numériques :
- Nominales : Catégories sans ordre (couleur, nationalité)
- Ordinales : Catégories avec ordre (niveau d'études, satisfaction)
- Exemples : Sexe (homme/femme), catégorie professionnelle
- Représentation : Diagrammes circulaires, diagrammes en bâtons
Caractéristiques numériques :
- Discrètes : Valeurs isolées (nombre d'enfants, notes)
- Continues : Valeurs dans un intervalle (taille, poids, température)
- Exemples : Âge, revenu, température
- Représentation : Histogrammes, diagrammes en boîte
La classification détermine les méthodes d'analyse :
- Variables nominales : Fréquences, pourcentages
- Variables ordinales : Médiane, quartiles
- Variables discrètes : Mode, moyenne, écart-type
- Variables continues : Tous les indicateurs
Tableaux de données
Organisation des données
Organisation d'une seule variable :
| Valeur | Effectif | Fréquence | Fréquence (%) |
|---|---|---|---|
| 10 | 3 | 0.15 | 15% |
| 12 | 5 | 0.25 | 25% |
| 15 | 8 | 0.40 | 40% |
| 18 | 4 | 0.20 | 20% |
Fréquence = Effectif / Total
Relation entre deux variables :
| Sexe | Homme | Femme | Total | |
|---|---|---|---|---|
| Catégorie | A | 20 | 15 | 35 |
| B | 25 | 10 | 35 | |
| Total | 45 | 25 | 70 | |
Accumulation progressive des fréquences :
| Valeur | Effectif | Fréquence | Fréquence cumulée |
|---|---|---|---|
| 10 | 3 | 0.15 | 0.15 |
| 12 | 5 | 0.25 | 0.40 |
| 15 | 8 | 0.40 | 0.80 |
| 18 | 4 | 0.20 | 1.00 |
Représentations graphiques
Visualisation des données
Utilisé pour les variables discrètes :
- Représentation : Barres verticales pour chaque valeur
- Hauteur : Proportionnelle à l'effectif ou la fréquence
- Utilité : Comparaison entre différentes catégories
- Exemple : Notes obtenues par les élèves
Utilisé pour les variables continues :
- Représentation : Rectangles juxtaposés
- Aire : Proportionnelle à l'effectif
- Classes : Intervalles de valeurs
- Exemple : Répartition des tailles d'une population
Aire d'un rectangle = Effectif de la classe
Représentation des proportions :
- Représentation : Secteurs proportionnels aux fréquences
- Utilité : Visualisation des parts de chaque catégorie
- Calcul : Angle = Fréquence × 360°
- Exemple : Répartition des votes par parti
Angle = (Effectif / Total) × 360°
Visualisation des quartiles et des valeurs extrêmes :
- Éléments : Minimum, Q1, médiane, Q3, maximum
- Boîte : Représente l'écart interquartile
- Whiskers : Représentent l'étendue
- Utilité : Comparaison de distributions
Indicateurs de position
Centrage des données
La moyenne est la somme des valeurs divisée par le nombre de valeurs :
x̄ = (Σxᵢ) / n
Où x̄ est la moyenne, xᵢ les valeurs individuelles et n le nombre total de valeurs.
Exemple : Pour les notes 10, 12, 15, 18, la moyenne est (10+12+15+18)/4 = 13,75
- Avantages : Tient compte de toutes les valeurs
- Inconvénients : Sensible aux valeurs extrêmes
- Utilité : Indicateur de tendance centrale
La médiane est la valeur qui divise la série en deux parties égales :
- Tri : Ordonner les données par ordre croissant
- Position : Valeur du milieu (ou moyenne des deux du milieu)
- Exemple : Pour 10, 12, 15, 18, la médiane est (12+15)/2 = 13,5
- Avantages : Moins sensible aux valeurs extrêmes
Le mode est la valeur qui apparaît le plus fréquemment :
- Recherche : Identifier la valeur la plus fréquente
- Exemple : Dans 10, 12, 12, 15, 18, le mode est 12
- Utilité : Identifier les valeurs les plus communes
- Limitations : Peut ne pas exister ou ne pas être unique
Les quartiles divisent la série en quatre parties égales :
- Q1 (premier quartile) : 25% des valeurs en dessous
- Q2 (médiane) : 50% des valeurs en dessous
- Q3 (troisième quartile) : 75% des valeurs en dessous
- Calcul : Position = (n+1) × percentile/100
Indicateurs de dispersion
Étalement des données
L'étendue est la différence entre la valeur maximale et la valeur minimale :
Étendue = Valeur_max - Valeur_min
Exemple : Pour les notes 10, 12, 15, 18, l'étendue est 18 - 10 = 8
- Avantages : Facile à calculer
- Inconvénients : Ne tient compte que des valeurs extrêmes
- Utilité : Donner une idée générale de la dispersion
Mesure de la dispersion par rapport à la moyenne :
σ = √[Σ(xᵢ - x̄)² / n]
Où σ est l'écart-type, xᵢ les valeurs individuelles, x̄ la moyenne et n le nombre de valeurs.
- Interprétation : Plus l'écart-type est grand, plus les données sont dispersées
- Unité : Même unité que les données
- Utilité : Mesurer la variabilité d'une série
Carré de l'écart-type :
Variance = σ² = Σ(xᵢ - x̄)² / n
- Unité : Carré de l'unité des données
- Calcul : Plus facile à manipuler mathématiquement
- Relation : σ = √variance
- Utilité : Comparaison de la dispersion entre séries
Différence entre le troisième et le premier quartile :
EI = Q3 - Q1
- Interprétation : Représente la dispersion du centre de la série
- Avantages : Moins sensible aux valeurs extrêmes
- Utilité : Mesure robuste de la dispersion
- Application : Diagramme en boîte
Exercice de calcul
Pratique avec indicateurs
Problème : Calcule la moyenne, la médiane et l'étendue des valeurs suivantes : 12, 15, 18, 20, 14, 16, 19
Solution :
- Moyenne : (12+15+18+20+14+16+19)/7 = 124/7 = 17,71
- Médiane : Triées : 12, 14, 15, 16, 18, 19, 20 → Médiane = 16
- Étendue : 20 - 12 = 8
Réponse : Moyenne ≈ 17,71, Médiane = 16, Étendue = 8
Calcule l'écart-type des valeurs : 10, 12, 14, 16, 18
1. Moyenne : (10+12+14+16+18)/5 = 70/5 = 14
2. Écarts au carré : (10-14)²=16, (12-14)²=4, (14-14)²=0, (16-14)²=4, (18-14)²=16
3. Variance : (16+4+0+4+16)/5 = 40/5 = 8
4. Écart-type : √8 = 2,83
Réponse : Écart-type ≈ 2,83
Calcule les quartiles pour les valeurs : 5, 7, 8, 10, 12, 15, 18, 20
1. Triées : 5, 7, 8, 10, 12, 15, 18, 20 (n=8)
2. Position Q1 : (8+1)×0,25 = 2,25 → Entre 2ème et 3ème valeur
3. Q1 = 7 + 0,25×(8-7) = 7,25
4. Position Q3 : (8+1)×0,75 = 6,75 → Entre 6ème et 7ème valeur
5. Q3 = 15 + 0,75×(18-15) = 17,25
Réponse : Q1 = 7,25, Q3 = 17,25
Interprétation des résultats
Analyse des indicateurs
La moyenne indique la tendance centrale mais :
- Sensible aux valeurs extrêmes : Une valeur aberrante peut fortement influencer la moyenne
- Ne reflète pas la distribution : Deux séries peuvent avoir la même moyenne mais distributions différentes
- Utilité : Comparaison de séries, résumé central
- Exemple : Moyenne de 10, 10, 10, 100 est 32,5 mais la plupart des valeurs sont proches de 10
La médiane est plus robuste que la moyenne :
- Insensible aux valeurs extrêmes : Moins affectée par les données aberrantes
- Représente le centre : Divise la série en deux parties égales
- Utilité : Meilleur indicateur de tendance centrale pour séries asymétriques
- Exemple : Médiane de 10, 10, 10, 100 est 10
Écart-type mesure la dispersion des données :
- Grand écart-type : Données très dispersées
- Petit écart-type : Données concentrées autour de la moyenne
- Comparaison : Permet de comparer la variabilité entre séries
- Normalité : Environ 68% des données sont à ±1 écart-type de la moyenne
Les quartiles divisent la série en 4 parties égales :
- Q1 : 25% des données sont en dessous
- Q2 (médiane) : 50% des données sont en dessous
- Q3 : 75% des données sont en dessous
- Écart interquartile : Contient la moitié centrale des données
Applications pratiques
Utilisations concrètes
Les statistiques descriptives dans le contexte éducatif :
- Moyenne des classes : Indicateur de performance
- Dispersion : Uniformité des résultats
- Comparaison : Performance entre classes ou années
- Diagnostic : Identification des difficultés
Études de population et de comportement :
- Revenus : Analyse de la distribution de la richesse
- Âge : Structure démographique
- Niveau d'études : Répartition de la formation
- Satisfaction : Évaluation des services
Études dans les domaines scientifiques :
- Température : Variation saisonnière
- Pression atmosphérique : Conditions météorologiques
- Concentration : Analyse chimique
- Mesures biologiques : Taille, poids, taux
Applications dans le domaine économique :
- Chiffre d'affaires : Analyse de la performance
- Coûts : Contrôle budgétaire
- Qualité : Contrôle des processus
- Satisfaction client : Amélioration des services
Exercice de comparaison
Analyse comparative
Série A : Notes d'une classe de mathématiques : 12, 14, 15, 13, 16, 14, 12, 15, 13, 14
Série B : Notes d'une classe de français : 10, 18, 11, 17, 12, 16, 13, 15, 14, 12
Calculs :
- Série A : Moyenne = 13,8, Écart-type ≈ 1,32
- Série B : Moyenne = 13,8, Écart-type ≈ 2,83
Conclusion : Les deux classes ont la même moyenne mais la série B est plus dispersée, ce qui indique une plus grande variabilité des performances.
Comparez les distributions suivantes :
- Série 1 : 10, 11, 12, 13, 14, 15, 16, 17, 18, 19
- Série 2 : 10, 10, 10, 10, 15, 20, 20, 20, 20, 20
Les deux séries ont la même médiane (14,5) mais des distributions très différentes. La série 1 est plus uniforme, tandis que la série 2 a des valeurs extrêmes.
Réponse : La série 1 est plus homogène, la série 2 montre une polarisation des valeurs.
Un histogramme montre une distribution asymétrique à droite :
- Forme : Queue longue vers la droite
- Relation moyenne-médiane : Moyenne > Médiane
- Interprétation : Présence de valeurs élevées
- Exemple : Distribution des revenus
Réponse : La distribution est asymétrique avec des valeurs aberrantes élevées.
Diagrammes et visualisations
Représentation graphique
Utilisé pour les variables discrètes :
- Représentation : Barres verticales pour chaque valeur
- Hauteur : Proportionnelle à l'effectif
- Utilité : Comparaison entre catégories
- Exemple : Notes obtenues par les élèves
Utilisé pour les variables continues :
- Représentation : Rectangles juxtaposés
- Aire : Proportionnelle à l'effectif
- Classes : Intervalles de valeurs
- Exemple : Répartition des tailles
Représentation des proportions :
- Représentation : Secteurs proportionnels aux fréquences
- Calcul : Angle = Fréquence × 360°
- Utilité : Visualisation des parts
- Exemple : Répartition des genres musicaux
Visualisation des quartiles :
- Éléments : Minimum, Q1, médiane, Q3, maximum
- Boîte : Représente l'écart interquartile
- Whiskers : Représentent l'étendue
- Utilité : Comparaison de distributions
Évaluation finale
Test de connaissances
Réponse : x̄ = (Σxᵢ) / n
Réponse : La variance est le carré de l'écart-type (σ² = Σ(xᵢ - x̄)² / n)
Réponse : EI = Q3 - Q1, représente la dispersion du centre de la série
Réponse : La médiane est moins sensible aux valeurs extrêmes
Résumé
Points clés
- Qualitatives : Nominales et ordinales
- Quantitatives : Discrètes et continues
- Classification détermine les méthodes d'analyse
- Moyenne : x̄ = (Σxᵢ) / n
- Médiane : Valeur du milieu
- Mode : Valeur la plus fréquente
- Quartiles : Divise la série en 4 parties
- Étendue : Valeur_max - Valeur_min
- Écart-type : σ = √[Σ(xᵢ - x̄)² / n]
- Variance : σ² = Σ(xᵢ - x̄)² / n
- Écart interquartile : EI = Q3 - Q1
Conclusion
Félicitations !
Continuez à explorer pour approfondir vos connaissances