Statistiques
Un article de Freepedia.
La statistique est la science et la pratique de la production d'informations à partir de données empiriques quantitatives. Elle est basée sur la théorie statistique qui est une branche des mathématiques appliquées. On peut la lier à la théorie de la décision.
Sommaire |
La démarche statistique
Toute étude statistique se fonde sur une population formée de nombreux individus sur lequels on peut observer des caractères.
Le terme statistique recouvre deux techniques qu'il est essentiel de distinguer, même s'il n'est pas interdit de les utiliser conjointement.
La statistique descriptive pallie simplement une faiblesse de l'esprit humain : l'impossibilité d'apprécier de manière synthétique le contenu d'une population nombreuse. Elle permet de procéder à des réductions statistiques faciles à interpréter : valeurs centrales, valeurs de dispersion, histogrammes, etc.
La statistique mathématique a un objectif plus ambitieux : interpréter une population en utilisant une loi de probabilité. Dans cette démarche, le statisticien se fixe une hypothèse et détermine ensuite si celle-ci s'accorde avec les faits (matérialisés par des chiffres).
En revanche, la fouille de données (en:data mining), a une approche différente des méthodes statistiques classiques, basées sur le test d'une hypothèse fixée a priori. Au contraire, le data mining va tenter de faire émerger des hypothèses à partir des données brutes, hypothèses parfois surprenantes pour l'expérimentateur.
L'acquisition de données
Planification (cf. la planification d'expériences)
Collecte des données
La première étape est de réaliser des mesures. Il se pose alors le problème de l'échantillonnage : choix de la population à sonder (au sens large : cela peut être un sondage d'opinion en interrogeant des humains, ou bien le ramassage de roches pour déterminer la nature d'un sol en géologie), la taille de la population et sa représentativité.
Dans le cas le plus simple, on fait n mesures, et on obtient n valeurs (xi).
Incertitude de mesure
En physique et en chimie, on utilise souvent la loi de Student pour déterminer les incertitudes (intervalle de confiance) ; dans ces domaines, son utilisation se réduit souvent à multiplier l'estimateur de l'écart type par deux ou par trois pour avoir l'erreur acceptable. Le calcul d'erreur constitue un ensemble de méthodes de calcul permettant d'estimer les erreurs sur des résultats au départ de incertitudes ou erreur sur les mesures.
Traitement des données
Statistique descriptive
Le résumé (cf. le résumé statistique de données).
Les valeurs numériques d'un caractère statistique se répartissent dans <math>\mathbb{R}</math>, il est nécessaire de définir leurs positions. En statistiques, on est en général en présence d'un grand nombre de valeurs. Or, si l'intégralité de ces valeurs forme l'information, il n'est pas aisé de manipuler plusieurs centaines voire milliers de chiffres, ni d'en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d'analyser les données : c'est le rôle des réductions statistiques (voir aussi critères de position).
Celles-ci peuvent être extrêmement concises, réduites à un nombre : c'est le cas des valeurs centrales et des valeurs de dispersion. Elles peuvent aussi fournir une présentation plus élaborée : c'est le cas des quantiles et de l'histogramme.
Critères de position
La moyenne
- voir article détaillé : moyenne
- La moyenne arithmétique est la somme des valeurs de la variable divisée par le nombre d'individus : <math>\bar{X} = \frac{1}{n} \cdot \sum_{i = 1}^n x_i</math>
- La moyenne géométrique est utilisée dans l'étude des rapports, par exemple en matière économique dans la définition de certains nombres-indices. Il s'agit en effet de paramètres de position destinés à mesurer les variations relatives d'un ensemble de variables de même nature ou soumises à des influences communes (indice de prix ou de production). La formule pour la calculer est la suivante : <math>G = \sqrt[n]{\prod x_i}</math>
- La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés.
- La moyenne harmonique est l'inverse de la moyenne arithmétique des inverses : <math>H = \frac{n}{\sum \frac{1}{x_i}}</math>
La médiane
La médiane est la valeur centrale qui partage l'échantillon en 2 groupes de même effectif : 50% au dessus et 50% en dessous. La médiane peut avoir une valeur différente de la moyenne. En France, le salaire médian est inférieur au salaire moyen : il y a beaucoup de smicards et peu de très gros salaires. Cependant, les gros salaires tirent la moyenne vers le haut.
Le mode
Le mode est la donnée ou groupe de données qui revient le plus souvent.
Mesures de dispersion
- Étendue : c'est l'intervalle entre la plus petite et la plus grande valeur. On dit d'un phénomène qu'il présente une « forte dynamique » lorsque l'étendue (ou la dispersion) est grande.
- Variance : la variance empirique corrigée <math>\hat{\sigma}^2</math> pour le carré de l'écart type (ou variance) :<math>\hat{\sigma}^2 = \frac{1}{n-1} \cdot \sum_{i = 1}^n (x_i - \bar{X})^2</math>
- Écart-type : c'est la racine carrée de la variance
- Coefficient de variation : <math>C.V. = \frac{\sigma}{\bar{x}}</math>
- Cote Z :
Attention : la variance (notion de statistique descriptive) égale est la simple moyenne arithmétique des carrés des écarts à la moyenne arithmétique observée, mais la variance corrigée (notion de statistique mathématique, utilisée pour les calculs de probabilité en prenant en compte les erreurs de quantification lors de la mesure) est n / (n - 1) fois la variance observée.
La variance corrigée est donc supérieure à la variance observée. Pour améliorer la précision et l'accuité des estimations de probabilités, il faut donc réduire l'erreur de quantification en augmentant la taille de l'échantillon. La variance réelle, si elle était mesurable, serait obtenue en prenant un échantillon de taille égale à la population effective.
La variance corrigée (probabiliste) prend en compte le cas au pire, où l'échantillon est de taille négligeable par rapport à la taille réelle de la population. La variance simple correspond au cas au mieux, où l'échantillon représente la totalité de la population, avec une erreur de mesure ou de quantification nulle (ce qui ne peut être atteint en statistiques, sauf si la population est elle même quantifiée par nature et prise dans sa totalité dans l'échantillon).
Quand la population totale est quantifiée et de taille finie, mais ne peut être mesurée en totalité, la variance effective de la population se situe entre les deux valeurs (variance mesurée et variance corrigée), et pour les calculs de probabilité on doit se contenter borner l'erreur de fiabilité de la probabilité en prenant la variance corrigée. Quand la population n'est pas finie ou n'est pas quantifiée, où quand il existe des erreurs possibles de mesure de la variable quantifiée, la variance corrigée est la seule adéquate pour borner l'erreur de probabilité.
Quantiles
Ceux-ci généralisent la notion de médiane qui coupe la distribution en deux parties égales. On définit notamment les quartiles, déciles et centiles (ou percentiles) sur la population, ordonnée dans l'ordre croissant, que l'on divise en 4, 10 ou 100 parties de même effectif.
On parlera ainsi du « centile 90 » pour indiquer la valeur séparant les premiers 90% de la population des 10% restant. Ainsi, dans une population de jeunes enfants, un enfant dont la taille ou le poids est au-delà du centile 90, ou en deçà du centile 10, doit être l'objet d'un suivi particulier.
Histogramme
L'histogramme est une des nombreuses représentations graphiques de données statistiques possibles. Comme les quantiles, l'histogramme découpe la population en classes mais le point de vue est radicalement différent.
Avec les quantiles, le but est de localiser les frontières entre classes de même effectif. Ils sont souvent utilisés, par exemple en matière de revenus, pour comparer les deux classes extrêmes.
L'histogramme implique des classes souvent de même largeur et de hauteur variable pour donner une allure de la distribution qui peut fournir une compréhension intuitive du phénomène. En se dirigeant vers la statistique mathématique il peut aussi être comparé à une loi de probabilité. Une comparaison qualitative sur un graphique peut ensuite être précisée par l'utilisation Test du χ².
Classification des données
- qualitative : exprimée par la une description naturelle du langage (ex: une couleur)
- quantitative : exprimée par des nombres (ex: une taille)
Distributions de fréquences
Représentations graphiques
Corrélation et régression
- corrélation :
tests pour vérifier que la loi choisie est judicieuse :
- Test du χ² ou Khi-deux ou chi-carré (prononcer « ki-deux » ou « ki-carré ») : permet de mesurer l'indépendance des variables
Interprétation
cf. l'interprétation de données statistiques.
Statistiques sur deux variables
Lorsque l'on collecte des mesures de deux grandeurs X et Y, on obtient une série de couples de valeurs (xi,yi). Le modèle mathématique correspondant est celui de deux grandeurs X et Y. Dans cas, les valeurs xi sont des réalisations de la grandeur X, et les valeurs yi des réalisations de Y. On dit que X et Y sont corrélées s'il existe un lien entre les valeurs prises par X et par Y (et on peut alors espérer, connaissant la valeur de X, prédire la valeur de Y). Concrètement, cela peut vouloir dire que l'une des deux grandeurs X ou Y influence l'autre, ou encore que X et Y sont influencées simultanément par un autre phénomène.
Une mesure de la corrélation des grandeurs X et Y est obtenue par le calcul du coefficient de corrélation linéaire (voir régression linéaire). Ce coefficient, qui est un nombre compris entre -1 et 1, mesure l'existence ou non d'un lien linéaire entre X et Y : plus ce coefficient est proche de 1 ou -1, plus forte est la corrélation linéaire entre les grandeurs. Dans le cas où ce coefficient vaut 0, on parle de variables aléatoires non corrélées (notons que des variables indépendantes sont toujours non corrélées, la réciproque étant fausse).
Souvent, un phénomène physique est régi par une loi simple, qui se traduit par une relation affine entre deux grandeurs (c'est le cas le plus simple de variables corrélées) : Y = a X + b. À partir de mesures de couples de valeurs (xi,yi), on peut obtenir une estimation de a et b dès que X et Y sont corrélées. Cette estimation est d'autant meilleure que le coefficient de corrélation est proche de 1 ou -1. On réalise alors une régression linéaire.
D'autres phénomènes sont corrélés de manière exponentielle, ou sous forme de puissance (voir série statistique à deux variables en mathématiques élémentaires).
L'utilisation de cette notion est souvent abusive, car le fait que deux variables aléatoires soient corrélées entraîne leur non-indépendance - au sens mathématique du terme. Ceci ne signifie généralement pas qu'elles soient dépendantes l'une de l'autre au sens courant (c'est-à-dire que la connaissance de la valeur de l'une permette de connaître exactement la valeur de l'autre).
D'autre part, une corrélation non nulle n'induit pas une relation de cause à effet entre les deux phénomènes mesurés, puisqu'ils peuvent être corrélés à un même phénomène-source : le nombre de coups de soleil observés dans une station balnéaire est ainsi fortement corrélé au nombre de lunettes de soleil vendues ; mais aucun des deux phénomènes n'est bien sûr la cause de l'autre ... Les médias laissent souvent à penser que des phénomènes corrélés (on ne sait d'ailleurs jamais s'il s'agit d'une corrélation forte ou pas) sont liés par une relation de cause à effet ; il s'agit là d'un détournement dangereux du concept mathématique.
Statistiques et probabilités
Généralités
La statistique constitue une méthode d'analyse d'événements réels (donc passés). Au contraire, les probabilités ont pour objet d'anticiper le futur. Exemple : pendant une campagne électorale, un sondage est une statistique, qui permet d'établir une probabilité sur le résultat des prochaines élections.
Les deux notions sont liées :
- sur le plan sémantique : les termes de moyenne ou d'écart-type sont utilisés dans les deux domaines, pour désigner des notions similaires.
- sur le plan logique : la loi des grands nombres indique que la moyenne mesurée par l'expérience est d'autant plus proche de l'espérance mathématique que le nombre d'expériences est grand.
Liens dans Wikipedia
- Analyse de la variance
- Théorie des valeurs extrêmes
- Régression linéaire
- Liste d'associations statistiques académiques
- Liste des services nationaux et internationaux de statistiques
- Liste de sujets en statistiques
- Liste de statisticiens
- Loi de Gauss ou loi de Laplace-Gauss appelée aussi loi normale
- L'apprentissage des machines
- L'analyse des données ou statistique multidimensionnelle
- Les phénomèmes statistiques
- Georges Hostelet, Le concours de l’analyse mathématique à l’analyse expérimentale des faits statistiques, 1938
- Métrologie
- Processus stochastiques
- Statistique (mathématiques élémentaires)
- Les sources d'erreurs
- Probabilité
- Théorie des probabilités
Voir aussi
- Statistique
- Théorie des statistiques
- Statistique (mathématiques élémentaires)
- Statistique descriptive
Liens externes
- (en) Statistiques de textes
- (en) R, logiciel de statistiques
- (en) Scilab, possède une boîte à outils statistique
- (fr) Informations et statistiques sur les populations du monde
- (fr) Statnet Cours sur les Techniques de la statistique
- (fr) Institut National de la Statistique et des Études Économiques France
- (fr) Statistique Canada
- (fr) Institut de la Statistique du Québec
- (fr) Revue Lexicometrica de lexicométrie / statistique textuelle
- (en) descr_stats: un petit outil simple et libre de statistique descriptive
| Image:Nuvola 64 apps edu mathematics blue.png | Portail Mathématiques - Accédez aux articles de Wikipédia concernant les mathématiques. |



