Statistique mathématique

Un article de Freepedia.

Image:Probstats.png Cet article est une ébauche à compléter concernant les probabilités et la statistique, vous pouvez partager vos connaissances en le modifiant.

Les statistiques en général traitent des populations. En statistique descriptive on se contente de procéder à des réductions statistiques qui donnent des idées concises sur des listes de nombres difficilement compréhensibles.

L'idée de base de la statistique mathématique est plus ambitieuse : elle consiste à interpréter la répartition d'une population en lui associant une loi de probabilité. Ainsi, avant d'être connu, un élément de la population est considéré comme une variable aléatoire. Un échantillon est constitué par plusieurs éléments de ce type.

L'un des problèmes consiste à déduire les propriétés statistiques de l'échantillon de celles qui sont prêtées à la variable aléatoire : c'est la théorie de l'échantillonnage.

Le problème concret est le problème inverse qui consiste à se demander quelles informations l'échantillon apporte sur les paramètres de la loi de probabilité : c'est la théorie de l'estimation.

L'estimation d'un paramètre fournit un nombre qui n'a aucune raison d'être sa valeur exacte. Il y a une certaine probabilité pour que cette valeur se trouve à l'intérieur d'un intervalle autour de la valeur estimée : en se donnant la probabilité sous la forme 1-α (α : risque de se tromper) on définit un intervalle de confiance pour l'estimation.

On peut enfin construire un test d'hypothèse : une hypothèse H est rejetée au niveau 1-α si les conséquences de l'hypothèse s'expriment par un nombre qui a une probabilité inférieure à ε d'être dépassé.

Dans un test paramétrique l'hypothèse est l'égalité d'un paramètre à une valeur donnée (le standard). Elle est rejetée si le standard est dans la région critique, hors de l'intervalle de confiance au niveau 1-α.

Dans le test du χ² l'hypothèse est l'adéquation d'une loi de probabilité à un échantillon.

Dans un test de comparaison l'hypothèse est l'égalité du paramètre pour deux populations auxquelles on prête une loi de probabilité de même forme.

La plupart de ces problèmes se simplifient considérablement si on suppose que la loi – en toute rigueur inconnue – est une loi normale.

Sommaire

Echantillonnage

Considérons une population d'où l'on extrait un échantillon d'effectif n dont les éléments sont xi. La statistique descriptive associe à cet échantillon une valeur centrale, la moyenne empirique

<math>m = {1 \over n} \sum_{i=1}^n x_i</math>

et une valeur de dispersion, la variance empirique

<math>s^2 = {1 \over n} \sum_{i=1}^n (x_i - m)^2</math>

La loi de probabilité associée à cette population (en toute rigueur inconnue) possède une moyenne μ et une variance σ2 définies en probabilités dont les valeurs empiriques correspondantes donnent une idée. Le problème est que, si on avait choisi un autre échantillon, on aurait trouvé des valeurs différentes.

Ceci conduit à considérer les éléments, la moyenne empirique et la variance empirique comme des variables aléatoires possédant une loi de probabilité, une moyenne et une variance. On ne peut continuer le raisonnement qu'en supposant que les variables qui constituent l'échantillon sont indépendantes.

Sous cette condition, on peut calculer la moyenne (ou espérance) et la variance de la moyenne empirique et de la variance empirique. On obtient :

<math>E[m] = \mu \qquad \qquad V[m] = \sigma^2 / n </math>
</br>
<math>E[s^2] = {{n-1} \over n}\sigma^2 \qquad \qquad V[s^2] = {1 \over n} (E[x^4] - {{n-1}\over {n-3}} \sigma^4)</math>

L'écart-type de la moyenne empirique vaut σ / √n. Si n devient grand le théorème de la limite centrale enseigne que la moyenne suit une loi normale caractérisée par la moyenne μ et cet écart-type. Ce résultat reste valable quelle que soit la taille de l'échantillon lorsque la loi de probabilité assignée à la population est normale. Dans ce dernier cas, particulièrement important en pratique, on montre également que n s2 / σ2 suit une loi de χ2.

Estimation

Ces résultats s'interprètent directement en terme d'estimation.

  • La moyenne empirique et la variance empirique fournissent des estimations de la moyenne et de la variance de la population.
  • Ces estimations sont convergentes car leurs variances tendent vers zéro lorsque la taille de l'échantillon s'accroît indéfiniment.
  • Elles sont correctes car leur limite est égale à la valeur à estimer.
  • L'estimation de la moyenne est absolument correcte, ou sans biais, car son espérance est égale à la valeur cherchée quelle que soit la taille de l'échantillon.
  • L'estimation de la variance est biaisée (son espérance est inférieure à la valeur cherchée). Pour obtenir une estimation sans biais, il faut utiliser une formule légèrement différente de celle de la statistique descriptive :
<math>s'^2 = {1 \over {n-1}} \sum_{i=1}^n (x_i - m)^2</math>

Intervalles de confiance

L'estimation des paramètres s'effectue à partir du seul échantillon mais, si on veut apprécier la qualité de cette estimation, il faut considérer la loi de probabilité attachée à la population. A ce propos, il convient de faire deux remarques. D'une part, sauf exceptions, cette loi de probabilité reste en toute rigueur inconnue. D'autre part, on fait souvent l'hypothèse qu'il s'agit de la loi normale, soit avec quelques justifications, soit pour des raisons de commodité.

Pour décrire le principe, considérons un exemple assez artificiel qui présente l'avantage de la simplicité : l'estimation de la moyenne d'une population supposée normale dont nous connaîtrions l'écart-type. D'après le paragraphe échantillonnage, la moyenne empirique suit également une loi normale dont l'écart-type est réduit par le facteur √n.

Si nous nous fixons un risque de se tromper, par exemple 5 %, les tables de la loi normale permettent de calculer la largeur d'un intervalle autour de la valeur vraie inconnue dans lequel il y a 95 chances sur 100 de trouver l'estimation.

On peut considérer que cet intervalle représente les valeurs de la moyenne pour lesquelles la différence entre cette moyenne et l'observation n'est pas statistiquement significative au niveau 5 %. En reportant cet intervalle autour de la valeur estimée on dit qu'on a défini l'intervalle de confiance à 95 % pour la moyenne. a

Tests d'hypothèses

Notion générale de test d'hypothèse statistique

Toute hypothèse concernant la loi de probabilité associée aux observations est une hypothèse statistique. On ne peut pas la vérifier mais seulement la rejeter lorsque les observations paraissent en contradiction avec elle. Toutefois, on ne pourra jamais affirmer avec certitude que l'hypothèse est fausse (il est toujours possible d'avoir affaire à des données exceptionnelles) mais seulement que la valeur observée est très peu probable dans le cadre de l'hypothèse choisie.

On se fixe donc a priori un risque (probabilité de rejet de l'hypothèse qui serait réalisée malgré les apparences) α. La loi de probabilité de la grandeur considérée permet de déterminer une zone de probabilité 1-α, niveau de signification du test, dont le complément, de probabilité α, est appelé région critique. Si l'estimation tombe dans cette région critique, l'hypothèse doit être rejetée avec le risque α de se tromper.

Test paramétrique

On peut reprendre le calcul effectué pour les intervalles de confiance de la moyenne, la variance étant supposée connue, sous un autre angle. On ne cherchera pas à estimer la moyenne inconnue mais à discuter l'hypothèse selon laquelle elle a une valeur donnée, 0 par exemple.

L'intervalle construit autour de la moyenne hypothétique et non autour de la moyenne estimée a pour complément la région de rejet de l'hypothèse.

Test du χ²

On se demande si un échantillon extrait d'une population correspond raisonnablement à une loi de probabilité hypothétique.

L'échantillon d'effectif n est divisé en k classes d'effectifs ni comme pour la construction d'un histogramme, avec une différence : il est possible d'utiliser des classes de largeur variable, c'est même recommandé pour éviter qu'elles soient trop petites. Avec cette précaution, le théorème de la limite centrale indique que les effectifs ni se comportent approximativement comme des variables normales.

La loi de probabilité étant donnée d'autre part, elle permet d'assigner à chaque classe une probabilité pi. Dans ces conditions l'expression

<math>\sum_{i=1}^k {{(n_i - n p_i)^2} \over {n p_i}}</math>

qui représente d'une certaine manière la distance entre les données empiriques et la loi de probabilité supposée, suit une loi de probabilité de χ2 à k-1 degrés de liberté.

Les tables de χ2 permettent de déterminer s'il y a lieu de rejeter l'hypothèse en prenant le risque, fixé à l'avance, de se tromper.

Si on considère le cas d'une loi de probabilité dont les paramètres (en général moyenne et écart-type) sont inconnus, la minimisation du χ2 par rapport à ces paramètres fournit une estimation de ceux-ci.

Test de comparaison

Dans ce cas, le but est de comparer deux populations représentées chacune par un échantillon, l'hypothèse à contester étant l'égalité de leurs moyennes ou de leurs variances.

Voir aussi

Test d'hypothèse



Views
Outils personels
Boîte à outils
Autres Liens