Concepts de base

Introduction

L'estimation statistique vise à déterminer la valeur de paramètres inconnus à partir des données observées d'un échantillon [kay1993] [casella2002]. Pour déterminer la valeur des paramètres, les observations sont décrites à l'aide d'un modèle statistique, c'est-à-dire d'une loi de probabilité dépendant des paramètres d'intérêt. L'estimation consiste alors à exploiter conjointement les données et ce modèle paramétré afin de fournir une approximation des paramètres inconnus.

Dans ce chapitre, nous considérons en particulier un exemple très simple: l'estimation de la moyenne d'un échantillon issu d'une loi gaussienne.

Modèle statistique

Un modèle statistique est un ensemble de distributions de probabilité $P = {P_{θ} : θ \in Θ}$ indexé par un paramètre $θ$ appartenant à un espace de paramètres $Θ$ .

Exemple : Loi normale (gaussienne)

Définition : Une variable aléatoire $X$ suit une loi normale (ou gaussienne) $N (μ, σ^{2})$ de paramètres $μ \in R$ (moyenne) et $σ^{2} > 0$ (variance) si elle admet pour densité de probabilité :

f (x; μ, σ^{2}) = \frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{(x - μ)^{2}}{2 σ^{2}}), x \in R

Propriétés :

$E [X] = μ$ (moyenne ou espérance)
$var (X) = σ^{2}$ (variance)

Visualisations :

Figure 1: Loi normale avec différents paramètres μ et σ²

Soit $x = [x_{1}, \dots, x_{n}]$ un échantillon i.i.d. composé de $n$ éléments issus d'une loi normale $N (μ, σ^{2})$ . Le modèle statistique est :

P = {N (μ, σ^{2}) : (μ, σ^{2}) \in R \times R_{+}^{*}}

Estimateur

Un estimateur de $θ$ est une statistique

{\hat{θ}}_{n} = g (x)

qui approxime le paramètre $θ$ à partir de l'échantillon $x$ . Par convention, l'estimateur est indiqué avec un $\hat{.}$

Propriétés des estimateurs

Pour évaluer la qualité d'un estimateur, nous étudions plusieurs propriétés fondamentales. Ces propriétés permettent de comparer différents estimateurs et de choisir le plus approprié selon le contexte.

Biais

Le biais d'un estimateur ${\hat{θ}}_{n}$ mesure l'écart entre sa valeur moyenne et la vraie valeur du paramètre. Il est défini par :

Biais ({\hat{θ}}_{n}) = E [{\hat{θ}}_{n}] - θ

Un estimateur est dit sans biais si $Biais ({\hat{θ}}_{n}) = 0$ pour tout $θ$ , c'est-à-dire si $E [{\hat{θ}}_{n}] = θ$ . Cela signifie qu'en moyenne, l'estimateur "vise juste".

Variance

La variance d'un estimateur ${\hat{θ}}_{n}$ mesure sa variabilité autour de sa moyenne :

var ({\hat{θ}}_{n}) = E [({\hat{θ}}_{n} - E [{\hat{θ}}_{n}])^{2}]

La variance quantifie la dispersion des estimations d'un échantillon à l'autre. Un estimateur peut être sans biais mais avoir une variance élevée (peu fiable), ou avoir un biais non nul mais une variance faible (précis mais biaisé).

Efficacité

Parmi les estimateurs sans biais, celui de variance minimale est dit efficace.

La borne de Cramér-Rao [cramer1946] établit une limite inférieure pour la variance de tout estimateur sans biais Kay (1993) : sous certaines conditions de régularité,

var ({\hat{θ}}_{n}) \geq \frac{1}{n I (θ)}

où $I (θ)$ est l'information de Fisher. Un estimateur qui atteint cette borne est optimal au sens de la variance [lehmann1998].

Convergence

Un estimateur est dit convergent s'il se rapproche du paramètre vrai lorsque la taille de l'échantillon augmente. Formellement, ${\hat{θ}}_{n}$ converge en probabilité vers $θ$ si :

\forall ε > 0, lim_{n \to \infty} P (| {\hat{θ}}_{n} - θ | > ε) = 0

On note : ${\hat{θ}}_{n} \overset{P}{\to} θ$

Pour un échantillon suffisamment grand, la probabilité que l'estimateur soit éloigné de la vraie valeur devient arbitrairement petite. C'est une propriété asymptotique essentielle.

Erreur quadratique moyenne (EQM)

Le biais et la variance évaluent des aspects distincts de la qualité d'un estimateur. L'erreur quadratique moyenne (EQM ou MSE en anglais) est un critère global qui combine ces deux aspects :

MSE ({\hat{θ}}_{n}) = E [({\hat{θ}}_{n} - θ)^{2}]

Décomposition biais-variance : Cette quantité peut s'exprimer de manière remarquable comme :

MSE ({\hat{θ}}_{n}) = var ({\hat{θ}}_{n}) + {[Biais ({\hat{θ}}_{n})]}^{2}

L'EQM représente l'erreur moyenne au carré entre l'estimateur et la vraie valeur. Cette décomposition montre qu'il existe un compromis biais-variance :

Un estimateur peut avoir un biais non nul mais une variance faible
À l'inverse, un estimateur sans biais peut avoir une variance élevée
L'objectif est de minimiser l'EQM totale, ce qui peut parfois justifier d'accepter un petit biais pour réduire significativement la variance

Intervalles de confiance

Les estimateurs ponctuels (comme ${\hat{θ}}_{n}$ ) fournissent une seule valeur pour approximer le paramètre inconnu. Cependant, du fait de la variabilité aléatoire des données, cette estimation est incertaine. Les intervalles de confiance permettent de quantifier cette incertitude en fournissant un intervalle qui contient le paramètre avec une probabilité contrôlée.

Un intervalle de confiance de niveau $1 - α$ pour $θ$ est un intervalle aléatoire $[L_{n}, U_{n}]$ (qui dépend des données) tel que :

P_{θ} (L_{n} \leq θ \leq U_{n}) \geq 1 - α, \forall θ \in Θ

Interprétation : Le nombre $1 - α$ (typiquement 90%, 95% ou 99%) est appelé niveau de confiance. Cela signifie que si nous répétons l'expérience un grand nombre de fois, environ $(1 - α) \times 100 %$ des intervalles construits contiendront la vraie valeur de $θ$ .

Exemple : Estimation de la moyenne

Pour un échantillon $x = [x_{1}, \dots, x_{n}]$ i.i.d. de moyenne $μ$ , un estimateur naturel de $μ$ est la moyenne empirique définie par :

{\hat{μ}}_{n} = g (x) = \frac{1}{n} \sum_{k = 1}^{n} x_{k}

Propriétés :

Sans biais : $E [{\hat{μ}}_{n}] = μ$ , donc $Biais ({\hat{μ}}_{n}) = 0$
Variance : $var ({\hat{μ}}_{n}) = \frac{σ^{2}}{n}$
Erreur quadratique moyenne : $MSE ({\hat{μ}}_{n}) = var ({\hat{μ}}_{n}) + [Biais ({\hat{μ}}_{n})]^{2} = \frac{σ^{2}}{n} + 0 = \frac{σ^{2}}{n}$
Convergence : ${\hat{μ}}_{n} \overset{P}{\to} μ$ (loi des grands nombres)

Interprétation : L'EQM décroît en $1 / n$ , ce qui signifie que la qualité de l'estimation s'améliore lorsque la taille de l'échantillon augmente. La figure suivante présente l'évolution de l'EQM en fonction de $n$ lorsque $σ^{2} = 4$ . Nous observons que l'EQM diminue rapidement au début puis plus lentement. Pour diviser l'EQM par 2, il faut multiplier la taille d'échantillon par 4.

Figure 2: Évolution de l'erreur quadratique moyenne en fonction de la taille d'échantillon n

Références

Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
Lehmann, E. L., & Casella, G. (1998). Theory of Point Estimation, 2nd edition. Springer.
Casella, G., & Berger, R. L. (2002). Statistical Inference, 2nd edition. Duxbury Press.
Cramér, H. (1946). Mathematical Methods of Statistics. Princeton University Press.

Concepts de base ​

Introduction ​

Modèle statistique ​

Exemple : Loi normale (gaussienne) ​

Estimateur ​

Propriétés des estimateurs ​

Biais ​

Variance ​

Efficacité ​

Convergence ​

Erreur quadratique moyenne (EQM) ​

Intervalles de confiance ​

Exemple : Estimation de la moyenne ​