Estimateurs Ponctuels

Dans ce chapitre, nous nous interessons au estimateur ponctuel [kay1993] [casella2002]. Un estimateur ponctuel est une règle de décision qui associe aux données observées une seule valeur pour estimer un paramètre inconnu.

Définition formelle

Soit un vecteur de $l$ paramètres inconnus $θ$ et un vecteur d’observations $x = [x_{1}, \dots, x_{n}]$ aléatoire. Un estimateur ponctuel est une variable aléatoire

\hat{θ} = g (x)

où $g (\cdot) : R^{n} \to R^{l}$ est une fonction des données.

Une fois les données observées $x$ , l'estimateur prend une valeur numérique unique $\hat{θ}$ . Dans ce chapitre, nous proposons plusieurs techniques pour construire la fonction $g (\cdot)$ .

Méthode des moments

La méthode des moments est l'une des techniques les plus anciennes et les plus simples pour construire des estimateurs Casella (2002). Elle consiste à égaler les moments théoriques de la distribution aux moments empiriques calculés à partir des données.

Principe

Soit $θ = [θ_{1}, \dots, θ_{l}]$ un vecteur de $l$ paramètres inconnus à estimer. Notons $m_{u} (θ)$ le moment théorique d'ordre $u$ :

m_{u} (θ) = E [x^{u}]

où l'espérance dépend des paramètres $θ$ .

Le moment empirique d'ordre $u$ est calculé à partir des observations $x = [x_{1}, \dots, x_{n}]$ :

{\hat{m}}_{u} = \frac{1}{n} \sum_{k = 1}^{n} x_{k}^{u}

Estimateur de la méthode des moments

Pour estimer $l$ paramètres, nous résolvons le système d'équations suivant :

{\begin{cases} m_{1} (θ) = {\hat{m}}_{1} \\ m_{2} (θ) = {\hat{m}}_{2} \\ ⋮ \\ m_{l} (θ) = {\hat{m}}_{l} \end{cases}

L'estimateur de la méthode des moments ${\hat{θ}}_{M M}$ est la solution de ce système.

Exemple : Loi normale

Considérons l'estimation des paramètres $θ = [μ, σ^{2}]$ d'une loi normale $N (μ, σ^{2})$ à partir d'un échantillon i.i.d. $x = [x_{1}, \dots, x_{n}]$ .

Moments théoriques :

Premier moment : $m_{1} (μ, σ^{2}) = E [x] = μ$
Deuxième moment : $m_{2} (μ, σ^{2}) = E [x^{2}] = μ^{2} + σ^{2}$

Moments empiriques :

${\hat{m}}_{1} = \frac{1}{n} \sum_{k = 1}^{n} x_{k}$
${\hat{m}}_{2} = \frac{1}{n} \sum_{k = 1}^{n} x_{k}^{2}$

Système d'équations :

{\begin{cases} μ = {\hat{m}}_{1} \\ μ^{2} + σ^{2} = {\hat{m}}_{2} \end{cases}

Solution : Les estimateurs de la méthode des moments sont :

\begin{aligned} {\hat{μ}}_{M M} & = \frac{1}{n} \sum_{k = 1}^{n} x_{k} \\ {\hat{σ}}_{M M}^{2} & = \frac{1}{n} \sum_{k = 1}^{n} x_{k}^{2} - {(\frac{1}{n} \sum_{k = 1}^{n} x_{k})}^{2} = \frac{1}{n} \sum_{k = 1}^{n} (x_{k} - {\hat{μ}}_{M M})^{2} \end{aligned}

où la dernière expression s'obtient en simplifiant le developpement du carré.

Avantages et inconvénients

Avantages :

Méthode simple et intuitive
Ne nécessite pas de connaître la forme complète de la distribution
Toujours applicable dès que les moments existent

Inconvénients :

Peut donner des estimateurs biaisés
N'exploite pas toute l'information disponible dans les données
Peut être moins efficace que d'autres méthodes (comme le MLE)

Méthode du maximum de vraisemblance

La méthode du maximum de vraisemblance (maximum likelihood) Kay (1993) [lehmann1998] consiste à construire un estimateur le plus vraisemblable au sens des données observées $x$ .

Principe

Pour un échantillon $x = [x_{1}, \dots, x_{n}]$ i.i.d. de densité de probabilité $f (x; θ)$ , l'estimateur du maximum de vraisemblance ${\hat{θ}}_{M L E}$ maximise la fonction de vraisemblance :

{\hat{θ}}_{M L E} = \arg max_{θ \in Θ} L (θ)

où la vraisemblance est définie par :

L (θ; x_{1}, \dots, x_{n}) = \prod_{k = 1}^{n} f (x_{k}; θ)

Remarques

En pratique, sans perte de généralité, au lieu de maximiser directement la fonction de vraisemblance, il est souvent préferable de maximiser la log-vraisemblance. Dans le cas d'un grand nombre de densité de probabilité (notamment la loi gaussienne), l'expression du log-vraisemblance est nettement plus simple à manipuler. La log-vraisemblance est définie par

ℓ (θ) = \log L (θ) = \sum_{k = 1}^{n} \log f (x_{k}; θ)

Pour trouver le maximum de la log-vraisemblance, on cherche les valeurs de $θ$ qui annulent le gradient :

\nabla_{θ} ℓ (θ) = [\begin{matrix} \frac{\partial ℓ}{\partial θ_{1}} \\ ⋮ \\ \frac{\partial ℓ}{\partial θ_{l}} \end{matrix}] = 0

Dans le cas d'un paramètre scalaire $θ$ , on résout simplement $\frac{d ℓ (θ)}{d θ} = 0$ (dérivée ordinaire).

Dans certains cas, il est possible de trouver une solution analytique. Dans la majorité des cas, il est nécessaire de recourir à des algorithmes d'optimisation numérique.

Exemple : Loi normale

Considérons l'estimation des paramètres $θ = [μ, σ^{2}]$ à partir d'un échantillon i.i.d. $x = [x_{1}, \dots, x_{n}]$ avec $x_{n} \sim N (μ, σ^{2})$ . Pour estimer les paramètres, nous allons calculer la log-vraisemblance. Dans ce cas de figure, la log vraisemblance s'exprime sous la forme

ℓ (μ, σ^{2}) = - \frac{n}{2} \log (2 π) - \frac{n}{2} \log (σ^{2}) - \frac{1}{2 σ^{2}} \sum_{k = 1}^{n} (x_{k} - μ)^{2}

Les MLE des paramètrees $θ = [μ, σ^{2}]$ sont :

\begin{aligned} {\hat{μ}}_{M L E} & = \frac{1}{n} \sum_{k = 1}^{n} x_{k}, \\ {\hat{σ}}_{M L E}^{2} & = \frac{1}{n} \sum_{k = 1}^{n} (x_{k} - {\hat{μ}}_{M L E})^{2} \end{aligned}

Exemple : Modèle paramétrique et moindres carrés

Considérons un modèle paramétrique où l'on observe un vecteur $x = [x_{1}, \dots, x_{m}]^{T} \in R^{m}$ généré par :

x_{k} = s_{k} (θ) + n_{k}, k = 1, \dots, m

ou de façon vectorielle :

x = s (θ) + n

où :

$s (θ) = [s_{1} (θ), \dots, s_{m} (θ)]^{T}$ est un vecteur de fonctions paramétriques (connues)
$θ \in R^{p}$ est le vecteur de paramètres à estimer (inconnu)
$n \sim N (0, σ^{2} I_{m})$ est un bruit gaussien de moyenne nulle et de matrice de covariance $σ^{2} I_{m}$

Sous ce modèle, les observations suivent une loi normale multivariée $x \sim N (s (θ), σ^{2} I_{m})$ de densité :

f (x; θ, σ^{2}) = \frac{1}{(2 π σ^{2})^{m / 2}} \exp (- \frac{1}{2 σ^{2}} ∥ x - s (θ) ∥^{2})

Log-vraisemblance :

ℓ (θ, σ^{2}) = - \frac{m}{2} \log (2 π) - \frac{m}{2} \log (σ^{2}) - \frac{1}{2 σ^{2}} ∥ x - s (θ) ∥_{2}^{2}

Sous l'hypothèse de bruit gaussien, maximiser la log-vraisemblance par rapport à $θ$ revient à minimiser :

{\hat{θ}}_{M L E} = \arg min_{θ} ∥ x - s (θ) ∥_{2}^{2} = \arg min_{θ} \sum_{k = 1}^{m} (x_{k} - s_{k} (θ))^{2}

Ce critère correspond aux moindres carrés non linéaires. En général, il n'existe pas de solution analytique et il faut recourir à des algorithmes d'optimisation (gradient, Newton, Levenberg-Marquardt, etc.).

Cas particulier : modèle linéaire

Lorsque $s (θ)$ est une fonction linéaire des paramètres, c'est-à-dire :

s (θ) = A θ

où $A \in R^{m \times p}$ est une matrice de design connue.Ce problème admet une solution analytique :

{\hat{θ}}_{M L E} = (A^{T} A)^{- 1} A^{T} x = A^{†} x

où $A^{†}$ est la pseudo-inverse de $A$ . Cette solution est appelée estimateur des moindres carrés ordinaires (Ordinary Least Squares, OLS).

Approfondissement

Le cas particulier du modèle linéaire, ses propriétés, son analyse détaillée et ses extensions sont présentés dans le Chapitre 4 consacré à la régression linéaire.

Propriétés

L'estimateur du maximum de vraisemblance possède des propriétés remarquables qui en font l'une des méthodes d'estimation les plus utilisées en statistique. Ces propriétés sont principalement asymptotiques, c'est-à-dire qu'elles se manifestent lorsque la taille de l'échantillon $n$ tend vers l'infini.

Consistance

Sous certaines conditions de régularité, l'estimateur du MLE est consistant : il converge en probabilité vers la vraie valeur du paramètre lorsque $n \to \infty$ :

{\hat{θ}}_{M L E} \overset{P}{\to} θ

Interprétation : Avec un échantillon suffisamment grand, l'estimateur du MLE s'approche arbitrairement de la vraie valeur du paramètre.

Normalité asymptotique

L'estimateur du MLE suit asymptotiquement une loi normale :

\sqrt{n} ({\hat{θ}}_{M L E} - θ) \overset{d}{\to} N (0, I^{- 1} (θ))

où $I (θ)$ est la matrice d'information de Fisher définie par :

I (θ) = - E [\nabla_{θ}^{2} ℓ (θ)] = E [(\nabla_{θ} ℓ (θ)) {(\nabla_{θ} ℓ (θ))}^{T}]

Dans le cas scalaire ( $θ$ unidimensionnel), l'information de Fisher est :

I (θ) = - E [\frac{d^{2} ℓ (θ)}{d θ^{2}}] = E [{(\frac{d ℓ (θ)}{d θ})}^{2}]

Interprétation : Pour $n$ grand, l'estimateur du MLE se comporte approximativement comme une variable normale de moyenne $θ$ et de variance $\frac{1}{n} I^{- 1} (θ)$ .

Efficacité asymptotique

L'estimateur du MLE atteint asymptotiquement la borne de Cramér-Rao [cramer1946] : parmi tous les estimateurs sans biais, le MLE a asymptotiquement la variance minimale Kay (1993).

var ({\hat{θ}}_{M L E}) \approx \frac{1}{n I (θ)}

Interprétation : Le MLE est asymptotiquement optimal au sens de la variance : aucun autre estimateur sans biais ne peut avoir une variance plus faible pour un échantillon de grande taille.

Invariance par reparamétrisation

Si ${\hat{θ}}_{M L E}$ est l'estimateur du MLE de $θ$ , alors pour toute fonction $g$ (suffisamment régulière), $g ({\hat{θ}}_{M L E})$ est l'estimateur du MLE de $g (θ)$ :

{\hat{g (θ)}}_{M L E} = g ({\hat{θ}}_{M L E})

Exemple : Si ${\hat{σ}}_{M L E}^{2}$ est le MLE de $σ^{2}$ , alors $\sqrt{{\hat{σ}}_{M L E}^{2}}$ est le MLE de $σ$ .

Interprétation : Cette propriété est très pratique car elle permet d'estimer facilement des transformations de paramètres sans avoir à recalculer le MLE dans le nouvel espace paramétrique.

Remarque

Ces propriétés asymptotiques font du MLE une méthode d'estimation très puissante, particulièrement pour les grands échantillons. Cependant, pour de petits échantillons, le MLE peut être biaisé ou avoir une variance élevée.

Intervalles de confiance

Grâce à la propriété de normalité asymptotique, nous pouvons construire des intervalles de confiance pour les paramètres estimés par MLE.

Cas scalaire

Pour un paramètre scalaire $θ$ , nous avons asymptotiquement :

{\hat{θ}}_{M L E} \sim N (θ, \frac{1}{n I (θ)})

En standardisant, nous obtenons :

\frac{{\hat{θ}}_{M L E} - θ}{\sqrt{\frac{1}{n I (θ)}}} \sim N (0, 1)

Un intervalle de confiance asymptotique de niveau $1 - α$ pour $θ$ est :

I C_{1 - α} (θ) = [{\hat{θ}}_{M L E} - z_{α / 2} \sqrt{\frac{1}{n I ({\hat{θ}}_{M L E})}}, {\hat{θ}}_{M L E} + z_{α / 2} \sqrt{\frac{1}{n I ({\hat{θ}}_{M L E})}}]

où $z_{α / 2}$ est le quantile d'ordre $1 - α / 2$ de la loi normale centrée réduite $N (0, 1)$ .

Remarque : En pratique, nous remplaçons $I (θ)$ par $I ({\hat{θ}}_{M L E})$ car $θ$ est inconnu. C'est ce qu'on appelle l'approche plug-in.

Cas multidimensionnel

Pour un vecteur de paramètres $θ = [θ_{1}, \dots, θ_{l}]^{T}$ , un intervalle de confiance pour le $j$ -ième coefficient est :

I C_{1 - α} (θ_{j}) = [{\hat{θ}}_{j} - z_{α / 2} \sqrt{[I^{- 1} ({\hat{θ}}_{M L E})]_{j j} / n}, {\hat{θ}}_{j} + z_{α / 2} \sqrt{[I^{- 1} ({\hat{θ}}_{M L E})]_{j j} / n}]

où $[I^{- 1}]_{j j}$ désigne l'élément diagonal $(j, j)$ de la matrice d'information inverse.

Avantages et inconvénients

Avantages :

Exploite toute l'information disponible dans les données (efficacité)
Propriétés asymptotiques optimales : convergence, normalité asymptotique, efficacité asymptotique
Invariant par reparamétrisation : si ${\hat{θ}}_{M L E}$ est le MLE de $θ$ , alors $g ({\hat{θ}}_{M L E})$ est le MLE de $g (θ)$
Fournit une approche systématique pour construire des estimateurs

Inconvénients :

Nécessite de connaître la forme complète de la distribution (densité de probabilité)
Peut être difficile à calculer (pas toujours de solution analytique)
Peut donner des estimateurs biaisés pour de petits échantillons

Références

Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
Lehmann, E. L., & Casella, G. (1998). Theory of Point Estimation, 2nd edition. Springer.
Casella, G., & Berger, R. L. (2002). Statistical Inference, 2nd edition. Duxbury Press.
Cramér, H. (1946). Mathematical Methods of Statistics. Princeton University Press.

Estimateurs Ponctuels ​

Définition formelle ​

Méthode des moments ​

Principe ​

Estimateur de la méthode des moments ​

Exemple : Loi normale ​

Avantages et inconvénients ​

Méthode du maximum de vraisemblance ​

Principe ​

Remarques ​

Exemple : Loi normale ​

Exemple : Modèle paramétrique et moindres carrés ​

Cas particulier : modèle linéaire ​

Propriétés ​

Consistance ​

Normalité asymptotique ​

Efficacité asymptotique ​

Invariance par reparamétrisation ​

Intervalles de confiance ​

Cas scalaire ​

Cas multidimensionnel ​

Avantages et inconvénients ​

Références

Estimateurs Ponctuels

Définition formelle

Méthode des moments

Principe

Estimateur de la méthode des moments

Exemple : Loi normale

Avantages et inconvénients

Méthode du maximum de vraisemblance

Principe

Remarques

Exemple : Loi normale

Exemple : Modèle paramétrique et moindres carrés

Cas particulier : modèle linéaire

Propriétés

Consistance

Normalité asymptotique

Efficacité asymptotique

Invariance par reparamétrisation

Intervalles de confiance

Cas scalaire

Cas multidimensionnel

Avantages et inconvénients