Skip to content

Estimateurs Ponctuels

Dans ce chapitre, nous nous interessons au estimateur ponctuel [kay1993] [casella2002]. Un estimateur ponctuel est une règle de décision qui associe aux données observées une seule valeur pour estimer un paramètre inconnu.

Définition formelle

Soit un vecteur de l paramètres inconnus θ et un vecteur d’observations x=[x1,,xn] aléatoire. Un estimateur ponctuel est une variable aléatoire

θ^=g(x)

g():RnRl est une fonction des données.

Une fois les données observées x, l'estimateur prend une valeur numérique unique θ^. Dans ce chapitre, nous proposons plusieurs techniques pour construire la fonction g().

Méthode des moments

La méthode des moments est l'une des techniques les plus anciennes et les plus simples pour construire des estimateurs Casella (2002). Elle consiste à égaler les moments théoriques de la distribution aux moments empiriques calculés à partir des données.

Principe

Soit θ=[θ1,,θl] un vecteur de l paramètres inconnus à estimer. Notons mu(θ) le moment théorique d'ordre u :

mu(θ)=E[xu]

où l'espérance dépend des paramètres θ.

Le moment empirique d'ordre u est calculé à partir des observations x=[x1,,xn] :

m^u=1nk=1nxku

Estimateur de la méthode des moments

Pour estimer l paramètres, nous résolvons le système d'équations suivant :

{m1(θ)=m^1m2(θ)=m^2ml(θ)=m^l

L'estimateur de la méthode des moments θ^MM est la solution de ce système.

Exemple : Loi normale

Considérons l'estimation des paramètres θ=[μ,σ2] d'une loi normale N(μ,σ2) à partir d'un échantillon i.i.d. x=[x1,,xn].

Moments théoriques :

  • Premier moment : m1(μ,σ2)=E[x]=μ
  • Deuxième moment : m2(μ,σ2)=E[x2]=μ2+σ2

Moments empiriques :

  • m^1=1nk=1nxk
  • m^2=1nk=1nxk2

Système d'équations :

{μ=m^1μ2+σ2=m^2

Solution : Les estimateurs de la méthode des moments sont :

μ^MM=1nk=1nxkσ^MM2=1nk=1nxk2(1nk=1nxk)2=1nk=1n(xkμ^MM)2

où la dernière expression s'obtient en simplifiant le developpement du carré.

Avantages et inconvénients

Avantages :

  • Méthode simple et intuitive
  • Ne nécessite pas de connaître la forme complète de la distribution
  • Toujours applicable dès que les moments existent

Inconvénients :

  • Peut donner des estimateurs biaisés
  • N'exploite pas toute l'information disponible dans les données
  • Peut être moins efficace que d'autres méthodes (comme le MLE)

Méthode du maximum de vraisemblance

La méthode du maximum de vraisemblance (maximum likelihood) Kay (1993) [lehmann1998] consiste à construire un estimateur le plus vraisemblable au sens des données observées x.

Principe

Pour un échantillon x=[x1,,xn] i.i.d. de densité de probabilité f(x;θ), l'estimateur du maximum de vraisemblance θ^MLE maximise la fonction de vraisemblance :

θ^MLE=argmaxθΘL(θ)

où la vraisemblance est définie par :

L(θ;x1,,xn)=k=1nf(xk;θ)

Remarques

  • En pratique, sans perte de généralité, au lieu de maximiser directement la fonction de vraisemblance, il est souvent préferable de maximiser la log-vraisemblance. Dans le cas d'un grand nombre de densité de probabilité (notamment la loi gaussienne), l'expression du log-vraisemblance est nettement plus simple à manipuler. La log-vraisemblance est définie par
(θ)=logL(θ)=k=1nlogf(xk;θ)
  • Pour trouver le maximum de la log-vraisemblance, on cherche les valeurs de θ qui annulent le gradient :
θ(θ)=[θ1θl]=0

Dans le cas d'un paramètre scalaire θ, on résout simplement d(θ)dθ=0 (dérivée ordinaire).

Dans certains cas, il est possible de trouver une solution analytique. Dans la majorité des cas, il est nécessaire de recourir à des algorithmes d'optimisation numérique.

Exemple : Loi normale

Considérons l'estimation des paramètres θ=[μ,σ2] à partir d'un échantillon i.i.d. x=[x1,,xn] avec xnN(μ,σ2). Pour estimer les paramètres, nous allons calculer la log-vraisemblance. Dans ce cas de figure, la log vraisemblance s'exprime sous la forme

(μ,σ2)=n2log(2π)n2log(σ2)12σ2k=1n(xkμ)2

Les MLE des paramètrees θ=[μ,σ2] sont :

μ^MLE=1nk=1nxk,σ^MLE2=1nk=1n(xkμ^MLE)2

Exemple : Modèle paramétrique et moindres carrés

Considérons un modèle paramétrique où l'on observe un vecteur x=[x1,,xm]TRm généré par :

xk=sk(θ)+nk,k=1,,m

ou de façon vectorielle :

x=s(θ)+n

où :

  • s(θ)=[s1(θ),,sm(θ)]T est un vecteur de fonctions paramétriques (connues)
  • θRp est le vecteur de paramètres à estimer (inconnu)
  • nN(0,σ2Im) est un bruit gaussien de moyenne nulle et de matrice de covariance σ2Im

Sous ce modèle, les observations suivent une loi normale multivariée xN(s(θ),σ2Im) de densité :

f(x;θ,σ2)=1(2πσ2)m/2exp(12σ2xs(θ)2)

Log-vraisemblance :

(θ,σ2)=m2log(2π)m2log(σ2)12σ2xs(θ)22

Sous l'hypothèse de bruit gaussien, maximiser la log-vraisemblance par rapport à θ revient à minimiser :

θ^MLE=argminθxs(θ)22=argminθk=1m(xksk(θ))2

Ce critère correspond aux moindres carrés non linéaires. En général, il n'existe pas de solution analytique et il faut recourir à des algorithmes d'optimisation (gradient, Newton, Levenberg-Marquardt, etc.).

Cas particulier : modèle linéaire

Lorsque s(θ) est une fonction linéaire des paramètres, c'est-à-dire :

s(θ)=Aθ

ARm×p est une matrice de design connue.Ce problème admet une solution analytique :

θ^MLE=(ATA)1ATx=Ax

A est la pseudo-inverse de A. Cette solution est appelée estimateur des moindres carrés ordinaires (Ordinary Least Squares, OLS).

Approfondissement

Le cas particulier du modèle linéaire, ses propriétés, son analyse détaillée et ses extensions sont présentés dans le Chapitre 4 consacré à la régression linéaire.

Propriétés

L'estimateur du maximum de vraisemblance possède des propriétés remarquables qui en font l'une des méthodes d'estimation les plus utilisées en statistique. Ces propriétés sont principalement asymptotiques, c'est-à-dire qu'elles se manifestent lorsque la taille de l'échantillon n tend vers l'infini.

Consistance

Sous certaines conditions de régularité, l'estimateur du MLE est consistant : il converge en probabilité vers la vraie valeur du paramètre lorsque n :

θ^MLEPθ

Interprétation : Avec un échantillon suffisamment grand, l'estimateur du MLE s'approche arbitrairement de la vraie valeur du paramètre.

Normalité asymptotique

L'estimateur du MLE suit asymptotiquement une loi normale :

n(θ^MLEθ)dN(0,I1(θ))

I(θ) est la matrice d'information de Fisher définie par :

I(θ)=E[θ2(θ)]=E[(θ(θ))(θ(θ))T]

Dans le cas scalaire (θ unidimensionnel), l'information de Fisher est :

I(θ)=E[d2(θ)dθ2]=E[(d(θ)dθ)2]

Interprétation : Pour n grand, l'estimateur du MLE se comporte approximativement comme une variable normale de moyenne θ et de variance 1nI1(θ).

Efficacité asymptotique

L'estimateur du MLE atteint asymptotiquement la borne de Cramér-Rao [cramer1946] : parmi tous les estimateurs sans biais, le MLE a asymptotiquement la variance minimale Kay (1993).

var(θ^MLE)1nI(θ)

Interprétation : Le MLE est asymptotiquement optimal au sens de la variance : aucun autre estimateur sans biais ne peut avoir une variance plus faible pour un échantillon de grande taille.

Invariance par reparamétrisation

Si θ^MLE est l'estimateur du MLE de θ, alors pour toute fonction g (suffisamment régulière), g(θ^MLE) est l'estimateur du MLE de g(θ) :

g(θ)^MLE=g(θ^MLE)

Exemple : Si σ^MLE2 est le MLE de σ2, alors σ^MLE2 est le MLE de σ.

Interprétation : Cette propriété est très pratique car elle permet d'estimer facilement des transformations de paramètres sans avoir à recalculer le MLE dans le nouvel espace paramétrique.

Remarque

Ces propriétés asymptotiques font du MLE une méthode d'estimation très puissante, particulièrement pour les grands échantillons. Cependant, pour de petits échantillons, le MLE peut être biaisé ou avoir une variance élevée.

Intervalles de confiance

Grâce à la propriété de normalité asymptotique, nous pouvons construire des intervalles de confiance pour les paramètres estimés par MLE.

Cas scalaire

Pour un paramètre scalaire θ, nous avons asymptotiquement :

θ^MLEN(θ,1nI(θ))

En standardisant, nous obtenons :

θ^MLEθ1nI(θ)N(0,1)

Un intervalle de confiance asymptotique de niveau 1α pour θ est :

IC1α(θ)=[θ^MLEzα/21nI(θ^MLE),θ^MLE+zα/21nI(θ^MLE)]

zα/2 est le quantile d'ordre 1α/2 de la loi normale centrée réduite N(0,1).

Remarque : En pratique, nous remplaçons I(θ) par I(θ^MLE) car θ est inconnu. C'est ce qu'on appelle l'approche plug-in.

Cas multidimensionnel

Pour un vecteur de paramètres θ=[θ1,,θl]T, un intervalle de confiance pour le j-ième coefficient est :

IC1α(θj)=[θ^jzα/2[I1(θ^MLE)]jj/n,θ^j+zα/2[I1(θ^MLE)]jj/n]

[I1]jj désigne l'élément diagonal (j,j) de la matrice d'information inverse.

Avantages et inconvénients

Avantages :

  • Exploite toute l'information disponible dans les données (efficacité)
  • Propriétés asymptotiques optimales : convergence, normalité asymptotique, efficacité asymptotique
  • Invariant par reparamétrisation : si θ^MLE est le MLE de θ, alors g(θ^MLE) est le MLE de g(θ)
  • Fournit une approche systématique pour construire des estimateurs

Inconvénients :

  • Nécessite de connaître la forme complète de la distribution (densité de probabilité)
  • Peut être difficile à calculer (pas toujours de solution analytique)
  • Peut donner des estimateurs biaisés pour de petits échantillons

Références

  1. Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
  2. Lehmann, E. L., & Casella, G. (1998). Theory of Point Estimation, 2nd edition. Springer.
  3. Casella, G., & Berger, R. L. (2002). Statistical Inference, 2nd edition. Duxbury Press.
  4. Cramér, H. (1946). Mathematical Methods of Statistics. Princeton University Press.