Skip to content

Estimation Bayésienne

Introduction

L'approche bayésienne de l'estimation statistique Casella (2002) repose sur une vision fondamentalement différente de celle présentée au Chapitre 2. Alors que l'approche fréquentiste considère les paramètres comme des quantités fixes (mais inconnues), l'approche bayésienne traite les paramètres comme des variables aléatoires dont on cherche à inférer la distribution à partir des données observées.

Comparaison des paradigmes

AspectApproche FréquentisteApproche Bayésienne
Paramètre θQuantité fixe inconnueVariable aléatoire
Données xVariables aléatoiresObservées (fixes une fois collectées)
EstimationPoint estimé θ^Distribution a posteriori p(θx)
IncertitudeIntervalles de confianceIntervalles de crédibilité
Information a prioriNon utiliséeIncorporée via la loi a priori

Philosophie bayésienne

L'approche bayésienne permet d'incorporer des connaissances a priori sur les paramètres (expertise du domaine, résultats d'études antérieures) et de les combiner avec les données observées pour obtenir une distribution a posteriori qui quantifie l'incertitude sur les paramètres.

Théorème de Bayes

Formulation générale

Le théorème de Bayes est le fondement mathématique de l'inférence bayésienne. Pour un paramètre θ et des observations x, il s'énonce :

p(θx)=p(xθ)p(θ)p(x)

où :

  • p(θ) est la loi a priori : notre connaissance sur θ avant d'observer les données
  • p(xθ) est la vraisemblance : probabilité d'observer x sachant θ
  • p(x) est l'évidence (ou vraisemblance marginale) : p(x)=p(xθ)p(θ)dθ
  • p(θx) est la loi a posteriori : notre connaissance sur θ après avoir observé les données

Forme proportionnelle

En pratique, on utilise souvent la forme proportionnelle :

p(θx)p(xθ)p(θ)

car l'évidence p(x) est une constante de normalisation (indépendante de θ).

Interprétation : La loi a posteriori combine la vraisemblance (information des données) et la loi a priori (information préalable).

Lois a priori

Le choix de la loi a priori est crucial en statistique bayésienne. Il existe plusieurs types de lois a priori selon le niveau d'information disponible.

Lois a priori informatives

Les lois a priori informatives reflètent une connaissance substantielle sur le paramètre avant d'observer les données. Par exemple :

  • Si l'on sait que θ est proche de 5, on peut choisir θN(5,1)
  • Elles incorporent expertise du domaine ou résultats d'études antérieures

Lois a priori faiblement informatives

Les lois a priori faiblement informatives expriment une certaine connaissance mais restent vagues. Par exemple :

  • θN(0,100) pour un paramètre sans information précise
  • Elles laissent les données dominer l'inférence

Lois a priori non informatives

Les lois a priori non informatives (ou vagues) traduisent l'absence totale de connaissance a priori. Par exemple :

  • Loi uniforme : p(θ)1 (constante) sur un intervalle
  • Loi de Jeffreys : p(θ)I(θ)I(θ) est l'information de Fisher

Remarque : Avec une loi a priori non informative, l'estimateur bayésien converge souvent vers l'estimateur du maximum de vraisemblance.

Estimateurs bayésiens

L'approche bayésienne fournit la loi a posteriori p(θx), qui décrit toute l'information disponible sur le paramètre θ après observation des données. Cependant, en pratique, il est souvent nécessaire de fournir une estimation ponctuelle (une valeur unique) du paramètre plutôt qu'une distribution complète.

Plusieurs estimateurs ponctuels peuvent être dérivés de la loi a posteriori, chacun optimisant un critère différent.

Estimateur du maximum a posteriori (MAP)

L'estimateur MAP (Maximum A Posteriori) est la valeur de θ qui maximise la loi a posteriori :

θ^MAP=argmaxθp(θx)=argmaxθ[p(xθ)p(θ)]

En prenant le logarithme :

θ^MAP=argmaxθ[logp(xθ)+logp(θ)]

Lien avec le MLE : Avec une loi a priori uniforme (p(θ)1), l'estimateur MAP coïncide avec le MLE :

θ^MAP=θ^MLEsi p(θ)1

Estimateur de l'espérance a posteriori (EAP)

L'estimateur EAP (Expected A Posteriori) est l'espérance de la loi a posteriori :

θ^EAP=E[θx]=θp(θx)dθ

Propriété : Cet estimateur minimise l'erreur quadratique moyenne a posteriori :

θ^EAP=argminθ^E[(θθ^)2x]

Estimateur médian a posteriori

L'estimateur médian est la médiane de la loi a posteriori, qui minimise l'erreur absolue moyenne :

θ^med=argminθ^E[|θθ^|x]

Exemples

Exemple 1 : Moyenne d'une loi normale avec variance connue

Soit x=[x1,,xn] un échantillon i.i.d. avec xkN(μ,σ2)σ2 est connue.

Loi a priori : Choisissons une loi normale μN(μ0,σ02)

Vraisemblance :

p(xμ)=k=1n12πσ2exp((xkμ)22σ2)exp(n(x¯μ)22σ2)

x¯=1nk=1nxk

Loi a posteriori : La loi normale est conjuguée, donc μxN(μn,σn2) avec :

μn=μ0σ02+nx¯σ21σ02+nσ2=σ2μ0+nσ02x¯σ2+nσ02σn2=11σ02+nσ2=σ2σ02σ2+nσ02

Interprétation :

  • μn est une moyenne pondérée entre la moyenne a priori μ0 et la moyenne empirique x¯
  • Quand n : μnx¯ (les données dominent)
  • Quand σ02 (loi a priori non informative) : μnx¯

Estimateurs :

  • MAP : μ^MAP=μn (mode de la gaussienne)
  • EAP : μ^EAP=μn (espérance de la gaussienne)

Intervalle de crédibilité à 95% :

IC95%=[μn1.96σn,μn+1.96σn]

Exemple 2 : Proportion d'une loi de Bernoulli

Soit x=[x1,,xn] avec xkBernoulli(θ) (succès/échecs).

Loi a priori : Loi Bêta θBeta(α,β) (conjuguée)

p(θ)=Γ(α+β)Γ(α)Γ(β)θα1(1θ)β1

Vraisemblance : Avec s=k=1nxk (nombre de succès) :

p(xθ)=θs(1θ)ns

Loi a posteriori : θxBeta(α+s,β+ns)

Estimateurs :

  • MAP : θ^MAP=α+s1α+β+n2 (pour α,β>1)
  • EAP : θ^EAP=α+sα+β+n

Cas particulier : Avec une loi a priori uniforme Beta(1,1) :

θ^EAP=s+1n+2,θ^MAP=sn=θ^MLE

Exemple 3 : Modèle paramétrique général avec loi a priori gaussienne

Considérons le modèle paramétrique général introduit au Chapitre 2 :

x=s(θ)+n,nN(0,σ2Im)

Loi a priori : Supposons θN(μ0,Σ0)

Log-vraisemblance :

logp(xθ)12σ2xs(θ)2

Log-probabilité a priori :

logp(θ)12(θμ0)TΣ01(θμ0)

Estimateur MAP : Maximiser la log-probabilité a posteriori :

θ^MAP=argmaxθ[logp(xθ)+logp(θ)]=argminθ[xs(θ)2+σ21(θμ0)TΣ01(θμ0)]

Interprétation : Le terme (θμ0)TΣ01(θμ0) agit comme un terme de régularisation qui pénalise les valeurs de θ éloignées de μ0.

Cas linéaire : Régularisation de Tikhonov

Pour le modèle linéaire s(θ)=Aθ avec une loi a priori θN(0,τ2I) (centrée) :

θ^MAP=argminθ[xAθ2+λθ2]

avec λ=σ2/τ2. C'est la régularisation de Tikhonov (ou régression ridge), qui a une solution analytique :

θ^MAP=(ATA+λI)1ATx

Lien avec la régularisation

L'approche bayésienne fournit une justification probabiliste aux méthodes de régularisation :

  • Ridge (L2) = loi a priori gaussienne N(0,τ2I)
  • LASSO (L1) = loi a priori de Laplace

Ces méthodes sont développées au Chapitre 5 dans le contexte de la régression linéaire.

Méthodes de calcul

Pour des modèles complexes, la loi a posteriori n'a pas de forme analytique simple. On utilise alors des méthodes numériques.

Approximation de Laplace

L'approximation de Laplace consiste à approcher la loi a posteriori par une gaussienne centrée en θ^MAP :

p(θx)N(θ^MAP,[2logp(θx)|θ=θ^MAP]1)

Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Les méthodes MCMC (Markov Chain Monte Carlo) permettent d'échantillonner la loi a posteriori sans la calculer explicitement :

  • Algorithme de Metropolis-Hastings : génère une chaîne de Markov qui converge vers la loi a posteriori
  • Échantillonneur de Gibbs : cas particulier pour les lois conditionnelles connues
  • Hamiltonian Monte Carlo (HMC) : utilise le gradient pour explorer efficacement l'espace

Outils modernes : Des logiciels comme Stan, PyMC, JAGS facilitent l'inférence bayésienne avec MCMC.

Remarque

Les méthodes MCMC sont devenues incontournables en statistique bayésienne moderne, permettant de traiter des modèles très complexes (modèles hiérarchiques, apprentissage profond bayésien, etc.).

Avantages et inconvénients de l'approche bayésienne

Avantages

  1. Incorporation de connaissance a priori : Permet d'intégrer expertise et études antérieures
  2. Interprétation probabiliste naturelle : La loi a posteriori quantifie directement l'incertitude sur θ
  3. Flexibilité : S'applique à des modèles très complexes (hiérarchiques, non paramétriques)
  4. Prédiction naturelle : Distribution prédictive a posteriori pour de nouvelles observations
  5. Régularisation : Les lois a priori agissent comme régularisateurs, évitant le surapprentissage

Inconvénients

  1. Choix de la loi a priori : Subjectif et peut influencer les résultats (surtout avec peu de données)
  2. Coût de calcul : Nécessite souvent des méthodes numériques (MCMC) coûteuses
  3. Interprétation : Nécessite d'adopter le paradigme bayésien (probabilité subjective)
  4. Convergence : Les méthodes MCMC nécessitent de vérifier la convergence des chaînes

Références

  1. Casella, G., & Berger, R. L. (2002). Statistical Inference, 2nd edition. Duxbury Press.
  2. Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.