Estimation Bayésienne

Introduction

L'approche bayésienne de l'estimation statistique Casella (2002) repose sur une vision fondamentalement différente de celle présentée au Chapitre 2. Alors que l'approche fréquentiste considère les paramètres comme des quantités fixes (mais inconnues), l'approche bayésienne traite les paramètres comme des variables aléatoires dont on cherche à inférer la distribution à partir des données observées.

Comparaison des paradigmes

Aspect	Approche Fréquentiste	Approche Bayésienne
Paramètre $θ$	Quantité fixe inconnue	Variable aléatoire
Données $x$	Variables aléatoires	Observées (fixes une fois collectées)
Estimation	Point estimé $\hat{θ}$	Distribution a posteriori $p (θ ∣ x)$
Incertitude	Intervalles de confiance	Intervalles de crédibilité
Information a priori	Non utilisée	Incorporée via la loi a priori

Philosophie bayésienne

L'approche bayésienne permet d'incorporer des connaissances a priori sur les paramètres (expertise du domaine, résultats d'études antérieures) et de les combiner avec les données observées pour obtenir une distribution a posteriori qui quantifie l'incertitude sur les paramètres.

Théorème de Bayes

Formulation générale

Le théorème de Bayes est le fondement mathématique de l'inférence bayésienne. Pour un paramètre $θ$ et des observations $x$ , il s'énonce :

p (θ ∣ x) = \frac{p (x ∣ θ) p (θ)}{p (x)}

où :

$p (θ)$ est la loi a priori : notre connaissance sur $θ$ avant d'observer les données
$p (x ∣ θ)$ est la vraisemblance : probabilité d'observer $x$ sachant $θ$
$p (x)$ est l'évidence (ou vraisemblance marginale) : $p (x) = \int p (x ∣ θ) p (θ) d θ$
$p (θ ∣ x)$ est la loi a posteriori : notre connaissance sur $θ$ après avoir observé les données

Forme proportionnelle

En pratique, on utilise souvent la forme proportionnelle :

p (θ ∣ x) \propto p (x ∣ θ) p (θ)

car l'évidence $p (x)$ est une constante de normalisation (indépendante de $θ$ ).

Interprétation : La loi a posteriori combine la vraisemblance (information des données) et la loi a priori (information préalable).

Lois a priori

Le choix de la loi a priori est crucial en statistique bayésienne. Il existe plusieurs types de lois a priori selon le niveau d'information disponible.

Lois a priori informatives

Les lois a priori informatives reflètent une connaissance substantielle sur le paramètre avant d'observer les données. Par exemple :

Si l'on sait que $θ$ est proche de 5, on peut choisir $θ \sim N (5, 1)$
Elles incorporent expertise du domaine ou résultats d'études antérieures

Lois a priori faiblement informatives

Les lois a priori faiblement informatives expriment une certaine connaissance mais restent vagues. Par exemple :

$θ \sim N (0, 100)$ pour un paramètre sans information précise
Elles laissent les données dominer l'inférence

Lois a priori non informatives

Les lois a priori non informatives (ou vagues) traduisent l'absence totale de connaissance a priori. Par exemple :

Loi uniforme : $p (θ) \propto 1$ (constante) sur un intervalle
Loi de Jeffreys : $p (θ) \propto \sqrt{I (θ)}$ où $I (θ)$ est l'information de Fisher

Remarque : Avec une loi a priori non informative, l'estimateur bayésien converge souvent vers l'estimateur du maximum de vraisemblance.

Estimateurs bayésiens

L'approche bayésienne fournit la loi a posteriori $p (θ ∣ x)$ , qui décrit toute l'information disponible sur le paramètre $θ$ après observation des données. Cependant, en pratique, il est souvent nécessaire de fournir une estimation ponctuelle (une valeur unique) du paramètre plutôt qu'une distribution complète.

Plusieurs estimateurs ponctuels peuvent être dérivés de la loi a posteriori, chacun optimisant un critère différent.

Estimateur du maximum a posteriori (MAP)

L'estimateur MAP (Maximum A Posteriori) est la valeur de $θ$ qui maximise la loi a posteriori :

{\hat{θ}}_{M A P} = \arg max_{θ} p (θ ∣ x) = \arg max_{θ} [p (x ∣ θ) p (θ)]

En prenant le logarithme :

{\hat{θ}}_{M A P} = \arg max_{θ} [\log p (x ∣ θ) + \log p (θ)]

Lien avec le MLE : Avec une loi a priori uniforme ( $p (θ) \propto 1$ ), l'estimateur MAP coïncide avec le MLE :

{\hat{θ}}_{M A P} = {\hat{θ}}_{M L E} si p (θ) \propto 1

Estimateur de l'espérance a posteriori (EAP)

L'estimateur EAP (Expected A Posteriori) est l'espérance de la loi a posteriori :

{\hat{θ}}_{E A P} = E [θ ∣ x] = \int θ p (θ ∣ x) d θ

Propriété : Cet estimateur minimise l'erreur quadratique moyenne a posteriori :

{\hat{θ}}_{E A P} = \arg min_{\hat{θ}} E [(θ - \hat{θ})^{2} ∣ x]

Estimateur médian a posteriori

L'estimateur médian est la médiane de la loi a posteriori, qui minimise l'erreur absolue moyenne :

{\hat{θ}}_{m e d} = \arg min_{\hat{θ}} E [| θ - \hat{θ} | ∣ x]

Exemples

Exemple 1 : Moyenne d'une loi normale avec variance connue

Soit $x = [x_{1}, \dots, x_{n}]$ un échantillon i.i.d. avec $x_{k} \sim N (μ, σ^{2})$ où $σ^{2}$ est connue.

Loi a priori : Choisissons une loi normale $μ \sim N (μ_{0}, σ_{0}^{2})$

Vraisemblance :

p (x ∣ μ) = \prod_{k = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{(x_{k} - μ)^{2}}{2 σ^{2}}) \propto \exp (- \frac{n (\bar{x} - μ)^{2}}{2 σ^{2}})

où $\bar{x} = \frac{1}{n} \sum_{k = 1}^{n} x_{k}$

Loi a posteriori : La loi normale est conjuguée, donc $μ ∣ x \sim N (μ_{n}, σ_{n}^{2})$ avec :

\begin{aligned} μ_{n} & = \frac{\frac{μ_{0}}{σ_{0}^{2}} + \frac{n \bar{x}}{σ^{2}}}{\frac{1}{σ_{0}^{2}} + \frac{n}{σ^{2}}} = \frac{σ^{2} μ_{0} + n σ_{0}^{2} \bar{x}}{σ^{2} + n σ_{0}^{2}} \\ σ_{n}^{2} & = \frac{1}{\frac{1}{σ_{0}^{2}} + \frac{n}{σ^{2}}} = \frac{σ^{2} σ_{0}^{2}}{σ^{2} + n σ_{0}^{2}} \end{aligned}

Interprétation :

$μ_{n}$ est une moyenne pondérée entre la moyenne a priori $μ_{0}$ et la moyenne empirique $\bar{x}$
Quand $n \to \infty$ : $μ_{n} \to \bar{x}$ (les données dominent)
Quand $σ_{0}^{2} \to \infty$ (loi a priori non informative) : $μ_{n} \to \bar{x}$

Estimateurs :

MAP : ${\hat{μ}}_{M A P} = μ_{n}$ (mode de la gaussienne)
EAP : ${\hat{μ}}_{E A P} = μ_{n}$ (espérance de la gaussienne)

Intervalle de crédibilité à 95% :

I C_{95 %} = [μ_{n} - 1.96 σ_{n}, μ_{n} + 1.96 σ_{n}]

Exemple 2 : Proportion d'une loi de Bernoulli

Soit $x = [x_{1}, \dots, x_{n}]$ avec $x_{k} \sim Bernoulli (θ)$ (succès/échecs).

Loi a priori : Loi Bêta $θ \sim Beta (α, β)$ (conjuguée)

p (θ) = \frac{Γ (α + β)}{Γ (α) Γ (β)} θ^{α - 1} (1 - θ)^{β - 1}

Vraisemblance : Avec $s = \sum_{k = 1}^{n} x_{k}$ (nombre de succès) :

p (x ∣ θ) = θ^{s} (1 - θ)^{n - s}

Loi a posteriori : $θ ∣ x \sim Beta (α + s, β + n - s)$

Estimateurs :

MAP : ${\hat{θ}}_{M A P} = \frac{α + s - 1}{α + β + n - 2}$ (pour $α, β > 1$ )
EAP : ${\hat{θ}}_{E A P} = \frac{α + s}{α + β + n}$

Cas particulier : Avec une loi a priori uniforme $Beta (1, 1)$ :

{\hat{θ}}_{E A P} = \frac{s + 1}{n + 2}, {\hat{θ}}_{M A P} = \frac{s}{n} = {\hat{θ}}_{M L E}

Exemple 3 : Modèle paramétrique général avec loi a priori gaussienne

Considérons le modèle paramétrique général introduit au Chapitre 2 :

x = s (θ) + n, n \sim N (0, σ^{2} I_{m})

Loi a priori : Supposons $θ \sim N (μ_{0}, Σ_{0})$

Log-vraisemblance :

\log p (x ∣ θ) \propto - \frac{1}{2 σ^{2}} ∥ x - s (θ) ∥^{2}

Log-probabilité a priori :

\log p (θ) \propto - \frac{1}{2} (θ - μ_{0})^{T} Σ_{0}^{- 1} (θ - μ_{0})

Estimateur MAP : Maximiser la log-probabilité a posteriori :

\begin{aligned} {\hat{θ}}_{M A P} & = \arg max_{θ} [\log p (x ∣ θ) + \log p (θ)] \\ = \arg min_{θ} [∥ x - s (θ) ∥^{2} + \frac{σ^{2}}{1} (θ - μ_{0})^{T} Σ_{0}^{- 1} (θ - μ_{0})] \end{aligned}

Interprétation : Le terme $(θ - μ_{0})^{T} Σ_{0}^{- 1} (θ - μ_{0})$ agit comme un terme de régularisation qui pénalise les valeurs de $θ$ éloignées de $μ_{0}$ .

Cas linéaire : Régularisation de Tikhonov

Pour le modèle linéaire $s (θ) = A θ$ avec une loi a priori $θ \sim N (0, τ^{2} I)$ (centrée) :

{\hat{θ}}_{M A P} = \arg min_{θ} [∥ x - A θ ∥^{2} + λ ∥ θ ∥^{2}]

avec $λ = σ^{2} / τ^{2}$ . C'est la régularisation de Tikhonov (ou régression ridge), qui a une solution analytique :

{\hat{θ}}_{M A P} = (A^{T} A + λ I)^{- 1} A^{T} x

Lien avec la régularisation

L'approche bayésienne fournit une justification probabiliste aux méthodes de régularisation :

Ridge ( $L^{2}$ ) = loi a priori gaussienne $N (0, τ^{2} I)$
LASSO ( $L^{1}$ ) = loi a priori de Laplace

Ces méthodes sont développées au Chapitre 5 dans le contexte de la régression linéaire.

Méthodes de calcul

Pour des modèles complexes, la loi a posteriori n'a pas de forme analytique simple. On utilise alors des méthodes numériques.

Approximation de Laplace

L'approximation de Laplace consiste à approcher la loi a posteriori par une gaussienne centrée en ${\hat{θ}}_{M A P}$ :

p (θ ∣ x) \approx N ({\hat{θ}}_{M A P}, {[- \nabla^{2} \log p (θ ∣ x) |_{θ = {\hat{θ}}_{M A P}}]}^{- 1})

Méthodes de Monte Carlo par chaînes de Markov (MCMC)

Les méthodes MCMC (Markov Chain Monte Carlo) permettent d'échantillonner la loi a posteriori sans la calculer explicitement :

Algorithme de Metropolis-Hastings : génère une chaîne de Markov qui converge vers la loi a posteriori
Échantillonneur de Gibbs : cas particulier pour les lois conditionnelles connues
Hamiltonian Monte Carlo (HMC) : utilise le gradient pour explorer efficacement l'espace

Outils modernes : Des logiciels comme Stan, PyMC, JAGS facilitent l'inférence bayésienne avec MCMC.

Remarque

Les méthodes MCMC sont devenues incontournables en statistique bayésienne moderne, permettant de traiter des modèles très complexes (modèles hiérarchiques, apprentissage profond bayésien, etc.).

Avantages et inconvénients de l'approche bayésienne

Avantages

Incorporation de connaissance a priori : Permet d'intégrer expertise et études antérieures
Interprétation probabiliste naturelle : La loi a posteriori quantifie directement l'incertitude sur $θ$
Flexibilité : S'applique à des modèles très complexes (hiérarchiques, non paramétriques)
Prédiction naturelle : Distribution prédictive a posteriori pour de nouvelles observations
Régularisation : Les lois a priori agissent comme régularisateurs, évitant le surapprentissage

Inconvénients

Choix de la loi a priori : Subjectif et peut influencer les résultats (surtout avec peu de données)
Coût de calcul : Nécessite souvent des méthodes numériques (MCMC) coûteuses
Interprétation : Nécessite d'adopter le paradigme bayésien (probabilité subjective)
Convergence : Les méthodes MCMC nécessitent de vérifier la convergence des chaînes

Références

Casella, G., & Berger, R. L. (2002). Statistical Inference, 2nd edition. Duxbury Press.
Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.

Estimation Bayésienne ​

Introduction ​

Comparaison des paradigmes ​

Théorème de Bayes ​

Formulation générale ​

Forme proportionnelle ​

Lois a priori ​

Lois a priori informatives ​

Lois a priori faiblement informatives ​

Lois a priori non informatives ​

Estimateurs bayésiens ​

Estimateur du maximum a posteriori (MAP) ​

Estimateur de l'espérance a posteriori (EAP) ​

Estimateur médian a posteriori ​

Exemples ​

Exemple 1 : Moyenne d'une loi normale avec variance connue ​

Exemple 2 : Proportion d'une loi de Bernoulli ​

Exemple 3 : Modèle paramétrique général avec loi a priori gaussienne ​

Cas linéaire : Régularisation de Tikhonov ​

Méthodes de calcul ​

Approximation de Laplace ​

Méthodes de Monte Carlo par chaînes de Markov (MCMC) ​

Avantages et inconvénients de l'approche bayésienne ​

Avantages ​

Inconvénients ​