Estimation Bayésienne
Introduction
L'approche bayésienne de l'estimation statistique Casella (2002) repose sur une vision fondamentalement différente de celle présentée au Chapitre 2. Alors que l'approche fréquentiste considère les paramètres comme des quantités fixes (mais inconnues), l'approche bayésienne traite les paramètres comme des variables aléatoires dont on cherche à inférer la distribution à partir des données observées.
Comparaison des paradigmes
| Aspect | Approche Fréquentiste | Approche Bayésienne |
|---|---|---|
| Paramètre | Quantité fixe inconnue | Variable aléatoire |
| Données | Variables aléatoires | Observées (fixes une fois collectées) |
| Estimation | Point estimé | Distribution a posteriori |
| Incertitude | Intervalles de confiance | Intervalles de crédibilité |
| Information a priori | Non utilisée | Incorporée via la loi a priori |
Philosophie bayésienne
L'approche bayésienne permet d'incorporer des connaissances a priori sur les paramètres (expertise du domaine, résultats d'études antérieures) et de les combiner avec les données observées pour obtenir une distribution a posteriori qui quantifie l'incertitude sur les paramètres.
Théorème de Bayes
Formulation générale
Le théorème de Bayes est le fondement mathématique de l'inférence bayésienne. Pour un paramètre
où :
est la loi a priori : notre connaissance sur avant d'observer les données est la vraisemblance : probabilité d'observer sachant est l'évidence (ou vraisemblance marginale) : est la loi a posteriori : notre connaissance sur après avoir observé les données
Forme proportionnelle
En pratique, on utilise souvent la forme proportionnelle :
car l'évidence
Interprétation : La loi a posteriori combine la vraisemblance (information des données) et la loi a priori (information préalable).
Lois a priori
Le choix de la loi a priori est crucial en statistique bayésienne. Il existe plusieurs types de lois a priori selon le niveau d'information disponible.
Lois a priori informatives
Les lois a priori informatives reflètent une connaissance substantielle sur le paramètre avant d'observer les données. Par exemple :
- Si l'on sait que
est proche de 5, on peut choisir - Elles incorporent expertise du domaine ou résultats d'études antérieures
Lois a priori faiblement informatives
Les lois a priori faiblement informatives expriment une certaine connaissance mais restent vagues. Par exemple :
pour un paramètre sans information précise - Elles laissent les données dominer l'inférence
Lois a priori non informatives
Les lois a priori non informatives (ou vagues) traduisent l'absence totale de connaissance a priori. Par exemple :
- Loi uniforme :
(constante) sur un intervalle - Loi de Jeffreys :
où est l'information de Fisher
Remarque : Avec une loi a priori non informative, l'estimateur bayésien converge souvent vers l'estimateur du maximum de vraisemblance.
Estimateurs bayésiens
L'approche bayésienne fournit la loi a posteriori
Plusieurs estimateurs ponctuels peuvent être dérivés de la loi a posteriori, chacun optimisant un critère différent.
Estimateur du maximum a posteriori (MAP)
L'estimateur MAP (Maximum A Posteriori) est la valeur de
En prenant le logarithme :
Lien avec le MLE : Avec une loi a priori uniforme (
Estimateur de l'espérance a posteriori (EAP)
L'estimateur EAP (Expected A Posteriori) est l'espérance de la loi a posteriori :
Propriété : Cet estimateur minimise l'erreur quadratique moyenne a posteriori :
Estimateur médian a posteriori
L'estimateur médian est la médiane de la loi a posteriori, qui minimise l'erreur absolue moyenne :
Exemples
Exemple 1 : Moyenne d'une loi normale avec variance connue
Soit
Loi a priori : Choisissons une loi normale
Vraisemblance :
où
Loi a posteriori : La loi normale est conjuguée, donc
Interprétation :
est une moyenne pondérée entre la moyenne a priori et la moyenne empirique - Quand
: (les données dominent) - Quand
(loi a priori non informative) :
Estimateurs :
- MAP :
(mode de la gaussienne) - EAP :
(espérance de la gaussienne)
Intervalle de crédibilité à 95% :
Exemple 2 : Proportion d'une loi de Bernoulli
Soit
Loi a priori : Loi Bêta
Vraisemblance : Avec
Loi a posteriori :
Estimateurs :
- MAP :
(pour ) - EAP :
Cas particulier : Avec une loi a priori uniforme
Exemple 3 : Modèle paramétrique général avec loi a priori gaussienne
Considérons le modèle paramétrique général introduit au Chapitre 2 :
Loi a priori : Supposons
Log-vraisemblance :
Log-probabilité a priori :
Estimateur MAP : Maximiser la log-probabilité a posteriori :
Interprétation : Le terme
Cas linéaire : Régularisation de Tikhonov
Pour le modèle linéaire
avec
Lien avec la régularisation
L'approche bayésienne fournit une justification probabiliste aux méthodes de régularisation :
- Ridge (
) = loi a priori gaussienne - LASSO (
) = loi a priori de Laplace
Ces méthodes sont développées au Chapitre 5 dans le contexte de la régression linéaire.
Méthodes de calcul
Pour des modèles complexes, la loi a posteriori n'a pas de forme analytique simple. On utilise alors des méthodes numériques.
Approximation de Laplace
L'approximation de Laplace consiste à approcher la loi a posteriori par une gaussienne centrée en
Méthodes de Monte Carlo par chaînes de Markov (MCMC)
Les méthodes MCMC (Markov Chain Monte Carlo) permettent d'échantillonner la loi a posteriori sans la calculer explicitement :
- Algorithme de Metropolis-Hastings : génère une chaîne de Markov qui converge vers la loi a posteriori
- Échantillonneur de Gibbs : cas particulier pour les lois conditionnelles connues
- Hamiltonian Monte Carlo (HMC) : utilise le gradient pour explorer efficacement l'espace
Outils modernes : Des logiciels comme Stan, PyMC, JAGS facilitent l'inférence bayésienne avec MCMC.
Remarque
Les méthodes MCMC sont devenues incontournables en statistique bayésienne moderne, permettant de traiter des modèles très complexes (modèles hiérarchiques, apprentissage profond bayésien, etc.).
Avantages et inconvénients de l'approche bayésienne
Avantages
- Incorporation de connaissance a priori : Permet d'intégrer expertise et études antérieures
- Interprétation probabiliste naturelle : La loi a posteriori quantifie directement l'incertitude sur
- Flexibilité : S'applique à des modèles très complexes (hiérarchiques, non paramétriques)
- Prédiction naturelle : Distribution prédictive a posteriori pour de nouvelles observations
- Régularisation : Les lois a priori agissent comme régularisateurs, évitant le surapprentissage
Inconvénients
- Choix de la loi a priori : Subjectif et peut influencer les résultats (surtout avec peu de données)
- Coût de calcul : Nécessite souvent des méthodes numériques (MCMC) coûteuses
- Interprétation : Nécessite d'adopter le paradigme bayésien (probabilité subjective)
- Convergence : Les méthodes MCMC nécessitent de vérifier la convergence des chaînes
Références
- Casella, G., & Berger, R. L. (2002). Statistical Inference, 2nd edition. Duxbury Press.
- Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
