Régression Linéaire - Inférence et Diagnostic

Introduction

Dans le Chapitre 4, nous avons étudié le modèle de régression linéaire, l'estimateur des moindres carrés (OLS) et ses propriétés fondamentales. Le Chapitre 5 a présenté les techniques de régularisation (Ridge, LASSO, Elastic Net) pour traiter les problèmes de surapprentissage et de multicolinéarité.

Dans ce chapitre, nous approfondissons l'inférence statistique et le diagnostic pour la régression linéaire :

Construction d'intervalles de confiance pour les coefficients
Tests d'hypothèses (tests individuels et test global)
Diagnostic des résidus pour vérifier les hypothèses du modèle
Problèmes courants (multicolinéarité, hétéroscédasticité, points aberrants) et leurs solutions
Extensions du modèle OLS (ridge, LASSO, moindres carrés pondérés)

Intervalles de confiance et tests d'hypothèses

Intervalle de confiance pour un coefficient

Pour construire un intervalle de confiance pour $s_{j}$ , nous utilisons la loi de Student. Sous $H_{0} : s_{j} = s_{j}^{(0)}$ , la statistique :

T_{j} = \frac{{\hat{s}}_{j} - s_{j}}{\hat{σ} \sqrt{[(A^{T} A)^{- 1}]_{j j}}} \sim t_{m - p}

suit une loi de Student à $m - p$ degrés de liberté.

Un intervalle de confiance de niveau $1 - α$ pour $s_{j}$ est :

I C_{1 - α} (s_{j}) = [{\hat{s}}_{j} - t_{m - p, α / 2} \cdot \hat{σ} \sqrt{[(A^{T} A)^{- 1}]_{j j}}, {\hat{s}}_{j} + t_{m - p, α / 2} \cdot \hat{σ} \sqrt{[(A^{T} A)^{- 1}]_{j j}}]

où $t_{m - p, α / 2}$ est le quantile d'ordre $1 - α / 2$ de la loi $t_{m - p}$ .

Interprétation : Nous sommes confiants à $(1 - α) \times 100 %$ que le vrai coefficient $s_{j}$ se trouve dans cet intervalle.

Test de significativité d'un coefficient

Pour tester l'hypothèse nulle $H_{0} : s_{j} = 0$ (le coefficient n'a pas d'effet) contre $H_{1} : s_{j} \neq 0$ :

Calculer la statistique de test :
$T_{j} = \frac{{\hat{s}}_{j}}{\hat{σ} \sqrt{[(A^{T} A)^{- 1}]_{j j}}}$
Comparer $| T_{j} |$ à $t_{m - p, α / 2}$
Rejeter $H_{0}$ si $| T_{j} | > t_{m - p, α / 2}$ (coefficient significativement différent de 0)

La p-valeur associée est :

p = 2 P (t_{m - p} > | T_{j} |)

Interprétation : La p-valeur représente la probabilité d'observer une valeur aussi extrême (ou plus) sous l'hypothèse nulle. Si $p < α$ (généralement $α = 0.05$ ), on rejette $H_{0}$ et on conclut que la variable $j$ a un effet significatif.

Test global du modèle (test de Fisher)

Pour tester si au moins une variable explicative a un effet, nous testons :

H_{0} : s_{1} = s_{2} = \dots = s_{p} = 0 vs H_{1} : \exists j, s_{j} \neq 0

La statistique de test de Fisher est :

F = \frac{SSE / (p - 1)}{SSR / (m - p)} = \frac{R^{2} / (p - 1)}{(1 - R^{2}) / (m - p)} \sim F_{p - 1, m - p}

sous $H_{0}$ , où $F_{p - 1, m - p}$ est la loi de Fisher à $(p - 1, m - p)$ degrés de liberté.

Rejeter $H_{0}$ si $F > F_{p - 1, m - p, α}$ (le modèle est globalement significatif).

Interprétation : Ce test permet de vérifier si le modèle dans son ensemble apporte une information significative par rapport à un modèle réduit à la seule moyenne.

Remarque

Le test de Fisher est un test global : il teste si au moins un coefficient est non nul. Les tests t individuels testent la significativité de chaque coefficient séparément.

Analyse des résidus

Importance des résidus

L'analyse des résidus $\hat{n} = x - A {\hat{s}}_{O L S}$ permet de vérifier les hypothèses du modèle :

Normalité : Les résidus doivent suivre une loi normale
Homoscédasticité : La variance des résidus doit être constante
Indépendance : Les résidus ne doivent pas présenter de corrélation
Linéarité : Pas de tendance systématique dans les résidus

Si ces hypothèses ne sont pas respectées, les intervalles de confiance et les tests peuvent être invalides, même si l'estimateur OLS reste sans biais (sous certaines conditions).

Graphiques de diagnostic

Graphique 1: Résidus vs valeurs ajustées

Ce graphique permet de détecter :

Hétéroscédasticité : Si les résidus forment une forme d'entonnoir (variance croissante ou décroissante)
Non-linéarité : Si les résidus montrent une tendance systématique (parabole, etc.)

Comportement attendu : Les résidus doivent être dispersés aléatoirement autour de zéro, sans structure apparente.

Graphique 2: Q-Q plot (Quantile-Quantile)

Compare la distribution des résidus à une loi normale théorique pour vérifier la normalité.

Comportement attendu : Les points doivent être approximativement alignés sur la bissectrice.

Graphique 3: Scale-Location

Affiche $\sqrt{| r_{k}^{*} |}$ (racine carrée des résidus standardisés en valeur absolue) en fonction des valeurs ajustées.

Comportement attendu : Ligne horizontale, indiquant une variance constante (homoscédasticité).

Graphique 4: Résidus vs Leverage

Identifie les points influents qui ont un fort impact sur l'estimation (leverage élevé et résidus importants).

Comportement attendu : Pas de points avec à la fois un leverage élevé et un résidu important (distance de Cook élevée).

Figure 1: Graphiques de diagnostic pour l'analyse des résidus

Résidus standardisés

Les résidus standardisés permettent de comparer les résidus sur une échelle commune :

r_{k}^{*} = \frac{{\hat{n}}_{k}}{\hat{σ} \sqrt{1 - P_{k k}}}

où $P_{k k}$ est l'élément diagonal de la matrice de projection $P = A (A^{T} A)^{- 1} A^{T}$ .

Interprétation : Un résidu standardisé $| r_{k}^{*} | > 3$ indique un point potentiellement aberrant.

Problèmes courants et solutions

Multicolinéarité

La multicolinéarité survient lorsque certaines variables explicatives sont fortement corrélées entre elles.

Conséquences :

La matrice $A^{T} A$ devient mal conditionnée
Les variances des estimateurs deviennent très élevées : $var ({\hat{s}}_{j}) = σ^{2} [(A^{T} A)^{- 1}]_{j j} ↑$
Les coefficients deviennent instables (petites variations dans les données entraînent de grandes variations dans les estimations)
Les intervalles de confiance deviennent très larges
Les tests de significativité perdent en puissance

Détection :

Matrice de corrélation : Examiner les corrélations entre variables explicatives. Une corrélation $| ρ | > 0.8$ est problématique.
Facteur d'inflation de la variance (VIF) :
${VIF}_{j} = \frac{1}{1 - R_{j}^{2}}$
où $R_{j}^{2}$ est le $R^{2}$ de la régression de la $j$ -ième variable sur toutes les autres.
- ${VIF}_{j} < 5$ : Pas de problème
- $5 < {VIF}_{j} < 10$ : Multicolinéarité modérée
- ${VIF}_{j} > 10$ : Multicolinéarité sévère
Conditionnement de $A^{T} A$ : Si $κ (A^{T} A) > 10^{3}$ , la matrice est mal conditionnée.

Solutions :

Supprimer une des variables corrélées : Identifier les paires de variables fortement corrélées et en retirer une.
Régression ridge : Voir section Extensions ci-dessous.
Analyse en composantes principales (PCA) : Transformer les variables en composantes non corrélées.
Augmenter la taille de l'échantillon : Plus de données peuvent réduire les variances.

Hétéroscédasticité

L'hétéroscédasticité signifie que la variance des erreurs n'est pas constante : $var (n_{k}) = σ_{k}^{2}$ (dépend de $k$ ).

Conséquences :

L'estimateur OLS reste sans biais : $E [{\hat{s}}_{O L S}] = s$
Mais il n'est plus efficace (n'a plus la variance minimale)
Les formules de variance sont incorrectes : $Cov ({\hat{s}}_{O L S}) \neq σ^{2} (A^{T} A)^{- 1}$
Les intervalles de confiance et tests sont invalides

Détection :

Observation visuelle : Graphique résidus vs valeurs ajustées montre une forme d'entonnoir.
Test de Breusch-Pagan : Teste si la variance des erreurs dépend des variables explicatives.
Test de White : Version plus générale qui teste l'hétéroscédasticité sans hypothèse sur sa forme.

Solutions :

Transformation de la variable dépendante :
- Logarithme : $\log (x)$ au lieu de $x$ (réduit l'impact des grandes valeurs)
- Racine carrée : $\sqrt{x}$
Moindres carrés pondérés (WLS) : Voir section Extensions ci-dessous.
Erreurs-types robustes (estimateur sandwich) : Utiliser des estimateurs de variance robustes à l'hétéroscédasticité (Huber-White).

Points aberrants et points influents

Point aberrant (outlier) : Observation avec un résidu très élevé (écart important entre observation et prédiction).

Point influent (leverage point) : Observation qui a un impact important sur l'estimation des coefficients. Un point a un leverage élevé s'il est éloigné des autres observations dans l'espace des variables explicatives.

Distinction importante :

Un point peut être aberrant sans être influent (hors du modèle mais dans une zone dense)
Un point peut être influent sans être aberrant (dans le modèle mais dans une zone isolée)
Les points les plus problématiques sont à la fois aberrants et influents

Mesures :

Résidus standardisés : $r_{k}^{*} = \frac{{\hat{n}}_{k}}{\hat{σ} \sqrt{1 - P_{k k}}}$
- $| r_{k}^{*} | > 3$ : Point aberrant
Leverage : $h_{k} = P_{k k}$ (élément diagonal de la matrice de projection)
- $h_{k} > \frac{2 p}{m}$ : Leverage élevé
Distance de Cook : Mesure combinée qui quantifie l'influence globale de l'observation $k$ :
$D_{k} = \frac{(r_{k}^{*})^{2}}{p} \cdot \frac{h_{k}}{1 - h_{k}}$
- $D_{k} > 0.5$ : Point influent
- $D_{k} > 1$ : Point très influent

Solutions :

Vérifier les données : Erreur de saisie, erreur de mesure ?
Examiner le contexte : Le point aberrant est-il légitime ou exceptionnel ?
Estimation robuste : Utiliser des méthodes robustes aux outliers (M-estimateurs, régression quantile).
Supprimer avec précaution : Ne supprimer que si justifié (après documentation).

Régression Linéaire - Inférence et Diagnostic ​

Introduction ​

Intervalles de confiance et tests d'hypothèses ​

Intervalle de confiance pour un coefficient ​

Test de significativité d'un coefficient ​

Test global du modèle (test de Fisher) ​

Analyse des résidus ​

Importance des résidus ​

Graphiques de diagnostic ​

Résidus standardisés ​

Problèmes courants et solutions ​

Multicolinéarité ​

Hétéroscédasticité ​

Points aberrants et points influents ​

Régression Linéaire - Inférence et Diagnostic

Introduction

Intervalles de confiance et tests d'hypothèses

Intervalle de confiance pour un coefficient

Test de significativité d'un coefficient

Test global du modèle (test de Fisher)

Analyse des résidus

Importance des résidus

Graphiques de diagnostic

Résidus standardisés

Problèmes courants et solutions

Multicolinéarité

Hétéroscédasticité

Points aberrants et points influents