Skip to content

Régression Linéaire - Inférence et Diagnostic

Introduction

Dans le Chapitre 4, nous avons étudié le modèle de régression linéaire, l'estimateur des moindres carrés (OLS) et ses propriétés fondamentales. Le Chapitre 5 a présenté les techniques de régularisation (Ridge, LASSO, Elastic Net) pour traiter les problèmes de surapprentissage et de multicolinéarité.

Dans ce chapitre, nous approfondissons l'inférence statistique et le diagnostic pour la régression linéaire :

  • Construction d'intervalles de confiance pour les coefficients
  • Tests d'hypothèses (tests individuels et test global)
  • Diagnostic des résidus pour vérifier les hypothèses du modèle
  • Problèmes courants (multicolinéarité, hétéroscédasticité, points aberrants) et leurs solutions
  • Extensions du modèle OLS (ridge, LASSO, moindres carrés pondérés)

Intervalles de confiance et tests d'hypothèses

Intervalle de confiance pour un coefficient

Pour construire un intervalle de confiance pour sj, nous utilisons la loi de Student. Sous H0:sj=sj(0), la statistique :

Tj=s^jsjσ^[(ATA)1]jjtmp

suit une loi de Student à mp degrés de liberté.

Un intervalle de confiance de niveau 1α pour sj est :

IC1α(sj)=[s^jtmp,α/2σ^[(ATA)1]jj,s^j+tmp,α/2σ^[(ATA)1]jj]

tmp,α/2 est le quantile d'ordre 1α/2 de la loi tmp.

Interprétation : Nous sommes confiants à (1α)×100% que le vrai coefficient sj se trouve dans cet intervalle.

Test de significativité d'un coefficient

Pour tester l'hypothèse nulle H0:sj=0 (le coefficient n'a pas d'effet) contre H1:sj0 :

  1. Calculer la statistique de test :

    Tj=s^jσ^[(ATA)1]jj
  2. Comparer |Tj| à tmp,α/2

  3. Rejeter H0 si |Tj|>tmp,α/2 (coefficient significativement différent de 0)

La p-valeur associée est :

p=2P(tmp>|Tj|)

Interprétation : La p-valeur représente la probabilité d'observer une valeur aussi extrême (ou plus) sous l'hypothèse nulle. Si p<α (généralement α=0.05), on rejette H0 et on conclut que la variable j a un effet significatif.

Test global du modèle (test de Fisher)

Pour tester si au moins une variable explicative a un effet, nous testons :

H0:s1=s2==sp=0vsH1:j,sj0

La statistique de test de Fisher est :

F=SSE/(p1)SSR/(mp)=R2/(p1)(1R2)/(mp)Fp1,mp

sous H0, où Fp1,mp est la loi de Fisher à (p1,mp) degrés de liberté.

Rejeter H0 si F>Fp1,mp,α (le modèle est globalement significatif).

Interprétation : Ce test permet de vérifier si le modèle dans son ensemble apporte une information significative par rapport à un modèle réduit à la seule moyenne.

Remarque

Le test de Fisher est un test global : il teste si au moins un coefficient est non nul. Les tests t individuels testent la significativité de chaque coefficient séparément.

Analyse des résidus

Importance des résidus

L'analyse des résidus n^=xAs^OLS permet de vérifier les hypothèses du modèle :

  1. Normalité : Les résidus doivent suivre une loi normale
  2. Homoscédasticité : La variance des résidus doit être constante
  3. Indépendance : Les résidus ne doivent pas présenter de corrélation
  4. Linéarité : Pas de tendance systématique dans les résidus

Si ces hypothèses ne sont pas respectées, les intervalles de confiance et les tests peuvent être invalides, même si l'estimateur OLS reste sans biais (sous certaines conditions).

Graphiques de diagnostic

Graphique 1: Résidus vs valeurs ajustées

Ce graphique permet de détecter :

  • Hétéroscédasticité : Si les résidus forment une forme d'entonnoir (variance croissante ou décroissante)
  • Non-linéarité : Si les résidus montrent une tendance systématique (parabole, etc.)

Comportement attendu : Les résidus doivent être dispersés aléatoirement autour de zéro, sans structure apparente.

Graphique 2: Q-Q plot (Quantile-Quantile)

Compare la distribution des résidus à une loi normale théorique pour vérifier la normalité.

Comportement attendu : Les points doivent être approximativement alignés sur la bissectrice.

Graphique 3: Scale-Location

Affiche |rk| (racine carrée des résidus standardisés en valeur absolue) en fonction des valeurs ajustées.

Comportement attendu : Ligne horizontale, indiquant une variance constante (homoscédasticité).

Graphique 4: Résidus vs Leverage

Identifie les points influents qui ont un fort impact sur l'estimation (leverage élevé et résidus importants).

Comportement attendu : Pas de points avec à la fois un leverage élevé et un résidu important (distance de Cook élevée).

Graphiques de diagnostic des résidus

Figure 1: Graphiques de diagnostic pour l'analyse des résidus

Résidus standardisés

Les résidus standardisés permettent de comparer les résidus sur une échelle commune :

rk=n^kσ^1Pkk

Pkk est l'élément diagonal de la matrice de projection P=A(ATA)1AT.

Interprétation : Un résidu standardisé |rk|>3 indique un point potentiellement aberrant.

Problèmes courants et solutions

Multicolinéarité

La multicolinéarité survient lorsque certaines variables explicatives sont fortement corrélées entre elles.

Conséquences :

  • La matrice ATA devient mal conditionnée
  • Les variances des estimateurs deviennent très élevées : var(s^j)=σ2[(ATA)1]jj
  • Les coefficients deviennent instables (petites variations dans les données entraînent de grandes variations dans les estimations)
  • Les intervalles de confiance deviennent très larges
  • Les tests de significativité perdent en puissance

Détection :

  1. Matrice de corrélation : Examiner les corrélations entre variables explicatives. Une corrélation |ρ|>0.8 est problématique.

  2. Facteur d'inflation de la variance (VIF) :

    VIFj=11Rj2

    Rj2 est le R2 de la régression de la j-ième variable sur toutes les autres.

    • VIFj<5 : Pas de problème
    • 5<VIFj<10 : Multicolinéarité modérée
    • VIFj>10 : Multicolinéarité sévère
  3. Conditionnement de ATA : Si κ(ATA)>103, la matrice est mal conditionnée.

Solutions :

  1. Supprimer une des variables corrélées : Identifier les paires de variables fortement corrélées et en retirer une.

  2. Régression ridge : Voir section Extensions ci-dessous.

  3. Analyse en composantes principales (PCA) : Transformer les variables en composantes non corrélées.

  4. Augmenter la taille de l'échantillon : Plus de données peuvent réduire les variances.

Hétéroscédasticité

L'hétéroscédasticité signifie que la variance des erreurs n'est pas constante : var(nk)=σk2 (dépend de k).

Conséquences :

  • L'estimateur OLS reste sans biais : E[s^OLS]=s
  • Mais il n'est plus efficace (n'a plus la variance minimale)
  • Les formules de variance sont incorrectes : Cov(s^OLS)σ2(ATA)1
  • Les intervalles de confiance et tests sont invalides

Détection :

  1. Observation visuelle : Graphique résidus vs valeurs ajustées montre une forme d'entonnoir.

  2. Test de Breusch-Pagan : Teste si la variance des erreurs dépend des variables explicatives.

  3. Test de White : Version plus générale qui teste l'hétéroscédasticité sans hypothèse sur sa forme.

Solutions :

  1. Transformation de la variable dépendante :

    • Logarithme : log(x) au lieu de x (réduit l'impact des grandes valeurs)
    • Racine carrée : x
  2. Moindres carrés pondérés (WLS) : Voir section Extensions ci-dessous.

  3. Erreurs-types robustes (estimateur sandwich) : Utiliser des estimateurs de variance robustes à l'hétéroscédasticité (Huber-White).

Points aberrants et points influents

Point aberrant (outlier) : Observation avec un résidu très élevé (écart important entre observation et prédiction).

Point influent (leverage point) : Observation qui a un impact important sur l'estimation des coefficients. Un point a un leverage élevé s'il est éloigné des autres observations dans l'espace des variables explicatives.

Distinction importante :

  • Un point peut être aberrant sans être influent (hors du modèle mais dans une zone dense)
  • Un point peut être influent sans être aberrant (dans le modèle mais dans une zone isolée)
  • Les points les plus problématiques sont à la fois aberrants et influents

Mesures :

  1. Résidus standardisés : rk=n^kσ^1Pkk

    • |rk|>3 : Point aberrant
  2. Leverage : hk=Pkk (élément diagonal de la matrice de projection)

    • hk>2pm : Leverage élevé
  3. Distance de Cook : Mesure combinée qui quantifie l'influence globale de l'observation k :

    Dk=(rk)2phk1hk
    • Dk>0.5 : Point influent
    • Dk>1 : Point très influent

Solutions :

  1. Vérifier les données : Erreur de saisie, erreur de mesure ?

  2. Examiner le contexte : Le point aberrant est-il légitime ou exceptionnel ?

  3. Estimation robuste : Utiliser des méthodes robustes aux outliers (M-estimateurs, régression quantile).

  4. Supprimer avec précaution : Ne supprimer que si justifié (après documentation).