Skip to content

Régression Linéaire - Fondements

Introduction

La régression linéaire est l'une des méthodes statistiques les plus fondamentales et les plus utilisées Kay (1993) [casella2002]. Elle permet de modéliser la relation entre une variable dépendante (ou variable à expliquer) et une ou plusieurs variables indépendantes (ou variables explicatives). Nous avons vu au Chapitre 2 que sous l'hypothèse de bruit gaussien, l'estimateur du maximum de vraisemblance coïncide avec l'estimateur des moindres carrés. Dans ce chapitre, nous approfondissons l'étude de ce modèle en analysant ses propriétés, ses applications et ses extensions.

Modèle de régression linéaire

Formulation générale

Considérons un ensemble de m observations. Le modèle de régression linéaire s'écrit :

x=As+n

où :

  • x=[x1,,xm]TRm est le vecteur des observations (variable dépendante)
  • ARm×p est la matrice de design (variables explicatives)
  • s=[s1,,sp]TRp est le vecteur des paramètres (coefficients de régression)
  • nN(0,σ2Im) est le vecteur des erreurs (bruit gaussien)

Hypothèses du modèle :

  1. Linéarité : La relation entre x et A est linéaire en s
  2. Indépendance : Les erreurs nk sont indépendantes
  3. Homoscédasticité : Les erreurs ont toutes la même variance σ2
  4. Normalité : Les erreurs suivent une loi normale N(0,σ2)
  5. Non-colinéarité : Les colonnes de A sont linéairement indépendantes (rang plein)

Interprétation des composantes

Pour chaque observation k=1,,m, nous avons :

xk=j=1pAkjsj+nk

Akj est la valeur de la j-ième variable explicative pour l'observation k.

Estimateur des moindres carrés

Dérivation

L'estimateur des moindres carrés ordinaires (Ordinary Least Squares, OLS) minimise la somme des carrés des résidus :

s^OLS=argminsxAs22=argminsk=1m(xkj=1pAkjsj)2

En développant le critère et en annulant le gradient, nous obtenons les équations normales :

ATAs=ATx

Si A est de rang plein (i.e., rang(A)=p avec mp), alors ATA est inversible et la solution unique est :

s^OLS=(ATA)1ATx=Ax

A=(ATA)1AT est la pseudo-inverse de Moore-Penrose de A.

Interprétation géométrique

L'estimateur OLS projette orthogonalement le vecteur des observations x sur le sous-espace engendré par les colonnes de A. Le vecteur des valeurs ajustées (fitted values) est :

x^=As^OLS=A(ATA)1ATx=Px

P=A(ATA)1AT est la matrice de projection sur l'espace des colonnes de A.

Le vecteur des résidus est :

n^=xx^=xPx=(IP)x

Propriété remarquable : Les résidus sont orthogonaux aux valeurs ajustées : n^Tx^=0.

Interprétation géométrique OLS

Figure 1: Interprétation géométrique de l'estimateur OLS comme projection orthogonale

Propriétés de l'estimateur OLS

Sans biais

L'estimateur OLS est sans biais :

E[s^OLS]=E[(ATA)1ATx]=(ATA)1ATE[x]

Puisque E[x]=As (car E[n]=0), nous obtenons :

E[s^OLS]=(ATA)1ATAs=s

Matrice de covariance

La matrice de covariance de l'estimateur OLS est :

Cov(s^OLS)=σ2(ATA)1

Démonstration :

Cov(s^OLS)=Cov((ATA)1ATx)=(ATA)1ATCov(x)A(ATA)1=(ATA)1AT(σ2I)A(ATA)1=σ2(ATA)1

Conséquence : La variance du j-ième coefficient est :

var(s^j)=σ2[(ATA)1]jj

Théorème de Gauss-Markov

Le théorème de Gauss-Markov Casella (2002) établit que, parmi tous les estimateurs linéaires et sans biais, l'estimateur OLS a la variance minimale.

Énoncé : Soit s~ un estimateur linéaire sans biais quelconque de s. Alors :

Cov(s~)Cov(s^OLS)0

B0 signifie que B est semi-définie positive.

En d'autres termes, l'estimateur OLS est BLUE (Best Linear Unbiased Estimator) : le meilleur estimateur linéaire sans biais.

Remarque importante

Le théorème de Gauss-Markov ne nécessite pas l'hypothèse de normalité des erreurs. Il suffit que les erreurs soient non corrélées et de variance constante.

Loi de l'estimateur

Sous l'hypothèse de normalité des erreurs nN(0,σ2I), l'estimateur OLS suit une loi normale multivariée :

s^OLSN(s,σ2(ATA)1)

Par conséquent, chaque coefficient s^j suit une loi normale :

s^jN(sj,σ2[(ATA)1]jj)

Estimation de la variance des erreurs

Estimateur non biaisé de σ2

La variance des erreurs σ2 est généralement inconnue. Nous l'estimons par :

σ^2=1mpk=1mn^k2=1mpxAs^OLS2

mp est le nombre de degrés de liberté (nombre d'observations moins nombre de paramètres).

Propriété : Cet estimateur est sans biais : E[σ^2]=σ2.

Somme des carrés et décomposition

La somme totale des carrés peut se décomposer :

k=1m(xkx¯)2SST (Total)=k=1m(x^kx¯)2SSE (Expliquée)+k=1m(xkx^k)2SSR (Résiduelle)

x¯=1mk=1mxk est la moyenne empirique des observations.

Coefficient de détermination R2

Définition

Le coefficient de détermination R2 mesure la proportion de la variance de x expliquée par le modèle :

R2=SSESST=1SSRSST=1k=1m(xkx^k)2k=1m(xkx¯)2

Interprétation :

  • R2=1 : Le modèle explique parfaitement les données (ajustement parfait)
  • R2=0 : Le modèle n'explique aucune variance (pas mieux qu'une simple moyenne)
  • 0<R2<1 : Le modèle explique partiellement les données

Coefficient de détermination ajusté

Le R2 ajusté pénalise l'ajout de variables explicatives :

Radj2=1(1R2)(m1)mp

Cette version corrige le fait que R2 augmente mécaniquement avec le nombre de paramètres, même si les variables ajoutées n'apportent pas d'information significative.

Interprétation du R²

Figure 2: Décomposition de la variance et interprétation du R²

Références

  1. Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
  2. Casella, G., & Berger, R. L. (2002). Statistical Inference, 2nd edition. Duxbury Press.
  3. Wasserman, L. (2004). All of Statistics: A Concise Course in Statistical Inference. Springer.