Régression Linéaire - Fondements

Introduction

La régression linéaire est l'une des méthodes statistiques les plus fondamentales et les plus utilisées Kay (1993) [casella2002]. Elle permet de modéliser la relation entre une variable dépendante (ou variable à expliquer) et une ou plusieurs variables indépendantes (ou variables explicatives). Nous avons vu au Chapitre 2 que sous l'hypothèse de bruit gaussien, l'estimateur du maximum de vraisemblance coïncide avec l'estimateur des moindres carrés. Dans ce chapitre, nous approfondissons l'étude de ce modèle en analysant ses propriétés, ses applications et ses extensions.

Modèle de régression linéaire

Formulation générale

Considérons un ensemble de $m$ observations. Le modèle de régression linéaire s'écrit :

x = A s + n

où :

$x = [x_{1}, \dots, x_{m}]^{T} \in R^{m}$ est le vecteur des observations (variable dépendante)
$A \in R^{m \times p}$ est la matrice de design (variables explicatives)
$s = [s_{1}, \dots, s_{p}]^{T} \in R^{p}$ est le vecteur des paramètres (coefficients de régression)
$n \sim N (0, σ^{2} I_{m})$ est le vecteur des erreurs (bruit gaussien)

Hypothèses du modèle :

Linéarité : La relation entre $x$ et $A$ est linéaire en $s$
Indépendance : Les erreurs $n_{k}$ sont indépendantes
Homoscédasticité : Les erreurs ont toutes la même variance $σ^{2}$
Normalité : Les erreurs suivent une loi normale $N (0, σ^{2})$
Non-colinéarité : Les colonnes de $A$ sont linéairement indépendantes (rang plein)

Interprétation des composantes

Pour chaque observation $k = 1, \dots, m$ , nous avons :

x_{k} = \sum_{j = 1}^{p} A_{k j} s_{j} + n_{k}

où $A_{k j}$ est la valeur de la $j$ -ième variable explicative pour l'observation $k$ .

Estimateur des moindres carrés

Dérivation

L'estimateur des moindres carrés ordinaires (Ordinary Least Squares, OLS) minimise la somme des carrés des résidus :

{\hat{s}}_{O L S} = \arg min_{s} ∥ x - A s ∥_{2}^{2} = \arg min_{s} \sum_{k = 1}^{m} (x_{k} - \sum_{j = 1}^{p} A_{k j} s_{j})^{2}

En développant le critère et en annulant le gradient, nous obtenons les équations normales :

A^{T} A s = A^{T} x

Si $A$ est de rang plein (i.e., $rang (A) = p$ avec $m \geq p$ ), alors $A^{T} A$ est inversible et la solution unique est :

{\hat{s}}_{O L S} = (A^{T} A)^{- 1} A^{T} x = A^{†} x

où $A^{†} = (A^{T} A)^{- 1} A^{T}$ est la pseudo-inverse de Moore-Penrose de $A$ .

Interprétation géométrique

L'estimateur OLS projette orthogonalement le vecteur des observations $x$ sur le sous-espace engendré par les colonnes de $A$ . Le vecteur des valeurs ajustées (fitted values) est :

\hat{x} = A {\hat{s}}_{O L S} = A (A^{T} A)^{- 1} A^{T} x = P x

où $P = A (A^{T} A)^{- 1} A^{T}$ est la matrice de projection sur l'espace des colonnes de $A$ .

Le vecteur des résidus est :

\hat{n} = x - \hat{x} = x - P x = (I - P) x

Propriété remarquable : Les résidus sont orthogonaux aux valeurs ajustées : ${\hat{n}}^{T} \hat{x} = 0$ .

Figure 1: Interprétation géométrique de l'estimateur OLS comme projection orthogonale

Propriétés de l'estimateur OLS

Sans biais

L'estimateur OLS est sans biais :

E [{\hat{s}}_{O L S}] = E [(A^{T} A)^{- 1} A^{T} x] = (A^{T} A)^{- 1} A^{T} E [x]

Puisque $E [x] = A s$ (car $E [n] = 0$ ), nous obtenons :

E [{\hat{s}}_{O L S}] = (A^{T} A)^{- 1} A^{T} A s = s

Matrice de covariance

La matrice de covariance de l'estimateur OLS est :

Cov ({\hat{s}}_{O L S}) = σ^{2} (A^{T} A)^{- 1}

Démonstration :

\begin{aligned} Cov ({\hat{s}}_{O L S}) & = Cov ((A^{T} A)^{- 1} A^{T} x) \\ = (A^{T} A)^{- 1} A^{T} Cov (x) A (A^{T} A)^{- 1} \\ = (A^{T} A)^{- 1} A^{T} (σ^{2} I) A (A^{T} A)^{- 1} \\ = σ^{2} (A^{T} A)^{- 1} \end{aligned}

Conséquence : La variance du $j$ -ième coefficient est :

var ({\hat{s}}_{j}) = σ^{2} [(A^{T} A)^{- 1}]_{j j}

Théorème de Gauss-Markov

Le théorème de Gauss-Markov Casella (2002) établit que, parmi tous les estimateurs linéaires et sans biais, l'estimateur OLS a la variance minimale.

Énoncé : Soit $\tilde{s}$ un estimateur linéaire sans biais quelconque de $s$ . Alors :

Cov (\tilde{s}) - Cov ({\hat{s}}_{O L S}) ⪰ 0

où $B ⪰ 0$ signifie que $B$ est semi-définie positive.

En d'autres termes, l'estimateur OLS est BLUE (Best Linear Unbiased Estimator) : le meilleur estimateur linéaire sans biais.

Remarque importante

Le théorème de Gauss-Markov ne nécessite pas l'hypothèse de normalité des erreurs. Il suffit que les erreurs soient non corrélées et de variance constante.

Loi de l'estimateur

Sous l'hypothèse de normalité des erreurs $n \sim N (0, σ^{2} I)$ , l'estimateur OLS suit une loi normale multivariée :

{\hat{s}}_{O L S} \sim N (s, σ^{2} (A^{T} A)^{- 1})

Par conséquent, chaque coefficient ${\hat{s}}_{j}$ suit une loi normale :

{\hat{s}}_{j} \sim N (s_{j}, σ^{2} [(A^{T} A)^{- 1}]_{j j})

Estimation de la variance des erreurs

Estimateur non biaisé de $σ^{2}$

La variance des erreurs $σ^{2}$ est généralement inconnue. Nous l'estimons par :

{\hat{σ}}^{2} = \frac{1}{m - p} \sum_{k = 1}^{m} {\hat{n}}_{k}^{2} = \frac{1}{m - p} ∥ x - A {\hat{s}}_{O L S} ∥^{2}

où $m - p$ est le nombre de degrés de liberté (nombre d'observations moins nombre de paramètres).

Propriété : Cet estimateur est sans biais : $E [{\hat{σ}}^{2}] = σ^{2}$ .

Somme des carrés et décomposition

La somme totale des carrés peut se décomposer :

\underset{SST (Total)}{\underset{⏟}{\sum_{k = 1}^{m} (x_{k} - \bar{x})^{2}}} = \underset{SSE (Expliquée)}{\underset{⏟}{\sum_{k = 1}^{m} ({\hat{x}}_{k} - \bar{x})^{2}}} + \underset{SSR (Résiduelle)}{\underset{⏟}{\sum_{k = 1}^{m} (x_{k} - {\hat{x}}_{k})^{2}}}

où $\bar{x} = \frac{1}{m} \sum_{k = 1}^{m} x_{k}$ est la moyenne empirique des observations.

Coefficient de détermination $R^{2}$

Définition

Le coefficient de détermination $R^{2}$ mesure la proportion de la variance de $x$ expliquée par le modèle :

R^{2} = \frac{SSE}{SST} = 1 - \frac{SSR}{SST} = 1 - \frac{\sum_{k = 1}^{m} (x_{k} - {\hat{x}}_{k})^{2}}{\sum_{k = 1}^{m} (x_{k} - \bar{x})^{2}}

Interprétation :

$R^{2} = 1$ : Le modèle explique parfaitement les données (ajustement parfait)
$R^{2} = 0$ : Le modèle n'explique aucune variance (pas mieux qu'une simple moyenne)
$0 < R^{2} < 1$ : Le modèle explique partiellement les données

Coefficient de détermination ajusté

Le $R^{2}$ ajusté pénalise l'ajout de variables explicatives :

R_{a d j}^{2} = 1 - \frac{(1 - R^{2}) (m - 1)}{m - p}

Cette version corrige le fait que $R^{2}$ augmente mécaniquement avec le nombre de paramètres, même si les variables ajoutées n'apportent pas d'information significative.

Figure 2: Décomposition de la variance et interprétation du R²

Références

Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
Casella, G., & Berger, R. L. (2002). Statistical Inference, 2nd edition. Duxbury Press.
Wasserman, L. (2004). All of Statistics: A Concise Course in Statistical Inference. Springer.

Régression Linéaire - Fondements ​

Introduction ​

Modèle de régression linéaire ​

Formulation générale ​

Interprétation des composantes ​

Estimateur des moindres carrés ​

Dérivation ​

Interprétation géométrique ​

Propriétés de l'estimateur OLS ​

Sans biais ​

Matrice de covariance ​

Théorème de Gauss-Markov ​

Loi de l'estimateur ​

Estimation de la variance des erreurs ​

Estimateur non biaisé de σ2 ​

Somme des carrés et décomposition ​

Coefficient de détermination R2 ​

Définition ​

Coefficient de détermination ajusté ​