Rappels d'algèbre linéaire

Vecteurs et matrices

Vecteurs

Un vecteur $x \in R^{n}$ est un tableau ordonné de $n$ nombres réels :

x = [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}]

Le produit scalaire entre deux vecteurs $x, y \in R^{n}$ est défini par :

⟨ x, y ⟩ = x^{T} y = \sum_{i = 1}^{n} x_{i} y_{i}

La norme euclidienne est $∥ x ∥ = \sqrt{x^{T} x}$ .

Deux vecteurs sont orthogonaux si $x^{T} y = 0$ .

Matrices

Une matrice $A \in R^{m \times n}$ est un tableau de $m$ lignes et $n$ colonnes. Les opérations fondamentales sont :

Transposée : $[A^{T}]_{i j} = [A]_{j i}$
Produit matriciel : $[AB]_{i j} = \sum_{k} a_{i k} b_{k j}$
Trace : $tr (A) = \sum_{i} a_{i i}$ (matrices carrées)
Déterminant : $det (A)$ (matrices carrées)

Propriétés du produit :

$(AB)^{T} = B^{T} A^{T}$
$(ABC) = A (BC)$ (associativité)
En général, $AB \neq BA$ (non-commutatif)

Matrices particulières

Type	Définition	Propriétés
Symétrique	$A = A^{T}$	Valeurs propres réelles
Orthogonale	$A^{T} A = I$	Préserve les normes
Diagonale	$a_{i j} = 0$ si $i \neq j$	$A^{- 1} = diag (1 / a_{i i})$
Identité	$I_{i j} = δ_{i j}$	$AI = IA = A$

Transformations linéaires

Une matrice $A \in R^{m \times n}$ définit une application linéaire $f : R^{n} \to R^{m}$ par $f (x) = A x$ .

L'image du cercle unité par différentes matrices illustre la nature géométrique des transformations linéaires :

Figure 1 : Image du cercle unité par différentes transformations linéaires

Systèmes linéaires et inverse

Inverse d'une matrice

Une matrice carrée $A \in R^{n \times n}$ est inversible s'il existe $A^{- 1}$ telle que :

A A^{- 1} = A^{- 1} A = I

$A$ est inversible si et seulement si $det (A) \neq 0$ .

Propriétés :

$(A^{- 1})^{- 1} = A$
$(AB)^{- 1} = B^{- 1} A^{- 1}$
$(A^{T})^{- 1} = (A^{- 1})^{T}$

Résolution de systèmes linéaires

Le système $A x = b$ admet :

Une solution unique si $A$ est inversible : $x = A^{- 1} b$
Une infinité de solutions si le système est sous-déterminé ( $m < n$ )
Aucune solution exacte si le système est sur-déterminé ( $m > n$ ), ce qui conduit à la notion de moindres carrés

Valeurs propres et vecteurs propres

Définition

Un scalaire $λ$ et un vecteur non nul $v$ sont respectivement une valeur propre et un vecteur propre de $A$ si :

A v = λ v

Les valeurs propres sont les racines du polynôme caractéristique $det (A - λ I) = 0$ .

Diagonalisation

Si $A$ possède $n$ vecteurs propres linéairement indépendants, elle est diagonalisable :

A = P Λ P^{- 1}

où $Λ = diag (λ_{1}, \dots, λ_{n})$ et les colonnes de $P$ sont les vecteurs propres.

Pour une matrice symétrique $A = A^{T}$ :

Toutes les valeurs propres sont réelles
Les vecteurs propres sont orthogonaux : $A = Q Λ Q^{T}$ avec $Q$ orthogonale

Figure 2 : Vecteurs propres d'une matrice symétrique, spectre et conditionnement

Conditionnement

Le nombre de conditionnement d'une matrice inversible est :

κ (A) = ∥ A ∥ \cdot ∥ A^{- 1} ∥ = \frac{λ_{max}}{λ_{min}}

Un conditionnement élevé ( $κ ≫ 1$ ) signifie que le système est mal conditionné : de petites perturbations sur $b$ entraînent de grandes variations sur la solution $x$ . Ce problème est central en régression linéaire et motive l'utilisation de la régularisation.

Projection orthogonale

Principe

La projection orthogonale de $b$ sur l'image de $A$ (notée $Im (A)$ ) est le vecteur $\hat{b} \in Im (A)$ qui minimise la distance $∥ b - \hat{b} ∥$ :

\hat{b} = A (A^{T} A)^{- 1} A^{T} b

La matrice $P = A (A^{T} A)^{- 1} A^{T}$ est la matrice de projection sur $Im (A)$ .

Propriétés :

$P^{2} = P$ (idempotente)
$P^{T} = P$ (symétrique)
Le résidu $e = b - \hat{b}$ est orthogonal à $Im (A)$ : $A^{T} e = 0$

Figure 3 : Projection orthogonale sur une droite (2D) et sur un plan (3D)

Lien avec les moindres carrés

La solution au sens des moindres carrés du système sur-déterminé $A x \approx b$ est :

\hat{x} = \underset{x}{\arg min} ∥ b - A x ∥^{2} = (A^{T} A)^{- 1} A^{T} b

C'est exactement le vecteur $x$ tel que $A \hat{x} = \hat{b}$ , la projection de $b$ sur $Im (A)$ . Cette formule est au coeur de la régression linéaire.

Décomposition en valeurs singulières (SVD)

Définition

Toute matrice $A \in R^{m \times n}$ admet une décomposition en valeurs singulières :

A = U Σ V^{T}

où :

$U \in R^{m \times m}$ est orthogonale (vecteurs singuliers gauches)
$Σ \in R^{m \times n}$ est diagonale avec $σ_{1} \geq σ_{2} \geq \dots \geq 0$ (valeurs singulières)
$V \in R^{n \times n}$ est orthogonale (vecteurs singuliers droits)

Géométriquement, la SVD décompose toute transformation linéaire en trois étapes : rotation, dilatation, rotation.

Figure 4 : Interprétation géométrique de la SVD : rotation → dilatation → rotation

Propriétés

Le rang de $A$ est le nombre de valeurs singulières non nulles
Les valeurs propres de $A^{T} A$ sont $σ_{i}^{2}$
$∥ A ∥_{F} = \sqrt{\sum_{i} σ_{i}^{2}}$ (norme de Frobenius)
La pseudo-inverse de Moore-Penrose est $A^{+} = V Σ^{+} U^{T}$

Formes quadratiques et matrices définies positives

Forme quadratique

Une forme quadratique associée à une matrice symétrique $A$ est la fonction :

q (x) = x^{T} A x = \sum_{i, j} a_{i j} x_{i} x_{j}

La nature de la forme quadratique dépend du signe des valeurs propres de $A$ :

Type	Condition	Valeurs propres
Définie positive	$q (x) > 0$ pour tout $x \neq 0$	Toutes $> 0$
Semi-définie positive	$q (x) \geq 0$ pour tout $x$	Toutes $\geq 0$
Indéfinie	$q$ change de signe	Positives et négatives

Figure 5 : Lignes de niveau de formes quadratiques selon la nature de la matrice

Matrices définies positives

Les matrices définies positives jouent un rôle central en estimation statistique :

La matrice de covariance $Σ$ est semi-définie positive
La matrice $A^{T} A$ est toujours semi-définie positive
$A^{T} A$ est définie positive si et seulement si $A$ est de rang plein

Propriétés : Si $A$ est définie positive, alors :

$A$ est inversible
$det (A) > 0$
$A^{- 1}$ est aussi définie positive
Il existe une unique matrice $A^{1 / 2}$ définie positive telle que $A^{1 / 2} A^{1 / 2} = A$

Dérivation matricielle

Les dérivées matricielles sont essentielles pour l'optimisation en estimation et régression.

Gradient

Le gradient d'une fonction scalaire $f : R^{n} \to R$ par rapport à $x$ est :

\nabla_{x} f = [\begin{matrix} \frac{\partial f}{\partial x_{1}} \\ ⋮ \\ \frac{\partial f}{\partial x_{n}} \end{matrix}]

Formules utiles

Pour $A$ matrice constante, $b$ vecteur constant :

Fonction	Gradient
$f (x) = b^{T} x$	$\nabla f = b$
$f (x) = x^{T} A x$	$\nabla f = (A + A^{T}) x$
$f (x) = x^{T} A x$ ( $A$ symétrique)	$\nabla f = 2 A x$
$f (x) = \| b - A x \|^{2}$	$\nabla f = - 2 A^{T} (b - A x)$

La dernière formule est directement utilisée pour dériver la solution des moindres carrés : en posant $\nabla f = 0$ , on obtient les équations normales $A^{T} A x = A^{T} b$ .

Rappels d'algèbre linéaire ​

Vecteurs et matrices ​

Vecteurs ​

Matrices ​

Matrices particulières ​

Transformations linéaires ​

Systèmes linéaires et inverse ​

Inverse d'une matrice ​

Résolution de systèmes linéaires ​

Valeurs propres et vecteurs propres ​

Définition ​

Diagonalisation ​

Conditionnement ​

Projection orthogonale ​

Principe ​

Lien avec les moindres carrés ​

Décomposition en valeurs singulières (SVD) ​

Définition ​

Propriétés ​

Formes quadratiques et matrices définies positives ​

Forme quadratique ​

Matrices définies positives ​

Dérivation matricielle ​

Gradient ​

Formules utiles ​

Rappels d'algèbre linéaire

Vecteurs et matrices

Vecteurs

Matrices

Matrices particulières

Transformations linéaires

Systèmes linéaires et inverse

Inverse d'une matrice

Résolution de systèmes linéaires

Valeurs propres et vecteurs propres

Définition

Diagonalisation

Conditionnement

Projection orthogonale

Principe

Lien avec les moindres carrés

Décomposition en valeurs singulières (SVD)

Définition

Propriétés

Formes quadratiques et matrices définies positives

Forme quadratique

Matrices définies positives

Dérivation matricielle

Gradient

Formules utiles