PSI - aurelien.monteillet.comaurelien.monteillet.com/Cours/cours.pdf · Ce document contient les notes d’un cours de mathématiques pour la classe de PSI. Les démonstrations non

Cours de mathématiques

PSI

Aurélien Monteillet

Dernière mise à jour :9 dé embre 2016

ii

Ce document contient les notes d’un cours de mathématiques pour la classe de PSI.

Les démonstrations non exigibles ou hors programme sont explicitement repérées comme tellesdans les notes.

Bonne lecture !

Ce document est mis à disposition selon les termes de la Licence Creative Commons

(Attribution – Pas d’Utilisation Commerciale – Partage dans les Mêmes Conditions 3.0 France)

http://creativecommons.org/licenses/by-nc-sa/3.0/fr/

iii

iv

Sommaire

1 Suites numériques 1I. Définitions et résultats fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . 1II. Suites définies par récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4III. Suites récurrentes linéaires d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Séries numériques 11I. Définition et convergence d’une série . . . . . . . . . . . . . . . . . . . . . . . . . 11II. Séries de réels positifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16III. Convergence absolue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23IV. La formule de Stirling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25V. Séries alternées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26VI. Produit de deux séries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3 Espaces vectoriels et applications linéaires 31I. Espaces vectoriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31II. Somme et somme directe de sous-espaces vectoriels . . . . . . . . . . . . . . . . . 40III. Applications linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45IV. Isomorphismes et automorphismes . . . . . . . . . . . . . . . . . . . . . . . . . . 53V. Rang et théorème du rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57VI. Formes linéaires et hyperplans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4 Matrices 63I. Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63II. Matrices, vecteurs et applications linéaires . . . . . . . . . . . . . . . . . . . . . . 65III. Image, noyau et rang d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . 71IV. La méthode de Gauss-Jordan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73V. Trace d’une matrice et d’un endomorphisme . . . . . . . . . . . . . . . . . . . . . 89VI. Sous-espaces stables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91VII. Déterminant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

5 Espaces vectoriels normés. Convergence et continuité 107I. Espaces vectoriels normés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107II. Suites d’un espace vectoriel normé de dimension finie . . . . . . . . . . . . . . . . 113III. Vocabulaire de topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115IV. Fonctions entre espaces vectoriels normés :

limite et continuité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120V. Propriétés des fonctions continues à valeurs réelles . . . . . . . . . . . . . . . . . 125VI. Le cas des applications linéaires et multilinéaires . . . . . . . . . . . . . . . . . . 127

6 Suites et séries de fonctions 129I. Différents modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . 130II. Limite et continuité des suites et séries de fonctions . . . . . . . . . . . . . . . . . 138III. Intégration des suites et séries de fonctions . . . . . . . . . . . . . . . . . . . . . . 140IV. Dérivation des suites et séries de fonctions . . . . . . . . . . . . . . . . . . . . . . 142

v

7 Dérivation et intégration des fonctions de R dans K 147I. Théorème de Rolle et accroissements finis . . . . . . . . . . . . . . . . . . . . . . 147II. Dérivées d’une bijection réciproque . . . . . . . . . . . . . . . . . . . . . . . . . . 150III. Intégration sur un segment des fonctions continues : quelques rappels . . . . . . . 152IV. Intégrale sur un segment des fonctions continues par morceaux . . . . . . . . . . 155V. Méthodes de calculs d’intégrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158VI. Formules de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

8 Réduction des endomorphismes et des matrices carrées 163I. Éléments propres d’un endomorphisme et d’une matrice carrée . . . . . . . . . . 163II. Recherche des éléments propres, polynôme caractéristique . . . . . . . . . . . . . 167III. Diagonalisabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171IV. Réduction et polynômes annulateurs . . . . . . . . . . . . . . . . . . . . . . . . . 175V. Endomorphismes et matrices trigonalisables . . . . . . . . . . . . . . . . . . . . . 180

9 Espaces probabilisés 187I. Ensembles dénombrables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187II. Espaces probabilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189III. Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197IV. Événements indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

10 Intégrales généralisées 203I. Convergence des intégrales généralisées . . . . . . . . . . . . . . . . . . . . . . . . 203II. Intégrales absolument convergentes, fonctions intégrables . . . . . . . . . . . . . . 208III. Méthodes de calcul des intégrales généralisées . . . . . . . . . . . . . . . . . . . . 211IV. Comparaison entre une série et une intégrale . . . . . . . . . . . . . . . . . . . . . 214V. Espaces fonctionnels et fonctions intégrables . . . . . . . . . . . . . . . . . . . . . 216

11 Interversions pour les intégrales généralisées. Intégrales à paramètre 219I. Les théorèmes d’interversion pour les intégrales généralisées . . . . . . . . . . . . 219II. Intégrales à paramètre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

12 Espaces préhilbertiens, espaces euclidiens 229I. Produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229II. Orthogonalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233III. Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243IV. Formes linéaires sur un espace euclidien . . . . . . . . . . . . . . . . . . . . . . . 245

13 Séries entières 247I. Définition et convergence des séries entières . . . . . . . . . . . . . . . . . . . . . 247II. Opérations sur les séries entières . . . . . . . . . . . . . . . . . . . . . . . . . . . 252III. Régularité de la somme d’une série entière . . . . . . . . . . . . . . . . . . . . . . 253IV. Développements en séries entières . . . . . . . . . . . . . . . . . . . . . . . . . . . 256

14 Variables aléatoires 261I. Définitions, premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . 261II. Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262III. Familles de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270IV. Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274V. Séries génératrices des variables aléatoires à valeurs dans N . . . . . . . . . . . . 279VI. Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282

15 Endomorphismes remarquables des espaces euclidiens 293I. Isométries vectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293II. Endomorphismes symétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298III. Espaces euclidiens orientés de dimension 2 et 3 . . . . . . . . . . . . . . . . . . . 301

vi

16 Fonctions vectorielles. Arcs paramétrés 311I. Dérivation des fonctions à valeurs vectorielles . . . . . . . . . . . . . . . . . . . . 311II. Dérivées d’ordre supérieur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315III. Arcs paramétrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317

17 Équations différentielles 327I. Résultats théoriques sur les systèmes différentiels . . . . . . . . . . . . . . . . . . 327II. Systèmes à coefficients constants sans second membre . . . . . . . . . . . . . . . . 331III. Équations scalaires d’ordre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334IV. Équations scalaires d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336

18 Fonctions de plusieurs variables. Calcul et géométrie différentiels 345I. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345II. Fonctions de classe C1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347III. Problèmes d’extrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356IV. Dérivées partielles d’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359V. Résolution d’équations aux dérivées partielles . . . . . . . . . . . . . . . . . . . . 359VI. Courbes et surfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364

Annexe 1 : Relations de comparaison 373I. Le cas des suites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373II. Le cas des fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377

Annexe 2 : Intégrales de Wallis 379

vii

viii

Chapitre 1

Suites numériques

I. Définitions et résultats fondamentaux

Dans cette partie, on considère une suite (un)n∈N d’éléments de K = R ou C, i.e., uneapplication de N dans K. Toutes les définitions et tous les théorèmes que nous allons donnerpeuvent être adaptés au cas d’une suite (un)n>p définie à partir d’un certain rang p.

1. Convergence d’une suite

• Soit ℓ ∈ K. On dit que (un) converge vers ℓ (ou que un tend vers ℓ) si

∀ ε > 0, ∃n0 ∈ N; ∀n > n0, |un − ℓ| 6 ε.

On note ceci un → ℓ.

• On dit que (un) est convergente s’il existe ℓ ∈ K tel que un → ℓ. Dans ce cas, ℓ estunique, il est appelé limite de (un) et noté lim un.

• Lorsque K = R, on dit que (un) a pour limite +∞ (ou diverge vers +∞, ou queun tend vers +∞) si :

∀A > 0, ∃n0 ∈ N; ∀n > n0, un > A.

On définit de façon analogue le fait que (un) a pour limite −∞.On note ceci un → +∞ (ou un → −∞).

• Sinon, on dit que (un) diverge.

Définition

Démonstration de l’unicité de la limite

On suppose qu’il existe ℓ et ℓ′ dans K qui sont tous deux limites de (un). Soit ε > 0 fixé ; ilexiste n1 et n2 dans N tels que

∀n > n1, |un − ℓ| 6 ε et ∀n > n2, |un − ℓ′| 6 ε.

Alors, pour tout n > n0 = maxn1,n2,

|ℓ− ℓ′| = |ℓ− un + un − ℓ′| 6 |un − ℓ|+ |un − ℓ′| 6 2ε.

Le nombre positif |ℓ− ℓ′| est plus petit que toute constante strictement positive, il est donc nul,ce qui prouve que ℓ = ℓ′.

Remarque – En adaptant cet argument, on montre bien sûr l’unicité de la limite y compris dansle cas des limites infinies.

1

• Soit (un) une suite croissante majorée de nombres réels. Alors (un) converge etlimun = sup un; n ∈ N.• Toute suite croissante non majorée de nombres réels a pour limite +∞.

Théorème de la limite monotone

Démonstration

• Soit (un)n∈N une suite croissante majorée et soit M = sup un; n ∈ N. Soit ε > 0 fixé. Pardéfinition de la borne supérieure, il existe n0 ∈ N tel que un0 > M − ε (en effet, M − ε < M ,donc M − ε n’est pas un majorant de un; n ∈ N). Par croissance de (un), on a alors, pour toutn > n0,

un > un0 > M − ε.Sachant de plus que pour tout n, un 6 M 6 M + ε, on a finalement, pour tout n > n0,|un −M | 6 ε, donc un →M.

• Soit (un)n∈N une suite croissante non majorée et soit A > 0 fixé. Il existe n0 ∈ N tel queun0 > A, et par croissance de un, on a pour tout n > n0, un > un0 > A, ce qui montre queun → +∞.

Remarques

• On a un résultat analogue pour une suite décroissante, selon qu’elle est minorée ou non (avecune limite finie ou égale à −∞).

• Bien entendu, ce n’est pas la seule possibilité qu’a une suite pour converger : par exemple, lasuite ((−1)n/n)n>1 converge vers 0 mais n’est ni croissante, ni décroissante.

Soient (un) et (vn) deux suites de réels. On dit que (un) et (vn) sont adjacentes si

• (un) est croissante et (vn) décroissante (ou le contraire),

• un − vn → 0.

Définition

Deux suites adjacentes sont convergentes et ont la même limite.

Théorème

Démonstration – Quitte à échanger les rôles de (un) et (vn), on peut supposer que (un) estcroissante et (vn) décroissante. Soit ε > 0 fixé et n0 ∈ N tel que |un − vn| 6 ε.

Pour tout n > n0, on a en particulier un 6 vn + ε 6 v0 + ε par décroissance de (vn). Donc(un) est majorée. Sachant de plus qu’elle est croissante, elle converge d’après le théorème de lalimite monotone. Soit ℓ sa limite.

On montre de même que (vn) converge et on note ℓ′ sa limite. Alors en passant à la limitedans l’inégalité |un − vn| 6 ε valable pour n > n0, on obtient |ℓ − ℓ′| 6 ε. Ceci étant vrai pourtout ε > 0, on a ℓ = ℓ′, ce qui termine la démonstration.

2

2. Suites extraites

On appelle suite extraite de la suite (un) (ou sous-suite de (un)) toute suite de laforme (vn) = (uϕ(n)) où ϕ : N→ N est une application strictement croissante.

Définition

Remarque – Une suite extraite de (un) est une suite constituée de certains des termes de (un) ;les valeurs prises par ϕ représentent les indices choisis (qui apparaissent par ordre strictementcroissant). Les propriétés de ϕ entraînent immédiatement (par récurrence) que ϕ(n) > n pourtout n ∈ N.

Exemple – Les suites (u2n), (u2n+1), (un2) sont extraites de (un).

Si (un) converge, alors toute suite extraite de (un) converge, et admet la même limite.On a un résultat analogue si (un) a pour limite +∞ ou −∞.

Propriété

Démonstration – On démontre le résultat dans le cas d’une limite ℓ ∈ K, les autres cas sontsimilaires. Soit ε > 0 fixé ; il existe n0 ∈ N tel que pour tout n > n0, |un−ℓ| 6 ε. Soit (uϕ(n)) unesuite extraite de (un). Alors d’après la remarque précédente, pour tout n > n0, ϕ(n) > n > n0,et donc |uϕ(n) − ℓ| 6 ε, ce qui prouve le résultat.

Remarque – On emploie très souvent la contraposée de cette propriété : pour montrer qu’unesuite n’a pas pour limite ℓ, on en construit une suite extraite qui n’a pas pour limite ℓ; pourprouver qu’une suite diverge, on construit deux suites extraites qui ont des limites différentes.Ainsi les suites ((−1)n), (cos(nπ/2)) et (2n(−1)n

) divergent.

Inversement, on a le résultat suivant :

Si les suites (u2n), (u2n+1) convergent vers la même limite ℓ, alors (un) converge versℓ. On a un résultat analogue si (u2n), (u2n+1) tendent vers +∞, ou vers −∞.

Propriété

Démonstration – À nouveau, on fait la preuve dans le cas d’une limite ℓ ∈ K. Soit ε > 0 fixé ;il existe n0 ∈ N et n1 ∈ N tels que pour tout n > n0, |u2n − ℓ| 6 ε et pour tout n > n1,|u2n+1− ℓ| 6 ε. Alors, pour tout p > max2n0, 2n1 + 1, |up− ℓ| 6 ε ; en effet, soit p est pair, dela forme 2n avec n > n0, soit il est impair, de la forme 2n + 1 avec n > n1. On a donc montréque un → ℓ.

Exemple – On pose, pour n ∈ N∗, Sn =

n∑

k=1

(−1)k

k.

Les suites (S2n) et (S2n+1) sont adjacentes car

∀n ∈ N∗, S2n+2 − S2n =(−1)2n+2

2n+ 2+

(−1)2n+1

2n + 1=

1

2n + 2− 1

2n+ 1< 0,

∀n ∈ N, S2n+3 − S2n+1 =(−1)2n+3

2n+ 3+

(−1)2n+2

2n+ 2=

1

2n+ 2− 1

2n+ 3> 0,

∀n ∈ N∗, S2n+1 − S2n =(−1)2n+1

2n+ 1et donc S2n+1 − S2n → 0.

On en déduit que (S2n) et (S2n+1) convergent vers la même limite ℓ ∈ R, et donc, que (Sn)

converge vers ℓ. Ceci montre que la série harmonique alternée∑

k>1

(−1)k−1

kest convergente.

3

II. Suites définies par récurrence

Soit D un sous-ensemble de K, f : D → K, a ∈ D et n0 ∈ N. On définit la suite (un)n>n0 par

un0 = a et pour tout entier n > n0, un+1 = f(un).

Définition de la suite : pour que l’existence de un entraîne l’existence de un+1, il suffit queun ∈ D. En général, il suffira de vérifier que D est stable par f , c’est-à-dire que

f(D) ⊂ D.

Si a ∈ D, on admettra que cela entraîne que (un)n>n0 est bien définie, de façon unique, et àtermes dans D (l’unicité se montre facilement par récurrence, mais l’existence est plus délicate,elle est liée à la théorie des ensembles).

On supposera dans la suite que (un)n>n0 est bien définie avec un ∈ D pour tout n > n0.

Convergence : le plus souvent, la fonction f est continue sur D. Donc, si (un) converge versℓ et si ℓ ∈ D, alors en passant à la limite dans la relation un+1 = f(un), on obtient f(ℓ) = ℓ.Les solutions de cette équation sont appelés les points fixes de f .

Si l’équation f(ℓ) = ℓ n’a pas de solution dans D, alors, soit la suite (un) est divergente, soitun tend vers un point du « bord » de D (y compris, éventuellement, ±∞).On est donc amené à chercher les solutions de cette équation dans D et à vérifier si la suite (un)converge ou non vers un tel nombre ℓ.

Une fois les points fixes de f déterminés, la vérification de la convergence est facilitée dansles cas suivants :

• La fonction f est contractante sur D, c’est-à-dire

∃ k ∈ [0,1[, ∀ (a,b) ∈ D2, |f(b)− f(a)| 6 k |b− a|. (∗)

Lorsque K = R et D est un intervalle, le théorème des accroissements finis peut permettre detrouver une valeur de k s’il en existe : si f est dérivable sur D et si |f ′| 6 k sur D, alors f estk-contractante.

Tout d’abord, l’inégalité (∗) assure l’unicité d’un éventuel point fixe de f dans D : si a et bsont deux points fixes de f dans D, alors d’après (∗), on a |b − a| = |f(b) − f(a)| 6 k |b − a|.Sachant que k ∈ [0,1[, cela entraîne que a = b.

Supposons que ℓ soit un point fixe de f dans D. En remplaçant b par un ∈ D et a par ℓ ∈ Ddans (∗), on en déduit que

∀n > n0, |un+1 − ℓ| 6 k |un − ℓ|.

Par récurrence sur n, on montre alors que

∀n > n0, |un − ℓ| 6 kn−n0 |un0 − ℓ|.

Pour n = n0, la propriété est vraie car |un0 − ℓ| 6 k0 |un0 − ℓ|.Supposons la propriété vraie pour un certain entier naturel n. Alors d’après l’inégalité (∗),

|un+1 − ℓ| 6 k |un − ℓ| 6 k × kn−n0 |un0 − ℓ| = kn+1−n0 |un0 − ℓ|.

La propriété est donc vraie au rang n+ 1, et par principe de récurrence, elle est vraie pour toutn > n0.

On conclut que (un) converge vers ℓ car kn tend vers 0. De plus, pour ǫ > 0 fixé, on peuttrouver n tel que |un− ℓ| < ǫ : il suffit que kn−n0 |un0 − ℓ| < ǫ (pour être exploitable, cela suposede connaître au moins une majoration de |un0 − ℓ|).

4

• K = R et f(x)− x est de signe constant sur D ; dans ce cas la suite (un) est monotone.

– Si f(x) > x sur D, la suite (un) est croissante.– Si f(x) 6 x sur D, la suite (un) est décroissante.

En effet, si f(x) > x sur D, alors pour tout n > n0, un+1 = f(un) > un, donc (un) estcroissante. On procède de même si f(x) 6 x sur D.

• K = R et la fonction f est croissante sur D ; dans ce cas la suite (un) est monotone.

– Si f(un0) = un0+1 > un0 , on montre par récurrence que la suite (un) est croissante. Eneffet la propriété « un+1 > un » est vraie au rang n0 et héréditaire car un+1 > un entraîne,par croissance de f , que f(un+1) > f(un), c’est-à-dire un+2 > un+1.

– Si f(un0) = un0+1 6 un0 , on montre de même que la suite (un) est décroissante.

Dans les cas évoqués dans les deux derniers points, le problème est donc ramené à trouverun majorant ou un minorant (qui pourra être la limite ℓ supposée) afin d’appliquer le théorèmede la limite monotone.

• K = R et la fonction f est décroissante sur D ; dans ce cas la fonction f f est croissante.

On étudie alors les suites extraites (vn) = (u2n) et (wn) = (u2n+1). Ce sont des suitesrécurrentes associées à la fonction croissante f f . Elles sont donc monotones d’après le pointprécédent, et en fait, elles sont de monotonie contraire : par exemple si (u2n) est croissante, pourtout n tel que 2n > n0, u2n+2 > u2n, donc par décroissance de f , u2n+3 6 u2n+1. Ainsi (u2n+1)est décroissante.

Pour que (un) converge, il faut et il suffit que (vn) et (wn) convergent vers la même limite, ceque l’on peut essayer de montrer en utilisant le théorème de la limite monotone et en étudiantles points fixes de f f dans D. Si (vn) et (wn) convergent vers la même limite ℓ, alors (un)converge vers ℓ.

Remarques

• Dans la pratique, pour que certaines des propriétés ci-dessus soient vraies (stabilité de D par f ,comportement de f), on est souvent amené à choisir D en restreignant l’ensemble de définitionde f , quitte à étudier plusieurs cas, chacun correspondant à un choix différent de D.

• Pour guider ce choix et bien visualiser la situation, il est souvent judicieux de commencer parun graphique, sur lequel on représente les courbes d’équation y = x et y = f(x). Mais bien sûr,un dessin ne constitue pas une démonstration.

Cas particuliers :

• Suite arithmétique de raison b : ∀n > n0, un+1 = un + b. On a alors, pour tout n > n0,un = un0 + (n− n0)b.

Si b = 0, la suite est constante, si b 6= 0, la suite ne converge pas (|un| tend vers +∞).

• Suite géométrique de raison a : ∀n > n0, un+1 = aun et un0 6= 0. On a alors, pour toutn > n0, un = an−n0 un0 .

– si |a| < 1, la suite converge vers 0.– si |a| > 1, la suite ne converge pas (|un| tend vers +∞).– si a = −1, la suite diverge (un = un0 si n− n0 est pair, un = −un0 sinon).– si a = 1, la suite est constante.

• Suite arithmético-géométrique : ∀n > n0, un+1 = aun + b avec a 6= 1.

L’unique point fixe de f : x 7→ ax + b est ℓ =b

1− a . On se ramène à l’étude d’une suite

géométrique définie par vn = un − ℓ. En effet, pour tout n > n0,

vn+1 = un+1 − ℓ = (aun + b)− (a ℓ+ b) = a(un − ℓ) = a vn.

On a donc, pour tout n > n0, vn = an−n0 vn0 = an−n0 (un0 − ℓ), puis

un = ℓ+ an−n0(un0 − ℓ) =b

1− a + an−n0

(

un0 −b

1− a

)

.

5

Exemple – Étudions la suite définie par u0 ∈ R et pour tout n ∈ N, un+1 = 2un − u2n.

Posons, pour tout x réel, f(x) = x(2 − x) ; la situation peut être représentée sur le graphiqueci-dessous, où l’on a représenté le comportement de (un) pour deux choix de valeurs initiales u0.

1

1 2

y = x

y = f(x)

u0 u1 u2

u0u1u2u3

La fonction f est définie sur R, en particulier, quel que soit u0, la relation un+1 = f(un)définit bien (un). De plus f est strictement croissante sur ] −∞,1] et strictement décroissantesur [1, +∞[.

Premier cas : u0 = 0, u0 = 1 ou u0 = 2. On remarque que f(0) = f(2) = 0. En particulier siu0 = 0, alors un = 0 pour tout n par une récurrence immédiate. Si u0 = 2, alors u1 = 0 puisun = 0 pour tout n > 1. Enfin on remarque que f(1) = 1 donc, si u0 = 1, alors un = 1 pour toutn ∈ N.

Limites possibles : si (un) converge vers un certain réel ℓ, alors d’après la relation un+1 = f(un)et par continuité de f , on a ℓ = f(ℓ), donc ℓ− ℓ2 = 0, i.e. ℓ = 0 ou ℓ = 1.

Deuxième cas : u0 ∈ I0 = ]−∞,0[. L’intervalle I0 est stable par f car f est strictement croissantesur I0 avec f(0) = 0. Par récurrence, on montre alors que un ∈ I0 pour tout n. Pour tout x ∈ I0,f(x) 6 x car x − x2 6 0. En particulier, pour tout n, un+1 = f(un) 6 un, donc (un) estdécroissante. Si elle convergeait, sa limite ℓ devrait vérifier ℓ 6 u0 < 0, ce qui contredit le faitque ℓ = 0 ou 1. Donc un → −∞ d’après le théorème de la limite monotone.

Troisième cas : u0 ∈ I1 = ]0,1]. L’intervalle I1 est stable par f car f est strictement croissantesur I1 avec f(0) = 0 et f(1) = 1. Pour tout x ∈ I1, f(x) > x car x− x2 = x(1 − x) > 0. On endéduit que (un) est à valeurs dans I1 et qu’elle est croissante. Elle est donc convergente, et salimite ℓ vérifie ℓ ∈ I1 par croissance de (un). Sachant que ℓ = 0 ou ℓ = 1, on a finalement ℓ = 1 :(un) converge vers 1.

Cas particulier du précédent : u0 ∈ I2 = [3/4,1]. La fonction f est continue et croissante sur]−∞,1], donc

f(I2) = [f(3/4),f(1)] = [15/16,1] ⊂ I2.

De plus f est dérivable sur R avec |f ′(x)| = 2(1 − x) 61

2pour tout x ∈ I2. La fonction f est

donc 1/2-contractante sur I2.

Si u0 ∈ I2, alors pour tout n ∈ N, un ∈ I2 car I2 est stable par f , et

|un+1 − 1| = |f(un)− f(1)| 6 1

2|un − 1|.

On montre alors par récurrence sur n que |un − 1| 6 1

2n|u0 − 1| pour tout n ∈ N.

6

On retrouve, par encadrement, le fait que dans ce cas, un → 1, car 1/2n → 0. Mais on a deplus une estimation de la vitesse de convergence. D’ailleurs, dans le cas où u0 ∈ I0 = ]0,1], ona montré que (un) converge vers 1 en croissant. Il existe donc n0 ∈ N tel que un0 ∈ [3/4,1].L’estimation de la vitesse de convergence s’applique à partir de n0.

Autres cas : si u0 ∈ [1,2[, alors u1 ∈ ]0,1] = I1 et, à un décalage d’indice près, on est dans lasituation du troisième cas, donc un → 1. Si u0 > 2, alors u1 ∈ ]−∞,0[= I0 et, à un décalaged’indice près, on est dans la situation du deuxième cas, donc un → −∞.

III. Suites récurrentes linéaires d’ordre 2

Les raisonnements de cette partie utilisent des notions d’algèbre linéaire, vues en premièreannée et qui seront rappelées en détails dans le chapitre Espaces vectoriels et applicationslinéaires.

Soit (a,b) ∈ K2. On cherche à déterminer l’ensemble noté Sa,b des suites d’éléments de K,vérifiant la relation de récurrence linéaire d’ordre 2 suivante :

∀n ∈ N, un+2 + aun+1 + bun = 0.

Première formulation : soit F : (un)n∈N 7→ (un+2+aun+1+bun)n∈N. On vérifie très facilementque F ∈ L (KN), et on cherche à déterminer l’ensemble des solutions de l’équation linéaireF (u) = 0KN , i.e. Sa,b = Ker(F ). En particulier, Sa,b est un sous-espace vectoriel de KN.

Deuxième formulation : soit φ :

Sa,b → K2

u = (un) 7→ (u0,u1)

En imposant les conditions initiales u0 = x et u1 = y, le problème revient à déterminer l’ensembledes éléments u de Sa,b tels que φ(u) = (x,y).

L’application φ est un isomorphisme de Sa,b sur K2. En particulier, dim(Sa,b) = 2.

Théorème

Démonstration – Tout d’abord, φ est linéaire : soient u = (un) et v = (vn) deux suites et λ unscalaire. Alors

φ(λu+ v) = (λu0 + v0,λu1 + v1)

= λ(u0,u1) + (v0,v1)

= λφ(u) + φ(v).

La bijectivité de φ se traduit ainsi : pour tout (x,y) ∈ K2, il existe une unique suite vérifiant larelation de récurrence d’ordre 2, et dont les deux premiers termes sont respectivement x et y.Or, les relations

un+2 + aun+1 + bun = 0 ∀n ∈ N

u0 = x, u1 = y

définissent entièrement et de façon unique la suite (un) : φ est donc un isomorphisme.

Reste à savoir comment déterminer explicitement une suite (un) de Sa,b en fonction de sesdeux premiers termes.

Pour r ∈ K, la suite géométrique (rn)n∈N appartient à Sa,b si et seulement si r est unesolution de l’équation caractéristique associée :

x2 + ax+ b = 0. (E)

Propriété

7

Démonstration

⇒ Si (rn)n∈N appartient à Sa,b, alors pour tout n ∈ N, rn+2 + arn+1 + brn = 0. Avec n = 0, onobtient r2 + ar + b = 0.

⇐ Si r2 + ar + b = 0, en multipliant cette égalité par rn, on obtient rn+2 + arn+1 + brn = 0pour tout n ∈ N, donc (rn)n∈N appartient à Sa,b.

On suppose (a,b) 6= (0,0).

• Si (E) admet deux racines distinctes r1 et r2 dans K, alors les suites ((r1)n) et ((r2)

n)forment une base de Sa,b.

Pour tout (un) ∈ Sa,b, il existe un unique couple (λ,µ) ∈ K2 tel que, pour tout n ∈ N,

un = λ(r1)n + µ(r2)

n.

• Si (E) admet une racine double r dans K, alors les suites (rn) et (nrn) forment unebase de Sa,b.

Pour tout (un) ∈ Sa,b, il existe un unique couple (λ,µ) ∈ K2 tel que, pour tout n ∈ N,

un = λrn + µnrn = (λ+ µn)rn.

• Si K = R et si (E) admet deux racines complexes conjuguées distinctes z = ρeiθ et z,alors les suites (ρn cos(nθ)) et (ρn sin(nθ)) forment une base de Sa,b.

Pour tout (un) ∈ Sa,b, il existe un unique couple (λ,µ) ∈ R2 tel que, pour tout n ∈ N,

un = λρn cos(nθ) + µρn sin(nθ) = ρn(λ cos(nθ) + µ sin(nθ)).

Théorème

Démonstration

• On sait que ((r1)n) et ((r2)

n) appartiennent à Sa,b d’après la propriété précédente. De plus,Sa,b est de dimension 2. Il suffit donc de montrer que ((r1)

n) et ((r2)n) sont indépendantes.

Supposons qu’il existe deux scalaires λ et µ tels que λ(r1)n + µ(r2)

n = 0 pour tout n. On endéduit en particulier, pour n = 0 et n = 1, que (λ,µ) est solution du système linéaire

λ + µ = 0λ r1 + µ r2 = 0

Or, r1 et r2 étant distinctes, ce système est de rang 2, et son unique solution est (0,0). Doncλ = µ = 0.

• On procède de la même façon lorsque (E) possède une racine double r. Il suffit de remarquerque la suite (nrn) appartient à Sa,b car, pour tout n > 0,

(n + 2)rn+2 = (n+ 2)rn × [−(ar + b)] = −a(n+ 2)rn+1 − b(n+ 2)rn

= −a(n+ 1)rn+1 − b nrn − (ar + 2b)rn.

Or, r étant racine double du polynôme X2 + aX + b, on a

X2 + aX + b = (X − r)2 = X2 − 2rX + r2.

On en déduit que a = −2r et b = r2, d’où ar+2b = 0. Ainsi (nrn) vérifie la relation de récurrenced’ordre 2. La liberté de la famille se prouve comme dans le point précédent (elle est même plussimple, il suffit de remarquer que r 6= 0 car (a,b) 6= (0,0)).

• Enfin, lorsque K = R et (E) admet deux racines complexes conjuguées distinctes z = ρeiθ etz = ρe−iθ, on sait d’après le premier point que (zn) et (z n) forment une base de Sa,b vu commeC-espace vectoriel. Il suffit de remarquer que

ρn cos(nθ) = Re(zn) =1

2(zn + z n),

8

et donc (ρn cos(nθ)) appartient à Sa,b comme combinaison linéaire de (zn) et (z n). De même,

ρn sin(nθ) = Im(zn) =1

2i(zn − z n),

et donc (ρn sin(nθ)) appartient à Sa,b comme combinaison linéaire (dans C, même si cette suiteest réelle) de (zn) et (z n). La liberté de la famille se prouve à nouveau comme dans le premierpoint, en remarquant que ρ 6= 0 et sin(θ) 6= 0 car z est complexe non réel.

Méthode – Pour déterminer explicitement λ et µ, qui sont les coordonnées de (un) sur la baseque l’on vient d’expliciter (selon les cas), on procède en considérant les deux premiers termes.

Par exemple, dans le premier cas, pour trouver λ et µ tels que un = λ(r1)n + µ(r2)

n pourtout n ∈ N, on résout le système

λ + µ = u0

λ r1 + µ r2 = u1

correspondant à n = 0 et n = 1.

Dans le second cas, on résout le système

λ = u0

λ r + µ r = u1

et dans le troisième,

λ = u0

λρ cos(θ) + µρ sin(θ) = u1.

Dans tous les cas, le système à résoudre est de rang 2.

Exemple – Déterminons explicitement la suite (un) définie par u0 = 0, u1 = 1 et pour tout n ∈ N,

un+2 = un+1 + un.

L’équation caractéristique associée à cette suite suite récurrente linéaire d’ordre 2 est

X2 = X + 1

qui possède deux racines distinctes,

r1 =1 +√

5

2et r2 =

1−√

5

2.

On sait donc qu’il existe (λ,µ) ∈ R2 tel que pour tout n ∈ N,

un = λ(r1)n + µ(r2)

n.

Les conditions initiales donnent

λ+ µ = 0

λr1 + µr2 = 1⇔

λ+ µ = 0

λr1 − λr2 = 1⇔

λ+ µ = 0

λ =1

r1 − r2⇔

λ =1√5

µ = − 1√5

Finalement, pour tout n ∈ N,

un =1√5

(

1 +√

5

2

)n

− 1√5

(

1−√

5

2

)n

.

La suite (un) est appelée suite de Fibonacci. Le réel r1 =1 +√

5

2est le nombre d’or.

9

10

Chapitre 2

Séries numériques

Dans ce chapitre, K désigne R ou C et (un) une suite d’éléments de K.

I. Définition et convergence d’une série

1. Notion de série

Soit (un) une suite d’éléments de K. Notons, pour tout entier naturel p,

Sp =

p∑

n=0

un.

On appelle série de terme général un la suite (Sp)p∈N.

Elle est notée∑

un,∑

n>0

un ou∑

n∈N

un.

Le scalaire Sp est appelée somme partielle d’ordre p de cette série.

Définition

Remarques

• Bien sûr, on s’autorise aussi à considérer des suites (un) définies à partir d’un certain rang n0.Dans ce cas, on note

∑

n>n0un la série correspondante. On peut aussi poser un = 0 pour n < n0

afin de définir∑

n>0 un. Pour simplifier les notations, on écrira la plupart des résultats pour unesérie

∑

n>0 un.

• Pour toute suite (Sp), il existe une unique suite (un) telle que (Sp) soit la série de terme généralun : c’est la suite définie par u0 = S0 et pour tout n ∈ N∗, un = Sn − Sn−1 (voir plus loin leprincipe des séries télescopiques).

• On parle de séries numériques pour les distinguer des séries de fonctions, des séries entières,que nous étudierons également.

La série∑

n>0 un est convergente (i.e., la suite (Sp) possède une limite dans K) si etseulement s’il existe S ∈ K tel que

p∑

n=0

un −→p→+∞

S.

Dans ce cas, cette limite S est notée+∞∑

n=0

un. Elle est appelée somme de la série.

Dans le cas contraire, la série est dite divergente.

Définition – Somme d’une série convergente

11

Remarque – On notera bien la distinction entre les objets∑

n>0

un et+∞∑

n=0

un.

Le premier existe toujours et désigne une suite, le second existe si et seulement si la série converge,et désigne alors un élément de K.

Remarques – Par définition, étudier une série∑

n>0 un revient à étudier la suite (Sp) de sessommes partielles.

• On pourrait donc croire que le travail est déjà fait. Pourtant, sauf cas très favorables, on nepeut pas simplifier l’expression des sommes partielles Sp. Nous allons voir qu’en fait, on passetrès rarement par l’étude directe de la suite des sommes partielles pour étudier une série. On vaplutôt développer des critères portant sur le terme général un.

• Inversement, on a vu que pour n > 1, un = Sn − Sn−1; on peut parfois étudier une suite (un)en passant par la série de terme général un.

Soit∑

n>0 un une série et m un entier naturel. Alors la série∑

n>m+1 un est de mêmenature (convergente ou divergente) que

∑

n>0 un.

Si elle converge, sa somme

Rm =

+∞∑

n=m+1

un

est appelé reste d’ordre m de la série.

Propriété/Définition

Démonstration – Pour tout p > m+ 1,

p∑

n=0

un −p∑

n=m+1

un =

m∑

n=0

un

ne dépend pas de p. La suite associée est donc stationnaire. En particulier, les séries∑

n>0 un et∑

n>m+1 un sont de même nature.

Si la série∑

n>0 un converge, la suite (Rm)m∈N converge vers 0.

Propriété

Démonstration – En notant Sp les sommes partielles de la série, on a en passant à la limite lorsquep→ +∞ dans l’égalité de la démonstration précédente,

+∞∑

n=0

un = Sm +Rm,

et ce pour tout m ∈ N. Or, par définition,

Sm −→m→+∞

+∞∑

n=0

un.

Le résultat suit par différence.

La propriété suivante montre que si nécessaire, l’étude des séries de nombres complexes seramène à l’étude des séries de réels :

12

Une série∑

n>0 un de nombres complexes converge si et seulement si les séries

∑

n>0

Re(un) et∑

n>0

Im(un)

(séries des parties réelles et imaginaires de un) convergent. Dans ce cas,

+∞∑

n=0

un =+∞∑

n=0

Re(un) + i+∞∑

n=0

Im(un).

Propriété

Démonstration – Pour tout p ∈ N,p∑

n=0

un =

p∑

n=0

(Re(un) + iIm(un)) =

p∑

n=0

Re(un) + i

p∑

n=0

Im(un).

Or, d’après une propriété connue sur les suites, (∑p

n=0 un) a une limite dans K si et seulement si sapartie réelle et sa partie imaginaire ont une limite finie (dans R), ce qui équivaut d’après l’égalitéci-dessus à la convergence des séries

∑

n>0Re(un) et∑

n>0 Im(un). En cas de convergence, ona l’égalité souhaitée en passant à la limite dans l’égalité ci-dessus.

2. Premiers exemples

Série géométrique

Soit z un nombre complexe. On appelle série géométrique de raison z la série∑

n>0

zn.

On sait que pour tout entier naturel p,

Sp =

p∑

n=0

zn =

1− zp+1

1− z si z 6= 1

p+ 1 si z = 1.

Ainsi, (Sp) est convergente si et seulement si : z 6= 1 et (zp) converge. Ceci équivaut à : |z| < 1. Eneffet, si |z| < 1, alors z 6= 1 et (zp) converge. Réciproquement, si z 6= 1 et si (zp) converge, alors|z| 6 1 (car (zp) diverge si |z| > 1). Supposons que |z| = 1 ; sachant de plus que (zp) converge,sa limite ℓ vérifie ℓ 6= 0 ; en remarquant que zp+1/zp = z pour tout p ∈ N, et en passant à lalimite dans cette relation, on obtient z = 1, ce qui est exclu. Donc |z| < 1.

En cas de convergence, on a+∞∑

n=0

zn =1

1− z .

Si z est un nombre complexe tel que |z| < 1, alors le reste d’ordre m de la série géométrique deraison z est

Rm =

+∞∑

n=m+1

zn =zm+1

1− z .

Série harmonique

On appelle série harmonique la série∑

k>1

1

k.

La série harmonique est divergente : en notant Hn =

n∑

k=1

1

kpour tout n > 1, on a

H2n −Hn =

2n∑

k=1

1

k−

n∑

k=1

1

k=

2n∑

k=n+1

1

k>

1

2n

2n∑

k=n+1

1 =1

2.

13

Si la série harmonique convergeait, on aurait H2n −Hn → 0, ce que contredit l’inégalité précé-dente.

Série harmonique alternée

On appelle série harmonique alternée la série∑

k>1

(−1)k−1

k.

La série harmonique alternée converge et sa somme est ln(2). En effet, on remarque que pourtout n > 1,

n∑

k=1

(−1)k−1

k=

n∑

k=1

∫ 1

0(−1)k−1tk−1 dt =

∫ 1

0

(n∑

k=1

(−t)k−1

)

dt.

On reconnaît la somme des premiers termes d’une série géométrique de raison −t 6= 1 :

∫ 1

0

(n∑

k=1

(−1)k−1tk−1

)

dt =

∫ 1

0

1− (−t)n1 + t

dt =

∫ 1

0

1

1 + tdt−

∫ 1

0

(−t)n1 + t

dt.

Or,∫ 1

0

1

1 + tdt = ln(2) et

∣∣∣∣

∫ 1

0

(−t)n1 + t

dt

∣∣∣∣6

∫ 1

0tn dt =

1

n+ 1→ 0.

Séries téléscopiques

On appelle série télescopique une série de la forme∑

n>0

(αn+1 − αn).

L’expression des sommes partielles de cette série est très simple, car pour tout entier naturel p,

p∑

n=0

(αn+1 − αn) =

p∑

n=0

αn+1 −p∑

n=0

αn =

p+1∑

n=1

αn −p∑

n=0

αn = αp+1 − α0.

On en déduit le résultat suivant :

La série télescopique∑

n>0

(αn+1−αn) converge si et seulement si la suite (αn) converge.

Propriété

Exemple – Pour p > 1,

p∑

n=1

1

n(n+ 1)=

p∑

n=1

(1

n− 1

n+ 1

)

= 1− 1

p+ 1.

La série∑

n>1

1

n(n+ 1)est donc convergente, et sa somme est 1.

3. Une condition nécessaire mais non suffisante de convergence

Soit∑

n>0

un une série convergente. Alors un tend vers 0 lorsque n→ +∞.

Propriété

14

Démonstration – En notant Sn =

n∑

k=0

uk, on a, pour tout entier n > 1,

un = Sn − Sn−1.

Par hypothèse, (Sn) converge, et donc (Sn−1) converge également, vers la même limite. Pardifférence, un → 0.

Attention ! Il ne faut surtout pas confondre cette proposition avec sa réciproque qui est fausse :ce n’est pas parce que le terme général d’une série tend vers 0 que cette série converge : l’exemplede la série harmonique le montre bien.

Remarque – On utilise souvent la contraposée de ce résultat : si un ne tend pas vers 0, alors lasérie

∑

n>0 un est divergente. On parle alors de divergence grossière.

4. Opérations sur les séries

Soient∑

n>0 un et∑

n>0 vn deux séries convergentes, et λ ∈ K. Alors la série

∑

n>0

(λun + vn)

converge et+∞∑

n=0

(λun + vn) = λ

+∞∑

n=0

un +

+∞∑

n=0

vn.

Propriété

Démonstration – Pour p ∈ N, on a

p∑

n=0

(λun + vn) = λ

p∑

n=0

un +

p∑

n=0

vn −→p→+∞

λ+∞∑

n=0

un ++∞∑

n=0

vn

par définition de la convergence des deux séries∑

n>0 un et∑

n>0 vn et par combinaison linéairede limites. Ceci signifie exactement que la série

∑

n>0(λun + vn) converge ainsi que la formuleannoncée.

L’ensemble des séries convergentes d’éléments de K est un K-espace vectoriel.

Corollaire

Très souvent, les hypothèses des théorèmes sur les séries seront vérifiées à partir d’un certainrang. Cela n’empêchera pas leur application, grâce à la propriété suivante :

Soit (un) et (vn) deux suites dont seulement un nombre fini de termes diffèrent.Alors les deux séries

∑

n>0 un et∑

n>0 vn sont de même nature.

Propriété

Attention ! En revanche, elles n’ont pas nécessairement même somme.

15

II. Séries de réels positifs

1. Critère de convergence, théorèmes de comparaison

Soit∑

n>0 un une série à termes réels positifs. Alors, pour que cette série converge, ilfaut et il suffit que la suite de ses sommes partielles soit majorée. Dans ce cas, on a

+∞∑

n=0

un = supp>0

p∑

n=0

un.

Propriété

Démonstration – La suite des sommes partielles (Sp) est croissante. Le résultat vient donc duthéorème de la limite monotone : si (Sp) est majorée, alors la série converge vers sa bornesupérieure, sinon elle diverge vers +∞.

Soient∑

n>0 un et∑

n>0 vn deux séries à termes réels positifs, et soit n0 ∈ N.

• Si pour tout n > n0, un 6 vn et si∑

n>0

vn converge, alors∑

n>0

un converge et

0 6

+∞∑

n=n0

un 6

+∞∑

n=n0

vn.

• Si pour tout n > n0, un 6 vn et si∑

n>0

un diverge, alors∑

n>0

vn diverge.

• Si un ∼ vn, alors les séries∑

n>0 un et∑

n>0 vn sont de même nature.

Théorème

Rappel – Pour des suites (un) et (vn) à termes positifs telles que vn 6= 0 à partir d’un certainrang N , la condition un ∼ vn signifie que

un

vn→ 1, i.e., ∀ ε > 0, ∃n1 ∈ N, n1 > N ; ∀n > n1, (1− ε) vn 6 un 6 (1 + ε) vn.

Démonstration du théorème

• De l’hypothèse, on déduit que pour tout p > n0,

0 6

p∑

n=n0

un 6

p∑

n=n0

vn.

Si∑

n>0 vn converge,∑

n>n0vn converge, donc la suite de ses sommes partielles est majorée

d’après la propriété précédente. Il en est donc de même pour∑

n>n0un. D’après la propriété

précédente,∑

n>n0un converge, et donc

∑

n>0 un converge. De plus, en passant à la limite dansl’inégalité précédente, on obtient

0 6

+∞∑

n=n0

un 6

+∞∑

n=n0

vn.

• Le deuxième point est tout simplement la contraposée du premier.

• Si un ∼ vn, alors il existe n1 ∈ N tel que pour tout n > n1, 12vn 6 un 6 3

2vn. Les deux premierspoints, et le fait que l’on ne modifie pas la nature d’une série par multiplication par un scalairenon nul, permettent de conclure.

16

Exemples

• Montrons que la série∑

n>1

1

n2converge. Pour tout n > 2,

0 61

n26

1

n(n− 1).

Or, nous avons prouvé plus haut (à un décalage d’indices près), que la série∑

n>2

1

n(n− 1)converge.

On en déduit le résultat par comparaison de séries à termes positifs.

• De même, la série∑

n>1

1√n

diverge par comparaison avec la série harmonique : pour tout n > 1,

0 61

n6

1√n.

Or on a montré plus haut que la série harmonique diverge. On en déduit le résultat par compa-raison de séries à termes positifs.

• La série∑

n>1

n sin

(1

n2

)

diverge : en effet

n sin

(1

n2

)

∼ 1

n> 0.

Par comparaison avec la série harmonique, divergente et à termes positifs, on en déduit le résul-tat.

Remarques

• On peut bien sûr remplacer l’hypothèse « à termes positifs » par l’hypothèse « à termes néga-tifs » (si on le fait, ce doit être pour les deux séries).

• En revanche, l’hypothèse de même signe constant est essentielle. Par exemple, pour n > 1,

− 1

n6

1

n2,

et la série∑

n>1

1

n2converge. Bien sûr, pourtant, la série

∑

n>1

− 1

ndiverge.

Le théorème précédent montre bien l’utilité de connaître la nature de quelques séries deréférence auxquelles on pourra essayer de comparer les séries que l’on étudiera. Nous connaissonsdéjà la nature de la série géométrique, des séries de termes généraux 1/n, 1/n2, 1/

√n. En fait,

ces trois derniers exemples se généralisent :

Une série de Riemann est une série de la forme∑

n>1

1

nαoù α ∈ R.

On a le critère suivant de convergence des séries de Riemann :

∑

n>1

1

nαconverge si et seulement si α > 1.

Théorème/Définition : Séries de Riemann

Démonstration – Si α 6 1, alors pour tout n > 1,

0 61

n6

1

nα,

17

donc la série∑

n>1 1/nα diverge par comparaison avec la série harmonique.

Si α > 1, on remarque que pour tout n > 2, et pour tout t ∈ [n− 1,n],

1

nα6

1

tα,

et donc, après intégration sur [n− 1,n], intervalle de longueur 1, on a

1

nα6

∫ n

n−1

1

tαdt.

En sommant ces inégalités pour n entre 2 et p > 2, et en ajoutant le terme manquant correspon-dant à n = 1, on obtient, d’après la relation de Chasles,

p∑

n=1

1

nα6 1 +

∫ p

1

1

tαdt = 1 +

[1

(1− α)tα−1

]p

1

= 1 +1

α− 1

(

1− 1

pα−1

)

6 1 +1

α− 1

car α − 1 > 0. La suite des sommes partielles de la série∑

n>1 1/nα, qui est à termes positifs,est majorée. On en déduit que la série

∑

n>1 1/nα converge lorsque α > 1.

Exemple – La série∑

n>0 n8e−n converge : la suite de terme général n2 × n8e−n = n10e−n tend

vers 0 par croissances comparées puissance/exponentielle. Donc pour n assez grand,

0 6 n8e−n6

1

n2.

Par comparaison de séries à termes positifs, on en déduit le résultat, car la série de Riemann∑

n>1

1

n2, d’exposant 2 > 1, converge.

On peut souvent montrer par cet argument la convergence de séries dont le terme généralconverge assez vite vers 0.

L’idée de la démonstration du théorème précédent (dans le cas où α > 1) est généralisable :considérons une fonction f : [0, +∞[→ R+ continue et décroissante. Si n ∈ N∗, on a pour toutt ∈ [n− 1,n], f(n) 6 f(t), et donc, après intégration sur [n− 1,n],

f(n) 6

∫ n

n−1f(t) dt.

De la même façon, pour tout n ∈ N,∫ n+1

nf(t) dt 6 f(n).

Ceci est illustré sur le graphique suivant, l’aire sous la courbe de f entre les points d’abscissesn − 1 et n étant minorée par l’aire du rectangle de base 1 et de hauteur f(n), et l’aire sous lacourbe de f entre les points d’abscisses n et n+1 étant majorée par l’aire de ce même rectangle.

Cf

n− 1 n n+ 1

f(n)

18

En additionnant la première inégalité pour n entre 1 et p > 1 puis en ajoutant f(0), et enadditionnant la seconde pour n entre 0 et p, on obtient

∫ p+1

0f(t) dt 6

p∑

n=0

f(n) 6 f(0) +

∫ p

0f(t) dt.

On peut donc, grâce à la méthode des rectangles, encadrer les sommes partielles de la série∑

n>0 f(n). Si l’on sait calculer les intégrales de f , ou au moins décrire leur comportement,ceci peut permettre de décrire le comportement asymptotique des sommes partielles

∑pn=0 f(n)

lorsque p→ +∞.Remarque – On adapte facilement cet encadrement :

• Lorsque f est définie sur [n0, +∞[, comme dans la démonstration du critère de convergencedes séries de Riemann avec n0 = 1.

• Lorsque f est croissante.

Exemples

• La série harmonique correspond au choix de la fonction inverse qui est continue, décroissante etpositive sur [1,+∞[ ; en mettant en œuvre la méthode précédente, on obtient, pour tout p > 1,

∫ p+1

1

1

tdt 6

p∑

n=1

1

n6 f(1) +

∫ p

1

1

tdt,

c’est-à-dire,

ln(p+ 1) 6

p∑

n=1

1

n6 1 + ln(p).

On retrouve la divergence de la série harmonique, mais bien plus précisément, car par encadre-ment, on obtient que

p∑

n=1

1

n∼

p→+∞ln(p).

En effet,

1 + ln(p) ∼p→+∞

ln(p) et ln(p + 1) = ln(p) + ln

(

1 +1

p

)

=p→+∞

ln(p) + o(1) ∼p→+∞

ln(p).

• En sommant différemment les inégalités obtenues par la méthode des rectangles, on peut obtenird’autres résultats intéressants. Par exemple, dans le cas des séries de Riemann convergentes, c’est-à-dire lorsque f : t 7→ 1/tα avec α > 1 (f est continue, décroissante et positive sur [1,+∞[), ona pour tout n > 2,

∫ n+1

nf(t) dt 6 f(n) 6

∫ n

n−1f(t) dt.

En sommant ces inégalités entre m+ 1 avec m > 1 et p > m+ 1, on obtient donc

∫ p+1

m+1f(t) dt 6

p∑

n=m+1

f(n) 6

∫ p

mf(t) dt,

c’est-à-dire

1

α− 1

(1

(m+ 1)α−1− 1

(p+ 1)α−1

)

6

p∑

n=m+1

1

nα6

1

α− 1

(1

mα−1− 1

pα−1

)

.

Lorsque p tend vers +∞, tous les termes ont une limite finie et on obtient

1

α− 1

1

(m+ 1)α−16

+∞∑

n=m+1

1

nα6

1

α− 1

1

mα−1,

19

ce qui entraîne que+∞∑

n=m+1

1

nα∼

m→+∞1

α− 1

1

mα−1.

On obtient donc un équivalent des restes d’ordre m de la série∑

n>1

1

nαlorsque m→ +∞.

2. La règle de d’Alembert

Soit∑

n>0

un une série à termes réels strictement positifs. On suppose que

(un+1

un

)

possède une limite ℓ > 0 (éventuellement infinie).

• Si ℓ ∈ [0,1[, alors∑

n>0

un converge.

• Si ℓ > 1 ou si ℓ = +∞, alors∑

n>0

un diverge grossièrement.

• Si ℓ = 1, on ne peut pas conclure.

Théorème – Règle (ou critère) de d’Alembert

Démonstration

• On suppose que

(un+1

un

)

a une limite ℓ ∈ [0,1[. En appliquant la définition de la limite avec

ε =1− ℓ

2, on en déduit qu’il existe n0 ∈ N tel que pour tout n > n0,

0 6un+1

un6 ℓ+ ε =

1 + ℓ

2< 1.

En notant k =1 + ℓ

2, on a k ∈ [0,1[ et pour n > n0,

0 6un+1

un6 k. (1)

Montrons alors par récurrence que pour tout n > n0,

0 6 un 6un0

kn0kn.

Pour n = n0, le résultat est vrai car il se lit 0 6 un0 6 un0. Si le résultat est vrai au rang n, alorsd’après (1),

0 6 un+1 6 kun 6 kun0

kn0kn =

un0

kn0kn+1;

le résultat est donc vrai au rang n + 1 et d’après le principe de récurrence, il est vrai pour toutn > n0.

La série de terme général kn converge car c’est la série géométrique de raison k ∈ [0,1[,

donc la série∑

n>n0

un0

kn0kn converge. Par comparaison de séries à termes positifs, la série

∑

n>0 un

converge.

• On procède de la même façon dans le cas où ℓ > 1. On obtient l’existence de k > 1 tel quepour tout n assez grand,

un+1

un> k.

On en déduit que kn = O(un). Or, sachant que k > 1, kn → +∞ lorsque n → +∞ et il en estdonc de même pour un. En particulier,

∑

n>0 un diverge grossièrement.

20

Remarques

• Lorsqu’elle s’applique, la règle de d’Alembert permet de conclure à des convergences, ou desdivergences grossières, c’est-à-dire, des comportements particuliers. Souvent, la limite du quo-tient, si elle existe, est égale à 1, et on ne peut pas conclure par cet argument. Par exemple, ilne s’applique pas aux séries

∑n,∑

1/n2. Souvent aussi, cette limite n’existe pas et la règle nes’applique pas. En revanche, la règle de d’Alembert est très efficace pour traiter des séries qui« ressemblent » à des séries géométriques.

• Il n’existe pas de réciproque à la règle de d’Alembert : si une série∑

n>0 un à termes positifsconverge, on ne peut pas en déduire quoi que ce soit sur le comportement du quotient un+1/un,qui peut même ne pas être défini !

• Il est indispensable de passer à la limite dans la règle de d’Alembert : si un > 0 pour tout n, lefait que le quotient un+1/un appartienne à [0,1[, ou à ]1, +∞], pour tout n, ne permet aucuneconclusion quant à la convergence ou divergence de la série

∑

n>0 un.

Exemple – Soit x un réel positif. Montrons que la série∑

n>0

nxn converge si et seulement si x ∈ [0,1[.

Si x = 0 le résultat est évident. Sinon, pour tout n,

(n+ 1)xn+1

nxn=n+ 1

nx −→

n→+∞x.

Par conséquent, d’après la règle de d’Alembert, si x < 1, la série converge, si x > 1, elle diverge.Si x = 1, on ne peut pas conclure par la règle de d’Alembert mais on obtient la série

∑n qui

diverge grossièrement.

3. Développement décimal d’un nombre réel

On a l’habitude, au point de ne plus y penser, d’écrire nos nombres en base 10. Pourtant,notre système de numération est le fruit de plusieurs millénaires de maturation depuis l’appari-tion des premiers systèmes de numérations additifs (égyptien, romain et grec par exemple), quiconsistaient à représenter un nombre entier par juxtaposition de symboles représentant chacunune quantité fixée (1, 10, 50,...), la valeur du nombre représenté étant la somme des valeurs desdifférents symboles. Sont ensuite apparus des systèmes de numération dans lesquels la valeur d’unsymbole dépend de sa place dans l’écriture : ils sont dits systèmes de numération de position.Les sytèmes chinois, babylonien et bien sûr les systèmes de base b en sont des exemples. Et cen’est qu’autour du 4e siècle de notre ère que le zéro, venu d’Inde, efface les ambiguïtés dues auxespaces dans l’écriture d’un nombre, pour prendre, peu à peu, un véritable caractère opératoire.

D’ailleurs, la base 10 n’est pas plus naturelle que d’autres qui ont été et sont encore largementutilisées dans de nombreuses civilisations : la base 12 et la base 60 ont l’avantage d’offrir de plusnombreux diviseurs que la base 10 ; on se sert encore de la première pour compter les oeufspar exemple, de la seconde pour l’heure. La base 2 enfin a pris toute son importance avec ledéveloppement de l’informatique, évidemment (c’est Leibniz qui en avait entrevu l’importance).

La notion de série permet de définir l’écriture en base b des nombres réels ; donnons l’exemplede l’écriture décimale des réels de [0,1[.

Soit (an)n>1 une suite d’entiers naturels compris entre 0 et 9. Alors la série

∑

n>1

an

10n

converge. En notant x sa somme, on a x ∈ [0,1], et on dit que cette série est undéveloppement décimal (ou en base 10) de x.


21

Démonstration – Les an étant compris entre 0 et 9 pour tout n > 1, on a l’encadrement

0 6an

10n6

9

10n.

Par comparaison avec une série géométrique de raison 0,1 et de premier terme 9 (dont la sommeest 1, voir la remarque suivante), on en déduit la convergence de la série et le fait que x ∈ [0,1].

Remarque – Contrairement à ce qu’on pourrait croire, un tel développement n’est pas unique :posons

x =

+∞∑

n=1

9

10n= 0,9999 . . .

Alors

x = 9

+∞∑

n=1

1

10n= 9

1

10

1

1− 110

= 1 = 1,00000 . . .

Pour éviter ce phénomène, on définit les développements décimaux propres :

Avec les notations précédentes, on dit que∑

n>1 an/10n est un développement décimal

propre de x si la suite (an) ne devient pas constante égale à 9.

Définition

On a alors le résultat suivant :

Tout réel x ∈ [0,1[ possède un unique développement décimal propre.

Théorème

Démonstration de l’existence d’un développement décimal (démonstration non exigible)

Fixons x ∈ [0,1[. Dans ce qui suit, la notation ⌊a⌋ désigne la partie entière d’un réel a. Pourtout n ∈ N, on pose

An =⌊10n x⌋

10n,

en remarquant que A0 = ⌊x⌋ = 0, et pour tout n > 1, on pose

an = 10n(An −An−1),

de sorte que An soit la troncature de x à n décimales, et an la n-ième décimale du développementde x. Pour tout n > 1, on a 0 6 an 6 9. En effet,

10n x− 1 < ⌊10n x⌋ 6 10n x,

d’où

x− 1

10n< An 6 x. (2)

On en déduit que

− 1

10n=

(

x− 1

10n

)

− x < An −An−1 < x−(

x− 1

10n−1

)

=1

10n−1

et finalement l’inégalité 0 6 an 6 9 pour tout n > 1. D’après la propriété précédente, la série∑

n>1 an/10n converge.

En fait, on remarque que la série∑

n>1 an/10n est télescopique, et pour tout p > 1,

p∑

n=1

an

10n=

p∑

n=1

(An −An−1) = Ap −A0 = Ap.

Or, d’après l’inégalité (2), Ap −→p→+∞

x, d’où le résultat.

Remarque – On peut montrer qu’un réel x ∈ [0,1[ est rationnel si et seulement si son développe-ment décimal propre est périodique à partir d’un certain rang.

22

III. Convergence absolue

1. Définition et lien avec la convergence

La partie précédente montre que les séries à termes positifs jouent un rôle particulier et quel’on dispose pour ces séries de critères de convergence. Il serait donc intéressant de pouvoir s’yramener. Pour cela, la démarche la plus naturelle est de considérer la série

∑

n>0 |un|.

On dit que la série∑

n>0 un est absolument convergente si la série∑

n>0 |un|converge.

Définition

Si∑

n>0 un est absolument convergente, alors elle est convergente.

Dans ce cas, on a l’inégalité triangulaire∣∣∣∣∣

+∞∑

n=0

un

∣∣∣∣∣6

+∞∑

n=0

|un|.

Théorème

Démonstration – Les séries∑

n>0Re(un) et∑

n>0 Im(un) sont absolument convergentes parcomparaison, car pour tout n > 0,

|Re(un)| 6√

Re(un)2 + Im(un)2 = |un| et de même |Im(un)| 6 |un|.Si l’on montre que les séries

∑

n>0Re(un) et∑

n>0 Im(un) convergent, alors d’après une pro-priété donnée plus haut, on saura que

∑

n>0 un converge. Posons αn = Re(un) (ainsi∑

n>0 |αn|converge) et

α+n = max0,αn =

1

2(|αn|+ αn), α−

n = max0,− αn =1

2(|αn| − αn).

Pour tout n ∈ N,0 6 α+

n 6 |αn|, 0 6 α−n 6 |αn|.

Par comparaison de séries à termes positifs,∑

n>0 α+n et

∑

n>0 α−n convergent. On remarque

enfin que l’on a αn = α+n −α−

n , et donc, par différence,∑

n>0 αn converge. On procède de mêmeavec la partie imaginaire.

On a alors, pour tout p ∈ N, ∣∣∣∣∣

p∑

n=0

un

∣∣∣∣∣6

p∑

n=0

|un|,

d’où, en passant à la limite, l’inégalité souhaitée.

Exemples

• La série géométrique∑

n>0 zn est absolument convergente si et seulement si

∑

n>0 |z|n converge,ce qui équivaut à : |z| < 1. On remarque que dans ce cas, la convergence équivaut à la convergenceabsolue, mais c’est un cas très particulier.

• La série∑

n>1

(−1)n

n(n+ 1)est absolument convergente.

Attention ! La réciproque du théorème ci-dessus est fausse, comme le montrent les exemples desséries harmonique et harmonique alternée :

∑

n>1

(−1)n−1

nconverge mais

∑

n>1

∣∣∣∣

(−1)n−1

n

∣∣∣∣=∑

n>1

1

ndiverge.

Si la série ne converge pas absolument, on ne peut pas en déduire qu’elle ne converge pas.

23

2. Théorème de comparaison

Soient∑

n>0 un une série à termes dans K, et∑

n>0 vn une série à termes réelspositifs. On suppose que

un = O(vn)

et que∑

n>0 vn est convergente.

Alors∑

n>0 un est absolument convergente, et donc convergente.

Théorème

Rappel – Pour des suites (un) et (vn) telles que vn 6= 0 à partir d’un certain rang N , la conditionun = O(vn) signifie que la suite (un/vn)n>N est bornée.

Démonstration – D’après l’hypothèse, il existe M ∈ R+ et N ∈ N tels que pour tout n > N ,on ait |un| 6 Mvn. La série

∑

n>0 vn converge, donc∑

n>0Mvn converge également, et parcomparaison de séries à termes positifs,

∑

n>0 |un| converge, c’est-à-dire que∑

n>0 un convergeabsolument. La convergence absolue entraîne la convergence, d’où le résultat.

Remarques• L’hypothèse un = O(vn) est en particulier vérifiée dans chacun des cas suivants, qui sont descas particuliers fréquents d’utilisation du théorème précédent :

• un = o(vn).• Pour tout n assez grand, |un| 6 vn.

• un ∼ vn.

• Si (un) est à valeurs dans K∗, on peut essayer d’appliquer la règle de d’Alembert à la suite(∣∣∣∣

un+1

un

∣∣∣∣

)

.

Si cette suite possède une limite ℓ < 1, alors la série∑

n>0 |un| converge d’après la règle ded’Alembert, c’est-à-dire que

∑

n>0 un converge absolument, et donc elle converge. Si elle possèdeune limite ℓ > 1 ou une limite infinie, alors la série

∑

n>0 |un| diverge grossièrement, donc un netend pas vers 0, et la série

∑

n>0 un diverge également grossièrement (l’utilisation de la divergencegrossière est ici cruciale).

Exemple – Pour tout nombre complexe z, la série∑

n>0

zn

n!est absolument convergente.

En effet, si z 6= 0 (sinon la convergence est évidente), alors pour tout n ∈ N,∣∣∣∣

zn+1/(n + 1)!

zn/n!

∣∣∣∣=|z|n+ 1

et donc

∣∣∣∣

zn+1/(n + 1)!

zn/n!

∣∣∣∣−→

n→+∞0.

La règle de d’Alembert s’applique. Nous montrerons dans le chapitre Séries entières que lasomme de cette série est ez. Cette série est appelée série exponentielle.

De la convergence de cette série, on déduit notamment que pour tout nombre complexe z,

zn

n!−→

n→+∞0.

On retrouve ainsi un théorème de croissances comparées : pour tout z ∈ C, zn = o(n!). On peutde même retrouver certaines des autres croissances comparées usuelles : nα = o(an) si (α,a) ∈ C2

et |a| > 1, n! = o(nn). Cela n’a rien d’étonnant, en fait, leur démonstration classique reposesur le même principe que celui mis en œuvre dans la démonstration de la règle de d’Alembert :en notant un le quotient dont on veut prouver qu’il tend vers 0 (respectivement, un = zn/n!,nα/an ou n!/nn), on montre que un = O(kn) pour un certain k ∈ [0,1[ en déterminant la limitedu quotient un+1/un. Dans les cas présentés, cette limite existe et vaut respectivement 0, 1/a et1/e, dont le module est élément de [0,1[ dans les trois cas.

24

IV. La formule de Stirling

On a l’équivalent suivant : n! ∼(n

e

)n√2πn.

Théorème

Idée de démonstration (non exigible) – Notons, pour tout entier naturel n > 1,

un =n!

(ne

)n√2πn

.

Alors un > 0 pour tout n > 1 ; le but est de démontrer que un → 1. Pour cela, définissons

vn = ln

(un+1

un

)

.

Première étape : montrons que∑

n>1

vn converge.

Par définition, pour tout n > 1,

vn = ln

(un+1

un

)

= ln

(n+1)!

(n+1e )

n+1√2π(n+1)

n!

(ne )

n√2πn

= ln

(

(n+ 1) enn

(n+ 1)n+1

√n

n+ 1

)

= ln

(

e

(n

n+ 1

)n√ n

n+ 1

)

= ln

(

e

(n

n+ 1

)n+ 12

)

= 1 +

(

n+1

2

)

ln

(n

n+ 1

)

= 1−(

n+1

2

)

ln

(

1 +1

n

)

.

Effectuons alors un développement limité de vn à l’ordre 2 :

vn = 1−(

n+1

2

)(1

n− 1

2n2+O

(1

n3

))

= 1−(

1− 1

2n+O

(1

n2

))

−(

1

2n+O

(1

n2

))

= O

(1

n2

)

.

La série de terme général 1/n2 est une série de Riemann d’exposant 2 > 1 donc convergente. Parcomparaison,

∑

n>1

vn converge absolument, et donc converge.

Deuxième étape : montrons que (un) converge.

Pour tout n > 1,

ln

(un+1

un

)

= ln(un+1)− ln(un),

qui est le terme général d’une série télescopique. La série∑

n>1 vn étant convergente, on en déduitque la suite (ln(un)) est convergente, puis que (un) converge vers une limite strictement positive,car la fonction exponentielle est continue et à valeurs strictement positives. Il existe donc ℓ > 0tel que

n!(

ne

)n√2πn

→ ℓ.

25

Troisième étape : montrons que ℓ = 1.

On peut montrer (voir Annexe 2) que les intégrales de Wallis

In =

∫ π/2

0sinn(x) dx

vérifient, pour tout entier naturel n,

I2n =(2n)!

22n+1(n!)2π, et que I2n ∼

√π

4n.

Ainsi(2n)!

22n(n!)2∼ 1√

πn.

Sachant que

n! ∼ ℓ(n

e

)n√2πn,

on a doncℓ(

2ne

)2n√4πn

ℓ2(

ne

)2n2πn

∼ 22n 1√πn

.

Après simplifications, on obtient22n

ℓ√πn∼ 22n 1√

πn,

et donc ℓ = 1.

V. Séries alternées

On appelle série alternée une série de la forme∑

n>0(−1)n un où (un) est une suitede nombres réels de signe constant.

Définition

Exemples – La série harmonique alternée, les séries∑

n>0

(−1)n n2,∑

n>0

(−1)n

1 +√n

, sont alternées.

Soit∑

n>0(−1)n un une série alternée dont la valeur absolue du terme général (|un|)n∈N

est décroissante et converge vers 0. Alors :

• La série∑

n>0

(−1)n un converge.

• Pour tout m ∈ N,+∞∑

n=m

(−1)n un est du signe de (−1)m um, et

∣∣∣∣∣

+∞∑

n=m

(−1)n un

∣∣∣∣∣6 |um|.

Théorème spécial des séries alternées

Démonstration – Nous allons faire la démonstration dans le cas où un > 0 pour tout n, l’autrecas étant similaire (avec des inversions de signes). Notons (Sn) la suite des sommes partielles dela série. Nous allons montrer que les suites (S2n) et (S2n+1) sont adjacentes. On sait que celaimplique qu’elles convergent vers la même limite, ce qui à son tour entraîne que (Sn) converge(vers cette même limite). Cela démontrera le premier point.

26

La suite (S2n+1) est croissante ; en effet, pour tout n ∈ N,

S2n+3 − S2n+1 = u2n+2 − u2n+3 > 0,

car (un) est décroissante. De même, pour tout n ∈ N,

S2n+2 − S2n = −u2n+1 + u2n+2 6 0,

et donc (S2n) est décroissante. Enfin, S2n+1 − S2n = −u2n+1 → 0. D’où le résultat.

Démontrons maintenant l’estimation de la somme et des restes. On sait d’après ce qui précèdeque pour tout p ∈ N,

S2p+1 6

+∞∑

n=0

(−1)n un 6 S2p.

En particulier, pour p = 0,

u0 − u1 6

+∞∑

n=0

(−1)n un 6 u0.

Par décroissance de (un), on a u0 − u1 > 0. On en déduit que∑+∞

n=0(−1)n un est du signe de u0

(ici, positif) et

∣∣∣∣∣

+∞∑

n=0

(−1)n un

∣∣∣∣∣6 |u0|. Pour l’estimation de

+∞∑

n=m

(−1)n un on remarque que la série

∑

n>m

(−1)n un =∑

n>0

(−1)n+m un+m = (−1)m∑

n>0

(−1)n un+m

est, au facteur (−1)m près, une série alternée de réels dont la valeur absolue du terme généraldécroît vers 0. En lui appliquant ce qui précède, on obtient que

∑+∞n=m(−1)n un est du signe de

(−1)m um, et sa valeur absolue est majorée par |um|.


n>1

(−1)n√n

est alternée, et

(1√n

)

n>1

décroît vers 0. Cette série est donc

convergente et pour tout m > 1, la somme

+∞∑

n=m

(−1)n√n

est du signe de (−1)m, et est majorée en valeur absolue par1√m. Par exemple,

+∞∑

n=1

(−1)n√n

6 0 et −+∞∑

n=1

(−1)n√n

6 1, d’où − 1 6

+∞∑

n=1

(−1)n√n

6 0,

+∞∑

n=2

(−1)n√n

> 0 et+∞∑

n=2

(−1)n√n

61√2, d’où 0 6

+∞∑

n=2

(−1)n√n

61√2.

Remarques

• Lorsqu’une série converge, son reste d’ordre m tend vers 0 lorsque m → +∞. Dans le casd’une série alternée qui vérifie les hypothèses du théorème spécial, on peut affiner ce résultat endonnant le signe de ce reste et en précisant la vitesse avec laquelle il tend vers 0.

• Parfois, les hypothèses du théorème ne sont vérifiées qu’à partir d’un rang n0 > 1. Dans cecas, la conclusion sur la convergence de la série reste vraie, mais le résultat sur le signe et lamajoration des restes ne peut être appliqué que pour m > n0.

27

VI. Produit de deux séries

Soient∑

n>0 un et∑

n>0 vn deux séries d’éléments de K. Si ces deux séries convergent, onsait que l’on peut faire une combinaison linéaire de leur somme. On peut aussi se demander si onpeut les multiplier, et si oui, si l’on peut exprimer le produit obtenu comme somme d’une série.

On appelle produit de Cauchy des séries∑

n>n0un et

∑

n>m0vn la série

∑

n>n0+m0

∑

p+q=n

up vq.

Lorsque n0 = m0 = 0, cette série s’écrit de trois façons :

∑

n>0

∑

p+q=n

up vq =∑

n>0

n∑

k=0

uk vn−k =∑

n>0

n∑

k=0

un−k vk.

Définition

Soient∑

n>0

un et∑

n>0

vn deux séries absolument convergentes d’éléments de K.

Alors le produit de Cauchy de∑

n>0 un et∑

n>0 vn est absolument convergent et

(+∞∑

n=0

un

)(+∞∑

n=0

vn

)

=

+∞∑

n=0

n∑

k=0

uk vn−k =

+∞∑

n=0

n∑

k=0

un−k vk.

Théorème (admis : démonstration non exigible)

Exemple – Pour x ∈ ]−1,1[ , la série∑

n>0 xn converge absolument. Calculons le carré de sa

somme ; d’après le théorème précédent,(

+∞∑

n=0

xn

)2

=+∞∑

n=0

n∑

k=0

xk xn−k =+∞∑

n=0

n∑

k=0

xn =+∞∑

n=0

(n+ 1)xn.

D’après la formule donnant la somme d’une série géométrique,(

+∞∑

n=0

xn

)2

=

(1

1− x

)2

,

de sorte que l’on a montré que pour tout x ∈ ]−1,1[ ,

+∞∑

n=0

(n+ 1)xn =1

(1− x)2 .

Nous verrons dans le chapitre Séries entières que cela n’a rien d’étonnant : il s’agit d’uneopération de dérivation !

Remarque – Dans le cas du produit de Cauchy de deux séries∑

n>n0un et

∑

n>m0vn avec n0 > 1

et/ou m0 > 1, pour ne pas se tromper, il ne faut pas hésiter à se ramener au cas général en posantun = 0 pour 0 6 n < n0 et vn = 0 pour 0 6 n < m0. On simplifie ensuite l’expression obtenue.On pourra aussi faire des changements d’indices : par exemple,

∑

n>n0un =

∑

n>0 un+n0 .

Contre-exemple – L’hypothèse d’absolue convergence est importante, comme le montre le contre-exemple suivant : considérons la série

∑

n>1

(−1)n√n,

28

qui est convergente d’après le théorème des séries alternées, mais pas absolument convergented’après la caractérisation des séries de Riemann convergentes. Calculons son produit de Cauchypar elle-même : il s’agit de la série

∑

n>2

n−1∑

k=1

(−1)k√k

(−1)n−k

√n− k

=∑

n>2

(−1)nn−1∑

k=1

1√

k(n− k).

Une étude de fonction montre facilement que pour tout k ∈ [[1,n − 1]], k(n− k) 6n2

4, et donc

1√

k(n− k)>

2

n.

Ainsi, en valeur absolue, le terme général de la série produit vérifie

n−1∑

k=1

1√

k(n− k)>

2(n− 1)

n→ 2,

et donc le produit de Cauchy diverge grossièrement.

Remarque – En revanche, la convergence absolue des deux séries n’est pas nécessaire à la conver-gence de leur produit de Cauchy : on peut montrer que si les deux séries convergent, dont uneabsolument, alors la série produit de Cauchy converge.

Application – Pour tout (z,z′) ∈ C2, la série∑

n>0

zn

n!est absolument convergente, de même pour

z′, donc d’après le théorème précédent,(

+∞∑

n=0

zn

n!

)(+∞∑

n=0

(z′)n

n!

)

=

+∞∑

n=0

n∑

k=0

zk

k!

(z′)n−k

(n− k)! .

Or,n∑

k=0

zk

k!

(z′)n−k

(n− k)! =

n∑

k=0

1

n!

(nk

)

zk(z′)n−k =1

n!(z + z′)n,

d’après la formule du binôme de Newton. Finalement,(

+∞∑

n=0

zn

n!

)(+∞∑

n=0

(z′)n

n!

)

=

+∞∑

n=0

(z + z′)n

n!.

En admettant le résultat mentionné plus haut (i.e., le fait que∑+∞

n=0 zn/n! = ez pour tout z ∈ C),

ceci est aussi une conséquence de la formule ez+z′ = ez ez′.

29

30

Chapitre 3

Espaces vectoriels et applicationslinéaires

Dans ce chapitre K désigne R ou C. Ses éléments sont appelés scalaires.

I. Espaces vectoriels

1. Généralités

Soit E un ensemble non vide, muni de deux lois :

• Une loi interne notée +, de E × E à valeurs dans E,

• Une loi externe notée ·, de K× E à valeurs dans E.

On dit que (E,+ ,·) est un K-espace vectoriel si :

• Il existe un élément de E, noté 0E , tel que pour tout x ∈ E, x+ 0E = x,

• Pour tout x ∈ E, il existe y ∈ E tel que x+ y = 0E (le vecteur y est alors appeléopposé de x et noté −x),

pour tout (x,y,z) ∈ E3, (λ,µ) ∈ K2,

• x+ y = y + x (commutativité de +),

• (x+ y) + z = x+ (y + z) (associativité de +),

• 1 · x = x,

• λ · (x+ y) = λ · x+ λ · y (distributivité à gauche de · sur +),

• (λ+ µ) · x = λ · x+ µ · x (distributivité à droite de · sur l’addition de K),

• (λµ) · x = λ · (µ · x) (propriété d’associativité).

On dit aussi que (E, + ,·) est un espace vectoriel sur K. S’il n’y a aucune ambiguïtésur les lois, on mentionne simplement E au lieu de (E, + ,·). Les éléments de E sontappelés vecteurs.

Définition – Espace vectoriel

Remarques

• On note très souvent λx au lieu de λ ·x. Il est d’usage de noter le scalaire à gauche et le vecteurà droite.

• Si un vecteur x ∈ E apparaît des deux côtés d’une égalité de la forme x+ y = x+ z, alors parajout de −x à gauche et à droite, par commutativité et associativité de +, on peut simplifierl’égalité en « enlevant » x des deux côtés.

• L’élément 0E est unique : si e ∈ E vérifie la même propriété que 0E , on a e = e+ 0E = 0E .

• De même, l’opposé d’un vecteur x ∈ E est unique : si y ∈ E vérifie x + y = 0E , alors parsimplification, on a y = −x.• D’après les propriétés ci-dessus, pour tout x ∈ E, 0 · x = (0 + 0) · x = 0 · x+ 0 · x, et donc parsimplification, on a 0 · x = 0E .

31

Alors, 0E = 0 · x = (1 + (−1)) · x = 1 · x+ (−1) · x = x+ (−1) · x, et donc −x = (−1) · x.De même, on montre que pour tout λ ∈ K, λ · 0E = 0E .

Espaces vectoriels de référence

Soient n, p et k trois entiers naturels non nuls.

• L’ensemble Kn est un K-espace vectoriel.

• L’ensemble K[X] des polynômes à coefficients dans K est un K-espace vectoriel.

• L’ensemble Kn[X] des polynômes à coefficients dans K de degré inférieur ou égal à n est unK-espace vectoriel.

• L’ensemble Mn,p(K) des matrices à n lignes et p colonnes à coefficients dans K est un K-espacevectoriel.

• L’ensemble EX = F(X,E) des fonctions de X dans E, où X est un ensemble et E un K-espacevectoriel, est un K-espace vectoriel, avec les opérations usuelles.

• L’ensemble C0(I,K) des fonctions continues sur I, intervalle de R, à valeurs dans K, est unK-espace vectoriel.

• L’ensemble Ck(I,K) des fonctions de classe Ck sur I, intervalle de R, à valeurs dans K, est unK-espace vectoriel.

• L’ensemble KN des suites à valeurs dans K est un K-espace vectoriel.

Soient E un K-espace vectoriel et (e1, . . . ,ep) une famille de vecteurs de E. Pour tout(λ1, . . . ,λp) ∈ Kp, on définit un vecteur x de E en posant

x =

p∑

i=1

λiei = λ1e1 + · · ·+ λpep.

Les vecteurs de cette forme sont appelés combinaisons linéaires de e1, . . . ,ep.

Propriété/Définition – Combinaison linéaire

Remarque – Dans l’expression précédente, il est inutile de parenthéser car l’addition est associa-tive. De même, l’ordre des termes est sans importance par commutativité.

Soit E un K-espace vectoriel. On dit qu’un ensemble F est un sous-espace vectorielde E, si F ⊂ E et si F est un K-espace vectoriel.

Définition – Sous-espace vectoriel

Pour montrer qu’un ensemble est un espace vectoriel, il suffit souvent de montrer que c’estun sous-espace vectoriel d’un espace vectoriel de référence. Pour cela, on utilise la propriétésuivante :

Soit E un K-espace vectoriel. Alors F est un sous-espace vectoriel de E si et seulementsi :

• F ⊂ E,

• 0E ∈ F ,

• ∀λ ∈ K, ∀ (x,y) ∈ F 2, λx+ y ∈ F .

Propriété – Caractérisation des sous-espaces vectoriels

Remarque – Pour prouver que F n’est pas un sous-espace vectoriel de E, il suffit souvent deprouver que 0E /∈ F . Par exemple, A ∈Mn(R); A2 = In n’est pas un sous-espace vectoriel deMn(R).

32

Exemple – Rn[X] est un sous-espace vectoriel de R[X] et C1(R,R) est un sous-espace vectoriel deC0(R,R).

Exercice – Quels sont parmi les ensembles suivants ceux qui sont des espaces vectoriels ?

• L’ensemble des suites réelles (un)n>0 vérifiant : ∀n ∈ N, un+2 = 2un+1 + un.

• L’ensemble des solutions de y′′ + ay = 0 où a est une fonction continue.

• L’ensemble des solutions de y′′ + ay = b où, de plus, b est une fonction continue non nulle.

• L’ensemble des polynômes P ∈ C[X] tels que P (1) = 0, puis tels que P (0) = 1.

• L’ensemble K[X]P des multiples d’un polynôme P .

Soient E un K-espace vectoriel, I un ensemble d’indices et (Ei)i∈I une famille de sous-espaces vectoriels de E. Alors

⋂

i∈I Ei est un sous-espace vectoriel de E.

Propriété – Intersection de sous-espaces vectoriels

Démonstration – Bien sûr,⋂

i∈I Ei est inclus dans E, et contient 0E comme chacun des Ei. Soientx et y deux éléments de

⋂

i∈I Ei et λ un scalaire. Alors, pour tout i ∈ I, x et y appartiennentau sous-espace vectoriel Ei, et donc λx+ y ∈ Ei. Ainsi λx+ y ∈ ⋂i∈I Ei.

Soit F = (e1, . . . ,ep) une famille de vecteurs d’un K-espace vectoriel E.

L’intersection de tous les sous-espaces vectoriels de E auxquels appartiennent e1, . . . ,epest un sous-espace vectoriel de E ; c’est le plus petit (au sens de l’inclusion) sous-espacevectoriel de E auquel appartiennent e1, . . . ,ep.

Il est appelé espace vectoriel engendré par F , et noté Vect(F) ou Vect(e1, . . . ,ep).

Propriété/Définition – Espace vectoriel engendré par une famille

Remarque – Vect(F) existe toujours car E est un sous-espace vectoriel de E auquel appartiennente1, . . . ,ep.L’intersection porte donc sur un ensemble d’indices non vide.

Démonstration – L’intersection de tous les sous-espaces vectoriels de E auxquels appartiennente1, . . . ,ep est un sous-espace vectoriel de E d’après la propriété précédente. De plus, si F estun sous-espace vectoriel de E auquel appartiennent e1, . . . ,ep, alors F figure parmi l’ensembledes sous-espaces vectoriels de E dont on fait l’intersection pour définir Vect(F). En particulier,Vect(F) ⊂ F , ce qui montre que Vect(F) est le plus petit sous-espace vectoriel de E auquelappartiennent e1, . . . ,ep.

Soit F = (e1, . . . ,ep) une famille de vecteurs d’un K-espace vectoriel E.

Alors Vect(F) est l’ensemble des combinaisons linéaires de e1, . . . ,ep.

Propriété

Démonstration – Soit F l’ensemble des combinaisons linéaires de e1, . . . ,ep. Il est immédiat devérifier que F est un sous-espace vectoriel de E. De plus, e1, . . . ,ep appartiennent à F . On a doncVect(F) ⊂ F. Réciproquement, Vect(F) étant un sous-espace vectoriel de E avec ei ∈ Vect(F)pour tout i ∈ [[1,p]], toutes les combinaisons linéaires de e1, . . . ,ep appartiennent à Vect(F), d’oùF ⊂ Vect(F).

Exemple – Soit M =

0 1 10 0 10 0 0

∈M3(R). Alors

Vect(I3,M) =

a b b0 a b0 0 a

; (a,b) ∈ R2

.

33

Dans toute la suite, E désigne un K-espace vectoriel.

2. Familles libres, génératrices, bases et dimension

Soit F = (e1, . . . ,ep) une famille d’éléments de E.

• On dit que F est libre si pour toute famille de scalaires (λ1, . . . ,λp), on a

p∑

i=1

λiei = 0E ⇒ ∀ i ∈ [[1,p]], λi = 0.

On dit aussi que les vecteurs e1, . . . ,ep sont linéairement indépendants.

Si elle n’est pas libre, on dit que la famille est liée, ou que les vecteurs e1, . . . ,ep sontlinéairement dépendants. Ceci équivaut à l’existence d’une famille (λ1, . . . , λp) descalaires non tous nuls telle que

∑pi=1 λiei = 0E .

• On dit que F est génératrice de E si pour tout x ∈ E, il existe une famille descalaires (λ1, . . . , λp) telle que

x =

p∑

i=1

λiei.

Ceci équivaut à : E = Vect(e1, . . . ,ep). On dit également que (e1, . . . ,ep) engendre E.

• On dit que F est une base de E si elle est à la fois libre et génératrice de E.

Définition – Familles libres, génératrices, bases

Remarques

• Une famille où figure le vecteur nul est nécessairement liée.

• Une famille constituée d’un vecteur est liée si et seulement si ce vecteur est nul.

• Si (e1, . . . ,ep) est une famille liée, alors l’un des vecteurs e1, . . . ,ep est combinaison linéaire desautres : en effet, il existe (λ1, . . . ,λp) ∈ Kp et i ∈ [[1,p]] tels que λi 6= 0 et λ1e1 + · · ·+ λpep = 0E ,et alors

ei = − 1

λi

∑

j 6=i

λjej .

En revanche, on ne peut pas affirmer que n’importe lequel des vecteurs e1, . . . ,ep est combinaisonlinéaire des autres.

Soit (P0, . . . ,Pn) une famille de polynômes tous non nuls et à degrés échelonnés, c’est-à-dire telle que pour tout i ∈ [[0,n − 1]], deg(Pi) < deg(Pi+1). Alors (P0, . . . ,Pn) estlibre.

Propriété – Famille de polynômes à degrés échelonnés (ou étagés)

Démonstration – Soit (λ0, . . . ,λn) ∈ Kn tel que λ0P0 + · · · + λnPn = 0. Tous les coefficients dupolynôme λ0P0 + · · ·+λnPn sont donc nuls. La famille (P0, . . . ,Pn) étant à degrés échelonnés, lecoefficient dominant de ce polynôme est λnan, où an est le coefficient dominant de Pn, non nulcar Pn est non nul. Donc λn = 0. En réitérant ce raisonnement, on obtient que λ0 = · · · = λn = 0,d’où le résultat.

On peut aussi rédiger ce raisonnement sans l’étape d’itération : on raisonne par l’absurde, ensupposant que tous les λi ne sont pas nuls ; on peut donc définir i0 = maxi ∈ [[0,n]]; λi 6= 0(maximum d’une partie non vide majorée de N). On raisonne alors comme ci-dessus : le coefficientdominant de λ0P0 + · · ·+ λnPn est λi0ai0 , où ai0 est le coefficient dominant de Pi0 , non nul carPi0 est non nul. On en déduit que λi0 = 0, ce qui contredit la définition de i0. Donc tous les λi

sont nuls.

34

La famille (e1, . . . ,ep) est une base de E si et seulement si tout élément de E s’écrit demanière unique comme combinaison linéaire de e1, . . . ,ep.

Dans ce cas, si x =∑p

i=1 xiei, on dit que x1, . . . ,xp sont les coordonnées de x dansla base (e1, . . . ,ep).


Démonstration laissée en exercice (elle est très semblable à une démonstration donnée ci-dessous,voir le paragraphe sur les sommes directes).

On dit que E est de dimension finie si E admet une famille génératrice (finie). Dansle cas contraire, on dit que E est de dimension infinie.

Définition – Espace de dimension finie

Si E 6= 0E, alors de toute famille génératrice de E, on peut extraire une base de E :si (e1, . . . ,ep) est une famille génératrice de E, il existe une partie I de [[1,p]] telle que(ei)i∈I soit une base de E.

Théorème de la base extraite

Démonstration – Soit (e1, . . . ,ep) une famille génératrice de E. Si (e1, . . . ,ep) n’est pas libre, ondoit avoir p > 2 : en effet, si l’on avait p = 1, on aurait e1 = 0E (car la famille (e1) est liée), et doncE = Vect(e1) = 0E, ce qui est exclu. Alors l’un des vecteurs de la famille (e1, . . . ,ep) est com-binaison linéaire des autres, d’après une remarque précédente. Quitte à renommer les éléments,on peut supposer que ep ∈ Vect(e1, . . . ,ep−1), et alors E = Vect(e1, . . . ,ep) = Vect(e1, . . . ,ep−1).

On a donc construit une famille génératrice de E à p − 1 éléments et on peut recommencercette procédure. La procédure s’arrête nécessairement, car le nombre d’éléments de la familleconstruite décroît strictement à chaque étape. Lorsque la procédure s’arrête, la famille obtenueest libre ; c’est finalement une famille libre et génératrice de E, donc une base de E.

Remarque – Dans la démonstration précédente apparaît une idée très souvent utilisée en algo-rithmique pour prouver qu’un algorithme se termine : on a utilisé un « variant de boucle », icile nombre d’éléments de la famille.

Du théorème précédent, on déduit immédiatement le résultat suivant :

Si E 6= 0E et si E est de dimension finie, alors E possède des bases.

Corollaire

Si E est de dimension finie, alors toute famille libre d’éléments de E peut être complétéeen une base de E. De plus, pour compléter une telle famille, on peut choisir les vecteursparmi ceux d’une famille génératrice donnée à l’avance.

Théorème de la base incomplète

Démonstration – Soient (e1, . . . ,ep) une famille libre d’éléments de E et (u1, . . . ,um) une famille gé-nératrice de E (une telle famille existe car E est de dimension finie). Posons F0 = Vect(e1, . . . ,ep).

• Si u1 n’appartient pas à Vect(e1, . . . ,ep), alors on pose ep+1 = u1 et F1 = Vect(e1, . . . ,ep+1).La famille (e1, . . . ,ep+1) ainsi construite est libre : en effet, soit (λ1, . . . ,λp+1) ∈ Kp+1 tel que∑p+1

i=1 λiei = 0E . Si l’on avait λp+1 6= 0, on aurait ep+1 ∈ Vect(e1, . . . ,ep), ce qui est absurde. Ainsi

35

λp+1 = 0, puis∑p

i=1 λiei = 0E , ce qui par liberté de (e1, . . . ,ep) entraîne que λ1 = · · · = λp = 0 ;tous les λi sont donc nuls.

• Si u1 ∈ Vect(e1, . . . ,ep), on ne complète pas la famille (e1, . . . ,ep), on pose F1 = F0.

On poursuit alors la procédure avec u2, dont on teste l’appartenance à F1, ce qui permet dedéfinir F2. On procède ainsi jusqu’à um.

À l’issue de l’étape m, on dispose donc d’une famille (e1, . . . ,ek) avec k > p, qui est libre, ettelle que u1, . . . ,um sont des éléments de Fm = Vect(e1, . . . ,ek). Alors

E = Vect(u1, . . . ,um) ⊂ Vect(e1, . . . ,ek) ⊂ E.

La famille (e1, . . . ,ek) est donc génératrice de E, et étant libre, c’est une base de E ; de plus, ellea été construite en complétant la famille (e1, . . . ,ep) avec certains des vecteurs u1, . . . ,um.

Soit (e1, . . . ,ep) une famille de vecteurs de E et (u1, . . . ,up+1) une famille de vecteursde Vect(e1, . . . ,ep). Alors la famille (u1, . . . ,up+1) est liée.

Théorème

Remarque – En particulier, si E admet une famille génératrice finie (e1, . . . ,ep), alors une famillelibre d’éléments de E est composée d’au plus p vecteurs.

Démonstration – On procède par récurrence sur p. Pour p = 1, le résultat est vrai car deuxvecteurs colinéaires à un même vecteur e1 sont linéairement dépendants. Supposons le résultatvrai pour un certain entier p > 1. Soient p+ 2 vecteurs u1, . . . ,up+2 engendrés par p+ 1 vecteurse1, . . . ,ep+1. On peut donc écrire

u1 = λ1,1 e1 + · · ·+ λ1,p+1 ep+1,

u2 = λ2,1 e1 + · · ·+ λ2,p+1 ep+1,

...

up+2 = λp+2,1 e1 + · · ·+ λp+2,p+1 ep+1,

où les λi,j sont des scalaires. Si λi,1 = 0 pour tout i, alors (u1, . . . ,up+2) est une famille de vecteursde Vect(e2, . . . ,ep+1), donc est liée par hypothèse de récurrence. Sinon, on peut supposer sansperte de généralité que λ1,1 6= 0. Alors, grâce à λ1,1, on élimine e1 dans l’expression des vecteursu2, . . . , up+2 :

u2 −λ2,1

λ1,1u1 ∈ Vect(e2, . . . ,ep+1),

...

up+2 −λp+2,1

λ1,1u1 ∈ Vect(e2, . . . ,ep+1).

On en déduit que les p+ 1 vecteurs

u2 −λ2,1

λ1,1u1, . . . , up+2 −

λp+2,1

λ1,1u1

sont combinaisons linéaires des p vecteurs e2, . . . ,ep+1. Par hypothèse de récurrence, ils formentdonc une famille liée. En écrivant une combinaison linéaire nulle de ces vecteurs avec des coeffi-cients non tous nuls, on voit alors que la famille (u1, . . . , up+2) est liée.

Remarque – Cette idée est à la base de l’algorithme de Gauss-Jordan, dont on rappelera le principeen détails dans le chapitre Matrices.

36

• Si E 6= 0E et si E est de dimension finie, alors il existe n ∈ N∗ tel que toutes lesbases de E sont constituées de n vecteurs.

L’entier n est appelé dimension de E, noté dim(E).

• Si E = 0E, on pose dim(E) = 0 (mais dans ce cas, E n’admet aucune base).

Théorème/Définition – Dimension

Démonstration – Soient B et B′ deux bases de E constituées respectivement de p et m vecteurs. Lafamille B est libre et B′ engendre E, donc d’après le théorème précédent, p 6 m. En échangeantles roles de B et B′, on obtient m 6 p et finalement p = m. Toutes les bases de E sont doncconstituées du même nombre de vecteurs.

Remarques

• Si E est de dimension n > 1, il est engendré par une famille de n vecteurs, donc toute famillede n+ 1 vecteurs de E est liée.

• Si E = 0E, la convention dim(E) = 0 assure que cette dernière propriété est encore valable.

• Ainsi, en dimension n, une famille libre est composée d’au plus n vecteurs. De même, unefamille génératrice est composée d’au moins n vecteurs, car d’une telle famille, si E 6= 0E(sinon le résultat est évident), on peut extraire une base de E, qui comporte n vecteurs.

Exemple – Les espaces de référence sont-ils de dimension finie ? Si oui, donner leur dimension.

On suppose E de dimension finie n > 1. Soit F une famille de n vecteurs de E.

Alors on a les équivalences :

F est une base de E ⇔ F est libre ⇔ F est une famille génératrice de E.

Théorème – Caractérisation des bases

Démonstration – Si F est libre, on peut la compléter en base de E, et cette base comporte nvecteurs, qui est déjà le nombre de vecteurs de F . Il n’y a donc pas eu de complétion à faire,c’est-à-dire que F est une base de E. De même, si F est génératrice de E, on peut en extraireune base de E (car E 6= 0E), mais il n’y a en fait pas d’extraction à faire, donc F est une basede E. Les implications réciproques sont évidentes.

Application – Soit (P0, . . . ,Pn) une famille d’éléments de K[X] telle que deg(Pi) = i pour touti ∈ [[0,n]]. Alors (P0, . . . ,Pn) est une base de Kn[X].

En effet, la famille (P0, . . . ,Pn) d’éléments de Kn[X] est à degrés échelonnés et tous seséléments sont non nuls (le degré du polynôme nul est −∞), donc elle est libre. De plus, ellecomporte n + 1 = dim(Kn[X]) éléments, donc d’après le théorème ci-dessus, c’est une base deKn[X].

On suppose E de dimension finie n. Soit F un sous-espace vectoriel de E. Alors :

• F est de dimension finie et dim(F ) 6 dim(E).

• Si dim(F ) = n, alors E = F .

Théorème

Démonstration – On commence par remarquer que pour les deux points, si F = 0E, le résultatest évident. On suppose donc dans la suite que F 6= 0E.• Si F était de dimension infinie, on pourrait construire, par une procédure proche de la démons-tration du théorème de la base incomplète, une famille libre constituée d’un nombre arbitraire-ment grand d’éléments de F , et en particulier une famille libre de n+1 vecteurs de E, ce qui estimpossible car E est de dimension n ; F est donc de dimension finie. Soit (e1, . . . , ep) une basede F . C’est une famille libre d’éléments de E, on a donc p 6 n, c’est-à-dire dim(F ) 6 dim(E).

37

• De plus, si dim(F ) = dim(E) (i.e. p = n), alors (e1, . . . , ep) est une famille libre de n vecteursde E, c’en est donc une base ; on en déduit que E = Vect(e1, . . . , ep) = F.

Attention ! Il est essentiel que F soit un sous-espace vectoriel de E pour appliquer ce théorème.Si F et G sont deux sous-espaces vectoriels de E de même dimension, on ne peut évidemmentpas affirmer que F = G.

On suppose E dimension finie. Soit F un sous-espace vectoriel de E.

Une base de E est dite adaptée à F si on peut en extraire une base de F .

Définition – Base adaptée

Soit (x1, . . . , xp) une famille de vecteurs de E, espace de dimension finie ou non.

On appelle rang de cette famille, noté rg(x1, . . . , xp), la dimension du sous-espacevectoriel Vect(x1, . . . , xp).

Définition – Rang

Remarque – La famille finie (x1, . . . , xp) est génératrice de Vect(x1, . . . , xp), qui est donc dedimension finie inférieure ou égale à p. On en déduit que rg(x1, . . . ,xp) est bien défini, et inférieurou égal à p.

• Si E est de dimension finie n, une famille (x1, . . . , xp) de vecteurs de E est génératricede E si et seulement si rg(x1, . . . , xp) = n.

• Une famille (x1, . . . , xp) de vecteurs de E (de dimension finie ou non) est libre si etseulement si rg(x1, . . . , xp) = p.

• Si E est de dimension finie n, une famille (x1, . . . , xp) de vecteurs de E est une basede E si et seulement si p = n et rg(x1, . . . , xn) = n.

Propriété – Caractérisation des familles libres, génératrices par le rang

Démonstration

• La famille (x1, . . . , xp) est génératrice de E si et seulement si Vect(x1, . . . , xp) = E, cequi équivaut d’après le théorème précédent à dim(Vect(x1, . . . , xp)) = dim(E), i.e., à l’égalitérg(x1, . . . , xp) = n.

• Pour le second point :

⇒ La famille (x1, . . . , xp) engendre Vect(x1, . . . , xp) donc, si elle est libre, c’est une base deVect(x1, . . . , xp) et on a

dim(Vect(x1, . . . , xp)) = p, i.e. rg(x1, . . . , xp) = p.

⇐ La famille (x1, . . . , xp) engendre Vect(x1, . . . , xp) ; si de plus rg(x1, . . . , xp) = p, alors lenombre de vecteurs de cette famille est dim(Vect(x1, . . . ,xp)), c’est donc une famille libre d’aprèsle théorème de caractérisation des bases.

• Si (x1, . . . , xp) est une base de E, on a p = n, et d’après le premier point, rg(x1, . . . , xn) = n. Sip = n et rg(x1, . . . , xn) = n, la famille (x1, . . . , xn) est une base de E d’après les deux premierspoints.

38

3. Produit de sous-espaces vectoriels

Soient E1, . . . ,Ep des K-espaces vectoriels. Le produit cartésien

p∏

i=1

Ei = E1 × · · · × Ep

est l’ensemble(x1, . . . ,xp); ∀ i ∈ [[1,p]], xi ∈ Ei.

Si (x1, . . . ,xp) et (y1, . . . ,yp) sont deux éléments de E1 × · · · ×Ep, et si λ ∈ K, on pose

(x1, . . . ,xp) + (y1, . . . ,yp) = (x1 + y1, . . . ,xp + yp),

λ(x1, . . . ,xp) = (λx1, . . . ,λxp)

(toutes les additions et multiplications par un scalaire sont notées avec le même sym-bole, mais à droite du signe d’égalité, ce sont celles de chaque espace vectoriel Ei).

Définition – Produit cartésien

Attention ! Dans un produit cartésien, l’ordre des termes est important. La notation∏p

i=1Ei

doit être comprise en gardant cela à l’esprit. Par exemple, le produit E1×E2 n’est pas le produitE2 × E1.

Soient E1, . . . ,Ep des K-espaces vectoriels. Alors E1×· · ·×Ep est un K-espace vectoriel.

Propriété – Produit de sous-espaces vectoriels

Démonstration – C’est une vérification immédiate, en utilisant le fait que chaque Ei est un K-espace vectoriel, le vecteur nul de E1 × · · · × Ep étant (0E1 , . . . ,0Ep), et l’opposé d’un vecteur(x1, . . . ,xp) étant (−x1, . . . ,− xp).

Exemples

• Le produit cartésien R×R2 est l’ensemble des éléments de la forme (x,(y,z)) où x, y et z sontdes réels. Il peut être identifié (mais n’est pas égal) à R3.

• Le produit cartésien Mn(K) × K[X] est l’ensemble des éléments de la forme (A,P ) oùA ∈ Mn(K) et P ∈ K[X]. Si A et B sont deux éléments de Mn(K), P et Q deux élémentsde K[X] et λ ∈ K, on a, par définition,

λ(A,P ) + (B,Q) = (λA+B,λP +Q).

On voit bien sur cet exemple que les opérations, bien que notées avec le même symbole, ne sontpas les mêmes opérations (elles ne portent pas sur le même espace vectoriel).

Soient E1, . . . ,Ep des K-espaces vectoriels de dimension finie. Alors E1 × · · · × Ep estde dimension finie et

dim(E1 × · · · × Ep) =

p∑

i=1

dimEi.

Propriété

Démonstration – Pour tout i ∈ [[1,p]], on note ni = dim(Ei), et l’on choisit une baseBi = (ei,1, . . . , ei,ni

) de Ei. Alors on vérifie facilement que la famille

((e1,1,0E2 , . . . ,0Ep), . . . ,(e1,n1 ,0E2 , . . . ,0Ep),(0E1 ,e2,1, . . . ,0Ep), . . . ,(0E1 ,e2,n2 , . . . ,0Ep), . . .

. . .(0E1 , . . . ,0Ep−1 ,ep,1), . . . ,(0E1 , . . . ,0Ep−1 ,ep,np))

39

d’éléments de E1 × · · · × Ep est une base de E1 × · · · × Ep. En particulier, E1 × · · · × Ep est dedimension finie et

dim(E1 × · · · ×Ep) =

p∑

i=1

ni =

p∑

i=1

dim(Ei).

Les détails de cette démonstration sont très semblables à ceux d’une démonstration donnée ci-dessous pour les sommes directes (voir le théorème sur les bases adaptées à une somme directe).

II. Somme et somme directe de sous-espaces vectoriels

1. Définitions et caractérisations

Soit (E1, . . . ,Ep) une famille de sous-espaces vectoriels de E. La somme

p∑

i=1

Ei = E1 + · · ·+ Ep

est l’ensemble des vecteurs x de E de la forme

x =

p∑

i=1

xi = x1 + · · ·+ xp où, pour tout i ∈ [[1,p]], xi ∈ Ei.

Définition – Somme de sous-espaces vectoriels

Remarque – On vérifie facilement que l’opération de sommation de sous-espaces vectoriels de Eest associative (il est inutile de parenthéser, même lorsque p > 3) et commutative (l’ordre destermes n’a pas d’importance, contrairement aux produits cartésiens), car l’addition de vecteursde E possède ces propriétés.

Avec les notations précédentes,p∑

i=1

Ei est un sous-espace vectoriel de E.

Propriété

Démonstration – On a bien sûr E1 + · · ·+Ep ⊂ E et 0E ∈ E1 + · · ·+Ep (car 0E = 0E + · · ·+0E).Soient x = x1 + · · ·+ xp et y = y1 + · · · + yp deux éléments de E1 + · · ·+ Ep, et λ ∈ K. Alors

λx+ y = λ(x1 + · · · + xp) + (y1 + · · ·+ yp) = (λx1 + y1) + · · · + (λxp + yp) ∈ E1 + · · ·+ Ep

car chaque Ei est un sous-espace vectoriel de E. Ainsi E1 + · · ·+Ep est un sous-espace vectorielde E.

Exemple – On a R2 = Vect(1,0) + Vect(1,1) + Vect(0,1).

On dit que la sommep∑

i=1

Ei est directe si : pour tout (x1, . . . ,xp) ∈ E1 × · · · ×Ep, on

a l’implicationp∑

i=1

xi = 0E ⇒ ∀ i ∈ [[1,p]], xi = 0E .

Dans ce cas la sommep∑

i=1

Ei se notep⊕

i=1

Ei = E1 ⊕ · · · ⊕ Ep.

Définition – Somme directe

40

Soit (E1, . . . ,Ep) une famille de sous-espaces vectoriels de E.

La somme∑p

i=1Ei est directe si et seulement si tout élément x de∑p

i=1Ei se décomposede manière unique sous la forme x = x1 + · · ·+ xp avec xi ∈ Ei pour tout i ∈ [[1,p]].

Propriété

Démonstration

⇒ Si la somme est directe, considérons x =∑p

i=1 xi =∑p

i=1 yi deux décompositions de x avecxi ∈ Ei et yi ∈ Ei pour tout i ∈ [[1,p]]. On a donc

p∑

i=1

(xi − yi) = 0E

avec xi − yi ∈ Ei pour tout i ∈ [[1,p]] car Ei est un sous-espace vectoriel de E. Par définitiond’une somme directe, on a donc xi = yi pour tout i, d’où l’unicité de la décomposition.

⇐ Soit (x1, . . . ,xp) ∈ E1×· · ·×Ep tel que∑p

i=1 xi = 0E . En remarquant que∑p

i=1 0E = 0E etque 0E ∈ Ei pour tout i, on obtient deux décompositions de 0E . Par unicité, on a donc xi = 0E

pour tout i, et la somme est directe.

Exemple – La somme Vect(1,0)+Vect(1,1)+Vect(0,1) n’est pas directe car (1,1) = (1,0)+(0,1).

Soient E1 et E2 deux sous-espaces vectoriels de E. La somme E1 +E2 est directe si etseulement si E1 ∩E2 = 0E.

Propriété – Cas de deux sous-espaces vectoriels

Démonstration

⇒ Si la somme est directe, considérons x ∈ E1 ∩ E2. Alors x + (−x) = 0E avec x ∈ E1 et−x ∈ E2. Par définition, on en déduit que x = 0E .

⇐ Soit x1 ∈ E1 et x2 ∈ E2 tels que x1 + x2 = 0E . Alors x1 = −x2 ∈ E1 ∩ E2 = 0E, doncx1 = x2 = 0E . La somme E1 + E2 est donc directe.

Attention ! Cette propriété ne se généralise pas à une somme de plus de deux sous-espacescomme le montre l’exemple de Vect(1,0) + Vect(1,1) + Vect(0,1), qui n’est pas directe alors quel’intersection de deux quelconques des sous-espaces parmi les trois est toujours réduite à (0,0).

Soient F , G deux sous-espaces vectoriels de E.

On dit que F et G sont supplémentaires (dans E) si F ⊕ G = E c’est-à-dire si lasomme de F et de G est directe et égale à E.

Définition – Sous-espaces supplémentaires

Exemples

• R2 = Vect(1,0) ⊕Vect(1,1), R3 = Vect((1,0,2),(1,1, − 1))⊕Vect(1,2,3).

• Soit P un polynôme de K[X] de degré n+ 1. Alors K[X] = K[X]P ⊕Kn[X].

En effet, un multiple de P ne peut être de degré inférieur ou égal à n que s’il est nul.La somme est donc directe. De plus, pour tout polynôme A ∈ K[X], il existe Q ∈ K[X] etR ∈ Kn[X] tels que A = PQ+R, d’après le théorème de division euclidienne dans K[X]. DoncA ∈ K[X]P + Kn[X], et ce pour tout A. La somme est donc égale à K[X].

41

2. Sommes directes, bases et dimensions

• Soit (x1, . . . ,xp) une famille libre d’éléments de E (p > 2). Pour tout i ∈ [[1, p − 1]],Vect(x1, . . . , xi) et Vect(xi+1, . . . ,xp) sont en somme directe et

Vect(x1, . . . , xp) = Vect(x1, . . . , xi)⊕Vect(xi+1, . . . , xp).

• Si (E1, . . . ,Ep) est une famille de sous-espaces vectoriels de E dont la somme estdirecte et si (x1, . . . ,xp) ∈ E1×· · ·×Ep est une famille de vecteurs tous non nuls, alorscette famille est libre.

Propriété – Sommes directes et familles libres

Démonstration

• Soit x = λ1x1 + · · ·+λixi = λi+1xi+1 + · · ·+λpxp ∈ Vect(x1, . . . , xi)∩Vect(xi+1, . . . , xp). Alors

λ1x1 + · · ·+ λixi − λi+1xi+1 + · · · − λpxp = 0E .

La famille (x1, . . . ,xp) étant libre, on en déduit que λi = 0 pour tout i, et donc x = 0E . AinsiVect(x1, . . . , xi)∩Vect(xi+1, . . . , xp) = 0E, donc la somme de ces deux sous-espaces est directe.Il est de plus immédiat que Vect(x1, . . . , xp) = Vect(x1, . . . , xi) + Vect(xi+1, . . . , xp).

• Si une combinaison linéaire λ1x1 + · · ·+ λpxp est nulle, alors, sachant que λixi ∈ Ei pour touti, l’aspect direct de la somme des Ei entraîne que λixi = 0E pour tout i, avec xi 6= 0E , et doncλi = 0, d’où le résultat.

Notation – Si F1, . . . ,Fp sont des familles d’éléments de E, on appellera juxtaposition (ouconcaténation) de ces familles la famille F obtenue en plaçant dans une même famille tous lesvecteurs de F1, . . . ,Fp, en gardant les répétitions éventuelles et en respectant l’ordre d’apparitiondes termes. On pourra représenter ceci par la notation F = F1 ⊔ · · · ⊔ Fp, mais cette notationn’est pas universelle.

Par exemple, (e1,e2) ⊔ (f1,f2,f3) = (e1,e2,f1,f2,f3).

En appliquant plusieurs fois le premier point de la propriété précédente, on obtient immédia-tement :

On suppose que E est de dimension finie n > 2 ; soit B = F1 ⊔ · · · ⊔ Fp une base de E.

Alors

E =

p⊕

i=1

Vect(Fi).

Corollaire – Fractionnement d’une base

Si E est de dimension finie et si F est un sous-espace vectoriel de E, alors F possèdedes supplémentaires.

Propriété

Démonstration – Si F = 0E, le résultat est évident : E est un supplémentaire de F . De même,si F = E, 0E est un supplémentaire de F . Sinon, soit F une base de F . En complétant F enbase de E, et en appliquant le corollaire précédent avec p = 2, on obtient un supplémentaire deF (et la base de E ainsi construite est adaptée à F ).

42

Inversement, on peut construire des bases de E à partir d’une décomposition de E en sommedirecte :

Soit (E1, . . . ,Ep) une famille de sous-espaces vectoriels de E, tous de dimension finienon nulle, telle que E =

⊕pi=1Ei. Pour tout i, on se donne une base Bi de Ei.

Alors la juxtaposition B = B1⊔· · ·⊔Bp de ces bases est une base de E (qui en particulierest de dimension finie).

On appelle base de E adaptée à la décomposition en somme directe E =⊕p

i=1Ei unebase de E de la forme de B.

Propriété/Définition – Base adaptée à une somme directe

Démonstration – Pour tout i, on note ni = dim(Ei), Bi = (ei,1, . . . , ei,ni) et on pose n =

∑pi=1 ni.

• Caractère générateur : tout d’abord, chaque vecteur ek,j appartient à Ek et donc à la sommedes Ei. Soit x ∈ E. Il existe (xi)16i6p ∈ E1 × · · · × Ep tel que x =

∑pi=1 xi. De plus pour tout

i ∈ [[1,p]], il existe (λi,j)1≤j≤ni∈ Kni tel que

xi =

ni∑

j=1

λi,jei,j.

Alors

x =

p∑

i=1

ni∑

j=1

λi,jei,j

∈ Vect(B).

Ceci étant valable pour tout x appartenant à E, on en déduit que E = Vect(B).

• Liberté : soit (λi,j) ∈ Kn un n-uplet de scalaires (avec 1 ≤ i ≤ p et pour tout i, 1 ≤ j ≤ ni)tel que

n∑

i=1

ni∑

j=1

λi,jei,j

= 0E .

Pour tout i ∈ [[1,n]], le vecteur vi =∑ni

j=1 λi,jei,j appartient à Ei, et la somme des Ei étantdirecte, l’égalité

∑ni=1 vi = 0E entraîne que vi = 0E pour tout i ∈ [[1,p]]. Mais alors, pour tout

i ∈ [[1,p]], on ani∑

j=1

λi,jei,j = 0E ,

or Bi est une base de Ei donc est une famille libre. On en déduit que λi,j = 0 pour tout j ∈ [[1,ni]].Finalement, pour tout 1 ≤ i ≤ p, 1 ≤ j ≤ ni, on a λi,j = 0, donc B est libre.

Soit (E1, . . . ,Ep) une famille de sous-espaces vectoriels de dimension finie de E. Alors :

•p∑

i=1

Ei est de dimension finie et dim

(p∑

i=1

Ei

)

6

p∑

i=1

dim(Ei),

• Il y a égalité dans l’inégalité précédente si et seulement si la sommep∑

i=1

Ei est directe.

• Si E est de dimension finie et si la sommep∑

i=1

Ei est directe, alors pour queE =

p⊕

i=1

Ei,

il faut et il suffit quep∑

i=1

dim(Ei) = dim(E).

Propriété – Dimension d’une somme

43

Démonstration – Tout d’abord, on se ramène facilement au cas où les Ei sont de dimension nonnulle, ce que l’on suppose dans la suite de la démonstration.

• Pour tout i ∈ [[1,p]], soit Bi une base de Ei, et ni = dim(Ei). En reprenant la démonstrationprécédente, on obtient que la juxtaposition F de ces bases est une famille génératrice de

∑pi=1Ei.

On a donc

dim

(p∑

i=1

Ei

)

6

p∑

i=1

ni =

p∑

i=1

dim(Ei).

• Si la somme∑p

i=1Ei est directe, la famille F est une base de⊕p

i=1Ei (d’après la démonstrationprécédente), donc l’inégalité précédente est une égalité.

Réciproquement, si l’inégalité précédente est une égalité, alors F est une famille génératricede∑p

i=1Ei de dim(∑p

i=1Ei) vecteurs, donc F est une base de∑p

i=1Ei. D’après la propriétéde fractionnement d’une base, on en déduit que

∑pi=1Ei =

⊕pi=1 Vect(Fi) =

⊕pi=1Ei, donc la

somme est directe.

• Dans ce cas, pour que E =⊕p

i=1Ei, il faut et il suffit que dim (⊕p

i=1Ei) = dim(E), c’est-à-dire,d’après le deuxième point, que

∑pi=1 dim(Ei) = dim(E).

Exemple – La somme de deux plans vectoriels de R3 n’est jamais directe, car la somme de leursdimensions est 4.

On suppose E de dimension finie. Soient F et G deux sous-espaces vectoriels de E.

Pour que E = F ⊕G, il faut et il suffit que

F ∩G = 0E et dim(E) = dim(F ) + dim(G).

Corollaire

Démonstration – C’est un cas particulier de la propriété précédente dans le cas de deux sous-espaces vectoriels F et G, puisqu’alors, le fait que la somme F +G soit directe équivaut au faitque F ∩G = 0E.

Remarque – En particulier, tous les supplémentaires de F ont la même dimension.

Lorsque la somme de deux sous-espaces vectoriels de E n’est pas directe, on a le résultatsuivant :

Si E est de dimension finie et F et G sont deux sous-espaces vectoriels de E, alors

dim(F +G) = dim(F ) + dim(G) − dim(F ∩G).

Théorème – Formule de Grassmann

Démonstration – Soit F ′ un supplémentaire de F ∩G dans F et G′ un supplémentaire de F ∩Gdans G. Montrons que F +G = F ′⊕G′⊕ (F ∩G). Tout d’abord, si x′ +y′ +z = 0E avec x′ ∈ F ′,y′ ∈ G′ et z ∈ F ∩G, alors

x′ = −y′ − z ∈ F ′ ∩G ⊂ F ′ ∩ (F ∩G) = 0E.

On en déduit que y′ = −z ∈ G′ ∩ (F ∩ G) = 0E et finalement x′ = y′ = z = 0E . Donc lasomme est directe. De plus, on constate que

F +G = [(F ∩G) + F ′] + [(F ∩G) +G′] = F ′ +G′ + (F ∩G).

Alors, d’après la propriété sur la dimension d’une somme,

dim(F +G) = dim(F ′) + dim(G′) + dim(F ∩G)

= dim(F )− dim(F ∩G) + dim(G)− dim(F ∩G) + dim(F ∩G)

= dim(F ) + dim(G)− dim(F ∩G).

44

Exemple – Soit E = Mn(R) (n > 2), F = Sn(R) (ensemble des matrices symétriques de Mn(R))et G l’ensemble des matrices triangulaires supérieures de Mn(R). Alors F et G sont des sous-espaces vectoriels de E, dont l’intersection est l’ensemble des matrices diagonales de Mn(R). Ona, d’après la formule de Grassmann,

dim(F +G) = dim(F ) + dim(G) − dim(F ∩G) =n(n+ 1)

2+n(n+ 1)

2− n = n2.

Sachant que dim(Mn(R)) = n2, on en déduit que F +G = Mn(R).

On peut d’ailleurs prouver ce résultat directement en décomposant toute matrice A de Mn(R)sous la forme de la somme d’une matrice symétrique S et d’une matrice triangulaire supérieureT : on choisit pour S la matrice de diagonale nulle dont la partie « strictement inférieure » est lamême que celle de A, et dont la partie « strictement supérieure » est obtenue par symétrie de lapartie strictement inférieure. On pose alors T = A−S ; T est triangulaire supérieure car A et S ontla même partie triangulaire strictement inférieure. On a donc la décomposition souhaitée. Cettedécomposition n’est pas unique car la somme F +G n’est pas directe (F ∩G 6= 0E), l’absenced’unicité provient en fait, lorsque l’on effectue la décomposition, d’un choix des diagonales quin’est pas unique : on peut choisir pour S, au lieu d’une diagonale nulle, une diagonale quelconque.

III. Applications linéaires

Dans toute la suite, E et F désignent deux K-espaces vectoriels.

1. Définition et exemples

On appelle application linéaire de E dans F toute application u de E dans F vérifiantles deux conditions suivantes :

• ∀ (x,y) ∈ E2 , u(x+ y) = u(x) + u(y),

• ∀λ ∈ K , ∀x ∈ E , u(λx) = λu(x).

L’ensemble des applications linéaires de E dans F est noté L (E,F ).

Si u est une application linéaire de E dans E, on dit que u est un endomorphismede E. L’ensemble des endomorphismes de E est noté L (E).

Définition – Application linéaire

Remarque – Si u est linéaire, on a nécessairement u(0E) = 0F . En effet,

u(0E) = u(0E + 0E) = u(0E) + u(0E),

d’où le résultat par soustraction de u(0E). En particulier, si u(0E) 6= 0F , alors u n’est pas linéaire.

Par exemple, u :

R3 → R2

(x,y,z) 7→ (2x+ y,1)n’est pas linéaire.

L’application u de E dans F est linéaire si et seulement si

∀ (x,y) ∈ E2, ∀λ ∈ K, u(λx+ y) = λu(x) + u(y).

Propriété

45

Exemples

• L’application nulle de E dans F , u :

E → Fx 7→ 0F

est une application linéaire. On la

notera 0L (E,F ) ou 0L (E) si E = F .

• L’application identité de E dans E, IdE :

E → Ex 7→ x

est une application linéaire.

• Plus généralement, si λ ∈ K, l’application de E dans E, f :

E → Ex 7→ λx

est une application

linéaire. Elle est appelée homothétie de rapport λ.

• L’application f :

R3 → R2

(x,y,z) 7→ (2x+ y − z,x− y + z)est linéaire.

• L’application φ :

C1(R,R) → C0(R,R)

f 7→ f ′est linéaire.

Soit M ∈Mn,p(K). On définit une application uM par

uM :

Mp,1(K) → Mn,1(K)

X 7→ MX

L’application uM est linéaire , elle est appelée application linéaire canoniquementassociée à la matrice M .

Définition – Application linéaire canoniquement associée à une matrice

2. Opérations sur les applications linéaires

Soient u et v deux éléments de L (E,F ) et λ ∈ K. Sachant que F est un K-espacevectoriel, on définit des applications u+ v et λ · u (ou simplement λu) en posant, pourtout x ∈ E,

(u+ v)(x) = u(x) + v(x) et (λu)(x) = λ · u(x).

Définition

L’espace (L(E,F ), + ,·) est un K-espace vectoriel. En particulier,

∀ (u,v) ∈ L (E,F )2, ∀λ ∈ K, u+ v ∈ L (E,F ) et λu ∈ L (E,F ).

Propriété

Soient E, F et G trois K-espaces vectoriels. Si u ∈ L (E,F ) et v ∈ L (F,G) alorsv u ∈ L (E,G).

Propriété – Composition d’applications linéaires

La démonstration de ces deux propriétés est laissée en exercice.

Cas particuliers des endomorphismes

Les deux propriétés ci-dessus montrent que L (E) est un ensemble dont les éléments peuventêtre additionnés, multipliés par un scalaire, et composés. En général, la loi de composition n’estpas commutative : il existe des endomorphismes u et v de E tels que u v 6= v u.

46

Soit u un endomorphisme de E. Pour tout k ∈ N, on note uk l’endomorphisme obtenuen effectuant la composition u · · · u (k fois). Par convention, u0 = IdE .

Définition

Soient u et v deux endomorphismes de E qui commutent (c’est-à-dire tels que uv =v u). Alors

∀n ∈ N, (u+ v)n =

n∑

k=0

(nk

)

uk vn−k =

n∑

k=0

(nk

)

un−k vk.

Propriété – Formule du binôme de Newton

Démonstration – Il suffit de démontrer la première des deux formules, l’autre en étant une réécri-ture obtenue par changement d’indice. On remarque tout d’abord que pour tout k ∈ N, uk etv commutent (cela se prouve par récurrence immédiate sur k). On prouve alors la formule parrécurrence sur n. Pour n = 0, le résultat est évident car (u+ v)0 = IdE par convention, et

0∑

k=0

(0k

)

uk v0−k = u0 v0 = IdE IdE = IdE .

Supposons le résultat vrai au rang n. Alors

(u+ v)n+1 = (u+ v) (u+ n)n = (u+ v) n∑

k=0

(nk

)

uk vn−k

par hypothèse de récurrence. Par linéarité de u et v et le fait que v commute avec toutes lespuissances de u, on a donc

(u+ v)n+1 =n∑

k=0

(nk

)

uk+1 vn−k +n∑

k=0

(nk

)

uk vn−k+1.

Par le changement d’indice m = k + 1 dans la première somme, on obtient

(u+ v)n+1 =n+1∑

m=1

(n

m− 1

)

um vn−m+1 +n∑

k=0

(nk

)

uk vn−k+1.

En regroupant les termes communs dans ces deux sommes (on rappelle que k et m sont desindices muets), on a

(u+ v)n+1 = un+1 +

n∑

k=1

((n

k − 1

)

+

(nk

))

uk vn−k+1 + vn+1

= un+1 +

n∑

k=1

(n+ 1k

)

uk vn+1−k + vn+1

d’après la formule de Pascal. On remarque alors que les termes un+1 et vn+1 correspondent auterme général de la somme, pour k = n + 1 et k = 0 respectivement. On a donc la formule aurang n+ 1 et finalement pour tout n par principe de récurrence.

Remarque – On utilise souvent cette formule dans le cas où l’un des deux endomorphismes estl’identité, ou une homothétie, qui commute avec tous les endomorphismes.

47

Polynômes d’endomorphismes

Soit u ∈ L (E) et P (X) =∑d

k=0 akXk ∈ K[X]. On peut alors définir P (u), nouvel

élément de L (E) par

P (u) =d∑

k=0

akuk = adu

d + · · ·+ a1u+ a0 IdE .

On dit que P (u) est un polynôme de u. L’ensemble des polynômes de u est noté K[u].

Définition – Polynômes d’un endomorphisme

Attention ! Ne pas se tromper dans le terme a0 IdE correspondant au terme constant de P ! Parexemple, lorsque P (X) = X2 + 2X + 3, on a P (u) = u2 + 2u + 3 IdE , c’est-à-dire, pour toutx ∈ E,

P (u)(x) = u2(x) + 2u(x) + 3x.

Soit u ∈ L (E). Soient P et Q deux éléments de K[X] et λ ∈ K. Alors :

• 1(u) = IdE

• (λP +Q)(u) = λP (u) +Q(u).

• (PQ)(u) = P (u) Q(u). En particulier, P (u) et Q(u) commutent.

Propriété

Soit u ∈ L (E). On dit qu’un polynôme P ∈ K[X] est annulateur de u (ou que que uannule P ) si P (u) = 0L (E).

Définition

3. Applications linéaires et sommes directes

Soit (Ei)16i6p une famille de sous-espaces vectoriels de E telle que E =⊕p

i=1Ei.

Pour tout i ∈ [[1,p]], soit ui une application linéaire de Ei dans F .

Alors il existe une unique application linéaire u de E dans F dont la restriction à Ei

soit ui pour tout i ∈ [[1,p]].

Théorème

Démonstration

Analyse : si u vérifie les conditions ci-dessus et si x = x1 + · · ·+ xp ∈ E avec xi ∈ Ei pour touti, on a nécessairement

u(x) = u(x1 + · · ·+ xp) = u(x1) + · · · + u(xp) = u1(x1) + · · ·+ up(xp).

L’application u est donc entièrement déterminée, et ceci prouve en particulier son unicité.

Synthèse : pour tout x = x1 + · · · + xp avec xi ∈ Ei pour tout i, on pose

u(x) = u1(x1) + · · ·+ up(xp).

48

L’application u est bien définie car la décomposition de x existe et est unique, la somme étantdirecte et égale à E. Elle est linéaire : si x = x1 + · · ·+xp et y = y1 + · · ·+yp sont deux élémentsde E décomposés sur la somme E1 ⊕ · · · ⊕ Ep, et si λ ∈ K, alors

λx+ y =

p∑

i=1

(λxi + yi),

avec λxi + yi ∈ Ei pour tout i ∈ [[1,p]], donc par définition,

u(λx+ y) =

p∑

i=1

ui(λxi + yi) =

p∑

i=1

(λui(xi) + ui(yi))

par linéarité des ui. Finalement

u(λx+ y) = λ

p∑

i=1

ui(xi) +

p∑

i=1

ui(yi) = λu(x) + u(y).

Enfin, u coïncide avec ui sur Ei, car pour tout x ∈ Ei, u(x) = ui(x), les autres composantes dex dans la décomposition étant nulles. Ceci prouve l’existence de u.

On suppose E de dimension finie. Soient B = (e1, . . . ,en) une base de E et (f1, . . . ,fn)une famille de vecteurs de F .

Alors il existe une unique application linéaire u ∈ L (E,F ) telle que pour tout i ∈ [[1,n]],u(ei) = fi.

Corollaire

Démonstration – On a E =⊕n

i=1 Vect(ei) ; il suffit d’appliquer le résultat précédent avec, pourtout i,

ui :

Vect(ei) → F

λ ei 7→ λ fi

4. Image et noyau d’une application linéaire

Image et surjectivité

L’image par une application linéaire u ∈ L (E,F ) d’un sous-espace vectoriel de E estun sous-espace vectoriel de F .

Propriété

Démonstration – Soit G un sous-espace vectoriel de E. Tout d’abord, on a évidemment u(G) ⊂ F .De plus, 0F ∈ u(G) car 0F = u(0E) et 0E ∈ E. Enfin, soient u(x) et u(y) deux éléments de u(G)avec x ∈ G et y ∈ G, et soit λ ∈ K. Alors, par linéarité de u, λu(x) + u(y) = u(λx + y). OrG est un sous-espace vectoriel de E et x et y sont deux éléments de G, donc λx + y ∈ G, etainsi u(λx+ y) ∈ u(G). On a donc montré que u(G) est stable par combinaison linéaire, d’où lerésultat.

L’image de u, notée Im(u), est l’image de E par u, i.e. l’ensemble des images deséléments de E par u :

Im(u) = u(E) = y ∈ F ; ∃x ∈ E, u(x) = y .

L’ensemble Im(u) est un sous-espace vectoriel de F d’après la propriété précédente.

Propriété/Définition – Image d’une application linéaire

49

Soit u ∈ L (E,F ) et (e1, . . . ,en) une famille génératrice de E (par exemple, une base).Alors Im(u) est le sous-espace vectoriel de F engendré par les vecteurs u(e1), . . . , u(en) :

Im(u) = Vect (u(e1), . . . ,u(en)) .

Propriété – Détermination de Im(u)

Démonstration – Si y = u(x) ∈ Im(u) avec x ∈ E, on peut décomposer x sur la famille génératrice(e1, . . . ,en) de E : il existe (λ1, . . . ,λn) ∈ Kn tel que x = λ1e1 + · · · + λnen. Par linéarité de u,on a donc

y = u(x) = λ1u(e1) + · · ·+ λnu(en) ∈ Vect (u(e1), . . . ,u(en)) .

Ainsi Im(u) ⊂ Vect (u(e1), . . . ,u(en)) . Réciproquement, Im(u) est un sous-espace vectoriel de Fauquel appartiennent u(e1), . . . ,u(en), donc

Vect (u(e1), . . . ,u(en)) ⊂ Im(u).

On a donc l’égalité souhaitée.

Remarque – Soit u ∈ L (E,F ) ; u est surjective si et seulement si pour tout y ∈ F , il existe x ∈ Etel que u(x) = y, c’est-à-dire si et seulement si Im(u) = F .

Exemple – Soit φ :

C1(R,R) → C0(R,R)

f 7→ f ′

L’application linéaire φ est surjective, car toute fonction continue sur R possède des primitives,qui sont de classe C1.

Noyau et injectivité

Soit u ∈ L (E,F ). Le noyau de u est l’ensemble des vecteurs de E qui ont pour imagele vecteur nul de F . On le note Ker(u). On a donc :

Ker(u) = x ∈ E; u(x) = 0F = u−1(0F ).

Ker(u) est un sous-espace vectoriel de E.

Propriété/Définition – Noyau d’une application linéaire

Démonstration – Tout d’abord, Ker(u) ⊂ E par définition. De plus, 0E ∈ Ker(u) car u(0E) = 0F .Enfin, soient x et y deux éléments de E, et λ ∈ K. Alors par linéarité de u,

u(λx+ y) = λu(x) + u(y) = λ · 0F + 0F = 0F ,

et donc λx+ y ∈ Ker(u). Ceci montre que Ker(u) est un sous-espace vectoriel de E.

Exemple – Soit u :

R3 → R3

(x,y,z) 7→ (x− 2y,x+ 2z,x− y + z)

Pour déterminer Ker(u), on résout l’équation u(x,y,z) = 0, ce qui nous conduit à la résolutiondu système :

x −2y = 0x +2z = 0x −y +z = 0

qui équivaut à

x = −2zy = −z

D’où Ker(u) = (−2z,− z,z), z ∈ R = Vect(−2,− 1,1).

Soit u ∈ L (E,F ). Pour que u soit injective, il faut et il suffit que Ker(u) = 0E.Propriété

50

Démonstration

⇒ Soit x ∈ Ker(u). Alors u(x) = 0F = u(0E), donc par injectivité de u, x = 0E , ce qui montreque Ker(u) ⊂ 0E, l’inclusion réciproque étant toujours vraie.

⇐ Soient x et y deux éléments de E tels que u(x) = u(y). Par linéarité de u, on a u(x−y) = 0F ,et donc x− y ∈ Ker(u) = 0E. Ainsi x = y, ce qui prouve que u est injective.

Exemple – Soit φ :

C1(R,R) → C0(R,R)

f 7→ f ′

L’application linéaire φ n’est pas injective, car toute fonction constante appartient à sonnoyau (et il existe des fonctions constantes non nulles). En fait, Ker(φ) est égal à l’ensemble desfonctions constantes sur R.

Équations linéaires

Une équation linéaire est une équation de la forme u(x) = b où u ∈ L (E,F ) etb ∈ F , d’inconnue x ∈ E.

Définition

Bien sûr, l’équation u(x) = b possède des solutions si et seulement si b ∈ Im(u). Si l’équationest sans second membre, c’est-à-dire si b = 0, alors elle s’écrit u(x) = 0, équation dont l’ensembledes solutions est Ker(u). En particulier, l’ensemble des solutions d’une équation linéaire sanssecond membre est un K-espace vectoriel.

Dans le cas général (b quelconque), on peut décrire la forme de l’ensemble des solutions :

Avec les notations précédentes, si x0 ∈ E est une solution particulière de u(x) = b,alors l’ensemble S des solutions de cette équation est

S = x0 + y; y ∈ Ker(u).

Propriété – Structure de l’ensemble des solutions

Démonstration – On a u(x0) = b et donc pour x ∈ E, on a les équivalences :

u(x) = b ⇔ u(x) = u(x0) ⇔ u(x− x0) = 0F ⇔ x− x0 ∈ Ker(u),

d’où le résultat.

Exemples

• On considère le système linéaire de n équations à p inconnues suivant :

(S) :

a1,1x1+ · · · + a1,pxp = b1

a2,1x1+ · · · + a2,pxp = b2

...

an,1x1+ · · · + an,pxp = bn

En notant A = (ai,j)16i6n,16j6p ∈ Mn,p(K), X ∈ Mp,1(K) la matrice colonne de coefficientsx1, . . . ,xp et B ∈Mn,1(K) la matrice colonne de coefficients b1, . . . ,bn, ce système se met sous laforme matricielle (E) : AX = B, c’est-à-dire que (x1, . . . ,xp) est solution de (S) si et seulementsi X est solution de (E). Le système (S) et l’équation (E) sont des équations linéaires. Dans lecas de l’équation (E) : AX = B, on a u = uA, application linéaire canoniquement associée à A.

On dit que A est la matrice du système linéaire (S). On reviendra en détails sur l’étudedes systèmes linéaires dans le chapitre suivant.

51

• Les équations différentielles linéaires d’ordre 1 et 2 (avec ou sans second membre) sont deséquations linéaires : l’équation y′ + a(x)y = b(x) (où a et b sont deux fonctions continues sur unintervalle I à valeurs dans K) peut s’écrire u(y) = b où

u :

C1(I,K) → C0(I,K)

y 7→ y′ + ay

De même, l’équation y′′+ay′+by = f(x) (où a et b sont deux scalaires et f une fonction continuesur I à valeurs dans K) peut s’écrire u(y) = f où

u :

C2(I,K) → C0(I,K)

y 7→ y′′ + ay′ + by

5. Projecteurs et symétries

• Soit p ∈ L (E). On dit que p est un projecteur s’il existe deux sous-espaces vectorielsF et G de E tels que E = F ⊕G et, pour tout x = y + z ∈ E avec y ∈ F et z ∈ G, onait p(x) = y.

Dans ce cas, on a F = Im(p) = Ker(p − IdE) et G = Ker(p). On dit que p est leprojecteur (ou la projection) sur F parallèlement à G.

• Soit s ∈ L (E). On dit que s est une symétrie s’il existe deux sous-espaces vectorielsF et G de E tels que E = F ⊕G et, pour tout x = y + z ∈ E avec y ∈ F et z ∈ G, onait s(x) = y − z.Dans ce cas, on a F = Ker(s− IdE) et G = Ker(s+ IdE). On dit que p est la symétriepar rapport à F parallèlement à G.

Propriété/Définition – Projecteur, symétrie

y = p(x)

xz = x− p(x)

−z s(x) = y − z

G

F

52

Démonstration des égalités sur les images et noyaux

• Si p est la projection sur F parallèlement à G, alors pour tout x = y + z ∈ E avec y ∈ F etz ∈ G, p(x) = y. Or x ∈ Ker(p − IdE) si et seulement si p(x) = x, ce qui équivaut au fait quey = y + z, et donc que z soit nul, c’est-à-dire que x ∈ F. Donc F = Ker(p− IdE).

De même, x ∈ Ker(p) si et seulement si p(x) = 0, ce qui équivaut au fait que y soit nul, etdonc au fait que x ∈ G. Donc G = Ker(p).

Enfin, par définition, Im(p) ⊂ F , et si y ∈ F , p(y) = y (la décomposition de y sur lasomme directe E = F ⊕ G est y = y + 0E) , d’où : Im(p) ⊂ Ker(p − IdE). Réciproquement, six ∈ Ker(p− IdE), alors x = p(x) ∈ Im(p). On a donc Im(p) = Ker(p− IdE).

• On procède de façon analogue pour les symétries.

Remarque – Avec les notations précédentes, on a IdE +s = 2p.

• Soit p ∈ L (E). Pour que p soit un projecteur, il faut et il suffit que p2 = p.

• Soit s ∈ L (E). Pour que s soit une symétrie, il faut et il suffit que s2 = IdE .

Propriété

Démonstration – D’après ce qui précède, si p est un projecteur, alors Im(p) = Ker(p − IdE). Onen déduit que (p − IdE) p = 0, et donc p2 = p. Réciproquement, si p ∈ L (E) vérifie p2 = p,montrons que E = Ker(p− IdE)⊕Ker(p) : tout d’abord, l’intersection de ces deux sous-espacesvectoriels de E est réduite au vecteur nul, car si p(x) = x et p(x) = 0E , alors x = 0E . De plus,pour tout x ∈ E,

x = (x− p(x)) + p(x)

avec p(x) ∈ Ker(p− IdE) et x− p(x) ∈ Ker(p) car p2 = p.

On a donc bien E = Ker(p−IdE)⊕Ker(p). Il s’ensuit que p est le projecteur sur Ker(p−IdE)parallèlement à Ker(p), car si x = y + z ∈ E avec y ∈ Ker(p − IdE) et z ∈ Ker(p), on ap(x) = p(y) = y.

On a donc l’équivalence souhaitée. Pour les symétries on procède de la même façon en rem-plaçant Ker(p) par Ker(s+ IdE).

Remarque – Cette propriété se reformule ainsi : p ∈ L (E) est un projecteur si et seulement siX2−X est annulateur de p ; s ∈ L (E) est une symétrie si et seulement si X2−1 est annulateurde s.

IV. Isomorphismes et automorphismes

1. Définitions et premières propriétés

• Soit u une application de E dans F . On dit que u est un isomorphisme de E surF si u est linéaire et bijective de E sur F .

• On dit que E et F sont des espaces isomorphes s’il existe un isomorphisme de Esur F .

Définition – Isomorphismes, espaces isomorphes

Exemple – Les espaces Mn,1(K), M1,n(K) et Kn sont isomorphes.

Si u est un isomorphisme de E sur F , alors u−1 est un isomorphisme de F sur E.

Propriété

53

Démonstration – Il suffit de montrer que u−1 est linéaire. Soit (x,y) ∈ F 2 et λ ∈ K. Alors

u−1(λx+ y) = u−1(λ(u u−1)(x) + (u u−1)(y)) = u−1(u(λu−1(x) + u−1(y))

par linéarité de u. En simplifiant u−1 u, on obtient

u−1(λx+ y) = λu−1(x) + u−1(y).

Soit u ∈ L (E,F ). Pour que u soit un isomorphisme de E sur F , il faut et il suffit qu’ilexiste une application v ∈ L (F,E) telle que u v = IdF et v u = IdE .

Dans ce cas, u−1 = v.

Propriété

Démonstration – Bien sûr, il suffit de montrer l’implication réciproque. Si un tel v existe, u estinjective car, si x ∈ E vérifie u(x) = 0F , alors v(u(x)) = 0E et donc x = 0E . De plus, u estsurjective, car pour tout y ∈ F , y = u(v(y)) est l’image par u du vecteur v(y) ∈ E. Finalementu est un isomorphisme et la relation u v = IdF entraîne que u−1 = v.

Méthode – Pour prouver que u est un isomorphisme de E sur F , on peut donc :

• Montrer que u est linéaire, injective et surjective.

• Montrer que u est linéaire et déterminer v ∈ L (F,E) tel que u v = IdF et v u = IdE .

Cette dernière méthode est très utile lorsque l’on a l’intuition de l’expression de u−1.

Exemples

• Soient

u :

Rn[X] → Rn[X]P (X) 7→ P (X + 2)

et v :

Rn[X] → Rn[X]Q(X) 7→ Q(X − 2)

Alors u est un isomorphisme de Rn[X] sur Rn[X], de bijection réciproque v.

• Soit u ∈ L (E) et soit P (X) = adXd + · · · + a0 ∈ K[X] (d > 1) tel que P (u) = 0L (E),

c’est-à-dire0L (E) = adu

d + · · ·+ a0 IdE .

Si le coefficient constant a0 de P est différent de 0, alors on peut écrire

−ad

a0ud − · · · − a1

a0u = IdE,

et donc

u (

−ad

a0ud−1 + · · · − a1

a0IdE

)

=

(

−ad

a0ud−1 + · · · − a1

a0IdE

)

u = IdE .

Ainsi, u est un isomorphisme de E sur E, de bijection réciproque

−ad

a0ud−1 − · · · − a1

a0IdE .

Cette expression de u−1 est d’autant plus simple que P est de bas degré. On voit donc quel’obtention de polynômes annulateurs de u peut donner des informations importantes sur u. Ondéveloppera largement ce thème dans le chapitre Réduction des endomorphismes et desmatrices carrées.

Par exemple, soit u ∈ L (E) tel que u3 + 2u− Id = 0. Alors

u (u2 + 2 Id) = (u2 + 2 Id) u = Id .

On sait donc que u est un isomorphisme de E sur E avec u−1 = u2 + 2 Id .

54

Si u est un isomorphisme de E sur E (c’est-à-dire si u : E → E est linéaire et bijective)on dit que u est un automorphisme de E.

L’ensemble des automorphismes de E est noté Gℓ(E).

Définition – Automorphismes

L’ensemble Gℓ(E), muni de l’opération de composition des applications, est appelégroupe linéaire de E. On a notamment :

• Si u ∈ Gℓ(E), alors u−1 ∈ Gℓ(E).

• Si u ∈ Gℓ(E) et v ∈ Gℓ(E) alors uv ∈ Gℓ(E). En fait, on a : (uv)−1 = v−1u−1.

Si u ∈ Gℓ(E), on dit également que u est inversible, et u−1 est appelé inverse de u.


Démonstration – Le premier point a été démontré plus haut. Quant au second, soient u et v deuxéléments de Gℓ(E), alors on sait déjà que u v est linéaire ; de plus,

(u v) (v−1 u−1) = u (v v−1) u−1 = u IdE u−1 = u u−1 = IdE

et de même, (v−1 u−1)(uv) = IdE . Ceci prouve que uv ∈ Gℓ(E) avec (uv)−1 = v−1 u−1.

2. Isomorphismes en dimension finie

Caractérisation

On suppose que E est de dimension finie n > 1. Soit B = (e1, . . . ,en) une base de E etu ∈ L (E,F ).

L’application u est un isomorphisme si et seulement si u(B) = (u(e1), . . . , u(en)) estune base de F .

Théorème – Caractérisation des isomorphismes par les bases

Démonstration

⇒ Supposons que u est un isomorphisme, et montrons que u(B) est une famille libre et géné-ratrice de F .

Liberté : si λ1u(e1) + · · ·+ λnu(en) = 0F pour des scalaires λ1, . . . ,λn, alors par linéarité de u,

u(λ1e1 + · · · + λnen) = 0F .

L’application u étant injective, on a donc λ1e1 + · · · + λnen = 0E . La famille B étant libre, onen déduit que λi = 0 pour tout i.

Aspect générateur : soit y ∈ F et x ∈ E tel que u(x) = y (un tel x existe car u est surjective).On peut alors écrire x = λ1e1 + · · · + λnen pour des scalaires λ1, . . . ,λn, car B est une famillegénératrice de E. Finalement

y = u(x) = u(λ1e1 + · · ·+ λnen) = λ1u(e1) + · · · + λnu(en).

On a donc montré que y ∈ Vect(u(e1), . . . ,u(en)), et ce pour tout y ∈ F , d’où le résultat.

⇐ Si u(B) = (u(e1), . . . , u(en)) est une base de F , montrons que u est bijective.

Injectivité : soit x = λ1e1 + · · · + λnen ∈ E tel que u(x) = 0F . Alors

0F = u(λ1e1 + · · · + λnen) = λ1u(e1) + · · · + λnu(en).

55

La famille (u(e1), . . . ,u(en)) étant libre, on a λi = 0 pour tout i, et donc x = 0E : u est injective.

Surjectivité : (u(e1), . . . ,u(en)) engendre F , donc pour tout y ∈ F , il existe des scalairesλ1, . . . ,λn tels que y = λ1u(e1) + · · · + λnu(en), et ainsi

y = u(λ1e1 + · · ·+ λnen)

avec λ1e1 + · · ·+ λnen ∈ E. Finalement, y ∈ Im(u), pour tout y ∈ F : u est surjective.

Remarque – Pour le sens direct, on a en fait montré les résultats suivants :

• Si u est injective, alors l’image par u d’une famille libre d’éléments de E est une famille libred’éléments de F .

• Si E est de dimension finie, et si u est surjective, alors l’image par u d’une famille génératricede E est une famille génératrice de F .

Soient E et F deux K-espaces vectoriels de même dimension finie n et u uneapplication linéaire de E dans F . On a les équivalences :

u est injective ⇔ u est surjective ⇔ u est bijective.

Théorème – Caractérisation des isomorphismes en dimension finie

Démonstration – Le résultat est évident si n = 0 (les trois propriétés sont vraies). Sinon, soitB une base de E. Si u est injective, u(B) est une famille libre d’éléments de F de n = dim(F )vecteurs ; c’est donc une base de F . Donc u est bijective d’après le théorème précédent. Si u estsurjective, u(B) est une famille génératrice de F de n vecteurs ; c’est donc une base de F . Dansce cas aussi, u est bijective. Les implications réciproques sont évidentes.

Bilan – Sous les hypothèses précédentes, les propriétés suivantes sont équivalentes :

• u est bijective,

• u est injective,

• u est surjective,

• u est un isomorphisme de E sur F,

• Ker(u) = 0E ,• Im(u) = F,

• u transforme toute base de E en une base de F .

Attention ! L’hypothèse dim(E) = dim(F ) est cruciale. En effet :

• f : x 7→ (x,x), de R dans R2, est injective mais non surjective.

• g : (x,y) 7→ x, de R2 dans R, est surjective mais non injective.

De même, l’hypothèse de dimension finie est essentielle même si E = F , comme le montrel’exemple suivant : soit φ : C0([0,1],R) 7→ C0([0,1],R) l’application linéaire définie par :

∀ f ∈ C0([0,1],R), φ(f) : x 7→∫ x

0f(t)dt.

Alors φ est un endomorphisme, φ est injective mais non surjective.

Autre contre-exemple : si D : K[X]→ K[X] désigne l’opérateur de dérivation P 7→ P ′, alorsD est un endomorphisme, D est surjective mais non injective.

Espaces isomorphes

Soit u ∈ L (E,F ) un isomorphisme. Alors E est de dimension finie si et seulement siF est de dimension finie, et dans ce cas dim(E) = dim(F ). On mentionne souvent cerésultat en disant : « les isomorphismes préservent la dimension ».

Propriété

56

Démonstration – Supposons E de dimension finie n. Si n = 0, le résultat est évident car alorsF = 0F . Si n > 1, l’image d’une base de E par u est une base de F , qui par conséquentest de dimension finie. De plus, ces deux bases ont le même nombre de vecteurs, donc on adim(E) = dim(F ). Si F est de dimension finie, on raisonne de la même façon avec la bijectionréciproque u−1 : F → E.

Soit E un K-espace vectoriel de dimension finie n. Un K-espace vectoriel F est iso-morphe à E si et seulement si F est de dimension finie avec dim(F ) = n.

Propriété – Caractérisation des espaces isomorphes par la dimension

Démonstration – Si E et F sont isomorphes, la propriété précédente montre que F est de dimensionfinie n. Réciproquement, supposons que F est de dimension finie n. Si n = 0, le résultat estévident, l’application nulle étant un isomorphisme de E sur F . Si n > 1, soit (e1, . . . , en) unebase de E et (f1, . . . , fn) une base de F . L’unique application linéaire de E dans F vérifiantu(ei) = fi pour tout i est un isomorphisme de E sur F , car elle transforme une base de E enune base de F . Les espaces E et F sont donc isomorphes.

Exemple – Si dim(E) = n > 1 et si (e1, . . . ,en) est une base de E, alors l’application linéaire

φ :

L (E,F ) → Fn

u 7→ (u(e1), . . . ,u(en))

est un isomorphisme : en effet, pour toute famille (f1, . . . ,fn) d’éléments de F , il existe uneunique application linéaire u ∈ L (E,F ) telle que u(ei) = fi pour tout i ∈ [[1,n]], c’est-à-dire,telle que φ(u) = (f1, . . . ,fn). Ainsi, si F est de dimension finie, L(E,F ) est un espace vectoriel dedimension finie et de même dimension que Fn, i.e. de dimension n×dim(F ) = dim(E)×dim(F ).

Tout K-espace vectoriel E de dimension n > 1 est isomorphe à Kn.

Corollaire

Remarque – Dans ce cas, pour faire le lien avec la démonstration de la propriéte précédente,on choisit F = Kn, (f1, . . . ,fn) la base canonique de Kn, et u : E → Kn l’application qui àtout vecteur de E associe le n-uplet de ses coordonnées dans une base fixée (e1, . . . , en) de E.L’application u est parfois appelée isomorphisme des coordonnées.

Le corollaire précédent montre que Kn est le « modèle » du K-espace vectoriel de dimension n.

V. Rang et théorème du rang

1. Rang d’une application linéaire

Soit u une application linéaire de E dans F . Si Im(u) est de dimension finie, on dit queu est de rang fini et on appelle rang de u la dimension de Im(u), notée rg(u).

Définition – Rang d’une application linéaire

Remarques

• Si F est de dimension finie, alors sachant que Im(u) ⊂ F , on en déduit que u est de rang finiavec

rg(u) 6 dim(F ).

On a égalité si et seulement si Im(u) = F , i.e., si et seulement si u est surjectif.

• Si E est dimension finie n et si (e1, . . . , en) est une famille génératrice de E, on sait queIm(u) = Vect(u(e1), . . . ,u(en)), donc u est de rang fini avec

rg(u) = rg(u(e1), . . . ,u(en)) 6 n = dim(E).

En particulier, si, de plus, u est surjective, alors F est de dimension finie et dim(F ) 6 dim(E).

57

Soient E, F et G trois K-espaces vectoriels et u : E → F , v : F → G deux applicationslinéaires. Si u ou v est de rang fini, alors v u est de rang fini ; dans le premier cas ona rg(v u) 6 rg(u), dans le second, rg(v u) 6 rg(v).

En particulier, si u et v sont tous deux de rang fini,

rg(v u) 6 minrg(u), rg(v).

Propriété – Rang et composition

Démonstration – Tout d’abord, Im(v u) ⊂ Im(v), donc si v est de rang fini, v u est de rang finiavec

rg(v u) = dim(Im(v u)) 6 dim(Im(v)) = rg(v).

Cela prouve l’inégalité dans le second cas évoqué ci-dessus.

Dans le premier cas, notons r le rang de u. Si r = 0, u et v u sont nulles, donc le résultat estvrai. Si r > 1, il existe une base (u(e1), . . . ,u(er)) de Im(u) où e1, . . . ,er sont des vecteurs de E.Montrons alors que ((vu)(e1), . . . ,(vu)(er)) engendre Im(vu) : soit z = (vu)(x) ∈ Im(vu)avec x ∈ E. Alors u(x) ∈ Im(u), on peut donc le décomposer sous la forme

u(x) = λ1u(e1) + · · · + λru(er)

où (λ1, . . . ,λr) ∈ Kr. Par linéarité de v, on a alors

z = λ1(v u)(e1) + · · ·+ λr(v u)(er),

ce qui prouve que ((v u)(e1), . . . ,(v u)(er)) engendre Im(v u). On en déduit que v u est derang fini avec

rg(v u) 6 r = rg(u),

d’où le résultat dans ce cas.

Soit f ∈ Gℓ(E) et g ∈ Gℓ(F ) deux automorphismes et u ∈ L(E,F ). Si u est de rangfini, alors g u f est de rang fini et

rg(u) = rg(g u f).

Propriété – Invariance du rang par composition par des isomorphismes

Démonstration – D’après l’inégalité de la propriété précédente, on sait que g u est de rang finiavec rg(g u) 6 rg(u). On en déduit de la même façon que g u f est de rang fini avec

rg(g u f) 6 rg(g u) 6 rg(u).

En remarquant queu = g−1 (g u f) f−1

et en raisonnant de même, on obtient l’inégalité opposée

rg(u) 6 rg(g u f)

et finalement le résultat.

2. Théorème du rang

Si E est de dimension finie et u ∈ L (E,F ), alors u est de rang fini et

dim(E) = dim(Ker(u)) + rg(u).

Théorème du rang

58

Démonstration – L’espace E est de dimension finie, on sait déjà d’après une remarque précédenteque u est de rang fini ; de plus, Ker(u) admet un supplémentaire V (dans E) : E = Ker(u)⊕ V .Soit

u :

V → Im(u)x 7→ u(x)

Alors u est injective : soit x ∈ V tel que u(x) = 0Im(u) = 0F . Alors x ∈ V ∩Ker(u) = 0E, doncx = 0E = 0V . De plus, u est surjective : fixons y ∈ Im(u) et soit x ∈ E tel que u(x) = y. Onécrit x = x1 + x2 avec x1 ∈ V et x2 ∈ Ker(u). On a donc

y = u(x1 + x2) = u(x1) + u(x2) = u(x1) = u(x1),

et donc y ∈ u(V ). Finalement, u est un isomorphisme de V sur Im(u) avec E = Ker(u) ⊕ V ,donc

dim(E) = dim(Ker(u)) + dim(V ) = dim(Ker(u)) + dim(Im(u)),

car les isomorphismes préservent la dimension. On a donc le résultat car dim(Im(u)) = rg(u).

Remarque – On retrouve la caractérisation des isomorphismes en dimension finie : si E et F sontde même dimension finie n, on sait que u est injective si et seulement si dim(Ker(u)) = 0, ce quiéquivaut d’après le théorème du rang à rg(u) = dim(E) = dim(F ), c’est-à-dire à la surjectivitéde u. En particulier, u est un isomorphisme si et seulement si rg(u) = n.

VI. Formes linéaires et hyperplans

Nous allons maintenant expliciter un lien particulier entre un certain type de sous-espacesvectoriels de E et un certain type d’applications linéaires. Dans cette partie, E est de dimensionfinie n > 1.

1. Formes linéaires

On appelle forme linéaire sur E toute application linéaire de E dans K, i.e., toutélément de L (E,K).

Définition – Forme linéaire

Remarques

• Il s’agit d’un cas particulier d’application linéaire avec F = K ; en particulier, les scalaires sontégalement les vecteurs de l’espace d’arrivée.

• L’espace vectoriel K est un K-espace vectoriel de dimension 1, et donc L (E,K) est de dimensionn, comme E.

Exemples

• Pour tout i ∈ [[1,n]], l’application

φi :

Kn → K

(x1, . . . ,xn) 7→ xi

est une forme linéaire sur Kn, appelée i-ième forme coordonnée (associée à la base canoniquede Kn). Elle est aussi notée dxi.

• L’application

ψ :

Kn[X] → K

f 7→∫ 1

0f(x) dx

est une forme linéaire sur Kn[X].

59

• Pour tout α ∈ K, l’application

ϕ :

Kn[X] → K

P 7→ P (α)

est une forme linéaire sur Kn[X].

Remarque – Soit ϕ ∈ L (E,K). Si ϕ est non nulle, alors ϕ est surjective.

En effet Im(ϕ) est un sous-espace vectoriel de K, c’est donc 0 ou K. Sachant que ϕ 6= 0, on aIm(ϕ) = K, ce qui prouve que ϕ est surjective.

On peut aussi donner une démonstration plus constructive : il existe x ∈ E tel que ϕ(x) 6= 0.Soit λ ∈ K ; alors

ϕ

(

λx

ϕ(x)

)

= λϕ(x)

ϕ(x)= λ.

On a donc construit, pour tout λ ∈ K, un vecteur y de E tel que ϕ(y) = λ : ϕ est surjective.

2. Hyperplans

Soit H un sous-espace vectoriel de E. Les propriétés suivantes sont équivalentes :

1. dim(H) = dim(E) − 1.

2. Il existe x0 ∈ E non nul tel que E = H ⊕Kx0.

3. Il existe une forme linéaire ϕ sur E, non nulle, telle que H = Ker(ϕ).

Si H vérifie l’une de ces propriétés équivalentes, on dit que H est un hyperplan de E.

Théorème/Définition

Démonstration

2⇒ 1 : Si E = H ⊕Kx0 pour un certain vecteur x0 non nul de E, alors

dim(E) = dim(H) + dim(Kx0) = dim(H) + 1,


1⇒ 3 : Si n = 1, H = 0E, et toute forme linéaire non nulle convient. Sinon, soit (e1, . . . ,en−1)une base de H, que l’on complète en base B = (e1, . . . ,en) de E. On définit alors entièrementune forme linéaire ϕ sur E en posant

ϕ(e1) = 0, . . . , ϕ(en−1) = 0 , ϕ(en) = 1.

Alors ϕ est non nulle (car ϕ(en) = 1) et, si x = x1e1 + · · ·+xnen est un vecteur de E décomposésur la base B, on a x ∈ Ker(ϕ) si et seulement si

x1ϕ(e1) + · · ·+ xnϕ(en) = 0

ce qui équivaut à xn = 0, et donc au fait que x ∈ Vect(e1, . . . ,en−1) = H. On a donc H = Ker(ϕ).

3 ⇒ 2 : Soit x0 ∈ E tel que ϕ(x0) 6= 0 ; en particulier x0 6= 0E . Il suffit de montrer queE = Ker(ϕ)⊕Kx0. Pour tout x ∈ E, on a

x = x− ϕ(x)

ϕ(x0)x0 +

ϕ(x)

ϕ(x0)x0.

De plus,

ϕ

(

x− ϕ(x)

ϕ(x0)x0

)

= ϕ(x)− ϕ(x)

ϕ(x0)ϕ(x0) = 0,

donc x− ϕ(x)

ϕ(x0)x0 ∈ Ker(ϕ), et bien sûr

ϕ(x)

ϕ(x0)x0 ∈ Kx0. On a donc E = Ker(ϕ) + Kx0.

60

Enfin, si x ∈ Ker(ϕ) ∩ Kx0, alors il existe λ ∈ K tel que x = λx0, et 0 = ϕ(x) = λϕ(x0).Sachant que ϕ(x0) 6= 0, on a nécessairement λ = 0, d’où x = 0E . Ainsi Kerϕ ∩ Kx0 = 0E, cequi achève de prouver que E = Ker(ϕ)⊕Kx0.

Remarque – Les raisonnements précédents montrent même que si H = Ker(ϕ) est un hyperplande E et x0 ∈ E, alors E = H ⊕Kx0 si et seulement si x0 /∈ H, ce qui équivaut à : ϕ(x0) 6= 0.

Si H est un hyperplan de E et ϕ ∈ L (E,K) une forme linéaire telle que H = Ker(ϕ),on dit que l’équation ϕ(x) = 0 est une équation de H.

Définition – Équation d’un hyperplan

Soient ϕ et ψ deux formes linéaires sur E. Alors Ker(ϕ) = Ker(ψ) si et seulement si ilexiste λ ∈ K∗ tel que ψ = λϕ.

Propriété

Démonstration

⇐ C’est évident : sachant que λ 6= 0, pour x ∈ E, on a ϕ(x) = 0 si et seulement si ψ(x) = 0.

⇒ Si ϕ = 0, alors ψ = 0 (car dans ce cas Ker(ϕ) = Ker(ψ) = E) et on a ψ = ϕ. Sinon, soitH = Ker(ϕ), c’est un hyperplan de E en tant que noyau d’une forme linéaire non nulle. Si n > 2,soit (e1, . . . ,en−1) une base de H, que l’on complète en base B = (e1, . . . ,en) de E. Alors

ϕ(e1) = 0 = ψ(e1), . . . , ϕ(en−1) = 0 = ψ(en−1),

et ϕ(en) 6= 0, ψ(en) 6= 0. En posant λ =ψ(en)

ϕ(en)∈ K∗, on a ψ = λϕ, car ces deux applications

linéaires coïncident sur la base B. Si n = 1, on reprend le raisonnement avec uniquement en.

Remarque – On sait que tout hyperplan possède une équation. D’après la propriété précédente,une telle équation est unique à multiplication par un scalaire non nul près.

Soient B = (e1, . . . ,en) une base de E et H un hyperplan de E, noyau d’une forme linéairenon nulle ϕ. Alors, un vecteur x = x1e1 + · · ·+ xnen appartient à H si et seulement si ϕ(x) = 0,ce qui équivaut par linéarité de ϕ à

x1ϕ(e1) + · · ·+ xnϕ(en) = 0.

En notant, pour tout i ∈ [[1,n]], ai = ϕ(ei) (qui est un élément de K), on a finalement l’équiva-lence :

x ∈ H ⇔ a1x1 + · · ·+ anxn = 0.

Avec les notations précédentes, on dit que l’équation

a1x1 + · · ·+ anxn = 0

est une équation de H dans la base B.

Définition – Équation d’un hyperplan dans une base

On retrouve les équations « classiques » des hyperplans, par exemple en dimension 2 (droitesvectorielles) et 3 (plans vectoriels).

Les formes linéaires sur E définissant l’hyperplan H sont exactement celles dont l’expressionen coordonnées dans la base B est de la forme

x 7→ λ(a1x1 + · · ·+ anxn)

61

où λ ∈ K∗. Autrement dit, deux équations d’hyperplans dans une même base définissent le mêmehyperplan si et seulement si elles sont proportionnelles.

Exemples

• L’équation x + 2y + 3z = 0 définit un hyperplan de R3, c’est-à-dire un plan vectoriel de R3.C’est le noyau de la forme linéaire non nulle (x,y,z) 7→ x+ 2y + 3z.

• Soit H = P ∈ Kn[X]; P (1) = 0. Alors H est un hyperplan de Kn[X], c’est le noyau de laforme linéaire non nulle

ϕ :

Kn[X] → K

P 7→ P (1)

Il a pour équation P (1) = 0. Dans la base (Xn, . . . ,1) de Kn[X] (et en notant P =∑n

k=0 xkXk),

H a pour équationxn + · · ·+ x0 = 0.

62

Chapitre 4

Matrices

Dans ce chapitre, p et n désignent deux entiers naturels non nuls et K = R ou C.

I. Calcul matriciel

1. Opérations

Soient m et q des entiers naturels non nuls. Soient

A = (ai,j)16i6n16j6p

∈Mn,p(K), B = (bi,j)16i6m16j6q

∈Mm,q(K)

et λ ∈ K. On définit la matrice λ · A ∈Mn,p(K) (ou simplement λA) par :

∀ (i,j) ∈ [[1,n]]× [[1,p]], (λA)i,j = λai,j.

Si n = m et p = q, on définit la matrice A+B ∈Mn,p(K) par :

∀ (i,j) ∈ [[1,n]]× [[1,p]], (A+B)i,j = ai,j + bi,j.

Si p = m, on définit la matrice AB ∈Mn,q(K) par :

∀ (i,j) ∈ [[1,n]]× [[1,q]], (AB)i,j =

p∑

k=1

ai,kbk,j.

Enfin, on définit la matrice transposée de A, notée tA ou AT , par :

tA = (aj,i)16i6p16j6n

∈Mp,n(K).

On vérifie sans difficulté que, si A ∈Mn,p(K) et B ∈Mp,q(K), alors

t(AB) = tB tA.

Notation – Si A ∈Mn,p(K), les notations

A =

L1

...Ln

et A =

(C1 · · · Cp

)

signifient que L1, . . . ,Ln sont les lignes de A, et que C1, . . . ,Cp sont les colonnes de A (dans cetordre).

Remarques

• Si A =(C1 · · · Cp

)∈ Mn,p(K) et X = t

(x1 · · · xp

)∈ Mp,1(K), alors AX est une

combinaison linéaire des colonnes de A :

AX = x1C1 + · · ·+ xpCp.

63

• Si A =

L1

...Ln

∈Mn,p(K) et B =

(C1 · · · Cq

)∈Mp,q(K), alors :

– La j-ième colonne de AB est le produit ACj de A par la j-ième colonne de B.– La i-ième ligne de AB est le produit LiB de la i-ième ligne de A par B.

Attention !

• Le produit matriciel est associatif, mais non commutatif en général : si A et B sont deuxéléments de Mn(K), on a en général AB 6= BA.

• Si n > 2, il existe des éléments tous deux non nuls A et B de Mn(K) tels que AB = 0.

Le résultat suivant est immédiat :

• (Mn,p(K),+ ,·) est un K-espace vectoriel.

• Pour tout (i,j) ∈ [[1,n]]× [[1,p]], on note Ei,j la matrice de Mn,p(K) dont tous les coeffi-cients sont nuls sauf celui en position (i,j) qui vaut 1. Alors la famille (Ei,j)16i6n,16j6p

est une base de Mn,p(K), appelée base canonique de Mn,p(K).

• (Mn,p(K),+ ,·) est de dimension finie égale à n× p.

Propriété

On montre également que la formule du binôme de Newton est valable pour deux matricescarrées de même taille qui commutent.

2. Polynômes de matrices

Si A ∈Mn(K) est une matrice carrée, on définit, de même qu’on l’a fait pour les endomor-phismes, les polynômes de A, et les polynômes annulateurs de A.

Présentons une méthode très utile pour calculer les puissances d’une matrice A ∈ Mn(K).Soit P un polynôme annulateur non nul de A. Pour k ∈ N, effectuons la division euclidienne deXk par P : il existe Qk ∈ K[X] et Rk ∈ K[X] vérifiant deg(Rk) < deg(P ), tels que

Xk = P (X)Qk(X) +Rk(X).

En évaluant cette relation en A, on obtient

Ak = P (A)Qk(A) +Rk(A) = Rk(A),

car P (A) = 0 par définition. Le calcul de Ak se ramène donc à celui de Rk : il est d’autant plussimple que le degré de P est petit.

Par exemple, soit

A =

0 1 11 0 11 1 0

∈M3(R).

On vérifie facilement que A2 = A+ 2I3, de sorte que le polynôme

P (X) = X2 −X − 2 = (X + 1)(X − 2)

est annulateur de A. Pour k ∈ N, la division euclidienne de Xk par P peut s’écrire sous la forme

Xk = (X + 1)(X − 2)Qk(X) + akX + bk,

le reste Rk étant de degré au plus 1. On détermine ak et bk en évaluant la relation précédente en−1 et 2 (racines de P ) :

(−1)k = −ak + bk

2k = 2ak + bk,

64

ce qui donne immédiatement

ak =2k + (−1)k+1

3, bk =

2k + 2(−1)k

3.

Finalement, on a montré que pour tout k ∈ N,

Ak =2k + (−1)k+1

3A+

2k + 2(−1)k

3I3.

3. Matrices inversibles

• Soit A ∈ Mn(K). On dit que A est inversible s’il existe une matrice B ∈ Mn(K)telle que AB = BA = In.Une telle matrice est alors unique, elle est notée A−1 et appelée inverse de A.

• L’ensemble des matrices inversibles de Mn(K) est noté Gℓn(K), il est appelé groupelinéaire d’ordre n.


Démonstration de l’unicité

Si B et C vérifient les propriétés de la définition, alors

B = BIn = B(AC) = (BA)C = InC = C.

Si A et B sont deux éléments de Gℓn(K), alors AB ∈ Gℓn(K) et

(AB)−1 = B−1A−1

Propriété

Démonstration – On a

(AB)(B−1A−1) = A(BB−1)A−1 = AInA−1 = AA−1 = In,

et de même pour le produit (B−1A−1)(AB). D’où le résultat.

Remarque – Dans le chapitre précédent, on a donné, pour un endomorphisme u, une méthodepour prouver l’existence de u−1 à partir d’un polynôme annulateur de u de coefficient constantnon nul. Cette méthode peut bien sûr être adaptée pour les matrices carrées.

II. Matrices, vecteurs et applications linéaires

Dans cette partie, sauf indication contraire, E et F désignent deux K-espaces vectoriels dedimension finie non nulle. On note p = dim(E), n = dim(F ), B = (e1, . . . , ep) une base deE et C = (f1, . . . , fn) une base de F . Enfin, u désigne une application linéaire entre E et F :u ∈ L (E,F ).

1. Matrices d’une famille de vecteurs

Si x est un vecteur de F par exemple (ce qui suit s’adapte pour tout espace vectoriel dedimension finie), on peut décomposer x dans la base C de F : on peut écrire x =

∑ni=1 ai fi, où

les ai, éléments de K, sont les coordonnées de x dans la base C. Le vecteur

a1

...an

65

est appelé vecteur (ou matrice) colonne des coordonnées de x dans la base C.Plus généralement, si (x1, . . . ,xk) est une famille de vecteurs de F , pour tout j ∈ [[1,k]], on

peut écrire

xj =

n∑

i=1

ai,j fi,

où les ai,j sont des éléments de K. Soit A la matrice

a1,1 . . . a1,j . . . a1,k...

......

ai,1 . . . ai,j . . . ai,k...

......

an,1 . . . an,j . . . an,k

∈Mn,k(K)

dont la j-ième colonne est, pour tout j ∈ [[1,k]], le vecteur des coordonnées de xj dans la base C.La matrice A est appelée matrice de la famille (x1, . . . ,xk) dans la base C, notée MatC(x1, . . . , xk).

Exemple – Si C = (1,X,X2) est la base canonique de R2[X], la matrice de la famille

(2X2 −X + 1,3X2 − 1)

dans la base C est

1 −1−1 02 3

.

2. Matrices d’une application linéaire

On sait que l’application linéaire u est entièrement déterminée par les p vecteurs u(e1), . . . ,u(ep),et donc, par leurs coordonnées dans la base C. L’information concernant u est donc entièrementcontenue dans la donnée de n× p scalaires.

La matrice de la famille u(B) = (u(e1), . . . , u(ep)) dans la base C, i.e.

MatC(u(e1), . . . , u(ep)) ∈Mn,p(K)

est appelée matrice de u dans les bases B et C, et notée MatCB(u).

Si E = F et B = C, on note simplement MatB(u).

Définition

On retiendra notamment que pour tout j ∈ [[1,p]], la j-ième colonne de MatCB(u) est le vecteurdes coordonnées de u(ej) dans la base C : le fait que

MatCB(u) = (ai,j)16i6n16j6p

est équivalent au fait que pour tout j ∈ [[1,p]],

u(ej) =n∑

i=1

ai,jfi.

Exemple – Soit

φ :

R3[X] → R2[X]

P 7→ P ′

La matrice de φ dans les bases canoniques de R3[X] et R2[X] est

0 1 0 00 0 2 00 0 0 3

.

66

3. Isomorphisme entre L (E,F ) et Mn,p(K)

Ainsi, des bases B de E et C de F étant fixées, on peut associer à toute application linéaireu ∈ L (E,F ) sa matrice dans les bases B et C, qui est un élément de Mn,p(K). On peut en faiten dire plus :

L’application

MatCB :

L (E,F ) → Mn,p(K)

u 7→ MatCB(u)

est un isomorphisme d’espaces vectoriels :

• Si u,v ∈ L (E,F ) et λ ∈ K,

MatCB(λu+ v) = λMatCB(u) + MatCB(v).

• Pour tout A ∈Mn,p(K), il existe une unique application linéaire u ∈ L (E,F ) dontla matrice dans les bases B et C soit A.

Théorème

Démonstration

• Linéarité : c’est immédiat par définition des opérations + et · sur les matrices.

• Bijectivité : Soit A = (ai,j) ∈Mn,p(K). On pose, pour tout j ∈ [[1,p]], yj =∑n

i=1 ai,jfi. Uneapplication linéaire u ∈ L (E,F ) a pour matrice A dans les bases B et C si et seulement si pourtout j ∈ [[1,p]], u(ej) = yj. Or, il existe une unique application linéaire u de E dans F satisfaisantces conditions. Donc l’application MatCB est bijective.

Remarques

• Attention, on ne peut pas parler de « la » matrice de l’application linéaire u. Il est indispensablede préciser les bases au départ et à l’arrivée. Par exemple, l’identité de Rn, dans les bases 2B etB (B est la base canonique de Rn) a pour matrice 2In.

• L’unique endomorphisme u de E tel que MatB(u) = In est l’identité : u = IdE (remarquer ladifférence avec l’exemple précédent : ici on considère la même base au départ et à l’arrivée).

• L’unique endomorphisme u de E tel que MatCB(u) = 0 est l’application nulle.

• Cas particulier de E = Mp,1(K) et F = Mn,1(K). Pour k entier naturel non nul, l’espaceMk,1(K) admet pour base canonique la famille Bk = (V1, . . . , Vk), où Vi est un vecteur-colonneà k composantes, toutes nulles sauf la i-ième qui vaut 1. D’après le théorème précédent, MatBn

Bp

est un isomorphisme entre L (Mp,1(K),Mn,1(K)) et Mn,p(K).

Soit A ∈ Mn,p(K). L’unique application linéaire de Mp,1(K) dans Mn,1(K) dont la matricedans les bases Bp et Bn est A, est l’application linéaire canoniquement associée à A, i.e.

uA :

Mp,1(K) → Mn,1(K)

X 7→ AX

• On fait souvent l’identification entre Mn,1(K) et Kn (et de même, entre Mp,1(K) et Kp) poursimplifier l’écriture. Il ne faut pas oublier ce que représente réellement chacun de ces espaces :Mn,1(K) est l’espace des vecteurs-colonnes à n coefficients, Kn est l’espace des n-uplets d’élémentsde K (et donc, écrits en ligne, en séparant les composantes par des virgules).

• Les isomorphismes préservent la dimension, donc on retrouve le fait que

dim(L (E,F )) = p× n = dim(E)× dim(F ).

67

4. Calcul de l’image d’un vecteur

Soit x ∈ E et y = u(x). On note

X =

x1

...xp

et Y =

y1

...yn

les vecteurs colonne des coordonnées de x et y dans les bases B et C, respectivement.Soit A = MatCB(u). Alors Y = AX.

Propriété

Démonstration – Notons A = (ai,j)16i6n16j6p

. On a x =

p∑

j=1

xjej et donc, par linéarité de u,

u(x) =

p∑

j=1

xju(ej) =

p∑

j=1

[

xj

(n∑

i=1

ai,jfi

)]

=n∑

i=1

p∑

j=1

ai,jxj

fi.

Par unicité des coordonnées dans la base C, on en déduit

∀ i ∈ [[1,n]], yi =

p∑

j=1

ai,jxj.

Par définition du produit matriciel, ces égalités signifient exactement que Y = AX.

Remarque – Le produit matriciel a été défini pour que la propriété précédente soit vraie.

5. Lien entre produit de matrices et composition d’applications

Soient E, E′, E′′ trois K-espaces vectoriels de dimension finie. Soit B une base de E,B′ une base de E′ et B′′ une base de E′′. Soit u ∈ L(E,E′) et v ∈ L(E′,E′′). On saitque

v u :

Eu→ E′ v→ E′′

x 7→ u(x) 7→ v(u(x))

appartient à L (E,E′′). Alors

MatB′′

B (v u) = MatB′′

B′ (v)MatB′

B (u).

Propriété

Démonstration – Notons M = MatB′′

B (v u), A = MatB′

B (u) et B = MatB′′

B′ (v). Soit x ∈ E et Xle vecteur colonne des coordonnées de x dans la base B. On sait que MX est le vecteur colonnedes coordonnées de (v u)(x) dans la base B′′. Or le vecteur colonne des coordonnées de u(x)dans la base B′ est Y = AX et le vecteur colonne des coordonnées de v(u(x)) dans la base B′′est BY = BAX. Donc

∀X ∈Mp,1(K), MX = BAX,

où p = dim(E). On en déduit que M = BA en choisissant pour X les vecteurs de la basecanonique de Mp,1(K).

68

Soient E et F deux K-espaces vectoriels de dimension n. Soit B une base de E et Cune base de F . Soit u ∈ L (E,F ). Alors on a l’équivalence :

u est un isomorphisme ⇔ MatCB(u) ∈ Gℓn(K).

Dans ce cas,(MatCB(u))−1 = MatBC (u−1).

Cas particulier : si E = F et u ∈ L (E), on a l’équivalence

u est un automorphisme ⇔ MatB(u) ∈ Gℓn(K).

Dans ce cas,(MatB(u))−1 = MatB(u−1).

Corollaire

Démonstration

⇒ Si u est un isomorphisme, alors il existe une application linéaire v = u−1 telle que uv = IdF

et vu = IdE. Alors d’après la propriété précédente, MatCB(u)MatBC (v) = MatBC (v)MatCB(u) = In,donc MatCB(u) est inversible, d’inverse MatBC (v).

⇐ Soit A = MatCB(u). Si A est inversible, alors il existe une matrice B = A−1 telle queAB = BA = In. Soit v l’unique application linéaire de F dans E telle que MatBC (v) = B. Alorsd’après la propriété précédente, MatC(uv) = MatB(v u) = In, donc uv = IdF et v u = IdE .

6. Changements de bases

Soient B = (e1, . . . ,ep) et B′ = (e′1, . . . ,e′p) deux bases de E. Pour tout j ∈ [[1,p]], on

peut écrire e′j =∑p

i=1 pi,jei, c’est-à-dire exprimer e′j dans la base B.

La matrice P = (pi,j) ∈ Mp(K) est appelée matrice de passage de la base B à labase B′.Les colonnes de P sont les coordonnées des vecteurs de la « nouvelle » base dans « l’an-cienne ».

Définition – Matrice de passage

Remarque – On a P = MatB(e′1, . . . ,e′p) = MatBB′(Id). En particulier, P est inversible et P−1 est

la matrice de passage de B′ à B.Exemple – Les familles B = (1,X,X2) et B′ = (1−X +X2,X +2X2,2−X +2X2) sont des basesde R2[X] : la première est la base canonique, la seconde comporte 3 = dim(R2[X]) vecteurs eton vérifie très facilement qu’elle est libre. La matrice de passage de B à B′ est

P =

1 0 2−1 1 −11 2 2

.

Soient x un vecteur de E, X la matrice colonne des coordonnées de x dans la base B,X ′ la matrice colonne des coordonnées de x dans la base B′ et P la matrice de passagede B à B′.Alors on a la relation X = PX ′, c’est-à-dire que l’on obtient les anciennes coordonnées

en fonction des nouvelles.

Propriété – Formule de changement de bases pour les vecteurs

69

Démonstration – D’après la propriété sur le calcul matriciel de l’image d’un vecteur par uneapplication linéaire, et d’après la remarque ci-dessus,

X = MatBB′(Id)X ′ = PX ′.

Exemple – Dans le cas de l’exemple ci-dessus, un polynôme a+ bX + cX2 se décompose dans labase B′ sous la forme

α(1 −X +X2) + β(X + 2X2) + γ(2−X + 2X2)

où

abc

= P

αβγ

, soit

αβγ

= P−1

abc

.

À titre d’illustration, en identifiant le coefficient constant dans les deux décompositions, onobtient a = α+ 2γ, où l’on reconnaît le premier coefficient du produit

abc

= P

αβγ

.

Soient B et B′ deux bases de E, C et C′ deux bases de F . Soient P la matrice de passagede B à B′ dans E, Q la matrice de passage de C à C′ dans F .

Soient u ∈ L (E,F ), A = MatCB(u) et B = MatC′

B′(u). Alors B = Q−1AP .

Propriété – Formule de changement de bases pour les applications linéaires

Démonstration – Avec les notations précédentes pour x ∈ E et des notations analogues poury = u(x), on a X = PX ′, Y = QY ′, Y = AX et Y ′ = BX ′, et donc

BX ′ = Y ′ = Q−1Y = Q−1AX = Q−1APX ′.

Ceci est vrai pour tout X ′ ∈Mp,1(K) avec p = dim(E). On en déduit le résultat en choisissantpour X ′ les vecteurs de la base canonique de Mp,1(K).

Exemple – Soit

u :

R2[X] → R2[X]

a+ bX + cX2 7→ (−a− 2b+ c) + (3a+ 3b− 2c)X − 2bX2

Il est immédiat que u ∈ L (R2[X]). Écrivons la matrice de u dans la base canonique B de R2[X] ;on a

u(1) = −1 + 3X, u(X) = −2 + 3X − 2X2, u(X2) = 1− 2X,

donc

A = MatB(u) =

−1 −2 13 3 −20 −2 0

.

De même, écrivons la matrice de u dans la base B′ de R2[X] des deux exemples précédents ; ona

u(1−X +X2) = 2− 2X + 2X2 = 2(1−X +X2),

u(X + 2X2) = −X − 2X2 = −(X + 2X2),

u(2−X + 2X2) = 2−X + 2X2,

donc

B = MatB(u) =

2 0 00 −1 00 0 1

.

Les matrices A et B sont reliées par la formule de changement de base B = P−1AP , soitA = PBP−1. Du fait de la simplicité de la matrice B, cette relation facilite, par exemple, lecalcul des puissances de A : pour tout k ∈ N, Ak = PBkP−1 où Bk = diag(2k,(−1)k,1).

70

Si (A,B) ∈ (Mn(K))2, on dit que A et B sont semblables si

∃P ∈ Gℓn(K); B = P−1AP.

Définition – Matrices semblables

Deux matrices de Mn(K) sont semblables si et seulement si elles représentent le mêmeendomorphisme d’un espace de dimension n, quitte à faire le même changement debase au départ et à l’arrivée.

Propriété

Remarque – La relation de similitude entre matrices définit une relation d’équivalence sur Mn(K).

III. Image, noyau et rang d’une matrice

1. Définitions, propriétés du rang

Toutes les définitions et propriétés des applications linéaires se transposent aux matricesA ∈Mn,p(K) par l’intermédiaire de l’application linéaire canoniquement associée

uA :

Mp,1(K) → Mn,1(K)

X 7→ AX

En particulier, pour A ∈Mn,p(K), on définit :

• le noyau de A comme le noyau de uA, i.e.

Ker(A) = X ∈Mp,1(K); AX = 0.

• l’image de A comme l’image de uA, i.e.

Im(A) = Y ∈Mn,1(K); ∃X ∈Mp,1(K); Y = AX.

• le rang de A comme le rang de uA.

Remarques

• Déterminer Ker(A) revient à résoudre le système linéaire sans second membre de matrice A.

• Si A = (C1 · · ·Cp) et X = t(x1 · · · xp

), alors AX = x1C1 + · · · + xpCp. En particulier, les

colonnes de A forment une famille liée si et seulement s’il existe un vecteur non nul dans Ker(A),et un tel vecteur donne explicitement une relation de dépendance linéaire entre les colonnes deA.

• Im(A) est engendré par les images par l’application uA des vecteurs de la base canonique deMp,1(K), c’est-à-dire par les colonnes de A.

• En particulier, rg(A) est le rang de la famille des vecteurs colonnes de A.

On sait que le rang d’une application linéaire n’est pas modifié par composition (à droite ouà gauche) par un isomorphisme. Matriciellement, ce résultat se traduit ainsi :

Le rang d’une matrice A ∈Mn,p(K) n’est pas modifié par multiplication (à droite ouà gauche) par une matrice inversible : si P ∈ Gℓn(K) et Q ∈ Gℓp(K), alors

rg(PAQ) = rg(A).

Propriété

71

Soient u ∈ L (E,F ) et A = MatCB(u).

Alors rg(u) = rg(A), i.e., pour calculer le rang de u, il suffit de calculer le rang d’unede ses matrices.

Propriété

Démonstration – Par définition, en notant A = (ai,j), on a

rg(u) = dim (Vect(u(e1), . . . u(ep))) = dim

(

Vect

(n∑

i=1

ai,1 fi, . . . ,n∑

i=1

ai,p fi

))

.

Notons (Vi)16i6n la base canonique de Mn,1(K) et φ l’isomorphisme de F sur Mn,1(K) tel que

∀ i ∈ [[1,n]], φ(fi) = Vi.

Ainsi, φ est l’application qui à tout vecteur de F associe la matrice colonne de ses coordonnéesdans la base C. Les isomorphismes préservant la dimension, on a

rg(u) = dim

(

Vect

(

φ

(n∑

i=1

ai,1 fi

)

, . . . ,φ

(n∑

i=1

ai,p fi

)))

.

Ainsi

rg(u) = dim

(

Vect

(n∑

i=1

ai,1 Vi, . . . ,n∑

i=1

ai,p Vi

))

,

où l’on reconnaît le rang de la famille des colonnes de A, et donc rg(A).

Soit (x1, . . . ,xm) une famille de vecteurs de E et A = MatB(x1, . . . ,xm). Alors

rg(x1, . . . , xm) = rg(A),

i.e., pour calculer le rang d’une famille de vecteurs, il suffit de calculer le rang d’unede ses matrices.

Corollaire

Démonstration – Soit C = (ej)16j6m la base canonique de Km et u l’unique application linéaire deKm dans E telle que pour tout j ∈ [[1,m]], u(ej) = xj . Alors MatBC (u) = MatB(x1, . . . ,xm) = Aet Im(u) = Vect(x1, . . . , xm) donc

rg(x1, . . . , xm) = rg(u) = rg(A),

la dernière égalité provenant de la propriété précédente.

2. Caractérisation des matrices inversibles, théorème du rang

Soit A ∈Mn(K). On a les équivalences :

A est inversible ⇔ Im(A) = Mn,1(K) ⇔ rg(A) = n ⇔ Ker(A) = 0Mn,1(K).

Ceci permet de montrer que A est inversible sans calculer son inverse.

Théorème – Caractérisation des matrices inversibles

Démonstration – La matrice A est inversible si et seulement si uA est un isomorphisme. Lacaractérisation des isomorphismes en dimension finie donne alors le résultat.

72

Soient (x1, . . . ,xp) une famille de vecteurs de E (on rappelle que p = dim(E)) et

A = MatB(x1, . . . ,xp).

Alors, pour que (x1, . . . ,xp) soit une base de E, il faut et il suffit que A soit inversible.

Corollaire

Démonstration – La famille (x1, . . . ,xp) est une famille de p vecteurs de E avec p = dim(E), doncc’est une base de E si et seulement si elle est génératrice de E, ce qui équivaut à rg(x1, . . . ,xp) = p,i.e., à rg(A) = p. D’après le théorème précédent, ceci équivaut à l’inversibilité de A.

En appliquant le théorème du rang à uA avec A ∈ Mn,p(K) (l’espace de départ étant alorsde dimension p), on obtient :

Soit A ∈Mn,p(K). Alorsdim(Ker(A)) + rg(A) = p.

Théorème du rang pour les matrices

Soient A et B deux matrices de Mn(K).

Si AB = In alors A et B sont inversibles et inverses l’une de l’autre.

Propriété

Démonstration – Si AB = In alors uA uB = Id donc uA est surjective et uB est injective.D’après la caractérisation des isomorphismes en dimension finie, on en déduit que uA et uB sontdes isomorphismes, donc A et B sont inversibles. De plus, (uA)−1 = uB et donc A−1 = B.

Remarque – Lorsque AB = In pour deux matrices A et B de Mn(K), il est donc inutile devérifier que BA = In, on peut directement conclure que A et B sont inversibles et inverses l’unede l’autre.

IV. La méthode de Gauss-Jordan

1. Opérations élémentaires

Soit A ∈Mn,p(K). On appelle opérations élémentaires les manipulations suivantes (où λdésigne un scalaire) :

Opérations élémentaires sur les colonnes de A :

• Multiplier la i-ième colonne de A par un scalaire λ non nul : Ci ← λCi.

• Permuter les colonnes i et j de A : Ci ↔ Cj ,

• Ajouter à la i-ième colonne de A, λ fois la j-ième (j 6= i) : Ci ← Ci + λCj ,

Opérations élémentaires sur les lignes de A :

• Multiplier la i-ième ligne de A par un scalaire λ non nul : Li ← λLi.

• Permuter les lignes i et j de A : Li ↔ Lj,

• Ajouter à la i-ième ligne de A, λ fois la j-ième (j 6= i) : Li ← Li + λLj,

73

Dans les matrices qui suivent, les coefficients non précisés sont égaux à 0. Soit m ∈ N∗.

• Pour tout i ∈ [[1,m]] et λ ∈ K∗, on définit la matrice de dilatation

Dmi (λ) = λEi,i +

∑

k∈[[1,m]]k 6=i

Ek,k =

Ci

1. . .

1λ Li

1. . .

. . .

1

∈Mm(K)

• Pour tout (i,j) ∈ [[1,m]]2 tel que i 6= j, on définit la matrice de transposition

τmi,j = Ei,j +Ej,i+

∑

k∈[[1,m]]k 6=i,k 6=j

Ek,k =

Ci Cj

1. . .

0 · · · 1 Li

.... . .

...1 · · · 0 Lj

. . .

. . .

1

∈Mm(K)

Dans la matrice précédente, on a choisi i < j, ce qui n’est pas restrictif car pour tout(i,j) ∈ [[1,m]]2 tel que i 6= j, τm

i,j = τmj,i.

• Pour tout (i,j) ∈ [[1,m]]2 tel que i 6= j, pour tout λ ∈ K, on définit la matrice detransvection

Tmi,j(λ) = Im + λEi,j =

Cj Ci

1. . .

1 Lj

.... . .

λ · · · 1 Li

. . .

. . .

1

∈Mm(K)

Dans la matrice précédente, on a choisi i > j, ce qui est restrictif : il est bien sûr possiblede choisir i < j, auquel cas le coefficient λ sera placé au-dessus de la diagonale.

Définition – Matrices élémentaires

74

Soit A ∈Mn,p(K). Alors :

1. Opérations élémentaires sur les colonnes de A :

• La matrice obtenue à partir de A par l’opération Ci ← λCi est ADpi (λ).

• La matrice obtenue à partir de A par l’opération Ci ↔ Cj est Aτpi,j.

• La matrice obtenue à partir de A par l’opération Ci ← Ci + λCj est AT pj,i(λ).

2. Opérations élémentaires sur les lignes de A :

• La matrice obtenue à partir de A par l’opération Li ← λLi est Dni (λ)A.

• La matrice obtenue à partir de A par l’opération Li ↔ Lj est τni,j A.

• La matrice obtenue à partir de A par l’opération Li ← Li + λLj est T ni,j(λ)A.

Propriété – Traduction matricielle des opérations élémentaires

Démonstration

1. On rappelle qu’en général, la k-ième colonne d’un produit AB est le produit de A par lak-ième colonne de B. On notera C1, . . . ,Cp les colonnes de A.

• En notant T1, . . . ,Tp les colonnes de Dpi (λ), on a ATi = λCi et ATk = Ck si k 6= i. D’où le

résultat du premier point.

• De même, en notant T1, . . . ,Tp les colonnes de τpi,j, on a ATi = Cj, ATj = Ci et ATk = Ck si

k 6= i et k 6= j. D’où le résultat du deuxième point.

• Enfin, en notant T1, . . . ,Tp les colonnes de T pj,i(λ), on a ATi = Ci + λCj et ATk = Ck si k 6= i.

D’où le résultat du troisième point.

2. De même, la k-ième ligne d’un produit BA est le produit de la k-ième ligne de B par A. Onnotera L1, . . . ,Ln les lignes de A.

• En notant T1, . . . ,Tn les lignes de Dni (λ), on a TiA = λLi et TkA = Lk si k 6= i. D’où le résultat

du premier point.

• De même, en notant T1, . . . ,Tn les lignes de τni,j, on a TiA = Lj , TjA = Li et TkA = Lk si k 6= i

et k 6= j. D’où le résultat du deuxième point.

• Enfin, en notant T1, . . . ,Tn les lignes de T ni,j(λ), on a TiA = Li + λLj et TkA = Lk si k 6= i.

D’où le résultat du troisième point.

Toutes les matrices élémentaires sont inversibles ; plus précisément : pour tout m ∈ N∗,pour tout i ∈ [[1,m]], tout j ∈ [[1,m]] tel que i 6= j, pour tout λ ∈ K,

(Dmi (λ))−1 = Dm

i (1/λ) si λ 6= 0,(τmi,j

)−1= τm

i,j,(Tm

i,j(λ))−1

= Tmi,j(−λ).

Propriété

Démonstration – On raisonne à l’aide d’opérations sur les lignes : si λ 6= 0, Dmi (1/λ)Dm

i (λ) est,d’après la propriété précédente, la matrice obtenue à partir de Dm

i (λ) par l’opération Li ← Li/λ,c’est-à-dire la matrice identité Im. Donc Dm

i (λ) est inversible d’inverse Dmi (1/λ).

De même, τmi,j τ

mi,j est la matrice obtenue à partir de τm

i,j par l’opération Li ↔ Lj , c’est-à-dire,la matrice Im. Donc τm

i,j est inversible et égale à sa propre matrice inverse.

Enfin, Tmi,j(−λ)Tm

i,j(λ) est la matrice obtenue à partir de Tmi,j(λ) par l’opération

Li ← Li − λLj, c’est-à-dire, ici encore, la matrice Im. Donc Tmi,j(λ) est inversible d’inverse

Tmi,j(−λ).

Remarque – On comprend bien cette propriété et sa démonstration en voyant les choses ainsi :les opérations élémentaires sont « reversibles », l’opération Li ← λLi pour λ 6= 0 est compenséepar l’opération Li ← Li/λ, l’opération Li ↔ Lj est compensée par elle-même, et l’opérationLi ← Li + λLj est compensée par l’opération Li ← Li − λLj (de même pour les colonnes).

75

Deux matrices A et A′ de Mn,p(K) sont dites équivalentes par lignes (resp., par co-lonnes) si elles se déduisent l’une de l’autre par une suite finie d’opérations élémentairessur les lignes (resp., les colonnes). Ceci se note : A ∼

LA′ (resp. A ∼

CA′).

Définition – Matrices équivalentes par lignes ou par colonnes

Les opérations élémentaires étant réversibles, il est équivalent d’écrire A ∼LA′ et A′ ∼

LA (de

même pour les colonnes).

De plus, grâce aux résultats précédents, A ∼LA′ si et seulement s’il existe une matrice

E ∈ Gℓn(K), qui est un produit de matrices élémentaires, telle que A = EA′. De même, A ∼CA′

si et seulement s’il existe une matrice E ∈ Gℓp(K) produit de matrices élémentaires, telle queA = A′E.

2. Algorithme du pivot de Gauss-Jordan

On a montré plus haut que le rang n’est pas modifié par multiplication à gauche ou à droitepar une matrice inversible. En fait, il y a d’autres invariants de ce type : soit A ∈Mn,p(K).

• Si P ∈ Gℓn(K), alors pour tout vecteur X ∈Mp,1(K), on a l’équivalence :

AX = 0 ⇔ PAX = 0,

car P est inversible. Ceci montre que Ker(A) = Ker(PA) : le noyau d’une matrice n’est donc pasmodifié par multiplication à gauche par une matrice inversible.

• Si P ∈ Gℓp(K), alors pour tout vecteur Y ∈Mn,1(K), on a l’équivalence

∃X ∈Mp,1(K); Y = AX ⇔ ∃X ∈Mp,1(K); Y = (AP )(P−1X).

Sachant que P−1X décrit Mp,1(K) lorsque X décrit Mp,1(K) (car P est inversible), on en déduitque Im(A) = Im(AP ) : l’image d’une matrice n’est donc pas modifiée par multiplication à droite

par une matrice inversible.

Reprenons ces considérations dans le cas où P est une matrice élémentaire : le rang d’unematrice A n’est pas modifié par les opérations élémentaires, son noyau n’est pas modifié par lesopérations élémentaires sur ses lignes, son image n’est pas modifiée par les opérations élémentairessur ses colonnes. En d’autres termes :

• Deux matrices équivalentes par lignes ou par colonnes ont le même rang.

• Deux matrices équivalentes par lignes ont le même noyau.

• Deux matrices équivalentes par colonnes ont la même image.

Propriété

Il est donc naturel d’essayer, au moyen d’opérations élémentaires bien choisies, d’obtenir àpartir de A une matrice A′ sur laquelle il sera plus facile de lire les informations telles que sonrang, son noyau ou son image, qui seront les mêmes que ceux de A. C’est l’objectif de l’algorithmede Gauss-Jordan.

Commençons par décrire la forme équivalente la plus simple à laquelle on souhaite aboutir :

76

Soit B ∈Mn,p(K).

• On dit que B est échelonnée par lignes si elle vérifie les propriétés suivantes :

(i) Si une ligne de B est nulle, alors toutes les lignes suivantes de B sont nulles.

(ii) Le cas échéant, dans chaque ligne non nulle à partir de la deuxième ligne, le premiercoefficient non nul (à partir de la gauche) et situé strictement à droite du premiercoefficient non nul de la ligne précédente.

Le premier coefficient non nul d’une ligne non nulle est appelé pivot.

• On dit que B est échelonnée réduite par lignes si elle est échelonnée par ligneset si tous ses pivots sont égaux à 1 et sont les seuls éléments non nuls de leur colonne.

• On dit que B est échelonnée par colonnes (resp. échelonnée réduite par co-lonnes) si tB est échelonnée par lignes (resp. échelonnée réduite par lignes).

Définition – Matrices échelonnées, échelonnées réduites

Remarque – Une matrice échelonnée réduite par lignes non nulle a la forme suivante (les pivotssont notés en gras, le symbole ∗ désigne un coefficient éventuellement non nul. ) :

0 · · · 1 ∗ · · · ∗ 0 ∗ · · · ∗ 0 ∗ · · · ∗0 · · · 0 0 · · · 0 1 ∗ · · · ∗ 0 ∗ · · · ∗0 · · · 0 0 · · · 0 0 ∗ · · · ∗ 0 ∗ · · · ∗...

......

......

.... . .

......

......

0 · · · 0 0 · · · 0 0 0 · · · ∗ 0 ∗ · · · ∗0 · · · 0 0 · · · 0 0 0 · · · 0 1 ∗ · · · ∗0 · · · 0 0 · · · 0 0 0 · · · 0 0 0 · · · 0...

......

......

......

......

...0 · · · 0 0 · · · 0 0 0 · · · 0 0 0 · · · 0

Le trait de séparation représenté en partie dans la matrice ci-dessus permet de mettre envaleur sa structure de matrice échelonnée et ses pivots. On parle de schéma en escalier.

Chaque ligne et chaque colonne possédant au plus un pivot, le nombre r de pivots d’unematrice échelonnée B ∈Mn,p(K) vérifie r 6 n et r 6 p.

Exemple – La matrice

1 0 3 5 70 2 4 6 80 0 0 1 9

est échelonnée par lignes, mais pas échelonnée réduite par lignes. La matrice

1 0 3 0 70 1 4 0 80 0 0 1 9

est échelonnée réduite par lignes. Une telle matrice peut donc tout à fait posséder, en dehors despivots, des coefficients non nuls.

La matrice précédente n’est pas échelonnée par colonnes. La matrice

1 0 02 0 00 1 0

est échelonnée réduite par colonnes.

77

Soit A ∈Mn,p(K). Alors :

• A est équivalente par lignes à une unique matrice échelonnée réduite par lignes.

De façon équivalente : il existe une matrice E ∈ Gℓn(K), qui est un produit de matricesélémentaires, et une unique matrice R ∈Mn,p(K) échelonnée réduite par lignes, tellesque A = ER.

• A est équivalente par colonnes à une unique matrice échelonnée réduite par colonnes.

De façon équivalente : il existe une matrice E′ ∈ Gℓp(K), qui est un produit de matricesélémentaires, et une unique matrice R′ ∈ Mn,p(K) échelonnée réduite par colonnes,telles que A = R′E′.

Théorème – Algorithme de Gauss-Jordan et traduction matricielle

Démonstration de l’existence (la démonstration de l’unicité, non exigible, est admise)

Montrons tout d’abord que le premier point entraîne le second ; pour cela on applique lerésultat du premier point à tA : il existe E, produit de matrices élémentaires, et R échelonnéeréduite par lignes, telles que tA = ER. Alors A = tR tE. Par définition, R′ = tR est échelonnée parcolonnes ; la transposée de toute matrice élémentaire étant une matrice élémentaire, E′ = tE estun produit de matrices élémentaires. D’où l’existence dans le cas des opérations sur les colonnes.

Dans le cas des opérations sur les lignes, on procède par récurrence sur le nombre p de colonnesde A = (ai,j).

Initialisation : si p = 1, A est une matrice colonne. Si A = 0, le résultat est vrai, sinon, ilexiste i0 ∈ [[1,n]] tel que ai0,1 6= 0. L’opération Li0 ↔ L1 (ce qui revient à multiplier A à gauchepar τn

1,i0) fournit une matrice A′ équivalente par lignes à A dont le coefficient en position (1,1)

vaut ai0,1 (et dont le coefficient en position (i0,1) vaut a1,1). Après l’opération L1 ↔ L1/ai0,1

(multiplication de A′ à gauche par Dn1 (1/ai0,1)) le coefficient en position (1,1) vaut 1. On fait

alors, si n > 2, les n − 1 opérations suivantes : Li ← Li − ai,1L1, pour i ∈ [[2,n]] (multiplicationà gauche par T n

i,1(−ai,1)), ce qui prouve que A est équivalente par lignes à

R =

10...0

et prouve le résultat dans ce cas, car R est évidemment échelonnée réduite par lignes.

Hérédité : supposons le résultat vrai au rang p, et soit A ∈Mn,p+1(K).

Premier cas : la première colonne de A est nulle. On applique alors l’hypothèse de récurrenceà la matrice B obtenue en extrayant les p dernières colonnes de A. Les opérations faites sur Bpeuvent alors être faites sur A ; elles ne modifient pas la première colonne de A car cette colonneest nulle. La matrice obtenue à partir de B est échelonnée réduite par lignes, il en est de mêmepour celle obtenue à partir de A.

Deuxième cas : la première colonne de A est non nulle. On fait tout d’abord, pour cettepremière colonne, exactement le même raisonnement que pour l’initialisation. On note A1 lamatrice équivalente par lignes à A à laquelle on aboutit alors, puis on applique, si n > 2,l’hypothèse de récurrence à la matrice B1 obtenue en extrayant les n − 1 dernières lignes etles p dernières colonnes de A1. Les opérations faites sur B1 peuvent alors être traduites en desopérations sur les n − 1 dernières lignes de A1 ; on obtient ainsi une matrice notée A2. Cesopérations ne modifient pas la première colonne de A1 car les coefficients de A1 en position (i,1)avec i > 2 sont nuls.

78

Pour résumer les notations, on a donc l’enchaînement suivant dans ce cas :

A =

a1,1 · · · · · · · · · · · ·...

. . ....

ai0,1. . .

......

. . ....

an,1 · · · · · · · · · · · ·

traitement de la première colonne−→ A1 =

1 · · · · · · · · · · · ·0... B1

...0

échelonnement de B1−→ A2 =

1 · · · · · · · · · · · ·0... B2

...0

,

la matrice B2 étant échelonnée réduite par lignes.

En particulier, il est clair que A2 est échelonnée par lignes. En revanche, elle peut ne pas êtreéchelonnée réduite car un pivot de B2 peut ne pas être le seul coefficient non nul de sa colonnedans la matrice A2. Ceci n’est possible que si B2 6= 0. Dans ce cas, notons (i1,j1), . . . ,(ir,jr) lespositions dans la matrice A2 des pivots de B2, avec i1 < · · · < ir. Pour k de r à 1, on effectuesur A2 l’opération L1 ← L1 − a1,jk

Lik . Pour chacune de ces opérations, la première colonne deA2 n’est pas modifiée, les coefficients a1,jm tels que m > k ne sont pas modifiés ; à l’issue de cesopérations, les pivots de la matrice obtenue, notée R, sont donc les seuls coefficients non nuls deleur colonne. La matrice R est échelonnée réduite par lignes, ce qui prouve le résultat du pointde vue « opérations élémentaires ».

Du point de vue matriciel, chaque opération revient à multiplier à gauche par une matriceélémentaire (comme indiqué dans l’étape d’initialisation). On en déduit qu’il existe une matriceD, produit de matrices élémentaires, telle que DA = R. Une matrice élémentaire étant inversibleet son inverse étant une matrice élémentaire, D est inversible et D−1 est un produit de matricesélémentaires. En posant E = D−1, on a bien A = ER avec la forme voulue.

Remarques

• La démonstration ci-dessus décrit entièrement une méthode effective d’échelonnement par lignesou colonnes. Elle est en particulier programmable pour un traitement par ordinateur.

• Dans le cas d’opérations sur les lignes, la première étape de l’algorithme est dite étape dedescente, elle aboutit à une forme échelonnée par lignes. La deuxième étape, qui aboutit à laforme échelonnée réduite par lignes, est dite étape de remontée.

• Le théorème affirme l’unicité de R mais pas celle de E. Cela est lié au fait qu’il n’y a pas uneunique suite d’opérations élémentaires qui permet de passer de A à R. En revanche, quelle quesoit la suite d’opérations convenable, on aboutira à la même matrice échelonnée réduite R. Toutesuite d’opérations élémentaires sur les lignes qui permet de déduire de A une matrice échelonnéeréduite par lignes est donc acceptée (de même pour les colonnes).

• Notamment, même si la démonstration précédente présente l’annulation des coefficients situésau-dessus d’un pivot seulement en fin de procédure, de la droite vers la gauche, on vérifie faci-lement qu’il est possible de le faire au fur et à mesure, c’est-à-dire de traiter entièrement unecolonne avant de passer à la suivante. On remarquera cependant que cela entraîne des calculsmoins simples (report de coefficients non nuls) lors des opérations du type Li ← Li + λLj .

• Il faut être vigilant lorsque l’on fait plusieurs opérations à la suite, par exemple sur les lignes :si après la première opération, la ligne i est modifiée, et si l’opération suivante utilise Li, il s’agitde la ligne modifiée. C’est ce qui se passe par exemple lors de la suite d’opérations L2 ← L2−L1,L3 ← L3 − L2 : la ligne L2 utilisée pour la deuxième opération est celle qui est issue de lapremière opération !

79

Exemples

• Échelonnons par lignes la matrice M suivante. À gauche, on indique les différentes matriceséquivalentes par lignes obtenues, jusqu’à la forme échelonnée réduite par lignes, et à droite, onindique l’opération qui permet de passer à l’étape suivante, et sa traduction matricielle (m. à g.signifie « multiplication à gauche »).

M =

0 0 −1 22 4 6 −23 6 5 3

L1 ↔ L2, m. à g. par

0 1 01 0 00 0 1

∼L

2 4 6 −20 0 −1 23 6 5 3

L1 ← L1/2, m. à g. par

1/2 0 00 1 00 0 1

∼L

1 2 3 −10 0 −1 23 6 5 3

L3 ← L3 − 3L1, m. à g. par

1 0 00 1 0−3 0 1

∼L

1 2 3 −10 0 −1 20 0 −4 6

.

On a alors traité la première colonne, on poursuit l’algorithme en raisonnant sur la matriceextraite d’ordre 2 × 3 en bas à droite. La première colonne de cette matrice étant nulle, onpoursuit en raisonnant sur la matrice extraite d’ordre 2× 2 en bas à droite :

1 2 3 −10 0 −1 20 0 −4 6

L2 ← −L2, m. à g. par

1 0 00 −1 00 0 1

∼L

1 2 3 −10 0 1 −20 0 −4 6

L3 ← L3 + 4L2, m. à g. par

1 0 00 1 00 4 1

∼L

1 2 3 −10 0 1 −20 0 0 −2

L3 ← L3/(−2), m. à g. par

1 0 00 1 00 0 −1/2

∼L

1 2 3 −10 0 1 −20 0 0 1

.

À ce stade, on a une matrice échelonnée par lignes mais pas échelonnée réduite. On annule donc,en partant de la droite, les coefficients situés au-dessus des pivots :

1 2 3 −10 0 1 −20 0 0 1

L2 ← L2 + 2L3

L1 ← L1 + L3, m. à g. par

1 0 00 1 20 0 1

, puis

1 0 10 1 00 0 1

∼L

1 2 3 00 0 1 00 0 0 1

L1 ← L1 − 3L2, m. à g. par

1 −3 00 1 00 0 1

∼L

1 2 0 00 0 1 00 0 0 1

.

La matrice ci-dessus, notée R, est la matrice échelonnée réduite par lignes associée à M . On peutdonner directement à partir des calculs précédents, une décomposition ER pour la matrice M .

80

• L’exemple suivant illustre, sur une même matrice A, les deux méthodes. On remarquera quel’échelonnement en ligne ou en colonne n’aboutit pas à la même matrice.

Échelonnement par lignes :

A =

1 2 8−1 0 −21 1 5

L3 ← L3 + L2

L2 ← L2 + L1

∼L

1 2 80 2 60 1 3

L2 ↔ L3

∼L

1 2 80 1 30 2 6

L3 ← L3 − 2L2

∼L

1 2 80 1 30 0 0

L1 ← L1 − 2L2

∼L

1 0 20 1 30 0 0

Échelonnement par colonnes :

A =

1 2 8−1 0 −21 1 5

C2 ← C2 − 2C1

C3 ← C3 − 8C1

∼C

1 0 0−1 2 61 −1 −3

C3 ← C3 − 3C2

∼C

1 0 0−1 2 01 −1 0

C2 ← C2/2

∼C

1 0 0−1 1 01 −1/2 0

C1 ← C1 + C2

∼C

1 0 00 1 0

1/2 −1/2 0

Rappelons que l’image de A n’est pas modifiée par l’algorithme de Gauss-Jordan sur lescolonnes. On en déduit que

Im(A) = Vect

10

1/2

,

01−1/2

,

et en particulier rg(A) = 2. Plus généralement, cette méthode permet de déterminer l’espacevectoriel engendré par une famille finie de vecteurs d’un espace de dimension finie.

De même, le noyau n’est pas modifié par l’algorithme de Gauss-Jordan sur les lignes, et donc :

xyz

∈ Ker(A) ⇔

xyz

∈ Ker

1 0 20 1 30 0 0

, ⇔

x+ 2z = 0

y + 3z = 0

On en déduit que

Ker(A) =

−2z−3zz

; z ∈ K

= Vect

−2−31

,

de dimension 1, en accord avec le théorème du rang.

3. Échelonnement, rang et matrices inversibles

Soit A ∈ Mn,p(K). Alors le rang de A est égal au nombre de pivots de sa matriceéchelonnée réduite par lignes, et égal au nombre de pivots de sa matrice échelonnéeréduite par colonnes.

Propriété

Démonstration – Soit R la matrice échelonnée réduite par lignes associée à A. La matrice R peutavoir des coefficients non nuls : en position de pivot, à droite dans la ligne de chaque pivot (maispas au-dessus d’autres pivots), et seulement à ces positions.

À l’aide d’opérations sur les colonnes de R, on obtient une matrice équivalente par colonnesà R, où les coefficients autres que les pivots ont été remplacés par des 0. Cette matrice est encore

81

échelonnée réduite par lignes et a les mêmes pivots que R (attention cependant, elle n’est engénéral pas équivalente par lignes à A).

Finalement, il existe une suite finie d’opérations élémentaires sur les lignes et les colonnes,qui permet de déduire de A une matrice échelonnée réduite par ligne, dont les seuls coefficientsnon nuls sont les pivots de R, un tel pivot étant le seul coefficient non nul de sa ligne et de sacolonne. Le rang d’une telle matrice est égal au nombre r des pivots, car la famille de ses colonnesnon nulles est clairement libre, et constituée de r vecteurs.

Les opérations élémentaires ne modifient pas le rang, donc le rang de A est égal au nombrede pivots de sa matrice échelonnée réduite par lignes. En raisonnant de la même façon, mais enéchelonnant d’abord par colonnes, on obtient que le rang de A est égal au nombre de pivots desa matrice échelonnée réduite par colonnes.

Remarques

• Dans le cas des exemples ci-dessus, les transformations du raisonnement précédent sont lessuivantes :

M ∼L

1 2 0 00 0 1 00 0 0 1

∼C

1 0 0 00 0 1 00 0 0 1

, A ∼L

1 0 20 1 30 0 0

∼C

1 0 00 1 00 0 0

• Lorsque l’on passe, par opérations élémentaires, d’une matrice échelonnée à une matrice éche-lonnée réduite (par lignes ou colonnes), le nombre et la position des pivots ne sont pas modifiés.On en déduit que le rang d’une matrice échelonnée (même si elle n’est pas échelonnée réduite)est égal au nombre de ses pivots. En particulier, le rang de A ∈Mn,p(K) est égal au nombre depivots de toute matrice échelonnée équivalente par lignes ou par colonnes à A.

Soit A ∈Mn,p(K). Alors rg(tA) = rg(A).

En particulier, le rang de A (qui est le rang de la famille des colonnes de A) est aussiégal au rang de la famille de ses lignes.

Propriété – Rang de la transposée

Démonstration – Le rang de tA est égal au nombre de pivots de sa matrice échelonnée réduitepar lignes. Or, échelonner tA par lignes revient à échelonner A par colonnes, et à transposer lerésultat obtenu. Le nombre de pivots de la matrice échelonnée réduite par lignes de tA est doncégal au nombre de pivots de la matrice échelonnée réduite par colonnes de A, qui est le rangde A. On a donc rg(tA) = rg(A). On en déduit que le rang de A est le rang de la famille descolonnes de tA, c’est-à-dire le rang de la famille des lignes de A.

Soit A ∈Mn(K). La matrice A est inversible si et seulement si elle est équivalente (parlignes ou par colonnes) à la matrice In.

Propriété

Démonstration – On raisonne dans le cas des lignes, celui des colonnes est analogue. Notons R lamatrice échelonnée réduite par lignes de A. La matrice A est carrée, on sait qu’elle est inversiblesi et seulement si rg(A) = n, c’est-à-dire, si et seulement si R possède n pivots. D’après ladéfinition d’une matrice échelonnée réduite, c’est le cas si et seulement si R = In.

Or, on remarque que la matrice In est échelonnée réduite par lignes, donc si A ∼LIn, alors

par unicité, R = In. La réciproque est évidente car A ∼LR par définition de R. Finalement, A

est inversible si et seulement si A ∼LIn.

Or, on sait exactement comment déterminer la matrice échelonnée réduite par lignes de A :c’est l’algorithme de Gauss-Jordan. Il en découle un moyen effectif de déterminer A−1 lorsque Aest inversible :

82

Soit A ∈ Gℓn(K). On note (L) une suite finie d’opérations élémentaires sur les lignesde A à partir de laquelle on obtient sa matrice échelonnée réduite par lignes, In.

Alors la matrice déduite de In par la suite d’opérations (L) est A−1. On peut donnerle même résultat sur les colonnes.

Propriété – Calcul de l’inverse par l’algorithme de Gauss-Jordan

Démonstration – La suite (L) correspond à une matrice E ∈ Gℓn(K), produit de matrices élémen-taires, telle que EA = In. On en déduit que E = A−1, c’est-à-dire, EIn = A−1. En effectuantsur In la suite (L) d’opérations élémentaires, on obtient donc A−1.

Remarque – L’algorithme de Gauss-Jordan permet aussi de prouver que A est inversible : l’algo-rithme aboutit à In si et seulement si A est inversible.

Exemple – Soit C =

1 0 12 1 3−1 2 2

. On fait en parallèle les mêmes opérations sur les lignes de C

et de I3 :

1 0 12 1 3−1 2 2

L2 ← L2 − 2L1

L3 ← L3 + L1

1 0 00 1 00 0 1

1 0 10 1 10 2 3

L3 ← L3 − 2L2

1 0 0−2 1 01 0 1

1 0 10 1 10 0 1

L1 ← L1 − L3

L2 ← L2 − L3

1 0 0−2 1 05 −2 1

1 0 00 1 00 0 1

−4 2 −1−7 3 −15 −2 1

.

On en déduit que C est inversible et que C−1 =

−4 2 −1−7 3 −15 −2 1

.

Soit (x1, . . . ,xp) une famille d’un K-espace vectoriel E de dimension n. On rappelle que :

• (x1, . . . , xp) est libre si et seulement si rg(x1, . . . , xp) = p.

• (x1, . . . , xp) engendre E si et seulement si rg(x1, . . . , xp) = n.

• (x1, . . . , xp) est une base de E si et seulement si p = n et rg(x1, . . . , xp) = n.

Soit A ∈ Mn,p(K) la matrice de (x1, . . . , xp) dans une base quelconque de E. Le rang de(x1, . . . ,xp) est égal au rang de la matrice A, qui lui-même, est égal au nombre r de pivotsde toute matrice échelonnée équivalente par lignes ou colonnes à la matrice A. On en déduitque :

• (x1, . . . , xp) est libre si et seulement si r = p.

• (x1, . . . , xp) engendre E si et seulement si r = n.

• (x1, . . . , xp) est une base de E si et seulement si r = p = n.

Exemples

• Avec la matrice A des exemples précédents, montrons que M3,1(R) = Ker(A) ⊕ Im(A) : pourcela on montre que la famille

−2−31

,

10

1/2

,

01−1/2

83

est une base de M3,1(R) grâce à l’algorithme de Gauss-Jordan sur sa matrice D dans la basecanonique :

D =

−2 1 0−3 0 11 1/2 −1/2

C1 ↔ C2

∼C

1 −2 00 −3 1

1/2 1 −1/2

C2 ← C2 + 2C1

∼C

1 0 00 −3 1

1/2 2 −1/2

C2 ↔ C3

∼C

1 0 00 1 −3

1/2 −1/2 2

C3 ← C3 + 3C2

∼C

1 0 00 1 0

1/2 −1/2 1/2

La matrice précédente est échelonnée par colonnes. Avec les notations précédentes, on a dans cecas r = p = n = 3, d’où le résultat. D’après un résultat du chapitre précédent (fractionnementd’une base), on a donc

M3,1(R) = Vect

−2−31

⊕Vect

10

1/2

,

01−1/2

= Ker(A)⊕ Im(A).

• Dans E = R1[X], on considère la famille

F = (X + 1,X + 2,X + 3).

On sait que cette famille est liée car elle est constituée de 3 vecteurs en dimension 2 ; on chercheune relation de dépendance linéaire entre ses éléments. On met en œuvre l’algorithme de Gauss-Jordan sur les lignes de N , matrice de la famille F dans la base (X,1) de R1[X] :

N =

(1 1 11 2 3

)

L2 ↔ L2 − L1

∼L

(1 1 10 1 2

)

L1 ← L1 − L2

∼L

(1 0 −10 1 2

)

On a r = n = 2 et p = 3. On retrouve le fait que la famille F est liée, mais on sait aussi qu’elleengendre R1[X]. De plus, déterminer les relations de dépendance linéaire entre les éléments deF revient à déterminer les éléments non nuls de Ker(N), qui d’après le calcul précédent, estcaractérisé par le système

x− z = 0

y + 2z = 0

On en déduit que Ker(N) = Vect(t(1 −2 1

)) et notamment,

(X + 1)− 2(X + 2) + (X + 3) = 0.

84

4. Résolution de systèmes linéaires

On s’intéresse dans ce paragraphe à la résolution des systèmes linéaires par l’algorithme deGauss-Jordan. On rappelle que la forme générale d’un tel système est

(S) :

a1,1x1+ · · · + a1,pxp = b1

a2,1x1+ · · · + a2,pxp = b2

...

an,1x1+ · · · + an,pxp = bn

et qu’en notant A = (ai,j)16i6n,16j6p ∈Mn,p(K), X ∈Mp,1(K) la matrice colonne de coefficientsx1, . . . ,xp et B ∈Mn,1(K) la matrice colonne de coefficients b1, . . . ,bn, ce système se met sous laforme matricielle (E) : AX = B, c’est-à-dire que (x1, . . . ,xp) est solution de (S) si et seulementsi X est solution de (E).

Avec les notations précédentes :

• On dit que A est la matrice du système linéaire (S).

• On appelle seconds membres du système (S) les scalaires b1, . . . ,bn ; on appellecolonne des seconds membres de (S) la matrice colonne B.

• On appelle système homogène (ou sans second membre) associé à (S) le systèmeobtenu à partir de (S) en remplaçant tous les bi par 0. Ce système s’écrit matriciellementAX = 0.

• On appelle matrice augmentée associée à (S) la matrice (A|B) obtenue en mettantcôte à côte A et B (dans cet ordre) dans une même matrice, i.e.

∀ (i,j) ∈ [[1,n]]× [[1,p + 1]], (A|B)i,j =

ai,j si j 6 p

bi si j = p+ 1.

Définition

Comme on l’a expliqué dans le chapitre précédent, le système (S) possède au moins unesolution si et seulement si l’équation AX = B possède au moins une solution, ce qui équivaut aufait que B ∈ Im(A).

Dans ce cas, l’ensemble des solutions de l’équation AX = B est X0 + Y ; Y ∈ Ker(A), oùX0 désigne une solution particulière de l’équation. En d’autres termes, l’ensemble des solutionsde (S) est x0 + y; y ∈ Sh, où x0 est une solution particulière de (S) et Sh désigne l’ensembledes solutions du système homogène (Sh) associé à (S).

• On dit que le système (S) est compatible s’il possède au moins une solution (c’est-à-dire, avec les notations précédentes, si B ∈ Im(A)).

• On dit que (S) est incompatible dans le cas contraire.

Définition – Système compatible/incompatible

Remarque – Un vecteur (x1, . . . ,xp) ∈ Kp est solution de (S) si et seulement si

a1,1x1+ · · · + a1,pxp − b1 = 0

a2,1x1+ · · · + a2,pxp − b2 = 0

...

an,1x1+ · · · + an,pxp − bn = 0,

, ce qui équivaut à :

x1

...xp

−1

∈ Ker((A|B)).

Nous allons maintenant expliquer comment résoudre en pratique les systèmes linéaires.

85

• On définit les mêmes opérations élémentaires sur les lignes d’un système linéaire quesur les matrices (en tenant compte des seconds membres).

• On dit que deux systèmes linéaires sont équivalents si on peut passer de l’un àl’autre par une suite finie d’opérations élémentaires sur les lignes.

Définition – Opérations sur les lignes d’un système linéaire

Remarques

• Les opérations élémentaires étant réversibles, il n’est pas ambigu de dire que deux systèmessont équivalents.

• Soient (S) et (S′) deux systèmes linéaires de matrices respectives A et A′ de même taille, et decolonnes des seconds membres respectives B et B′. Alors, pour que (S) et (S′) soient équivalents,il faut et il suffit que (A|B) et (A′|B′) soient équivalentes par lignes. Plus précisément, si (L)désigne une suite finie d’opérations sur les lignes, alors on peut passer de (S) à (S′) par la suite(L) si et seulement si on peut passer de (A|B) à (A′|B′) par la suite (L).

Ceci justifie la présentation matricielle des systèmes linéaires : pour passer d’un systèmelinéaire (S) à un système (S′) qui lui soit équivalent, on peut former la matrice augmentée (A|B)associée à (S), effectuer des opérations élémentaires sur les lignes de (A|B), ce qui fournit unematrice de la forme (A′|B′) à partir de laquelle on obtient (S′).

L’intérêt des opérations élémentaires sur les lignes d’un système linéaire vient notamment dela propriété suivante :

Deux systèmes linéaires équivalents ont le même ensemble de solutions.

Propriété

Démonstration – Avec les notations précédentes, si (S) et (S′) sont équivalents, (A|B) et (A′|B′)sont équivalentes par lignes. Comme on l’a déjà montré, elles ont donc le même noyau. Ainsi,pour (x1, . . . ,xp) ∈ Kp, on a l’équivalence

x1

...xp

−1

∈ Ker((A|B)) ⇔

x1

...xp

−1

∈ Ker((A′|B′)),

et donc, d’après une remarque faite plus haut, (x1, . . . ,xp) est solution de (S) si et seulement si(x1, . . . ,xp) est solution de (S′).

Résolution pratique d’un système linéaire

Un système linéaire (S) de forme matricielle AX = B, dont la matrice A est échelonnéeréduite par lignes, est particulièrement facile à résoudre : en gardant à l’esprit la forme généraled’une matrice échelonnée réduite par lignes donnée page 77, notons (i1,j1), . . . ,(ir,jr) les positionsdes pivots de A (on suppose A non nulle) ; en particulier, on a :

• j1 < · · · < jr,

• les r premières lignes de A sont non nulles et, le cas échéant, les n− r dernières sont nulles,

• pour tout k ∈ [[1,r]], aik ,jk= 1, et aik ,j = 0 si j < jk, ai,jk

= 0 si i 6= ik.

Commençons par examiner, le cas échéant, les n − r dernières lignes de A. Elles correspondentaux équations 0 = bi, pour i ∈ [[r + 1,n]]. Si l’un des bi, pour i ∈ [[r + 1,n]], est non nul, alors (S)ne possède aucune solution : il est incompatible.

Sinon, la r-ième équation s’écrit

xjr + ar,jr+1 xjr+1 + · · · + ar,p xp = br,

86

elle donne directement xjr en fonction de br et xjr+1, . . . ,xp. On remonte alors dans le système,jusqu’à la première équation,

xj1 + a1,j1+1 xj1+1 + · · ·+ a1,p xp = b1,

ce qui donne directement xj1 en fonction de b1 et xj1+1, . . . ,xp, mais l’expression ne fait pasintervenir xj2 , . . . ,xjr car la matrice A est échelonnée réduite. Finalement, dans ce cas, (S) possèdedes solutions, et tout choix de valeurs pour les xj tels que j /∈ j1, . . . ,jr donne explicitementune solution de (S).

Dans le cas général, (A quelconque), il existe une matrice E, produit de matrices élémentaires,et R, échelonnée réduite par lignes, telles que EA = R. L’équation AX = B équivaut à l’équationRX = EB : on retrouve la situation précédente. On remarque que EB est la matrice colonneobtenue en effectuant sur B les opérations faites pour passer de A à sa forme échelonnée réduitepar lignes R.

En pratique, pour résoudre l’équation AX = B, on forme la matrice augmentée (A|B), surlaquelle on met en œuvre l’algorithme de Gauss-Jordan sur les lignes :

• À l’issue de la phase de descente, on peut déjà déterminer si le système est compatible ouincompatible : il est compatible si et seulement si la dernière colonne (correspondant au secondmembre) ne contient aucun pivot. Les opérations élémentaires que l’on aurait faites en traitantuniquement A suffisent à faire cette vérification.

• Si le système est compatible, la phase de remontée fera intervenir les mêmes opérations élémen-taires que si l’on échelonnait uniquement A, car le dernier pivot ne se situe pas dans la dernièrecolonne correspondant au second membre. On obtient donc bien la forme équivalente RX = EB.

Exemple – Résolvons le système linéaire

x +2y +8z = 7−x −2z = −3x +y +5z = 5

La matrice de ce système est la matrice A d’un exemple traité page 81. La colonne des secondsmembres est B = t

(7 −3 5

). On met en œuvre l’algorithme de Gauss-Jordan sur les lignes de

la matrice augmentée (A|B) :

(A|B) =

1 2 8 7−1 0 −2 −31 1 5 5

L3 ← L3 + L2

L2 ← L2 + L1

∼L

1 2 8 70 2 6 40 1 3 2

L2 ↔ L3

∼L

1 2 8 70 1 3 20 2 6 4

L3 ← L3 − 2L2

∼L

1 2 8 70 1 3 20 0 0 0

Le système est compatible. L’opération L1 ← L1 − 2L2 montre finalement que

(A|B) ∼L

1 0 2 30 1 3 20 0 0 0

Le système (S) est donc équivalent à

x+ 2z = 3

y + 3z = 2i.e., à

x = 3− 2z

y = 2− 3z

87

L’inconnue z n’est liée par aucune équation, on la choisit comme paramètre, que l’on peutrenommer λ, c’est-à-dire que l’ensemble des solutions de (S) est

(3− 2λ, 2 − 3λ, λ); λ ∈ K = (3,2,0) + λ (−2, − 3,1); λ ∈ K.

On obtient une représentation paramétrique de l’ensemble des solutions, et on retrouve bien,pour les solutions, la forme générale x0 + y où x0 = (3,2,0) est une solution particulière (obtenuepour λ = 0), et y ∈ Vect(−2,− 3,1) avec

Vect

−2−31

= Ker(A).

Soit (S) un système linéaire de matrice A non nulle.

• Les inconnues xj1 , . . . ,xjr dont les indices sont ceux des colonnes des pivots de la ma-trice échelonnée réduite par lignes associée à A, sont appelées inconnues principalesde (S).

• Les autres inconnues sont appelées inconnues secondaires, ou paramètres.

• On appelle rang du système (S) le nombre r, c’est-à-dire le nombre de pivots de lamatrice échelonnée réduite par lignes associée à A.

• Le nombre de paramètres est donc égal à p−r, c’est-à-dire, à la différence du nombred’inconnues et du rang de (S).

Définition

Remarques

• Comme on l’a montré dans le paragraphe 3, r est aussi le rang de la matrice A, ce qui montrela cohérence de l’appellation.

• Un système sans second membre est toujours compatible, car le p-uplet (0, . . . ,0) en est solution.

• Dans l’exemple traité ci-dessus, les inconnues principales sont x et y, le paramètre est z. Lerang du système est 2.

De l’étude précédente, on déduit que trois cas se présentent quant à l’ensemble S des solutionsd’un système linéaire (S) de rang r et de matrice A ∈Mn,p(K) :

• Si le système est incompatible, alors S = ∅.• Si le système est compatible et si r = p, alors le système n’a que des inconnues principales,

et donc, possède une unique solution : S est réduit à un point.

• Si le système est compatible et si r < p, alors le système a p− r paramètres et S est infini.

Le théorème du rang montre aussi que

p = dim(Ker(A)) + rg(A), c’est-à-dire que p− r = dim(Ker(A)).

Le nombre de paramètres d’un système compatible de matrice A est donc égal à dim(Ker(A)).Ceci est bien sûr cohérent avec la description de l’ensemble des solutions de (S).

De plus, on rappelle que le système est compatible si et seulement si B ∈ Im(A). Par exemple,si r = n, alors rg(A) = dim(Mn,1(R)), et donc Im(A) = Mn,1(R) : le système est donc compatiblequel que soit le choix de B. Si r < n, il existe des choix de B pour lesquels le système estincompatible. C’est par exemple le cas si p < n, car dans ce cas r 6 p < n.

La situation suivante est également intéressante : si r = n = p, alors quel que soit le choixde B, le système (S) est compatible et possède une unique solution (on dit dans ce cas que (S)est un système de Cramer). On retrouve ce résultat en remarquant que dans ce cas, A est unematrice carrée inversible ; pour tout B, on a l’équivalence AX = B ⇔ X = A−1B.

88

On a en fait la caractérisation suivante :

Soit A ∈Mn(K). Les propriétés suivantes sont équivalentes :

1. A est inversible.

2. Le système AX = 0 admet pour unique solution le vecteur nul.

3. Pour tout B ∈Mn,1(K), le système AX = B possède une unique solution.

4. Pour tout B ∈Mn,1(K), le système AX = B possède au moins une solution.

Propriété – Matrices inversibles et résolution de systèmes

Démonstration – La matrice A est inversible si et seulement si l’application uA canoniquementassociée à A est un isomorphisme, ce qui équivaut au point 3. D’après la caractérisation desisomorphismes en dimension finie, ceci équivaut au fait que Ker(A) = 0Mn,1(K), i.e. au point2, et également au fait que Im(A) = Mn,1(K) (i.e. au point 4).

Dans ce cas, la résolution du système AX = B où B est un second membre quelconquepermet même d’expliciter A−1 : si l’on résout le système AX = B, c’est-à-dire si l’on détermineM ∈ Mn(K) telle que AX = B équivaut à X = MB, alors quel que soit le choix de B,on a A−1B = MB, d’où l’on déduit que A−1 = M en choisissant pour B les vecteurs dela base canonique de Mn,1(K). Par exemple, on vérifie par opérations sur les lignes que pour(x1,x2,x3) ∈ K3 et (b1,b2,b3) ∈ K3,

2x1 + x2 + x3 = b1

x1 + 2x2 + x3 = b2

x1 + x2 + 2x3 = b3

⇔

x1 =1

4(3b1 − b2 − b3)

x2 =1

4(−b1 + 3b2 − b3)

x3 =1

4(−b1 − b2 + 3b3)

d’où l’on déduit que

A =

2 1 11 2 11 1 2

est inversible avec A−1 =1

4

3 −1 −1−1 3 −1−1 −1 3

.

V. Trace d’une matrice et d’un endomorphisme

1. Trace d’une matrice carrée

Soit A = (ai,j)16i,j6n ∈Mn(K) une matrice carrée. On appelle trace de A le scalaire

Tr(A) =n∑

i=1

ai,i,

c’est-à-dire la somme des coefficients diagonaux de A.

Définition – Trace d’une matrice

L’application Tr est une forme linéaire sur Mn(K).

Propriété

Démonstration – C’est immédiat, Tr est une somme de formes linéaires sur Mn(K).

89

Soient A et B deux matrices carrées d’ordre n. Alors Tr(AB) = Tr(BA).

Propriété

Démonstration – Notons ai,j et bi,j les coefficients de A et B. Alors pour tout (i,j) ∈ [[1,n]]2,

(AB)i,j =

n∑

k=1

ai,k bk,j,

de sorte que Tr(AB) =

n∑

i=1

(AB)i,i =

n∑

i=1

n∑

k=1

ai,k bk,i. En changeant d’indice, on peut écrire

Tr(AB) =n∑

i,j=1

ai,j bj,i.

En échangeant les rôles de A et B, on a de même

Tr(BA) =

n∑

i,j=1

bi,j aj,i.

Le changement d’indice i↔ j montre alors que Tr(BA) = Tr(AB).

Deux matrices semblables ont la même trace.

Propriété

Démonstration – Si A et B sont semblables, il existe P ∈ Gℓn(K) tel que B = P−1AP. Alorsd’après la propriété précédente,

Tr(B) = Tr(P−1AP ) = Tr(APP−1) = Tr(A).

2. Trace d’un endomorphisme

Soient E un K-espace vectoriel de dimension finie et u ∈ L (E). Toutes les matricesreprésentant l’endomorphisme u ont la même trace : si B et B′ sont deux bases de E,si A = MatB(u) et B = MatB′(u), alors Tr(A) = Tr(B).

Propriété

Démonstration – Si A = MatB(u) et B = MatB′(u), alors A et B sont semblables d’après lesformules de changement de bases. Le résultat provient alors de la propriété précédente.

Soient E un K-espace vectoriel de dimension finie et u ∈ L (E). On définit la trace deu comme la trace d’une quelconque de ses matrices.

Définition – Trace d’un endomorphisme

Exemple – Soit

u :

M2(R) → M2(R)

M 7→ tM + 2M

Pour calculer Tr(u), écrivons la matrice de u dans la base de M2(R)

B = (e1,e2,e3,e4) =

((1 00 0

)

,

(0 01 0

)

,

(0 10 0

)

,

(0 00 1

))

;

90

on a u(e1) =

(1 00 0

)

+ 2

(1 00 0

)

= 3 e1

u(e2) =

(0 10 0

)

+ 2

(0 01 0

)

= 2 e2 + e3

u(e3) =

(0 01 0

)

+ 2

(0 10 0

)

= e2 + 2e3

u(e4) =

(0 00 1

)

+ 2

(0 00 1

)

= 3 e4,

et donc

MatB(u) =

3 0 0 00 2 1 00 1 2 00 0 0 3

,

d’où : Tr(u) = Tr(MatB(u)) = 10.

VI. Sous-espaces stables

1. Matrices définies par blocs

Soient m et q deux entiers naturels non nuls et (Ai,j)16i6m,16j6q une famille de matrices àcoefficients dans K. On suppose que pour tout j ∈ [[1,q]], toutes les matrices Ai,j pour i ∈ [[1,m]]ont le même nombre pj de colonnes. De même, on suppose que pour tout i ∈ [[1,m]], toutes lesmatrices Ai,j pour j ∈ [[1,q]] ont le même nombre ni de lignes.

On définit alors la matrice

B =

A1,1 . . . A1,j . . . A1,q

......

...Ai,1 . . . Ai,j . . . Ai,q

......

...Am,1 . . . Am,j . . . Am,q

obtenue en écrivant « côte à côte » le contenu des matrices Ai,j . La matrice B possède∑m

i=1 ni

lignes et∑q

j=1 pj colonnes.

Sous réserve de compatibilité des tailles des blocs, on a :

•(A BC D

)

+

(A′ B′

C ′ D′

)

=

(A+A′ B +B′

C + C ′ D +D′

)

,

•(A BC D

)(A′ B′

C ′ D′

)

=

(AA′ +BC ′ AB′ +BD′

CA′ +DC ′ CB′ +DD′

)

.

Propriété – Calculs par blocs

Remarque – On généralisera sans difficulté cette propriété au cas d’un nombre quelconque deblocs.

Attention !

• Le sens des opérations est important. En effet par exemple, en général, AB′ 6= B′A.

• Il est nécessaire que les dimensions des blocs soient compatibles. Pour le premier point, lesmatrices A et A′ doivent être de même taille, de même pour B et B′, etc... Pour le second point,le nombre de colonnes de A doit être égal au nombre de lignes de A′, etc...

91

2. Sous-espaces stables

Dans ce paragraphe uniquement, E est un K-espace vectoriel qui n’est pas supposé de di-mension finie.

Si E = V ⊕W , un endomorphisme u ∈ L (E) est entièrement défini par ses restrictions à Vet W , qui peuvent être plus simples si V et W sont bien choisis.

Soit V un sous-espace vectoriel de E, et u ∈ L (E).

On dit que V est stable par u si u(V ) ⊂ V , c’est-à-dire : ∀x ∈ V , u(x) ∈ V .

Définition – Sous-espace stable par un endomorphisme

Exemple – Soit E = K[X], V = P ∈ E; P (1) = 0 et u l’application linéaire qui à P ∈ Eassocie le polynôme XP (X). Alors V est stable par u : si P (1) = 0, on a aussi (u(P ))(1) = 0.

Si V est un sous-espace vectoriel de E stable par u, alors l’application

u|V :

V → Vx 7→ u(x)

est un endomorphisme de V , appelé endomorphisme de V induit par u.

Propriété/Définition – Endomorphisme induit

Attention ! Il ne s’agit pas d’une simple restriction de u : l’espace d’arrivée est aussi restreint.

Soient u et v deux endomorphismes de E qui commutent (i.e. u v = v u).Alors Ker(u) et Im(u) sont stables par v.

Propriété

Démonstration – Soit x ∈ Ker(u). Montrons que v(x) ∈ Ker(u) : sachant que u et v commutent,on a u(v(x)) = v(u(x)) = v(0) = 0, i.e. v(x) ∈ Ker(u), d’où le résultat.

De même si y = u(x) ∈ Im(u), avec x ∈ E, alors v(y) = v(u(x)) = u(v(x)) ∈ Im(u), doncIm(u) est stable par v.

Remarque – En particulier, si u ∈ L (E), Ker(u) et Im(u) sont stables par u (en effet, u commuteavec lui-même).

3. Traduction matricielle

Dans ce paragraphe, E est un K-espace vectoriel de dimension finie n > 2.

Soit V un sous-espace vectoriel de E de dimension r ∈ [[1,n − 1]]. Soit B = BV ⊔F unebase de E adaptée à V (avec BV une base de V ) et soit u ∈ L (E).

Alors V est stable par u si et seulement si MatB(u) est de la forme

(A B0 C

)

où A est d’ordre r et 0 désigne un bloc nul. Dans ce cas, A = MatBV(u|V ).

Propriété

92

Démonstration – Notons B = (e1, . . . ,en), de sorte que BV = (e1, . . . ,er). Le sous-espace V eststable par u si et seulement si pour tout vecteur x de V , u(x) ∈ Vect(e1, . . . ,er). En raison-nant avec des combinaisons linéaires, il est immédiat que ceci équivaut à : pour tout i ∈ [[1,r]],u(ei) ∈ Vect(e1, . . . ,er).

Ainsi, V est stable par u si et seulement si les coordonnées de u(e1), . . . ,u(er) selon er+1, . . . ,ensont nulles. Or les r premières colonnes de MatB(u) sont les matrices colonnes des coordonnéesde u(e1), . . . ,u(er) dans la base B. On a donc l’équivalence souhaitée.

Lorsque V est stable par u, les colonnes de la matrice A sont les matrices colonnes descoordonnées de u(e1), . . . ,u(er) dans la base (e1, . . . ,er) de V , donc A = MatBV

(u|V ).

En raisonnant de façon analogue, on obtient :

Soient m > 2, u ∈ L (E) et B = B1 ⊔ · · · ⊔ Bm une base de E, où, pour tout i ∈ [[1,m]],Bi est composée de ni vecteurs.

Les propriétés suivantes sont équivalentes :

• MatB(u) est de la forme

A1 0 · · · 0

0. . .

. . ....

.... . .

. . . 00 · · · 0 Am

avec, pour tout i ∈ [[1,m]], Ai d’ordre ni.

• Pour tout i ∈ [[1,m]], Ei = Vect(Bi) est stable par u.

Dans ce cas, on a Ai = MatBi(u|Ei

) pour tout i ∈ [[1,m]].

On a alors une décomposition E = E1 ⊕ · · · ⊕ Em en somme directe de sous-espacesstables par u.

Propriété

On appelle matrice diagonale par blocs une matrice carrée de la forme précédente.

Définition

Cas particulier – Une matrice diagonale est une matrice diagonale par blocs telle que, avec lesnotations précédentes, pour tout i ∈ [[1,m]], Ai n’a qu’un coefficient (on a alors m = n).

D’après la propriété précédente, si B = (e1, . . . ,en), ceci équivaut au fait que pour touti ∈ [[1,n]],

u(ei) ∈ Vect(ei).

c’est-à-dire, au fait que u(ei) soit un multiple de ei.

On appelle matrice triangulaire supérieure par blocs une matrice carrée, définiepar blocs, de la forme

A1,1 A1,2 · · · A1,m

0. . .

. . ....

.... . .

. . . Am−1,m

0 · · · 0 Am,m

,

où m > 2 et pour tout i ∈ [[1,m]], Ai,i est une matrice carrée.

Définition

93

Soient m > 2, u ∈ L (E) et B = B1 ⊔ · · · ⊔ Bm une base de E, où, pour tout i ∈ [[1,m]],Bi est composée de ni vecteurs. On note, pour tout i ∈ [[1,m]], Ei = Vect(Bi).


• MatB(u) est de la forme précédente avec, pour tout i ∈ [[1,m]], Ai,i d’ordre ni,

• Pour tout i ∈ [[1,m]], u(Ei) ⊂ E1 ⊕ · · · ⊕ Ei.

Propriété

Remarque – Dans ce cas, E1 est stable par u, mais en général, pas E2, . . . ,Em.

Cas particulier – Une matrice triangulaire supérieure est une matrice triangulaire par blocstelle que, avec les notations précédentes, pour tout i ∈ [[1,m]], Ai,i n’a qu’un coefficient (on aalors m = n).

D’après la propriété précédente, si B = (e1, . . . ,en), ceci équivaut au fait que pour touti ∈ [[1,n]],

u(ei) ∈ Vect(e1, . . . ,ei).

Exemple – Les matrices

A =

1 2 5 3 13 4 3 2 40 0 2 3 00 0 0 5 10 0 0 3 2

et B =

1 2 0 0 03 4 0 0 00 0 2 0 00 0 0 5 10 0 0 3 2

sont respectivement triangulaire par blocs et diagonale par blocs. Si A et B sont les matricesrespectives de deux endomorphismes u et v de E dans une base (e1,e2,e3,e4,e5), alors en notantE1 = Vect(e1,e2), E2 = Vect(e3), E3 = Vect(e4,e5), on a E = E1 ⊕ E2 ⊕ E3, avec E1 stable paru et v, E2 et E3 stables par v, et u(E2) ⊂ E1 ⊕ E2.

Remarque – Un objectif fondamental de l’algèbre linéaire consiste à construire des sous-espacesstables par u ou à en prouver l’existence, voire à construire des décompositions de l’espace ensomme directe de sous-espaces stables par u. Dans le cas idéal, l’endomorphisme induit par u surchacun de ces sous-espaces est une homothétie ; la matrice de u dans une base adaptée est alorsdiagonale, ce qui simplifie tous les calculs. C’est l’objectif de la réduction des endomorphismes,voir les chapitres Réduction et Endomorphismes remarquables des espaces euclidiens.

Exemple – Le cas particulier des projecteurs et des symétries

Si p est un projecteur (c’est-à-dire, si p p = p), alors

E = Ker(p− Id)⊕Ker(p)

avec Ker(p− Id) = Im(p). De plus Ker(p− Id) et Ker(p) sont stables par p (car p commute aveclui-même) et p|Ker(p−Id) = Id, p|Kerp = 0. On a donc, dans une base adaptée B :

MatB(p) =

(Ir 00 0

)

où r = dim(Im(p)) = rg(p). On remarque en particulier que Tr(p) = rg(p) : le rang d’unprojecteur est égal à sa trace.

De même, si s est une symétrie (c’est-à-dire, si s s = Id), alors

E = Ker(s− Id)⊕Ker(s + Id).

De plus Ker(s− Id) et Ker(s+ Id) sont stables par s, avec s|Ker(s−Id) = Id et s|Ker(s+Id) = − Id.On a donc dans une base adaptée B :

MatB(s) =

(Im 00 −Iq

)

avec m = dim(Ker(s− Id)) et q = dim(Ker(s+ Id)).

94

VII. Déterminant

Notation – Si f est une application de Mn(K) dans K, si A = (C1 · · · Cn) ∈ Mn(K) etU ∈Mn,1(K), on sera amené à utiliser la notation

f(C1 · · · Ci−1 U Ci+1 · · · Cn) ou simplement f(C1 · · · U · · · Cn)

pour i ∈ [[1,n]]. Bien sûr, cette notation n’a pas toujours de sens, par exemple pour i = 1, oui = n. Dans ces cas, on sous-entend respectivement

f(U · · · Cn) et f(C1 · · · U)

c’est-à-dire que dans tous les cas, on remplace la colonne Ci par U dans l’expression f(C1 · · · Cn).

De plus, pour favoriser la lisibilité dans certains cas, on utilisera un trait de séparation verticalentre les colonnes, c’est-à-dire que la matrice (C1 · · · Cn) sera parfois notée (C1 | · · · |Cn).

1. Déterminant d’une matrice carrée

Il existe une unique application f : Mn(K)→ K vérifiant les propriétés suivantes :

(i) f est linéaire par rapport à chacune des colonnes de sa variable :

∀ i ∈ [[1,n]], ∀ (C1 · · · Cn) ∈Mn(K), ∀ (U,V ) ∈ (Mn,1(K))2, ∀λ ∈ K :

f(C1 | · · · |Ci−1 |λU + V |Ci+1 | · · · |Cn)

=λ f(C1 | · · · |Ci−1 |U |Ci+1 | · · · |Cn) + f(C1 | · · · |Ci−1 |V |Ci+1 | · · · |Cn).

(ii) f est antisymétrique par rapport aux colonnes de sa variable :

∀ (i,j) ∈ [[1,n]]2; i 6= j, ∀ (C1 · · · Cn) ∈Mn(K),

f(C1 · · · Ci︸︷︷︸

position i

· · · Cj︸︷︷︸

position j

· · · Cn) = −f(C1 · · · Cj︸︷︷︸

position i

· · · Ci︸︷︷︸

position j

· · · Cn).

(iii) f(In) = 1.

Cette application est appelée déterminant et notée det.

Théorème/Définition : Déterminant d’une matrice carrée

Une application f : Mn(K) → K qui vérifie la propriété (ii) vérifie aussi la propriétésuivante : si A ∈Mn(K) a deux colonnes égales, alors f(A) = 0.

Propriété

Démonstration – En effet, si les colonnes d’indices i et j de A sont égales, avec i 6= j, on a parantisymétrie

f(A) = f(C1 · · ·Ci · · ·Ci · · ·Cn) = −f(C1 · · ·Ci · · ·Ci · · ·Cn) = −f(A)

et donc f(A) = 0.

Démonstration de l’existence et de l’unicité du déterminant

Démontrons cette propriété dans le cas où n = 3 ; la démonstration est plus facile dans lescas n = 1 et n = 2, elle est hors programme pour n > 4.

Unicité : Soit f une application vérifiant les trois propriétés ci-dessus et A = (ai,j) ∈ M3(K).En notant (e1,e2,e3) la base canonique de M3,1(K), on a donc

f(A) = f (a1,1e1 + a2,1e2 + a3,1e3|a1,2e1 + a2,2e2 + a3,2e3|a1,3e1 + a2,3e2 + a3,3e3) .

95

Par linéarité de f par rapport à chacune des colonnes de sa variable, on peut développer l’ex-pression ci-dessus. De plus, d’après la propriété précédente, tous les termes correspondant à desmatrices ayant deux colonnes égales sont nuls. Ainsi

f(A) = a1,1a2,2a3,3 f(e1|e2|e3) + a1,1a3,2a2,3 f(e1|e3|e2)+ a2,1a1,2a3,3 f(e2|e1|e3) + a2,1a3,2a1,3 f(e2|e3|e1)+ a3,1a1,2a2,3 f(e3|e1|e2) + a3,1a2,2a1,3 f(e3|e2|e1)

De plus, d’après la propriété (iii), f(I3) = 1, et par antisymétrie,

f(e1|e3|e2) = f(e3|e2|e1) = f(e2|e1|e3) = −f(e1|e2|e3) = −1

f(e2|e3|e1) = −f(e1|e3|e2) = f(e1|e2|e3) = 1

f(e3|e1|e2) = −f(e1|e3|e2) = f(e1|e2|e3) = 1.

Finalement,

f(A) =a1,1a2,2a3,3 + a2,1a3,2a1,3 + a3,1a1,2a2,3

−a3,1a2,2a1,3 − a2,1a1,2a3,3 − a1,1a3,2a2,3.

Pour tout A ∈Mn(K), le scalaire f(A) est donc entièrement déterminé par une même formulesur les coefficients de A. En particulier, il existe au plus une application f vérifiant les troispropriétés du théorème.

Existence : On définit f par la formule obtenue ci-dessus. Il est alors immédiat que f(I3) = 1 cardans ce cas, seul le terme a1,1a2,2a3,3 est non nul, et il vaut 1. Donc f vérifie la propriété (iii). Deplus, échanger deux colonnes de A a pour effet d’échanger les indices de colonnes correspondantssur les ai,j, à l’intérieur de chacun des termes de la somme. On remarque alors que chaque termeaffecté d’un signe positif est échangé avec un terme affecté d’un signe négatif. L’image par f de lamatrice obtenue est donc −f(A), ce qui prouve que f vérifie la propriété (ii). Enfin, si la colonnej de la matrice A est de la forme λU +V avec (U,V ) ∈M3,1(K)2 (de coefficients respectifs notésu1, u2, u3 et v1, v2, v3), alors pour tout i ∈ [[1,3]], ai,j = λui + vi. En reportant cette expressiondans la somme donnant f(A), en développant le résultat et en regroupant les termes, on obtientla linéarité de f par rapport à la j-ième colonne de sa variable, et ce pour tout j ∈ [[1,n]].

Remarques

• Pour n = 1, si A = (a) avec a ∈ K, on a det(A) = a. Pour n = 2, on obtient, pour tout(a,b,c,d) ∈ K4,

det

(a cb d

)

= ad− bc.

Pour n = 2 et n = 3, les formules démontrées sont appelées règle de Sarrus. Elle n’ont pasd’équivalent lorsque n > 4.

• On remarquera que pour chacun des termes de la somme donnant det(A), on choisit un coef-ficient dans la première colonne, puis un dans la seconde, jusqu’à la n-ième, en choisissant desindices de lignes deux à deux distincts. On fait ensuite la somme pour toutes les façons possiblesde faire un tel choix, en affectant à chaque terme un signe (dépendant en fait de l’ordre dans le-quel on a choisi les lignes). Cette structure apparaît nettement dans la démonstration d’existenceci-dessus.

96

Soit A = (C1 · · · Cn) ∈Mn(K).

• Si B est obtenue à partir de A par l’opération Ci ↔ Cj (i 6= j), alors

det(B) = − det(A).

• Si B est obtenue à partir de A par l’opération Ci ← Ci + λCj (i 6= j), alors on a :

det(B) = det(A).

• Si B est obtenue à partir de A par l’opération Ci ← λCi (λ ∈ K), alors on a :

det(B) = λ det(A).

• Pour tout λ ∈ K, det(λA) = λn det(A).

Propriété – Effet des opérations élémentaires

Démonstration

• C’est une réécriture de la propriété d’antisymétrie par rapport aux colonnes.

• Par linéarité du déterminant par rapport à la i-ième colonne de sa variable,

det(B) = det(C1 · · · Ci−1 Ci Ci+1 · · · Cn) + λf(C1 · · · Ci−1 Cj Ci+1 · · · Cn).

Dans le dernier terme, la colonne Cj apparaît deux fois, car i 6= j. Ce terme est donc nul d’aprèsune propriété du déterminant. On en déduit que

det(B) = det(C1 · · · Ci−1 Ci Ci+1 · · · Cn) = det(A).

• Il suffit d’utiliser la linéarité du déterminant par rapport à la i-ème colonne de sa variable.

• On applique successivement le point précédent à chacune des n colonnes de A.

Remarques

• En particulier, on remarquera que les opérations élémentaires sur les colonnes conservent ledéterminant ou le multiplient par un scalaire non nul.

• D’après le troisième point, le déterminant d’une matrice de dilatation Dni (λ) vérifie

det(Dni (λ)) = λdet(In) = λ.

Une matrice de transposition τni,j est obtenue à partir de In par l’opération Ci ↔ Cj, donc par

antisymétrie,det(τn

i,j) = −1.

Une matrice de transvection T ni,j(λ) est obtenue à partir de In par l’opération Cj ← Cj + λCi

qui ne modifie pas le déterminant, donc

det(T ni,j) = 1.

Soit A ∈Mn(K). Pour que A soit inversible, il faut et il suffit que det(A) 6= 0.

Corollaire – Matrices inversibles et déterminant

Démonstration

⇒ Si A est inversible, alors A ∼CIn, donc on peut passer de In à A par une suite finie

d’opérations élémentaires sur les colonnes ; d’après ce qui précède, il existe α ∈ K∗ tel quedet(A) = αdet(In) = α. En particulier, det(A) 6= 0.

97

⇐ On raisonne par contraposition : si A n’est pas inversible, l’une de ses colonnes, disons Ci,est combinaison linéaire des autres : on peut écrire

Ci =∑

j 6=i

λjCj

où les λj sont des scalaires. Alors, par linéarité du déterminant par rapport à la i-ième colonnede sa variable,

det(A) =∑

j 6=i

det(C1 · · · Cj︸︷︷︸

position i

· · · Cn) = 0

car dans chacun des termes de cette somme, deux des colonnes sont égales.

Soient A et B deux éléments de Mn(K). Alors det(AB) = det(A) det(B).

Propriété

Démonstration – Si AB est inversible, B l’est également : en effet, si X ∈ Mn,1(K) vérifieBX = 0, alors ABX = 0 et, AB étant inversible, X = 0, ce qui prouve que B est inver-sible. Par contraposition, si B n’est pas inversible, AB ne l’est pas non plus. Dans ce cas, laformule est vraie car det(B) = det(AB) = 0.

Si B est inversible, elle est équivalente par colonnes à In et en particulier, B est un produitde matrices élémentaires. Notons m le nombre de matrices de transpositions, et p le nombre dematrices de dilatations, figurant dans ce produit. Notons enfin λ1, . . . ,λp les coefficients de cesmatrices de dilatations (on peut toujours supposer que p > 1, quitte à ajouter la dilatation Indans le produit). D’après la propriété sur l’effet des opérations élémentaires sur le déterminant,

det(AB) = det(A)× (−1)m ×p∏

i=1

λi.

Mais on a également B = InB, et donc

det(B) = det(In)× (−1)m ×p∏

i=1

λi = (−1)m ×p∏

i=1

λi.

On en déduit que det(AB) = det(A) det(B).

Attention ! Il n’y a pas de propriété analogue pour la somme si n > 2 : det(In + In) = 2n > 4tandis que det(In) + det(In) = 2.

Si A est inversible, det(A−1) =1

det(A).

Propriété

Démonstration – En effet, det(A) det(A−1) = det(AA−1) = det(In) = 1.

Deux matrices semblables ont le même déterminant.

Propriété

Démonstration – Si A et B sont semblables, il existe P ∈ Gℓn(K) tel que B = P−1AP. Alorsd’après ce qui précède,

det(B) = det(P−1AP ) = det(P−1) det(AP ) = det(AP ) det(P−1) = det(APP−1) = det(A).

98

Si A est une matrice carrée, on a det(A) = det(tA).

Propriété

Démonstration – Si A n’est pas inversible, tA ne l’est pas non plus car rg(tA) = rg(A). Dans cecas, la formule est vraie car det(A) = det(tA) = 0.

Si A est inversible, on raisonne comme dans la démonstration de la formule du produit : Aest un produit de matrices élémentaires. On peut alors écrire tA comme un produit de matricesélémentaires, avec les mêmes matrices de dilatations et de transpositions que A (car de tellesmatrices sont symétriques). Les déterminant de A et tA étant entièrement calculable à partir dunombre de matrices de transpositions, et des coefficients des matrices de dilatations apparaissantdans ces produits, on en déduit le résultat.

Toutes les propriétés du déterminant par rapport aux colonnes sont également vraiespar rapport aux lignes.

Corollaire

2. Déterminant d’une famille de vecteurs

Soient E un K-espace vectoriel de dimension finie n et B une base de E.

Soit F = (u1, . . . ,un) une famille de n vecteurs de E. On appelle déterminant de Fdans la base B, le déterminant de la matrice de F dans la base B.

Il est noté detB(u1, . . . ,un).

Définition – Déterminant d’une famille de vecteurs dans une base

Une famille (u1, . . . ,un) de vecteurs de E est une base de E si et seulement si

detB(u1, . . . ,un) 6= 0.

Théorème – Caractérisation des bases

Démonstration – La famille (u1, . . . ,un) est une base de E si et seulement si sa matrice dans labase B est inversible, i.e., si et seulement si detB(u1, . . . ,un) 6= 0.

3. Déterminant d’un endomorphisme

Soit E un K-espace vectoriel de dimension finie n.

Soit u ∈ L (E). Toutes les matrices représentant l’endomorphisme u ont le mêmedéterminant : si B et B′ sont deux bases de E, si A = MatB(u) et B = MatB′(u), alorsdet(A) = det(B).

Propriété

Démonstration – Si A = MatB(u) et B = MatB′(u), alors A et B sont semblables d’après lesformules de changement de bases. Le résultat provient alors d’une propriété donnée ci-dessus.

On définit le déterminant de u ∈ L (E) comme le déterminant d’une quelconque deses matrices.

Définition – Déterminant d’une application linéaire

99

Remarque – Si A ∈Mn(K), l’application linéaire uA canoniquement associée à A a pour matriceA dans la base canonique de Mn,1(K), donc det(uA) = det(A).

Soient u et v deux endomorphismes de E.

• Pour tout λ ∈ K, det(λu) = λn det(u).

• det(u v) = det(u)× det(v).

• u est un isomorphisme si et seulement si det(u) 6= 0. Dans ce cas

det(u−1) =1

det(u).

Propriété

Démonstration – C’est une conséquence immédiate de la définition et des propriétés analoguessur les matrices.

4. Matrices triangulaires

Soit (ai,j)16i6j6n une famille de scalaires. Alors

∣∣∣∣∣∣∣∣∣∣

a1,1 · · · · · · a1,n

0. . .

......

. . .. . .

...0 · · · 0 an,n

∣∣∣∣∣∣∣∣∣∣

=n∏

i=1

ai,i

(de même pour une matrice triangulaire inférieure).

Propriété – Déterminant d’une matrice triangulaire

Démonstration – Notons A la matrice dont on cherche à calculer le déterminant. Si a1,1 = 0, lerésultat est vrai car A a une colonne nulle, elle n’est donc pas inversible, et det(A) = 0 =

∏ni=1 ai,i.

Sinon, on effectue successivement les opérations

C2 ← C2 −a1,2

a1,1C1 , . . . , Cn ← Cn −

a1,n

a1,1C1

ce qui ne modifie pas la valeur de det(A). On a donc

det(A) =

∣∣∣∣∣∣∣∣∣∣∣∣

a1,1 0 · · · · · · 00 a2,2 · · · · · · a2,n

... 0. . .

......

.... . .

. . ....

0 0 · · · 0 an,n

∣∣∣∣∣∣∣∣∣∣∣∣

On reproduit le raisonnement jusqu’à aboutir à

det(A) =

∣∣∣∣∣∣∣∣∣∣

a1,1 0 · · · 0

0. . .

. . ....

.... . .

. . . 00 · · · 0 an,n

∣∣∣∣∣∣∣∣∣∣

.

Par linéarité du déterminant par rapport à chaque colonne, on a donc

det(A) =

(n∏

i=1

ai,i

)

det(In) =

n∏

i=1

ai,i.

100

5. Calculs de déterminants par blocs

On suppose n > 2. Soit B ∈ Mn−1(K), L ∈ M1,n−1(K) et C ∈ Mn−1,1(K). Alors lesmatrices définies par blocs

A =

(1 L0 B

)

et A′ =

(B C0 1

)

ont pour déterminant det(B).

Lemme

Démonstration – On fait la démonstration dans le cas de A, l’autre cas est similaire. Si B n’estpas inversible, ses lignes forment une famille liée, donc celles de A également, et A n’est pasinversible. La formule est donc vraie dans ce cas. Sinon, lorsque l’on effectue l’algorithme deGauss-Jordan sur les colonnes de A, il est évident que l’on aboutit à la matrice

(1 00 R

)

où R est la matrice échelonnée réduite par colonnes associée à B. De plus, les opérations effectuéessur A pour aboutir à ce résultat sont du type Ci ← Ci−λC1 pour i > 2 (remplacement de L parune ligne de 0), elles ne changent pas le déterminant, puis ce sont les mêmes que celles effectuéessur B. Le déterminant étant entièrement calculable à partir du nombre d’échanges de colonnes,et des coefficients des dilatations effectuées, on en déduit que det(A) = det(B). On procède demême pour A′.

Soit A une matrice carrée de la forme A =

(B C0 D

)

, avec B et D des matrices carrées.

Alors det(A) = det(B) × det(D).

Propriété

Démonstration – Soit r l’ordre de la matrice B. On remarque que

(B C0 D

)

=

(Ir C0 D

)(B 00 In−r

)

.

De plus, en utilisant plusieurs fois le lemme précédent, on a

det

(Ir C0 D

)

= det(D)

et

det

(B 00 In−r

)

= det(B).

Le résultat suit car le déterminant d’un produit de matrices est le produit des déterminants.

101

• Soit

A =

A1 A1,2 · · · A1,m

0. . .

. . ....

.... . .

. . . Am−1,m

0 · · · 0 Am

ou A =

A1 0 · · · 0

0. . .

. . ....

.... . .

. . . 00 · · · 0 Am

une matrice triangulaire par blocs ou diagonale par blocs. Alors

det(A) = det(A1)× · · · × det(Am) =

m∏

i=1

det(Ai).

• Soient E un K-espace vectoriel de dimension finie, u ∈ L (E) et E1, . . . ,Em dessous-espaces vectoriels de E stables par u tels que E = E1 ⊕ · · · ⊕ Em. Alors

det(u) = det(u|E1)× · · · × det(u|Em

) =m∏

i=1

det(u|Ei).

Propriété – Matrice triangulaire par blocs ou diagonale par blocs

Démonstration

• Elle se fait par une récurrence immédiate à partir de la propriété précédente.

• Soit B = B1 ⊔ · · · ⊔ Bm une base de E adaptée à cette décomposition en somme directe. Onsait que MatB(u) est de la forme

A =

A1 0 · · · 0

0. . .

. . ....

.... . .

. . . 00 · · · 0 Am

où, pour tout i ∈ [[1,m]], Ai est d’ordre dim(Ei), et Ai = MatBi(u|Ei

). Le résultat vient alors dupoint précédent, et du fait que det(u) = det(A) et det(u|Ei

) = det(Ai) pour tout i.

6. Développement d’un déterminant par rapport aux lignes et colonnes

Soit A ∈Mn(K). Pour tout (i,j) ∈ [[1,n]]2, soit Ai,j ∈Mn−1(K) la matrice obtenue ensupprimant la i-ème ligne et la j-ème colonne de A. Alors :

• Développement par rapport à la j-ième colonne :

det(A) =n∑

i=1

ai,j (−1)i+j det(Ai,j).

• Développement par rapport à la i-ième ligne :

det(A) =

n∑

j=1

ai,j (−1)i+j det(Ai,j).

Théorème – Développement par rapport à une ligne ou une colonne

Démonstration (non exigible)

On fait la démonstration de la formule de développement par rapport aux colonnes, cellesur les lignes est analogue. Pour i ∈ [[1,n]], on note Ei le i-ème vecteur de la base canonique

102

de Mn,1(K). Notons A = (ai,j)16i,j6n = (C1 · · · Cn). On a donc, pour tout j ∈ [[1,n]],Cj =

∑ni=1 ai,j Ei. Alors, par linéarité du déterminant par rapport à la j-ième colonne de sa

variable,

det(A) = det

(

C1 | · · · |Cj−1 |n∑

i=1

ai,jEi |Cj+1 | · · · |Cn

)

=n∑

i=1

ai,j det(C1 · · · Cj−1 Ei Cj+1 · · · Cn).

Notons Mi,j = (C1 · · · Cj−1 Ei Cj+1 · · · Cn). En échangeant la ligne i− 1 et la ligne i, puis laligne i− 2 et la ligne i− 1, jusqu’à échanger la ligne 1 et la ligne 2, on se ramène à une matriceobtenue en plaçant la i-ème ligne de Mi,j à la place de la première ligne. Au cours de chacunede ces i− 1 opérations, le déterminant de A est multiplié par −1. On procède de même avec lescolonnes, ce qui amène à multiplier le déterminant par −1, pour chacune des j − 1 opérations.On obtient ainsi une matrice

B =

(1 ∗0 Ai,j

)

avec det(Mi,j) = (−1)i+j−2 det(B) = (−1)i+j det(B). Or, le lemme ci-dessus montre que l’on adet(B) = det(Ai,j). On en déduit que

det(C1 · · · Cj−1 Ei Cj+1 · · · Cn) = (−1)i+j det(Ai,j)

et le résultat.

Remarques

• Ces formules sont très utiles, par exemple :

• Lorsqu’une ligne ou colonne de A a un nombre important de coefficients nuls.

• Pour calculer des déterminants par récurrence, lorsque la structure du déterminant s’yprête (par exemple, les déterminants tridiagonaux).

• En dimension 3, on retrouve des formules déjà connues, par exemple∣∣∣∣∣∣

a1,1 a1,2 a1,3

a2,1 a2,2 a2,3

a3,1 a3,2 a3,3

∣∣∣∣∣∣

= a1,1(a2,2a3,3 − a3,2a2,3)− a2,1(a1,2a3,3 − a3,2a1,3) + a3,1(a1,2a2,3 − a2,2a1,3).

En développant le membre de gauche, on retrouve bien sûr la formule du déterminant et la règlede Sarrus.

7. Déterminant de Vandermonde

Soit (a1, . . . ,an) ∈ Kn. On pose

Mn(a1, . . . ,an) =

1 a1 a21 . . . an−1

1

1 a2 a22 . . . an−1

2

1 a3 a23 . . . an−1

3...

......

......

1 an a2n . . . an−1

n

= (aj−1i )16i,j6n ∈Mn(K)

et Vn(a1, . . . ,an) = det(Mn(a1, . . . ,an)).

Ce déterminant (ou celui de sa transposée) est appelé déterminant de Vandermondeassocié aux scalaires a1, . . . , an.

Définition

103

Il est non nul si et seulement si les ai sont deux à deux distincts, ce que l’on peut prouversans calculer le déterminant : si deux des ai sont égaux, alors Mn(a1, . . . ,an) a deux lignes égales,donc son déterminant est nul. Si les ai sont deux à deux distincts, et si t

(λ0 · · · λn−1

)∈ Kn

appartient au noyau de Mn(a1, . . . ,an), alors pour tout i ∈ [[1,n]],

n−1∑

j=0

λjaji = 0.

Le polynôme P (X) =∑n−1

j=0 λjXj , de degré au plus n−1, a donc n racines deux à deux distinctes,

ce qui montre qu’il est nul, et donc que tous les λj sont nuls. Donc la matrice carrée Mn(a1, . . . ,an)est inversible et son déterminant est non nul.

Ce déterminant et la matrice associée ont d’importantes applications. Par exemple, soient(a0, . . . ,an) et (b0, . . . ,bn) dans Kn+1. On cherche une fonction polyomiale P telle que

P (a0) = b0, . . . , P (an) = bn;

autrement dit, connaissant les valeurs prises par une fonction polynomiale en certains points, onrecherche les coefficients du polynôme associé.Cherchons P sous la forme x0 + x1X + · · ·+ xnX

n. Les conditions ci-dessus s’écrivent

1 a0 a20 . . . an

0

1 a1 a21 . . . an

1

......

......

...

1 an a2n . . . an

n

x0

...

...xn

=

b0......bn

c’est-à-dire comme un système linéaire dont la matrice est la matrice de VandermondeMn+1(a0, . . . ,an). Si les ai sont deux à deux distincts, cette matrice est inversible, et il existeun unique polynôme de Kn[X] qui est solution du problème. Ces problématiques interviennentnotamment en théorie du signal.

On peut en fait calculer explicitement Vn(a1, . . . ,an) :

Avec les notations précédentes,

Vn(a1, . . . ,an) =∏

i<j

(aj − ai).

Propriété – Déterminant de Van der Monde

Démonstration

Première méthode : si n > 2, alors, pour tout j de n à 2, on fait l’opération élémentaireCj ← Cj − a1Cj−1, ce qui ne change pas la valeur du déterminant. On obtient

Vn(a1, . . . ,an) =

∣∣∣∣∣∣∣∣∣∣∣

1 0 0 . . . 0

1 a2 − a1 a22 − a1a2 . . . an−1

2 − a1an−22

1 a3 − a1 a23 − a1a3 . . . an−1

3 − a1an−23

......

.... . .

...1 an − a1 a2

n − a1an . . . an−1n − a1a

n−2n

∣∣∣∣∣∣∣∣∣∣∣

c’est-à-dire

Vn(a1, . . . ,an) =

∣∣∣∣∣∣∣∣∣∣∣

1 0 0 . . . 0

1 a2 − a1 (a2 − a1)a2 . . . (a2 − a1)an−22

1 a3 − a1 (a3 − a1)a3 . . . (a3 − a1)an−23

......

.... . .

...1 an − a1 (an − a1)an . . . (an − a1)a

n−2n

∣∣∣∣∣∣∣∣∣∣∣

104

En développant par rapport à la première ligne, on a donc

Vn(a1, . . . ,an) =

∣∣∣∣∣∣∣∣∣

a2 − a1 (a2 − a1)a2 . . . (a2 − a1)an−22

a3 − a1 (a3 − a1)a3 . . . (a3 − a1)an−23

......

. . ....

an − a1 (an − a1)an . . . (an − a1)an−2n

∣∣∣∣∣∣∣∣∣

(déterminant d’ordre n− 1). Chaque ligne Li étant multiple de ai+1 − a1, on obtient

Vn(a1, . . . ,an) = (a2 − a1)(a3 − a1) · · · (an − a1)

∣∣∣∣∣∣∣∣∣

1 a2 a22 . . . an−2

2

1 a3 a22 . . . an−2

3...

......

. . ....

1 an a2n . . . an−2

n

∣∣∣∣∣∣∣∣∣

= (a2 − a1)(a3 − a1) · · · (an − a1) Vn−1(a2, . . . ,an).

Une récurrence immédiate, avec le fait que V1(an) = 1, montre alors le résultat.

Deuxième méthode : si n > 2, soit P (X) =

n−1∏

i=1

(X − ai) = Xn−1 +

n−2∑

k=0

λkXk où les λk sont

des scalaires.

L’opération Cn ← Cn +

n−2∑

k=0

λkCk+1 montre que

Vn(a1, . . . ,an) =

∣∣∣∣∣∣∣∣∣∣∣

1 a1 a21 . . . P (a1)

1 a2 a22 . . . P (a2)

......

.... . .

...1 an−1 a2

n−1 . . . P (an−1)1 an a2

n . . . P (an)

∣∣∣∣∣∣∣∣∣∣∣

=

∣∣∣∣∣∣∣∣∣∣∣

1 a1 a21 . . . 0

1 a2 a22 . . . 0

......

.... . .

...1 an−1 a2

n−1 . . . 01 an a2

n . . . P (an)

∣∣∣∣∣∣∣∣∣∣∣

,

et donc, en développant par rapport à la dernière colonne,

Vn(a1, . . . ,an) = P (an)Vn−1(a1, . . . ,an−1) =

n−1∏

i=1

(an − ai) Vn−1(a1, . . . ,an−1),

ce qui permet de conclure par récurrence comme ci-dessus (on a V1(a1) = 1).

105

106

Chapitre 5

Espaces vectoriels normésConvergence et continuité

Dans ce chapitre, E désigne un K-espace vectoriel avec K = R ou C, et | · | désigne la valeurabsolue (si K = R) ou le module (si K = C).

Le mot topologie signifie en grec, « discours sur le lieu ». Il s’agit de donner des définitionsrigoureuses des notions de proximité, de distance, et en corollaire, de limite et de continuité, dansdes espaces abstraits. Nous nous placerons dans le cadre déjà très riche des espaces vectoriels :intuitivement, mesurer la distance entre deux éléments x et y de E peut se faire en mesurant ladifférence x− y (la notion de différence ayant un sens dans un espace vectoriel). Il reste à définirce que l’on entend par cette idée de mesurer des vecteurs.

I. Espaces vectoriels normés

1. Normes

On appelle norme sur E toute application N telle que :

• N est définie sur E et à valeurs dans R+ ;

• Pour tout λ ∈ K, pour tout x ∈ E, N(λx) = |λ|N(x) (homogénéité) ;

• Pour tout x ∈ E, N(x) = 0 si et seulement si x = 0 (séparation) ;

• Pour tout x ∈ E, pour tout y ∈ E, N(x+ y) 6 N(x) +N(y) (inégalité triangu-laire).

Le couple (E,N) est alors appelé espace vectoriel normé. S’il n’y a pas d’ambiguïtésur la norme, on dira simplement que E est un espace vectoriel normé.

Définition – Norme

Remarque – Cette définition est donnée par analogie avec la valeur absolue ou le module. Unenorme est d’ailleurs très souvent notée, non pas comme une application N , mais suivant cetteanalogie, avec des doubles barres : la norme de x est notée ‖x‖.Exemples

• Sur K

Sur K, x 7→ |x| est une norme. En fait c’est presque la seule : soit N une norme sur K, alors pourtout λ ∈ K, N(λ) = N(λ · 1) = |λ|N(1). Toute norme sur K est proportionnelle à | · |.

• Norme associée à un produit scalaire (voir le chapitre Espaces préhilbertiens, espaceseuclidiens).

Soit E un R-espace vectoriel muni d’un produit scalaire (· | ·) . Alors l’application

‖ · ‖ :

E → R+

x 7→√

(x |x)

107

est une norme sur E, appelée norme euclidienne. L’inégalité triangulaire est une conséquence del’inégalité de Cauchy-Schwarz

| (x | y) | 6 ‖x‖ ‖y‖.

En effet, pour tout (x,y) ∈ E2,

‖x+ y‖2 = (x+ y |x+ y) = ‖x‖2 + 2 (x | y) + ‖y‖2

6 ‖x‖2 + 2‖x‖‖y‖ + ‖y‖2

= (‖x‖+ ‖y‖)2.

• Sur Kn

Pour tout x = (x1, . . . ,xn) ∈ Kn, on définit

N1(x) = ‖x‖1 =

n∑

i=1

|xi|,

N2(x) = ‖x‖2 =

√√√√

n∑

i=1

|xi|2

N∞(x) = ‖x‖∞ = supi∈[[1,n]]

|xi| = maxi∈[[1,n]]

|xi|.

Elles sont appelées respectivement « norme 1 », « norme 2 », et « norme infini ».

Toutes les propriétés sont évidentes sauf l’inégalité triangulaire : si x = (x1, . . . ,xn) ∈ Kn ety = (y1, . . . ,yn) ∈ Kn, alors

‖x+ y‖1 =

n∑

i=1

|xi + yi| 6n∑

i=1

(|xi|+ |yi|) 6

n∑

i=1

|xi|+n∑

i=1

|yi| = ‖x‖1 + ‖y‖1.

Cela prouve l’inégalité triangulaire pour la norme 1. La norme 2 sur Rn est la norme euclidienneassociée au produit scalaire défini par

(x | y) =

n∑

i=1

xi yi.

Pour la norme 2 sur Cn, on remarque que

‖x+ y‖2 =

(n∑

i=1

|xi + yi|2)1/2

6

(n∑

i=1

(|xi|+ |yi|)2)1/2

= ‖X + Y ‖2

où X et Y désignent les vecteurs (|x1|, . . . ,|xn|) et (|y1|, . . . ,|yn|). Ces vecteurs étant à coefficientsréels, on a

‖X + Y ‖2 6 ‖X‖2 + ‖Y ‖2 = ‖x‖2 + ‖y‖2.

On a donc aussi l’inégalité triangulaire dans ce cas.

Quant à la norme infini, pour tout i ∈ [[1,n]], on a

|xi + yi| 6 |xi|+ |yi| 6 maxj∈[[1,n]]

|xj |+ maxj∈[[1,n]]

|yj| = ‖x‖∞ + ‖y‖∞.

Le majorant étant indépendant de i, en passant au maximum gauche, on en déduit

‖x+ y‖∞ = maxi∈[[1,n]]

|xi + yi| 6 ‖x‖∞ + ‖y‖∞.

108

• Sur B(I,K)

Soit I un intervalle (non vide) de R. L’ensemble B(I,K) des fonctions bornées de I dans K,muni de l’addition des fonctions et du produit d’une fonction par un scalaire, est un K-espacevectoriel. Pour f ∈ B(I,K), on définit

N∞(f) = ‖f‖∞ = supx∈I|f(x)|.

L’application N∞ est appelée « norme infini » ou norme de la convergence uniforme (cette dernièreappellation sera expliquée dans le chapitre Suites et séries de fonctions). Elle est bien définie,car si f ∈ B(I,K), l’ensemble |f(x)|; x ∈ I est une partie non vide majorée de R, elle a doncune borne supérieure.

Prouvons simplement l’inégalité triangulaire, les autres propriétés étant évidentes. Soient fet g deux éléments de B(I,K). Par définition, pour tout x ∈ I,

|f(x) + g(x)| 6 |f(x)|+ |g(x)| 6 supy∈I|f(y)|+ sup

y∈I|g(y)|.

Le majorant étant indépendant de x, en passant à la borne supérieure à gauche, on en déduit

supx∈I|f(x) + g(x)| 6 sup

y∈I|f(y)|+ sup

y∈I|g(y)|,

c’est-à-dire

‖f + g‖∞ 6 ‖f‖∞ + ‖g‖∞.

Remarque – Si [a,b] est un segment de R, on a C0([a,b],K) ⊂ B([a,b],K) car la fonction |f | estcontinue sur un segment, à valeurs réelles, donc elle est bornée et atteint ses bornes. Ceci montreaussi que pour f ∈ C0([a,b],K),

‖f‖∞ = maxx∈[a,b]

|f(x)|.

Soit (E,‖ · ‖) un espace vectoriel normé. Alors, pour tout (x,y) ∈ E2,

∣∣ ‖x‖ − ‖y‖

∣∣ 6 ‖x− y‖.

Propriété

Démonstration – On remarque que x = (x− y) + y et donc, d’après l’inégalité triangulaire,

‖x‖ 6 ‖x− y‖+ ‖y‖,

ce qui implique que

‖x‖ − ‖y‖ 6 ‖x− y‖.

De même, en écrivant y = (y − x) + x, on montre que

‖y‖ − ‖x‖ 6 ‖x− y‖.

De ces deux inégalités, on déduit le résultat.

Remarque – Cette deuxième forme de l’inégalité triangulaire est très utile pour obtenir des infor-mations sur la norme d’un vecteur, à partir d’informations sur sa distance à d’autres vecteurs.

109

2. Distance associée, boules et sphères

Soit (E,‖ · ‖) un espace vectoriel normé. L’application

d :

E × E → R+

(x, y) 7→ ‖x− y‖

est appelée distance associée à la norme ‖ · ‖.Il est immédiat qu’elle possède les propriétés suivantes :

• Pour tout (x,y) ∈ E2, d(x, y) = d(y, x) (symétrie),

• Pour tout (x,y) ∈ E2, d(x, y) = 0 si et seulement si x = y (séparation),

• Pour tout (x,y,z) ∈ E3, d(x, y) 6 d(x, z) + d(z, y) (inégalité triangulaire).

Propriété/Définition : Distance associée à une norme

Soit (E,‖ · ‖) un espace vectoriel normé. Soient a ∈ E et r ∈ R+.

• On appelle boule ouverte de centre a et de rayon r l’ensemble, noté B(a, r), définipar :

B(a, r) = x ∈ E; d(a, x) < r = x ∈ E; ‖x− a‖ < r.• On appelle boule fermée de centre a et de rayon r l’ensemble, noté Bf (a, r), définipar :

Bf (a, r) = x ∈ E; d(a, x) ≤ r = x ∈ E; ‖x− a‖ 6 r.• On appelle sphère de centre a et de rayon r l’ensemble, noté S(a, r), défini par :

S(a, r) = x ∈ E; d(a, x) = r = x ∈ E; ‖x− a‖ = r.

On remarquera que S(a, r) = Bf (a, r) \B(a, r).

Définition – Boules ouvertes, boules fermées, sphères

Exemples

• B(a, 0) = ∅, Bf (a, 0) = S(a, 0) = a.• B(0, 1) et Bf (0, 1) sont appelées respectivement boules unité ouverte et fermée de E.

Exercice – Dessiner les boules unités de R2 muni des normes 1, 2 et infini.

3. Suites d’éléments d’un espace vectoriel

L’un des objectifs majeurs de ce chapitre est l’étude des suites d’éléments de E ; commençonspar définir cette notion, par généralisation évidente de la notion de suite réelle ou complexe :

On appelle suite d’éléments de E toute application u : N→ E.

Pour tout n ∈ N, on note alors un = u(n) le terme de rang n de cette suite. La suiteest notée (un)n∈N ou (un).

On considère également des suites définies à partir d’un certain rang n0, c’est-à-diredéfinies sur l’ensemble des entiers supérieurs ou égaux à n0. On note (un)n>n0 une tellesuite.

Définition

Remarque – L’ensemble des suites d’éléments de E est alors muni d’une structure de K-espacevectoriel en définissant, pour deux suites (un) et (vn) et pour λ ∈ K,

(un) + (vn) = (un + vn), λ(un) = (λun).

110

Exemple – Soit A ∈Mp(K). Alors (An)n∈N est une suite d’éléments de Mp(K) : c’est la suite despuissances de A.

On définit alors les suites extraites d’une suite d’éléments de E de la même façon que cela aété fait pour les suites réelles ou complexes.

4. Parties, suites et fonctions bornées

Soit (E,‖ · ‖) un espace vectoriel normé.

• Soit A une partie de E. On dit que A est bornée s’il existe M > 0 tel queA ⊂ Bf (0,M), c’est-à-dire, s’il existe M > 0 tel que pour tout x ∈ A, ‖x‖ 6 M.

• Soit (un) une suite d’éléments de E. On dit que (un) est bornée s’il existe M > 0tel que pour tout n ∈ N, ‖un‖ 6 M.

• Soit (F,N) un espace vectoriel normé, A une partie de E et f : A→ F une fonction.On dit que f est bornée si f(A) est une partie bornée de F , c’est-à-dire, s’il existeM > 0 tel que pour tout x ∈ A, N(f(x)) 6 M.

Définition

Exemples

• Une boule fermée Bf (a, r) de E est une partie bornée. En effet, pour tout x ∈ Bf (a, r),

‖x‖ = ‖(x− a) + a‖ 6 ‖x− a‖+ ‖a‖ 6 r + ‖a‖.

La définition est donc vérifiée avec M = r+ ‖a‖. On raisonne de même avec les boules ouvertes,ou les sphères.

• On munit C0([0,1],R) de la norme infini. Soit, pour tout n ∈ N, fn : x 7→ √nxn. La suite(fn)n∈N n’est pas bornée car pour tout n ∈ N,

‖fn‖∞ =√n, donc ‖fn‖∞ → +∞;

la définition ne peut être vérifiée pour aucune valeur de M .

• On munit R3 et R2 de la norme infini. La fonction

f :

[0,1]3 → R2

(x,y,z) 7→ (x− y + 2z, x2 + y2 + z2)

est bornée car pour tout (x,y,z) ∈ [0,1]3,

‖f(x,y,z)‖∞ = max|x− y + 2z|,|x2 + y2 + z2| 6 max|x|+ |y|+ 2|z|,x2 + y2 + z2 6 4.

5. Parties convexes

Soit A une partie de E. On dit que A est convexe si

∀ (a,b) ∈ A2, ∀λ ∈ [0,1], λa+ (1− λ)b ∈ A.

Autrement dit, A est convexe si A contient tout segment dont il contient les deuxextrémités.

Définition – Partie convexe

Une boule (ouverte ou fermée) est convexe.

Propriété

111

Démonstration – Soit Bf (c,r) une boule fermée (on raisonne de même avec une boule ouverte).Soient a et b deux éléments de Bf (c,r) et λ ∈ [0,1] ; alors

‖λa+ (1− λ)b− c‖ = ‖(λa + (1− λ)b)− (λc+ (1− λ)c)‖ = ‖λ(a− c) + (1− λ)(b− c)‖.

D’après l’inégalité triangulaire et la propriété d’homogénéité, sachant que λ > 0 et 1−λ > 0, ona

‖λa+ (1− λ)b− c‖ 6 λ‖a− c‖+ (1− λ)‖b− c‖ 6 λr + (1− λ)r = r.

Donc λa+ (1− λ)b ∈ Bf (c,r).

Remarques

• En revanche, une sphère de E de rayon non nul, R2 \ (x,0); x 6 0 ou une couronne de R2 nesont pas convexes.

• La notion de partie convexe ne fait pas intervenir de norme.

6. Effet d’un changement de norme

Certaines des notions que nous avons définies jusqu’à présent dépendent de la norme considérée.

Pour illustrer ceci, reprenons l’exemple ci-dessus des fonctions fn : x 7→ √nxn appartenant àE = C0([0,1],R). On sait que l’on peut munir E de la norme infini, et que la suite (fn) n’est pasbornée dans (E, ‖ · ‖∞).On peut aussi munir E de la norme ‖ · ‖2 associée au produit scalaire usuel sur E ; pour toutn ∈ N, on a

‖fn‖2 =

(∫ 1

0(√nxn)2 dx

)1/2

=

(n

2n+ 1

)1/2

6 1.

Ainsi la suite (fn) est bornée dans (E, ‖ · ‖2) !

On admettra que lorsque E est de dimension finie, ce phénomène ne peut pas se produire. Plusprécisément, les seules notions étudiées dans ce chapitre qui dépendent de la norme considérée,même en dimension finie, sont les notions de distance associée à une norme, de boules et desphère, et une autre exception qui sera mentionnée. Par exemple, même dans R2, on a vu queles sphères de centre (0, 0) et de rayon 1, pour les trois normes de référence, n’ont pas la mêmeforme.

Dans toute la suite de ce chapitre,E désigne un K-espace vectoriel de dimension finie.

Soit ‖·‖ une norme sur Kn et B = (e1, . . . , en) une base de E. Pour tout x de E de coordonnées(x1, . . . , xn) dans la base B, on peut définir

‖x‖E = ‖(x1, . . . , xn)‖.

Alors ‖ · ‖E est une norme sur E (vérification immédiate).

Un choix très utile est souvent celui donné par

∀x ∈ E, ‖x‖∞ = maxi∈[[1,n]]

|xi|,

correspondant à la norme infini sur Kn. On fera parfois référence à cette norme sur E commenorme infini associée à la base B.Ainsi :

• un espace vectoriel E de dimension finie peut toujours être muni d’une norme ;• par le moyen précédent, l’étude « topologique » de E se ramène à celle de Kn muni d’une

norme quelconque.

112

II. Suites d’un espace vectoriel normé de dimension finie

Soit (E,‖ · ‖) un espace vectoriel normé et (un) une suite d’éléments de E.

• Soit ℓ ∈ E. On dit que (un) converge vers ℓ (ou que un tend vers ℓ) si

∀ ε > 0, ∃n0 ∈ N; ∀n > n0, ‖un − ℓ‖ 6 ε.

On note ceci un → ℓ.

• On dit que (un) est convergente s’il existe ℓ ∈ E tel que (un) converge vers ℓ. Levecteur ℓ est alors unique ; il est appelé limite de la suite (un), noté limun.

• Dans le cas contraire, on dit que (un) est divergente.

Définition – Convergence d’une suite

Remarque – En d’autres termes, (un) converge vers ℓ si pour toute boule fermée B centrée en ℓde rayon strictement positif, tous les termes de la suite sauf un nombre fini appartiennent à B.

Démonstration de l’unicité de ℓ – Supposons l’existence de deux vecteurs ℓ et ℓ′ vérifiant la dé-finition. Soient ε > 0 et deux entiers n0 et n1 vérifiant la condition ci-dessus pour ℓ et ℓ′

respectivement. Alors pour tout n > max(n0,n1),

‖ℓ− ℓ′‖ 6 ‖ℓ− un + un − ℓ′‖ 6 ‖un − ℓ‖+ ‖un − ℓ′‖ 6 2ε.

Ceci étant valable pour tout ε, on a ‖ℓ− ℓ′‖ = 0, donc ℓ = ℓ′.

Remarques

• Une suite (un) d’éléments d’un espace vectoriel normé (E,‖ · ‖) converge vers ℓ si et seulementsi la suite réelle (‖un − ℓ‖) converge vers 0. Cette caractérisation est très utile pour prouver uneconvergence (lorsque l’on a l’intuition de la limite), par des majorations de ‖un − ℓ‖.• Comme nous l’avons indiqué ci-dessus, la convergence ou divergence d’une suite, et en cas deconvergence, la valeur de sa limite, ne dépendent pas de la norme choisie, du fait de la dimensionfinie.

Exemples

• Illustrons la remarque précédente dans Kn muni des normes 1 et infini. On remarque que pourtout x ∈ Kn, ‖x‖∞ 6 ‖x‖1 et ‖x‖1 6 n ‖x‖∞. Si (uk) converge vers ℓ dans (Kn,‖ · ‖1), alors pourtout k ∈ N,

‖uk − ℓ‖∞ 6 ‖uk − ℓ‖1 avec ‖uk − ℓ‖1 → 0,

et donc (uk) converge vers ℓ dans (Kn,‖ · ‖∞). De même, si (uk) converge vers ℓ dans (Kn,‖ · ‖∞),alors pour tout k ∈ N,

‖uk − ℓ‖1 6 n ‖uk − ℓ‖∞ avec ‖uk − ℓ‖∞ → 0,

et donc (uk) converge vers ℓ dans (Kn,‖ · ‖1).

• La suite

((e1/n 2/n3/n 4/n

))

n>1

d’éléments de M2(R) converge vers

(1 00 0

)

.

En effet, en notant ‖ · ‖∞ la norme sur M2(R) associée à la norme ‖ · ‖∞ sur R4 (maximumdes valeurs absolues des coefficients de la matrice), on a

∥∥∥∥

(e1/n 2/n3/n 4/n

)

−(

1 00 0

)∥∥∥∥∞

=

∥∥∥∥

(e1/n − 1 2/n

3/n 4/n

)∥∥∥∥∞→ 0

car chacun des termes apparaissant dans le maximum tend vers 0.

Même si la convergence d’une suite ne dépend pas de la norme, il semble quand même qu’ilfaille considérer une norme pour vérifier la définition. En fait, ce n’est pas le cas, car l’étude dela convergence d’une suite se ramène à celle de ses coordonnées dans une base :

113

Soit (uk)k∈N une suite d’éléments de E muni d’une base B = (e1, . . . ,en). Notons, pourtout k,

uk =

n∑

i=1

uk,i ei

la décomposition de uk dans la base B.Alors, pour que la suite (uk)k∈N soit convergente, il faut et il suffit que pour touti ∈ [[1,n]], (uk,i)k∈N soit convergente. Dans ce cas, on a

limk→+∞

uk =

n∑

i=1

(

limk→+∞

uk,i

)

ei,

c’est-à-dire que les coordonnées de la limite sont les limites des suites-coordonnées.

Théorème – Convergence composante par composante

Démonstration – Notons ‖ · ‖∞ la norme infini sur E associée à la base B.⇒ Supposons que (uk) converge vers ℓ =

∑ni=1 ℓi ei. Alors pour tout i ∈ [[1,n]] et k ∈ N,

|uk,i − ℓi| 6 ‖uk − ℓ‖∞ avec ‖uk − ℓ‖∞ → 0.

On en déduit que (uk,i)k∈N converge vers ℓi.

⇐ Supposons que uk,i −→k→+∞

ℓi pour tout i ∈ [[1,n]]. Soit ε > 0 fixé ; il existe des entiers

k1, . . . ,kn tels que pour tout i ∈ [[1,n]] et pour tout k > ki,

|uk,i − ℓi| 6 ε.

Soit ℓ =∑n

i=1 ℓi ei. Alors pour tout k > max(k1, . . . ,kn),

‖uk − ℓ‖∞ = maxi∈[[1,n]]

|uk,i − ℓi| 6 ε.

Ainsi (uk) converge vers ℓ.

Remarques

• Une démonstration semblable montre que (uk) est bornée si et seulement si pour tout i ∈ [[1,n]],(uk,i)k est bornée.

• Soit F un K-espace vectoriel de dimension finie n, C = (ε1, . . . , εn) une base de F , et soitf : A ⊂ E → F une fonction avec f = f1 ε1 + · · ·+ fn εn et pour tout i ∈ [[1,n]], fi : A→ K. Lesfonctions fi sont les fonctions-coordonnées de f dans la base C.Par exemple, soit f : R2 → R2[X] la fonction définie par :

∀ (x, y) ∈ R2, f(x, y) = (x+ y)X2 + cos(xy)X + y2.

Les fonctions-coordonnées de f dans la base canonique de R2[X] sont les trois fonctions

(x, y) 7→ x+ y, (x, y) 7→ cos(xy) et (x, y) 7→ y2.

Pour que f soit bornée, il faut et il suffit que pour tout i ∈ [[1,n]], fi soit bornée.

• On parle de convergence, ou de suite ou fonction bornée « composante par composante ».L’intérêt principal de ces résultats est de pouvoir se ramener à des suites ou à des fonctions àvaleurs dans K (les suites (uk,i)k, ou les fonctions fi).Par exemple, une suite de matrices converge si et seulement si chacune de ses suites-coefficientsconverge. De même pour une suite de polynômes de Kn[X]. En revanche, cela n’a pas de senspour nous dans K[X], qui n’est pas de dimension finie.

114

• Soient E et F deux espaces vectoriels de dimension finie. Alors une suite((xk, yk)

)d’éléments

de E × F converge si et seulement si les deux suites (xk) et (yk) convergent, et dans ce cas,

lim (xk, yk) = (lim xk, lim yk) .

En effet, si (e1, . . . , ep) est une base de E, et (f1, . . . , fn) une base de F , alors((e1, 0F ), . . . , (ep, 0F ), (0E , f1), . . . , (0E , fn)

)

est une base de E × F. Il suffit alors d’appliquer le résultat précédent.

Toute suite convergente d’éléments d’un espace vectoriel normé est bornée.

La réciproque est fausse.

Propriété

Démonstration – On utilise les notations précédentes. Appliquons la définition de la limite avecε = 1 : il existe n0 ∈ N∗ tel que pour tout n > n0, ‖un − ℓ‖ 6 1. D’après la seconde forme del’inégalité triangulaire, on en déduit ‖un‖ − ‖ℓ‖ 6 1, et donc, ‖un‖ 6 ‖ℓ‖+ 1 pour tout n > n0.Alors, pour tout n ∈ N,

‖un‖ 6 max(‖u0‖, . . . ,‖un0−1‖,‖ℓ‖ + 1).

L’exemple de ((−1)n)n∈N montre que la réciproque est fausse.

Soient (un) et (vn) deux suites convergentes d’éléments de E, et (αn) une suite conver-gente d’éléments de K. Soit n0 ∈ N. Alors :

• La suite (un + vn) est convergente et lim(un + vn) = lim un + lim vn.

• La suite (αnun) est convergente et lim(αnun) = limαn · lim un.

• Si αn 6= 0 pour tout n > n0 et si limαn 6= 0, alors la suite

(un

αn

)

n>n0

est convergente

et

lim

(un

αn

)

=limun

limαn.

Propriété – Opérations sur les limites

Démonstration – Il suffit de raisonner composante par composante, et d’appliquer les résultatscorrespondants pour les suites à valeurs scalaires.

De la même façon, on obtient le résultat suivant :

Soit (un) une suite d’éléments de E qui converge vers ℓ ∈ E.

Alors toute suite extraite de (un) converge vers ℓ.

Propriété

III. Vocabulaire de topologie

Soient A une partie de E, et a un point de A. On dit que a est un point intérieur àA si :

∃ r > 0 ; B(a, r) ⊂ A.En d’autres termes, a est intérieur à A si on peut trouver une boule ouverte centrée ena, de rayon strictement positif, et incluse dans A.

Définition – Points intérieurs à une partie

115

Exemples

• 2 est intérieur à [0,3] car 2 ∈ B(2, 0.5) = ]1.5, 2.5[⊂ [0,3] (ici la norme est la valeur absolue).

• 0 n’est pas intérieur à [0,3] : pour tout r > 0, −r/2 ∈ B(0, r) mais −r/2 /∈ [0, 3].

Remarque – Soit A une partie de E. Soit (xn) une suite d’éléments de E qui converge vers unpoint a intérieur à A. Alors, pour n assez grand, xn ∈ A.En effet, soit r > 0 tel que B(a, r) ⊂ A. En appliquant la définition de la limite avec ε = r/2, onobtient l’existence de n0 ∈ N tel que pour tout n > n0, ‖xn− a‖ < r, et donc, xn ∈ B(a, r) ⊂ A.

Soit A une partie de E. On appelle intérieur de A l’ensemble, noté A, des pointsintérieurs à A.

Définition – Intérieur d’une partie

Remarque – On a toujours A ⊂ A.

Une partie A de E est dite ouverte (on dit aussi que A est un ouvert de E) si toutpoint de A est intérieur à A, i.e. :

∀ a ∈ A, ∃ r > 0 ; B(a, r) ⊂ A.

Ceci équivaut à : A = A.

Définition – Partie ouverte

Une boule ouverte est un ouvert.

Propriété

Démonstration – Le cas d’une boule ouverte de rayon 0 est trivial. Soient x ∈ E et R > 0.Montrons que B(x,R) est un ouvert de E. On fixe donc a ∈ B(x,R), et on définit

d = d(a,x) = ‖x− a‖.Alors d < R car a ∈ B(x,R), et pour tout y appartenant à B(a,R− d), on a

‖x− y‖ ≤ ‖x− a‖+ ‖a− y‖ = d+ ‖y − a‖ < d+R− d = R,

donc y ∈ B(x,R). Ainsi, en posant r = R − d > 0, on a : B(a, r) ⊂ B(x,R). Cette constructionétant possible pour tout a ∈ B(x,R) (avec r dépendant de a, ce qui est tout à fait possible auvu de la définition précédente), on a le résultat.

La démonstration est illustrée sur la figure suivante, dans le cas de la norme euclidienne usuellesur R2 :

•x

•ad

r = R− d

R

116

Exemples

• Les intervalles ouverts de R sont des ouverts.

• Pour tout A ⊂ E, A est un ouvert.

• Le demi-planP = (x,y) ∈ R2, y > 0

est un ouvert de R2. On vérifie la définition avec la norme euclidienne usuelle ‖ · ‖2.Soit a = (x,y) ∈ P. Notons r = y > 0. Pour tout p = (u,v) dans B(a, r), on a

|y − v| ≤√

(x− u)2 + (y − v)2 = ‖p − a‖2 < r = y,

doncy − v ≤ |y − v| < y.

On en déduit que v > 0, donc p ∈ P. Ainsi, B(a, r) ⊂ P.

De même que l’on a défini les points situés « à l’intérieur » de A, on peut définir les points« qui touchent » A (sans nécessairement appartenir à A) : il s’agit, intuitivement, des pointssitués arbitrairement près de points de A :

Soient A une partie de E et a ∈ E. On dit que a est un point adhérent à A si

∀ r > 0, B(a, r) ∩A 6= ∅.

Définition – Points adhérents à une partie

Exemples

• Tout point de A est adhérent à A.

• 4 est adhérent à [−2, 4[.

Soient A une partie de E et a ∈ E. Le point a est adhérent à A si et seulement si ilexiste une suite d’éléments de A qui converge vers a.

Propriété – Caractérisation séquentielle des points adhérents

Démonstration

⇒ Si a est adhérent à A, pour tout entier n > 1, il existe xn ∈ B(a,1/n)∩A. Alors xn → a carpour tout n > 1,

‖xn − a‖ <1

n.

De plus (xn) est une suite d’éléments de A.

⇐ Soient r > 0 et (xn) une suite d’éléments de A qui converge vers a. Comme xn → a, pour nassez grand, xn ∈ B(a, r) et même xn ∈ B(a, r)∩A. Cet ensemble est donc non vide, et ce pourtout r > 0, donc a est adhérent à A.

Exemple – La matrice(

1 00 0

)

est adhérente à l’ensemble des matrices inversibles, car elle est limite de la suite des matrices

(1 00 1/n

)

lorsque n tend vers +∞.

117

Soit A une partie de E. On appelle adhérence de A l’ensemble, noté A, des pointsadhérents à A.

Définition – Adhérence d’une partie

Remarque – On a toujours A ⊂ A.

Une partie A de E est dite fermée (on dit aussi que A est un fermé de E) si tous lespoints adhérents à A appartiennent à A (ce qui équivaut au fait que A = A).

Définition – Partie fermée

Exemples

• L’adhérence de [0, 1[ est [0, 1].

• Pour tout a ∈ E et r > 0, l’adhérence de B(a, r) est Bf (a, r).

• ]−∞,−1] ∪ [1,+∞[ est un fermé de R.

• Pour tout A ⊂ E, A est un fermé.

On déduit en particulier de la propriété précédente une caractérisation des parties fermés :

Soit A une partie de E. Les propriétés suivantes sont équivalentes :

• A est une partie fermée.

• Pour toute suite convergente (xn) d’éléments de A, on a limxn ∈ A.

Propriété – Caractérisation séquentielle des fermés

Exemple – Le cercle unité de R2 est l’ensemble

U = (x,y) ∈ R2; x2 + y2 = 1.

Soit (xn,yn) une suite d’éléments de U convergeant vers (x,y) ∈ R2. On a, pour tout n ∈ N,

x2n + y2

n = 1,

de sorte qu’à la limite, on obtient x2 + y2 = 1. Le point (x,y) appartient donc à U. On a doncmontré que U est fermé.

Plus généralement, on obtient :

Toute boule fermée est un fermé. Toute sphère est un fermé.

Propriété

Attention ! Les notions d’ouverts et de fermés ne sont pas contraires l’une de l’autre : il estimmédiat que E et ∅ sont ouverts et fermés.

Le lien est en fait le suivant :

Une partie A de E est fermée si et seulement si son complémentaire dans E est ouvert.

On rappelle que le complémentaire de A est défini par ∁A = E \ A = x ∈ E; x /∈ A.

Propriété

118

Démonstration

⇒ Supposons A fermé, et soit a ∈ ∁A. On veut montrer qu’il existe r > 0 tel que B(a, r) ⊂ ∁A.Si ce n’est pas le cas, pour tout r > 0, il existe x ∈ B(a, r) tel que x /∈ ∁A, c’est-à-dire x ∈ A. Lepoint a est donc adhérent à A, qui A est fermé, donc a ∈ A, ce qui est absurde. D’où le résultat.

⇐ Supposons ∁A ouvert, et soit a ∈ A. Si a /∈ A, sachant que ∁A est ouvert, il existe r > 0 telque B(a, r) ⊂ ∁A. Or a est adhérent à A, donc il existe x ∈ A tel que x ∈ B(a, r) : c’est absurde.Donc a ∈ A, ce qui prouve que A est fermé.

Soient p ∈ N∗, U1, . . ., Up des ouverts de E, et F1, . . . , Fp des fermés de E. Alors :

• U1 ∪ · · · ∪ Up et U1 ∩ · · · ∩ Up sont des ouverts.

• F1 ∪ · · · ∪ Fp et F1 ∩ · · · ∩ Fp sont des fermés.

L’ensemble des ouverts de E et l’ensemble des fermés de E sont stables par réunionfinie et intersection finie.

Propriété (Hors-programme)

Démonstration

• Soit a ∈ U1 ∪ · · · ∪ Up. Il existe i ∈ [[1, p]] tel que a ∈ Ui. Comme Ui est un ouvert, il exister > 0 tel que B(a, r) ⊂ Ui. Alors B(a, r) ⊂ U1 ∪ · · · ∪ Up, donc U1 ∪ · · · ∪ Up est ouvert.

• Soit a ∈ U1 ∩ · · · ∩ Up. Pour tout i ∈ [[1, p]], il existe ri > 0 tel que B(a,ri) ⊂ Ui. Posonsr = minri; i ∈ [[1, p]]. On a alors r > 0 et B(a, r) ⊂ B(a,ri) pour tout i, donc

B(a, r) ⊂ U1 ∩ · · · ∩ Up,

ce qui montre que U1 ∩ · · · ∩ Up est ouvert.

• Pour les deux points concernant les fermés, il suffit de passer au complémentaire et d’utiliserles deux premiers points ; en effet,

∁

(p⋂

i=1

Fi

)

=

p⋃

i=1

(∁Fi

)

et ∁

(p⋃

i=1

Fi

)

=

p⋂

i=1

(∁Fi

)

.

Soit A une partie de E. On appelle frontière de A l’ensemble Fr(A) = A\A, constituédes points de E qui sont adhérents à A mais pas intérieurs à A.

Définition – Frontière d’une partie

Bien sûr, cette notion coïncide avec l’intuition que suggère son nom : la frontière correspondau « bord » de l’ensemble. Par exemple, la frontière d’une boule Bf (a, r) ou B(a, r) de rayonnon nul est la sphère S(a, r).

119

IV. Fonctions entre espaces vectoriels normés :limite et continuité

Dans toute la suite, E et F désignent deux espaces vectoriels normés de dimension finie, Aune partie de E et f une fonction définie sur A et à valeurs dans F . On peut munir E d’unenorme ‖ · ‖E et F d’une norme ‖ · ‖F .

1. Définitions

• Soit a un point adhérent à A (a ∈ A) et b ∈ F .

On dit que f a pour limite b en a (ou que f(x) tend vers b lorsque x tend vers a) si

∀ ε > 0, ∃ η > 0; ∀x ∈ A, [‖x− a‖E 6 η]⇒ [‖f(x)− b‖F 6 ε].

On note ceci f(x) −→x→a

b.

• On dit que f a une limite en a s’il existe b ∈ F tel que f(x) −→x→a

b. Le vecteur b est

alors unique ; il est appelé limite de f en a et noté limx→a

f(x) ou lima f.

Définition – Limite en un point

Démonstration de l’unicité de b

Soient b et b′ deux vecteurs de F vérifiant la définition ; soient ε > 0 et deux réels η > 0 etη′ > 0 vérifiant la condition ci-dessus pour b et b′ respectivement. Alors pour tout x ∈ A tel que‖x− a‖E 6 min(η,η′),

‖b− b′‖F = ‖b− f(x) + f(x)− b′‖F 6 ‖f(x)− b‖F + ‖f(x)− b′‖F 6 2ε.

Ceci étant vrai pour tout ε > 0, on en déduit b = b′.

Remarque – Pourquoi définir la limite de f en un point a adhérent à A ? Dans la définition depoint adhérent, on peut clairement remplacer B(a, r) par Bf (a, r) : les points adhérents à A sontexactement les points de E pour lesquels, pour tout η > 0, Bf (a,η) ∩ A n’est pas vide, et doncceux pour lesquels l’éventualité « x ∈ A et ‖x− a‖E 6 η » se présente.

• Soient m ∈ R, f une fonction définie sur ]m,+∞[ à valeurs dans F et b ∈ F .On dit que f a pour limite b en +∞ si

∀ ε > 0, ∃M > 0 ; ∀x > M, ‖f(x)− b‖F 6 ε.

• Soient m ∈ R, f une fonction définie sur ]−∞,m[ à valeurs dans F et b ∈ F .On dit que f a pour limite b en −∞ si

∀ ε > 0, ∃M > 0 ; ∀x 6 −M, ‖f(x)− b‖F 6 ε.

Définition – Limite en ±∞

120

• Soient f une fonction définie sur A à valeurs réelles et a un point adhérent à A.On dit que f a pour limite +∞ en a si

∀K > 0, ∃ η > 0 ; ∀x ∈ A, [‖x− a‖E 6 η]⇒ [f(x) > K].

• Soient f une fonction définie sur A à valeurs réelles et a un point adhérent à A.On dit que f a pour limite −∞ en a si

∀K > 0, ∃ η > 0 ; ∀x ∈ A, [‖x− a‖E 6 η]⇒ [f(x) 6 −K].

Définition – Limite infinie

On vérifie aisément que l’unicité de la limite est toujours vérifiée.

Lorsque a ∈ A et f admet une limite en a, on a nécessairement limx→a

f(x) = f(a).

Dans ce cas, on dit que f est continue en a.

Propriété/Définition – Continuité en un point

Démonstration – Soit ε > 0 fixé et b = lima f . Il existe η > 0 tel que pour tout x de A vérifiant‖x−a‖E 6 η, on ait ‖f(x)− b‖F 6 ε. En appliquant ceci à x = a (ce qui est possible car a ∈ A),on a donc ‖f(a)− b‖F 6 ε, et ce pour tout ε > 0. Ainsi b = f(a), c’est-à-dire

limx→a

f(x) = f(a).

On dit que f est continue sur A si f est continue en tout point de A. Ceci équivaut à :

∀ a ∈ A, ∀ ε > 0, ∃ η > 0; ∀x ∈ A, [‖x− a‖E 6 η]⇒ [‖f(x)− f(a)‖F 6 ε].

Définition – Continuité sur une partie

2. Caractérisation séquentielle de la limite

Soit a un point adhérent à A ; les propriétés suivantes sont équivalentes :

• La fonction f possède une limite en a.

• Pour toute suite (an) d’éléments de A qui converge vers a, la suite (f(an))n∈N aune limite.

Dans ce cas, pour toute suite (an) d’éléments de A qui converge vers a,

limx→a

f(x) = limn→+∞

f(an).

Propriété – Caractérisation séquentielle de la limite

Démonstration

⇒ Notons b = limx→a

f(x). Soit (an) une suite d’éléments de A convergeant vers a. Soit ε > 0

fixé. Il existe η > 0 tel que pour tout x de A vérifiant ‖x− a‖E 6 η, on ait ‖f(x)− b‖F 6 ε. Oran → a, donc il existe n0 ∈ N tel que pour tout n > n0, ‖an − a‖E 6 η. Alors, pour un tel n,

‖f(an)− b‖F 6 ε,


121

⇐ Commençons par montrer que, avec les notations de l’énoncé, la limite de (f(an)) ne dépendpas de la suite (an). Soient donc (an) et (αn) deux suites d’éléments de A qui convergent versa. On construit une suite (cn) en posant, pour tout p ∈ N, c2p = ap et c2p+1 = αp : (cn) estconstruite en écrivant alternativement les termes de (an) et (αn). En particulier, la suite (cn)converge vers a, et donc la suite (f(cn)) est convergente. Or les suites (f(an)) et (f(αn)) sontextraites de (f(cn)), donc

lim f(an) = lim f(cn) = lim f(αn),

qui est le résultat annoncé.

Notons alors b la valeur commune de la limite de toutes les suites (f(an)) où (an) est unesuite d’éléments de A qui converge vers a. Pour montrer que f a une limite en a égale à b, onraisonne par l’absurde : supposons au contraire qu’il existe ε > 0 tel que pour tout η > 0, ilexiste x ∈ A tel que ‖x − a‖E 6 η mais ‖f(x) − b‖F > ε. En appliquant cela avec η = 1/n(n ∈ N∗) on construit une suite (an) d’éléments de A telle que pour tout n > 1,

‖an − a‖E 61

net ‖f(an)− b‖F > ε.

Alors an → a mais (f(an)) ne converge pas vers b ; c’est absurde, et on en déduit le résultat.

Remarques

• L’implication directe est très souvent employée sous la forme suivante :

an → a

f est continue en a⇒ f(an)→ f(a).

• Cette caractérisation permet de ramener de nombreuses questions de limites de fonctions à desquestions de limites de suites, pour lesquelles on a déjà de nombreuses propriétés.

• On a une propriété analogue pour les limites en ±∞ lorsque E = R.

3. Limite et continuité composante par composante, opérations

Soient C = (ε1, . . . ,εn) une base de F et f : A→ F une fonction. Notons

f =n∑

i=1

fi εi

la décomposition de f dans la base C, c’est-à-dire que les fonctions fi : A→ K sont lesfonctions-coordonnées de f dans la base C.Alors :

1. Soit a un point adhérent à A. Pour que f ait une limite en a, il faut et il suffit quepour tout i ∈ [[1,n]], fi ait une limite en a. Dans ce cas, on a

lima f =

n∑

i=1

(lima fi) εi,

c’est-à-dire que les coordonnées de la limite sont les limites des fonctions-coordonnées.

2. Soit a ∈ A. Pour que f soit continue en a, il faut et il suffit que pour tout i ∈ [[1,n]],fi soit continue en a.

3. Pour que f soit continue sur A, il faut et il suffit que pour tout i ∈ [[1,n]], fi soitcontinue sur A.

Propriété – Limite ou continuité composante par composante

Démonstration – Il suffit d’utiliser la caractérisation séquentielle de la limite et la propriété deconvergence composante par composante pour les suites.

122

Soient f et g deux fonctions définies sur A à valeurs dans F , et α une fonction définiesur A à valeurs dans K.

1. Soit a un point adhérent à A. On suppose que f , g et α ont une limite en a.

Alors :

• La fonction f + g a une limite en a et lima(f + g) = lima f + lima g.

• La fonction αf a une limite en a et lima(αf) = (lima α) (lima f).

• Si α(x) 6= 0 pour tout x ∈ A et si lima α 6= 0, alors la fonctionf

αa une limite en

a et

lima

(f

α

)

=lima f

lima α.

Toutes ces propriétés sont vraies si E = R et a = ±∞, ainsi que les cas déjà connuspour des limites infinies ; attention cependant aux formes indéterminées.

2. Lorsque a appartient à A, on peut traduire ces propriétés en termes de continuitéen a.

3. On peut traduire ces propriétés en termes de continuité sur A.

En particulier, l’ensemble C0(A,F ) des fonctions continues sur A à valeurs dans F estun K-espace vectoriel (pour les lois usuelles).

Propriété – Opérations algébriques

Démonstration – Il suffit de démontrer le point 1. On se ramène aux propriétés analogues sur lessuites grâce à la caractérisation séquentielle de la limite.

Soient E, F et G trois espaces vectoriels normés de dimension finie, A une partie de Eet B une partie de F . Soient f : A→ F et g : B → G deux fonctions. On suppose quef(A) ⊂ B, de sorte que la fonction g f : A→ G est bien définie.

1. Soit a un point adhérent à A. On suppose que f a une limite b en a. Alors :

• b est adhérent à B.

Si de plus g a une limite c en b, on a :

• g f a une limite en a et (g f)(x) −→x→a

c.

2. Soit a ∈ A. Si f est continue en a et si g est continue en f(a), alors g f est continueen a.

3. Si f est continue sur A et si g est continue sur B, alors g f est continue sur A.

Propriété – Composition

Démonstration – Il suffit de démontrer le point 1.

• Le point a est adhérent à A, donc il existe une suite (an) d’éléments de A qui converge vers a.Sachant que f a pour limite b en a, on a donc f(an)→ b. Or, pour tout n ∈ N, f(an) ∈ f(A) ⊂ B.On a donc construit une suite d’éléments de B qui converge vers b : b est adhérent à B.

• Soit (an) une suite d’éléments de A qui converge vers a. Alors sachant que f a pour limite ben a et que g a pour limite c en b, on a f(an) → b et g(f(an)) → c. D’après la caractérisationséquentielle de la limite (sens réciproque, appliqué à g f), on obtient que g f a pour limite cen a.

Toute application polynomiale f définie sur Kn est continue (par application poly-nomiale, on entend que chaque fonction-coordonnée de f dans une base de l’espaced’arrivée est un polynôme en les composantes x1, . . . ,xn de la variable x).

Propriété – Continuité des applications polynomiales

123

Démonstration – D’après les deux premières propriétés de ce paragraphe, il suffit de prouver quepour tout i ∈ [[1,n]], l’application x = (x1, . . . ,xn) 7→ xi est continue, ce qui est immédiat.

Remarque – On montre de la même façon que toute application f définie sur E, polynomiale enles coordonnées (x1, . . . ,xn) de sa variable x dans une base de E, est continue.

Exemples

• L’application (x, y, z) 7→ (x2 + 3xy + 4xz2, xz − y3) est polynomiale, donc continue, sur R3.

• L’application (x1, . . . , xn) 7→ Mn(x1, . . . , xn) (où Mn(x1, . . . , xn) est la matrice de Vander-monde associée à x1, . . . , xn) est polynomiale, donc continue, sur Kn.

• L’application A 7→ A2 est polynomiale, donc continue, sur Mn(K). En effet, soit A = (ai,j)dans Mn(K) ; pour tout (i, j) ∈ [[1,n]]2, le coefficient en position (i, j) de A2 est

∑nk=1 ai,k ak,j ;

ceci définit une fonction polynomiale en les coefficients de A.

4. Fonctions Lipschitziennes

Soit k ∈ R+. On dit que f est k-Lipschitzienne si

∀ (x,y) ∈ A2, ‖f(x)− f(y)‖F 6 k ‖x− y‖E .

On dit que f est Lipschitzienne s’il existe k tel que f est k-Lipschitzienne.

Définition – Fonction Lipschitzienne

Remarque – Le fait pour une fonction d’être Lipschitzienne ne dépend pas des normes choisies,mais le fait d’être k-Lipschitzienne en dépend !

Exemples

• La fonction racine carrée f : x 7→ √x est Lipschitzienne sur [1,+∞[ : en effet, f est dérivablesur [1, +∞[ avec, pour tout x > 1,

f ′(x) =1

2√x

61

2.

D’après le théorème des accroissements finis, on a donc, pour tout (x,y) ∈ [1,+∞[ 2,

|f(x)− f(y)| 6 1

2|x− y|.

Le théorème des accroissements finis est un outil très utile pour prouver qu’une fonction estLipschitzienne.

• Si ‖ · ‖ est une norme sur E, l’application x 7→ ‖x‖ de E dans R est 1-Lipschitzienne : en effet,d’après la seconde forme de l’inégalité triangulaire, pour tout (x,y) ∈ E2, on a

∣∣ ‖x‖ − ‖y‖

∣∣ 6 ‖x− y‖.

Remarques

• Il est très facile de prouver que l’ensemble des fonctions Lipschitziennes de A ⊂ E dans F estun K-espace vectoriel. En revanche, l’ensemble des fonctions k-Lipschitziennes de A dans F , aveck > 0 fixé, n’en est pas un.

• On a également une propriété de stabilité vis-à-vis de la composition : soient (E,‖·‖E), (F,‖·‖F )et (G,‖ · ‖G) trois espaces vectoriels normés, A une partie de E et B une partie de F . Soientf : A → F et g : B → G deux fonctions. On suppose que f(A) ⊂ B, de sorte que la fonctiong f est bien définie.

Si f est k1-Lipschitzienne et g est k2-Lipschitzienne, alors g f est k1k2-Lipschitzienne.

En effet, pour tout (x,y) ∈ A2,

‖(g f)(x)− (g f)(y)‖G 6 k2‖f(x)− f(y)‖F 6 k2 k1 ‖x− y‖E .

124

Toute fonction Lipschitzienne est continue. La réciproque est fausse.

Propriété

Démonstration – Avec les notations précédentes, soit f une fonction k-Lipschitzienne. Si k = 0,f est constante et le résultat est évident. Sinon, soient a ∈ A et ε > 0. Pour tout (x,y) ∈ A2,

‖f(x)− f(y)‖F 6 k ‖x− y‖E .

En particulier, si ‖x− a‖E 6 ε/k, alors

‖f(x)− f(a)‖F 6 kε

k= ε.

Donc f est continue en a, et ce pour tout a ∈ A. On voit même que le nombre η = ε/k permettantde vérifier la définition de la continuité est indépendant de x : le caractère Lipschitzien est doncbeaucoup plus fort que la continuité en chaque point.

Pour montrer que la réciproque est fausse : la fonction x 7→ x2 définie sur R n’est pasLipschitzienne, bien qu’elle soit continue. En effet, supposons au contraire qu’il existe k tel quepour tout (x,y) ∈ R2, |x2 − y2| 6 k|x− y|. Alors, pour tout x et y distincts, on a

|x+ y| |x− y| 6 k|x− y| d’où |x+ y| 6 k,

ce qui est absurde lorsque par exemple y = 0 et x tend vers +∞.

V. Propriétés des fonctions continues à valeurs réelles

1. Ensembles de niveaux d’une fonction continue

Soit f une application continue sur E à valeurs dans R. Alors :

• L’ensemble x ∈ E; f(x) > 0 est une partie ouverte de E.

• L’ensemble x ∈ E; f(x) > 0 est une partie fermée de E.

• L’ensemble x ∈ E; f(x) = 0 est une partie fermée de E.

Propriété

Démonstration

• Soit a ∈ E tel que f(a) > 0 ; par continuité de f , il existe η > 0 tel que pour tout x de Evérifiant ‖x− a‖E 6 η, on ait |f(x)− f(a)| 6 f(a)/2, et donc

f(x) > f(a)− f(a)

2=f(a)

2> 0.

En particulier, B(a,η) ⊂ x ∈ E; f(x) > 0. Il en résulte que x ∈ E; f(x) > 0 est ouvert.

• On utilise la caractérisation séquentielle des fermés : soit (an) une suite d’éléments dex ∈ E; f(x) > 0 qui converge vers a ∈ E. Pour tout n, f(an) > 0, et f étant continue,on sait que f(an) → f(a). On en déduit que f(a) > 0, c’est-à-dire, a ∈ x ∈ E; f(x) > 0. Cetensemble est donc fermé.

• On raisonne de même en passant à la limite dans la relation f(an) = 0.

Remarques

• Bien sûr, en changeant f en −f , on prouve des résultats analogues pour f(x) < 0 et f(x) 6 0.

• Cette dernière propriété est très utile pour prouver que des parties de E sont ouvertes, oufermées : on peut parfois voir ces parties comme ensembles de niveau f(x) > 0, f(x) > 0 ouf(x) = 0 d’une application continue à valeurs réelles f bien choisie.

125

Exemples

• L’exemple du cercle unité U traité plus haut entre dans ce cadre : on a

U = (x,y) ∈ R2; x2 + y2 − 1 = 0,

la fonction f : (x,y) 7→ x2 + y2 − 1 étant continue car polynomiale.

• Revenons sur l’exemple du demi-plan

P = (x,y) ∈ R2, y > 0

Montrons par cette méthode qu’il s’agit d’un ouvert de R2 : l’application

f :

R2 → R

(x,y) 7→ y

est continue sur R2. De plus, P = (x,y) ∈ R2; f(x,y) > 0. D’après la propriété précédente, Pest donc un ouvert.

• L’ensemble Gℓn(R) des matrices inversibles d’ordre n est un ouvert de Mn(R) : en effet, unematrice carrée A est inversible si et seulement si det(A) 6= 0. On en déduit donc que

Gℓn(R) = A ∈Mn(R); det(A) < 0 ∪ A ∈Mn(R); det(A) > 0.

Nous montrerons bientôt que la fonction déterminant est continue sur Mn(R). On en déduit queGℓn(R) est la réunion de deux ouverts de Mn(R), c’est donc une partie ouverte.

• L’ensemble O des trinômes à coefficients réels qui ont deux racines réelles distinctes est unepartie ouverte de R2[X]. Soit en effet l’application discriminant

φ :

R2[X] → R

aX2 + bX + c 7→ b2 − 4ac

et ψ : aX2 + bX + c 7→ a. Alors

O = (P ∈ R2[X]; ψ(P ) < 0 ∪ P ∈ R2[X]; ψ(P ) > 0) ∩ P ∈ R2[X]; φ(P ) > 0.

Or, φ et ψ sont continues sur R2[X] (c’est immédiat pour ψ, et φ est polynomiale en les coor-données de sa variable). Donc O est une partie ouverte comme intersection de deux ouverts, lepremier étant lui-même la réunion de deux ouverts. De la même façon, on montre que l’ensembledes polynômes de R2[X] ayant deux racines complexes conjuguées distinctes est un ouvert, etque l’ensemble des polynômes de R2[X] ayant au plus une racine (éventuellement double) est unfermé.

2. Extrema de fonctions continues

Si K est une partie fermée, bornée et non vide de E et f : K → R est continue, alorsf est bornée et atteint ses bornes.

Théorème des bornes atteintes (admis : démonstration non exigible)

Remarque – Ce théorème est bien sûr une généralisation du théorème selon lequel une fonctioncontinue sur un segment, à valeurs dans R, est bornée et atteint ses bornes.

Exemple – La boule unité B de Mn(R) pour la norme infini est fermée, bornée et non vide. Lafonction déterminant, qui est continue sur B, est donc bornée sur B et atteint ses bornes. Ainsi,parmi les matrices de Mn(R) dont tous les coefficients sont compris entre −1 et 1, il en existeau moins une dont le déterminant est maximal.

126

VI. Le cas des applications linéaires et multilinéaires

Soient E et F deux espaces vectoriels de dimension finie et u ∈ L (E,F ).

Alors u est Lipschitzienne.

Théorème – Caractère Lipschitzien des applications linéaires

Démonstration – Munissons E d’une base B = (e1, . . . ,en) et de la norme infini ‖ · ‖∞ associéeà cette base, et F d’une norme ‖ · ‖F . Soit x ∈ E dont la décomposition dans la base B estx = x1e1 + · · ·+ xnen. Alors par linéarité de u,

‖u(x)‖F = ‖x1u(e1) + · · ·+ xnu(en)‖F 6 |x1|‖u(e1)‖F + · · ·+ |xn|‖u(en)‖F ,

d’après l’inégalité triangulaire. Alors

‖u(x)‖F 6 [‖u(e1)‖F + · · ·+ ‖u(en)‖F ] ‖x‖∞.

Posons k = ‖u(e1)‖F + · · · + ‖u(en)‖F . Soit (x,y) ∈ E2 ; alors par linéarité de u et d’aprèsl’inégalité précédente,

‖u(x)− u(y)‖F = ‖u(x− y)‖F 6 k ‖x− y‖∞,

d’où le résultat, car la notion de fonction Lipschitzienne ne dépend pas des normes choisies surE et F .

Attention ! La linéarité de u est essentielle pour que l’inégalité ‖u(x)‖F 6 k ‖x‖∞, valable pourx ∈ E, entraîne que u est Lipschitzienne.

Exemple – L’application Trace, de Mn(K) dans K, est linéaire entre deux espaces de dimensionfinie, donc Tr est Lipschitzienne. Si Mn(K) est muni de la norme infini (et K de la valeur absolueou du module), elle est en fait n-Lipschitzienne car pour tout M = (mi,j)16i,j6n ∈Mn(K),

|Tr(M)| =∣∣∣∣∣

n∑

i=1

mi,i

∣∣∣∣∣6

n∑

i=1

|mi,i| 6 nmaxi,j|mi,j | = n ‖M‖∞.

Si Mn(K) est muni de la norme 1, définie par ‖M‖1 =∑n

i,j=1 |mi,j|, elle est 1-Lipschitzienne car

|Tr(M)| 6n∑

i=1

|mi,i| 6n∑

i,j=1

|mi,j| = ‖M‖1.

On sait que le caractère Lipschitzien entraîne la continuité, on a donc le résultat suivant :

Une application linéaire entre espaces vectoriels de dimension finie est continue.

Corollaire

On a aussi un résultat de continuité pour les applications multilinéaires :

Soit p un entier avec p > 2 et f : (Kn)p → F une application multilinéaire, c’est-à-dire,linéaire par rapport à chacune de ses p variables.

Alors f est continue.

Propriété – Continuité des applications multilinéaires

127

Démonstration – On notera (e1, . . . ,en) la base canonique de Kn. Pour j ∈ [[1,p]], soitxj = (xj

1, . . . ,xjn) = xj

1e1 + · · · + xjnen ∈ Kn. Par multilinéarité de f , on a

f(x1, . . . ,xp) =∑

(i1,...,ip)∈[[1,n]]p

x1i1 · · · x

pipf(ei1, . . . , eip).

En décomposant tous les vecteurs f(ei1 , . . . , eip) dans une base de F , on voit que chaque coordon-

née de f(x1, . . . ,xp) dans cette base définit une fonction polynomiale en les xji pour

(i,j) ∈ [[1,n]] × [[1,p]], et donc, définit une fonction continue. On en déduit que f est continue.

Remarque – Si E et F sont de dimension finie, on généralisera sans difficulté la propriété précé-dente pour montrer qu’une application f : Ep → F multilinéaire est continue.

Exemples

• L’application déterminant, de Mn(K) dans K, est continue car multilinéaire par rapport auxcolonnes de sa variable.

• Si (E, (· | ·)) est un espace euclidien, alors le produit scalaire (· | ·) est une application continue.Si de plus E est orienté de dimension 3, alors le produit vectoriel ∧ est une application continue.En effet, dans ces deux cas, l’application considérée est bilinéaire.

• Le produit matriciel

Mn(K)×Mn(K) → Mn(K)(A,B) 7→ AB

est continu car bilinéaire.

On peut donc passer à la limite dans un déterminant, un produit scalaire en dimension finie,un produit vectoriel, un produit de matrices.

128

Chapitre 6

Suites et séries de fonctions

Dans ce chapitre, K désigne R ou C, et I un intervalle de R. Toutes les fonctions considéréesdans ce chapitre sont à valeurs dans K.

Soit (fn)n∈N une suite de fonctions définies sur un intervalle J et à valeurs dans K. Pour toutx ∈ J , (fn(x))n∈N est une suite d’éléments de K. Si elle converge, on peut noter sa limite f(x).Quelles sont alors les propriétés de la fonction f :

• Si fn est continue ou même dérivable pour tout n, f est-elle continue, dérivable ?

• Peut-on exprimer l’intégrale de f sur un segment comme limite des intégrales des fn ?

On remarque tout de suite que la question n’est pas anodine, en considérant la suite defonctions (fn) où fn(x) = xn pour tout n ∈ N∗ et tout x réel. Alors bien sûr, toutes les fonctionsfn sont de classe C∞ sur R. Pourtant,

fn(x) −→n→+∞

0 si x ∈ ]−1,1[

1 si x = 1

+∞ si x > 1

et (fn(x))n∈N∗ n’a pas de limite si x 6 −1. La fonction limite f est définie sur ]−1,1], et ellen’est pas continue.

On a représenté ci-dessous f1, f2, f5 et f20 (en noir), et la fonction f (en rouge), sur [0,1].

•

0 1

1

Cf1 Cf2 Cf5 Cf20

Cf

De, même, pour chaque x on peut s’intéresser à la série∑

n>0 fn(x). Quelle sont les propriétésde la fonction-somme ainsi définie ?

Par exemple, ci-dessous, on a représenté, pour différentes valeurs de n,

Sn : x 7→n∑

k=0

4

π

sin((2k + 1)x)

2k + 1.

129

−6 −4 −2 0 2 4 6x

−1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

Sn(x

)

n=1n=10n=50

On voit que, lorsque n augmente, le graphe de Sn semble « tendre » vers un créneau. Les sériesde fonctions interviennent notamment en théorie du signal.

I. Différents modes de convergence

1. Convergence simple, convergence uniforme

Commençons par définir la convergence envisagée dans l’introduction :

Pour tout n ∈ N (ou n > n0 avec n0 ∈ N∗), on se donne une fonction fn : I → K.On se donne également une fonction f : I → K.

On dit que la suite de fonctions (fn)n∈N converge simplement vers f sur I si :

∀x ∈ I, fn(x) −→n→+∞

f(x).

Définition – Convergence simple

Exemple – Comme nous l’avons montré dans l’introduction, la suite (fn)n∈N∗ des fonctionsfn : x 7→ xn converge vers la fonction

f : x 7→

0 si x ∈ ]−1,1[

1 si x = 1

sur ]−1,1].

La convergence simple est donc une notion qui s’applique « x par x ». Pour la montrer, oncommence par fixer x et on étudie la suite (fn(x))n∈N d’éléments de K. Or, le comportement decette suite pour un certain x peut être indépendant du comportement pour un autre x, mêmeproche. C’est ce qui arrive dans notre exemple entre x ∈ ]−1,1[ et x = 1.

Pour pallier cette difficulté, on va définir un autre mode de convergence en imposant unecertaine uniformité entre les différentes valeurs de x :

Avec les notations ci-dessus, on dit que (fn) converge uniformément vers f sur I si

• pour n ∈ N assez grand, fn − f est bornée sur I ;

• supx∈I|fn(x)− f(x)| −→

n→+∞0.

Définition – Convergence uniforme

130

Traduisons cette définition avec des quantificateurs ; elle signifie :

∀ ε > 0, ∃n0 ∈ N; ∀n > n0, ∀x ∈ I, |fn(x)− f(x)| 6 ε.

Comparons-la à la convergence simple ; cette dernière signifie :

∀ ε > 0, ∀x ∈ I, ∃n0 ∈ N; ∀n > n0, |fn(x)− f(x)| 6 ε.

Toute la différence réside dans cet échange de quantificateurs : dans la convergence simple, lerang n0 dépend de x ; dans la convergence uniforme, le même n0 doit convenir pour tout x ∈ I.La convergence uniforme est donc beaucoup plus exigeante que la convergence simple.

Si K = R, l’inégalité |fn(x)− f(x)| 6 ε est équivalente à f(x)− ε 6 fn(x) 6 f(x) + ε. Ainsi,pour que la suite de fonctions (fn) converge uniformément vers f sur I, il faut et il suffit quepour tout ε > 0, il existe un entier n0 tel que pour tout n > n0, pour tout x ∈ I,

f(x)− ε 6 fn(x) 6 f(x) + ε,

ce qui signifie que pour n > n0, le graphe de fn est inclus dans le « tube » d’épaisseur 2 ε autourdu graphe de f .

Ce phénomène est illustré sur le graphique suivant :

x

y

ε

ε

y = f(x)

y = f(x) + ε

y = f(x)− εy = fn(x) avec n > n0

Soit (fn) une suite de fonctions définies sur I, à valeurs dans K, et f : I → K unefonction.

Pour que (fn) converge uniformément vers f sur I, il faut et il suffit qu’il existe unesuite (an) de réels positifs telle que

• pour n assez grand, pour tout x ∈ I, |fn(x)− f(x)| 6 an ;

• an −→n→+∞

0.

Propriété

Démonstration

⇒ Il suffit de choisir an = supx∈I |fn(x) − f(x)| si fn − f est bornée (ce qui est le cas pour nassez grand), an = 0 sinon.

⇐ Si une telle suite (an) existe, alors pour n ∈ N assez grand, fn − f est bornée et

supx∈I|fn(x)− f(x)| 6 an avec an −→

n→+∞0,

donc (fn) converge uniformément vers f sur I.

131

L’intérêt de cette propriété est de montrer que pour prouver la convergence uniforme de (fn)vers f sur I, il n’est pas nécessaire de calculer supx∈I |fn(x)− f(x)|, mais il suffit de le majorer

par un terme an convenable.

En revanche, si les majorations ne sont pas assez fines, il se peut que l’on ne puisse pasconclure. Il faut alors améliorer les majorations, sachant que la majoration la plus fine possiblesera toujours celle donnée par le calcul de supx∈I |fn(x)− f(x)|, qui peut se faire par des étudesde fonctions.

Pour prouver que (fn) ne converge pas uniformément vers f sur I, on peut essayer de calculersupx∈I |fn(x) − f(x)|, ou le minorer par une quantité positive qui ne tend pas vers 0 lorsquen→ +∞.

Remarque – Supposons que toutes les fonctions avec lesquelles on travaille soient bornées, c’est-à-dire, appartiennent à B(I,K). Sur cet espace, on a défini dans le chapitre Espaces vectorielsnormés la norme ‖ · ‖∞. Alors, par définition même, (fn) converge uniformément vers f sur Isi et seulement si

‖fn − f‖∞ −→n→+∞

0.

C’est pourquoi la norme infini sur B(I,K) est appelée norme de la convergence uniforme.

Revenons à nouveau sur l’exemple de la suite des fonctions fn : x 7→ xn. Il y a convergencesimple vers la fonction f notamment sur [0,1[ (sur lequel f coincide avec la fonction nulle). Il n’ya pas convergence uniforme sur cet intervalle car pour tout n ∈ N∗,

supx∈ [0,1[

|fn(x)− f(x)| = supx∈[0,1[

xn = 1.

Cela dit, on a l’impression que l’absence de convergence uniforme sur [0,1[ provient du voisinagede 1. Soit [a,b] un segment inclus dans [0,1[. Alors

supx∈[a,b]

|fn(x)− f(x)| = supx∈[a,b]

xn = bn −→n→+∞

0 ;

il y a donc convergence uniforme sur [a,b].

En généralisant cette idée, on est amené à définir un troisième mode de convergence :

Avec les notations précédentes, on dit que (fn) converge uniformément sur tout seg-ment de I vers f si pour tout segment [a,b] inclus dans I, (fn) converge uniformémentvers f sur le segment [a,b].

Définition – Convergence uniforme sur tout segment

Remarque – Ce mode de convergence permet parfois d’effacer les difficultés provenant des ex-trémités de l’intervalle I, lorsque celui-ci est ouvert ou semi-ouvert, comme c’est le cas dansl’exemple précédent.

On a les implications suivantes :

(fn) converge uniformément vers f sur I

⇒ (fn) converge uniformément vers f sur tout segment de I

⇒ (fn) converge simplement vers f sur I.

Les deux réciproques sont fausses.

Propriété – Lien entre les différentes convergences

132

Démonstration

• Si (fn) converge uniformément vers f sur I, et si J est un segment inclus dans I, on a, pourn assez grand,

supx∈J|fn(x)− f(x)| 6 sup

x∈I|fn(x)− f(x)| avec sup

x∈I|fn(x)− f(x)| −→

n→+∞0,

donc (fn) converge uniformément vers f sur J , et ce quel que soit J . Ainsi (fn) converge unifor-mément vers f sur tout segment de I.

• Si (fn) converge uniformément vers f sur tout segment de I, alors pour tout x ∈ I, il existeun segment J inclus dans I qui contient x, et alors, pour n assez grand,

|fn(x)− f(x)| 6 supy∈J|fn(y)− f(y)| avec sup

y∈J|fn(y)− f(y)| −→

n→+∞0.

Ainsi (fn) converge simplement vers f sur I.

• L’exemple des fonctions x 7→ xn sur [0,1[ montre que la première réciproque est fausse. Lemême exemple sur [0,1] montre que la deuxième réciproque est fausse.

Remarque – Dans certains cas, prouver la convergence uniforme de (fn) vers f sur tout segmentde I revient à la prouver pour des segments d’une forme particulière, plus simple :

• Si I est de la forme [α, β[, on peut se limiter aux segments de la forme [α,b] où b ∈ I (de mêmesi I = ]α,β] avec les segments de la forme [a,β] où a ∈ I).• Si I est symétrique par rapport à 0, de la forme ]−α,α[, on peut se limiter aux segments de laforme [−a,a] où a ∈ [0,α[.

En effet, dans chaque cas, tout segment de I est inclus dans un segment de la forme particulièreindiquée.

Méthode – Pour étudier la convergence d’une suite de fonctions (fn)n∈N, on procède souventcomme suit :

• On fixe x et on étudie la convergence de la suite de scalaires (fn(x))n∈N. On note f(x) sa limite,où x appartient à un certain intervalle I (qui n’est pas nécessairement l’ensemble de définitiondes fn) : la suite de fonctions (fn) converge simplement vers f sur I.

• On se demande alors si la convergence est meilleure. Si elle est uniforme, ou au moins uniformesur tout segment de I, on sait que la limite ne peut être que f . On essaie donc de majorer|fn(x) − f(x)|, et plus précisément, de prouver, pour x ∈ I et n assez grand, une inégalité dutype

|fn(x)− f(x)| 6 an

où an est indépendant de x, et an −→n→+∞

0.

– Si l’on y parvient sur I tout entier, alors la convergence est uniforme sur I.– Sinon, on essaie de le faire sur tout segment inclus dans I. Si l’on y parvient, la convergence

est uniforme sur tout segment de I.

Exemples

• Étudions la suite des fonctions fn : x 7→√

x2 +1

n, pour n > 1, sur R. Il est évident que (fn)

converge simplement vers la fonction valeur absolue (notée f) sur R, car pour tout réel x,

√

x2 +1

n−→

n→+∞

√x2 = |x|.

On se demande si cette convergence est uniforme. Or, pour tout n > 1 et x ∈ R,

0 6 fn(x)− f(x) =

√

x2 +1

n−√x2 =

1/n√

x2 + 1n + |x|

61/n

1/√n

=1√n

avec1√n−→

n→+∞0,

133

et l’encadrement est indépendant de x. La convergence est donc uniforme sur R. Ce résultatmontre au passage que l’on peut approcher la valeur absolue (non dérivable en 0) par des fonctionsde classe C∞, de façon uniforme sur R et arbitrairement précise.

• Considérons la suite des fonctions fn : x 7→ arctan(nx) définies sur R ; elle converge simplementsur R vers la fonction f définie par f(0) = 0, f(x) = −π/2 si x < 0 et f(x) = π/2 si x > 0.Cette convergence n’est pas uniforme sur tout segment de R car, par exemple,

supx∈[−1,1]

|fn(x)− f(x)| = π

2,

comme le montre une étude de fonctions sans difficulté.

• Étudions la suite des fonctions fn : x 7→ nxn(1 − x), pour n > 1, sur [0,1]. Par croissancescomparées, (fn) converge simplement vers la fonction nulle f sur [0,1[, et fn(1) = 0 pour toutn ∈ N∗. Il y a donc convergence simple vers f sur [0,1]. Pour savoir si cette convergence estuniforme, étudions la fonction fn − f = fn sur [0,1]. Pour tout n ∈ N∗, fn est dérivable sur [0,1]et pour tout x ∈ [0,1],

f ′n(x) = n2xn−1(1− x)− nxn = nxn−1(n(1− x)− x) = nxn−1(n− (n+ 1)x).

On en déduit immédiatement que fn, qui est positive, admet un maximum global sur [0,1] enn

n+ 1. Or

fn

(n

n+ 1

)

= n

(n

n+ 1

)n 1

n+ 1=

n

n+ 1

(

1

1 + 1n

)n

∼(

1

1 + 1n

)n

.

Un développement limité classique montre que

(

1

1 + 1n

)n

−→n→+∞

1

e.

Finalement, f et toutes les fonctions fn sont bornées sur [0,1], et

‖fn − f‖∞ = fn

(n

n+ 1

)

−→n→+∞

1

e.

La convergence n’est donc pas uniforme sur [0,1]. Elle est cependant uniforme sur tout segmentde la forme [0,a] avec 0 6 a < 1 (et donc sur tout segment de [0,1[). En effet, pour tout n tel

que a <n

n+ 1( ce qui est le cas pour n assez grand car

n

n+ 1−→

n→+∞1), on a

supx∈[0,a]

|fn(x)− f(x)| = fn(a) = nan(1− a) −→n→+∞

0.

2. Le cas des séries de fonctions

Bien sûr, on définit la convergence (simple ou uniforme) d’une série de fonctions∑

n>0 fn

comme la convergence de la suite des sommes partielles

(Sp)p∈N =

(p∑

n=0

fn

)

p∈N

On se ramène ainsi à une suite de fonctions.

Exemples de convergence simple

134

• Posons, pour n ∈ N∗ et x ∈ R, fn(x) =1

nx. La série de Riemann

∑

n>1 fn(x) converge si et

seulement si x > 1. La fonction∑+∞

n=1 fn est appelée fonction ζ de Riemann, elle est définie sur]1,+∞[.

• Posons, pour n ∈ N et x ∈ R, fn(x) = xn. La série géométrique∑

n>0 xn converge si et

seulement si x ∈ ]−1,1[. La fonction S =∑+∞

n=0 fn est définie sur ]−1,1[ et pour tout x ∈ ]−1,1[,

S(x) =1

1− x.

Traduisons plus particulièrement la convergence uniforme d’une série de fonctions∑

n>0 fn.Supposons que la fonction somme S soit définie sur I. Pour tout x ∈ I et p ∈ N,

S(x)− Sp(x) =+∞∑

n=0

fn(x)−p∑

n=0

fn(x) =+∞∑

n=p+1

fn(x) = Rp(x);

Rp est le reste d’ordre p de cette série de fonctions.

Ainsi, les propriétés suivantes sont équivalentes :

• La série de fonctions∑

n>0 fn converge uniformément sur I.

• La suite (Rp)p∈N de ses restes converge uniformément vers la fonction nulle sur I.

• Pour p assez grand, Rp est borné sur I et

supx∈I|Rp(x)| −→

p→+∞0, i.e. sup

x∈I

∣∣∣∣∣∣

+∞∑

n=p+1

fn(x)

∣∣∣∣∣∣

−→p→+∞

0.

3. Convergence normale des séries de fonctions

Nous allons chercher une condition suffisante simple pour que toutes ces propriétés soientsatisfaites. Supposons que fn soit bornée sur I pour tout n. Pour tout x ∈ I,

|fn(x)| 6 ‖fn‖∞.

Supposons que la série∑

n>0

‖fn‖∞

converge (la norme infini étant calculée sur I). Alors, par comparaison des séries à termes positifs,la série

∑

n>0 fn(x) converge absolument, et donc converge, pour tout x ∈ I. La série de fonctions∑

n>0 fn converge donc simplement sur I. Pour tout x ∈ I, pour tout (p,q) ∈ N2 tel que q > p,on a de plus

∣∣∣∣∣∣

q∑

n=p+1

fn(x)

∣∣∣∣∣∣

6

q∑

n=p+1

|fn(x)| 6q∑

n=p+1

‖fn‖∞.

Lorsque q tend vers +∞, on obtient en particulier, pour tout x ∈ I, et tout p ∈ N,

|Rp(x)| =

∣∣∣∣∣∣

+∞∑

n=p+1

fn(x)

∣∣∣∣∣∣

6

+∞∑

n=p+1

|fn(x)| 6+∞∑

n=p+1

‖fn‖∞ avec+∞∑

n=p+1

‖fn‖∞ −→p→+∞

0.

Nous avons majoré le reste d’ordre p de la série par une quantité qui tend vers 0, indépendantede x : la convergence est donc uniforme sur I.

On définit ainsi un nouveau mode de convergence spécifique aux séries de fonctions :

135

On dit que la série de fonctions∑

n>0 fn (où fn est définie sur I pour tout n) convergenormalement sur I si :

• fn est bornée sur I pour tout n ∈ N,

• la série numérique∑

n>0 ‖fn‖∞ converge.

On définit également la convergence normale sur tout segment de I.

Définition – Convergence normale

En pratique, la convergence normale se montre souvent de la façon suivante :

Pour que∑

n>0 fn converge normalement sur I, il faut et il suffit qu’il existe une suite(αn) de réels positifs telle que

• Pour tout x ∈ I, pour tout n ∈ N, |fn(x)| 6 αn,

•∑

n>0

αn converge.

Propriété

Démonstration

⇒ Il suffit de choisir αn = ‖fn‖∞ pour tout n ∈ N.

⇐ Si une telle suite (αn) existe, alors pour tout n ∈ N, ‖fn‖∞ 6 αn. Par comparaison de sériesà termes positifs, la convergence de la série

∑

n>0 αn entraîne la convergence normale de la série∑

n>0 fn.

Remarque – Ainsi, pour prouver la convergence normale de∑

n>0 fn, il n’est pas nécessaire decalculer ‖fn‖∞, mais il suffit de majorer ‖fn‖∞ par un terme αn convenable.Pour prouver l’absence de convergence normale, on peut calculer ‖fn‖∞ ou le minorer par leterme général positif d’une série divergente.

Exemple – Posons, pour n ∈ N∗ et x ∈ R,

fn(x) =sin(nx)

n2;

la série de fonctions∑

n>1 fn converge normalement sur R, car pour tout n > 1, pour tout x ∈ R,

∣∣∣∣

sin(nx)

n2

∣∣∣∣6

1

n2

et la série∑

n>1

1

n2converge.

Si∑

n>0 fn converge normalement sur I, alors :

• Elle converge uniformément sur I.

• Elle converge normalement sur tout segment de I.

Propriété

Démonstration – La première implication a été démontrée ci-dessus. La seconde vient du fait quela norme infini de fn sur un segment de I est inférieure ou égale à sa norme infini sur I. Lethéorème de comparaison de séries à termes positifs donne alors le résultat.

Exemples

136

• Posons, pour n ∈ N∗ et x > 1, fn(x) =1

nx;∑

n>1 fn ne converge pas normalement sur ]1,+∞[car

supx>1

1

nx=

1

n,

or la série harmonique diverge. En revanche,∑

n>1 fn converge normalement sur tout intervallede la forme [a,+∞[ où a > 1. En effet, dans ce cas,

supx>a

1

nx=

1

na,

et la série∑

n>1 1/na converge car a > 1. Ceci montre d’ailleurs que la convergence normale surtout segment de I n’entraîne pas la convergence normale sur I.

• On montre de même que la série géométrique,∑

n>0 fn où fn : x 7→ xn, ne converge pasnormalement sur ]−1,1[, mais converge normalement sur tout segment de ]−1,1[.

• Posons, pour n ∈ N et x > 0,

fn(x) =(−1)n

x+ n;

la série de fonctions∑

n>0 fn ne converge pas normalement sur tout segment de ]0,+∞[, car parexemple, pour tout n ∈ N,

supx∈[1,2]

∣∣∣∣

(−1)n

x+ n

∣∣∣∣=

1

1 + n,

or la série∑

n>1

1

1 + ndiverge (série harmonique).

Pourtant,∑

n>0 fn converge uniformément sur ]0,+∞[ : on remarque en effet que pour toutx > 0, la série

∑

n>0

(−1)n

x+ n

est une série alternée de réels, dont la valeur absolue du terme général décroît vers 0. Elle estdonc convergente et, pour tout x > 0 et p ∈ N, on a la majoration suivante de la somme et desrestes : ∣

∣∣∣∣∣

+∞∑

n=p+1

(−1)n

x+ n

∣∣∣∣∣∣

61

x+ p+ 16

1

p+ 1.

Ce majorant tend vers 0 lorsque p tend vers +∞, et est indépendant de x, d’où la conclusion.

Méthode – Pour étudier la convergence d’une série de fonctions∑

n>0 fn, on procède souventcomme suit :

• On fixe x et on étudie la convergence de la série numérique∑

n>0 fn(x).

On note S(x) sa somme, où x appartient à un certain intervalle I : la série de fonctions∑

n>0 fn

converge simplement sur I (vers S).

On se demande alors si la convergence est meilleure.

• On essaie de majorer, pour x ∈ I, le module du reste d’ordre p,

|S(x)− Sp(x)| =

∣∣∣∣∣∣

+∞∑

n=p+1

fn(x)

∣∣∣∣∣∣

par une quantité indépendante de x, qui converge vers 0 lorsque p→ +∞.– Si l’on y parvient sur I tout entier, alors la convergence de

∑

n>0 fn est uniforme sur I.

– Sinon, on essaie de le faire sur tout segment inclus dans I. Si l’on y parvient, la convergenceest uniforme sur tout segment de I.

137

• On essaie de majorer, pour x ∈ I et n ∈ N, |fn(x)| par un terme αn indépendant de x, et telque

∑

n>0 αn converge.

– Si l’on y parvient sur I tout entier, alors la convergence de∑

n>0 fn est normale sur I.

– Sinon, on essaie de le faire sur tout segment inclus dans I. Si l’on y parvient, la convergenceest normale sur tout segment de I.

Si l’une de ces deux situations a lieu, la convergence est en particulier uniforme (sur I ou surtout segment de I selon le cas) et donc simple sur I. On peut donc directement commencer parla convergence normale si on a l’intuition que cela va aboutir, et si c’est le cas, cela remplace lesdeux premiers points. Sinon, on essaie de vérifier le premier voire les deux premiers points.

Nous sommes maintenant prêts à examiner la question de la régularité, de la dérivation etde l’intégration des suites et séries de fonctions. Si (fn) est une suite de fonctions définies sur I,qui converge (en un certain sens) sur I vers une fonction f , à quelles conditions peut-on écrire :

• limx→a

limn→+∞

fn(x) = limn→+∞

limx→a

fn(x),

•∫ b

afn(x) dx −→

n→+∞

∫ b

af(x) dx, i.e. lim

n→+∞

∫ b

afn(x) dx =

∫ b

a

(

limn→+∞

fn(x)

)

dx,

• (fn)′ −→n→+∞

f ′, i.e. limn→+∞

f ′n =

(

limn→+∞

fn

)′?

On imagine désormais facilement que la validité de ces égalités dépend notamment du mode deconvergence de la suite (fn) vers sa limite. On remarque aussi que chacune de ces égalités revientà intervertir une limite selon n avec, soit une limite selon x, soit une intégrale, soit l’opérateurde dérivation. On fait donc souvent référence à ces théorèmes que nous allons étudier, commethéorèmes d’interversion.

II. Limite et continuité des suites et séries de fonctions

1. Théorèmes de continuité

Soit (fn)n∈N une suite de fonctions définies sur I. On suppose que :

• Pour tout n ∈ N, fn est continue sur I,

• (fn) converge uniformément sur I, ou uniformément sur tout segment deI, vers une fonction f .

Alors f est continue sur I.

Théorème – Continuité pour les suites de fonctions

Démonstration – Il suffit de faire la démonstration sous l’hypothèse de convergence uniforme surtout segment de I. Soit ε > 0 fixé et a ∈ I. Pour η > 0 assez petit, J = I ∩ [a− η,a + η] est unsegment de I. Pour tout x ∈ J , on a

|f(x)− f(a)| 6 |f(x)− fn(x)|+ |fn(x)− fn(a)|+ |fn(a)− f(a)|.

Par convergence uniforme de (fn) vers f sur J , il existe n0 ∈ N tel que pour tout n > n0,

supx∈J|fn(x)− f(x)| 6 ε.

Alors, pour tout x ∈ J ,

|f(x)− f(a)| 6 |f(x)− fn0(x)|+ |fn0(x)− fn0(a)|+ |fn0(a)− f(a)|6 ε+ |fn0(x)− fn0(a)|+ ε.

138

La fonction fn0 étant continue en a, il existe δ > 0 tel que pour tout x ∈ I vérifiant |x− a| 6 δ,on ait x ∈ J et |fn0(x) − fn0(a)| 6 ε. Dans ces conditions, on a |f(x) − f(a)| 6 3ε, d’où lacontinuité de f en a, et ce pour tout a ∈ I. Donc f est continue sur I.

Remarque – Ce théorème donne aussi un moyen efficace pour montrer qu’une suite de fonctionsne converge pas uniformément : par contraposition, on en déduit en effet que, si la limite simplede la suite (fn) n’est pas continue en un point a de I alors que chacune des fonctions fn estcontinue sur I, alors la convergence de (fn) vers f n’est pas uniforme sur I, ni uniforme sur toutsegment de I. Cet argument s’applique par exemple à la suite des fonctions fn : x 7→ xn sur [0,1],avec a = 1.

Pour les séries de fonctions, ce théorème prend la forme suivante :

Soit∑

n>0 fn une série de fonctions définies sur I. On suppose que :

• Pour tout n ∈ N, fn est continue sur I,

•∑

n>0

fn converge uniformément sur I, ou uniformément sur tout segment

de I.

Alors+∞∑

n=0

fn est continue sur I.

Théorème – Continuité pour les séries de fonctions

Exemple – La fonction ζ de Riemann x 7→+∞∑

n=1

1

nxest continue sur ]1,+∞[.

En effet, la série de fonctions associée converge normalement sur tout segment (et donc uni-

formément sur tout segment) de ]1,+∞[ et pour tout n, la fonction x 7→ 1

nxest continue sur

]1,+∞[.

2. Passages à la limite

Soit (fn) une suite de fonctions définies sur I, et a une extrémité de I, éventuellementinfinie. On suppose que :

• Pour tout n ∈ N, fn possède une limite finie ℓn en a,

• (fn) converge uniformément sur I vers une fonction f .

Alors :

• La suite (ℓn) converge,

• La fonction f possède une limite en a, et limx→a

f(x) = limn→+∞

ℓn, i.e.

limx→a

limn→+∞

fn(x) = limn→+∞

limx→a

fn(x).

Théorème de la double limite (admis : démonstration hors programme)

Pour les séries de fonctions, ce théorème prend la forme suivante :

139

Soit∑

n>0 fn une série de fonctions définies sur I et a une extrémité de I, éventuelle-ment infinie. On suppose que :

• Pour tout n ∈ N, fn possède une limite finie ℓn en a.

• ∑n>0 fn converge uniformément sur I.

Alors :

• La série∑

n>0 ℓn converge,

• La fonction+∞∑

n=0

fn possède une limite en a, et limx→a

+∞∑

n=0

fn(x) =

+∞∑

n=0

ℓn, i.e.

limx→a

+∞∑

n=0

fn(x) =+∞∑

n=0

limx→a

fn(x).

Théorème – Interversion limite/somme (admis : démonstration hors programme)

Exemple – Dans le cas de la fonction ζ de Riemann,+∞∑

n=1

1

nx−→

x→+∞1.

En effet, la série de fonctions associée converge normalement sur tout intervalle de la forme[a,+∞[ avec a > 1, donc par exemple sur [2,+∞[ dont +∞ est une extrémité, et x 7→ 1/nx apour limite 0 en +∞ si n > 2, et 1 si n = 1.

Attention !

• Une convergence uniforme sur tout segment de I ne suffit pas pour appliquer ce théorème.Pour illustrer ceci, donnons l’exemple de la série géométrique. La série de fonctions associéeconverge normalement (et donc uniformément) sur tout segment de ]−1,1[ et pour tout n ∈ N,xn −→

x→1−1. Pourtant, la série

∑

n>0 1 diverge.

• Ce résultat ne porte que sur des limites finies. Par exemple, il ne s’applique donc pas lorsquefn(x) −→

x→a+∞ pour tout n.

III. Intégration des suites et séries de fonctions

Soit (fn) une suite de fonctions définies sur un segment [a,b]. On suppose que :

• Pour tout n ∈ N, fn est continue sur [a,b],

• (fn) converge uniformément sur [a,b] vers une fonction f .

Alors ∫ b

afn(x) dx −→

n→+∞

∫ b

af(x) dx,

c’est-à-dire

limn→+∞

∫ b

afn(x) dx =

∫ b

a

(

limn→+∞

fn(x)

)

dx.

Théorème – Interversion limite/intégrale

Démonstration – On sait que la fonction f , en tant que limite uniforme d’une suite de fonctionscontinues, est continue sur [a,b]. De plus, pour tout n ∈ N,

∣∣∣∣

∫ b

a(fn(x)− f(x)) dx

∣∣∣∣6

∫ b

a|fn(x)− f(x)| dx 6

∫ b

a‖fn − f‖∞ dx = (b− a)‖fn − f‖∞.

Par convergence uniforme de (fn) vers f sur [a,b], ‖fn − f‖∞ → 0, et donc∫ b

a(fn(x)− f(x)) dx −→

n→+∞0,

140

d’où le résultat par linéarité de l’intégrale.

Contre-exemple – La conclusion est fausse en général sous l’hypothèse de convergence simple,comme le montre l’exemple de la suite des fonctions fn définies sur [0,1], pour n > 2, par

fn(x) =

n2x si x ∈ [0, 1/n]

−n2(x− 1n) + n si x ∈ [1/n, 2/n]

0 sinon.

n

1/n 10

Cf

On montre facilement que (fn) converge simplement vers la fonction nulle sur [0,1], et pour-tant, pour tout n > 2,

∫ 1

0fn(x) dx = 1.

On ne peut donc pas intervertir limite et intégrale dans ce cas.

Pour les séries de fonctions, on obtient :

Soit∑

n>0 fn une série de fonctions définies sur un segment [a,b]. On suppose que :

• Pour tout n ∈ N, fn est continue sur [a,b],

• ∑n>0 fn converge uniformément sur [a,b].

Alors la série∑

n>0

∫ b

afn(x) dx converge et

+∞∑

n=0

∫ b

afn(x) dx =

∫ b

a

(+∞∑

n=0

fn(x)

)

dx.

Théorème – Intégration terme à terme des séries de fonctions

Exemple – On veut prouver la convergence et calculer la somme de la série

∑

n>1

1

n(e−n − e−2n).

On remarque que, pour tout n ∈ N∗,

1

n(e−n − e−2n) =

∫ 2

1e−nx dx.

On définit donc, pour tout n ∈ N∗, la fonction fn : x 7→ e−nx.

Pour tout n ∈ N∗, fn est continue sur [1,2]. De plus, la série∑

n>1 fn converge normalement (eten particulier uniformément) sur [1,2] car pour tout n ∈ N∗ et x ∈ [1,2],

0 6 e−nx6 e−n,

la série∑

n>1 e−n, indépendante de x, étant convergente (série géométrique de raison 1/e avec

|1/e| < 1). D’après le théorème d’intégration terme à terme, la série∑

n>1

∫ 21 e

−nx dx converge

141

et+∞∑

n=1

∫ 2

1e−nx dx =

∫ 2

1

(+∞∑

n=1

e−nx

)

dx.

Or, pour tout x ∈ [1,2], on a+∞∑

n=1

e−nx =e−x

1− e−x

(somme d’une série géométrique de raison e−x avec |e−x| < 1). On vient donc de montrer laconvergence de la série étudiée, avec

+∞∑

n=1

1

n(e−n − e−2n) =

∫ 2

1

e−x

1− e−xdx =

[ln(1− e−x)

]2

1= ln(1 + e)− 1

après simplifications. Finalement :

+∞∑

n=1

1

n(e−n − e−2n) = ln(1 + e)− 1.

Le théorème d’intégration terme à terme permet de calculer des sommes de séries non triviales.

Remarque – On peut montrer (également par intégration terme à terme par exemple) que pourtout x ∈ ]−1,1[,

+∞∑

n=1

xn

n= − ln(1− x).

Cela permet de retrouver le résultat ci-dessus (en utilisant cette égalité avec x = 1/e et x = 1/e2).

IV. Dérivation des suites et séries de fonctions

1. Théorèmes sur la classe C1

La convergence uniforme semble un mode de convergence efficace qui permet de conserverles propriétés des fonctions fn. Pourtant, elle ne suffit pas dès lors que l’on souhaite dériver une

limite de suite ou série de fonctions. En effet, la suite des fonctions fn : x 7→√

x2 + 1n , toutes de

classe C∞, converge uniformément vers la fonction valeur absolue sur R, qui n’est pas dérivableen 0.

Soit (fn) une suite de fonctions définies sur I. On suppose que :

• Pour tout n ∈ N, fn est de classe C1 sur I,

• (fn) converge simplement vers une fonction f sur I,

• (f ′n) converge uniformément sur I, ou uniformément sur tout segment deI, vers une fonction g.

Alors f est de classe C1 sur I et f ′ = g.

Théorème – Classe C1 pour les suites de fonctions

Démonstration – Fixons a ∈ I. Pour tout x ∈ I et n ∈ N, on a

fn(x) = fn(a) +

∫ x

af ′n(t) dt,

car fn est de classe C1. Or, (fn) converge simplement vers f sur I, donc

fn(x) −→n→+∞

f(x) et fn(a) −→n→+∞

f(a).

142

De plus, g étant limite uniforme sur tout segment de la suite de fonctions continues (f ′n), d’aprèsle théorème d’interversion limite/intégrale, on a, pour tout x ∈ I,

∫ x

af ′n(t) dt −→

n→+∞

∫ x

ag(t) dt.

Finalement, lorsque n tend vers +∞, on obtient, pour tout x ∈ I,

f(x) = f(a) +

∫ x

ag(t) dt.

Ceci entraîne que f est de classe C1 sur I avec f ′ = g.

Remarque – L’hypothèse forte du théorème porte sur les dérivées des fn, et pas sur les fonctionselles-mêmes. Il est indispensable de prouver la convergence uniforme sur tout segment pour (f ′n),mais il est inutile de prouver la convergence uniforme de (fn) : une convergence simple suffit.

Pour les séries, on a le résultat suivant :

Soit∑


• Pour tout n ∈ N, fn est de classe C1 sur I,

•∑

n>0

fn converge simplement sur I.

•∑

n>0

f ′n converge uniformément sur I, ou uniformément sur tout segment

de I.

Alors la fonction+∞∑

n=0

fn est de classe C1 sur I et

(+∞∑

n=0

fn

)′

=

+∞∑

n=0

f ′n.

Théorème – Dérivation terme à terme des séries de fonctions

Exemples

• Complétons l’étude de la fonction ζ de Riemann : la convergence simple de la série a été établieplus haut (on a même montré une convergence normale sur tout intervalle [a,+∞[ avec a > 1).Pour tout n > 1, la fonction

fn : x 7→ 1

nx= exp(−x ln(n))

est de classe C1 sur ]1,+∞[ et pour tout x > 1,

f ′n(x) = − ln(n) exp(−x ln(n)) = − ln(n)

nx.

Montrons que la série des dérivées converge normalement sur tout intervalle [a,+∞[ avec a > 1.Pour tout x > a, pour tout n > 1,

∣∣∣∣

− ln(n)

nx

∣∣∣∣6

ln(n)

na.

Il suffit donc d’établir la convergence de la série∑

n>1

ln(n)

na. Or, en fixant δ ∈ ]1,a[, on a

nδ ln(n)

na=

ln(n)

na−δ−→

n→+∞0

par croissances comparées, car a− δ > 0. Ainsi

ln(n)

na= o

(1

nδ

)

.

143

Or, la série∑

n>1

1

nδconverge car δ > 1. Par comparaison, on obtient le résultat.

Finalement, on a montré que la fonction ζ de Riemann est de classe C1 sur ]1,+∞[ avec,pour tout x > 1,

ζ ′(x) = −+∞∑

n=1

ln(n)

nx.

En particulier, ζ est strictement décroissante sur ]1,+∞[.

• Considérons la série∑

n>0 fn où, pour tout n ∈ N et x ∈ ]−1,1[,

fn(x) = (−1)nx2n+1

2n+ 1.

Pour tout n ∈ N, fn est de classe C1 sur ]−1,1[. Pour tout x ∈ ]−1,1[, pour tout n ∈ N,

|fn(x)| 6 |x|n.

Le majorant est le terme général d’une série convergente (série géométrique de raison |x| ∈ [0, 1[),donc par comparaison, la série converge simplement sur ]−1,1[.De plus, pour tout n ∈ N et x ∈ ]−1,1[, f ′n(x) = (−1)nx2n. Soit a ∈ [0, 1[ ; pour tout n ∈ N, pourtout x ∈ [−a, a],

|f ′n(x)| 6 a2n.

Le majorant est le terme général d’une série convergente (série géométrique de raison a2 avec|a2| < 1). Ainsi, la série

∑

n>0 f′n converge normalement (donc uniformément) sur tout segment

de ]−1, 1[.D’après le théorème de dérivation terme à terme, on sait donc que la fonction somme

S : x 7→+∞∑

n=0

(−1)nx2n+1

2n+ 1

est de classe C1 sur ]−1,1[, et pour tout x ∈ ]−1,1[,

S′(x) =+∞∑

n=0

(−1)nx2n =1

1− (−x2)=

1

1 + x2.

On reconnaît la dérivée de la fonction arctan. Sachant que l’on travaille sur un intervalle, on endéduit qu’il existe une constante k telle que pour tout x ∈ ]−1,1[,

+∞∑

n=0

(−1)nx2n+1

2n+ 1= arctan(x) + k.

En évaluant cette relation en x = 0, on obtient k = 0. On a donc montré que pour tout x ∈ ]−1,1[,

arctan(x) =+∞∑

n=0

(−1)nx2n+1

2n+ 1.

On remarque que les premiers termes de la somme forment les développements limités de arctanen 0. L’égalité précédente s’appelle un développement en série entière de la fonction arctan sur]−1,1[ (voir le chapitre Séries entières).

144

2. Théorèmes sur la classe Ck

Pour la classe Ck (k > 2), on peut bien sûr raisonner par récurrence à partir des théorèmesde la classe C1. On admettra que cela conduit aux théorèmes suivants, que l’on pourra appliquerdirectement :

Soit (fn) une suite de fonctions définies sur I. On suppose que :

• Pour tout n ∈ N, fn est de classe Ck sur I,

• (fn)n∈N converge simplement vers une fonction f sur I,

• Pour 1 6 j 6 k − 1, (f(j)n )n∈N converge simplement vers une fonction gj sur I,

• (f(k)n )n∈N converge uniformément sur tout segment de I vers une fonction

gk.

Alors f est de classe Ck sur I et pour tout j ∈ [[1,k]], f (j) = gj .

Théorème – Classe Ck pour les suites de fonctions

Soit∑


• Pour tout n ∈ N, fn est de classe Ck sur I,

• ∑n>0 fn converge simplement sur I,

• Pour 1 6 j 6 k − 1,∑

n>0 f(j)n converge simplement sur I.

• ∑n>0 f(k)n converge uniformément sur tout segment de I.

Alors la fonction+∞∑

n=0

fn est de classe Ck sur I et pour tout j ∈ [[1,k]],

(+∞∑

n=0

fn

)(j)

=

+∞∑

n=0

f (j)n .

Théorème – Classe Ck pour les séries de fonctions

145

146

Chapitre 7

Dérivation et intégration des fonctionsde R dans K

Dans ce chapitre, sauf indication contraire, [a,b] désigne un segment de R (avec a < b), et Iun intervalle de R. Sauf précision, les fonctions considérées sont à valeurs dans K = R ou C.

Les parties I, II, III et VI rassemblent des rappels de certains résultats fondamentaux de déri-vation et d’intégration du cours de première année. La partie IV étend à une classe plus généralede fonctions l’intégration des fonctions continues sur un segment, étudiée en première année. Lapartie V rappelle et/ou généralise un certain nombre de méthodes de calculs d’intégrales.

I. Théorème de Rolle et accroissements finis

Soit f : [a,b] → R une fonction continue sur [a,b], dérivable sur ]a,b[, telle quef(a) = f(b).

Alors il existe c ∈ ]a,b[ tel que f ′(c) = 0.

Théorème de Rolle

Démonstration – Si f est constante, le résultat est vrai et tout élément c de ]a,b[ convient. Lafonction f est continue sur le segment [a,b], elle est donc bornée et atteint ses bornes. Si f n’estpas constante, et si par exemple elle prend une valeur strictement supérieure à f(a), alors elleatteint un maximum en un point noté c ∈ ]a,b[. Alors, pour tout t ∈ [a,b], f(t) 6 f(c) et donc,pour t ∈ [a,c[,

f(t)− f(c)

t− c > 0.

Lorsque t→ c−, on en déduit que f ′(c) > 0. De même, pour t ∈ ]c,b],

f(t)− f(c)

t− c 6 0.

Lorsque t→ c+, on en déduit que f ′(c) 6 0, d’où finalement f ′(c) = 0. On procède de même sif prend une valeur strictement inférieure à f(a), en considérant le minimum de f .

Soit f : [a,b]→ R une fonction continue sur [a,b], dérivable sur ]a,b[.

Alors il existe c ∈ ]a,b[ tel que

f(b)− f(a) = f ′(c)(b − a).

Théorème – Égalité des accroissements finis

147

Démonstration – Soit

g : x 7→ f(x)− f(a)− f(b)− f(a)

b− a (x− a).

Alors g est continue sur [a,b], dérivable sur ]a,b[ de même que f , et g(a) = g(b) = 0. D’après lethéorème de Rolle, il existe c ∈ ]a,b[ tel que g′(c) = 0, i.e.,

f ′(c) − f(b)− f(a)

b− a = 0.

On en déduit le résultat.

Contre-exemple – Le résultat du théorème de Rolle et l’égalité des accroissements finis sont fauxen général si f est à valeurs dans C, ou à valeurs vectorielles : par exemple, la fonction

f :

[0,2π] → C

t 7→ eit

est continue et dérivable sur [0,2π], et f(0) = 1 = f(2π). Pourtant, pour tout t ∈ [0,2π],f ′(t) = ieit 6= 0.

Soit f : I → R une fonction dérivable sur I. On suppose qu’il existe une constanteM > 0 telle que pour tout t ∈ I,

|f ′(t)| 6 M.

Alors f est M -Lipschitzienne sur I : pour tout (x,y) ∈ I2,

|f(x)− f(y)| 6 M |x− y|.

Théorème – Inégalité des accroissements finis, cas réel

Démonstration – Soit (x,y) ∈ I2 tel que x < y. La fonction f est continue sur [x,y], dérivable sur]x,y[, donc d’après l’égalité des accroissements finis, il existe c ∈ ]x,y[ tel que

f(y)− f(x) = f ′(c)(y − x).

Alors|f(x)− f(y)| = |f ′(c)| |x− y| 6 M |x− y|

d’après l’hypothèse sur f ′. On procède de même si x > y en raisonnant sur [y,x], et le résultatest évident si x = y.

Soit f : I → K une fonction dérivable. On rappelle que I est un intervalle.

Pour que f soit constante sur I, il faut et il suffit que f ′ = 0.

Corollaire – Dérivation et fonctions constantes

Démonstration – Il est évident que pour que f soit constante, il faut et il suffit que les partiesréelle et imaginaire de f (qui sont à valeurs réelles) soient constantes. Or, ces deux fonctions sontdérivables sur I, et on a f ′ = Re(f)′ + iIm(f)′. Il suffit donc de prouver le résultat pour unefonction g : I → R dérivable. Or, pour une telle fonction, si g′ est nulle, alors d’après l’inégalitédes accroissements finis, pour tout (x,y) ∈ I2,

|g(x) − g(y)| 6 0 (x− y) = 0,

et donc g(x) = g(y). Ceci est vrai pour tout (x,y) ∈ I2, donc g est constante. La réciproque estévidente : une fonction constante a une dérivée nulle.

148

Soit f : I → R une fonction dérivable. Alors :

• f est croissante si et seulement si f ′ > 0 sur I.

• Si f ′ > 0 sur I et si les zéros de f ′ sont en nombre fini, ou forment une suite, alors fest strictement croissante sur I.

Théorème – Dérivation et monotonie

Démonstration

• Si f est croissante, alors pour tout a ∈ I et x ∈ I distinct de a,

f(x)− f(a)

x− a > 0.

Lorsque x→ a, on obtient f ′(a) > 0.

Réciproquement, si f ′ > 0, alors pour tout (x,y) ∈ I2 tel que x < y, d’après l’égalité desaccroissements finis, il existe c ∈ ]x,y[ tel que f(x)− f(y) = f ′(c)(x− y). On en déduit que x− yet f(x)− f(y) sont de même signe : f est croissante.

• On sait d’après le premier point que f est croissante. Si elle n’était pas strictement croissante,il existerait a et b dans I tels que a < b et f(a) = f(b). Alors f est nécessairement constantesur [a,b], et donc pour tout x ∈ [a,b], f ′(x) = 0. Ceci est impossible car les zéros de f ′ sont ennombre fini ou forment une suite.

Soit f : I → K une fonction continue sur I et dérivable sur I \ a, telle que f ′ admetune limite ℓ en a (éventuellement infinie lorsque K = R). Alors

f(x)− f(a)

x− a −→x→ax 6=a

ℓ.

En particulier, si ℓ ∈ K, alors f est dérivable en a et f ′(a) = ℓ.

Théorème – Limite de la dérivée

Démonstration

• Premier cas : ℓ ∈ K. D’après la caractérisation de la limite et de la dérivabilité à l’aide desparties réelle et imaginaire, on se ramène en fait à K = R. Définissons sur I la fonction

g : x 7→ f(x)− f(a)− ℓ(x− a).

La fonction g est continue sur I, dérivable sur I \ a avec, pour tout x ∈ I \ a,

g′(x) = f ′(x)− ℓ.

Par hypothèse, g′ a donc pour limite 0 en a. Fixons ε > 0 ; il existe η > 0 tel que pour toutt ∈ (I \ a) ∩ [a − η,a + η], |g′(t)| 6 ε. Soit x ∈ (I \ a) ∩ [a − η,a + η]. D’après l’égalité desaccroissements finis, il existe c strictement compris entre a et x, tel que g(x)−g(a) = g′(c)(x−a),et alors on a |g′(c)| 6 ε, d’où

|g(x)− g(a)| 6 ε(x− a),puis ∣

∣∣∣

f(x)− f(a)

x− a − ℓ∣∣∣∣=

∣∣∣∣

f(x)− f(a)− ℓ(x− a)x− a

∣∣∣∣=

∣∣∣∣

g(x)− g(a)x− a

∣∣∣∣6 ε.

On a donc montré quef(x)− f(a)

x− a −→x→ax 6=a

ℓ,

f est donc dérivable en a avec f ′(a) = ℓ.

149

• Deuxième cas : K = R et ℓ = ±∞. On adapte la démonstration précédente avec g = fet en traduisant les limites infinies (il est indispensable alors de raisonner avec l’égalité desaccroissements finis, afin de pouvoir minorer la valeur absolue du taux d’accroissement, et nonpas avec l’inégalité).

Remarques

• Ce théorème ne permet pas de prolonger par continuité la fonction f ′ sur I : une fois la fonctionf définie sur I, si a ∈ I, l’éventuelle dérivabilité de f en a est fixée. Si f est dérivable en a, cethéorème est l’un des moyens de le prouver, mais ce que l’on prouve est que f ′(a) est défini.

• Une fonction f peut être dérivable sur I sans que f ′ ait pour limite f ′(a) en tout point a ∈ I.Par exemple, la fonction

f :

]0,1] → R

x 7→ x2 sin

(1

x

)

prolongée par continuité en 0 avec f(0) = 0, est dérivable à droite en 0 car

f(x)− f(0)

x= x sin

(1

x

)

−→x→0+

0.

La fonction f est également dérivable sur ]0,1] (par produit et composition) et pour tout x ∈ ]0,1],

f ′(x) = 2x sin

(1

x

)

− cos

(1

x

)

.

Le premier terme tend vers 0, mais le second n’a pas de limite lorsque x→ 0+, donc f ′ n’a pasde limite en 0.

Il y a donc une différence importante entre la dérivabilité et la classe C1.

II. Dérivées d’une bijection réciproque

Dans cette partie, les fonctions sont à valeurs réelles. Rappelons, sans démonstration, lerésultat suivant de première année :

Soit f : I → R une fonction continue et strictement monotone sur I.

Alors f réalise une bijection de I sur l’intervalle f(I), et sa réciproque f−1 est continueet strictement monotone sur f(I), de même monotonie que f .

Théorème

Concernant la dérivabilité, on a le résultat suivant :

Soit f : I → R une fonction dérivable et strictement monotone sur I.

Soit a ∈ I tel que f ′(a) 6= 0.

Alors f−1 est dérivable en f(a) et

(f−1)′(f(a)) =1

f ′(a).

Théorème

Démonstration – Notons b = f(a). Pour y dans f(I) avec y 6= b, on a

f−1(y)− f−1(b)

y − b =f−1(y)− f−1(b)

f(f−1(y))− f(f−1(b)),

150

que l’on peut voir comme un quotient de la forme

x− af(x)− f(a)

avec x = f−1(y). Or, lorsque y → b, f−1(y) → f−1(b) = a par continuité de f−1 ; f étantdérivable en a avec f ′(a) 6= 0, on a

x− af(x)− f(a)

−→x→a

1

f ′(a)

et donc, par composition de limites,

f−1(y)− f−1(b)

y − b −→y→b

1

f ′(a).

On en déduit que f−1 est dérivable en b = f(a) avec

(f−1)′(f(a)) =1

f ′(a).

Soit f : I → R une fonction dérivable telle que f ′ soit de signe constant sur I (sansannulation).

Alors f réalise une bijection de I sur l’intervalle f(I), et f−1 est dérivable sur f(I)avec

(f−1)′ =1

f ′ f−1.

Corollaire

Démonstration – La fonction f est dérivable sur I et f ′ est de signe constant sur I, donc f eststrictement monotone sur I et le théorème précédent s’applique. On sait notamment que pourtout b ∈ f(I), en notant a = f−1(b), on a

(f−1)′(b) = (f−1)′(f(a)) =1

f ′(a)=

1

f ′(f−1(b)),

d’où la formule annoncée.

Enfin, on peut généraliser ces résultats à la classe Ck :

Soit f : I → R une fonction de classe Ck (k ∈ N∗) telle que f ′ ne s’annule pas.

Alors f−1 est de classe Ck sur f(I).

Théorème

Démonstration – Tout d’abord, f ′ est continue et ne s’annule pas sur l’intervalle I, donc f ′ estde signe constant sur I et le corollaire précédent s’applique. Pour la classe Ck, on raisonne parrécurrence : si f est de classe C1 sur I, f ′ est continue sur I, donc d’après la formule ci-dessus etpar composition, f−1 est de classe C1 sur f(I). Si f est de classe Ck+1 sur I, et si le résultat estvrai à l’ordre k, alors (f−1)′ est de classe Ck sur f(I) comme inverse d’une composée de fonctionsde classe Ck ne s’annulant pas. Donc f−1 est de classe Ck+1 sur f(I).

Exemple – La fonction tangente réalise une bijection strictement croissante de]

−π2,π

2

[

sur son

image R. Sa bijection réciproque est la fonction arctan : R →]

−π2,π

2

[

. On sait alors que pour

tout x ∈ R,

arctan′(x) =1

tan′(arctan(x))=

1

1 + tan2(arctan(x))=

1

1 + x2.

151

III. Intégration sur un segment des fonctions continues :quelques rappels

1. Primitives, intégrale fonction de ses bornes

Soient f : I → K une fonction continue et g : I → K une fonction.

On dit que g est une primitive de f sur I si g est de classe C1 sur I et g′ = f .

Définition

Soient g et h deux primitives d’une fonction f continue sur un intervalle I, à valeursdans K. Alors il existe k ∈ K tel que pour tout x ∈ I, g(x) = h(x) + k.

Propriété

Démonstration – La fonction g − h est de classe C1 sur I et vérifie (g − h)′ = 0, donc g − h estconstante sur l’intervalle I.

On sait donc qu’il existe au plus une primitive de f sur I prenant en un point donné unevaleur donnée. On se pose maintenant la question de l’existence. Soit f : I → K une fonctioncontinue et a ∈ I. On peut alors définir la fonction

Fa :

I → K

x 7→∫ x

af(t) dt

Soit f : I → K une fonction continue.

• Soit a ∈ I. La fonction Fa est de classe C1 sur I. C’est l’unique primitive de f sur Iqui s’annule en a.

• Soit a ∈ I et b ∈ K. Il existe une unique primitive de f sur I qui prend la valeur b ena. Il s’agit de la fonction x 7→ Fa(x) + b.

• Si g est une primitive de f sur I, alors pour tout segment [a,b] de I, on a

∫ b

af(t) dt = g(b) − g(a), noté [g(t)]ba .

Théorème

Démonstration

• Soit c ∈ I et ε > 0 fixé. Par continuité de f en c, il existe η > 0 tel que pour toutt ∈ I ∩ [c − η,c + η], |f(t) − f(c)| 6 ε. Soit x ∈ I ∩ [c − η,c + η]. Alors, pour tout t com-pris entre c et x, |f(t)− f(c)| 6 ε. On évalue alors

|Fa(x)− Fa(c)− (x− c)f(c)| =∣∣∣∣

∫ x

c[f(t)− f(c)] dt

∣∣∣∣6

∣∣∣∣

∫ x

c|f(t)− f(c)| dt

∣∣∣∣6 ε |x− c|.

Si de plus x 6= c, on a donc∣∣∣∣

Fa(x)− Fa(c)

x− c − f(c)

∣∣∣∣6 ε.

On en déduit que Fa est dérivable en c avec F ′a(c) = f(c), et ce pour tout c ∈ I. De plus, la

fonction f étant continue, Fa est de classe C1 : Fa est donc une primitive de f sur I. Elle s’annuleen a, et on a déjà prouvé qu’il y a unicité d’une telle fonction.

• C’est maintenant immédiat : cette fonction convient, et on sait qu’il y a unicité.

152

• Soit g une primitive de f sur I et [a,b] un segment de I. D’après le point précédent, g = Fa+g(a)et donc ∫ b

af(t) dt = Fa(b) = g(b)− g(a).

Si f : I → K est de classe C1, alors pour tout (a,b) ∈ I2,

∫ b

af ′(t) dt = f(b)− f(a).

Corollaire

Démonstration – La fonction f est une primitive de la fonction continue f ′. Le résultat vient doncdu troisième point du théorème précédent (y compris si b 6 a, car dans ce cas on se ramène aucas précédent quitte à considérer −f).

En application de ce résultat, on montre facilement l’inégalité des accroissements finis pourles fonctions à valeurs complexes :

Soit f : I → C une fonction de classe C1 sur I. On suppose qu’il existe une constanteM > 0 telle que pour tout t ∈ I,

|f ′(t)| 6 M.

Alors f est M -Lipschitzienne sur I : pour tout (x,y) ∈ I2,

|f(x)− f(y)| 6 M |x− y|.

Théorème – Inégalité des accroissements finis, cas complexe

Démonstration – Soient x et y dans I tels que x < y ; f est de classe C1 sur [x,y], donc on peutécrire, d’après le corollaire précédent,

|f(y)− f(x)| =∣∣∣∣

∫ y

xf ′(t) dt

∣∣∣∣.

Sachant que |f ′(t)| 6 M pour tout t ∈ [x,y], on a aussi∣∣∣∣

∫ y

xf ′(t) dt

∣∣∣∣6

∫ y

x|f ′(t)| dt 6 M (y − x).

On en déduit le résultat. On procède de même si x > y en raisonnant sur [y,x], et le résultat estévident si x = y.

Remarques

• Bien sûr, ce théorème s’applique aussi au cas réel : ses hypothèses sont plus fortes que l’inégalitédonnée dans le cas réel.

• En revanche, la démonstration du théorème dans le cas réel ne peut pas être adaptée au cascomplexe : elle repose sur l’égalité des accroissements finis, et donc sur le théorème de Rolle,dont le résultat est faux en général pour les fonctions à valeurs complexes. Cela explique leshypothèses plus fortes données dans le théorème ci-dessus.

2. Sommes de Riemann

Soit f : [a,b]→ K une fonction. On définit, pour tout entier n > 1,

Sn =b− an

n−1∑

k=0

f

(

a+ kb− an

)

.

Ces quantités sont appelées sommes de Riemann associées à f sur [a,b]. On a alors :

153

Soit f : [a,b]→ R une fonction continue. Alors

Sn −→n→+∞

∫ b

af(x) dx.

Théorème

Démonstration dans le cas où f est de classe C1

On notera, pour tout k ∈ N,

ak = a+ kb− an

;

ainsi (a0, . . . ,an) est la subdivision régulière de [a,b] à n+ 1 points (i.e., ak+1 − ak est constantégal à (b− a)/n).

La fonction f ′ est continue sur le segment [a,b], elle est donc bornée par une certaine constanteM > 0. D’après l’inégalité des accroissements finis, f est M -Lipschitzienne sur [a,b]. Alors pourtout n > 1, d’après la relation de Chasles notamment, on a

∣∣∣∣

∫ b

af(x) dx− Sn

∣∣∣∣=

∣∣∣∣∣

n−1∑

k=0

∫ ak+1

ak

f(x) dx− b− an

n−1∑

k=0

f(ak)

∣∣∣∣∣

=

∣∣∣∣∣

n−1∑

k=0

∫ ak+1

ak

(f(x)− f(ak)) dx

∣∣∣∣∣

6

n−1∑

k=0

∫ ak+1

ak

|f(x)− f(ak)| dx.

Or f est M -Lipschitzienne sur [a,b], donc pour tout k ∈ [[0,n − 1]], pour tout x ∈ [ak,ak+1],

|f(x)− f(ak)| 6 M |x− ak| = M (x− ak).

Ainsi∣∣∣∣

∫ b

af(x) dx− Sn

∣∣∣∣6 M

n−1∑

k=0

∫ ak+1

ak

(x− ak) dx

= M

n−1∑

k=0

[(x− ak)

2

2

]ak+1

ak

= M

n−1∑

k=0

(ak+1 − ak)2

2= M n

(b− a)22n2

= M(b− a)2

2n−→

n→+∞0.

Remarque – Les sommes de Riemann correspondent à un cas particulier de l’approximationnumérique de

∫ ba f(x) dx par la méthode des rectangles.

Exemple – Soit, pour tout n > 1, xn =n−1∑

k=0

1

n+ k. En réécrivant

xn =1

n

n−1∑

k=0

1

1 + kn

,

on voit que les xn sont les sommes de Riemann associées à la fonction f : x 7→ 1

1 + xsur [0,1].

La fonction f étant continue sur [0,1], on sait donc que

xn −→n→+∞

∫ 1

0

1

1 + xdx = ln(2).

154

IV. Intégrale sur un segment des fonctions continuespar morceaux

1. Définitions

Soit f : [a,b] → K une fonction. On dit que f est continue par morceaux s’il existeune subdivision (a0, . . . ,ap) (p > 1) de [a,b] telle que :

• a = a0 < a1 < · · · < ap = b.

• Pour tout i ∈ [[0,p − 1]], f| ]ai,ai+1[ est la restriction à ]ai,ai+1[ d’une fonctioncontinue sur [ai,ai+1].

Le (p+ 1)-uplet (a0, . . . ,ap) est appelé subdivision de [a,b] subordonnée (ou adaptée)à f. Il n’est pas unique.

Si f est définie sur un intervalle I, on dit que f est continue par morceaux si sarestriction à tout segment de I est une fonction continue par morceaux.

Définition – Fonction continue par morceaux

Remarque – Le réelmax

i∈[[0,p−1]](ai+1 − ai)

est appelé pas de cette subdivision. Il est strictement positif, c’est le plus grand écart entre deuxéléments consécutifs de la subdivision.

On dit que la subdivision est régulière si l’écart ak+1− ak, pour k ∈ [[0,p − 1]], est constant.

Voici un exemple de graphe d’une fonction continue par morceaux sur un segment [a,b] àvaleurs dans R. Les points épais permettent de repérer la valeur prise par la fonction aux pointsde discontinuité.

a = a0 a1 a2 a3 = b

•

••

•

Exemples

• La fonction f définie sur R+ par

f(x) =

e−x si x > 0

0 si x = 0

est continue par morceaux sur R+.

• La fonction g définie sur R+ par

g(x) =

1/x si x > 0

0 si x = 0

est continue sur R∗+ mais n’est pas continue par morceaux sur R+ : f n’a pas de limite finie à

droite en 0.

155

• La fonction h définie sur R+ par

h(x) =

x ⌊1/x⌋ si x > 0

1 si x = 0

n’est pas continue par morceaux sur R+ : elle a une infinité de points de discontinuité dans ]0,1].En revanche, elle est continue par morceaux sur R∗

+.

Remarques

• La deuxième condition de la définition équivaut à chacune des propriétés suivantes :

— Pour tout i ∈ [[0,p − 1]], f|]ai,ai+1[ est prolongeable par continuité sur le segment [ai,ai+1].

— Pour tout i ∈ [[0,p − 1]], f est continue sur ]ai,ai+1[, f possède une limite finie à droite enai, et une limite finie à gauche en ai+1.

• Une fonction continue par morceaux sur un segment est bornée.

• Les limites de f en ai ne sont pas nécessairement égales à f(ai) ; f peut être discontinue enchaque point ai.

• Avec les notations précédentes, si f est continue en un certain ai0 ∈ ]a,b[, alors on peut enleverai0 de la subdivision (a0, . . . ,ap) pour obtenir une subdivision de [a,b] encore adaptée à f . Enfaisant cela pour tous les points de la subdivision qui appartiennent à ]a,b[ et qui sont des pointsde continuité de f , on construit une subdivision de [a,b] adaptée à f dont les points sont a, b, etles points de discontinuité de f dans ]a,b[. Une telle subdivision est unique, elle est, en un certainsens, minimale.

L’ensemble des fonctions continues par morceaux sur I à valeurs dans K est un K-espacevectoriel.

Propriété

Démonstration – La fonction nulle est évidemment continue par morceaux. Si f est continue parmorceaux sur I, et si λ ∈ K, alors toute subdivision adaptée à f d’un segment de I est aussiadaptée à λf , qui est ainsi continue par morceaux sur I. Enfin, soient f et g deux fonctions conti-nues par morceaux sur I, et soit [a,b] un segment de I. On se donne une subdivision (a0, . . . ,ap)de [a,b] adaptée à f , une subdivision (b0, . . . ,bm) de [a,b] adaptée à g. On construit alors unesubdivision adaptée à la fois à f et g en plaçant les nombres a0, . . . ,ap, b0, . . . ,bm par ordre crois-sant, et en enlevant les répétitions. On en déduit que f + g est continue par morceaux sur [a,b],cette nouvelle subdivision de [a,b] étant adaptée à f+g. Ceci est valable pour tout segment de I,donc f + g est continue par morceaux sur I. Finalement, l’ensemble des fonctions continues parmorceaux sur I à valeurs dans K est un sous-espace vectoriel de l’espace vectoriel des fonctionsde I dans K.

On admettra que l’on peut adapter la construction de l’intégrale sur un segment, faite enpremière année pour les fonctions continues, au cadre des fonctions continues par morceaux. Sif : [a,b]→ K est une fonction continue par morceaux, son intégrale est toujours notée

∫ b

af(x) dx,

∫

[a,b]f ou

∫ b

af.

Si f est continue par morceaux sur I, elle est continue par morceaux sur tout segment de I, etdonc on peut définir son intégrale sur tout segment de I.

2. Propriétés de l’intégrale

Les propriétés de l’intégrale des fonctions continues sur un segment se généralisent aux fonc-tions continues par morceaux. Nous donnons ici, souvent sans démonstration, ces propriétés.

156

Soient f et g deux fonctions continues par morceaux sur [a,b] à valeurs dans K, etλ ∈ K.

Alors ∫ b

a(λf + g) = λ

∫ b

af +

∫ b

ag.

Propriété – Linéarité de l’intégration

Soit f : [a,b]→ K une fonction continue par morceaux et c ∈ [a,b].

Alors, les restrictions de f à [a,c] et [c,b] sont continues par morceaux et

∫ b

af =

∫ c

af +

∫ b

cf.

Propriété – Relation de Chasles

• Soit f : [a,b] → R+ une fonction continue par morceaux à valeurs réelles positives.

Alors∫ b

af > 0.

• Soient f et g deux fonctions continues par morceaux sur [a,b] à valeurs réelles, telles

que f 6 g sur [a,b]. Alors∫ b

af 6

∫ b

ag.

Propriété – Positivité et croissance de l’intégrale

Soit f : [a,b]→ K une fonction continue par morceaux.

Alors la fonction |f | : x 7→ |f(x)| est continue par morceaux et

∣∣∣∣

∫ b

af

∣∣∣∣6

∫ b

a|f |.

Propriété

Remarque – Soit f : [a,b]→ K une fonction continue par morceaux. Alors

∣∣∣∣

∫ b

af(x) dx

∣∣∣∣6

∫ b

a|f(x)| dx 6

∫ b

a‖f‖∞ dx = (b− a)‖f‖∞.

Le vecteur1

b− a

∫ b

af(x) dx est appelé valeur moyenne de f sur [a,b]. L’inégalité précédente,

qu’il faut absolument savoir redémontrer pour majorer des intégrales, est appelée inégalité de lamoyenne.

Soient f et g deux fonctions continues par morceaux sur [a,b] à valeurs dans K, qui

coïncident sauf en un nombre fini de points. Alors∫ b

af =

∫ b

ag.

Propriété

En particulier, l’intégrale d’une fonction continue par morceaux f n’est pas modifiée si l’onchange les valeurs de f en un nombre fini de points.

157

Soit f : [a,b]→ R+ une fonction continue à valeurs réelles positives.

Alors pour que f soit nulle, il faut et il suffit que∫ b

af(x) dx = 0.

Théorème

Démonstration – Bien sûr, si f est nulle, son intégrale est nulle. Réciproquement, raisonnons parcontraposée : si f n’est pas identiquement nulle, alors par continuité de f , il existe c ∈ ]a,b[ telque f(c) > 0, et il existe η > 0 tel que [c − η,c + η] ⊂ [a,b] et pour tout x ∈ [c − η,c + η],|f(x) − f(c)| 6 1

2f(c), et en particulier f(x) > 12f(c). Alors, d’après la relation de Chasles, la

positivité et la croissance de l’intégrale,∫ b

af =

∫ c−η

af +

∫ c+η

c−ηf +

∫ b

c+ηf >

∫ c+η

c−ηf > 2η

1

2f(c) = ηf(c) > 0,


Remarque – Si f est continue par morceaux sur [a,b], positive, on en déduit en raisonnant surchaque morceau que, pour que

∫ ba f soit nulle, il faut et il suffit que f soit nulle sauf éventuellement

en un nombre fini de points.

3. Le cas des fonctions continues par morceaux sur un intervalle

Lorsque f est continue par morceaux sur I, si (a, b) ∈ I2 avec a = b ou a > b, on donneégalement un sens à

∫ ba f(x) dx en posant respectivement

∫ a

af(x) dx = 0 et

∫ b

af(x) dx = −

∫ a

bf(x) dx.

La relation de Chasles reste valide, ainsi que la propriété de linéarité de l’intégrale. En revanche,dès que des inégalités entrent en jeu, il faut être vigilant sur l’ordre des bornes. Par exemple, lamajoration du module de l’intégrale prend la forme

∣∣∣∣

∫ b

af(x) dx

∣∣∣∣6

∣∣∣∣

∫ b

a|f(x)| dx

∣∣∣∣.

Pour toute constante k telle que |f(x)| 6 k pour tout x compris entre a et b, on a∣∣∣∣

∫ b

af(x) dx

∣∣∣∣6 k |b− a| .

V. Méthodes de calculs d’intégrales

1. Intégration par parties

Soient f et g deux fonctions de classe C1 sur I à valeurs dans K, et soit (a,b) ∈ I2.Alors ∫ b

af ′(t)g(t) dt = [f(t)g(t)]ba −

∫ b

af(t)g′(t) dt.

Théorème – Intégration par parties

Démonstration – La fonction fg est de classe C1 sur I donc

[f(t)g(t)]ba =

∫ b

a[fg]′(t) dt =

∫ b

a[f ′(t)g(t) + f(t)g′(t)] dt =

∫ b

af ′(t)g(t) dt +

∫ b

af(t)g′(t) dt,

par linéarité de l’intégrale.

158

2. Changement de variable

Soit f : I → K une fonction continue, et soit φ une fonction de classe C1 sur un segment[c,d] à valeurs dans I. Alors

∫ φ(d)

φ(c)f(x) dx =

∫ d

cf(φ(t))φ′(t) dt.

Théorème – Changement de variable (cas continu)

Remarques

• On dira souvent « on pose x = φ(t) ». On comprend alors bien la formule en écrivantdx = φ′(t) dt, même si le sens à donner à cette égalité n’est pas évident.

• En revanche, dire « on pose x = φ(t) » ne suffit pas, il y a des hypothèses à vérifier.

Démonstration du théorème – Soit F une primitive de f sur I (une telle primitive existe car f estcontinue sur I). La fonction F φ est une primitive sur [c,d] de la fonction continue (f φ)× φ′,donc

∫ d

cf(φ(t))φ′(t) dt = [F (φ(t))]dc = [F (x)]

φ(d)φ(c)

=

∫ φ(d)

φ(c)f(x) dx.

Assez souvent, on souhaite faire un changement de variable pour une fonction f continue parmorceaux. On peut donner un théorème de changement de variable dans ce cas :

Soit f : I → K une fonction continue par morceaux, et soit φ une fonction de classe C1

sur un segment [c,d] à valeurs dans I, strictement monotone. Alors

∫ φ(d)

φ(c)f(x) dx =

∫ d


Théorème – Changement de variable (cas continu par morceaux)

Démonstration – On traite le cas où φ est strictement croissante, l’autre cas étant similaire. Soit(b0, . . . , bp) (p > 1) une subdivision de [φ(c),φ(d)] adaptée à la restriction de f à [φ(c),φ(d)], etsoit (a0, . . . , ap) la subdivision de [c,d] telle que pour tout i ∈ [[0,p]], φ(ai) = bi (ai existe et estunique car φ est une bijection de [c,d] sur [φ(c),φ(d)], par continuité et stricte monotonie). Alorsd’après la relation de Chasles,

∫ φ(d)

φ(c)f(x) dx =

p−1∑

i=0

∫ bi+1

bi

f(x) dx =

p−1∑

i=0

∫ bi+1

bi

fi(x) dx,

où fi désigne le prolongement de f| ]bi,bi+1[ en une fonction continue sur [bi,bi+1]. La dernièreégalité vient du fait que, sur [bi,bi+1], les fonctions f et fi diffèrent seulement éventuellement enbi et bi+1. Alors, pour tout i ∈ [[0,p − 1]], d’après le théorème précédent (que l’on peut appliquercar fi est continue sur [bi,bi+1] pour tout i), on a

∫ bi+1

bi

fi(x) dx =

∫ φ(ai+1)

φ(ai)fi(x) dx =

∫ ai+1

ai

fi(φ(t))φ′(t) dt.

Finalement

∫ φ(d)

φ(c)f(x) dx =

p−1∑

i=0

∫ ai+1

ai

fi(φ(t))φ′(t) dt =

p−1∑

i=0

∫ ai+1

ai

f(φ(t))φ′(t) dt =

∫ d


159

Remarque – Dans la démonstration, on voit l’utilité de l’hypothèse de stricte monotonie de φ.Pour faire la simplification

∫ ai+1

ai

fi(φ(t))φ′(t) dt =

∫ ai+1

ai

f(φ(t))φ′(t) dt,

on utilise le fait que les fonctions fi φ et f φ coïncident sur [ai,ai+1], sauf peut-être auxpoints t de [ai,ai+1] tels que φ(t) est l’un des bj , car dans ce cas φ(t) est un point d’éventuellediscontinuité de f . Or, les seuls points vérifiant cette condition sont ai et ai+1, d’après notrehypothèse sur φ. Sans cette hypothèse, la fonction f φ pourrait même ne pas être continue parmorceaux.

VI. Formules de Taylor

Soit f : I → K une fonction de classe Cn+1 (n ∈ N). Alors pour tout (a,x) ∈ I2,

f(x) =

n∑

k=0

f (k)(a)

k!(x− a)k +

∫ x

a

(x− t)nn!

f (n+1)(t) dt.

Théorème – Formule de Taylor avec reste intégral

Démonstration – On procède par récurrence sur n. Pour n = 0, le résultat à montrer s’écrit

f(x) = f(a) +

∫ x

af ′(t) dt,

ce qui est vrai d’après un théorème donné plus haut, f étant de classe C1.

Supposons le résultat vrai pour les fonctions de classe Cn+1, et soit f : I → K une fonctionde classe Cn+2. On raisonne dans le cas où a < x, les autres cas étant similaires. L’hypothèse derécurrence pour la fonction f s’écrit

f(x) =

n∑

k=0

f (k)(a)

k!(x− a)k +

∫ x

a

(x− t)nn!

f (n+1)(t) dt.

Or t 7→ −(x− t)n+1

(n+ 1)!et f (n+1) sont de classe C1 sur [a,x], donc par intégration par parties,

∫ x

a

(x− t)nn!

f (n+1)(t) dt =

[

−(x− t)n+1

(n+ 1)!f (n+1)(t)

]x

a

+

∫ x

a

(x− t)n+1

(n+ 1)!f (n+2)(t) dt

=(x− a)n+1

(n+ 1)!f (n+1)(a) +

∫ x

a

(x− t)n+1

(n + 1)!f (n+2)(t) dt,

d’où le résultat au rang n+ 1. Par principe de récurrence, la formule est vraie pour tout n ∈ N.

Remarque – Pour exploiter cette formule, il est souvent utile de savoir majorer le reste intégral.Sous les hypothèses précédentes, on a pour tout (a,x) ∈ I2,

f(x) =n∑

k=0

f (k)(a)

k!(x− a)k +

∫ x

a

(x− t)nn!

f (n+1)(t) dt.

Or, f étant de classe Cn+1, f (n+1) est continue sur le segment [a,x] (ou [x,a]), elle est donc bornéesur ce segment (car ses parties réelle et imaginaire le sont), par une certaine constante M . On

160

en déduit que∣∣∣∣∣f(x)−

n∑

k=0

f (k)(a)

k!(x− a)k

∣∣∣∣∣6

∣∣∣∣

∫ x

a

|x− t|nn!

|f (n+1)(t)| dt∣∣∣∣

6 M

∣∣∣∣

∫ x

a

|x− t|nn!

dt

∣∣∣∣

6 M|x− a|n+1

(n + 1)!.

L’avantage de la formule de Taylor avec reste intégral est d’être explicite et globale : elle donneune information pour tout x de I. Lorsque x est proche de a, on peut donner une estimation def(x) sous forme de développement limité. Commençons par rappeler le résultat suivant :

Soit f : I → K une fonction continue. On suppose que f possède un développementlimité à l’ordre n en a ∈ I, c’est-à-dire que l’on peut écrire

f(x) =x→a

n∑

k=0

αk(x− a)k + o((x− a)n)

avec αk ∈ K pour tout k ∈ [[0,n]].

Alors toute primitive g de f sur I possède un développement limité à l’ordre n+ 1 ena, avec

g(x) =x→a

g(a) +n∑

k=0

αk

k + 1(x− a)k+1 + o((x− a)n+1).

Théorème – Primitivation d’un développement limité

Démonstration – Il suffit de prouver cette formule pour la fonction Fa : x 7→∫ xa f(t) dt vérifiant

Fa(a) = 0, toutes les autres primitives de f s’en déduisant par ajout de la valeur en a. Fixonsε > 0. Par définition d’un petit « o », il existe η > 0 tel que pour tout x ∈ I ∩ [a− η,a+ η],

∣∣∣∣∣f(x)−

n∑

k=0

αk(x− a)k∣∣∣∣∣6 ε|x− a|n.

Alors pour un tel x,∣∣∣∣∣

∫ x

af(t) dt −

n∑

k=0

αk

k + 1(x− a)k+1

∣∣∣∣∣6

∣∣∣∣∣

∫ x

a

∣∣∣∣∣f(t)−

n∑

k=0

αk(t− a)k∣∣∣∣∣dt

∣∣∣∣∣

6 ε

∣∣∣∣

∫ x

a|t− a|n dt

∣∣∣∣

6 ε|x− a|n+1

n+ 1.

On a donc montré que∫ x

af(t) dt −

n∑

k=0

αk

k + 1(x− a)k+1 =

x→ao((x− a)n+1),

qui est le résultat voulu.

Remarque – Ce résultat est très utile pour obtenir des développements limités. Par exemple, onobtient par cette méthode un développement à tout ordre en 0 de la fonction tangente, basé surla formule tan′ = 1 + tan2 ; on obtient des développements de x 7→ ln(1 + x) en 0 à tout ordreen intégrant ceux de la fonction x 7→ 1

1+x , très faciles à obtenir à partir de la série géométriquede raison −x.

161

Soit f : I → K une fonction de classe Cn (n ∈ N). Alors pour tout a ∈ I,

f(x) =x→a

n∑

k=0

f (k)(a)

k!(x− a)k + o((x− a)n).

Théorème – Formule de Taylor-Young

Démonstration – On procède par récurrence sur n. Pour n = 0 on reconnaît la définition de lacontinuité de f en a. Supposons le résultat vrai pour toute fonction de classe Cn. Soit f unefonction de classe Cn+1 sur I ; on peut appliquer l’hypothèse de récurrence à f ′, ce qui montreque pour tout a ∈ I,

f ′(x) =x→a

n∑

k=0

(f ′)(k)(a)

k!(x− a)k + o((x− a)n) =

x→a

n∑

k=0

f (k+1)(a)

k!(x− a)k + o((x− a)n).

D’après le théorème d’intégration des développements limités (f ′ étant continue), on obtient

f(x) =x→a

f(a) +n∑

k=0

f (k+1)(a)

(k + 1)!(x− a)k+1 + o((x− a)n+1)

=x→a

n+1∑

k=0

f (k)(a)

k!(x− a)k + o((x− a)n+1),

d’où le résultat à l’ordre n+ 1, ce qui achève la démonstration.

Pour terminer, donnons les développements limités de référence : pour tout n ∈ N (ou n ∈ N∗

si la somme commence à k = 1),

• 1

1− x =x→0

n∑

k=0

xk + o(xn) = 1 + x+ x2 + · · · + xn + o(xn),

• ex =x→0

n∑

k=0

xk

k!+ o(xn) = 1 + x+

x2

2!+ · · ·+ xn

n!+ o(xn),

• cos(x) =x→0

n∑

k=0

(−1)kx2k

(2k)!+ o(x2n) = 1− x2

2!+ · · ·+ (−1)n

x2n

(2n)!+ o(x2n),

• sin(x) =x→0

n∑

k=0

(−1)kx2k+1

(2k + 1)!+ o(x2n+1) = x− x3

3!+ · · ·+ (−1)n

x2n+1

(2n+ 1)!+ o(x2n+1),

• (1 + x)α =x→0

1 +n∑

k=1

α(α − 1) · · · (α− k + 1)

k!xk + o(xn)

= 1 + αx+α(α− 1)

2!x2 + · · · + α(α− 1) · · · (α− n+ 1)

n!xn + o(xn) (α ∈ R),

• ln(1 + x) =x→0

n∑

k=1

(−1)k−1xk

k+ o(xn) = x− x2

2+x3

3+ · · ·+ (−1)n−1x

n

n+ o(xn),

• arctan(x) =x→0

n∑

k=0

(−1)kx2k+1

2k + 1+ o(xn) = x− x3

3+ · · ·+ (−1)n

x2n+1

2n+ 1+ o(x2n+1),

• tan(x) =x→0

x+x3

3+ o(x3).

162

Chapitre 8

Réduction des endomorphismes et desmatrices carrées

De nombreux problèmes se ramènent à l’étude d’une matrice ou d’un endomorphisme, commecertaines équations différentielles linéaires ou suites récurrentes linéaires. On est alors amené àfaire notamment des calculs de puissances, d’inverse... Dans ce cas, le choix d’une base danslaquelle travailler influence grandement la simplicité des calculs, et donc de l’étude du problème.

Un des objectifs de ce chapitre est de ramener l’étude des matrices à celle de matrices sem-blables dont la manipulation est plus simple. En particulier, il est très pratique de travailler avecdes matrices diagonales, ou avec des matrices triangulaires supérieures. En effet, par exemple,si A = PDP−1 avec P inversible et D diagonale, on montre très facilement par récurrence quepour tout k ∈ N, Ak = PDkP−1, le calcul de Dk étant immédiat : il suffit d’élever chaquecoefficient diagonal de D à la puissance k. De plus, A est inversible si et seulement si D estinversible, c’est-à-dire, si et seulement si aucun coefficient diagonal de D n’est nul. Dans ce cas,A−1 = PD−1P−1, le calcul de D−1 se faisant en inversant chaque coefficient diagonal de D.

En termes d’endomorphismes, l’objectif est (en dimension finie) de construire des bases adap-tées dans lesquelles écrire la matrice de l’endomorphisme considéré.

Sauf mention contraire, dans tout ce chapitre E désigne un K-espace vectoriel (non réduit auvecteur nul) avec K = R ou C, et u un endomorphisme de E.

I. Éléments propres d’un endomorphisme et d’une matrice carrée

Comme on l’a déjà remarqué dans le chapitre Matrices, en dimension finie, « simplifier »l’écriture matricielle de u, c’est par exemple chercher une décomposition de E en somme directede sous-espaces stables par u. Si cela est possible, la matrice obtenue est diagonale par blocs,elle est d’autant plus « simple » que la dimension de ces sous-espaces est petite (mais non nulle,évidemment). On s’intéresse donc naturellement aux droites stables par u (ce qui est possiblemême en dimension infinie, nous ne supposons donc pas ici que E soit de dimension finie).

Soient D une droite vectorielle de E et x ∈ D non nul. Les propriétés suivantes sontéquivalentes :

• La droite D est stable par u.

• Il existe λ ∈ K tel que u(x) = λx.

Propriété

Démonstration

⇒ D est stable par u, donc u(x) ∈ D. Or D = Vect(x), donc il existe λ ∈ K tel que u(x) = λx.

⇐ On a u(D) = Vect(u(x)), donc s’il existe λ ∈ K tel que u(x) = λx, alors u(D) = Vect(λx).Or, quel que soit λ, Vect(λx) ⊂ Vect(x) = D. Donc D est stable par u.

163

1. Éléments propres d’un endomorphisme

• Un scalaire λ ∈ K est appelé valeur propre de u s’il existe x ∈ E non nul tel queu(x) = λx.

• Un vecteur x ∈ E est appelé vecteur propre de u si x est non nul et s’il existeλ ∈ K tel que u(x) = λx.

Définition – Valeur propre, vecteur propre

Remarques

• Dans cette définition, la condition x 6= 0E est essentielle, sinon tout scalaire serait valeur proprede u. En effet pour tout λ ∈ K, on a u(0E) = 0E = λ · 0E .

• Un vecteur propre x vérifie la relation u(x) = λx pour une unique valeur propre λ. En effet, siu(x) = λx = λ′x, alors x étant non nul, on a nécessairement λ = λ′. On peut donc dire que λest la valeur propre associée au vecteur propre x de u.

• En revanche, si λ est valeur propre de u, et si x non nul vérifie u(x) = λx, alors par exemple,pour tout α ∈ K∗, le vecteur y = αx est non nul et vérifie

u(y) = u(αx) = αu(x) = α(λx) = λ(αx) = λy.

Un vecteur x 6= 0E tel que u(x) = λx est un vecteur propre associé à la valeur propre λ de u. Ily a une infinité de vecteurs propres associés à une même valeur propre.

• Pour faire le lien avec la propriété précédente, on remarquera qu’un vecteur x est vecteur proprede u si et seulement si Vect(x) est une droite vectorielle stable par u.

Exemples

• Une rotation vectorielle de R2 d’angle θ 6= 0 [π] n’a pas de valeur propre.

• Soit u : P 7→ P ′, défini sur E = R[X]. Soit P un vecteur propre de u et λ la valeur propreassociée. Alors P ′(X) = λP (X). En considérant les degrés de ces deux polynômes, on a néces-sairement λ = 0, et P est un polynôme constant non nul. La réciproque est immédiate. On endéduit que l’unique valeur propre de u est 0, et l’ensemble des vecteurs propres de u associés àcette valeur propre est R0[X] \ 0.

Remarquons que, pour λ ∈ K et x ∈ E, l’égalité u(x) = λx équivaut à (u− λ IdE)(x) = 0E ,i.e., au fait que x ∈ Ker(u− λ IdE). On en déduit immédiatement le résultat suivant :

Soit λ ∈ K. Alors λ est une valeur propre de u si et seulement si Ker(u−λ IdE) 6= 0E,c’est-à-dire, si et seulement si u− λ IdE n’est pas injectif.

Propriété

Si λ est une valeur propre de u, l’ensemble Eλ(u) = Ker(u − λ IdE) est appelé sous-espace propre de u associé à la valeur propre λ.

Définition – Sous-espace propre

Soit λ une valeur propre de u. Alors :

• Eλ(u) est un sous-espace vectoriel de E, non réduit à 0E.• Les vecteurs propres de u associés à la valeur propre λ sont les éléments non nuls deEλ(u).

Propriété

164

Démonstration – L’ensemble Eλ(u) est le noyau de l’application linéaire u− λ IdE, c’est donc unsous-espace vectoriel de E. Le reste des propriétés résulte directement des définitions.

Cas particulier – Le scalaire 0 est une valeur propre de u si et seulement si u n’est pas injectif.Les vecteurs propres de u associés à la valeur propre 0 sont alors les éléments de Ker(u) \ 0E.Exemple – Homothéties, projecteurs et symétries

• Une homothétie u de E de rapport α ∈ K a pour unique valeur propre α, et tout vecteur nonnul de E est vecteur propre de u associé à la valeur propre α.

• Soit E = F ⊕ G une décomposition de E en somme de deux sous-espaces avec F 6= 0E etG 6= 0E, et soit p la projection sur F parallèlement à G. Alors les valeurs propres de p sont 1et 0. On a de plus E1(p) = F , E0(p) = G.

• Avec les même notations, soit s la symétrie par rapport à F parallèlement à G. Alors les valeurspropres de s sont 1 et −1. On a de plus E1(p) = F , E−1(p) = G.

Faisons la démonstration dans le cas d’un projecteur, les autres cas sont laissés en exercice.Déterminons les éléments propres de p : soit x un vecteur propre de p et λ la valeur propre associée.Écrivons x = y + z où y ∈ F et z ∈ G. On a p(x) = λx, donc y = λx = λ(y + z) = λy + λz. Lasomme F +G étant directe, on en déduit que (1− λ)y = 0E et λz = 0E . Or x est non nul, doncy ou z est non nul. Dans le premier cas, on a nécessairement λ = 1, z = 0E et donc x = y ∈ F ;dans le second, on a λ = 0, y = 0E et donc x = z ∈ G. La réciproque est immédiate.

Remarque – Soit λ une valeur propre de u, et x un vecteur propre associé à la valeur propre λ.Alors, pour tout entier k > 1, x est vecteur propre de uk associé à la valeur propre λk.

Pour démontrer ce résultat, on procède par récurrence sur k. Pour k = 1, le résultat est vraipar hypothèse. Si le résultat est vrai pour un certain entier k, alors

uk(x) = λkx.

En appliquant u, on obtient

uk+1(x) = u(λkx) = λku(x) = λk λx = λk+1x.

Comme x 6= 0E , le résultat est donc vrai au rang k+1 et finalement pour tout k > 1 par principede récurrence.

2. Stabilité et somme de sous-espaces propres

• Tout sous-espace propre de u est stable par u. Si λ est valeur propre de u, l’endo-morphisme de Eλ(u) induit par u est l’homothétie de rapport λ.

• Soient u et v deux endomorphismes de E qui commutent (i.e. u v = v u).Alors tout sous-espace propre de u est stable par v.

Propriété

Démonstration – Le premier point est immédiat car pour tout x ∈ Eλ(u), u(x) = λx par défini-tion. Le second point vient d’une propriété du chapitre Espaces vectoriels et applicationslinéaires : pour toute valeur propre λ de u, u−λ IdE et v commutent de même que u et v, doncEλ(u) = Ker(u− λ IdE) est stable par v.

D’après le premier point, les sous-espaces Eλ(u) sont donc de bons candidats à former unedécomposition de E pour laquelle l’expression de u soit particulièrement simple. De plus, on ala propriété suivante :

La somme d’une famille finie de sous-espaces propres associés à des valeurs propres deu deux à deux distinctes est directe.

Propriété

165

Démonstration – Soient Eλ1 , . . . ,Eλpdes sous-espaces propres de u associés aux valeurs propres

deux à deux distinctes λ1, . . . ,λp. Soit (x1, . . . ,xp) ∈ Eλ1 × · · · ×Eλptel que x1 + · · ·+ xp = 0E .

En appliquant uk pour k ∈ N, on obtient, d’après la remarque ci-dessus,

λk1x1 + · · ·+ λk

pxp = 0E .

On en déduit que pour tout P ∈ K[X],

P (λ1)x1 + · · ·+ P (λp)xp = 0E .

Soit i ∈ [[1,p]] fixé et

P (X) =∏

j 6=i

(X − λj);

alors P (λi) 6= 0 et P (λk) = 0 pour tout k 6= i, donc xi = 0E , ce qui prouve le résultat.

Remarque – On en déduit que toute famille finie de vecteurs propres de u associés à des valeurspropres deux à deux distinctes est libre. C’est une conséquence de la propriété précédente et d’unrésultat du chapitre Espaces vectoriels et applications linéaires, des vecteurs propres étantnon nuls par définition.

Par exemple, soient a1, . . . , an des scalaires deux à deux distincts et pour tout k ∈ [[1,n]], soitfk : x 7→ eakx.La famille (f1, . . . , fn) de fonctions de R dans C est libre. En effet, soient E = C∞(R,C) etu : f 7→ f ′ (ainsi u ∈ L (E)). Pour tout k ∈ [[1,n]], fk est vecteur propre de u associé à la valeurpropre ak. Les nombres a1, . . . , an sont deux à deux distincts, donc (f1, . . . , fn) est libre dans E,et finalement aussi dans l’espace vectoriel des fonctions de R dans C.

3. Éléments propres d’une matrice

Dans ce paragraphe, A désigne une matrice de Mn(K). Toutes les définitions des élémentspropres se traduisent en termes de matrices.

Les éléments propres de la matrice A sont les éléments propres de l’endomorphisme

uA :

Mn,1(K) → Mn,1(K)

X 7→ AX

canoniquement associé à A. En d’autres termes :

• Un scalaire λ ∈ K est appelé valeur propre de A s’il existe X ∈Mn,1(K) non nultel que AX = λX.

• Un vecteur X ∈ Mn,1(K) est appelé vecteur propre de A si X est non nul et s’ilexiste λ ∈ K tel que AX = λX.

• Si λ est valeur propre de A, le sous-espace propre de A associé à la valeur propreλ est

Eλ(A) = Ker(A− λIn).

Définition

Remarque – Soit u ∈ L (E). Soit B une base de E, et A la matrice de u dans cette base. Pour xvecteur quelconque de E, on note X la matrice colonne de ses coordonnées dans la base B. Ona alors :

• Pour tout λ ∈ K, (u(x) = λx)⇔ (AX = λX).

• En particulier, u et A ont les mêmes valeurs propres et pour toute valeur propre λ de u et A,x est un vecteur propre de u si et seulement si X est un vecteur propre de A.

• Deux matrices semblables ont les mêmes valeurs propres, car elles représentent le même endo-morphisme dans des bases différentes.

166

Remarque – Bien sûr, toute matrice A ∈ Mn(R) peut être vue comme élément de Mn(C). Larelation AX = λX, pour X ∈ Mn,1(R) et λ ∈ R, est également valable dans C. On en déduitque l’ensemble des valeurs propres de A vue comme matrice réelle est inclus dans l’ensemble desvaleurs propres de A vue comme matrice complexe.

II. Recherche des éléments propres, polynôme caractéristique

Dans toute la suite, E est supposé de dimension finie n.

1. Polynôme caractéristique

Pour l’instant, nous n’avons aucun moyen pratique autre que la définition pour déterminerl’ensemble des valeurs propres d’un endomorphisme u ou d’une matrice carrée A.

La caractérisation des isomorphismes en dimension finie donne immédiatement la propriétésuivante :

Soit λ ∈ K. Les propriétés suivantes sont équivalentes :

• Le scalaire λ est valeur propre de u.

• L’endomorphisme u− λ IdE n’est pas inversible.

• det(u− λ IdE) = 0.

On a les équivalences analogues pour une matrice carrée.

Propriété

Ainsi λ ∈ K est valeur propre de u si et seulement si λ est un zéro de la fonction

s 7→ det(u− s IdE).

Fixons une base B de E et soit A = (ai,j)16i,j6n = MatB(u). Alors pour tout s ∈ K, u− s IdE apour matrice A− sIn dans cette base, donc

det(u− s IdE) = det(A− sIn) =

∣∣∣∣∣∣∣

a1,1 − s . . . a1,n

.... . .

...an,1 . . . an,n − s

∣∣∣∣∣∣∣

.

En imaginant le développement de ce déterminant (obtenu par linéarité du déterminant parrapport à chaque colonne de sa variable, ou par développements successifs par rapport à lapremière colonne), on voit que la fonction s 7→ det(u− s IdE) est polynomiale.

• Le polynôme χu(X) = (−1)n det(u−X IdE) = det(X IdE −u) est appelé polynômecaractéristique de u.

• L’ensemble des valeurs propres de u est égal à l’ensemble des racines dans K de χu.Il est appelé spectre de u, et noté Sp(u).

• Si A ∈Mn(K), on définit le polynôme caractéristique

χA(X) = (−1)n det(A−XIn) = det(XIn −A)

de A, et son spectre Sp(A), comme étant ceux de l’endomorphisme canoniquementassocié à A.


167

Exemple – Soit A =

2 5 0−2 −1 1−2 2 3

. Alors

χA(X) =

∣∣∣∣∣∣

X − 2 −5 02 X + 1 −12 −2 X − 3

∣∣∣∣∣∣

= (X − 2)(X + 1)(X − 3) + 10− 2(X − 2) + 10(X − 3)

= (X − 2)(X2 − 2X + 5)

= (X − 2)(X − 1− 2i)(X − 1 + 2i).

La matrice réelle A a donc une seule valeur propre, 2, mais la matrice complexe A a trois valeurspropres, 2, 1 + 2i et 1− 2i.

Remarques

• Comme on l’a expliqué plus haut, si u a pour matrice A dans une certaine base, alors pourtout s ∈ K, det(s IdE −u) = det(sIn−A), et donc det(X IdE −u) = det(XIn−A) (égalité entrepolynômes) : u et A ont le même polynôme caractéristique.

• Deux matrices semblables ont le même polynôme caractéristique car elles représentent le mêmeendomorphisme dans des bases différentes. On peut aussi le montrer ainsi : si deux matrices Aet B de Mn(K) sont semblables, il existe P ∈ Gℓn(K) telle que A = PBP−1. Alors

χA(X) = det(XIn−A) = det(XIn−PBP−1) = det(P (XIn−B)P−1) = det(XIn−B) = χB(X).

D’après ce qui précède, la recherche des valeurs propres d’un endomorphisme ou d’une ma-trice se ramène à la recherche des racines dans K d’un certain polynôme (dépendant de cetendomorphisme ou matrice). Explicitons en partie ce polynôme :

χu a pour terme de plus haut degré Xn, et pour coefficient constant (−1)n det(u).

Propriété

Démonstration – Notons (E1, . . . ,En) la base canonique de Mn,1(K). Si M = (mi,j)16i,j6n, parlinéarité du déterminant par rapport à chaque colonne de sa variable, det(M) est la somme detous les termes de la forme

mi1,1 . . . min,n det(Ei1 · · · Ein

)

où (i1, . . . ,in) ∈ [[1,n]]n. Si A = (ai,j) est la matrice de u dans une base fixée et M celle deX IdE −u, on a, pour tout (i,j) ∈ [[1,n]]2, mi,j = −ai,j si i 6= j et mi,i = X − ai,i. Le terme deplus haut degré de χu provient donc uniquement du produit

(X − a1,1) · · · (X − an,n),

il est égal à Xn.

De plus, le coefficient constant de χu est égal à χu(0) = (−1)n det(u) par définition de χu.

Remarques

• On a bien sûr un résultat analogue sur les matrices.

• Le polynôme caractéristique de u ∈ L (E) (ou A ∈Mn(K)) est défini comme det(X IdE −u)(ou det(XIn−A)) pour qu’il soit unitaire. Cela dit, dans les calculs, afin de ne pas avoir à changerles signes de tous les coefficients de A, on pourra calculer det(u−X IdE) (ou det(A−XIn)) puismultiplier le résultat obtenu par (−1)n, c’est-à-dire, changer le signe lorsque n est impair.

Exemple – Si A =

(a bc d

)

est une matrice de M2(K), alors

χA(X) =

∣∣∣∣

X − a −b−c X − d

∣∣∣∣= (X−a)(X−d)−bc = X2−(a+d)X+ad−bc = X2−Tr(A)X+det(A).

168

Le fait que la trace de A apparaisse n’est pas un hasard, on retrouvera ce phénomène plus tarddans le chapitre.

• L’endomorphisme u admet au plus n valeurs propres.

• Si K = C, u admet au moins une valeur propre.

Corollaire

Démonstration

• Les valeurs propres de u sont les racines de χu. Or, le polynôme χu est de degré n (et enparticulier non nul), il a donc au plus n racines.

• Le polynôme χu possède au moins une racine dans C, d’après le théorème de d’Alembert-Gauss.

Remarque – Si K = R et n est impair, u possède au moins une valeur propre. En effet, dans ce cas,n = deg(χu) est impair ; χu étant de plus unitaire, on a lim

x→−∞χu(x) = −∞ et lim

x→+∞χu(x) = +∞.

Enfin χu définit une fonction continue. Le théorème des valeurs intermédiaires montre que χu

possède au moins une racine réelle, et donc u possède au moins une valeur propre.

Soit λ une valeur propre de u. L’ordre de multiplicité de λ en tant que racine de χu

est appelé multiplicité de la valeur propre λ (notée m(λ) dans ce cours, mais cettenotation n’est pas universelle).

On dit que λ est une valeur propre simple si m(λ) = 1, double si m(λ) = 2, etc...

On a une définition analogue pour les matrices carrées.

Définition

Exemple – La matrice In a une seule valeur propre, 1, de multiplicité n. La matrice

A =

1 2 00 1 00 0 3

a deux valeurs propres : 1 est valeur propre double de A et 3 en est valeur propre simple.

On suppose que χu est scindé sur K, c’est-à-dire que u possède n valeurs propres dansK, notées λ1, . . . , λn, non nécessairement distinctes.

Alors

det(u) =n∏

i=1

λi =∏

λ∈Sp(u)

λm(λ).

On a un résultat analogue pour une matrice carrée.

Propriété

Démonstration – On peut écrire

χu(X) =

n∏

i=1

(X − λi).

Ainsi, le coefficient constant de χu est (−1)n∏n

i=1 λi. Or, on sait qu’il vaut aussi (−1)n det(u).

Attention ! Dans la notation (ensembliste) Sp(u), chaque valeur propre apparaît une seule fois,ce qui explique les deux formulations de l’égalité de la propriété précédente.

169

Remarque – Tout polynôme de C[X] est scindé dans C (d’après le théorème de d’Alembert-Gauss) ; cette formule est donc toujours vraie si K = C. Elle peut être fausse dans R comme lemontre l’exemple de la matrice réelle

A =

(0 −11 0

)

dont le polynôme caractéristique est X2+1, qui n’est pas scindé dans R : le spectre de A est doncvide. En revanche, si l’on passe dans C, A possède deux valeurs propres, i et −i, et la formuleest alors vérifiée.

Remarque – Déterminer les éléments propres de u ∈ L (E) (en dimension finie) ou de A ∈Mn(K)se fait donc généralement en deux étapes (formulées ici avec A) :

• On détermine les valeurs propres de A, ce qui correspond à la résolution d’une équation poly-nomiale, l’équation χA(λ) = 0.

• On recherche ses vecteurs propres en déterminant, pour λ ∈ Sp(A), le noyau de A − λIn,ce qui revient à résoudre l’équation linéaire (A − λIn)X = 0, par exemple par l’algorithme deGauss-Jordan.On sait notamment que dim(Eλ(A)) = n − rg(A − λIn) est le nombre de paramètres de cesystème.

2. Sous-espaces stables et polynôme caractéristique

Soit u ∈ L (E). Soit F un sous-espace vectoriel de E stable par u, avec F 6= 0E.Alors χu|F

, le polynôme caractéristique de u|F , divise χu, le polynôme caractéristiquede u.

Propriété

Démonstration – Soient r = dim(F ) et B = (e1, . . . , en) une base de E adaptée à F (c’est-à-dire,C = (e1, . . . , er) est une base de F ). La matrice de u dans la base B est de la forme

M =

(A B0 C

)

avec A = MatC(u|F ) et C deux matrices carrées. Alors, d’après l’expression du déterminant d’unematrice triangulaire par blocs,

χu(X) = χM (X) =

∣∣∣∣

XIr −A −B0 XIn−r − C

∣∣∣∣= det(XIr −A) det(XIn−r − C) = χA(X)χC(X),


Pour tout λ ∈ Sp(f), on a1 6 dim(Eλ(u)) 6 m(λ).

Propriété

Démonstration – Soit r la dimension de Eλ(u). Un sous-espace propre est par définition non réduitau vecteur nul, donc 1 6 r. De plus, Eλ(u) est stable par u et l’endomorphisme de Eλ(u) induitpar u est l’homothétie de rapport λ. Sa matrice dans une base quelconque est λIr, d’où

χu|Eλ(u)(X) = (X − λ)r.

Or, d’après la propriété précédente, χu|Eλ(u)divise χu, donc r 6 m(λ).

170

Soit λ une valeur propre simple de u.

Alors dim(Eλ(u)) = 1.

Ainsi, l’espace propre associé à une valeur propre simple est une droite vectorielle.

Propriété

Attention ! Il n’y a pas de propriété analogue pour une valeur propre λ de multiplicité m(λ) > 2 :la dimension de Eλ(u) peut être a priori n’importe quel entier compris entre 1 et m(λ).

Par exemple, le sous-espace propre associé à une valeur propre double (i.e. de multiplicité 2)peut être une droite ou un plan.

III. Diagonalisabilité

1. Définition et premier critère

Soit u ∈ L (E). On dit que u est diagonalisable s’il existe une base de E dans laquellela matrice de u est diagonale.

Définition – Endomorphisme diagonalisable

Cette définition s’interprète bien sûr en termes de vecteurs propres :

Soit u ∈ L (E). Les propriétés suivantes sont équivalentes :

• u est diagonalisable.

• Il existe une base de E formée de vecteurs propres pour u.

Dans ce cas, si D est une matrice diagonale représentant u dans une base de E, lescoefficients diagonaux de D sont exactement les valeurs propres de u (apparaissant avecleur multiplicité).

Propriété

Démonstration – On remarque que, si B = (e1, . . . ,en) est une base de E, alors MatB(u) estdiagonale si et seulement si pour tout i ∈ [[1,n]], ei est un vecteur propre de u associé au coefficientdiagonal de la colonne i de MatB(u), ce qui prouve l’équivalence souhaitée.

Si u est diagonalisable, et si D est une matrice diagonale représentant u dans une base de E,notons d1, . . . ,dn les coefficients diagonaux de D. Alors

χu(X) = det(X IdE −u) = det(XIn −D) =

n∏

i=1

(X − di).

Les coefficients di sont donc exactement les valeurs propres de u.

Donnons deux premiers critères de diagonalisabilité.

Soit u ∈ L (E). Pour que u soit diagonalisable, il faut et il suffit que la dimension deE soit égale à la somme des dimensions des sous-espaces propres de u, c’est-à-dire, que

dim(E) =∑

λ∈Sp(u)

dim(Eλ(u)).

Théorème

171

Démonstration – On sait que la somme∑

λ∈Sp(u)Eλ(u) est directe. Ainsi, d’après un résultat duchapitre Espaces vectoriels et applications linéaires, le fait que

dim(E) =∑

λ∈Sp(u)

dim(Eλ(u))

équivaut au fait que

E =⊕

λ∈Sp(u)

Eλ(u).

⇐ Si tel est le cas, en juxtaposant des bases des Eλ(u) dont E est somme directe, on obtient unebase de E (d’après un théorème du chapitre Espaces vectoriels et applications linéaires).Une telle base de E est formée de vecteurs propres de u, car tout élément non nul d’un espacepropre de u est vecteur propre de u. Donc u est diagonalisable.

⇒ Si u est diagonalisable, il nous suffit de prouver que E ⊂∑λ∈Sp(u)Eλ(u), l’aspect direct dela somme étant acquis. Soit donc (e1, . . . ,en) une base de E formée de vecteurs propres pour u,et soit x ∈ E ; il existe (α1, . . . ,αn) ∈ Kn tel que x = α1e1 + · · · + αnen. Pour tout i ∈ [[1,n]],αiei ∈ Eλ(u) pour un certain λ ∈ Sp(u). On a donc une décomposition de x comme somme devecteurs appartenant tous à un sous-espace propre de u, d’où le résultat.

Soit u ∈ L (E). Pour que u soit diagonalisable, il faut et il suffit que les deux propriétéssuivantes soient vérifiées :

• χu est scindé sur K.

• ∀λ ∈ Sp(u), dim(Eλ(u)) = m(λ).

Théorème

Démonstration – Si Sp(u) = ∅, u n’est pas diagonalisable car elle n’a pas de valeur propre,et χu n’est pas scindé sur K pour la même raison. Sinon, notons λ1, . . . ,λp les valeurs propresdeux à deux distinctes de u, de sorte que Sp(u) = λ1, . . . ,λp. Alors on a, pour tout i ∈ [[1,p]],dim(Eλi

(u)) 6 m(λi). On en déduit que

p∑

i=1

dim(Eλi(u)) 6

p∑

i=1

m(λi) 6 deg(χu) = dim(E).

Or, d’après le théorème précédent, u est diagonalisable si et seulement si

dim(E) =

p∑

i=1

dim(Eλi(u)).

D’après les inégalités précédentes, ceci est équivalent au fait que

p∑

i=1

m(λi) = deg(χu)

et que, pour tout i ∈ [[1,p]], dim(Eλi(u)) = m(λi). En remarquant que χu est scindé sur K si et

seulement si∑p

i=1m(λi) = deg(χu), on obtient le résultat.

Si u ∈ L (E) admet n valeurs propres deux à deux distinctes, alors u est diagonalisable.De plus, chaque espace propre de u est une droite vectorielle.

Corollaire

172

Démonstration – Nous avons vu plus haut que le sous-espace propre associé à une valeur propresimple est une droite vectorielle. Ici, on a donc

dim(E) = n =∑

λ∈Sp(u)

dim(Eλ(u)).

Le premier critère ci-dessus montre que u est diagonalisable.

Attention ! Bien évidemment, la réciproque est fausse : l’identité de E est diagonalisable, maispossède 1 comme unique valeur propre.

Remarque – Le cas du corollaire précédent est en quelque sorte le cas « idéal ». Lorsque l’on n’estpas dans ce cas, on détermine par le calcul les sous-espaces propres (par la méthode de Gauss-Jordan notamment), pour vérifier l’un des critères ci-dessus. Il s’agit souvent d’une vérificationfastidieuse, d’où l’intérêt de nouveaux critères de diagonalisabilité, que nous donnerons dans lapartie IV.

2. Matrices diagonalisables

Soit A ∈Mn(K). On dit que la matrice A est diagonalisable si A est semblable à unematrice diagonale, c’est-à-dire, s’il existe P ∈ Gℓn(K) et D ∈ Mn(K) diagonale tellesque A = PDP−1.

Définition – Matrice diagonalisable

Soit A ∈Mn(K) une matrice carrée. Les propriétés suivantes sont équivalentes :

1. A est diagonalisable.

2. Il existe une base de Mn,1(K) formée de vecteurs propres pour A.

3. Tout endomorphisme d’un K-espace vectoriel de dimension n, de matrice A dansune certaine base, est diagonalisable.

Dans le cas où A est diagonalisable et s’écrit PDP−1 avec P inversible et D diagonale :

• les coefficients diagonaux de D sont les valeurs propres de A (apparaissant avecmultiplicité) ;

• les colonnes de P constituent une base de Mn,1(K) de vecteurs propres de A(apparaissant dans un ordre correspondant à celui des valeurs propres de A dansla matrice D).

Théorème – Lien entre matrices et endomorphismes diagonalisables

Démonstration – Ces équivalences viennent des formules de changement de base. Si A = PDP−1

avec P inversible et D diagonale, alors les colonnes de P constituent une base de Mn,1(K) danslaquelle la matrice de uA est D, d’où la deuxième partie du résultat.Il n’y a donc d’ailleurs pas qu’un choix possible de P et D.

Remarque – Tous les résultats concernant la diagonalisabilité des endomorphismes se traduisentdonc sur les matrices carrées, via les endomorphismes canoniquement associés, et grâce au théo-rème précédent. Dans le premier critère de diagonalisabilité, il convient de remplacer dim(E) parl’ordre de la matrice considérée (n si A ∈Mn(K)).

Exemple – Considérons la matrice réelle A =

1 4 20 −3 −20 4 3

. On a

χA(X) =

∣∣∣∣∣∣

X − 1 −4 −20 X + 3 20 −4 X − 3

∣∣∣∣∣∣

= (X − 1)

∣∣∣∣

X + 3 2−4 X − 3

∣∣∣∣

173

et donc

χA(X) = (X − 1)[(X + 3)(X − 3)− (−4)× 2] = (X − 1)(X2 − 1) = (X − 1)2(X + 1).

La matrice A possède donc une valeur propre double, 1, et une valeur propre simple, −1. On saitsans calcul que E−1(A) est de dimension 1. Pour en déterminer une base, on résout l’équationAX = −X correspondant au système

x +4y +2z = −x−3y −2z = −y

4y +3z = −z⇔

2x +4y +2z = 0−2y −2z = 0

4y +4z = 0

⇔x +2y +z = 0

y +z = 0

⇔

y = −zx = −2y − z = z

On a donc E−1(A) = Vect

1−11

. Notons e3 =

1−11

.

De même, déterminons E1(A) en résolvant l’équation AX = X correspondant au système

x +4y +2z = x−3y −2z = y

4y +3z = z⇔

4y +2z = 0−4y −2z = 0

4y +2z = 0⇔ 2y + z = 0.

Donc E1(A) est un plan vectoriel ; une base de E1(A) est

(e1,e2) =

100

,

01−2

.

En particulier, dim(E1(A)) = 2 et finalement, dim(E−1(A)) + dim(E1(A)) = 1 + 2 = 3 qui estl’ordre de la matrice A. On sait donc que A est diagonalisable. En fait, en posant

P =

1 0 10 1 −10 −2 1

,

alors P est la matrice de passage de la base canonique de M3,1(R) à la base (e1,e2,e3) de vecteurspropres que l’on vient de déterminer, et

A = P

1 0 00 1 00 0 −1

P−1.

Remarque – La matrice A est la matrice d’une symétrie de R3 (identifié à M3,1(R)) car A2 = I3.Les calculs précédents permettent de décrire entièrement cette symétrie : il s’agit de la symétriepar rapport au plan E1(A), parallèlement à la droite E−1(A).

174

Soit A ∈Mn(K) une matrice diagonalisable. On peut écrire

A = P

λ1 · · · 0...

. . ....

0 · · · λn

P−1

avec λ1, . . . ,λn les valeurs propres de A et P ∈ Gℓn(K).

Alors, pour tout k ∈ N,

Ak = P

(λ1)k · · · 0

.... . .

...0 · · · (λn)k

P−1.

Propriété

Démonstration – Elle se fait par récurrence immédiate, en utilisant le fait que P−1P = In.

Dans l’exemple précédent, pour tout entier k ∈ N (et même pour tout k ∈ Z dans ce cas),

Ak = P

1 0 00 1 00 0 (−1)k

P−1.

Application – Récurrences linéaires

Considérons la relation de récurrence linéaire d’ordre 1

∀ k ∈ N,

x1k+1 = a1,1x

1k + · · · + a1,nx

nk

...

xnk+1 = an,1x

1k + · · ·+ an,nx

nk

(1)

dont les inconnues sont les n suites (x1k)k∈N, . . . ,(x

nk )k∈N (l’exposant n’indique pas une puissance,

mais permet de repérer la j-ième suite inconnue, avec j ∈ [[1,n]]).

En notant Uk le vecteur-colonne de coefficients x1k, . . . ,x

nk et A = (ai,j)16i,j6n, la relation (1)

est équivalente à la relation de récurrence matricielle

∀ k ∈ N, Uk+1 = AUk. (2)

Par récurrence immédiate, (Uk) est solution de (2) si et seulement si pour tout k ∈ N, Uk = AkU0.

Si A est diagonalisable, la propriété précédente permet d’exprimer explicitement toute solu-tion de (1), en fonction des valeurs propres de A et des conditions initiales.

IV. Réduction et polynômes annulateurs

1. Polynômes annulateurs et valeurs propres

Soit u ∈ L (E) et P ∈ K[X] un polynôme annulateur de u.

Alors toute valeur propre de u est une racine de P .

Propriété

Démonstration – Nous avons montré plus haut que lorsque x est un vecteur propre de u associéà la valeur propre λ, alors pour tout entier naturel k, uk(x) = λkx. En écrivant P sous formedéveloppée, on en déduit que P (u)(x) = P (λ) · x = 0E car P (u) = 0L (E). Or x étant vecteurpropre, il est non nul ; on a donc nécessairement P (λ) = 0.

175

Remarques

• Cette propriété est très intéressante, car elle montre que les valeurs propres de u, bien qu’ellessoient les racines du polynôme caractéristique de u, qui est de degré n, sont à chercher parmi lesracines de tout polynôme annulateur de u. Or, on peut parfois trouver un polynôme annulateurtrès simple : par exemple, X2 −X est un polynôme annulateur de toute projection ; X − λ estun polynôme annulateur de toute homothétie de rapport λ. De même, X2 − 1 est annulateur detoute symétrie.

• On avait déjà remarqué l’intérêt des polynômes annulateurs d’un endomorphisme ou d’unematrice pour les calculs de puissances ou d’inverse éventuel. La propriété précédente en donneune nouvelle application.

• La propriété précédente est vraie même en dimension infinie.

Exemple – Soit u ∈ L (E) tel que u2 − 2u − 3 IdE = 0. Alors (u − 3 IdE) (u + IdE) = 0, donc(X − 3)(X + 1) est annulateur de u. Les valeurs propres de u sont donc éléments de −1; 3.Attention ! Ne pas confondre cette propriété avec sa réciproque qui est fausse : si P est annulateurde u et si P (λ) = 0, alors rien ne dit que λ est valeur propre de u. En reprenant l’exempleprécédent avec u = 3 IdE , on a bien (u− 3 IdE) (u+ IdE) = 0, mais −1 n’est pas valeur proprede u.

Dans tout polynôme annulateur de u, il peut y avoir des facteurs « inutiles » : soit

P (X) = (X − α1) · · · (X − αp)

un polynôme annulateur scindé de u ∈ L (E). Si un certain αi n’est pas valeur propre de u,alors u − αi IdE est injective et donc inversible d’après la caractérisation des isomorphismes endimension finie. En composant la relation (que l’on peut écrire dans un ordre arbitraire)

(u− α1 IdE) · · · (u− αp IdE) = 0

par (u−αi IdE)−1, on voit que l’on peut « enlever » u−αi IdE de cette relation. On obtient doncun polynôme annulateur avec un facteur en moins. C’est le cas du facteur X + 1 dans l’exempleci-dessus lorsque u = 3 IdE .

Remarque – Tout élément u ∈ L (E) (E étant de dimension finie n) admet un polynôme annu-lateur non nul. En effet, la famille (IdE ,u, . . . , u

n2) est composée de n2 + 1 vecteurs de L (E)

qui est de dimension n2, elle est donc liée. Soit∑n2

k=0 akuk une combinaison linéaire nulle de ces

éléments, les ak étant non tous nuls. Alors le polynôme∑n2

k=0 akXk est annulateur de u, et il est

non nul.

2. Le théorème de Cayley-Hamilton

Le résultat de la remarque précédente possède les inconvénients suivants : il ne donne pasexplicitement un polynôme annulateur de u, il garantit seulement l’existence de polynômes an-nulateurs de u de degré au plus n2, qui est un degré plutôt « élevé ». Le théorème suivant yremédie en partie :

Soit u ∈ L (E). Alors χu(u) = 0L (E) : le polynôme caractéristique de u est un polynômeannulateur de u.

On a un résultat analogue pour les matrices carrées.

Théorème de Cayley-Hamilton (admis : démonstration non exigible)

176

Exemples

• Considérons la matrice A =

2 0 00 2 00 0 1

. Alors

χA(X) =

∣∣∣∣∣∣

X − 2 0 00 X − 2 00 0 X − 1

∣∣∣∣∣∣

= (X − 2)2(X − 1).

Il est immédiat que (X−2)2(X−1) est annulateur de A (conformément au théorème de Cayley-Hamilton). En fait, (X − 2)(X − 1) est aussi annulateur de A.

• Considérons maintenant la matrice B =

2 0 43 −4 121 −2 5

. Son polynôme caractéristique est

χB(X) =

∣∣∣∣∣∣

X − 2 0 −4−3 X + 4 −12−1 2 X − 5

∣∣∣∣∣∣

C2 ← C2 + 2C1

=

∣∣∣∣∣∣

X − 2 2(X − 2) −4−3 X − 2 −12−1 0 X − 5

∣∣∣∣∣∣

L1 ← L1 − 2L2

=

∣∣∣∣∣∣

X + 4 0 20−3 X − 2 −12−1 0 X − 5

∣∣∣∣∣∣

= X(X − 1)(X − 2).

En particulier, on sait sans calcul supplémentaire que B est diagonalisable, car B est d’ordre3 et possède trois valeurs propres distinctes. On vérifie que B(B − I3)(B − 2I3) = 0, mais niB(B − I3), ni B(B − 2I3), ni (B − I3)(B − 2I3) n’est nulle, sinon l’une des valeurs 0, 1 ou 2 neserait pas valeur propre de B.

• En revanche, dans le cas de la matrice

C =

1 0 10 1 00 0 1

,

on a χC(X) = (X − 1)3, mais

(C − I3) =

0 0 10 0 00 0 0

et (C − I3)2 = 0,

donc (X − 1)2 est annulateur de C. On peut donc parfois trouver des polynômes annulateursde plus bas degré que le polynôme caractéristique. Pour un projecteur, une symétrie ou unehomothétie, ce phénomène est encore plus flagrant.

Remarques

• Les valeurs propres de u sont racines de tout polynôme annulateur de u. Le polynôme caracté-ristique de u est un exemple de polynôme annulateur de u dont les racines sont exactement lesvaleurs propres de u.

• On sait que lorsque u possède un polynôme annulateur P de coefficient constant non nul,alors u est inversible et on peut calculer u−1 comme un polynôme en u, à partir de la relationP (u) = 0L (E).

En dimension finie, on peut choisir P = χu, et on a alors a0 = (−1)n det(u). Si a0 6= 0, u estinversible et le théorème de Cayley-Hamilton permet de déterminer explicitement u−1 à partirde la relation χu(u) = 0L (E).

177

3. Un nouveau critère de diagonalisabilité

Soit u ∈ L (E). Les propriétés suivantes sont équivalentes :

1. L’endomorphisme u est diagonalisable.

2. Il existe un polynôme annulateur de u scindé sur K et à racines simples.

3. Le polynôme∏

λ∈Sp(u)

(X − λ) est annulateur de u.

Théorème

Remarques

• Seule la démonstration de l’équivalence entre les propriétés 1 et 3 est exigible. Pour l’implication3 ⇒ 1, on peut démontrer 3 ⇒ 2 et utiliser directement 2 ⇒ 1.

• Bien sûr, le théorème précédent se traduit en termes de matrices carrées.

Démonstration

3 ⇒ 2 : Il suffit de remarquer que le polynôme∏

λ∈Sp(u)(X − λ) est scindé à racines simples(dans ce polynôme, chaque valeur propre apparaît sans multiplicité).

1 ⇒ 3 : Supposons u diagonalisable. Il existe donc une base (e1, . . . ,en) de E formée de vecteurspropres pour u. Notons λ1, . . . ,λp les valeurs propres deux à deux distinctes de u. Montrons quele polynôme

P (X) =∏

λ∈Sp(u)

(X − λ) = (X − λ1) · · · (X − λp)

est annulateur de u. Les polynômes en u commutent, donc pour tout j ∈ [[1,p]],

P (u) = (u− λ1 IdE) · · · (u− λp IdE) =

(

k 6=j

(u− λk IdE)

)

(u− λj IdE),

le symbole k 6=j

désignant la composition de tous les facteurs d’indice k 6= j.

Soit i ∈ [[1,n]], et λj la valeur propre associée au vecteur ei ; ainsi (u − λj IdE)(ei) = 0E . Enévaluant P (u) en ei, on a alors

P (u)(ei) =

(

k 6=j

(u− λk IdE)

)

((u− λj IdE)(ei)) =

(

k 6=j

(u− λk IdE)

)

(0E) = 0E .

Ceci étant valable pour tous les vecteurs de la base (e1, . . . ,en), on a bien P (u) = 0.

2 ⇒ 1 : On procède par récurrence : montrons que pour tout entier p > 1, tout endomorphismed’un espace de dimension finie admettant un polynôme scindé avec p racines simples, est dia-gonalisable. On pourra toujours, quitte à diviser par le coefficient dominant, supposer que lespolynômes annulateurs non nuls sont unitaires.

Initialisation : si p = 1 et si u ∈ L (E) annule un polynôme de la forme X − α1, alorsu = α1 IdE . Ainsi, u est diagonalisable.

Hérédité : supposons le résultat vrai pour un nombre p de racines simples. Soit u un endo-morphisme annulant un polynôme P scindé et ayant p+ 1 racines simples, que l’on écrit sous laforme

P (X) = (X − α1) · · · (X − αp)(X − αp+1).

Notons Q(X) = (X − α1) · · · (X − αp).

Étape 1 : montrons que E = Ker(Q(u)) ⊕ Ker(u − αp+1 IdE) : tout d’abord, si un vecteur xappartient à Ker(Q(u)) ∩Ker(u− αp+1 IdE), alors u(x) = αp+1x et donc

0E = Q(u)(x) = Q(αp+1) · x.

178

Le scalaire Q(αp+1) est non nul car les αi sont deux à deux distincts : on en déduit que x = 0E .On a donc montré que Ker(Q(u)) ∩ Ker(u − αp+1 IdE) = 0E. De plus, effectuons la divisioneuclidienne de Q par (X−αp+1) : il existe un polynôme A et un polynôme B de degré strictementinférieur à deg(X−αp+1) = 1, c’est-à-dire que B est un polynôme constant que l’on notera b ∈ K,tels que

Q(X) = A(X)(X − αp+1) + b.

En évaluant cette relation en αp+1, on obtient

Q(αp+1) = b

et en particulier b 6= 0 car αp+1 n’est pas racine de Q. On a alors

Q(u) = A(u) (u− αp+1 IdE) + b IdE ,

c’est-à-dire1

bQ(u)− 1

bA(u) (u− αp+1 IdE) = IdE .

Soit alors x ∈ E. On a d’après la relation précédente,

x =1

bQ(u)(x)− 1

b(A(u) (u− αp+1 IdE)) (x).

De plus, le vecteur

y =1

bQ(u)(x)

appartient à Ker(u− αp+1 IdE) car

((u− αp+1 IdE) Q(u))(x) = P (u)(x) = 0E .

De même,

z = −1

b(A(u) (u− αp+1 IdE))(x)

appartient à Ker(Q(u)). On a donc décomposé x sur la somme Ker(Q(u)) + Ker(u− αp+1 IdE),ce qui achève de prouver que E = Ker(Q(u)) ⊕Ker(u− αp+1 IdE).

Étape 2 : Les endomorphismes u et Q(u) commutent, donc Ker(Q(u)) est stable par u. Soitv l’endomorphisme de Ker(Q(u)) induit par u. Alors Q est un polynôme annulateur de v pardéfinition, et Q est scindé et possède p racines simples. D’après l’hypothèse de récurrence, v estdiagonalisable et il existe une base de Ker(Q(u)) constituée de vecteurs propres pour v, et doncpour u.Si Ker(u − αp+1 IdE) = 0E, on a alors construit une base de E de vecteurs propres pour u.Sinon, on juxtapose à la base de Ker(Q(u)) que l’on a construite, une base de Ker(u−αp+1 IdE),qui par définition est constituée de vecteurs propres pour u (associés à la valeur propre αp+1).Comme Ker(u−αp+1 IdE) est supplémentaire de Ker(Q(u)) dans E, on a obtient finalement unebase de E constituée de vecteurs propres pour u, qui est donc diagonalisable, et l’hérédité estdémontrée.

Exemple – Revenons sur l’exemple d’un endomorphisme u ∈ L (E) (E étant de dimension finie)tel que u2 − 2u− 3 IdE = 0. Alors le polynôme

X2 − 2X − 3 = (X + 1)(X − 3)

est annulateur de u, et il est scindé dans R, à racines simples, donc u est diagonalisable. Ilexiste une base de E dans laquelle la matrice de u est diagonale, ses coefficients diagonaux étantéléments de −1; 3 (mais, sans information supplémentaire, on ne peut pas savoir si −1 et 3sont tous les deux valeurs propres de u, il se peut que seul l’un de ces deux nombres le soit).

179

Soient u ∈ L (E) diagonalisable et F un sous espace vectoriel de E stable par u, avecF 6= 0E.Alors u|F est diagonalisable.

Corollaire

Démonstration – En effet, u est diagonalisable donc admet un polynôme annulateur scindé àracines simples. Ce même polynôme est aussi annulateur de u|F , qui par conséquent est diago-nalisable.

V. Endomorphismes et matrices trigonalisables

Bien sûr, parvenir à diagonaliser un endomorphisme u est la situation la plus favorable. Iln’est pas toujours possible d’y arriver, mais on peut dans ce cas essayer de trouver une matricede u non pas diagonale, mais au moins triangulaire supérieure.

• On dit qu’un endomorphisme u ∈ L (E) est trigonalisable s’il existe une base deE dans laquelle la matrice de u est triangulaire supérieure.

• On dit qu’une matrice A ∈ Mn(K) est trigonalisable si elle est semblable à unematrice triangulaire supérieure.

Définition – Trigonalisabilité

Remarques

• Si B = (e1, . . . ,en) est une base de E, alors MatB(u) est triangulaire supérieure si et seulementsi pour tout j ∈ [[1,n]],

u(ej) ∈ Vect(e1, . . . ,ej).

Dans ce cas, e1 est vecteur propre de u, mais pas nécessairement les autres vecteurs de la baseB.• En revanche, les coefficients diagonaux d’une matrice triangulaire supérieure T = (ti,j) repré-sentant u sont nécessairement les valeurs propres de u : en effet,

χu(X) = det(X IdE −u) = det(XIn − T ).

Or, la matrice XIn − T est triangulaire supérieure, donc son déterminant est le produit de seséléments diagonaux, ici

∏ni=1(X − ti,i). On en déduit que les coefficients diagonaux de T sont

exactement les valeurs propres de u.

Soit A ∈Mn(K) une matrice carrée. Les propriétés suivantes sont équivalentes :

• A est trigonalisable.

• Tout endomorphisme d’un K-espace vectoriel de dimension n, de matrice A dansune certaine base, est trigonalisable.

Dans le cas où A est trigonalisable et s’écrit A = PTP−1 avec P inversible et Ttriangulaire supérieure, les coefficients diagonaux de T sont les valeurs propres de A(apparaissant avec multiplicité).

Théorème – Lien entre matrices et endomorphismes trigonalisables

Démonstration – L’équivalence vient des formules de changement de base. Si A = PTP−1 avec Pinversible et T triangulaire supérieure, alors les colonnes de P constituent une base de Mn,1(K)dans laquelle la matrice de uA est T . Ainsi les coefficients diagonaux de T sont les valeurs propres

180

de A d’après la remarque précédente.Il n’y a pas qu’un choix possible de P et T .

De la remarque précédente, on déduit que, si u ∈ L (E) est trigonalisable, alors son po-lynôme caractéristique est scindé sur K. Cette condition n’était pas suffisante pour que u soitdiagonalisable, elle l’est pour que u soit trigonalisable :

Soit u ∈ L (E).

Pour que u soit trigonalisable, il faut et il suffit que χu soit scindé sur K.

On a un résultat analogue pour les matrices carrées.

Théorème


⇒ C’est ce que nous avons montré dans la remarque précédente.

⇐ On va prouver le résultat pour une matrice A ∈Mn(K), celui sur les endomorphismes s’endéduisant, grâce au théorème précédent. On procède par récurrence sur n. Si n = 1, le résultatest vrai car A est trigonalisable et χA scindé sur K. Supposons le résultat vrai pour toute matricede Mn(K) et soit A ∈ Mn+1(K) telle que χA soit scindé sur K. Il existe donc λ ∈ Sp(A), etX ∈ Eλ(A) non nul. En choisissant une matrice P1 ∈ Gℓn+1(K) dont la première colonne soit X,la matrice (P1)

−1AP1 est (d’après les formules de changement de bases) de la forme(λ L0 B

)

où L ∈M1,n(K) et B ∈Mn(K). Alors, on a

χA(X) = (X − λ)χB(X)

et donc χB est scindé sur K. Par hypothèse de récurrence, il existe une matrice Q ∈ Gℓn(K) telleque Q−1BQ soit triangulaire supérieure. En effectuant les calculs par blocs, il est immédiat que

(1 00 Q

)

est inversible, d’inverse

(1 00 Q−1

)

,

et on a (1 00 Q−1

)(λ L0 B

)(1 00 Q

)

=

(λ LQ0 Q−1BQ

)

,

qui est triangulaire supérieure. Finalement, en posant P = P1

(1 00 Q

)

, on a P ∈ Gℓn+1(K) et

P−1AP est triangulaire supérieure, d’où le résultat.

Toute matrice de Mn(C) est trigonalisable.

Corollaire

Démonstration – Le polynôme caractéristique d’une matrice complexe est scindé sur C, commetout polynôme à coefficients dans C (théorème de d’Alembert-Gauss). Le résultat vient donc duthéorème précédent.

Soit u ∈ L (E). On suppose que χu est scindé sur K et on note λ1, . . . ,λn les valeurspropres de u, comptées avec multiplicité.

Alors

det(u) =n∏

i=1

λi et Tr(u) =n∑

i=1

λi.

On a un résultat analogue pour une matrice carrée.

Propriété

181

Démonstration – D’après le théorème précédent, u est trigonalisable. Il existe donc une base deE dans laquelle la matrice de u est de la forme

T =

λ1 ∗ · · · ∗0

. . .. . .

......

. . . ∗0 · · · 0 λn

,

Alors

det(u) = det(T ) =

n∏

i=1

λi et Tr(u) = Tr(T ) =

n∑

i=1

λi.

Rappel – Le résultat concernant le déterminant avait déjà été démontré plus haut en calculantde deux façons le coefficient constant de χu.

Remarque – Une méthode numérique de calcul d’une valeur propre

Soit A ∈ Mn(C) (n > 2). On note λ1, . . . ,λn les valeurs propres de A, classées par modulecroissant, et on suppose que λn est l’unique valeur propre de plus grand module (en particulier,on a λn 6= 0). En raisonnant comme ci-dessus, on a, pour tout k ∈ N,

Tr(Ak) = (λ1)k + · · ·+ (λn)k, donc Tr(Ak) ∼ (λn)k

etTr(Ak+1)

Tr(Ak)∼ (λn)k+1

(λn)k= λn.

Ainsi le quotient des traces de deux puissances itérées successives de A permet une approximationnumérique, programmable sur ordinateur, de λn, valeur propre de plus grand module de A.L’intérêt d’une telle méthode est qu’elle ne nécessite pas le calcul de χA puis la résolution del’équation polynomiale χA(λ) = 0. En revanche, elle ne donne pas toutes les valeurs propres.Testons cette méthode numériquement avec le module numpy de Python :

>>> import numpy as np

>>> import numpy.linalg as npl

>>> B = np.array ([[2 ,0 ,4] ,[3 , -4 ,12] ,[1 ,-2,5]])

>>> np.trace(npl.matrix_power(B ,10))/np.trace(npl.matrix_power(B,9))

1.9980506822612085

>>> np.trace(npl.matrix_power(B ,20))/np.trace(npl.matrix_power(B,19)

)

1.9999980926550052

>>> npl.eigvals(B)

array([ 2.00000000e+00, 5.09314813e-15, 1.00000000e+00])

On a fait appel à la fonction eigvals, qui donne un tableau des valeurs propres (approchées)d’une matrice, afin de comparer les résultats. On rappelle que l’on avait obtenu, par le calcul deχB , que les valeurs propres de B sont 0, 1 et 2 (voir page 177).

Exemple – Suites récurrentes linéaires d’ordre n > 2

Dans le chapitre Espaces vectoriels et applications linéaires, on s’est intéressé aux suitesd’éléments de K vérifiant la relation de récurrence :

∀ k ∈ N, uk+2 + auk+1 + buk = 0,

et la condition initiale u0 = x, u1 = y. Nous avons entièrement décrit ces suites. La réductiondonne un nouvel éclairage à ce problème : notons, pour tout entier naturel k,

Xk =

(uk

uk+1

)

.

182

Alors, pour tout k ∈ N, la relation uk+2 + auk+1 + buk = 0 équivaut à :

Xk+1 =

(uk+1

uk+2

)

=

(0 1−b −a

)(uk

uk+1

)

= AXk,

où

A =

(0 1−b −a

)

.

L’avantage principal de cette présentation est d’avoir transformé une relation d’ordre 2 en unerelation d’ordre 1 : on se ramène à une suite géométrique dont la « raison » est la matrice A. Enparticulier, pour tout entier naturel k,

Xk = AkX0, i.e.

(uk

uk+1

)

= Ak

(u0

u1

)

.

On en déduira immédiatement uk. L’inconvénient est que cette relation n’a plus lieu dans K

mais dans M2,1(K) : l’étude du problème n’est pas évidente car il nous faudrait déterminer lespuissances de la matrice A.

Essayons donc de trouver une forme réduite intéressante pour cette matrice. Son polynômecaractéristique est

χA(X) =

∣∣∣∣

X −1b X + a

∣∣∣∣= X(X + a) + b = X2 + aX + b.

Il s’agit du polynôme définissant l’équation caractéristique.

En particulier, si l’équation caractéristique a deux solutions distinctes r1 et r2 dans K, alorsA est diagonalisable et, en notant P la matrice de passage de la base canonique de M2,1(K) àune base de vecteurs propres de A, on a

A = P

(r1 00 r2

)

P−1,

et donc pour tout entier naturel k,

Ak = P

((r1)

k 00 (r2)

k

)

P−1.

Après avoir fait le produit par P , P−1 et X0, on retrouve bien le fait qu’il existe (λ,µ) ∈ K2 telque, pour tout k ∈ N,

uk = λ(r1)k + µ(r2)

k,

où λ et µ dépendent de u0, u1, r1 et r2.

Si l’équation caractéristique a une solution double r dans K, alors A n’est pas diagonalisable :en effet, si A était diagonalisable, elle serait semblable à la matrice rI2 qui commute avec toutematrice ; A serait donc égale à rI2, ce qui n’est pas le cas. En revanche, A est trigonalisable carχA est scindé sur K ; montrons qu’il existe une matrice inversible P telle que

A = P

(r 10 r

)

P−1.

Ceci équivaut à l’existence d’une base (e1,e2) de M2,1(K) telle que

Ae1 = re1

Ae2 = e1 + re2ce qui équivaut à

(A− rI2)e1 = 0

(A− rI2)e2 = e1i.e. à

(A− rI2)2e2 = 0

(A− rI2)e2 = e1

Le polynôme caractéristique de A étant (X − r)2, le théorème de Cayley-Hamilton montre que(A− rI2)2 = 0, la première relation du système précédent est donc toujours vraie.

183

Soit donc e2 ∈ M2,1(K) et e1 = (A − rI2)e2. Pour que e1 soit non nul, on impose de plus quee2 /∈ Ker(A − rI2). Ceci est possible car Ker(A − rI2) n’est pas égal à M2,1(K), la matrice An’étant pas égale à rI2.

Il reste seulement à montrer que (e1,e2) est une base de M2,1(K), et par raison de dimension,qu’elle est libre. Soit donc (λ,µ) ∈ K2 tel que λe1 +µe2 = 0. En multipliant à gauche par A−rI2,on obtient

λ(A− rI2)e1 + µ(A− rI2)e2 = 0 i.e. µe1 = 0.

Comme e1 6= 0, on en déduit µ = 0. La relation initiale donne alors λe1 = 0, d’où λ = 0 et lerésultat.

Par construction, la matrice de uA dans cette base est

(r 10 r

)

, donc A est semblable à

(r 10 r

)

.

Or, une récurrence immédiate montre que pour tout entier naturel k > 1,

(r 10 r

)k

=

(rk krk−1

0 rk

)

.

On retrouve le fait qu’il existe (λ,µ) ∈ K2 tel que, pour tout k ∈ N,

uk = λrk + µkrk = (λ+ µk)rk,

où λ et µ dépendent de u0, u1 et r.

Cette méthode se généralise aux relations de récurrence linéaires scalaires d’ordre n > 2quelconque : si (a0, . . . ,an−1) ∈ Kn, une suite (uk)k∈N vérifie la relation de récurrence

∀ k ∈ N, uk+n + an−1uk+n−1 + · · ·+ a0uk = 0

si et seulement si la suite vectorielle (Xk)k∈N définie par

Xk =

uk...

uk+n−1

vérifie la relation d’ordre 1∀ k ∈ N, Xk+1 = AXk,

où

A =

0 1 0 · · · · · · 0...

. . . 1. . .

......

. . .. . .

. . ....

.... . .

. . . 00 · · · · · · · · · 0 1−a0 −a1 · · · · · · · · · −an−1

∈Mn(K).

Dans le cas où A est diagonalisable, on sait en déduire Xk, et donc uk, pour tout k.

Remarque – Calcul des puissances d’une matrice

Le calcul de puissances ci-dessus (cas d’une racine double) est un cas particulier d’une méthodeplus générale pour calculer les puissances d’une matrice triangulaire supérieure A de la formeα In +N , où α In est la partie diagonale de A, et N (comme « nilpotente ») sa partie triangulaire« strictement supérieure ». Dans ce cas, α In et N commutent, donc d’après la formule du binômede Newton, pour tout k ∈ N,

Ak =

k∑

j=0

(kj

)

αk−j N j .

184

L’avantage de cette décomposition est que N j = 0 pour tout j > n. Le nombre de termes dansla somme est donc au plus n, quelle que soit la valeur de k. Par exemple, pour tout k ∈ N,

(2 30 2

)k

=

((2 00 2

)

+

(0 30 0

))k

=

k∑

j=0

(kj

)

2k−j

(0 30 0

)j

.

On a donc, pour tout k > 1,

(2 30 2

)k

= 2k

(1 00 1

)

+ k 2k−1

(0 30 0

)

=

(2k 3k2k−1

0 2k

)

et cette formule est d’ailleurs aussi valable pour k = 0.

Comme nous l’avions expliqué dans le chapitre Matrices, on peut aussi effectuer le calculdes puissances k-ièmes d’une matrice carrée A à partir d’un polynôme annulateur P de A (parexemple son polynôme caractéristique), en déterminant le reste de la division euclidienne de Xk

par P . Ce calcul est d’autant plus simple que le degré de P est petit.

185

186

Chapitre 9

Espaces probabilisés

Dans de nombreuses situations, une expérience, reproduite plusieurs fois dans des conditionsapparemment identiques, peut fournir des résultats différents et imprévisibles. Lorsque l’on lanceune pièce en l’air, si l’on avait une parfaite connaissance de toutes les données (sur la pièce,la façon dont elle est lancée, la constitution et le mouvement de l’air ambiant, les équationsdes différents mouvements, le moment où la personne rattrape la pièce,...) on serait peut-être enmesure de prévoir si le résultat obtenu est « pile » ou « face ». En pratique, une telle connaissanceest sans doute impossible, et la moindre variation dans les conditions de l’expérience peut avoirsur le résultat une influence qui le rend impossible à prévoir.

On considère que de tels phénomènes relèvent de l’aléatoire, du hasard (parmi ces phéno-mènes, on peut aussi citer le comportement de particules physiques, l’évolution du cours de labourse, la démographie, les jeux de hasard). Pour les étudier, on ne cherche pas à prévoir leurrésultat mais on s’attache à mesurer les « chances » ou le « risque » qu’un événement se réalise.La théorie des probabilités donne un cadre mathématique à ce que l’on entend par « expériencealéatoire » et développe des outils permettant l’étude des phénomènes associés.

Dans tout le chapitre, Ω est un ensemble ; P(Ω) désigne la collection de toutes les parties de Ω.

I. Ensembles dénombrables

En première année ont été étudiées des expériences aléatoires ayant un nombre fini de résultatspossibles. De nombreuses expériences aléatoires ont un nombre infini de résultats possibles. Maisil convient de distinguer plusieurs types d’infinis, ce qui mène à définir la notion d’ensembledénombrable.

Intuitivement, un ensemble est dénombrable si l’on peut « étiqueter » ses éléments, c’est-à-dire en dresser une liste exhaustive où chaque élément est repéré par un nombre, l’ensemble deces nombres parcourant N. Mathématiquement, cela s’écrit ainsi :

Soit E un ensemble. On dit que E est dénombrable si E est en bijection avec N,c’est-à-dire s’il existe une bijection ϕ de N sur E.

Dans ce cas, on peut noter, pour tout n ∈ N, xn = ϕ(n), et on a donc E = xn; n ∈ N.C’est ce que l’on appelle décrire E en extension.

Définition – Ensemble dénombrable

Exemples

• L’ensemble N est bien sûr dénombrable (choisir ϕ = Id), c’est en quelque sorte le modèled’ensemble dénombrable.

• L’ensemble 2N des entiers naturels pairs est dénombrable : ϕ : n 7→ 2n est une bijection de N

sur 2N.

187

Remarques

• Quitte à faire un changement d’indice, on peut toujours se ramener à une bijection de N∗ surE dans la définition précédente.

• On montre facilement que les ensembles finis ou dénombrables sont les ensembles qui sonten bijection avec une partie I de N. Dans le cas où E est fini, on peut choisir I = [[1,m]] avecm = card(E) ; on peut aussi décrire E en extension sous la forme E = x1, . . . ,xm.

L’ensemble Z est dénombrable.

Propriété

Démonstration – Soit ϕ l’application ainsi définie : pour tout k ∈ N,

ϕ(2k) = −k, ϕ(2k + 1) = k + 1.

Il s’agit d’une bijection de N sur Z, ce qui prouve le résultat.

Un produit cartésien d’ensembles dénombrables est dénombrable.

Propriété

Démonstration – Soient E1 et E2 deux ensembles dénombrables, ϕ une bijection de N sur E1, ψune bijection de N sur E2. L’idée est la suivante : si E1 et E2 sont décrits en extension sous laforme

E1 = xn; n ∈ N, E2 = yn; n ∈ N,on peut décrire E1 × E2 en extension sous la forme

E1 × E2 = (x0,y0),(x0,y1),(x1,y0),(x0,y2),(x1,y1),(x2,y0),(x3,y0), . . ..Ce principe est illustré sur le graphique suivant dans le cas de N2 :

•0

•1

•2

•3

•4

•1

•2

•3

•4

•

•

•

• •

•

Pour construire explicitement une bijection Φ de N sur E1×E2 qui correspond à la descriptionprécédente, on peut procéder ainsi : pour tout n ∈ N, soit k l’unique entier naturel tel que

1 + 2 + · · ·+ k 6 n < 1 + 2 + · · · + k + (k + 1)

(k = 0 si n = 0, k = 1 si n ∈ [[1,2]]), et soient i = n− (1 + 2 + · · · + k), j = k − i. On pose alorsΦ(n) = (xi,yj). On vérifie facilement que Φ convient.

Exemples

• Pour tout n ∈ N∗, Nn, Zn sont dénombrables.

• L’ensemble des matrices de Mn(R) dont les coefficients appartiennent à Z est en bijection avecZn2

qui est dénombrable, il est donc également en bijection avec N, et ainsi dénombrable.

• L’idée mise en œuvre dans la démonstration précédente peut être utilisée pour montrer que Q

est dénombrable. En revanche, R n’est pas dénombrable.

188

II. Espaces probabilisés

1. Tribu, probabilité

Modéliser une expérience aléatoire (afin de pouvoir l’étudier), c’est choisir :

• un ensemble Ω qui permet de représenter toutes les issues de l’expérience, c’est-à-diretous les résultats possibles de l’expérience. L’ensemble Ω est appelé univers.

• une probabilité sur Ω, qui est une fonction ayant certaines propriétés qui font que cettefonction peut être choisie pour mesurer les chances ou le risque qu’un résultat ou ensemblede résultats possibles de l’expérience (ce que l’on appelle sous certaines conditions unévénement), se réalise.

Exemples

• Une expérience aléatoire ayant deux issues, l’une (interprétée comme succès) de probabilité p,et l’autre (échec) de probabilité q = 1−p, est appelée épreuve de Bernoulli de paramètre p. C’estle cas de l’expérience consistant à lancer une fois une pièce non nécessairement équilibrée (avecpar exemple, p la probabilité d’obtenir « pile », q celle d’obtenir « face »).

• L’expérience aléatoire consistant à lancer une fois un dé équilibré et à noter le résultat obtenupeut être modélisée de la façon suivante : l’ensemble des issues est Ω = 1,2,3,4,5,6, le faitque le dé soit équilibré se traduit par le choix de la probabilité uniforme sur Ω, c’est-à-dire quechacun des résultats possibles a la probabilité 1/6 de se réaliser. Le sous-ensemble 2,4,6 de Ωest l’événement que l’on peut décrire en français comme « le résultat est un nombre pair ».

• Une personne se lève de façon aléatoire à 7h00 ou 7h05 ou 7h10 ou 7h15. Pour son petitdéjeuner, elle choisit au hasard soit des tartines, soit des céréales. En numérotant 1, 2, 3 et 4les horaires possibles de lever, et en notant T et C les deux petits déjeuners possibles, on peutmodéliser l’expérience aléatoire consistant à observer, un jour, l’heure de réveil et le choix depetit déjeuner de cette personne, par le choix de

Ω = (1,C),(1,T ),(2,C),(2,T ),(3,C),(3,T ),(4,C),(4,T ),

chaque élément ayant par exemple une probabilité 1/8 de se produire. Selon la connaissance quel’on a de la situation, on peut bien sûr être amené à choisir des valeurs de probabilités différentes.

On peut bien sûr imaginer des expériences aléatoires plus complexes, par exemple des lancerssuccessifs de pièces jusqu’à obtenir « pile » trois fois de suite, l’observation du déplacementd’un insecte sur une surface plane, la trajectoire d’une balle de tennis. Dans ce cas, déterminerl’ensemble des issues peut être très complexe, cet ensemble peut notamment être infini. Pourcette raison, on est amené à préciser ce que l’on entend par événement :

Soit Ω un ensemble. On appelle tribu sur Ω une partie A de P(Ω) telle que :

• Ω ∈ A ,

• Pour tout A ∈ A , le complémentaire de A, i.e. A = Ω \ A, appartient à A .

• Pour toute suite (An)n∈N d’éléments de A , la réunion+∞⋃

n=0

An appartient à A .

Lorsque A est une tribu sur Ω, l’ensemble Ω est appelé univers, et les éléments de A

(qui sont des parties de Ω) sont appelés les événements.

Définition – Tribu

Remarques

• Les opérations ensemblistes correspondent bien sûr à des opérations logiques : le passage aucomplémentaire traduit la négation, la réunion correspond à « ou ». Une tribu rassemble tousles événements observables lors de l’expérience aléatoire considérée, et la définition précédentefixe les règles fondamentales de logique permettant de combiner ces événements.

189

• Il est notamment important de savoir passer de la description d’un événement par une phrase enfrançais à sa description par opérations ensemblistes à partir d’autres événements, et inversement.

• D’après les deux premiers points, ∅ = Ω est un événement.

• Si (An)n∈N est une suite d’éléments de A ,

+∞⋃

n=0

An = ω ∈ Ω; ∃n ∈ N, ω ∈ An.

C’est l’ensemble des éléments de Ω qui appartiennent à au moins l’un des An, i.e., l’événement« l’un au moins des événements An est réalisé ».

• La collection P(Ω) des parties de Ω est une tribu sur Ω (tribu triviale). De même, ∅,Ω estune tribu sur Ω (tribu grossière).

• Pour modéliser une expérience aléatoire ayant un nombre fini de résultats possibles, on choisitΩ de sorte que A = P(Ω). C’est aussi souvent le cas lorsque l’ensemble des résultats estdénombrable. Par exemple, considérons un dé à six faces sur lequel la face portant le numéro1 est gravée de façon habituelle, et les autres faces de sorte que le numéro ne soit lisible qu’aumicroscope. Si l’expérience consistant à lancer une fois ce dé est réalisée avec microscope, onchoisira pour univers Ω = 1, 2, 3, 4, 5, 6, mais si elle est réalisée sans microscope, on choisirapar exemple Ω = 1, A, où A représente l’ensemble des autres faces que celle numérotée 1.Dans ce cas, par exemple, 2 ne doit pas être considéré comme une issue, sinon 2 serait unévénement (puisque A = P(Ω)), alors que le résultat 2 n’est pas observable dans les conditionsde l’expérience.

• En revanche, dans le cas général, choisir A = P(Ω) est possible mais pas toujours adapté.

Soit A une tribu sur Ω et (An)n∈N une suite d’événements. Alors

+∞⋂

n=0

An ∈ A .

Ainsi, A est stable par intersection dénombrable : une intersection dénombrable d’évé-nements est un événement.

Propriété – Stabilité par intersection dénombrable

Démonstration – Notons B =

+∞⋂

n=0

An. Alors

B =

+∞⋃

n=0

An ∈ A

car pour tout n ∈ N, An ∈ A , et A est stable par réunion dénombrable. Alors, par passage aucomplémentaire, B ∈ A .

Remarques

• Avec les notations précédentes,

+∞⋂

n=0

An = ω ∈ Ω; ∀n ∈ N, ω ∈ An.

C’est l’ensemble des éléments de Ω qui appartiennent à tous les An, i.e., l’événement « tous lesévénements An sont réalisés ».

• Si A0, . . . ,An sont des événements, en posant Ak = An pour tout k > n+ 1, on a

+∞⋃

k=0

Ak =n⋃

k=0

Ak et+∞⋂

k=0

Ak =n⋂

k=0

Ak.

190

On voit donc qu’une tribu est également stable par réunion et intersection finie.

Le tableau suivant définit un certain nombre de termes du vocabulaire des probabilités, enparallèle avec le vocabulaire ensembliste :

Vocabulaire ensembliste Vocabulaire des probabilitésEnsemble Ω Univers, événement certainÉlément ω de Ω Issue (ou résultat possible, ou réalisation)A ∈ A (A ∈ P(Ω) si Ω est fini) Événement Aω ∈ A L’issue ω réalise l’événement ASi Ω est fini par exemple : singleton ω Événement élémentaireEnsemble vide ∅ Événement impossible (jamais réalisé)Réunion A ∪B Événement « A ou B »Réunion

⋃+∞n=0An Événement « l’un au moins des An est réalisé »

Intersection A ∩B Événement « A et B »Intersection

⋂+∞n=0An Événement « tous les An sont réalisés »

Complémentaire A = Ω \ A Événement contraireParties disjointes : A ∩B = ∅ Événements incompatibles

On appelle système complet (dénombrable) d’événements toute suite (An)n∈N

d’événements telle que :

• Les événements An sont deux à deux incompatibles,

•+∞⋃

n=0

An = Ω.

Définition – Système complet d’événements

Remarques

• On définit comme en première année les systèmes complets (finis) d’événements, les An étanten nombre fini.

• Un système complet d’événement permet de partitionner l’univers en plusieurs événements, cequi permet de faire des disjonctions de cas dans les raisonnements.

Exemples

• Si A est un événement, (A,A) est un système complet d’événements.

• On lance un dé à six faces. Pour n ∈ [[1,6]], on note An l’événement « le numéro obtenu est n ».La famille (Ai)16i66 est un système complet d’événements.

Soient Ω un ensemble et A une tribu sur Ω. On appelle probabilité sur (Ω,A ) uneapplication P : A → [0,1] telle que :

• P (Ω) = 1,

• Pour toute suite (An)n∈N d’éléments de A deux à deux incompatibles, la série∑

n>0 P (An) converge et

P

(+∞⋃

n=0

An

)

=

+∞∑

n=0

P (An).

Lorsque P est une probabilité sur (Ω,A ), on dit que le triplet (Ω,A , P ) est un espaceprobabilisé.

Deux événements A et B tels que P (A) = P (B) sont dits équiprobables.

Définition – Probabilité

191

Remarques

• La probabilité d’un événement A s’interprète comme la « mesure » de l’ensemble des issuesconstituant A relativement à l’ensemble des issues. C’est, de façon imagée, le « poids relatif », laproportion de A dans l’univers Ω.

• Si (An)n∈N est un système complet d’événements,∑

n>0 P (An) converge et a pour somme 1.

Cas des univers finis

Si Ω est un ensemble fini de cardinal N , la définition précédente est équivalente à la définitiondonnée en première année, dans laquelle le deuxième point était remplacé par la propriété :

si A et B sont deux événements incompatibles, P (A ∪B) = P (A) + P (B).

Dans ce cas, on choisit toujours A = P(Ω). On dit alors simplement que le couple (Ω,P ) est unespace probabilisé fini. Avec la règle de calcul ci-dessus, la fonction P est entièrement déterminéepar la donnée des probabilités des événements élémentaires : pour tout A ∈P(Ω),

P (A) =∑

ω∈A

P (ω).

On définit la probabilité uniforme sur Ω en posant, pour tout ω ∈ Ω, P (ω) = 1/N , c’est-à-dire que tous les événements élémentaires sont équiprobables. C’est le cas dans le deuxièmeexemple décrit plus haut (lancer de dé). On a alors, pour tout événement A,

P (A) =∑

ω∈A

P (ω) = card(A)1

N=

card(A)

card(Ω),

ce que l’on résume souvent ainsi :

P (A) =nombre de cas favorablesnombre de cas possibles

.

Le fait de choisir la probabilité uniforme est souvent signalé par des expressions comme « la pièceest équilibrée », « le dé est équilibré », « les billes sont indiscernables au toucher et le contenude l’urne est soigneusement mélangé », etc...

On remarque immédiatement que la situation est plus complexe lorsque l’univers est infini :il n’est pas possible de généraliser la notion précédente de probabilité uniforme.

Cas des univers dénombrables

Soit Ω un ensemble dénombrable, avec Ω = ωn; n ∈ N, et soit (pn)n∈N une suite de nombrespositifs telle que la série

∑

n>0 pn soit convergente et de somme 1. Si A ∈ P(Ω), on poseP (A) =

∑

ωn∈A pn. Alors on pourra vérifier que (Ω,P(Ω), P ) est un espace probabilisé, pn étantpour tout n ∈ N la probabilité de l’événement élémentaire ωn.

Dans ce qui précède, la notation∑

ωn∈A pn est intuitive, mais lorsque Ω est dénombrable, ilconvient de l’expliquer. Dans ce cas, A est lui-même fini ou dénombrable, et peut-être décrit enextension sous la forme (ωϕ(1), . . . , ωϕ(m)) (où m = card(A)) ou ωϕ(k); k ∈ N (où ϕ : N → N

est strictement croissante). Alors∑

ωn∈A pn s’exprime comme une somme finie ou une somme desérie convergente :

∑

ωn∈A

pn =m∑

k=1

pϕ(k) ou∑

ωn∈A

pn =+∞∑

k=0

pϕ(k).

Par exemple, si Ω = N et A = 2N = 2k; k ∈ N, alors P (A) =∑+∞

k=0 P (2k).Exemples

• Une personne participe à un jeu dans lequel elle remporte une somme d’argent (un nombreentier naturel d’euros) déterminée de façon aléatoire. On modélise ce jeu de la façon suivante :

192

Ω = N, l’événement « la personne gagne n euros » est le singleton n. On pose p0 = 0 et, pourtout n ∈ N∗,

pn = P (n) =1

2n.

La série∑

n>1 pn (série géométrique de raison 1/2 et de premier terme 1/2) converge et

+∞∑

n=0

pn =+∞∑

n=1

1

2n=

1

2

1

1− 1/2= 1.

Le triplet (N,P(N),P ) est un espace probabilisé modélisant cette expérience.

Considérons l’événement A suivant : « la personne remporte une somme paire ». On a alors

A = ω ∈ N; ∃ k ∈ N, ω = 2k =

+∞⋃

k=0

2k.

Les événements 2k sont deux à deux incompatibles, donc par définition d’une probabilité,

P (A) =

+∞∑

k=0

P (2k) = p0 +

+∞∑

k=1

p2k =

+∞∑

k=1

1

22k=

1

4

1

1− 1/4=

1

3.

Fixons p ∈ N et considérons l’événement Sp suivant : « la personne remporte une somme stric-tement supérieure à p euros ». On a alors

Sp = ω ∈ N; ∃n ∈ N; n > p, ω = n =

+∞⋃

n=p+1

n.

Les événements n pour n > p sont deux à deux incompatibles, donc

P (Sp) =+∞∑

n=p+1

P (n) =+∞∑

n=p+1

1

2n=

1

2p+1

1

1− 1/2=

1

2p.

La personne a autant de chances de remporter exactement p euros que de remporter une sommeau moins égale à p+ 1 euros.

• Jeu de pile ou face infini. L’expérience consistant à lancer indéfiniment une pièce peut-êtremodélisée par le choix de Ω = 0,1N∗

des suites à termes dans 0,1 indexées à partir de 1 (0représente « face », 1 représente « pile »). Cet ensemble n’est pas dénombrable, il n’est alors pasévident de définir une tribu A sur Ω et une probabilité sur (Ω,A ). On peut montrer qu’il existeune tribu A sur Ω qui contient toutes les parties de Ω constituées des éléments dont les premierstermes sont imposés, c’est-à-dire les parties

Cu1,...,uk= ω = (ωn)n>1; ω1 = u1, . . . , ωk = uk

où k ∈ N∗ et (u1, . . . , uk) ∈ 0,1k représente les k premiers termes imposés. Ce sont desévénements naturels. Il existe alors une probabilité P sur (Ω,A ) telle que, avec les notationsprécédentes,

P (Cu1,...,uk) =

1

2k.

Par exemple :

– « le résultat du second lancer est pile » est un événement : il s’agit de C0,1 ∪ C1,1;– « on n’obtient jamais pile » est un événement : il s’agit de A0 =

⋂+∞k=1Cu1,...,uk

où tous lesun sont nuls ;

– pour tout n ∈ N∗, « on obtient pile pour la première fois au n-ième lancer » est un événe-ment : il s’agit de An = C0,...,0,1 (0 apparaissant n− 1 fois).

193

La famille (An)n∈N est un système complet dénombrable d’événements.

• Il existe une tribu A sur [0,1] qui contient les segments inclus dans [0,1], et une probabilité Psur (Ω,A ) telle que pour tout segment [a,b] inclus dans [0,1], on ait P ([a,b]) = b − a. L’espaceprobabilisé ([0,1],A , P ) peut modéliser par exemple l’expérience consistant à noter le momentoù une particule se désintègre, l’intervalle de temps étant ramené à [0,1] si l’on est sûr que ladésintégration a lieu avant un temps connu.

Remarques

• Un événement peut tout à fait avoir une probabilité nulle sans être impossible. C’est le cas detous les singletons dans l’exemple précédent. En particulier, la définition P (A) =

∑

ω∈A P (ω)est impossible à généraliser dans ce cadre.

• Lorsque Ω n’est pas dénombrable, P n’est presque jamais définie en donnant la probabilité detous les événements ; on peut par exemple donner (en analysant les conditions de l’expérience) laprobabilité d’événements fondamentaux à partir desquels on peut retrouver toutes les probabilitéssouhaitées, en utilisant les règles de calculs imposées. Dans l’exemple du jeu de pile ou face infini,l’événement A : « le résultat du second lancer est pile » est la réunion des deux événementsincompatibles C0,1 et C1,1, chacun de probabilité 1/4 ; on a donc (voir la propriété suivante)P (A) = 1/2.

Ce raisonnement se généralise et montre que pour tout k ∈ N∗, la probabilité d’obtenir krésultats fixés est 1/2k (et en particulier, à chaque lancer, la probabilité d’obtenir « pile » est1/2) : en fait, cette modélisation porte en elle le fait que la pièce est équilibrée et que chaquelancer est indépendant de tous les autres (cette notion sera précisée dans la suite).

2. Propriétés élémentaires

Soit (Ω,A , P ) un espace probabilisé. Alors :

• P (∅) = 0.

• Pour tout événement A, P (A) = 1− P (A).

• Si n ∈ N et A0, . . . ,An sont des événements deux à deux incompatibles, l’événement⋃n

k=0Ak vérifie

P

(n⋃

k=0

Ak

)

=

n∑

k=0

P (Ak).

• Si A et B sont des événements avec A ⊂ B, alors P (A) 6 P (B).

• Si A et B sont des événements, l’événement A ∪B vérifie

P (A ∪B) = P (A) + P (B)− P (A ∩B).

• Si n ∈ N et A0, . . . , An sont des événements,

P

(n⋃

k=0

Ak

)

6

n∑

k=0

P (Ak).

Propriété

Démonstration

• Posons Bn = ∅ pour tout n ∈ N. Les événements Bn sont deux à deux incompatibles donc∑

n>0 P (Bn) =∑

n>0 P (∅) converge. Cette série étant à termes constant, on a P (∅) = 0.

• Posons B0 = A, B1 = A et Bn = ∅ si n > 2. Les Bn sont des événements deux à deuxincompatibles donc la série

∑

n>0 P (Bn) converge et

P

(+∞⋃

n=0

Bn

)

=

+∞∑

n=0

P (Bn), i.e. P (Ω) = P (A) + P (A) d’après le point 1.

194

Sachant que P (Ω) = 1, on obtient le résultat.

• Posons Ak = ∅ pour tout k > n+ 1. Les Ak sont deux à deux incompatibles, donc

P

(n⋃

k=0

Ak

)

= P

(+∞⋃

k=0

Ak

)

=

+∞∑

k=0

P (Ak) =

n∑

k=0

P (Ak).

• On écrit B = A ∪ (B ∩A). Les événements A et B ∩A = B \ A sont incompatibles, donc

P (B) = P (A) + P (B ∩A) > P (A).

• Posons B0 = A ∩B, B1 = A ∩B, B2 = A ∩B. Alors B0, B1 et B2 sont des événements deuxà deux incompatibles et A ∪B = B0 ∪B1 ∪B2, donc d’après le point précédent,

P (A ∪B) = P (A ∩B) + P (A ∩B) + P (A ∩B).

Mais on a également

P (A) = P (A ∩B) + P (A ∩B) et P (B) = P (A ∩B) + P (A ∩B).

AinsiP (A ∪B) = P (A)− P (A ∩B) + P (B)− P (A ∩B) + P (A ∩B)

= P (A) + P (B)− P (A ∩B).

On remarquera en particulier que P (A ∪B) 6 P (A) + P (B).

• On prouve cette dernière propriété par récurrence sur n, à partir de l’inégalité ci-dessus.

Soient (Ω,A , P ) un espace probabilisé et (An)n∈N une suite d’événements.

• Continuité croissante : si pour tout n ∈ N, An ⊂ An+1, alors

P (An) −→n→+∞

P

(+∞⋃

k=0

Ak

)

.

• Continuité décroissante : si pour tout n ∈ N, An+1 ⊂ An, alors

P (An) −→n→+∞

P

(+∞⋂

k=0

Ak

)

.

• Sous-additivité : si∑

n>0 P (An) converge, alors

P

(+∞⋃

n=0

An

)

6

+∞∑

n=0

P (An).

Propriété – Suites monotones d’événements, sous-additivité

Démonstration

• Posons B0 = A0 et pour tout k ∈ N∗, Bk = Ak ∩Ak−1 = Ak \Ak−1. Alors

+∞⋃

k=0

Ak =+∞⋃

k=0

Bk,

les événements Bk étant deux à deux incompatibles : s’il existait (n,m) ∈ N2 tel que n < m etBn ∩ Bm 6= ∅, on pourrait trouver un élément ω de An n’appartenant pas à Am−1, ce qui estabsurde car An ⊂ Am−1.

195

Mais, d’après la démonstration de la propriété précédente, pour tout k ∈ N∗,

P (Ak ∩Ak−1) = P (Ak)− P (Ak−1).

Finalement,

P

(+∞⋃

k=0

Ak

)

=

+∞∑

k=0

P (Bk) = P (B0) +

+∞∑

k=1

P (Ak ∩Ak−1) = P (A0) +

+∞∑

k=1

(P (Ak)− P (Ak−1)).

On reconnaît une somme de série télescopique, et on conclut en rappelant que pour tout n ∈ N∗,

n∑

k=1

(P (Ak)− P (Ak−1)) = P (An)− P (A0).

• Posons, pour tout k ∈ N, Bk = Ak. Alors, pour tout k ∈ N, Bk est un événement et Bk ⊂ Bk+1.D’après le point précédent,

P (Bn) −→n→+∞

P

(+∞⋃

k=0

Bk

)

,

c’est-à-dire

1− P (An) −→n→+∞

1− P(

+∞⋂

k=0

Bk

)

= 1− P(

+∞⋂

k=0

Ak

)

,

d’où le résultat. On remarquera que la suite (P (An))n∈N est décroissante.

• Posons, pour tout n ∈ N, Bn =⋃n

k=0Ak. Alors pour tout n ∈ N, Bn est un événement etBn ⊂ Bn+1, donc d’après la propriété de continuité croissante,

P (Bn) −→n→+∞

P

(+∞⋃

k=0

Bk

)

= P

(+∞⋃

k=0

Ak

)

.

Mais d’après le dernier point de la propriété précédente, on obtient, pour tout n ∈ N,

P (Bn) 6

n∑

k=0

P (Ak).

En passant à la limite lorsque n→ +∞, on obtient l’inégalité souhaitée.

Exemples

• Dans le jeu de pile ou face infini, soit A l’événement « on obtient pile au moins deux fois », etpour tout n > 2, An l’événement « on obtient pile au moins deux fois au cours des n premierslancers ». Réaliser An revient à obtenir pile aucune fois ou une fois exactement au cours des npremiers lancers : An est la réunion des événements deux à deux incompatibles Cu1,...,un où lesui sont tous nuls, ou bien tous nuls sauf un. Ces événements sont au nombre de n+1 et ont touspour probabilité 1/2n, donc

P (An) = 1− n+ 1

2n.

De plus, pour tout n > 2, An ⊂ An+1 ; enfin, A =⋃+∞

n=2An. Ainsi,

P (A) = limn→+∞

P (An) = 1

par croissances comparées.

• Soit (Ak)k∈N une suite d’événements. Pour tout n ∈ N, notons Bn l’événement⋃+∞

k=nAk ;notons également B l’événement

⋂+∞n=0Bn. Ainsi,

B =+∞⋂

n=0

(+∞⋃

k=n

Ak

)

.

196

Il s’agit de l’événement « une infinité des Ak sont réalisés ». En effet, ω ∈ B si et seulement sipour tout n ∈ N, il existe k > n tel que ω ∈ Ak, ce qui équivaut au fait que ω appartient à uneinfinité de Ak.

Supposons que la série∑

k>0 P (Ak) converge. Pour tout n ∈ N,B ⊂ Bn, donc P (B) 6 P (Bn).Or, d’après la propriété de sous-additivité et le fait que

∑

k>0 P (Ak) converge, on a pour toutn ∈ N,

P (Bn) 6

+∞∑

k=n

P (Ak),

le majorant tendant vers 0 en tant que reste d’une série convergente. Une probabilité étantpositive, on en déduit que P (Bn)→ 0, et donc P (B) = 0. Cette propriété s’écrit ainsi : presquesûrement, le nombre des événements An qui sont réalisés est fini.

III. Probabilités conditionnelles

1. Conditionnement

Lors d’une expérience aléatoire, le fait de savoir (ou d’imaginer) qu’un événement est réalisérevient à ajouter de l’information sur l’expérience, et peut modifier notre façon de calculer laprobabilité de certains événements. C’est ce que l’on appelle les probabilités conditionnelles. Soit(Ω,A , P ) un espace probabilisé. Supposons que A soit un événement tel que P (A) > 0. Calculerla probabilité qu’un événement B soit réalisé en sachant que l’événement A est réalisé revient àconsidérer, parmi les issues qui réalisent A, celles qui réalisent également B. Tout se passe commesi, pour ce calcul, on considérait l’expérience aléatoire à travers le « filtre » de l’événement A,comme si l’on considérait A comme univers.

Soit A un événement tel que P (A) > 0. Pour tout événement B, on appelle probabilitéconditionnelle de B sachant A le réel, noté PA(B) ou P (B |A), défini par

PA(B) =P (A ∩B)

P (A).

On a donc P (A ∩B) = P (B |A)P (A).

Définition – Probabilité conditionnelle

Remarque – Sachant que A∩B ⊂ A, on a P (A ∩B) 6 P (A), et donc avec le fait que P (A) > 0,on a PA(B) ∈ [0,1].

Exemple – Reprenons l’exemple du petit déjeuner exposé au début de ce chapitre, avec la proba-bilité définie par le tableau suivant :

ω (1,C) (1,T ) (2,C) (2,T ) (3,C) (3,T ) (4,C) (4,T )

P (ω) 0,2 0,05 0,1 0,15 0,05 0,3 0,05 0,1

Notons A l’événement « la personne se lève à 7h00 » (i.e., l’ensemble des issues ω dont lapremière composante est 1) et B l’événement « la personne choisit des céréales » (i.e., l’ensembledes issues ω dont la deuxième composante est C). Alors on a

P (A) = 0,2 + 0,05 = 0,25, P (B) = 0,2 + 0,1 + 0,05 + 0,05 = 0,4

P (B |A) =P (A ∩B)

P (A)=

0,2

0,25=

4

5, P (A |B) =

P (A ∩B)

P (B)=

0,2

0,4=

1

2.

On notera que le calcul d’une probabilité conditionnelle n’est pas à confondre avec un liende cause à effet, on peut calculer P (A |B) même si la personne se lève avant de déjeuner !Simplement, quelqu’un arrivant chez cette personne après son déjeuner, voyant un bol vide sur

197

la table (et disposant du tableau précédent), peut affirmer qu’il y a une chance sur deux quela personne se soit levée à 7h00. Sans cette information, on pouvait donner une probabilitéP (A) = 0,25, deux fois moindre !

Soit A un événement tel que P (A) > 0. L’application

PA :

A → [0,1]B 7→ PA(B)

est une probabilité sur (Ω,A ), appelée probabilité conditionnelle sachant A.

Propriété/Définition – Probabilité conditionnelle

Démonstration – On a remarqué plus haut que PA est à valeurs dans [0,1]. On a

PA(Ω) =P (Ω ∩A)

P (A)=P (A)

P (A)= 1.

Enfin, si (Bn)n∈N est une suite d’événements deux à deux incompatibles, on a

PA

(+∞⋃

n=0

Bn

)

=1

P (A)P

(

A ∩+∞⋃

n=0

Bn

)

=1

P (A)P

(+∞⋃

n=0

(A ∩Bn)

)

.

Les événements Bn sont deux à deux incompatibles, donc les événements A ∩Bn également ; Pétant une probabilité, on a alors

PA

(+∞⋃

n=0

Bn

)

=1

P (A)

+∞∑

n=0

P (A ∩Bn) =+∞∑

n=0

P (A ∩Bn)

P (A)=

+∞∑

n=0

PA(Bn).

On a vérifié les différentes propriétés qui font de PA une probabilité sur (Ω,A ).

Remarque – Si P (A) = 0, afin que l’égalité P (A ∩B) = P (B |A)P (A) reste valable, on pose par

convention P (B |A)P (A) = 0 (mais le terme P (B |A) seul n’est pas défini dans ce cas).

2. Propriétés et utilisation des probabilités conditionnelles

Soient A1, . . . ,Ap des événements (p > 2) tels que P (A1 ∩ · · · ∩Ap−1) > 0. Alors

P (A1 ∩ · · · ∩Ap) = P (A1)P (A2 |A1)P (A3 |A1 ∩A2) · · ·P (Ap |A1 ∩ · · · ∩Ap−1).

Propriété – Formule des probabilités composées

Démonstration – On procède par récurrence sur le nombre p > 2 d’événements :

Initialisation (p = 2) : cela résulte de la définition de P (A2 |A1) (on a P (A1) > 0 par hypo-thèse).

Hérédité : supposons le résultat vrai pour un nombre p > 2 d’événements, et considéronsA1, . . . ,Ap+1 des événements tels que P (A1 ∩ · · · ∩Ap) > 0. Alors, par définition

P (A1 ∩ · · · ∩Ap+1) = P (Ap+1 |A1 ∩ · · · ∩Ap)P (A1 ∩ · · · ∩Ap).

Or on a également P (A1 ∩ · · · ∩Ap−1) > 0, et donc par hypothèse de récurrence,

P (A1 ∩ · · · ∩Ap) = P (A1)P (A2 |A1)P (A3 |A1 ∩A2) · · ·P (Ap |A1 ∩ · · · ∩Ap−1).

Des deux égalités précédentes, on déduit le résultat au rang p+ 1 et finalement pour tout p > 2par principe de récurrence.

198

Remarque – On réalise parfois des arbres pour représenter une expérience aléatoire. La formuledes probabilités composées traduit le fait que la probabilité d’un chemin est le produit desprobabilités des arêtes qui le composent.

Exemple – Une personne qui se rend au restaurant prend uniquement un plat une fois sur trois,un menu sinon (événement M). Lorsqu’elle prend un menu, elle choisit de la viande (événementV ) une fois sur deux. Dans ce cas, elle prend un café (événement C) trois fois sur quatre.Les données du problème se traduisent de la manière suivante :

P (M) = 1− 1

3=

2

3, P (V |M) =

1

2, P (C |M ∩ V ) =

3

4.

La probabilité pour que la personne choisisse un menu avec viande puis café est, d’après laformule des probabilités composées,

P (M ∩ V ∩ C) = P (M)P (V |M)P (C |M ∩ V ) =2

3

1

2

3

4=

1

4.

Soient (An)n∈N un système complet d’événements et B un événement. Alors la série∑

n>0 P (B ∩An) converge, et on a

P (B) =+∞∑

n=0

P (B ∩An) =+∞∑

n=0

P (B |An)P (An).

Le résultat précédent reste valable dans le cas plus général suivant :

(An)n∈N est une suite d’événements deux à deux incompatibles tels que+∞∑

n=0

P (An) = 1.

Propriété – Formule des probabilités totales

Démonstration – Il suffit de faire la démonstration sous la deuxième hypothèse, puisqu’elle estplus générale. On se place donc dans ce cadre. Tout d’abord, la série

∑

n>0 P (B ∩An) converge,car les événements B ∩ An sont deux à deux incompatibles. De plus, notons N l’événementΩ \⋃+∞

n=0An. Les An étant deux à deux incompatibles,

P

(+∞⋃

n=0

An

)

=

+∞∑

n=0

P (An) = 1

et donc P (N) = 0. En particulier, P (B ∩N) = 0. On a alors

B = B ∩ Ω = B ∩(

N ∪+∞⋃

n=0

An

)

= (B ∩N) ∪+∞⋃

n=0

(B ∩An).

Les An et N forment une famille d’événements deux à deux incompatibles, donc c’est aussi lecas des B ∩An et de B ∩N , et on a finalement

P (B) = P (B ∩N) +

+∞∑

n=0

P (B ∩An) =

+∞∑

n=0

P (B ∩An) =

+∞∑

n=0

P (B |An)P (An).

Cas particulier – Lorsque A est un événement, (A,A) est un système complet d’événements,donc pour tout événement B,

P (B) = P (B |A)P (A) + P (B |A)P (A).

199

• Soient A et B deux événements tels que P (B) > 0. Alors

P (A |B) =P (B |A)P (A)

P (B).

• Soient B un événement tel que P (B) > 0 et (An)n∈N une suite d’événements deux à

deux incompatibles tels que+∞∑

n=0

P (An) = 1. Alors, pour tout j ∈ N,

P (Aj |B) =P (B |Aj)P (Aj)

+∞∑

n=0

P (B |An)P (An)

.

Propriété – Formules de Bayes

Démonstration

• Sachant que P (B) > 0, on peut écrire

P (B |A)P (A)

P (B)=P (A ∩B)

P (B)= P (A |B).

• Il suffit de reprendre la même idée en écrivant de plus que P (B) =

+∞∑

n=0

P (B |An)P (An) d’après

la formule des probabilités totales.

Exemple – On présente à un candidat trois coffres fermés. L’un des coffres contient un lingot d’or,les deux autres sont vides. Le candidat choisit un coffre ; l’organisateur, qui connaît l’emplacementdu lingot, dévoile, parmi les coffres non choisis, un coffre vide (de façon équiprobable lorsque lecandidat a choisi le bon coffre). On propose alors au candidat de maintenir son choix ou dechanger de coffre, puis d’ouvrir le coffre choisi. Quelle est la meilleure stratégie ?

Numérotons 1 le coffre choisi par le candidat au début du jeu, et 2, 3 les deux autres coffres.Pour i ∈ 2,3, notons Ci l’événement « l’organisateur ouvre le coffre i » et pour i ∈ 1,2,3, Li

l’événement « le lingot se trouve dans le coffre i ».Le problème revient à comparer P (L1 |C2) et P (L1 |C2) = 1 − P (L1 |C2). D’après la secondeformule de Bayes,

P (L1 |C2) =P (C2 |L1)P (L1)

P (C2 |L1)P (L1) + P (C2 |L2)P (L2) + P (C2 |L3)P (L3)

=

1

2· 13

1

2· 13

+ 0 · 13

+ 1 · 13

=1

3.

On obtient le même résultat pour P (L1 |C3). La meilleure stratégie est donc de changer decoffre !

On remarquera que l’on n’a pas eu besoin de préciser Ω pour répondre à la question, maissimplement de traduire les conditions de l’expérience. On peut souvent admettre l’existence de(Ω,A , P ).

200

IV. Événements indépendants

Dans de nombreuses situations, le fait de savoir qu’un événement A est réalisé n’apporte rienpour le calcul de la probabilité d’un événement B. C’est la notion d’événements indépendants :

Soient A et B deux événements. On dit que A et B sont indépendants si

P (A ∩B) = P (A)P (B).

Si P (A) > 0, ceci équivaut à : P (B |A) = P (B).

Propriété/Définition : Événements indépendants

L’équivalence des deux propriétés lorsque P (A) > 0 est immédiate car

P (B |A) =P (A ∩B)

P (A).

On remarquera cependant que la deuxième formulation n’est pas symétrique en A et B, alorsque la première l’est.

Soient A1, . . . ,Ap des événements. On dit que A1, . . . ,Ap sont mutuellement indé-pendants si pour tout sous-ensemble J de [[1,p]], on a

P

(⋂

n∈J

An

)

=∏

n∈J

P (An).

Définition – Événements mutuellement indépendants

Des événements A1, . . . ,Ap mutuellement indépendants sont deux à deux indépendants.

La réciproque est fausse en général : si n > 3, l’indépendance de n événements deux àdeux n’entraîne pas leur indépendance mutuelle.

Propriété – Indépendance mutuelle / indépendance deux à deux

Démonstration – Si A1, . . . ,Ap sont mutuellement indépendants, alors pour tout (i,j) ∈ [[1,p]] telsque i 6= j, en choisissant J = i,j dans la définition, on obtient

P (Ai ∩Aj) = P (Ai)P (Aj).

Donc A1, . . . ,Ap sont deux à deux indépendants.

En revanche, considérons l’exemple suivant : on dispose de quatre livres, un livre de mathé-matiques, un livre de physique, un livre de chimie, et un livre mathématiques-physique-chimie.On choisit au hasard, avec la probabilité uniforme, un livre parmi les quatre. Notons M , ϕ et Cles événements « le livre choisi traite notamment de mathématiques » (respectivement physique,chimie). On a

P (M ∩ ϕ) = P (M ∩ C) = P (ϕ ∩ C) =1

4

P (M)P (ϕ) = P (M)P (C) = P (ϕ)P (C) =

(2

4

)2

=1

4

donc les événements M , ϕ et C sont deux à deux indépendants. Pourtant, ils ne sont pas mu-tuellement indépendants car

P (M ∩ ϕ ∩C) =1

4et P (M)P (ϕ)P (C) =

(2

4

)3

=1

8.

201

Remarque – Si A et B sont indépendants, alors A et B sont indépendants : en effet,

P (A) = P (A ∩B) + P (A ∩B) = P (A)P (B) + P (A ∩B)

et doncP (A ∩B) = P (A)(1 − P (B)) = P (A)P (B).

Plus généralement, si A1, . . . ,Ap sont mutuellement indépendants, et si pour tout i ∈ [[1,p]],Bi = Ai ou Bi = Ai, alors B1, . . . ,Bp sont mutuellement indépendants.

Exemples

• Lors d’un parcours à vélo, les événements « le trajet est parcouru en moins de n minutes » etl’événement « il y a un vent de face de 40 km/h » ne sont sans doute pas toujours indépendants !

• L’indépendance entre événements relève parfois de la modélisation : on postule que certainsévénements fondamentaux sont indépendants.

Par exemple, dans un jeu de pile ou face, on considère dans la plupart des cas que les lancerssont mutuellement indépendants. Ce type d’expérience sera d’ailleurs plutôt modélisé ainsi, enfaisant l’hypothèse qu’à chaque lancer, « pile » et « face » ont des probabilités d’apparitionrespectives p et q = 1− p, et l’hypothèse d’indépendance mutuelle des lancers.

Lorsque p = q = 1/2, le fait que pour tout n ∈ N∗, les événements consistant à fixer lesrésultats des n premiers lancers aient pour probabilité 1/2n, est alors une conséquence de cettemodélisation, ce qui est une démarche peut-être plus naturelle que de postuler ces probabilités.

Par exemple, l’événement « pile apparaît pour la première fois au n-ième lancer » a pourprobabilité 1/2n (car il correspond à n−1 premiers résultats « face » suivis d’un résultat « pile »).De plus, l’événement « tous les lancers donnent face » est de probabilité nulle : pour tout n ∈ N∗,cet événement est inclus dans un événement de probabilité 1/2n, celui consistant à fixer n premiersrésultats « face ». Il suffit alors de faire tendre n vers +∞.

202

Chapitre 10

Intégrales généralisées

Le but de ce chapitre est de définir l’intégrale d’une fonction continue par morceaux sur unintervalle quelconque de R ; a et b désignent deux éléments de R ∪ ±∞ tels que a < b (avecdes conventions évidentes si a et/ou b est infini), et I désigne un intervalle d’extrémités a etb. L’intervalle I peut donc être de l’une des quatre formes suivantes : [a,b] (avec a et b finis),[a,b[ (avec a fini), ]a,b] (avec b fini), ou ]a,b[. On remarquera que le premier cas correspond àl’intégrale sur un segment, et a donc été étudié dans le chapitre Dérivation et intégrationdes fonctions de R dans K. Enfin, K désigne R ou C.

I. Convergence des intégrales généralisées

1. Définitions

Soit f : I → K une fonction continue par morceaux.

• Si I = [a,b[, on dit que l’intégrale généralisée∫ b

af(t) dt est convergente si la fonction

x 7→∫ x

af(t) dt possède une limite dans K lorsque x→ b−.

• Si I = ]a,b], on dit que l’intégrale généralisée∫ b

af(t) dt est convergente si la fonction

x 7→∫ b

xf(t) dt possède une limite dans K lorsque x→ a+.

Dans les deux cas précédents, en cas de convergence, la limite est notée∫ b

af(t) dt.

• Si I = ]a,b[, on dit que l’intégrale généralisée∫ b

af(t) dt est convergente s’il existe

c ∈ ]a,b[ tel que les deux intégrales généralisées∫ c

af(t) dt et

∫ b

cf(t) dt soient conver-

gentes. Dans ce cas, on pose

∫ b

af(t) dt =

∫ c

af(t) dt +

∫ b

cf(t) dt = lim

x→a+

∫ c

xf(t) dt+ lim

y→b−

∫ y

cf(t) dt.

• Dans tous les cas, on dit que l’intégrale est divergente si elle n’est pas convergente.

Définition – Convergence d’une intégrale généralisée

Remarques

• On appelle nature d’une intégrale généralisée son caractère convergent ou divergent.

• Par définition, f est continue par morceaux sur I si elle est continue par morceaux sur toutsegment de I. Ainsi, lorsque I = [a,b[ par exemple, alors pour tout x ∈ [a,b[, l’intégrale

∫ xa f(t) dt

apparaissant dans la définition est l’intégrale usuelle de f sur le segment [a,x].

203

• Ces définitions sont très similaires à celles de série et de somme de série convergente.

En revanche, pour les séries, on distinguait les notations∑

n>0 un (la suite des sommes

partielles) et, en cas de convergence,∑+∞

n=0 un (la somme de la série). Ici, la même notation estutilisée pour désigner l’intégrale généralisée de f « avant de savoir si elle converge ou diverge », etsa valeur en cas de convergence. Il faut donc être particulièrement vigilant sur le sens des objetsutilisés, et notamment, ne pas faire de calculs ou de majorations sur des intégrales généraliséesavant d’avoir prouvé la convergence de tous les termes.

• L’intervalle I n’est pas toujours directement donné : lorsque l’on étudie la convergence d’uneintégrale généralisée

∫ ba f(t) dt, il y a trois formes possibles pour I. En pratique, on identifie le

plus grand intervalle I d’extrémités a et b sur lequel f est continue par morceaux, et on commencetoujours la rédaction par une phrase du type « f est continue par morceaux sur I ».

2. Intégrales de référence

Les intégrales généralisées suivantes sont d’utilisation très fréquente. Leur nature est explici-tement au programme, mais pas la valeur des deux dernières en cas de convergence.

Intégrales de Riemann sur [1,+∞[ :∫ +∞

1

dt

tα, où α ∈ R.

La fonction t 7→ 1/tα est continue (et donc continue par morceaux) sur [1,+∞[. Pour x > 1,

∫ x

1

dt

tα=

[t1−α

1− α

]x

1

=1

α− 1

(

1− 1

xα−1

)

si α 6= 1

ln(x) si α = 1.

On en déduit que l’intégrale est convergente si et seulement si α > 1, et dans ce cas

∫ +∞

1

dt

tα=

1

α− 1.

Intégrales de Riemann sur ]0,1] :∫ 1

0

dt

tα, où α ∈ R.

La fonction t 7→ 1/tα est continue sur ]0,1]. Pour x ∈ ]0,1],

∫ 1

x

dt

tα=

[t1−α

1− α

]1

x

=1

1− α(1− x1−α

)si α 6= 1

− ln(x) si α = 1.

On en déduit que l’intégrale est convergente si et seulement si α < 1, et dans ce cas

∫ 1

0

dt

tα=

1

1− α.

∫ +∞

0e−αt dt où α ∈ R. La fonction t 7→ e−αt est continue sur [0,+∞[. Pour tout x > 0,

∫ x

0e−αt dt =

[

− 1

αe−αt

]x

0

=1

α(1− e−αx) si α 6= 0

x si α = 0

On en déduit que l’intégrale converge si et seulement si α > 0, et dans ce cas

∫ +∞

0e−αt dt =

1

α.

204

∫ 1

0ln(t) dt. La fonction ln est continue sur ]0,1]. Pour tout x ∈ ]0,1], une intégration par parties

(les fonctions t 7→ t et t 7→ ln(t) étant de classe C1 sur [x,1]) montre que

∫ 1

xln(t) dt = [t ln(t)− t]1x = −x ln(x) + x− 1 −→

x→0+−1.

L’intégrale est donc convergente et∫ 1

0ln(t) dt = −1.

3. Lien avec l’intégrale sur un segment

Lorsque f est continue par morceaux sur le segment [a,b] (a et b finis), la notion d’intégralegénéralisée coïncide avec la notion usuelle définie dans le chapitre Dérivation et intégrationdes fonctions de R dans K.

Soit f : [a,b]→ K une application continue par morceaux (a est b sont finis).

Alors les trois intégrales de f sur [a,b[, ]a,b] et ]a,b[ sont convergentes, et leur valeur estl’intégrale « usuelle »

∫

[a,b] f.

Propriété

Démonstration – La fonction f est continue par morceaux sur [a,b], elle est donc bornée, d’où,pour x ∈ [a,b[,

∣∣∣∣∣

∫ x

af(t) dt−

∫

[a,b]f

∣∣∣∣∣=

∣∣∣∣−∫ b

xf(t) dt

∣∣∣∣6 (b− x)‖f‖∞ −→

x→b−0.

On en déduit le résultat dans le cas de l’intégrale sur [a,b[. On procède de façon similaire pourl’intégrale sur ]a,b], puis, pour l’intégrale sur ]a,b[, on découpe les intégrales sur [x,y] ⊂ ]a,b[ etsur [a,b] en deux, grâce à une borne c ∈ ]a,b[ quelconque, et on applique les résultats des deuxautres cas.

On en déduit en particulier le résultat suivant :

Si b est fini, soit f : [a,b[→ K une fonction continue qui admet une limite dans K en

b−. Alors∫ b

af(t) dt est convergente. On parle de faux problème en b.

Propriété

Démonstration – Dans ce cas, f est prolongeable par continuité en b en une fonction f continuesur [a,b]. Alors, pour x ∈ [a,b[,

∫ x

af(t) dt =

∫ x

af(t) dt −→

x→b−

∫ b

af(t) dt.

L’intégrale est donc convergente.

Exemple – L’intégrale∫ 2π

0

sin(t)

tdt est convergente : t 7→ sin(t)/t est continue sur ]0,1] et

sin(t)

t−→t→0

sin′(0) = 1. Il y a un faux problème en 0.

Attention ! Il n’y a pas de faux problème en +∞. Par exemple, ce n’est pas parce qu’unefonction f : [a,+∞[→ K continue par morceaux possède une limite dans K en +∞, même nulle,que l’intégrale

∫ +∞a f(t) dt converge. On l’a bien vu avec l’exemple de la fonction inverse, dont

l’intégrale sur [1,+∞[ diverge.

205

Il n’y a pas non plus de condition nécessaire de convergence pour les intégrales (et c’est là unedifférence avec les séries) : du fait que

∫ ba f(t) dt converge, on ne peut pas déduire que f possède

des limites dans K aux bornes de I. On a déjà montré que la fonction logarithme népérien,qui possède une limite infinie en 0+, a une intégrale convergente sur ]0,1]. On construit mêmefacilement des fonctions continues non bornées sur [0, +∞[ qui ont une intégrale convergente :penser à une fonction « en triangles » pour laquelle la somme des aires des triangles est la sommed’une série convergente.

Il ne faut donc pas croire que les problèmes de convergence se traitent uniquement en exa-minant les limites éventuelles de f aux bornes.

4. Propriétés élémentaires

On peut facilement se ramener à des fonctions à valeurs réelles :

Soit f : I → C une fonction continue par morceaux.

L’intégrale∫ b

af(t) dt converge si et seulement si les deux intégrales

∫ b

aRe(f(t)) dt et

∫ b

aIm(f(t)) dt

convergent. Dans ce cas,

∫ b

af(t) dt =

∫ b

aRe(f(t)) dt + i

∫ b

aIm(f(t)) dt.

Propriété

Les propriétés élémentaires de l’intégrale sont également valables pour les intégrales généra-lisées :

Soient f et g deux fonctions continues par morceaux sur I à valeurs dans K, et λ ∈ K.

Si∫ b

af(t) dt et

∫ b

ag(t) dt convergent, alors

∫ b

a(λf(t) + g(t)) dt converge et

∫ b

a(λf(t) + g(t)) dt = λ

∫ b

af(t) dt+

∫ b

ag(t) dt.

Propriété – Linéarité de l’intégration

Soient f et g deux fonctions continues par morceaux sur I à valeurs dans R telles que∫ b

af(t) dt et

∫ b

ag(t) dt convergent. On rappelle que a < b.

Alors :

• Si f > 0 sur I,∫ b

af(t) dt > 0.

• Si f 6 g sur I,∫ b

af(t) dt 6

∫ b

ag(t) dt.

Propriété – Positivité et croissance de l’intégrale

206

Démonstration des trois propriétés précédentes – Il suffit d’écrire la propriété correspondante (don-née dans le chapitre Dérivation et intégration des fonctions de R dans K) sur un segmentinclus dans I ([a,x], [x,b] ou [x,y] selon la forme de I) puis, en cas de convergence, de passer àla limite. Pour la première propriété, on utilise la caractérisation de la limite à l’aide des partiesréelle et imaginaire, pour la deuxième, une combinaison linéaire de limites, et pour la troisième,un passage à la limite d’inégalités larges.

Soit f : I → K une fonction continue par morceaux, et soit c ∈ I.

• Si I = [a,b[, alors∫ b

af(t) dt converge si et seulement si

∫ b

cf(t) dt converge.

• Si I = ]a,b], alors∫ b


∫ c

af(t) dt converge.

• Si I = ]a,b[, alors∫ b


∫ c

af(t) dt et

∫ b

cf(t) dt

convergent.

Dans les trois cas, en cas de convergence, on a

∫ b

af(t) dt =

∫ c

af(t) dt+

∫ b

cf(t) dt.

Propriété – Relation de Chasles

Démonstration

• Les deux premiers points sont similaires, on ne traite que le premier. Soit x ∈ I ; d’après larelation de Chasles pour les segments,

∫ x

af(t) dt =

∫ c

af(t) dt +

∫ x

cf(t) dt.

Le terme∫ c

af(t) dt étant indépendant de x, les deux autres termes sont de même nature, et en

cas de convergence, on a la formule annoncée en faisant tendre x vers b par valeurs inférieures.

• Dans le cas où I = ]a,b[, si les deux intégrales∫ c

af(t) dt et

∫ b

cf(t) dt convergent, alors

∫ b

af(t) dt converge et on a la formule annoncée, par définition.

Réciproquement, si∫ b

af(t) dt converge, il existe d ∈ I tel que

∫ d

af(t) dt et

∫ b

df(t) dt

convergent. D’après les deux premiers points, pour tout c ∈ I,∫ c

af(t) dt et

∫ b

cf(t) dt convergent.

Remarques

• Le premier point montre bien que le problème de convergence ne vient que du voisinage de b(resp. a) dans le cas d’une intégrale généralisée sur [a,b[ (resp ]a,b]).

• Dans le cas I = ]a,b[, on notera bien la différence entre la propriété ci-dessus (énoncée avec unquantificateur universel : « pour tout c ∈ I, ... »), et la définition (énoncée avec un quantificateurexistentiel : « il existe c ∈ I tel que ... »). La propriété précédente est donc indispensable, pourprouver que

∫ ba f(t) dt ne dépend pas du « découpage » de l’intervalle.

207

Pour les fonctions à valeurs positives, on a un critère de convergence :

Soit f une fonction continue par morceaux sur I à valeurs réelles positives.

• Si I = [a,b[, pour que∫ b

af(t) dt converge, il faut et il suffit que x 7→

∫ x

af(t) dt soit

majorée sur [a,b[.

• Si I = ]a,b], pour que∫ b

af(t) dt converge, il faut et il suffit que x 7→

∫ b

xf(t) dt soit

majorée sur ]a,b].

Propriété

Démonstration – Dans le premier cas, la fonction x 7→∫ x

af(t) dt est croissante sur [a,b[, le résultat

vient donc du théorème de la limite monotone. Le deuxième cas est similaire.

II. Intégrales absolument convergentes, fonctions intégrables

On rappelle que I est un intervalle quelconque de R d’extrémités a et b, éventuellementinfinies.

1. Définition, lien avec la convergence


On dit que l’intégrale∫ b

af(t) dt est absolument convergente si l’intégrale

∫ b

a|f(t)| dt est convergente.

Définition – Convergence absolue

Remarque – Pour les fonctions de signe constant, les notions d’intégrale convergente et absolumentconvergente coïncident.

Pour une fonction de signe quelconque, l’intérêt majeur de cette notion est que, comme pourles séries, la convergence absolue entraîne la convergence :


Si l’intégrale∫ b

af(t) dt est absolument convergente, alors elle est convergente.

Dans ce cas, on a∣∣∣∣

∫ b

af(t) dt

∣∣∣∣6

∫ b

a|f(t)| dt.

Théorème

Démonstration – On raisonne dans le cas où I = [a,b[, les autres cas sont similaires. L’idée estexactement la même que pour les séries. Posons g = Re(f) et

g+ = max0,g =1

2(|g| + g), g− = max0,− g =

1

2(|g| − g).

Les fonctions g+ et g− sont continues par morceaux sur I et vérifient

0 6 g+ 6 |g| 6√

Re(f)2 + Im(f)2 = |f |, 0 6 g− 6 |g| 6 |f |.

208

Pour x ∈ [a,b[ par croissance de l’intégrale, on a

∫ x

ag+(t) dt 6

∫ x

a|f(t)| dt.

La fonction x 7→∫ xa |f(t)| dt est majorée sur [a,b[ car

∫ ba |f(t)| dt converge. Il en est donc de

même pour la fonction x 7→∫ xa g

+(t) et la fonction g+ étant positive, on en déduit que l’intégrale∫ ba g

+(t) dt converge. On obtient de même la convergence de∫ ba g

−(t) dt.

On remarque enfin que l’on a g = g+ − g−, et donc, par différence,∫ ba g(t) dt converge. On

procède de même avec la partie imaginaire Im(f), d’où la convergence de∫ ba f(t) dt.

En utilisant l’inégalité triangulaire sur les segments, puis en passant à la limite, on obtientl’inégalité souhaitée.


On dit que f est intégrable sur I si∫ b

af(t) dt est absolument convergente.

La valeur de cette intégrale est bien définie d’après le théorème précédent. Elle pourraêtre notée

∫ b

af(t) dt (notation déjà définie), mais aussi

∫

If(t) dt ou

∫

If.

Définition

2. Théorèmes de comparaison

Soient f : [a,b[→ K et g : [a,b[→ K deux fonctions continues par morceaux.

• Si |f | 6 |g| sur [a,b[, et si g est intégrable sur [a,b[, alors f est intégrable sur [a,b[.

• On a la même conclusion si l’inégalité |f | 6 |g| est remplacée par l’une des conditions

f(t) =t→b−

O(g(t)) ou f(t) =t→b−

o(g(t)).

• Si f(t) ∼t→b−

g(t), alors f est intégrable sur [a,b[ si et seulement si g est intégrable sur

[a,b[.

Théorème de comparaison

Remarque – On adaptera facilement ce théorème au cas d’une intégrale généralisée sur ]a,b], eton peut combiner ces résultats pour traiter une intégrale généralisée sur ]a,b[.

Démonstration

• On reprend une idée déjà utilisée ci-dessus. Pour x ∈ [a,b[ par croissance de l’intégrale, on a

∫ x

a|f(t)| dt 6

∫ x

a|g(t)| dt.

La fonction g est intégrable sur [a,b[, donc la fonction x 7→∫ xa |g(t)| est majorée sur [a,b[. Il en

est donc de même pour la fonction x 7→∫ xa |f(t)|, ce qui montre que f est intégrable sur [a,b[.

• Dans ce cas, il existe M > 0 et a0 ∈ [a,b[ tel que pour tout t ∈ [a0,b[, |f(t)| 6 M |g(t)|. Onprouve alors le résultat de la même façon que le premier point, l’intégrale de |f | et |g| sur [a0,b[et l’intégrale sur [a,b[ étant de même nature. Le cas d’un petit « o » s’en déduit car il est contenudans celui d’un grand « O ».

209

• Si f(t) ∼t→b−

g(t), alors on a f(t) =t→b−

O(g(t)) et g(t) =t→b−

O(f(t)). Le résultat vient donc du

point précédent.

Remarque – Ces résultats sont très fréquemment utilisés en association avec les propriétés sui-vantes que nous avons déjà données :

• Pour des fonctions positives, l’intégrabilité de f sur I équivaut à la convergence de∫ b

af(t) dt.

• L’intégrabilité de f sur I entraîne la convergence de∫ b

af(t) dt.

Exemples

• La fonction t 7→ sin(t)

t2est continue sur [1,+∞[. Pour tout t > 1,

∣∣∣∣

sin(t)

t2

∣∣∣∣6

1

t2,

et t 7→ 1/t2 est intégrable sur [1,+∞[ (critère des intégrales de Riemann sur [1,+∞[, exposant2 > 1).

Par comparaison, la fonction t 7→ sin(t)

t2est intégrable sur [1, +∞[.

En particulier, l’intégrale∫ +∞

1

sin(t)

t2dt converge.

• La fonction t 7→ e−t

test continue sur [1,+∞[ et à valeurs positives. Pour tout t > 1,

0 6e−t

t6 e−t

et t 7→ e−t est intégrable sur R+ (intégrale de référence) donc sur [1, +∞[. Par comparaison,

t 7→ e−t

test intégrable sur [1,+∞[.

• La fonction t 7→ t cos(t)

et − 1est continue sur ]0, +∞[. Examinons la convergence éventuelle de

∫ +∞

0

t cos(t)

et − 1dt. Tout d’abord, il y a un faux problème en 0 car

t cos(t)

et − 1∼

t→0+

t

t= 1.

De plus, pour t > 0

∣∣∣∣

t cos(t)

et − 1

∣∣∣∣6

t

et − 1avec

t

et − 1∼

t→+∞t e−t =

t→+∞O(e−t/2)

car t e−t/2 −→t→+∞

0.

La fonction t 7→ e−t/2 est intégrable sur [1,+∞[, donc par comparaison, t 7→ t e−t puis t 7→ t

et − 1

et t 7→ t cos(t)

et − 1sont intégrables sur [1,+∞[. Finalement,

∫ +∞

0

t cos(t)

et − 1dt converge absolument,

et donc converge.

• La fonction t 7→ 1

1− t2 est continue sur [0,1[, à valeurs positives. On a

1

1− t2 =1

(1 + t)(1− t) ∼t→1−

1

2(1− t) .

210

Or t 7→ 1

1− t n’est pas intégrable sur [0,1[, car elle est à valeurs positives et pour tout x ∈ [0,1[,

∫ x

0

1

1− t dt = − ln(1− x) avec − ln(1− x) −→x→1−

+∞.

Par comparaison, t 7→ 1

1− t2 n’est pas intégrable sur [0,1[, et comme elle est à valeurs positives,∫ 1

0

dt

1− t2 diverge.

• La fonction t 7→ ln(t)

test continue sur [3,+∞[, à valeurs positives. Pour tout t > 3,

ln(t)

t>

1

t> 0,

et t 7→ 1/t n’est pas intégrable sur [3,+∞[.

Par la contraposée du premier résultat de comparaison, t 7→ ln(t)

tn’est pas intégrable sur [3,+∞[,

et comme elle est à valeurs positives,∫ +∞

3

ln(t)

tdt diverge.

Attention ! De même que pour les séries, la convergence n’entraîne pas la convergence absolue.Si un théorème de comparaison amène à la conclusion que f n’est pas intégrable sur [a,b[, il se

peut malgré tout que∫ b

af(t) dt converge.

Dans les deux derniers exemples ci-dessus, nous pouvions conclure à la divergence des intégralescar les fonctions comparées étaient positives.

III. Méthodes de calcul des intégrales généralisées

1. Utilisation d’une primitive

Bien sûr, la première méthode à essayer est d’utiliser une primitive : si f est continue sur[a,b[ et si F en désigne une primitive, alors pour tout x ∈ [a,b[,

∫ x

af(t) dt = [F (t)]xa = F (x)− F (a).

On en déduit que l’intégrale∫ ba f(t) dt est convergente si et seulement si F possède une limite

finie en b−, et dans ce cas∫ b

af(t) dt = lim

x→b−F (x)− F (a).

On raisonne de même pour les autres formes de I.

C’est la méthode que nous avons mise en œuvre pour les intégrales de référence.

2. Intégration par parties

Il faut être très vigilant dans les intégrations par parties pour les intégrales généralisées, caron peut facilement écrire une intégrale convergente comme somme de deux termes divergents...Par exemple, l’intégrale

∫ 2π

0

sin(t)

tdt

converge (la fonction t 7→ sin(t)/t est prolongeable en une fonction continue sur [0,2π]).

Pourtant, ni le « crochet généralisé »

[− cos(t)

t

]2π

0

ni l’intégrale∫ 2π

0

cos(t)

t2dt ne convergent.

Pour éviter cela, on revient à l’intégrale sur un segment, on fait une intégration par partiesusuelle, puis on essaie de passer à la limite. Cela conduit immédiatement au théorème suivant :

211

Soient f et g deux fonctions de classe C1 sur I. Si la fonction fg a une limite dans K

en a+ et b−, alors les intégrales

∫ b

af ′(t) g(t) dt et

∫ b

af(t) g′(t) dt

sont de même nature.

En notant[f(t) g(t)]ba = lim

y→b−(f(y) g(y)) − lim

x→a+(f(x) g(x)),

on a, en cas de convergence,

∫ b

af ′(t) g(t) dt = [f(t) g(t)]ba −

∫ b

af(t) g′(t) dt.

Théorème – Intégration par parties dans une intégrale généralisée

Remarque – Si I = [a,b[, alors fg a une limite en a+ car elle est continue en a. Il suffit donc devérifier l’hypothèse sur la limite de fg en b−. De même, si I = ]a,b], il suffit de vérifier l’hypothèsesur la limite de fg en a+.

Exemple – On pose, sous réserve d’existence, Γ(x) =

∫ +∞

0tx−1e−t dt. La fonction ainsi définie

est appelée fonction Γ d’Euler.

Commençons par étudier la convergence de l’intégrale. Soit x ∈ R ; la fonction t 7→ tx−1e−t

est continue sur ]0,+∞[. Par croissances comparées, tx+1e−t → 0 lorsque t→ +∞, donc

tx−1e−t =t→+∞

o

(1

t2

)

.

La fonction t 7→ 1/t2 est intégrable sur [1,+∞[ (critère des intégrales de Riemann sur [1,+∞[,exposant 2 > 1) ; par comparaison, t 7→ tx−1e−t est intégrable sur [1,+∞[, donc

∫ +∞1 tx−1e−t dt

converge. De plus,

tx−1e−t ∼t→0+

1

t1−x,

donc, les deux termes étant positifs,∫ 10 t

x−1e−t dt converge si et seulement si l’intégrale de Rie-

mann∫ 10 dt/t

1−x converge, ce qui équivaut à 1 − x < 1, i.e. x > 0. L’ensemble de définition dela fonction Γ est donc ]0,+∞[.

Fixons x > 0. Les fonctions f : t 7→ −e−t et g : t 7→ tx sont de classe C1 sur ]0, + ∞[,txe−t → 0 lorsque t → 0+ car x > 0, et txe−t → 0 lorsque t → +∞ par croissances comparées.

Enfin, l’intégrale∫ +∞

0f ′(t)g(t) dt est convergente d’après ce qui précède. D’après le théorème

d’intégration par parties,∫ +∞

0f(t)g′(t) dt est convergente et on a

∫ +∞

0txe−t dt =

[−txe−t

]+∞0

+

∫ +∞

0x tx−1e−t dt = x

∫ +∞

0tx−1e−t dt,

c’est-à-dire,Γ(x+ 1) = xΓ(x).

C’est ce que l’on appelle une équation fonctionnelle vérifiée par la fonction Γ. Elle permet enparticulier de définir Γ de proche en proche sur R \ (−N). De plus, on a

Γ(1) =

∫ +∞

0e−t dt = lim

A→+∞

[−e−t

]A

0= lim

A→+∞(1− e−A) = 1.

On montre alors facilement par récurrence que pour tout n ∈ N, Γ(n+ 1) = n!La fonction Γ généralise donc la factorielle aux valeurs non entières.

212

3. Changement de variable

Soit f : ]a,b[→ K une fonction continue par morceaux, et soit ϕ : ]α,β[→ ]a,b[ unebijection de classe C1 de ]α,β[ sur ]a,b[. Alors les intégrales

∫ b

af(t) dt et

∫ β

αf(ϕ(u))ϕ′(u) du

sont de même nature, et en cas de convergence :

• Si ϕ est strictement croissante,

∫ b

af(t) dt =

∫ β

αf(ϕ(u))ϕ′(u) du.

• Si ϕ est strictement décroissante,

∫ b

af(t) dt = −

∫ β

αf(ϕ(u))ϕ′(u) du.

Théorème – Changement de variable dans une intégrale généralisée

Attention ! Ne pas oublier le signe dans la formule, qui prend en compte la monotonie de ϕ. Encas de convergence des deux intégrales, les deux cas ci-dessus peuvent être réunis dans la formule

∫ b

af(t) dt =

∫ β

αf(ϕ(u)) |ϕ′(u)| du.

Remarques

• Sous les hypothèses du théorème, la fonction ϕ est continue et bijective de ]α,β[ sur ]a,b[, eton peut montrer qu’elle est soit strictement croissante, soit strictement décroissante. Les deuxcas considérés ci-dessus sont donc les seuls possibles. De plus, la fonction ϕ−1 est strictementmonotone, de même monotonie que ϕ.

• Le théorème précédent est formulé avec des intervalles ouverts, mais on peut avoir à traiter lecas d’intervalles semi-ouverts. C’est bien sûr possible, puisque pour une fonction f : [a,b[→ K

continue par morceaux, les intégrales de f sur [a,b[ et sur ]a,b[ sont de même nature et égale encas de convergence (la situation est analogue pour ]a,b]). Ceci se prouve en adaptant un résultatdonné plus haut sur la cohérence des différentes notions d’intégrale, pour une fonction continuepar morceaux sur un segment.

Démonstration du théorème – Soient r et s deux éléments de ]α,β[, x et y deux éléments de ]a,b[.En utilisant la formule usuelle pour les segments, on a

∫ ϕ(s)

ϕ(r)f(t) dt =

∫ s

rf(ϕ(u))ϕ′(u) du et

∫ y

xf(t) dt =

∫ ϕ−1(y)

ϕ−1(x)f(ϕ(u))ϕ′(u) du.

Si ϕ est strictement croissante,

ϕ(r) −→r→α+

a+, ϕ(s) −→s→β−

b−, ϕ−1(x) −→x→a+

α+ et ϕ−1(y) −→y→b−

β−.

On en déduit que∫ b


∫ β

αf(ϕ(u))ϕ′(u) du converge, ainsi que

la formule annoncée en cas de convergence.

Si ϕ est strictement décroissante, on reprend le raisonnement, les bornes a et b sont échangéesdans les limites de ϕ et ϕ−1, et en cas de convergence,

∫ a

bf(t) dt = −

∫ b

af(t) dt.

213

Exemple – On souhaite calculer

I =

∫ π/2

0

1

1 + cos2(t)dt.

La fonction

f : t 7→ 1

1 + cos2(t)

est continue et positive sur le segment [0,π/2], il ne s’agit en fait pas d’une intégrale généralisée,mais on peut bien sûr la considérer comme une intégrale généralisée convergente sur ]0,π/2[.

On effectue le changement de variable t = arctan(u). La fonction ϕ = arctan est une bijectionstrictement croissante de classe C1 de ]0,+∞[ sur ]0,π/2[. Le théorème de changement de variablemontre donc que

∫ π/2

0

1

1 + cos2(t)dt =

∫ +∞

0

1

1 + cos2(ϕ(u))

1

1 + u2du

=

∫ +∞

0

1

1 +1

1 + tan2(ϕ(u))

1

1 + u2du,

la convergence de cette dernière intégrale faisant partie des conclusions du théorème. Or, sur]0,π/2[, tan coïncide avec ϕ−1, d’où

I =

∫ +∞

0

1

1 +1

1 + u2

1

1 + u2du

=

∫ +∞

0

1

2 + u2du

= limA→+∞

[1√2

arctan

(u√2

)]A

0

=π

2√

2.

IV. Comparaison entre une série et une intégrale

Reprenons l’idée d’encadrement des sommes partielles d’une série∑

n>0 f(n) mise en œuvredans le chapitre Séries numériques : soit f : [0,+∞[→ R+ une fonction continue par morceauxet décroissante. Si n ∈ N∗, on a pour tout t ∈ [n − 1,n], f(n) 6 f(t) et donc, après intégrationsur [n − 1,n],

f(n) 6

∫ n

n−1f(t) dt.

De la même façon, pour tout n ∈ N,∫ n+1

nf(t) dt 6 f(n).

On rappelle que ceci est illustré sur le graphique suivant :

Cf

n− 1 n n+ 1

f(n)

214

En additionnant la première inégalité pour n entre 1 et p > 1 puis en ajoutant f(0), et enadditionnant la seconde pour n entre 0 et p, on obtient

∫ p+1

0f(t) dt 6

p∑

n=0

f(n) 6 f(0) +

∫ p

0f(t) dt.

On en déduit que la suite(∫ p

0 f(t) dt)

p∈Nest majorée si et seulement si la suite des sommes

partielles de la série∑

n>0 f(n) est majorée. Or, la série∑

n>0 f(n) est à terme positifs, donc lasuite de ses sommes partielles est majorée si et seulement si elle converge. De plus, la fonctionf étant à valeurs positives, la suite

(∫ p0 f(t) dt

)

p∈Nest majorée si et seulement si la fonction

x 7→∫ x0 f(t) dt (définie sur [0,+∞[) est majorée : en effet, pour tout x > 0,

∫ x

0f(t) dt 6

∫ p

0f(t) dt

avec p = ⌊x⌋ + 1. Pour la même raison (f à valeurs positives), la fonction x 7→∫ x0 f(t) dt est

majorée si et seulement si f est intégrable sur [0,+∞[.

Finalement, nous venons de démontrer le résultat suivant :

Soit f : [0, +∞[→ R+ une fonction continue par morceaux, décroissante, à valeurspositives.

Pour que la série∑

n>0

f(n) converge, il faut et il suffit que f soit intégrable sur [0,+∞[.

Théorème – Comparaison entre une série et une intégrale

Remarques

• La fonction f étant positive, le fait que f soit intégrable équivaut à la convergence de∫ +∞0 f(t) dt.

• Bien sûr, on adapte facilement ce résultat au cas des fonctions définies sur [n0, +∞[, pourcomparer les natures de

∫ +∞n0

f(t) dt et∑

n>n0f(n).

• Dans le chapitre Séries numériques, on avait montré comment étudier, par encadrement,le comportement asymptotique de sommes partielles, ou de restes de séries convergentes. Laméthode d’encadrement avait été exposée dans le cadre des fonctions continues, mais elle restevalable dans le cadre de l’intégrale des fonctions continues par morceaux.

• On peut donner des encadrements semblables de sommes partielles lorsque f est croissante.

Exemples

• Nous avons déjà mis en œuvre cette technique pour prouver la convergence des séries de

Riemann∑

n>1

1

nαpour α > 1. En effet, dans ce cas, la fonction f : t 7→ 1

tαest continue, positive,

décroissante et intégrable sur [1,+∞[.

• On peut également obtenir des équivalents de sommes de séries de fonctions par cette méthode :définissons, pour tout n ∈ N∗ et x > 0,

un(x) =1

n+ n2x.

La série de fonctions∑

n>1 un converge normalement sur tout intervalle de la forme [a, +∞[avec a > 0, car pour tout x > a et n ∈ N∗,

0 6 un(x) 61

n2a,

le majorant étant le terme général d’une série convergente. De plus, chaque fonction un estcontinue sur R∗

+. En particulier, la somme f de la série de fonctions est définie et continue sur

215

R∗+. On cherche à déterminer un équivalent de f(x) lorsque x tend vers 0+. Pour cela, posons,

x > 0 étant fixé,

g : t 7→ 1

t+ t2x.

La fonction g est continue et décroissante sur [1,+∞[. Pour tout n > 2, on a donc∫ n+1

ng(t) dt 6 g(n) 6

∫ n

n−1g(t) dt.

En ajoutant ces inégalités pour n entre 2 et p > 2, on obtient donc

∫ p+1

2g(t) dt 6

p∑

n=2

1

n+ n2x6

∫ p

1g(t) dt

puis, en ajoutant le terme correspondant à n = 1,

1

1 + x+

∫ p+1

2g(t) dt 6

p∑

n=1

1

n+ n2x6

1

1 + x+

∫ p

1g(t) dt. (10.1)

Or, pour tout (a,b) ∈ R2 avec 1 6 a 6 b,

∫ b

ag(t) dt =

∫ b

a

(1

t− x

1 + tx

)

dt =

[

ln

(t

1 + tx

)]b

a

Lorsque b→ +∞, on a donc, pour tout a > 1, la convergence de l’intégrale∫ +∞a g(t) dt avec

∫ +∞

ag(t) dt = ln

(1

x

)

− ln

(a

1 + ax

)

.

Finalement, en faisant tendre p vers +∞ dans (10.1), on obtient, pour tout x > 0,

1

1 + x− ln(x)− ln

(2

1 + 2x

)

6 f(x) 61

1 + x− ln(x)− ln

(1

1 + x

)

.

Il est alors immédiat, par encadrement, que f(x) ∼ − ln(x) lorsque x→ 0+.

V. Espaces fonctionnels et fonctions intégrables

• On note L1(I,K) l’ensemble des fonctions continues par morceaux et intégrables surI, à valeurs dans K.

• Si f est continue par morceaux sur I à valeurs dans K, on dit que f est de carréintégrable sur I si |f |2 est intégrable sur I.

On note L2(I,K) l’ensemble des fonctions continues par morceaux sur I, à valeurs dansK, de carré intégrable sur I.

Définition

L’ensemble L1(I,K) est un K-espace vectoriel.

Propriété

Démonstration – On montre que L1(I,K) est un sous-espace vectoriel de l’espace vectoriel desfonctions continues par morceaux sur I à valeurs dans K : la fonction nulle appartient à L1(I,K).De plus, si f et g sont deux éléments de L1(I,K) et λ ∈ K, on a |λf + g| 6 |λ||f | + |g|. Lesfonctions |f | et |g| ont une intégrale convergente sur I, il en est donc de même pour |λ||f |+ |g|par combinaison linéaire de limites. La fonction positive |λ||f |+ |g| est donc intégrable sur I, etpar comparaison, il en est de même pour λf + g.

216

Soit f : I → K une fonction continue et intégrable sur I, telle que∫

I|f(t)| dt = 0.

Alors f = 0.

Propriété

Démonstration – On fait la démonstration dans le cas où I = [a,b[, les autres cas sont similaires.Si J désigne un segment de [a,b[, alors pour x ∈ [a,b[ assez proche de b, on a J ⊂ [a,x] et donc

0 6

∫

J|f(t)| dt 6

∫ x

a|f(t)| dt −→

x→b−

∫ b

a|f(t)| dt = 0,

d’où∫

J|f(t)| dt = 0. Sachant que J est un segment et que |f | est continue et positive, on a

f|J = 0. Ceci étant vrai pour tout segment J ⊂ [a,b[, on a f = 0.

• Le produit de deux éléments de L2(I,K) est un élément de L1(I,K).

• L’ensemble L2(I,K) est un K-espace vectoriel.

• Soit H = L2(I,R) ∩ C0(I,R). L’application

(· | ·) :

H×H → R

(f,g) 7→∫

If g

définit un produit scalaire sur H, dont la norme associée est définie par

∀ f ∈ H, ‖f‖2 =

(∫

If2

)1/2

.

Propriété

Démonstration

• Si f et g sont deux éléments de L2(I,K), alors d’après la majoration

|fg| 6 |f |2 + |g|2

2,

on obtient par comparaison que fg ∈ L1(I,K) car |f |2 et |g|2 sont deux éléments de L1(I,K), quiest un K-espace vectoriel.

• Montrons alors que L2(I,K) est un sous-espace vectoriel de l’espace vectoriel des fonctionscontinues par morceaux sur I à valeurs dans K, la seule difficulté étant la stabilité par somme ;or, si f et g sont deux éléments de L2(I,K), alors

|f + g|2 = |f |2 + 2Re(fg) + |g|2 6 |f |2 + 2 |fg|+ |g|2.Les fonctions |f |2 et |g|2 sont intégrables, et en particulier il en résulte que fg est intégrable,d’après le premier point. Par comparaison, |f+g|2 est intégrable, c’est-à-dire que f+g ∈ L2(I,K).

• Les propriétés d’un produit scalaire sont immédiates à vérifier, la définie positivité étant uneconséquence de la propriété précédente. Le fait que ‖ · ‖2 soit une norme est alors clair : c’est lanorme associée à ce produit scalaire. On rappelle que dans ce cadre, l’inégalité triangulaire estune conséquence de l’inégalité de Cauchy-Schwarz,

∣∣∣∣

∫

If g

∣∣∣∣6

√∫

If2

√∫

Ig2,

que nous démontrerons dans le chapitre Espaces préhilbertiens, espaces euclidiens.

217

218

Chapitre 11

Interversions pour les intégralesgénéraliséesIntégrales à paramètre

I. Les théorèmes d’interversion pour les intégrales généralisées

Nous allons compléter les résultats du chapitre Suites et séries de fonctions par deuxthéorèmes d’interversion dans le cadre des fonctions intégrables. On a tout d’abord :

Soit (fn)n∈N une suite de fonctions définies sur un intervalle I à valeurs dans K.On suppose que :

• Pour tout n ∈ N, fn est continue par morceaux sur I.

• (fn)n∈N converge simplement sur I vers une fonction f .

• La fonction f est continue par morceaux sur I.

• Il existe une fonction ϕ : I → R+ continue par morceaux et intégrable sur I, telleque

∀n ∈ N, ∀ t ∈ I, |fn(t)| 6 ϕ(t).

Alors toutes les fonctions fn et f sont intégrables sur I et∫

Ifn −→

n→+∞

∫

If.

Théorème de convergence dominée (admis : démonstration hors programme)

Remarques

• L’hypothèse « ∀n ∈ N, ∀ t ∈ I, |fn(t)| 6 ϕ(t) » est appelée hypothèse de domination, elledonne son nom au théorème. Sous cette hypothèse, on a en passant à la limite simple, |f(t)| 6 ϕ(t)pour tout t ∈ I. On sait donc que les fonctions fn et f sont intégrables, par comparaison.

• Vérifier cette hypothèse revient à établir une majoration des fonctions fn par une fonctionintégrable sur I et indépendante de n.

• L’hypothèse « f est continue par morceaux » ne peut pas être enlevée : rien ne garantit que lesmêmes subdivisions sont adaptées à toutes les fonctions fn. À la limite, il se pourrait donc quef ne soit pas continue par morceaux, et donc que son intégrale n’ait pas de sens pour nous. Celadit, cette hypothèse est imposée par le cadre de travail des fonctions continues par morceaux.Elle n’a pas l’importance de l’hypothèse de domination.

Exemple – On pose, pour tout n > 2 et t ∈ R+,

fn(t) =1

1 + ntn.

219

La suite de fonctions (fn)n>2 converge simplement sur R+ vers

f = 1[0,1[ : t 7→

1 si t ∈ [0,1[

0 si t > 1

Toutes les fonctions fn, et f , sont continues par morceaux sur R+. Enfin, pour tout n > 2 ett ∈ R+,

|fn(t)| 6 ϕ(t) =

1 si t ∈ [0,1[1

1 + 2t2si t > 1,

la fonction ϕ étant continue par morceaux et intégrable sur R+ (par comparaison immédiate).D’après le théorème de convergence dominée, toutes les fonctions fn, et f , sont intégrables surR+ et

∫ +∞

0

dt

1 + ntn−→

n→+∞

∫ +∞

0f(t) dt = 1.

Pour les séries de fonctions, on a de plus le résultat suivant :

Soit∑

n>0 fn une série de fonctions définies sur un intervalle I à valeurs dans K. Onsuppose que :

• Pour tout n ∈ N, fn est continue par morceaux sur I.

•∑

n>0

fn converge simplement sur I.

• La fonction+∞∑

n=0

fn est continue par morceaux sur I.

• Pour tout n ∈ N, fn est intégrable sur I.

• La série∑

n>0

∫

I|fn| converge.

Alors+∞∑

n=0

fn est intégrable sur I et

∫

I

+∞∑

n=0

fn =

+∞∑

n=0

∫

Ifn.

Théorème – Intégration terme à terme pour les intégrales généralisées

Ce résultat est admis (démonstration hors programme).

Exemples

• Soit, pour tout n > 1,

fn : t 7→ sin(n)

n2e−nt.

Les fonctions fn sont continues sur R+ et la série de fonctions∑

n>1 fn converge normalementsur R+ car, pour tout n > 1 et t > 0,

|fn(t)| 6 1

n2

et la série∑

n>1 1/n2 converge. En particulier,∑+∞

n=1 fn est continue sur R+.

De plus, pour tout n > 1, fn est intégrable sur R+ (multiple d’une fonction intégrable deréférence) avec

∫ +∞

0|fn(t)| dt 6

∫ +∞

0

e−nt

n2dt =

1

n3,

220

et la série∑

n>1 1/n3 converge.

D’après le théorème précédent, la fonction∑+∞

n=1 fn est intégrable sur R+ et

∫ +∞

0

(+∞∑

n=1

sin(n)

n2e−nt

)

dt =+∞∑

n=1

sin(n)

n3.

• Ce théorème a l’avantage de s’appliquer dans le cadre des fonctions continues par morceaux, etavec convergence simple. Mais on pourrait avoir l’impression que, pour justifier la régularité de∑+∞

n=0 fn, on devra recourir au théorème de continuité pour les séries de fonctions, qui s’appliquedans le cadre des fonctions continues, avec convergence au moins uniforme sur tout segment.C’était le cas dans l’exemple précédent, mais ce n’est pas toujours le cas, comme va le montrerl’exemple suivant.

Soit S la fonction définie sur ]0,1[ par

S(x) = − ln(1 − x)x

.

On peut montrer (voir le chapitre Séries entières) que pour tout x ∈ ]0,1[,

S(x) =

+∞∑

n=0

xn

n+ 1=

+∞∑

n=0

fn(x)

où :

∀n ∈ N, ∀x ∈ ]0,1[, fn(x) =xn

n+ 1.

Pour tout n ∈ N, fn est continue, donc continue par morceaux, sur ]0,1[. La série de fonctions∑

n>0 fn converge simplement sur ]0,1[ d’après le développement effectué ci-dessus, et la fonction∑+∞

n=0 fn est continue, donc continue par morceaux, sur ]0,1[, car il s’agit de la fonction S.

Enfin, pour tout n ∈ N, fn est intégrable sur ]0,1[ (fonction polynomiale sur un intervalle borné)et

∑

n>0

∫ 1

0|fn(x)| dx =

∑

n>0

1

(n+ 1)2,

série de Riemann d’exposant 2 > 1, donc convergente. D’après le théorème d’intégration termeà terme pour les intégrales généralisées, S est intégrable sur ]0,1[ (ce que l’on aurait pu prouverdirectement) et

∫ 1

0

ln(1− x)x

dx = −+∞∑

n=0

1

(n+ 1)2.

• Dans le cas d’une série de fonctions, le théorème précédent n’est pas le seul moyen d’intervertirsomme et intégrale généralisée. Par exemple, il ne s’applique pas dans le cas où fn est définie surI = ]0, +∞[ par fn(x) = (−1)ne−

√n x, pour tout n > 1. Toutes les fonctions fn sont continues

par morceaux et intégrables sur ]0,+∞[, mais

∑

n>1

∫ +∞

0|fn(x)| dx =

∑

n>1

∫ +∞

0e−

√n x dx =

∑

n>1

1√n,

qui est une série divergente.

Dans ces cas, on pourra parfois utiliser avec profit, notamment :

• le théorème de convergence dominée pour la suite des sommes partielles (∑p

n=0 fn)p∈N.

• des estimations des restes de la série∑

n>0 fn, pour des séries alternées par exemple.

221

Dans l’exemple ci-dessus, pour tout x > 0, la série∑

n>1 fn(x) est une série alternée dont lavaleur absolue du terme général décroît vers 0. On sait donc que

∑

n>1 fn(x) converge, et quepour tout m ∈ N, ∣

∣∣∣∣

+∞∑

n=m+1

fn(x)

∣∣∣∣∣6 |fm+1(x)| = e−

√m+1 x. (11.1)

En particulier, pour tout a > 0 et x > a,∣∣∣∣∣

+∞∑

n=m+1

fn(x)

∣∣∣∣∣6 e−

√m+1 x

6 e−√

m+1 a −→m→+∞

0,

le majorant étant indépendant de x. La série∑

n>1 fn converge donc uniformément sur tout

segment de I, et comme chaque fonction fn est continue sur I, on en déduit que∑+∞

n=1 fn estcontinue sur I.

Notons, pour tout p ∈ N∗,

Sp =

p∑

n=1

fn.

Pour tout p ∈ N∗, Sp est continue par morceaux sur I, (Sp)p>1 converge simplement sur I vers∑+∞

n=1 fn qui est continue (et donc continue par morceaux) sur I d’après ce qui précède. Enfin,pour tout x > 0 et p ∈ N∗,

|Sp(x)| =∣∣∣∣∣

p∑

n=1

fn(x)

∣∣∣∣∣=

∣∣∣∣∣∣

+∞∑

n=1

fn(x)−+∞∑

n=p+1

fn(x)

∣∣∣∣∣∣

6

∣∣∣∣∣

+∞∑

n=1

fn(x)

∣∣∣∣∣+

∣∣∣∣∣∣

+∞∑

n=p+1

fn(x)

∣∣∣∣∣∣

6 e−x + e−√

p+1 x

6 2 e−x,

ce qui donne l’hypothèse de domination pour la suite des sommes partielles (Sp)p∈N∗ car lafonction x 7→ 2 e−x est continue par morceaux et intégrable sur ]0, +∞[.

D’après le théorème de convergence dominée, S =∑+∞

n=1 fn est intégrable sur ]0,+∞[ et∫ +∞

0Sp(x) dx −→

p→+∞

∫ +∞

0S(x) dx,

ce qui est le résultat voulu, car pour tout p ∈ N∗,∫ +∞

0Sp(x) dx =

∫ +∞

0

(p∑

n=1

fn(x)

)

dx =

p∑

n=1

∫ +∞

0fn(x) dx

par linéarité de l’intégrale : il y a un nombre fini de termes, qui correspondent tous à des intégralesconvergentes (de référence).

Remarque – On peut aussi conclure de la façon suivante : l’inégalité (11.1) prouve, par compa-

raison, que pour tout m ∈ N,+∞∑

n=m+1

fn est intégrable sur ]0,+∞[. De plus, pour tout p ∈ N∗,

∣∣∣∣∣

p∑

n=1

∫ +∞

0fn(x) dx−

∫ +∞

0

(+∞∑

n=1

fn(x)

)

dx

∣∣∣∣∣6

∫ +∞

0

∣∣∣∣∣∣

+∞∑

n=p+1

fn(x)

∣∣∣∣∣∣

dx

6

∫ +∞

0e−

√p+1 x dx

=1√p+ 1

−→p→+∞

0.

222

On a donc bien∫ +∞

0

(+∞∑

n=1

fn(x)

)

dx =

+∞∑

n=1

∫ +∞

0fn(x) dx.

II. Intégrales à paramètre

Dans la première partie, nous avons donné des résultats de convergence pour des suites définies

par une intégrale de la forme∫

Ifn(t) dt où la suite de fonctions (fn) converge simplement vers

une fonction f .

Écrivons fn(t) = f(n,t) et remplaçons la variable discrète n par une variable continue x : onconsidère alors des intégrales du type

F (x) =

∫

If(x, t) dt,

vues comme fonctions du paramètre x. On peut alors très naturellement se demander, commeon l’a fait dans le cas discret, comment se comporte cette intégrale en fonction de x.

En sciences, les intégrales à paramètres sont utilisées notamment pour créer des transforma-tions sur les fonctions : si f est une fonction, on définit (sous certaines conditions) :

• La transformée de Laplace de f , qui est la fonction définie par

L f(p) =

∫ +∞

0f(t)e−pt dt.

Elle est très utilisée en sciences industrielles.

• La transformée de Fourier de f , qui est la fonction définie par

Ff(x) =

∫ +∞

−∞f(t) e−ixt dt.

Elle joue un rôle fondamental en physique et mathématiques.

Dans cette partie, A et I désignent deux intervalles de R (A pour la variable x, I pour lavariable d’intégration t).

1. Théorème de continuité

Soit f : A× I → K une fonction. On fait les hypothèses suivantes :

• Pour tout x ∈ A, la fonction t 7→ f(x, t) est continue par morceaux sur I.

• Pour tout t ∈ I, la fonction x 7→ f(x, t) est continue sur A.

• Il existe une fonction ϕ : I → R+ continue par morceaux et intégrable sur I telleque pour tout (x, t) ∈ A× I,

|f(x, t)| 6 ϕ(t).

Alors la fonction F : x 7→∫

If(x, t) dt est définie et continue sur A.

Théorème – Continuité pour les intégrales à paramètre

Remarques

• On fait souvent référence à ce théorème comme « théorème de continuité sous le signe∫

».

• La dernière hypothèse est appelée hypothèse de domination, comme dans le cas discret.

• Comme dans le cas discret, il est bien entendu essentiel que ϕ ne dépende pas du paramètre,ici x.

223

Démonstration (non exigible) – Tout d’abord, F est bien définie car pour tout x ∈ A, t 7→f(x, t) est continue par morceaux et intégrable sur I, par comparaison et d’après l’hypothèse dedomination. D’après la caractérisation séquentielle de la limite, il suffit de montrer que pour touta ∈ A, et toute suite (an) d’éléments de A convergeant vers a, on a

∫

If(an,t) dt −→

n→+∞

∫

If(a,t) dt.

Par cette remarque, on est donc ramené au cadre d’application du théorème de convergencedominée. Notons en effet, pour tout n ∈ N, gn : t 7→ f(an,t). Alors gn est continue par morceauxsur I pour tout n, la suite (gn) converge simplement vers la fonction continue par morceauxg : t 7→ f(a,t), par continuité de f par rapport à sa première variable. Enfin, (gn) est dominéepar la fonction ϕ continue par morceaux et intégrable sur I. On en déduit le résultat.

Cette démonstration n’est pas difficile, mais il faut garder à l’esprit qu’elle utilise le théorèmede convergence dominée, que nous avons admis, et qui est un résultat délicat.

Remarque – La continuité étant une notion locale, les hypothèses portant sur la première variablex peuvent être localisées aux segments de A, ce qui peut éviter des problèmes dus aux extrémitésde A. Dans le théorème précédent, on peut ainsi remplacer l’hypothèse de domination par :

• pour tout segment J ⊂ A, il existe une fonction ϕ : I → R+ continue par morceaux etintégrable sur I telle que pour tout (x, t) ∈ J × I,

|f(x, t)| 6 ϕ(t).

La conclusion reste valide.

Exemples

• Pour tout x > 0, la fonction t 7→ 1

x+ t3est continue et intégrable sur [1,+∞[ car

∀ t > 1, 0 61

x+ t36

1

t3,

et t 7→ 1/t3 est continue et intégrable sur [1,+∞[ (critère des intégrales de Riemann sur [1,+∞[,exposant 3 > 1). De plus cette dernière fonction est indépendante de x, ce qui prouve l’hypothèse

de domination. Enfin, pour tout t ∈ [1,+∞[, x 7→ 1

x+ t3est continue sur [0,+∞[. On en déduit

que la fonction

F : x 7→∫ +∞

1

1

x+ t3dt

est continue sur [0,+∞[.

• Dans le chapitre précédent, nous avons défini la fonction Γ par la relation

Γ(x) =

∫ +∞

0tx−1 e−t dt

pour tout x > 0. Examinons la continuité de Γ. La fonction

f :

]0,+∞[×]0,+∞[ → R

(x, t) 7→ tx−1 e−t

est continue par rapport à ses deux variables. Pour tout t > 0,

supx>0

tx−1 e−t =

e−t

tsi t ∈ ]0,1]

+∞ si t > 1.

224

Il n’y a donc pas d’hypothèse de domination sur ]0, + ∞[. En revanche, restreignons-nous àx ∈ [a,A] avec 0 < a < A. Alors

supx∈[a,A]

tx−1 e−t =

ta−1 e−t si t ∈ ]0,1]

tA−1 e−t si t > 1.

La fonction ϕ définie sur ]0,+∞[ par la formule précédente est continue par morceaux sur ]0,+∞[et intégrable (mêmes arguments que pour l’existence de Γ(x) pour x > 0), elle vérifie l’hypothèsede domination sur [a,A]. On en déduit que Γ est continue sur ]0,+∞[.

2. Classe C1

Soit f : A× I → K une fonction. Si, pour un certain t ∈ I, la fonction x 7→ f(x, t) estde classe C1 sur A, alors pour tout x0 ∈ A, le nombre dérivé de x 7→ f(x, t) en x0 est

noté∂f

∂x(x0,t). Si cela est vrai quel que soit t ∈ I, on obtient ainsi une fonction

∂f

∂x: (x, t) 7→ ∂f

∂x(x, t),

appelée dérivée partielle de f par rapport à x.

On définit de façon analogue la dérivée partielle de f d’ordre k > 2 par rapport à x,

notée∂kf

∂xk.

Définition

Exemple – Soit f : R×R∗+ définie par : pour tout (x, t) ∈ R× R∗

+, f(x, t) = tx. Pour tout t > 0,la fonction

x 7→ tx = ex ln(t)

est de classe C1 sur R (exponentielle). La fonction f admet donc une dérivée partielle par rapportà x ; de plus, pour tout (x, t) ∈ R× R∗

+,

∂f

∂x(x, t) = ln(t) ex ln(t) = ln(t) tx.

Soit f : A× I → K une fonction. On fait les hypothèses suivantes :

• Pour tout x ∈ A, t 7→ f(x, t) est continue par morceaux et intégrable sur I.

• Pour tout t ∈ I, x 7→ f(x, t) est de classe C1 sur A.

• Pour tout x ∈ A, t 7→ ∂f

∂x(x, t) est continue par morceaux sur I.


∣∣∣∣

∂f

∂x(x, t)

∣∣∣∣6 ϕ(t).


If(x, t) dt est définie et de classe C1 sur A et pour tout

x ∈ A,F ′(x) =

∫

I

∂f

∂x(x, t) dt.

Théorème – Classe C1 pour les intégrales à paramètre

225

Remarques

• On fait souvent référence à ce théorème comme « théorème de dérivation sous le signe∫

».La formule donnant l’expression intégrale de la dérivée est parfois appelée formule de Leibniz.

• On a fait en sorte que les hypothèses fondamentales du théorème précédent soient vérifiées par

la fonction∂f

∂x.

• À nouveau, on peut remplacer l’hypothèse de domination pour t 7→ ∂f

∂x(x, t) par une version

locale sur tout segment pour la variable x.

Démonstration (non exigible) – Tout d’abord, la fonction F est définie sur A car t 7→ f(x, t) estcontinue par morceaux et intégrable sur I pour tout x ∈ A. Soit a ∈ A ; pour montrer que F estdérivable en a avec

F ′(a) =

∫

I

∂f

∂x(a,t) dt,

il suffit de montrer que pour toute suite (an) d’éléments de A distincts de a convergeant vers a,

F (an)− F (a)

an − a−→

n→+∞

∫

I

∂f

∂x(a,t) dt,

cette dernière intégrale étant convergente car t 7→ ∂f

∂x(a,t) est continue par morceaux et intégrable

sur I, par comparaison et d’après l’hypothèse de domination. Par linéarité de l’intégrale, ce tauxde variations est égal à

∫

I

f(an,t)− f(a,t)

an − adt.

Définissons donc, pour tout n ∈ N,

gn : t 7→ f(an,t)− f(a,t)

an − a.

La suite (gn) de fonctions continues par morceaux sur I converge simplement sur I vers la fonction

t 7→ ∂f

∂x(a,t) par définition d’une dérivée partielle, cette fonction étant continue par morceaux

sur I.

De plus, pour tout n ∈ N et t ∈ I,

|gn(t)| 6 supx∈Jn

∣∣∣∣

∂f

∂x(x, t)

∣∣∣∣,

d’après l’inégalité des accroissements finis, Jn désignant le segment [an,a] ou [a,an]. Ainsi, pourtout n ∈ N et t ∈ I, |gn(t)| 6 ϕ(t), ce qui prouve l’hypothèse de domination du théorème deconvergence dominée. On en déduit finalement que

∫

Ign(t) dt −→

n→+∞

∫

I

∂f

∂x(a,t) dt,

ce qui est le résultat voulu. Enfin, F est de classe C1 sur A d’après le théorème de continuitésous le signe

∫.

Exemple – Calculons, pour tout x > 0,

I(x) =

∫ +∞

0

sin(t)

te−xt dt.

Pour cela, définissons pour tout (x, t) ∈ ]0,+∞[ 2,

f(x, t) =sin(t)

te−xt.

226

Pour tout x > 0, t 7→ f(x, t) est continue, et intégrable sur ]0,+∞[ : si t > 1,∣∣∣∣

sin(t)

t

∣∣∣∣e−xt 6 e−xt

l’application t 7→ e−xt étant intégrable sur [1,+∞[ ; on a de plus un faux problème en 0 car

sin(t)

te−xt −→

t→0+1.

Pour tout t > 0, l’application x 7→ f(x, t) est de classe C1 sur ]0, +∞[, et pour tout x > 0,

∂f

∂x(x, t) = − sin(t) e−xt.

Fixons a > 0 et restreignons-nous à x > a. L’application t 7→ ∂f

∂x(x, t) est continue sur ]0,+∞[

et pour tout t > 0 et x > a,∣∣∣∣

∂f

∂x(x, t)

∣∣∣∣6 |sin(t)| e−at

6 e−at.

Ce majorant définit une fonction intégrable sur ]0, + ∞[ et indépendante de x > a, ce quimontre que l’hypothèse de domination locale est satisfaite. Le théorème de dérivation sous lesigne intégral montre alors que I est de classe C1 sur [a,+∞[. Ceci étant valable pour tout a > 0,I est de classe C1 sur ]0,+∞[. De plus pour tout x > 0,

I ′(x) = −∫ +∞

0sin(t) e−xt dt.

Soit A ∈ R+. On a∫ A

0sin(t) e−xt dt = Im

(∫ A

0e(i−x)t dt

)

avec∫ A

0e(i−x)t dt =

[

e(i−x)t

i− x

]A

0

=e(i−x)A − 1

i− x −→A→+∞

1

x− i =x+ i

1 + x2.

D’après la caractérisation de la limite à l’aide des parties réelle et imaginaire, on obtient∫ +∞

0sin(t) e−xt dt =

1

1 + x2

(pour le calcul de l’intégrale précédente, on aurait aussi pu effectuer deux intégrations par partiessuccessives).

Finalement, pour tout x de l’intervalle ]0,+∞[,

I ′(x) = − 1

1 + x2.

On en déduit qu’il existe une constante k ∈ R telle que pour tout x > 0,

I(x) = − arctan(x) + k.

On remarque également que I(x)→ 0 lorsque x→ +∞. En effet, l’application

t 7→ sin(t)

t

est bornée sur ]0,+∞[, car elle est prolongeable en une fonction continue sur R+ et tend vers 0en +∞. Soit M un majorant de sa valeur absolue sur ]0, +∞[. Alors pour tout x > 0,

|I(x)| 6 M

∫ +∞

0e−xt dt =

M

x−→

x→+∞0.

227

Sachant de plus que− arctan(x) −→

x→+∞−π

2,

on en déduit que k =π

2, d’où, pour tout x > 0,

∫ +∞

0

sin(t)

te−xt dt =

π

2− arctan(x).

La fonction I est la transformée de Laplace de la fonction sinus cardinal. Grâce à ce calcul, onpeut montrer, en faisant tendre x vers 0+, que

∫ +∞

0

sin(t)

tdt =

π

2.

3. Classe Ck

On peut généraliser le résultat du paragraphe précédent aux dérivées d’ordre supérieur, enraisonnant par récurrence :

Soit f : A× I → K une fonction et k > 2 un entier. On fait les hypothèses suivantes :

• Pour tout x ∈ A, t 7→ f(x, t) est continue par morceaux et intégrable sur I.

• Pour tout t ∈ I, x 7→ f(x, t) est de classe Ck sur A.

• Pour tout j ∈ [[1,k − 1]], pour tout x ∈ A, t 7→ ∂jf

∂xj(x, t) est continue par mor-

ceaux et intégrable sur I.

• Pour tout x ∈ A, t 7→ ∂kf

∂xk(x, t) est continue par morceaux sur I.


∣∣∣∣

∂kf

∂xk(x, t)

∣∣∣∣6 ϕ(t).


If(x, t) dt est définie et de classe Ck sur A et pour tout

j ∈ [[1,k]], pour tout x ∈ A,

F (j)(x) =

∫

I

∂jf

∂xj(x, t) dt.

On peut remplacer l’hypothèse de domination pour t 7→ ∂kf

∂xk(x, t) par une version

locale sur tout segment pour la variable x.

Théorème – Classe Ck pour les intégrales à paramètre

Pour prouver la classe C∞, il suffit de prouver la classe Ck pour tout k ∈ N (ou au moinspour des valeurs de k arbitrairement grandes).

228

Chapitre 12

Espaces préhilbertiensEspaces euclidiens

Dans ce chapitre, H désigne un R-espace vectoriel, et E un R-espace vectoriel de dimensionfinie.

I. Produit scalaire

• Un produit scalaire sur H est une forme bilinéaire symétrique définie positive surH, c’est-à-dire, une application f : H×H → R vérifiant les propriétés suivantes :

– Bilinéarité : pour tout (a,b) ∈ H×H, les applications x 7→ f(x,b) et y 7→ f(a,y)sont linéaires.

– Symétrie : pour tout (x,y) ∈ H ×H, f(x,y) = f(y,x).

– Définie positivité pour tout x ∈ H, f(x,x) > 0, et on a l’équivalence :

f(x,x) = 0 ⇔ x = 0.

Si f est un produit scalaire sur H, on note le plus souvent, pour (x,y) ∈ H2,

f(x,y) = (x | y) , ou 〈x, y〉, ou x · y.

• Si H est muni d’un produit scalaire (· | ·), on dit que (H, (· | ·)) (ou simplement H s’iln’y a pas d’ambiguité sur le produit scalaire) est un espace préhilbertien (réel).

• Un espace euclidien est un espace préhilbertien de dimension finie.

Définition

Remarques

• Du fait de la symétrie, il suffit en fait d’imposer la linéarité par rapport à une seule des deuxvariables.

• Si (· | ·) est un produit scalaire sur H, alors pour tout (a,b) ∈ H2, (a | 0) = (0 | b) = 0.

• Si E est un sous-espace vectoriel de dimension finie de H, et si (· | ·) est un produit scalaire surH, alors (· | ·) induit par restriction un produit scalaire sur E qui est donc un espace euclidien.

Exemples

• L’application f1 définie sur R2×R2 par f1((x1,x2),(y1,y2)) = x1y1+2x2y2 est un produit scalairesur R2, mais pas l’application f2 définie sur R2×R2 par f((x1,x2),(y1,y2)) = x1y1− 2x2y2, cettedernière ne vérifiant pas la propriété de définie positivité : en effet, f2((0,1),(0,1)) = −2 < 0.

229

• L’application (· | ·) définie sur Rn × Rn par

(x | y) =n∑

i=1

xiyi

(où x = (x1, . . . ,xn) et y = (y1, . . . ,yn)) est un produit scalaire sur Rn. Il est appelé produitscalaire canonique sur Rn.

• En fait, si E est un R-espace vectoriel de dimension finie, on peut toujours munir E d’unestructure d’espace euclidien. En effet, soit B = (e1, . . . ,en) une base de E ; on définit alors, pourx = x1e1 + · · ·+ xnen et y = y1e1 + · · ·+ ynen éléments de E,

(x | y) =

n∑

i=1

xiyi.

Ceci définit un produit scalaire sur E.

• L’application g définie sur Mn(R)2 par g(A,B) = Tr (tAB) est un produit scalaire sur Mn(R).Si A = (ai,j) et B = (bi,j), alors, pour tout (i,j) ∈ [[1,n]]2, le coefficient en position (i,j) de lamatrice tAB est

n∑

k=1

ak,i bk,j,

et donc

g(A,B) =

n∑

i=1

n∑

k=1

ak,i bk,i =

n∑

i,j=1

ai,j bi,j

après changement d’indices muets. On est donc dans la situation du point précédent, pour lechoix de la base canonique de Mn(R).

• Soit ω : [a,b]→ R∗+ une application continue. L’application (· | ·) définie sur C0([a,b],R)2 par

(f | g) =

∫ b

af(x)g(x)ω(x) dx,

est un produit scalaire sur C0([a,b],R) (qui, munit de ce produit scalaire, est un espace préhilber-tien réel, mais pas un espace euclidien).

• Soit I un intervalle de R et H = L2(I,R) ∩ C0(I,R). L’application

(· | ·) :

H×H → R

(f,g) 7→∫

If g

est un produit scalaire sur H.• L’application (· | ·) définie sur Rn[X]2 par

(P |Q) =n∑

i=0

P (i)Q(i),

est un produit scalaire sur Rn[X]. Pour la définie positivité, on remarque qu’un polynôme P deRn[X] vérifie (P |P ) = 0 si et seulement si P (i) = 0 pour tout i ∈ [[0,n]], ce qui équivaut à P = 0(si P (i) = 0 pour tout i ∈ [[0,n]], P possède au moins n+1 racines, or P est de degré au plus n).

Soit (· | ·) un produit scalaire sur H. Alors, pour tout (x,y) ∈ H2,

| (x | y) | 6√

(x |x)√

(y | y),

avec égalité si et seulement si x et y sont colinéaires.

Théorème – Inégalité de Cauchy-Schwarz

230

Démonstration – Fixons x et y dans H et définissons sur R l’application

P : λ 7→ (λx+ y |λx+ y) .

Pour tout λ ∈ R, par bilinéarité et symétrie,

P (λ) = λ2 (x |x) + λ (x | y) + λ (y |x) + (y | y) = λ2 (x |x) + 2λ (x | y) + (y | y) .

La fonction P ne prend que des valeurs positives d’après la propriété de définie positivité.

Si x 6= 0, (x |x) 6= 0 pour la même raison, et P est une fonction polynomiale de degré 2 ; onen déduit que le discriminant du polynôme P est négatif ou nul, c’est-à-dire

(2 (x | y))2 − 4 (x |x) (y | y) 6 0, d’où (x | y)2 6 (x |x) (y | y) .

Le résultat suit en composant cette inégalité par la fonction croissante racine carrée.

Si x = 0, P est une fonction affine partout positive, donc le coefficient directeur associé estnul, c’est-à-dire (x | y) = 0. L’inégalité est également vérifiée dans ce cas.

En ce qui concerne le cas d’égalité : si x et y sont colinéaires, il est immédiat que l’égalité estvérifiée ; par exemple s’il existe α ∈ R tel que y = αx, on a

(x | y) = (x |αx) = α (x |x) ,

et√

(x |x)√

(y | y) =√

(x |x)√

(αx |αx) = |α|√

(x |x)√

(x |x) = |α| (x |x) ,donc on a égalité dans l’inégalité de Cauchy-Schwarz (on procède de même s’il existe α ∈ R

tel que x = α y). Réciproquement, supposons que x 6= 0 et que | (x | y) | =√

(x |x)√

(y | y). Enreprenant la démonstration précédente, on voit que le discriminant de P est nul, donc P possèdeune racine réelle (double) λ, et on a donc P (λ) = (λx+ y |λx+ y) = 0. Par définie positivité, ils’ensuit que λx+y = 0 et donc x et y sont colinéaires. Si x = 0, x et y sont également colinéaires.

• Si (· | ·) est un produit scalaire sur H, l’application ‖ · ‖ : x 7→√

(x |x) est une normesur H, dite norme associée à (· | ·). Une norme associée à un produit scalaire sur Hest appelée norme euclidienne.

• L’application d définie sur H2 par d(x,y) = ‖x − y‖ est appelée distance associéeà (· | ·) .


Démonstration du fait que ‖ · ‖ est une norme.

L’application ‖ · ‖ est bien définie car (x |x) > 0 pour tout x ∈ H.

Homogénéité : pour tout x ∈ H et λ ∈ R,

‖λx‖ =√

(λx |λx) =√

λ2 (x |x) = |λ|√

(x |x) = |λ| ‖x‖.

Séparation : pour tout x ∈ H,

‖x‖ = 0 ⇔ (x |x) = 0 ⇔ x = 0,

car (· | ·) est définie positive.

Inégalité triangulaire : comme on l’a remarqué dans le chapitre Espaces vectoriels normés,elle résulte de l’inégalité de Cauchy-Schwarz, qui se réécrit

∀ (x,y) ∈ H2, | (x | y) | 6 ‖x‖ ‖y‖.

231

Pour tout (x,y) ∈ H2, on a en effet

‖x+ y‖2 = (x+ y |x+ y) = ‖x‖2 + 2 (x | y) + ‖y‖2

6 ‖x‖2 + 2‖x‖‖y‖ + ‖y‖2

= (‖x‖+ ‖y‖)2.Le résultat suit en prenant la racine carrée car les deux membres sont positifs.

On peut également caractériser le cas d’égalité dans l’inégalité triangulaire :

Soit (· | ·) un produit scalaire sur H et ‖ · ‖ la norme associée. Pour tout (x,y) ∈ H2, ona l’équivalence :

‖x+ y‖ = ‖x‖+ ‖y‖ ⇔ il existe α ∈ R+ tel que x = α y ou y = αx.

Propriété – Cas d’égalité dans l’inégalité triangulaire

Démonstration – Si y = αx avec α ∈ R+,

‖x+ y‖ = ‖(1 + α)x‖ = (1 + α)‖x‖,et

‖x‖+ ‖y‖ = ‖x‖+ ‖αx‖ = ‖x‖+ α ‖x‖ = (1 + α)‖x‖.On procède de même si x = αy avec α ∈ R+.

Réciproquement, si ‖x + y‖ = ‖x‖ + ‖y‖, alors en reprenant l’inégalité de la démonstrationprécédente, on a

(x | y) = ‖x‖‖y‖.En particulier, il y a égalité dans l’inégalité de Cauchy-Schwarz, donc x et y sont colinéaires. Six est non nul, on peut écrire y = αx avec α ∈ R, et on a

(x | y) = α (x |x) = α‖x‖2,et

‖x‖‖y‖ = |α| ‖x‖2.Sachant que x 6= 0, ‖x‖ 6= 0 donc α = |α|, c’est-à-dire que α ∈ R+. Si x = 0, la relation x = α yest vérifiée avec α = 0.

Exemples

• La norme associée au produit scalaire canonique sur Rn est définie par

∀x ∈ Rn, ‖x‖ =

(n∑

i=1

x2i

)1/2

Elle est appelée norme euclidienne canonique sur Rn.

• La norme associée au produit scalaire défini sur Mn(R)2 par (A |B) = Tr (tAB) est donnéepar :

∀A = (ai,j) ∈Mn(R), ‖A‖ =(Tr(tAA

)1/2=

n∑

i,j=1

(ai,j)2

1/2

• La norme associée au produit scalaire défini sur C0([a,b],R) par (f | g) =∫ ba f(t) g(t) dt est

donnée par :

∀ f ∈ C0([a,b],R), ‖f‖ =

(∫ b

af(x)2 dx

)1/2

.

Le résultat suivant montre qu’une norme euclidienne provient d’un unique produit scalaire,que l’on peut retrouver à partir d’elle.

232

Soit (· | ·) un produit scalaire surH et ‖·‖ la norme associée. Alors, pour tout (x,y) ∈ H2,

(x | y) =1

4(‖x+ y‖2 − ‖x− y‖2) =

1

2(‖x+ y‖2 − ‖x‖2 − ‖y‖2).

Propriété – Identité de polarisation

Démonstration – Pour (x,y) ∈ H2, on a, par bilinéarité et symétrie,

‖x+ y‖2 = (x+ y |x+ y) = ‖x‖2 + 2 (x | y) + ‖y‖2,

et de même‖x− y‖2 = (x− y |x− y) = ‖x‖2 − 2 (x | y) + ‖y‖2.

On en déduit facilement le premier résultat en retranchant la seconde égalité à la première, et lesecond résultat en utilisant la première égalité.

Remarque – Pour tout (x,y) ∈ H2, on a en additionnant les deux égalités de la démonstrationprécédente,

‖x+ y‖2 + ‖x− y‖2 = 2(‖x‖2 + ‖y‖2

).

Cette égalité est appelée identité du parallélogramme. Géométriquement, cette identité signifieque la somme des carrés des longueurs des diagonales d’un parallélogramme est égale à la sommedes carrés de ses côtés.

II. Orthogonalité

Dans cette partie, (H, (· | ·)) désigne un espace préhilbertien réel.

1. Familles orthogonales de vecteurs

• Si x ∈ H, on dit que x est unitaire (ou normé) si ‖x‖ = 1.

• Si x et y appartiennent à H, on dit que x et y sont orthogonaux si (x | y) = 0.

• Si (xi)i∈I est une famille de vecteurs de H (I étant un ensemble d’indices), on ditque cette famille est :– normée si pour tout i ∈ I, ‖xi‖ = 1.– orthogonale si pour tout (i,j) ∈ I tel que i 6= j, (xi |xj) = 0.– orthonormale (ou orthonormée) si elle est orthogonale et normée.

Ceci équivaut au fait que (xi |xj) = δi,j pour tout (i,j) ∈ I2.

Définition

Une famille orthogonale finie de vecteurs tous non nuls de H est libre.

Propriété

Démonstration – Soit (x1, . . . ,xp) une famille orthogonale de vecteurs tous non nuls de H et(λ1, . . . ,λp) une famille de scalaires telle que

λ1x1 + · · ·+ λpxp = 0H.

Alors pour tout i ∈ [[1,p]],

(xi |λ1x1 + · · ·+ λpxp) = 0

i.e. λ1 (xi |x1) + · · ·+ λp (xi |xp) = 0,

et donc λi = 0 car la famille est orthogonale et xi 6= 0, d’où (xi |xi) 6= 0.

233

Exemple – Définissons sur R, pour tout k ∈ N, la fonction ck : x 7→ cos(kx). Alors, pour toutn ∈ N, la famille (c0, . . . ,cn) est libre dans C0([0,2π],R), car est elle composée de vecteurs tousnon nuls, et orthogonale pour le produit scalaire usuel sur C0([0,2π],R). En effet, pour tous p etq distincts dans N, on a p− q 6= 0 et p+ q 6= 0, donc

∫ 2π

0cos(px) cos(qx) dx =

∫ 2π

0

1

2(cos((p+ q)x) + cos((p− q)x)) dx

=1

2

[sin((p + q)x)

p+ q+

sin((p− q)x)p− q

]2π

0

= 0.

Soit (x1, . . . ,xp) une famille orthogonale de vecteurs de H.

Alors‖x1 + · · ·+ xp‖2 = ‖x1‖2 + · · ·+ ‖xp‖2.

Théorème de Pythagore

Démonstration – C’est immédiat puisque les termes 2 (xi |xj) dans le développement de‖x1 + · · · + xp‖2 sont nuls par orthogonalité de la famille (x1, . . . ,xp).

Soit E un espace euclidien et B = (e1, . . . ,en) une famille de vecteurs de E.

On dit que B est une base orthonormée de E si B est une base de E et une familleorthonormale.

Définition – Base orthonormée

Soit (E, (· | ·)) un espace euclidien, et B = (e1, . . . ,en) une base orthonormée de E.Soient x = x1e1 + · · ·+ xnen et y = y1e1 + · · ·+ ynen deux vecteurs de E.

Alors :

(x | y) =n∑

i=1

xi yi et ‖x‖ =

(n∑

i=1

|xi|2)1/2

.

Si X = t(x1 · · · xn

)et Y = t

(y1 · · · yn

)sont les vecteurs-colonnes des coordon-

nées de x et y dans la base B, on a (en identifiant une matrice de M1(R) à son uniquecoefficient)

(x | y) = tX Y et ‖x‖ = (tXX)1/2.

Propriété – Calculs dans une base orthonormée

Démonstration – Il suffit de montrer le premier point. Or, par bilinéarité de (· | ·),

(x | y) = (x1e1 + · · · + xnen | y1e1 + · · · + ynen)

=n∑

i,j=1

xi yj (ei | ej)

=

n∑

i=1

xi yi,

car la base B est orthonormée.

Remarque – Dans Mn,1(R), l’expression du produit scalaire canonique entre deux vecteurs X etY s’écrit simplement (X |Y ) = tX Y.

234

Soit (E, (· | ·)) un espace euclidien, u ∈ L (E) et B = (e1, . . . ,en) une base orthonorméede E. Alors

MatB(u) =((ei |u(ej))

)

16i,j6n

Propriété – Matrice d’une application linéaire dans une base orthonormée

Démonstration – Notons ai,j les coefficients de la matrice MatB(u). Pour tout j ∈ [[1,n]], on adonc

u(ej) =n∑

k=1

ak,jek.

Le produit scalaire (ei |u(ej)) est donc égal à(

ei |n∑

k=1

ak,jek

)

=

n∑

k=1

ak,j (ei | ek) = ai,j

car B est une famille orthonormée. D’où le résultat.

Les résultats précédents montrent l’intérêt, pour la simplicité des calculs, de travailler dansdes bases orthonormées. On va donc chercher à construire de telles bases orthonormées.

2. Orthonormalisation

Soit (e1, . . . ,ep) une famille libre de vecteurs de H et F = Vect(e1, . . . ,ep).

Alors il existe une base orthonormée (ε1, . . . ,εp) de F telle que pour tout i ∈ [[1,p]],

Vect(ε1, . . . ,εi) = Vect(e1, . . . ,ei).

Théorème – Procédé d’orthonormalisation de Gram-Schmidt

Démonstration – On procède par récurrence sur p.

Initialisation : pour p = 1, on remarque que e1 6= 0 car la famille (e1) est libre. Il suffit alorsde poser

ε1 =e1‖e1‖

.

On a évidemment ‖ε1‖ = 1 et Vect(ε1) = Vect(e1).

Hérédité : supposons la propriété vraie pour un entier p et considérons une famille libre(e1, . . . ,ep+1). Par hypothèse de récurrence, on peut supposer ε1, . . . ,εp construits.

Analyse : le vecteur εp+1 doit vérifier εp+1 ∈ Vect(e1, . . . ,ep+1) = Vect(ε1, . . . ,εn,ep+1), donc ildoit exister (λ1, . . . ,λp+1) ∈ Rp+1 tel que

εp+1 = λ1ε1 + · · ·+ λpεp + λp+1ep+1.

Alors pour tout i ∈ [[1,p]],

0 = (εi | εp+1) =

p∑

j=1

λj (εi | εj) + λp+1 (εi | ep+1) = λi + λp+1 (εi | ep+1) ,

car la famille (ε1, . . . ,εp+1) doit être orthonormée. On en déduit que

εp+1 = λp+1

(

ep+1 −p∑

i=1

(εi | ep+1) εi

)

.

Synthèse : on sait que Vect(ε1, . . . , εp) = Vect(e1, . . . ,ep) ; de plus, la famille e1, . . . ,ep+1 étantlibre, le vecteur fp+1 = ep+1 −

∑pi=1 (εi | ep+1) εi est non nul. On peut donc poser

εp+1 =fp+1

‖fp+1‖.

235

Tout d’abord, la famille (ε1, . . . ,εp+1) est normée. Elle est également orthogonale : en effet, soit(j,k) ∈ [[1,p + 1]]2 avec j 6= k. Si j 6 p et k 6 p, alors (εj | εk) = 0 par hypothèse de récurrence.Si j 6 p et k = p+ 1, alors

(εj | εp+1) =1

‖fp+1‖

(

εj

∣∣∣ ep+1 −

p∑

i=1

(εi | ep+1) εi

)

=1

‖fp+1‖

(

(εj | ep+1)−p∑

i=1

(εi | ep+1) (εj | εi))

=1

‖fp+1‖((εj | ep+1)− (εj | ep+1)) ,

car seul le terme correspondant à i = j est éventuellement non nul, et (εi | εi) = 1. Donc(εj | εp+1) = 0.

Ensuite, montrons que pour tout i ∈ [[1,p + 1]],

Vect(ε1, . . . ,εi) = Vect(e1, . . . ,ei).

C’est vrai si i 6 p par hypothèse de récurrence. Il suffit donc de le montrer pour i = p+ 1. Or

εp+1 =1

‖fp+1‖ep+1 + y

avec y ∈ Vect(ε1, . . . ,εp) = Vect(e1, . . . ,ep). On en déduit le résultat par double inclusion immé-diate.

Illustrons les différentes étapes de ce procédé dans le plan :

e1

ε1(ε1 | e2) ε1

f2

ε2

e2

Remarques

•On peut aussi montrer que l’on peut imposer que (εi | ei) ∈ R∗+ pour tout i. La famille (ε1, . . . ,εp)

est alors unique.

• Cette démonstration est constructive : elle donne un algorithme qui permet de construireexplicitement une famille (ε1, . . . ,εp). En particulier, elle est programmable sur ordinateur. Enpratique, on pourra procéder ainsi : on remarque qu’à chaque étape, si f1, . . . ,fi sont construits,fi+1 est de la forme

fi+1 = ei+1 + λifi + · · ·+ λ1f1

où λ1, . . . ,λi sont des scalaires. Il suffit alors d’imposer les conditions

(fi+1 | f1) = · · · = (fi+1 | fi) = 0

pour déterminer ces scalaires. À la fin de la procédure, on pose alors εi = fi/‖fi‖ et l’on obtientune famille qui répond au problème. Avec cette façon de faire, on peut ainsi ne normer les vecteursqu’à la fin de la procédure, ce qui évite des erreurs de calculs.

On peut procéder de même en cherchant fi+1 sous la forme ei+1 + µiei + · · · + µ1e1, carVect(e1, . . . ,ei) = Vect(f1, . . . ,fi).

236

Exemple – Soit B = (e0,e1,e2) la base canonique de R2[X], muni du produit scalaire défini par

(P |Q) =

∫ 1

0P (x)Q(x) dx.

Orthonormalisons la base B.

• On pose f0 = e0 = 1.

• On choisit f1 de la forme f1 = e1 + αf0 (α réel) de sorte que (f1 | f0) = 0, ce qui équivaut à

∫ 1

0(t+ α) dt = 0 ⇔ α = −1

2.

On pose donc f1 = X − 1

2.

• On choisit f2 de la forme f2 = e2 + βf1 + γf0 (β et γ réels) de sorte que (f2 | f0) = 0 et(f2 | f1) = 0, ce qui équivaut à

∫ 1

0

(

t2 + β

(

t− 1

2

)

+ γ

)

dt = 0

∫ 1

0

(

t2 + β

(

t− 1

2

)

+ γ

)(

t− 1

2

)

dt = 0

i.e. à

1

3+ γ = 0

1

4− 1

6+ β

1

12= 0

i.e. à

β = −1

γ = −1

3

On pose donc f2 = X2 − f1 −1

3f0 = X2 −X +

1

6.

• On norme enfin les vecteurs f0, f1 et f2 :

‖f0‖ = 1

‖f1‖ =

(∫ 1

0

(

t− 1

2

)2

dt

)1/2

=

√

1

12=

1

2√

3

‖f2‖ =

(∫ 1

0

(

t2 − t+1

6

)2

dt

)1/2

=1√180

.

On obtient une famille (ε0,ε1,ε2) qui convient.

Soit (E, (· | ·)) un espace euclidien.

Il existe des bases orthonormées de E.

Toute famille orthonormale de E peut être complétée en une base orthonormée de E.

Corollaire

Démonstration – Pour le premier point, il suffit d’appliquer le procédé d’othonormalisation deGram-Schmidt à une base quelconque de E. On obtient alors une famille génératrice de E etlibre (car orthonormale), c’est-à-dire une base de E. Pour le second, on sait que toute familleorthonormale est libre, on peut la compléter en une base de E puis orthonormaliser cette basepar le procédé de Gram-Schmidt, ce qui ne modifie pas la famille initiale.

237

3. Sommes orthogonales

Soient F et G deux sous-espaces vectoriels de H.

On dit que F et G sont orthogonaux si :

∀ (x,y) ∈ F ×G, (x | y) = 0.

Ceci se note également : F ⊥ G.

Définition – Sous-espaces orthogonaux

Soient F1, . . . ,Fp des sous-espaces vectoriels de H, deux à deux orthogonaux.

Alors la somme F1 + · · · + Fp est directe.

Propriété

Démonstration – Soit (x1, . . . ,xp) ∈ F1 × · · · × Fp tel que x1 + · · ·+ xp = 0. En faisant le produitscalaire de cette expression avec xi pour i ∈ [[1,p]], on obtient

0 = (xi |x1 + · · · + xp) = (xi |x1) + · · ·+ (xi |xp) .

Les Fj étant deux à deux orthogonaux, on en déduit que (xi |xi) = 0 et donc xi = 0, et ce pourtout i. D’où le résultat.

• Soient F1, . . . ,Fp des sous-espaces vectoriels de H, deux à deux orthogonaux.

La somme⊕p

i=1 Fi est appelée somme directe orthogonale des Fi (on dit aussi queles Fi sont en somme directe orthogonale).

• Soient F et G deux sous-espaces vectoriels de H.

On dit que F et G sont supplémentaires orthogonaux si F ⊥ G et F ⊕G = H.Ceci se note parfois H = F ⊕⊥ G.

Définition

Remarques

• Soient F1, . . . ,Fp des sous-espaces vectoriels deux à deux orthogonaux d’un espace euclidienE. Alors leur somme est directe, donc d’après un résultat du chapitre Espaces vectoriels etapplications linéaires, on a

dim(F1 ⊕ · · · ⊕ Fp) = dim(F1) + · · ·+ dim(Fp)

et pour que E = F1 ⊕ · · · ⊕ Fp, il faut et il suffit que

dim(E) = dim(F1) + · · ·+ dim(Fp).

• Si F et G sont deux sous-espaces vectoriels de H, pour montrer que F et G sont supplémentairesorthogonaux, il suffit de montrer que F ⊥ G et H ⊂ F + G. En effet, d’après la propriétéprécédente, si F ⊥ G, l’aspect direct de la somme F +G est acquis (notamment, F ∩G = 0E).

4. Orthogonal d’un sous-espace vectoriel

Soit F un sous-espace vectoriel de H. On appelle orthogonal de F l’ensemble

F⊥ = y ∈ H; ∀x ∈ F, (x | y) = 0.

C’est un sous-espace vectoriel de H, orthogonal à F .


238

Démonstration – On a F⊥ ⊂ H, et le vecteur nul de H est orthogonal à tout vecteur doncappartient à F⊥. Si y et z appartiennent à F⊥ et si λ ∈ R, alors pour tout x ∈ F ,

(x |λy + z) = λ (x | y) + (x | z) = 0

donc λy + z ∈ F⊥. Ainsi F⊥ est un sous-espace vectoriel de H. Il est orthogonal à F , car pardéfinition, si x ∈ F et y ∈ F⊥, (x | y) = 0.

Exemple – Dans Rn (n > 1) muni du produit scalaire canonique, soit a = (a1, . . . ,an) un vecteurnon nul. Alors Vect(a)⊥ est l’ensemble des vecteurs x = (x1, . . . ,xn) tels que

n∑

i=1

ai xi = 0.

Il s’agit du noyau de la forme linéaire ϕ définie sur Rn par

ϕ(x1, . . . ,xn) =

n∑

i=1

ai xi,

qui est non nulle car a est non nul. En particulier, Vect(a)⊥ est un hyperplan de Rn.

Remarque – Si F et G sont deux sous-espaces vectoriels de H, alors on a les équivalences

F ⊥ G ⇔ F ⊂ G⊥ ⇔ G ⊂ F⊥.

Par contre, lorsque F ⊥ G on n’a pas toujours les égalités F = G⊥ et G = F⊥.

On a H⊥ = 0H et 0H⊥ = H.

Propriété

Démonstration – En effet, si y ∈ H vérifie (x | y) = 0 pour tout x ∈ H, alors pour le choix de x = yon obtient (y | y) = 0 et donc y = 0H. L’autre inclusion (et la seconde égalité) vient simplementdu fait que (x | 0H) = 0 pour tout x ∈ H.

Remarque – Soient x et y deux éléments de H tels que pour tout z ∈ H, (x | z) = (y | z). Alorsx = y.

En effet, l’hypothèse entraîne que (x− y | z) = 0 pour tout z ∈ H, et donc x−y ∈ H⊥ = 0H.D’où le résultat.

Soit F un sous-espace vectoriel de dimension finie de H et (e1, . . . ep) une famille géné-ratrice de F .

Pour tout x ∈ H, on a l’équivalence :

x ∈ F⊥ ⇔ ∀ i ∈ [[1,p]], (ei |x) = 0.

Propriété

Démonstration – Si x ∈ F⊥, alors pour tout i ∈ [[1,p]], (ei |x) = 0, car ei ∈ F . Réciproquement,si (ei |x) = 0 pour tout i ∈ [[1,p]], alors pour tout (λ1, . . . ,λp) ∈ Rp,

p∑

i=1

λi (ei |x) = 0, i.e.

(n∑

i=1

λiei

∣∣∣x

)

= 0,

par linéarité à gauche de (· | ·). Comme F = Vect(e1, . . . ,ep), on a bien x ∈ F⊥.

239

Soit F un sous-espace vectoriel de H. Alors :

• F ⊂ (F⊥)⊥.

• F et F⊥ sont en somme directe orthogonale. En particulier, F ∩ F⊥ = 0H.• Si G est un supplémentaire orthogonal de F , alors G = F⊥.

Propriété

Démonstration

• Soit x ∈ F . Alors, pour tout y ∈ F⊥, (x | y) = 0, donc x ∈ (F⊥)⊥.

• C’est une conséquence de la propriété du paragraphe précédent, car F ⊥ F⊥.

• Soit G un supplémentaire orthogonal de F . Montrons que G = F⊥. Tout d’abord, F ⊥ G doncG ⊂ F⊥. Réciproquement, soit x ∈ F⊥. On peut décomposer x sous la forme y + z avec y ∈ Fet z ∈ G. Alors y = x − z ∈ F⊥ car x ∈ F⊥ et z ∈ G ⊂ F⊥. Donc y ∈ F ∩ F⊥ = 0H etx = z ∈ G. D’où l’égalité G = F⊥. Ainsi, F a au plus un supplémentaire orthogonal, qui ne peutêtre que F⊥.

Remarque – Il est important de remarquer que l’inclusion réciproque du premier point est fausseen général. Par exemple, soit H = C0([0,1],R) muni du produit scalaire usuel défini par

(f | g) =

∫ 1

0f(t)g(t) dt.

Considérons le sous-espace vectoriel F = f ∈ E; f(0) = 0 de H. Soit f ∈ F⊥ ; alors, lafonction g : t 7→ t f(t) étant un élément de F , on a (f | g) = 0, i.e.

∫ 1

0t f(t)2 dt = 0.

La fonction t 7→ t f(t)2 étant de plus continue et positive, elle est nulle, donc f(t) = 0 pour toutt ∈ ]0,1]. Par continuité de f , on a également f(0) = 0, et finalement, f = 0H. On en déduit queF⊥ = 0H. Ainsi, dans ce cas, on a (F⊥)⊥ = 0H⊥ = H 6= F .

On remarque également que la somme F ⊕F⊥ n’est pas toujours égale à H : dans l’exempleprécédent, on a F⊕F⊥ = F 6= H. En général, F et F⊥ ne sont donc pas toujours supplémentairesorthogonaux.

En revanche, les résultats sont vrais lorsque F est de dimension finie :

Soit F un sous-espace vectoriel de dimension finie de H. Alors :

• H = F ⊕ F⊥.

• (F⊥)⊥ = F .

Théorème – Supplémentaire orthogonal d’un sous-espace de dimension finie

Remarque – D’après le premier point, si F est un sous-espace vectoriel de dimension finie de H,F⊥ est un supplémentaire orthogonal de F , et on sait d’après la propriété précédente que c’estalors l’unique supplémentaire orthogonal de F .

Démonstration

• On sait déjà que la somme est directe, il suffit de montrer que H ⊂ F+F⊥. Soit B = (ε1, . . . ,εn)une base orthonormée de F (qui existe d’après le procédé de Gram-Schmidt). Pour tout x ∈ H,on cherche à écrire x = y + z avec y ∈ F et z ∈ F⊥.

Analyse : supposons qu’une telle décomposition existe, et soit y =∑n

i=1 λiεi la décompositionde y dans la base B. Alors x−y = z ∈ F⊥, donc pour tout j ∈ [[1,n]], (εj |x− y) = 0, c’est-à-dire

(εj |x) = (εj | y) =

n∑

i=1

λi (εj | εi) = λj

240

car B est orthonormée. Ainsi y est nécessairement donné par : y =∑n

i=1 (εi |x) εi.Synthèse : définissons donc y par cette formule. Alors y ∈ F et x−y ∈ F⊥ car pour tout j ∈ [[1,n]],(εj |x− y) = 0 en reprenant le calcul précédent. On a donc bien la décomposition souhaitée avecz = x− y.• Le premier point montre que F⊥ a un supplémentaire orthogonal, à savoir F . Le dernier pointde la propriété précédente (appliqué avec F⊥ à la place de F et F à la place de G) montre alorsque F = (F⊥)⊥.

Soit F un sous-espace vectoriel de dimension finie de H.La projection pF sur F parallèlement à F⊥ est bien définie car H = F ⊕ F⊥, elle estappelée projection orthogonale sur F .

Si (ε1, . . . ,εn) est une base orthonormée de F , alors pour tout x ∈ H,

pF (x) =n∑

i=1

(εi |x) εi.

Le vecteur pF (x) est appelé le projeté orthogonal de x sur F .

Théorème/Définition – Projection orthogonale

Démonstration – La formule donnant pF (x) a été démontrée dans le théorème précédent.

Voici une illustration de la situation :

pF (x)

x

x− pF (x) = pF⊥(x)

F⊥

F

(ε2 |x) ε2

(ε1 |x) ε1

ε1

ε2

Remarques

• Pour déterminer le projeté orthogonal de x sur F , il n’est pas nécessaire de disposer d’une baseorthonormée de F . En effet, il suffit de remarquer que pF (x) est entièrement caractérisé par :pF (x) ∈ F et x − pF (x) ∈ F⊥. Si l’on dispose d’une famille génératrice quelconque (e1, . . . ,ep)de F , alors d’après une propriété précédente, x− pF (x) ∈ F⊥ si et seulement si

∀ i ∈ [[1,p]], (ei |x− pF (x)) = 0,

241

ce qui peut s’écrire comme un système linéaire dont les inconnues sont les scalaires d’une décom-position de pF (x) sur la famille (e1, . . . ,ep).

En revanche, pour que la formule explicite de pF (x) de la propriété précédente soit vraie, ilest essentiel que (ε1, . . . ,εn) soit une base orthonormée de F .

• Si F est un sous-espace vectoriel de dimension finie de H, on appelle symétrie orthogonale parrapport à F la symétrie sF par rapport à F , parallèlement à F⊥. On a la relation IdH +sF = 2pF .Si E est euclidien et F est un hyperplan de E, on dit que sF est la réflexion par rapport à F .

Soit B = (ε1, . . . ,εn) une base orthonormée d’un espace euclidien (E, (· | ·)).Alors, la décomposition d’un vecteur x ∈ E dans la base B est

x =

n∑

i=1

(εi |x) εi.

Propriété

Démonstration – C’est une conséquence immédiate de la formule du théorème précédent, avecle choix particulier de F = E; dans ce cas, bien sûr, le projeté orthogonal de x sur E est xlui-même.

Remarque – En particulier, pour tout (x,y) ∈ E2,

(x | y) =

n∑

i=1

(εi |x) (εi | y) et ‖x‖ =

(n∑

i=1

(εi |x)2)1/2

.

• Soit F un sous-espace vectoriel d’un espace euclidien E.

Alors E = F ⊕ F⊥. En particulier,

dim(F ) + dim(F⊥) = dim(E).

• Si F et G sont deux sous-espaces vectoriels de E, pour que F et G soient supplémen-taires orthogonaux, il faut et il suffit que

F ⊥ G et dim(F ) + dim(G) = dim(E).

Théorème

Démonstration

• On a montré que le résultat E = F ⊕ F⊥ est toujours vrai si F est de dimension finie, ce quiest le cas dans la situation présente, E étant de dimension finie. La formule des dimensions vientde la première remarque du paragraphe précédent.

• Cela vient aussi de la première remarque du paragraphe précédent.

Remarque – Si F est un sous-espace vectoriel de E, F et F⊥ sont de dimension finie, les projectionsorthogonales sur F et F⊥ sont bien définies et on a la relation pF + pF⊥ = Id, c’est-à-dire quepour tout x ∈ E, x− pF (x) = pF⊥(x).

242

III. Distance

Étant donné un vecteur x de H et F un sous-espace vectoriel de H de dimension finie, oncherche un vecteur de F qui soit le plus proche de x au sens de la distance associée au produitscalaire (· | ·) sur H.

Soit x ∈ H et F un sous-espace vectoriel de dimension finie de H.

Alors la fonction F → R+

y 7→ ‖x− y‖a un minimum sur F , qui est atteint en pF (x) et uniquement en ce point.

Autrement dit, il existe un unique vecteur y0 de F tel que

‖x− y0‖ = miny∈F‖x− y‖,

et ce vecteur est pF (x).

Le réel positif ‖x− pF (x)‖ est appelé distance de x à F , noté d(x,F ) :

d(x,F ) = ‖x− pF (x)‖ = miny∈F‖x− y‖.

Théorème/Définition

Démonstration – Voici une illustration de la situation et de la démonstration :

pF (x)

d(x, F )

x

z = x− pF (x)

F⊥

F

y

Comme F est de dimension finie, on sait que H = F ⊕ F⊥. On peut donc écrire x = pF (x) + zavec pF (x) ∈ F et z ∈ F⊥. Alors pour tout y ∈ F, pF (x) − y ∈ F et donc x − pF (x) = z estorthogonal à pF (x)− y. D’après le théorème de Pythagore, on a donc

‖x− y‖2 = ‖(x− pF (x)) + (pF (x)− y)‖2 = ‖x− pF (x)‖2 + ‖pF (x)− y‖2 > ‖x− pF (x)‖2,

avec égalité si et seulement si ‖pF (x)− y‖2 = 0 c’est-à-dire y = pF (x).

Soit F un sous-espace vectoriel de dimension finie de H et (ε1, . . . ,εn) une base ortho-normée de F .

La distance de x à F est donnée par les formules

d(x,F )2 = ‖x‖2 − ‖pF (x)‖2 = ‖x‖2 −n∑

i=1

(εi |x)2 .

Propriété

243

Démonstration – La famille (ε1, . . . ,εn) est une base orthonormée de F , donc pour tout x ∈ H,on connaît l’expression explicite de pF (x) :

pF (x) =

n∑

i=1

(εi |x) εi,

et on a également

‖pF (x)‖2 =

∥∥∥∥∥

n∑

i=1

(εi |x) εi∥∥∥∥∥

2

=n∑

i=1

(εi |x)2 .

De plus, les vecteurs pF (x) et x−pF (x) sont orthogonaux, donc d’après le théorème de Pythagore,

‖x‖2 = ‖pF (x) + (x− pF (x))‖2 = ‖pF (x)‖2 + ‖x− pF (x)‖2 = ‖pF (x)‖2 + d(x,F )2.

On en déduit les deux formules.

Soit F un sous-espace vectoriel de dimension finie de H et (ε1, . . . ,εn) une base ortho-normée de F .

Pour tout x ∈ H, on a‖pF (x)‖ 6 ‖x‖.

Corollaire – Inégalité de Bessel

Démonstration – En effet, la différence ‖x‖2 − ‖pF (x)‖2 est égale à d(x,F )2 > 0.

Exemple – Déterminons le polynôme de degré au plus 2 qui soit le plus proche de X3 au sens dela norme associée au produit scalaire défini sur R[X] par

(P |Q) =

∫ 1

0P (x)Q(x) dx.

Nous avons déterminé ci-dessus une base orthonormée (ε0,ε1,ε2) de R2[X] pour ce produit sca-laire. L’unique polynôme qui répond au problème est le projeté orthogonal de X3 sur R2[X],c’est-à-dire le polynôme

P (X) =(ε0 |X3

)ε0 +

(ε1 |X3

)ε1 +

(ε2 |X3

)ε2

=

(∫ 1

0t3 dt

)

+(

2√

3)2(∫ 1

0

(

t− 1

2

)

t3 dt

)(

X − 1

2

)

+ 180

(∫ 1

0

(

t2 − t+1

6

)

t3 dt

)(

X2 −X +1

6

)

=1

4+ 12

(1

5− 1

2× 1

4

)(

X − 1

2

)

+ 180

(1

6− 1

5+

1

6× 1

4

)(

X2 −X +1

6

)

.

Après simplifications, on obtient P (X) =3

2X2 − 3

5X +

1

20.

Comme indiqué dans une remarque de la partie précédente, on peut aussi déterminer P (X)en résolvant le système

(X3 − aX2 − bX − c | 1

)= 0

(X3 − aX2 − bX − c |X

)= 0

(X3 − aX2 − bX − c |X2

)= 0

ce qui aboutit bien sûr à la même valeur de P (X), et ne nécessite pas de disposer de la famille(ε0,ε1,ε2).

244

On peut alors déterminer la distance de X3 à R2[X], c’est-à-dire la racine carrée de la quantité

inf(a,b,c)∈R3

∫ 1

0

(t3 − at2 − bt− c

)2dt;

en effet cette borne inférieure est un minimum, qui est atteint pour a =3

2, b = −3

5et c =

1

20et

uniquement pour ces valeurs.

D’après la propriété ci-dessus, on peut également calculer cette valeur en utilisant la formule

inf(a,b,c)∈R3

∫ 1

0

(t3 − at2 − bt− c

)2dt = ‖X3‖2 −

2∑

i=0

(εi |X3

)2.

IV. Formes linéaires sur un espace euclidien

Dans cette partie, (E, (· | ·)) désigne un espace euclidien.

Soit f une forme linéaire sur E. Alors il existe un unique vecteur a ∈ E tel que :

∀x ∈ E, f(x) = (a |x) .

On dit parfois que le vecteur a représente f via le produit scalaire (· | ·) .

Théorème – Représentation des formes linéaires sur un espace euclidien

Démonstration – Soit B = (e1, . . . ,en) une base orthonormée de E, et soit x = x1e1 + · · · + xnenun vecteur de E. Alors

f(x) =n∑

i=1

xif(ei),

qui est le produit scalaire entre x et le vecteur a = f(e1)e1 + · · ·+f(en)en car B est orthonormée.Ceci prouve l’existence de a.

Quant à l’unicité, supposons que deux vecteurs a et b vérifient, pour tout x ∈ E,

f(x) = (a |x) = (b |x) .

Alors, pour tout x ∈ E, (a− b |x) = 0 et donc a− b ∈ E⊥ = 0E. On en déduit que a = b.

Remarque – Réciproquement, si a ∈ E, l’application x 7→ (a |x) est linéaire, par linéarité àdroite du produit scalaire. Le résultat précédent signifie donc que dans un espace euclidien, onsait décrire entièrement les formes linéaires : il s’agit exactement des applications de la formex 7→ (a |x) où a est un vecteur de E, chaque forme linéaire f sur E étant associée à un uniquevecteur a.

Exemples

• Dans le cas de la forme linéaire définie sur R3 (muni du produit scalaire canonique) parf(x,y,z) = x+ 2y + 3z, a est le vecteur (1,2,3).

• Les formes linéaires sur Mn(R) sont exactement les applications de la forme M 7→ Tr(AM) oùA ∈Mn(R).

245

Soit H un hyperplan de E et f une forme linéaire non nulle sur E telle que H = Ker(f).

Il existe a ∈ E non nul tel que f : x 7→ (a |x). Ainsi, pour x ∈ E, on a l’équivalence

x ∈ H ⇔ (a |x) = 0.

On dit que a est un vecteur normal à H.

Avec les notations précédentes, en notant a = a1e1 + · · ·+ anen la décomposition de adans la base orthonormée B, on a

(a |x) = a1x1 + · · · + anxn.

Ainsi, H a pour équationa1x1 + · · ·+ anxn = 0

dans la base B.

Propriété/Définition – Vecteur normal à un hyperplan

Remarque – Avec les notations précédentes, l’ensemble des formes linéaires caractérisant H estVect(f) \ 0. De la même façon, l’ensemble des vecteurs normaux à H est Vect(a) \ 0. Il esten effet évident que pour tout λ ∈ R∗, λf est représentée par le vecteur λa. Les équations de Hsont donc exactement les équations (λa |x) = 0 où λ ∈ R∗.

Si l’on travaille dans une base orthonormée B = (e1, . . . ,en), et si H a pour équation

a1x1 + · · ·+ anxn = 0

dans la base B, les vecteurs normaux à H sont exactement les vecteurs λ(a1e1 + · · ·+ anen) oùλ ∈ R∗.

• Soit H un hyperplan de E et a un vecteur normal à H. Alors, pour tout x ∈ E, ladistance de x à H est donnée par

d(x,H) =| (x | a) |‖a‖ .

• Soit D une droite vectorielle de E et a un vecteur non nul de D. Alors, pour toutx ∈ E, la distance de x à D est donnée par

d(x,D) =

√

‖x‖2 − (x | a)2‖a‖2 .

Propriété – Distance d’un vecteur à un hyperplan ou une droite

Démonstration

• La distance de x à H est donnée par d(x,H) = ‖x−pH(x)‖, le vecteur pH(x) étant entièrementcaractérisé par : pH(x) ∈ H et x− pH(x) ∈ H⊥ = Vect(a). Ainsi, pH(x) est l’unique vecteur dela forme x− λa, où λ ∈ R, qui appartienne à H, i.e. tel que (x− λa | a) = 0, ce qui équivaut à :(x | a)− λ‖a‖2 = 0. On a alors

d(x,H) = ‖x− pH(x)‖ = ‖λa‖ =| (x | a) |‖a‖ .

• D’après le théorème de Pythagore, on a d(x,D)2 = ‖x‖2−d(x,D⊥)2, la distance d(x,D⊥) étantdonnée par le premier point, car a est un vecteur normal à l’hyperplan D⊥. On en déduit laformule.

246

Chapitre 13

Séries entières

Nous avons déjà montré à l’aide du théorème de dérivation terme à terme des séries defonctions, que pour tout x ∈ ]−1,1[,

arctan(x) =+∞∑

n=0

(−1)nx2n+1

2n+ 1.

Nous avons également prouvé dans le chapitre Séries numériques que la série∑

n>0

zn

n!converge

absolument pour tout z ∈ C. L’un des raisonnements que nous avions faits, basé sur la formulede Taylor avec reste intégral, montrait même que pour tout x ∈ R,

ex =

+∞∑

n=0

xn

n!.

Il semble donc que les séries de la forme∑

n>0 anzn jouent un rôle particulier et que des fonctions

usuelles se représentent comme somme de telles séries ; c’est ce que nous allons étudier dans cechapitre.

I. Définition et convergence des séries entières

1. Définition, rayon de convergence

Une série entière est une série de la forme∑

n>0 anxn où x est une variable réelle,

ou de la forme∑

n>0 anzn où z est une variable complexe, les coefficients an étant des

nombres complexes.

On dit que cette série est associée à la suite (an)n∈N, ou qu’elle a pour coefficients lesnombres an.

Définition – Série entière

L’étude de la convergence des séries entières est basée sur le lemme suivant :

Soit∑

n>0 anzn une série entière et z0 ∈ C tel que la suite (anz

n0 )n∈N soit bornée.

Alors, pour tout z ∈ C tel que |z| < |z0|, la série∑

n>0

anzn converge absolument.

Lemme d’Abel

Démonstration – Si z0 = 0, il n’y a rien à démontrer. Sinon, soit z ∈ C tel que |z| < |z0|. Alorspour tout n ∈ N,

|anzn| = |anz

n0 |∣∣∣∣

z

z0

∣∣∣∣

n

.

247

La suite (anzn0 ) étant bornée, on en déduit que

anzn = O

(∣∣∣∣

z

z0

∣∣∣∣

n)

.

De plus, la série géométrique de raison |z/z0| ∈ [0,1[ est convergente. Par comparaison, la série∑

n>0


Définissons alors

I = ρ > 0; (anρn) est bornée et R = sup I ∈ [0,+∞].

• Ce nombre est bien défini car la suite (anρn) est bornée par exemple pour ρ = 0, donc I est

non vide.

• La borne supérieure est calculée dans R, et notamment, R peut être infini ; c’est le cas si etseulement si la partie I n’est pas majorée.

• Il est tout à fait possible que R /∈ I, même lorsque R est fini : cela correspond à la situationoù (anR

n) n’est pas bornée.

• R ne dépend que de (an) et notamment, il est le même, que la série entière soit de la variableréelle, ou de la variable complexe.

Exemples

• La série géométrique∑

n>0 zn est une série entière. Pour ρ > 0, la suite (ρn) est bornée si et

seulement si ρ 6 1. On a donc ici I = [0,1], d’où R = 1.

• Dans le cas de la série∑

n>0 nzn, pour ρ > 0, la suite (nρn) est bornée si et seulement si ρ < 1 :

on a I = [0,1[ et ici aussi R = 1.

On utilise les notations précédentes. Soit z ∈ C.

• Si |z| < R, alors la série∑

n>0


• Si |z| > R, alors la série∑

n>0

anzn diverge grossièrement.

Propriété

Démonstration

• Si |z| < R, alors par définition de la borne supérieure, il existe ρ ∈ I tel que |z| < ρ. Alors lasuite (anρ

n) est bornée et d’après le lemme d’Abel,∑

n>0 anzn converge absolument.

• Si |z| > R, alors |z| /∈ I et donc (an|z|n) n’est pas bornée, ce qui entraîne que anzn ne tend

pas vers 0. En particulier, la série∑

n>0 anzn diverge grossièrement.

•On appelle R le rayon de convergence de la série entière∑

n>0 anzn, ou

∑

n>0 anxn.

• Dans le cas d’une variable complexe, l’ensemble D(0,R) = z ∈ C; |z| < R estappelé disque ouvert de convergence de la série entière.Si R = +∞, il s’agit de C tout entier.

• Dans le cas d’une variable réelle, l’intervalle ]−R,R[ est appelé intervalle ouvertde convergence de la série entière. Si R = +∞, il s’agit de R tout entier.

Définition – Rayon de convergence, disque/intervalle ouvert de convergence

248

Remarques

• Les séries∑

n>0 anzn et

∑

n>0 |an|zn ont le même rayon de convergence car, pour ρ > 0,(anρ

n)n∈N est bornée si et seulement si (|an|ρn)n∈N est bornée.

• En fait, R est entièrement caractérisé par les deux premiers points de la propriété précédente : siR et R′ sont deux réels vérifiant cette propriété, et si par exemple R < R′, alors pour R < r < R′,la série

∑

n>0 anrn doit être à la fois convergente et divergente, ce qui est absurde. On a donc

R > R′ et de même R 6 R′.

Méthode – On a plusieurs moyens pour minorer et majorer le rayon de convergence R, notamment,pour tout r > 0 et z0 ∈ C :

• Si la suite (anρn) est bornée pour tout ρ tel que 0 6 ρ < r, alors R > r.

• Si la suite (anρn) est non bornée pour tout ρ > r, alors R 6 r.

• Si la série∑

n>0 anzn converge pour tout z ∈ C tel que |z| < r, alors R > r.

• Si la série∑

n>0 anzn diverge pour tout z ∈ C tel que |z| > r, alors R 6 r.

• Si la série∑

n>0 anzn0 converge ou si la suite (anz

n0 ) est bornée, alors R > |z0|.

• Si la série∑

n>0 anzn0 diverge, alors R 6 |z0|.

Ces résultats proviennent, suivant les cas, de la définition de R, de la propriété précédente, ouse démontrent comme le résultat de la deuxième remarque ci-dessus.


n>0

zn

n!est une série entière de rayon de convergence infini : d’après la règle

de d’Alembert, elle converge pour tout z ∈ C.

La propriété suivante, basée sur le théorème de comparaison, permet de comparer les rayonsde convergence de deux séries entières :

Soient∑

n>0 anzn et

∑

n>0 bnzn deux séries entières de rayons de convergence respectifs

Ra et Rb.

• Si an = O(bn), alors Ra > Rb.

• Si an ∼ bn, alors Ra = Rb.

Propriété – Comparaison de rayons de convergence

Démonstration

• Sachant que an = O(bn), on a, pour tout z ∈ C,

anzn = O(|bnzn|).

Si |z| < Rb,∑

n>0 bnzn converge absolument, donc par comparaison,

∑

n>0 anzn converge abso-

lument, et donc converge. On en déduit que Ra > Rb d’après le troisième point de la méthodeprécédente.

• Si an ∼ bn, alors an = O(bn) et bn = O(an), donc d’après le point précédent, Ra > Rb etRb > Ra, d’où le résultat.

Remarques

• Si |an| 6 |bn| pour tout n assez grand, alors an = O(bn), donc Ra > Rb.

• Si |an| ∼ |bn|, alors Ra = Rb.

Exemples

• La série∑

n>1 zn/n est une série entière de rayon de convergence R égal à 1. En effet, on a

1/n = O(1), donc d’après le point précédent et la propriété ci-dessus, R > 1. De plus, pourz = 1, la série obtenue est la série harmonique, divergente. On en déduit que R 6 1.

Remarquons au passage que pour z = −1, de module 1, la série obtenue est la série har-monique alternée, convergente. On retiendra donc de ces exemples qu’aux points du bord du

249

disque de convergence, on peut avoir convergence comme divergence de la série. En revanche,si∑

n>0 |an|Rn converge, alors par définition même, la série converge absolument en tout pointdu bord du disque de convergence. En dehors de ce cas particulier, on ne donnera dans ce coursaucun résultat général de convergence au bord du disque de convergence, qui devra donc êtreexaminée au cas par cas.

• On a

ln

(

1 +1

n

)

∼ 1

n

donc la série∑

n>1

ln

(

1 +1

n

)

zn a pour rayon de convergence 1 d’après la propriété ci-dessus.

2. La règle de d’Alembert pour les séries entières

Pour étudier la convergence des séries, nous disposons de la règle de d’Alembert, dont on saitqu’elle permet de conclure à des convergences absolues ou des divergences grossières, ce qui estle cas des séries entières en dehors du bord du disque de convergence. Il paraît donc judicieux detester cette règle dans le cadre des séries entières.

Soit R le rayon de convergence de la série entière∑

n>0 anzn. Supposons que an 6= 0 pour n

assez grand. Pour z = 0, la série converge toujours. Si z 6= 0, le quotient apparaissant dans larègle de d’Alembert est (pour n assez grand)

∣∣∣∣

an+1zn+1

anzn

∣∣∣∣=

∣∣∣∣

an+1

an

∣∣∣∣|z|.

Supposons que

∣∣∣∣

an+1

an

∣∣∣∣

possède une limite ℓ (éventuellement infinie). Alors

∣∣∣∣

an+1zn+1

anzn

∣∣∣∣−→

n→+∞ℓ |z|.

D’après la règle de d’Alembert :

• Si ℓ = 0, la série converge absolument quel que soit z et R = +∞.

• Si ℓ = +∞, elle ne converge que pour z = 0 et R = 0.

• Si ℓ ∈ ]0, +∞[, alors : si ℓ|z| < 1, la série∑

n>0 anzn converge absolument, et si ℓ|z| > 1, elle

diverge grossièrement. Ainsi R = 1/ℓ.

On vient donc de démontrer le résultat suivant :

Soit∑

n>0 anzn une série entière. On suppose que an 6= 0 pour n assez grand, et qu’il

existe ℓ ∈ R+ ou ℓ = +∞ tel que∣∣∣∣

an+1

an

∣∣∣∣→ ℓ.

Alors le rayon de convergence R de la série entière∑

n>0 anzn est donné par :

R =

1/ℓ si ℓ ∈ ]0,+∞[

+∞ si ℓ = 0

0 si ℓ = +∞

Théorème – Règle de d’Alembert pour les séries entières

Remarque – Comme pour la règle de d’Alembert usuelle, il n’existe pas de réciproque : le quotient|an+1/an| peut ne pas avoir de limite, voire ne pas être défini, alors que le rayon de convergence

250

existe toujours. En particulier, lorsque cette règle ne s’applique pas, il faut penser aux autresmoyens que nous avons exposés pour déterminer un rayon de convergence.

Exemples

• La série entière∑

n>0

nzn a pour rayon de convergence 1 carn+ 1

n→ 1.


n>0

n! zn a pour rayon de convergence 0 car(n+ 1)!

n!= (n+ 1)→ +∞. Elle ne

converge que pour z = 0.


n>0

2n

n!2zn a pour rayon de convergence +∞ car

2n+1/(n + 1)!2

2n/n!2=

2

(n+ 1)2→ 0.

Elle converge pour tout z ∈ C.

• Attention aux séries dites « lacunaires », dans lesquelles tous les exposants n’apparaissent pas,comme la série

∑

n>1

2n ln(n) z2n.

Pour cette série, on a, pour tout p ∈ N, a2p = 2p ln(p) si p > 1, mais a2p+1 = 0. Il ne faut pasfaire l’erreur de dire que an = 2n ln(n) pour tout n > 1, ce qui donnerait un rayon de convergence(faux) de 1/2. Pour n > 2, et z 6= 0,

∣∣∣∣∣

2n+1 ln(n+ 1) z2(n+1)

2n ln(n) z2n

∣∣∣∣∣= 2

ln(n + 1)

ln(n)|z|2 −→

n→+∞2|z|2.

On en déduit que la série converge absolument si 2|z|2 < 1 et diverge si 2|z|2 > 1. Le rayon deconvergence est donc 1/

√2. On retiendra que pour appliquer la règle de d’Alembert à de telles

séries, il faut revenir à la règle de d’Alembert pour les séries numériques.

3. Convergence normale sur tout segment de l’intervalle de convergence

Nous savons déjà que la convergence des séries entières est absolue sur le disque ouvert deconvergence. Qu’en est-il de la convergence uniforme ou normale ?

Soit∑

n>0 anxn une série entière d’une variable réelle, de rayon de convergence R.

Posons, pour tout n ∈ N, fn : x 7→ anxn.

Alors∑

n>0 fn converge normalement sur tout segment inclus dans l’intervalle ouvertde convergence ]−R,R[.

Théorème

Démonstration – Soit [a,b] un segment inclus dans ]−R,R[ et r = max|a|,|b| ∈ [0,R[. Alors,pour tout x ∈ [a,b], pour tout n ∈ N,

|anxn| 6 |an|rn.

La série∑

n>0 anrn converge absolument car r ∈ [0,R[, d’où le résultat.

Attention ! Il n’y a pas nécessairement convergence normale sur l’intervalle ouvert de convergencetout entier : par exemple, la série de fonctions associée à

∑

n>0 xn ne converge pas normalement

sur ]−1,1[, car la série∑

n>0 1 diverge.

251

II. Opérations sur les séries entières

Soient∑

n>0 anzn et

∑


Ra et Rb.

Alors le rayon de convergence R de la série entière∑

n>0

(an + bn)zn vérifie

R > minRa, Rb,

avec égalité si Ra 6= Rb.

Pour tout z ∈ C vérifiant |z| < minRa, Rb, on a alors

+∞∑

n=0

(an + bn)zn =

+∞∑

n=0

anzn +

+∞∑

n=0

bnzn.

Théorème – Somme de séries entières

Démonstration – Si |z| < minRa, Rb, alors les deux séries∑

n>0 anzn et

∑

n>0 bnzn convergent,

donc la série∑

n>0(an +bn)zn converge, et on a la formule annoncée. En particulier, on en déduitque R > minRa, Rb.

Si Ra 6= Rb (par exemple Ra < Rb), alors pour r vérifiant Ra < r < Rb, la série∑

n>0 anrn

diverge tandis que la série∑

n>0 bnrn converge, donc la série

∑

n>0(an + bn)rn diverge. On adonc, dans ce cas, R 6 minRa, Rb.

Remarque – On n’a pas toujours R = minRa, Rb si Ra = Rb. Par exemple, les séries∑

n>0 zn

et∑

n>0−zn ont toutes les deux pour rayon de convergence 1, mais la série somme a un rayonde convergence infini.

Soient∑

n>0 anzn et

∑


Ra et Rb.

Alors leur produit de Cauchy est la série entière

∑

n>0

(∑

p+q=n

apbq

)

zn,

dont le rayon de convergence R vérifie

R > minRa, Rb.

Pour tout z vérifiant |z| < minRa, Rb, on a alors

+∞∑

n=0

(∑

p+q=n

apbq

)

zn =

+∞∑

p=0

apzp

+∞∑

q=0

bqzq

.

Théorème – Produit de Cauchy de séries entières

Démonstration – Le produit de Cauchy des deux séries est la série

∑

n>0

(∑

p+q=n

(apzp)(bqz

q)

)

=∑

n>0

(∑

p+q=n

apbq

)

zn.

Si |z| < minRa, Rb, alors les deux séries∑

n>0 anzn et

∑

n>0 bnzn convergent absolument,

donc d’après le théorème de convergence du chapitre Séries numériques, on a convergence duproduit de Cauchy, ainsi que la formule annoncée. En particulier R > minRa, Rb.

252

Exemple – Le produit de Cauchy des séries entières∑

n>0 zn et

∑

n>1 zn/n est la série entière

∑

n>1Hnzn où, pour tout n > 1, Hn =

∑nk=1 1/k. Son rayon de convergence R vérifie R > 1 ;

de plus∑

n>1Hn diverge grossièrement, donc R = 1.

Attention ! Il n’y a pas de cas d’égalité pour les rayons de convergence de produits de sériesentières : les séries entières 1 − z et

∑

n>0 zn ont pour rayons de convergence respectifs +∞ et

1, qui sont distincts, mais leur produit de Cauchy est la série constante égale à 1, de rayon deconvergence +∞ > min1, +∞. En effet, avec les notations du théorème, on a ici

∑

p+q=0

apbq = a0b0 = 1× 1 = 1,

∀n > 1,∑

p+q=n

apbq = a0bn + a1bn−1 = 1× 1− 1× 1 = 0.

III. Régularité de la somme d’une série entière

1. Continuité

• Soit∑

n>0 anxn une série entière d’une variable réelle, de rayon de convergence R.

Alors la fonction somme S : x 7→+∞∑

n=0

anxn est continue sur ]−R,R[ .

• Soit∑

n>0 anzn une série entière d’une variable complexe, de rayon de convergence

R. Alors la fonction somme S : z 7→+∞∑

n=0

anzn est continue sur D(0,R).

Théorème

Démonstration

• Pour tout n ∈ N, fn : x 7→ anxn est continue sur ]−R,R[. De plus, la série de fonctions

∑

n>0 fn

converge normalement (et donc uniformément) sur tout segment de ]−R,R[. D’après le théorèmede continuité pour les séries de fonctions, S est continue sur ]−R,R[.

• Conformément au programme, ce résultat est admis.

2. Séries entières de la variable réelle : dérivation et intégration

La série des dérivées d’une série entière∑

n>0 anzn est la série

∑

n>1 nanzn−1. À un facteur

près, on obtient la série∑

n>0 nanzn. On s’intéresse donc au rayon de convergence de cette série

entière.

Soit∑

n>0 anzn une série entière de rayon de convergence R.

Alors la série entière ∑

n>0

nanzn

a pour rayon de convergence R.

Propriété

Démonstration – Notons R′ le rayon de convergence de la série∑

n>0 nanzn. On a tout d’abord

an = O(nan)

donc R > R′.

253

Si R = 0, on a R 6 R′ ; si R > 0, soit r ∈ [0,R[ ; il existe ρ tel que : r < ρ et (anρn) est bornée.

Alors ρ > 0 et, pour n ∈ N,

nanrn = n

rn

ρnanρ

n,

la suite

(

n

(r

ρ

)n)

étant bornée par croissances comparées, car r/ρ ∈ [0,1[. On en déduit que

(nanrn) est bornée ; ainsi R′ > R, ce qui termine la démonstration.

Soit∑

n>0 anxn une série entière de rayon de convergence R > 0.

Alors, l’unique primitive de sa fonction somme f sur ]−R,R[ qui s’annule en 0 est lafonction somme de la série entière

∑

n>0

an

n+ 1xn+1,

qui a pour rayon de convergence R.

On peut donc primitiver terme à terme les séries entières sur leur intervalle ouvert deconvergence.

Théorème – Primitivation terme à terme des séries entières

Démonstration – D’après le théorème fondamental, l’unique primitive de f sur ]−R,R[ qui s’annuleen 0 est la fonction x 7→

∫ x0 f(t) dt. Par continuité des fonctions fn : t 7→ ant

n et convergencenormale de

∑

n>0 fn sur tout segment de ]−R,R[, on peut appliquer le théorème d’intégrationterme à terme pour les séries de fonctions : si x ∈ ]−R,R[,

∫ x

0f(t) dt =

+∞∑

n=0

(∫ x

0ant

n dt

)

=

+∞∑

n=0

an

n+ 1xn+1.

Cette série entière a pour rayon de convergence R, on le montre en raisonnant comme dans lapropriété précédente.

Soit∑


Alors sa fonction somme f est de classe C1 sur ]−R,R[ et pour tout x ∈ ]−R,R[,

f ′(x) =

+∞∑

n=1

nanxn−1,

la série entière associée ayant pour rayon de convergence R.

On peut donc dériver terme à terme les séries entières sur leur intervalle ouvert deconvergence.

Théorème – Dérivation terme à terme des séries entières

Démonstration – Pour tout n > 0, la fonction fn : x 7→ anxn est de classe C1 sur ]−R,R[ avec

f ′0 = 0 et f ′n(x) = nanxn−1 pour tout n > 1 et x ∈ ]−R,R[. La série

∑

n>0 fn converge simplementsur ]−R,R[. Pour appliquer le théorème de dérivation terme à terme des séries de fonctions, ilsuffit de vérifier que la série des dérivées,

∑

n>1 f′n, converge uniformément sur tout segment

de ]−R,R[. Or, cette dernière série est une série entière de rayon de convergence R d’après lapropriété précédente (le facteur x ne modifie pas le rayon de convergence), d’où le résultat.

254

On peut alors réitérer ce raisonnement avec la série des dérivées k-ièmes. On en déduit lerésultat suivant :

Soit∑


Alors sa fonction somme f est de classe C∞ sur l’intervalle ]−R,R[ et pour tout k ∈ N,pour tout x ∈ ]−R,R[,

f (k)(x) =+∞∑

n=k

n(n− 1) · · · (n− k + 1) anxn−k =

+∞∑

n=k

n!

(n− k)! anxn−k.

Théorème

Soit∑



ak =f (k)(0)

k!.

Corollaire – Expression des coefficients d’une série entière

Démonstration – Pour tout x ∈ ]−R,R[, on a d’après le théorème précédent,

f (k)(x) =+∞∑

n=k

n!

(n− k)! anxn−k.

En évaluant en x = 0 (ce qui est possible car R > 0), on obtient f (k)(0) = k! ak, car seul le termecorrespondant à n = k fournit un terme éventuellement non nul. D’où le résultat.

On en déduit en particulier que les coefficients an sont entièrement déterminés par la donnéede la somme de la série entière

∑

n>0 anxn de rayon de convergence non nul. Par exemple, et

c’est intuitif, si la somme d’une série entière ne prend que des valeurs réelles, alors on sait quetous les coefficients de cette série entière sont réels, même si l’expression de ces coefficients ne lefait pas clairement apparaître.

Du corollaire précédent, on déduit immédiatement :

Soient∑

n>0 anxn et

∑

n>0 bnxn deux séries entières de rayons de convergence supé-

rieurs ou égaux à un certain r > 0. On suppose que pour tout x ∈ ]−r,r[,+∞∑

n=0

anxn =

+∞∑

n=0

bnxn.

Alors an = bn pour tout n ∈ N.

Théorème – Unicité du développement en série entière

Application – Soit∑

n>0 anxn une série entière de rayon de convergence R > 0 et f sa fonction

somme. Alors :

• f est paire si et seulement si pour tout k ∈ N, a2k+1 = 0.

• f est impaire si et seulement si pour tout k ∈ N, a2k = 0.

Démonstration – Il suffit de traiter le cas où f est paire, l’autre est similaire. Si f est paire, alorspour tout x ∈ ]−R,R[,

+∞∑

n=0

anxn =

+∞∑

n=0

an(−x)n =

+∞∑

n=0

(−1)nanxn.

Par unicité du développement en série entière, on a donc an = (−1)nan pour tout n ∈ N, ce quientraîne le résultat. La réciproque est claire.

255

IV. Développements en séries entières

1. Série de Taylor

Soient r > 0 et f : ]−r,r[→ C une fonction.

On dit que f est développable en série entière sur ]−r,r[ si f est la fonction sommed’une série entière sur ]−r,r[, c’est-à-dire, s’il existe une série entière

∑

n>0 anxn de la

variable réelle, de rayon de convergence au moins égal à r, telle que

∀x ∈ ]−r,r[, f(x) =

+∞∑

n=0

anxn.

Définition – Fonction développable en série entière

Exemple – Pour tout x ∈ ]−1,1[, arctan(x) =+∞∑

n=0

(−1)nx2n+1

2n+ 1.

Ce développement en série entière de arctan est explicitement au programme, il est à connaître.

Remarque – Le rayon de convergence de la série entière précédente est 1, même si la fonctionarctan est définie sur R tout entier. C’est pour cela qu’on a introduit le paramètre r dans ladéfinition, qui permet de se placer au voisinage de 0.

Si f est développable en série entière sur ]−r,r[, par unicité du développement en série entière,les éventuels coefficients an sont alors entièrement déterminés : f est de classe C∞ sur ]−r,r[ eton a nécessairement, pour tout n ∈ N,

an =f (n)(0)

n!.

Soit f : ]−r,r[→ C une fonction de classe C∞ avec r > 0. On appelle série de Taylorde f (en 0) la série entière

∑

n>0

f (n)(0)

n!xn.

Définition – Série de Taylor

Si f est développable en série entière sur ]−r,r[, elle ne peut être somme que de sa série deTaylor. Le problème de la recherche des coefficients an ne se pose donc presque pas, en revanche,se pose le problème de la convergence de la série de Taylor, seule « candidate » à avoir poursomme f , et le problème de l’égalité entre sa somme et f .

Commençons par donner des contre-exemples qui prouvent que ces deux problèmes ne sontpas anodins.

• On peut prouver qu’il existe une fonction f de classe C∞ au voisinage de 0 telle que pour toutn ∈ N, f (n)(0) = (n!)2. Alors la série de Taylor de f a un rayon de convergence nul car il s’agitde la série entière

∑

n>0 n!xn.

• Considérons la fonction f définie sur R par f(0) = 0 et f(x) = exp(−1/x2) si x 6= 0. On prouvefacilement que f est de classe C∞ sur R avec, pour tout n ∈ N, f (n)(0) = 0. En effet, le seulproblème est évidemment en 0, mais on montre facilement par récurrence que pour tout n ∈ N,il existe un polynôme Pn tel que pour tout x 6= 0,

f (n)(x) = Pn

(1

x

)

e−1/x2.

Par croissances comparées, f (n)(x) tend vers 0 lorsque x tend vers 0. On obtient alors le résultatpar applications successives du théorème de la limite de la dérivée.

256

La série de Taylor de f en 0 est la série nulle : elle a évidemment un rayon de convergenceinfini, mais sa somme ne coïncide avec f qu’en 0 puisque f(x) 6= 0 si x 6= 0.

2. Lien avec les formules de Taylor

Bien sûr, la série de Taylor d’une fonction f n’est pas sans rapport avec les formules de Taylor

pour la fonction f : on voit bien qu’elles font toutes intervenir les termesf (n)(0)

n!xn.

Tout d’abord, supposons que f est développable en série entière sur ]−r,r[ ; on a donc, pourtout x ∈ ]−r,r[,

f(x) =+∞∑

n=0

f (n)(0)

n!xn.

Soit k ∈ N. Alors, d’après la formule de Taylor-Young à l’ordre k, on a

f(x) =x→0

k∑

n=0

f (n)(0)

n!xn + o(xk).

Ainsi, le développement limité à l’ordre k de f en 0 est obtenu par troncature à l’ordre k de sondéveloppement en série entière.

Écrivons maintenant la formule de Taylor avec reste intégral à l’ordre k en 0 pour une fonctionf de classe C∞ sur un intervalle I contenant 0 :

∀x ∈ I, f(x) =

k∑

n=0

f (n)(0)

n!xn +

∫ x

0

(x− t)kk!

f (k+1)(t) dt.

Si l’on est capable de prouver que le reste intégral converge vers 0 lorsque k → +∞ pour tout xdans un intervalle de la forme ]−r,r[⊂ I, alors on obtiendra un développement en série entièrede f sur ]−r,r[. En utilisant cette idée, on va prouver le résultat suivant :

Pour tout z ∈ C,

ez =+∞∑

n=0

zn

n!.

Propriété

Démonstration – D’après la formule de Taylor avec reste intégral à l’ordre k pour la fonctionf : t 7→ ezt, de classe C∞ sur [0,1], on a

ez = f(1) =k∑

n=0

f (n)(0)

n!+

∫ 1

0

(1− t)kk!

f (k+1)(t) dt

=k∑

n=0

zn

n!+

∫ 1

0

(1− t)kk!

zk+1ezt dt.

Or ∣∣∣∣

∫ 1

0

(1− t)kk!

zk+1ezt dt

∣∣∣∣6

∫ 1

0

(1− t)kk!

|zk+1||ezt| dt

=

∫ 1

0

(1− t)kk!

|zk+1| eRe(z)t dt

6 |z|k+1 e|Re(z)|∫ 1

0

(1 − t)kk!

dt

= |z|k+1 e|Re(z)| 1

(k + 1)!.

Ce dernier terme tend vers 0 lorsque k → +∞, par croissances comparées. On en déduit lerésultat par passage à la limite dans la formule de Taylor ci-dessus.

257

3. Autres développements en série entière de référence

Nous allons donner quelques développements en série entière usuels, en plus de ceux de arctanet exp. On peut alors en construire beaucoup d’autres par :

• Combinaison linéaire,

• Produit de Cauchy,

• Primitivation et dérivation terme à terme.

Bien sûr, commençons par rappeler le développement en série entière correspondant à la sériegéométrique :

Pour tout z ∈ C tel que |z| < 1,

1

1− z =

+∞∑

n=0

zn

Propriété

Remarque – On a en particulier, pour tout x ∈ ]−1,1[,

1

1− x =

+∞∑

n=0

xn,1

1 + x=

+∞∑

n=0

(−1)nxn,1

(1− x)2 =

+∞∑

n=1

nxn−1,

ce dernier développement étant obtenu par dérivation du premier (on l’avait déjà prouvé parproduit de Cauchy dans le chapitre Séries numériques).

En intégrant terme à terme le deuxième développement de la remarque précédente, on ob-tient :

Pour tout x ∈ ]−1,1[,

ln(1 + x) =

+∞∑

n=1

(−1)n−1xn

n.

Propriété

Remarque – Bien sûr, en changeant x en −x, on a aussi, pour tout x ∈ ]−1,1[ ,

− ln(1− x) =

+∞∑

n=1

xn

n.

En prenant parties réelle et imaginaire de exp(ix) =

+∞∑

n=0

inxn

n!et en utilisant exp(x) =

+∞∑

n=0

xn

n!,

on a également :

Pour tout x ∈ R,

cos(x) =

+∞∑

n=0

(−1)nx2n

(2n)!sin(x) =

+∞∑

n=0

(−1)nx2n+1

(2n+ 1)!

ch(x) =

+∞∑

n=0

x2n

(2n)!sh(x) =

+∞∑

n=0

x2n+1

(2n+ 1)!

Propriété

258

Enfin, donnons le développement en série entière de la fonction x 7→ (1 + x)α :

Pour tout α ∈ R, pour tout x ∈ ]−1,1[,

(1 + x)α = 1 ++∞∑

n=1

α(α − 1) · · · (α− n+ 1)

n!xn.

L’égalité est valable pour tout x ∈ R lorsque α ∈ N, auquel cas on reconnaît la formuledu binôme de Newton.

Propriété

Démonstration – Pour α ∈ N, le résultat est connu, il s’agit de la formule du binôme (et c’esten fait une somme finie). Sinon, en posant f(x) = (1 + x)α pour tout x ∈ ]−1,1[, alors f est declasse C∞ sur ]−1,1[ et pour tout n ∈ N,

f (n)(0) =

1 si n = 0,

α(α − 1) · · · (α− n+ 1) sinon.

La série de Taylor de f en 0,

1 +∑

n>1

f (n)(0)

n!xn,

a un rayon de convergence égal à 1 d’après la règle de d’Alembert : en effet, α n’étant pas entiernaturel, α(α− 1) · · · (α− n+ 1) 6= 0 pour tout n > 1 et

∣∣∣∣

α(α − 1) · · · (α− n)/(n+ 1)!

α(α − 1) · · · (α− n+ 1)/n!

∣∣∣∣=

∣∣∣∣

α− nn+ 1

∣∣∣∣−→

n→+∞1.

Notons S la fonction somme de cette série. Alors S est de classe C1 sur ]−1,1[ et pour toutx ∈ ]−1,1[,

S′(x) =

+∞∑

n=1

α(α − 1) · · · (α− n+ 1)

(n − 1)!xn−1

= α+

+∞∑

n=1

α(α− 1) · · · (α− n)

n!xn

= α+

+∞∑

n=1

(α− n)α(α − 1) · · · (α− n+ 1)

n!xn.

En séparant ce dernier terme en deux, on a pour tout x ∈ ]−1,1[,

S′(x) = α+ α

+∞∑

n=1

α(α − 1) · · · (α− n+ 1)

n!xn −

+∞∑

n=1

nα(α− 1) · · · (α− n+ 1)

n!xn,

toutes les séries entières dans l’égalité précédente ayant pour rayon de convergence 1. On reconnaîtalors l’égalité

S′(x) = αS(x) − xS′(x).

La fonction S est donc solution de l’équation différentielle (1 + x)S′ = αS sur ]−1,1[.

La fonction x 7→ α ln(1 + x) est une primitive sur ]−1,1[ de la fonction continue x 7→ α

1 + x,

donc il existe λ ∈ R tel que pour tout x ∈ ]−1,1[,

S(x) = λ exp (α ln(1 + x)) = λ (1 + x)α.

En remarquant de plus que S(0) = 1, on obtient λ = 1, donc f = S sur ]−1,1[, ce qui est lerésultat souhaité.

259

260

Chapitre 14

Variables aléatoires

Très souvent, on peut associer à chaque issue d’une expérience aléatoire un résultat, notam-ment numérique, qui correspond à l’observation d’un des aspects de l’expérience. Par exemple, sion lance deux dés, un rouge et un vert, on peut s’intéresser au résultat du dé rouge, à celui du dévert, à la somme des deux, à la couleur de celui (ou ceux) qui donne(nt) le plus grand résultat.Si l’on observe le déplacement aléatoire d’une particule dans l’espace, on peut s’intéresser à laposition, à chaque seconde, de la particule, mais aussi à sa vitesse, au temps nécessaire pour quela particule atteigne, éventuellement, une position fixée, etc...

Dans tout le chapitre, (Ω,A , P ) est un espace probabilisé.

I. Définitions, premières propriétés

Une variable aléatoire discrète sur (Ω,A ) est une application définie sur Ω, etvérifiant les conditions suivantes :

• L’image X(Ω) de X est finie ou dénombrable,

• Pour tout x ∈ X(Ω), X−1(x) ∈ A .

Pour tout x ∈ X(Ω), l’événement X−1(x) est noté X = x ou (X = x).

Lorsque X est à valeurs dans R, on dit que X est une variable aléatoire réelle.

Définition – Variable aléatoire

Remarques

• On parle aussi souvent de variable aléatoire sur (Ω,A , P ), mais la définition d’une variablealéatoire n’utilise pas la probabilité P .

• Dans ce cours, toutes les variables aléatoires seront implicitement supposées discrètes.

• On rappelle que X−1(x) = ω ∈ Ω; X(ω) = x. Plus généralement, si U est un sous-ensemble de X(Ω), X−1(U) = ω ∈ Ω; X(ω) ∈ U. Le fait d’employer cette notation ne signifieabsolument pas que X est bijective !

• Si X est une variable aléatoire sur (Ω,A ), X(Ω) est fini ou dénombrable, donc on peut ledécrire en extension sous la forme X(Ω) = xn; n ∈ I, où I est une partie de N.

Alors la famille ((X = xn))n∈I est un système complet d’événements.

• Lorsque Ω est fini, si X est une application définie sur Ω, X(Ω) est également fini. Sachantde plus que A = P(Ω), la deuxième condition de la définition ci-dessus est aussi remplie. Unevariable aléatoire est donc tout simplement, dans ce cadre, une application définie sur Ω. Onparle de variable aléatoire sur Ω, au lieu de (Ω,P(Ω)).

261

Soit X une variable aléatoire sur (Ω,A ) et U un sous-ensemble de X(Ω) : U ⊂ X(Ω).

Alors X−1(U) ∈ A . L’événement X−1(U) est noté X ∈ U ou (X ∈ U).

Propriété

Démonstration – L’ensemble U est fini ou dénombrable en tant que sous-ensemble de X(Ω), onpeut le décrire en extension sous la forme U = xn; n ∈ I, où I est une partie de N. Alors

X−1(U) =⋃

n∈I

X−1(xn);

c’est un élément de A en tant que réunion finie ou dénombrable d’éléments de A .

Notation – SoitX une variable aléatoire réelle sur (Ω,A ) et x ∈ R. Lorsque U = ]−∞,x]∩X(Ω),l’événement (X ∈ U) est noté plus simplement (X 6 x). On définit de façon analogue lesévénements (X < x), (X > x) et (X > x).

Exemple – On modélise le lancer de deux dés, un rouge et un vert, par le choix de Ω = [[1,6]]2,muni de la probabilité uniforme. Pour tout (i,j) ∈ Ω, i est le résultat du dé rouge, j celui du dévert. La fonction X qui à (i,j) associe i + j est une variable aléatoire sur Ω. Elle prend toutesles valeurs de [[2,12]]. Par exemple,

(X = 2) = 1,1 avec P (X = 2) =1

36,

(X = 4) = (1,3),(2,2),(3,1) avec P (X = 4) =3

36=

1

12,

(X = 7) = (1,6),(2,5),(3,4),(4,3),(5,2),(6,1) avec P (X = 7) =6

36=

1

6,

Soit X une variable aléatoire sur (Ω,A ) et f une fonction définie sur X(Ω).

Alors f X est une variable aléatoire sur (Ω,A ), plus souvent notée f(X).


Démonstration – L’image de X est finie ou dénombrable, donc celle de f(X) également. De plus,soit a un élément de f(X(Ω)) (image de f(X)) ; alors

(f X)−1(a) = (X ∈ f−1(a)).

Or f−1(a) ⊂ X(Ω), donc d’après la propriété précédente, (f X)−1(a) ∈ A , ce qui prouvele résultat.

Exemple – Si X est une variable aléatoire réelle, X2 est une variable aléatoire. Si X est à valeursstrictement positives, ln(X) est une variable aléatoire.

II. Loi d’une variable aléatoire

1. Généralités

Soit X une variable aléatoire sur (Ω,A , P ).

On appelle loi de la variable aléatoire X la fonction définie sur X(Ω) par :

∀x ∈ X(Ω), PX(x) = P (X = x).

Définition – Loi d’une variable aléatoire

Remarque – La loi de X permet de définir une probabilité sur (X(Ω),P(X(Ω))).

262

Soit X une variable aléatoire sur (Ω,A , P ). On décrit X(Ω) en extension sous la formeX(Ω) = xn; n ∈ I où I est une partie de N.

Alors, pour tout U ⊂ X(Ω), on a

P (X ∈ U) =∑

xn∈U

P (X = xn).

Propriété

Rappel – Lorsque X(Ω) est dénombrable et décrit en extension sous la forme xn; n ∈ N, Uest fini ou dénombrable, et peut-être décrit en extension sous la forme xϕ(1), . . . ,xϕ(m) (oùm = card(U)) ou xϕ(k); k ∈ N (où ϕ est une bijection de N sur N). Alors

∑

xn∈U P (X = xn)s’exprime comme une somme finie, ou une somme de série convergente :

∑

xn∈U

P (X = xn) =m∑

k=1

P (X = xϕ(k)) ou∑

xn∈U

P (X = xn) =+∞∑

k=0

P (X = xϕ(k)).

Par exemple, si X(Ω) = N et U = 2N = 2k; k ∈ N, alors P (X ∈ U) =∑+∞

k=0 P (X = 2k).

Démonstration de la propriété – L’événement (X ∈ U) est la réunion des événements deux àdeux disjoints (X = xn) pour les xn de U , d’où le résultat par définition d’une probabilité (etnotamment, la somme précédente ne dépend pas de la façon de décrire U en extension).

Remarque – Dans le cas dénombrable, la série∑

n>0 P (X = xn) converge et a pour somme 1. Deplus, pour tout événement A ∈ A , on a d’après la formule des probabilités totales,

P (A) =

+∞∑

n=0

P (A |X = xn)P (X = xn).

Soit X une variable aléatoire réelle sur (Ω,A , P ).

On appelle fonction de répartition de X la fonction FX définie sur R par :

∀x ∈ R, FX(x) = P (X 6 x).

Définition – Fonction de répartition

Soit X une variable aléatoire réelle sur (Ω,A ,P ) et FX sa fonction de répartition. Alors :

• FX est croissante sur R.

• FX(x) −→x→−∞

0 et FX(x) −→x→+∞

1.

Propriété

Démonstration

• Soit (x, y) ∈ R2 tel que x 6 y ; alors (X 6 x) ⊂ (X 6 y), et donc P (X 6 x) 6 P (X 6 y), i.e.,FX(x) 6 FX(y) : la fonction FX est croissante.

• D’après le premier point, FX a une limite ℓ en +∞, et donc FX(n) −→n→+∞

ℓ. Or on remarque

que⋃+∞

n=0(X 6 n) = Ω, donc par propriété de continuité croissante,

FX(n) = P (X 6 n) −→n→+∞

P (Ω) = 1.

On a donc ℓ = 1.

On procède de même pour la limite en −∞ en utilisant la propriété de continuité décroissanteet le fait que

⋂+∞n=0(X 6 −n) = ∅ avec P (∅) = 0.

263

Remarques

• La fonction de répartition d’une variable aléatoire réelle X est une fonction « en escalier » (pastout à fait au sens mathématique), chaque « marche » correspondant au passage en abscisse d’unevaleur prise par X. Ci-dessous, on donne la fonction de répartition correspondant au résultat dulancer d’un dé équilibré.

x

y = FX(x)

••

••

••

1 2 3 4 5 6

1/6

1/3

1/2

2/3

5/61

PX(2)

• Les fonctions FX et PX sont liées : si X(Ω) = N par exemple, on a, pour tout n ∈ N,

FX(n) =

n∑

k=0

P (X = k) =

n∑

k=0

PX(k)

et pour n > 1,

PX(n) = P (X 6 n)− P (X 6 n− 1) = FX(n)− FX(n− 1).

Les valeurs de PX correspondent aux hauteurs des « marches », sur le dessin précédent, PX(n)est la hauteur de la marche au point d’abscisse n.

Comme on l’a vu plus haut, si X est une variable aléatoire sur (Ω,A ), la donnée d’uneprobabilité sur (Ω,A ) définit la loi deX, qui s’identifie à la donnée des P (X = x) pour x ∈ X(Ω).Inversement, il est en fait possible de choisir des lois, ce qui peut être très utile lors de l’étapede modélisation :

Soit X une variable aléatoire sur (Ω,A ). On décrit X(Ω) en extension sous la formeX(Ω) = xn; n ∈ I, où I est une partie de N.

Soit (pn)n∈I une famille ou une suite de réels positifs vérifiant

∑

n∈I

pn = 1 (si X(Ω) est fini) ou

∑

n>0

pn converge

+∞∑

n=0

pn = 1

(si X(Ω) est dénombrable)

Alors il existe une probabilité P sur (Ω,A ) telle que, pour tout n ∈ I, P (X = xn) = pn.

Propriété (admise : démonstration hors programme)

Remarque – En pratique, très souvent, une expérience aléatoire est en fait décrite par des donnéessur une ou plusieurs variables aléatoires. La modélisation par le choix de (Ω,A ) vient après, etelle n’est parfois pas nécessaire, ou admise. Par exemple :

• L’évolution d’un arbre généalogique peut être décrite par le nombre aléatoire de descendantsdirects de chaque individu, mais un choix de (Ω,A ) n’est pas du tout évident.

• Imaginons un système dont les états à différentes dates sont repérés par les entiers naturels ourelatifs (on pourra penser à la position d’une particule, à un stock de marchandises). L’évolutiondu système est décrite par les probabilités de transition de l’état i à l’état j. Supposons que les

264

transitions se font entre états voisins dans Z (de k à k + 1 ou k − 1), et notons Xn l’état dusystème au rang n. La description du système se fait en donnant, pour tout (n,k) ∈ N × Z, laprobabilité

P (Xn+1 = k + 1 |Xn = k).

On peut choisirΩ = (un)n∈N ∈ ZN; ∀n ∈ N, |un+1 − un| = 1,

mais ce n’est pas nécessairement utile de le préciser pour étudier le système.

2. Lois usuelles

La propriété précédente permet de définir des lois par la simple vérification qu’une série està termes positifs, convergente et de somme 1 (ou qu’une famille finie de nombres positifs a poursomme 1). Ceci permet de définir les lois fondamentales suivantes ; pour chaque exemple, ondonne un exemple de situation ainsi modélisée.

a. Loi uniforme

On dit qu’une variable aléatoire X sur (Ω,A , P ) suit la loi uniforme si X(Ω) est finiet si les événements (X = x) pour x ∈ X(Ω) sont équiprobables.

Définition

Exemples

• La loi uniforme modélise par exemple le résultat d’un lancer de dé équilibré.

• Dans la modélisation du jeu de pile ou face infini faite dans le chapitre Espaces probabilisés,la variable aléatoire X qui donne le résultat des n premiers lancers suit la loi uniforme : pourtout (u1, . . . ,un) ∈ 0, 1n (qui est de cardinal 2n),

P (X = (u1, . . . ,un)) =1

2n.

b. Loi de Bernoulli

Soit p ∈ [0,1]. On dit qu’une variable aléatoire X sur (Ω,A , P ) suit la loi de Bernoullide paramètre p si X(Ω) = 0, 1 et si

P (X = 1) = p, P (X = 0) = 1− p.

Ceci se note X → B(p).

Définition

Remarque – On note très souvent q = 1− p.Exemples

• La loi de Bernoulli modélise un lancer de pièce, p représentant par exemple la probabilitéd’obtenir « pile ».

• Plus généralement, la loi de Bernoulli modélise toutes les épreuves de Bernoulli, c’est-à-direayant deux résultats possibles ; celui de probabilité p est souvent interprété comme succès.

En Python, on peut simuler ainsi une expérience de Bernoulli de paramètre p (on supposeraimporté le module random) :

1 def sim_bernoulli(p):

2 x = random.random ()

3 if x < p:

4 return 1

5 else:

6 return 0

265

• Soit A un événement de probabilité p, avec A 6= ∅ et A 6= Ω. Alors 1A est unevariable aléatoire sur (Ω,A , P ) qui suit la loi de Bernoulli de paramètre p.

• Inversement, soit X une variable aléatoire sur (Ω,A , P ) qui suit la loi de Bernoullide paramètre p. Alors X = 1A, avec A = (X = 1) de probabilité p.

Propriété – Lien avec les fonctions indicatrices

Démonstration

• La fonction 1A prend les valeurs 0 et 1, et P (1A = 1) = P (A) = p.

• Les deux fonctions X et 1(X=1) prennent la valeur 1 sur (X = 1) et 0 sur (X = 0), avec(X = 0) ∪ (X = 1) = Ω, donc ces fonctions sont égales. On a P (X = 1) = p par définition.

c. Loi binomiale

Soient n ∈ N∗ et p ∈ [0,1]. On dit qu’une variable aléatoire X sur (Ω,A , P ) suit la loibinomiale de paramètres n et p si X(Ω) = [[0,n]] et si

∀ k ∈ [[0,n]], P (X = k) =

(nk

)

pk (1− p)n−k.

Ceci se note X → B(n,p).

Définition

Remarque – On définit bien ainsi une loi, car d’après la formule du binôme de Newton,

n∑

k=0

(nk

)

pk(1− p)n−k = (p + 1− p)n = 1.

Interprétation – Le nombre S de succès lors d’une succession de n épreuves de Bernoulli deparamètre p mutuellement indépendantes suit la loi binomiale de paramètres n et p. En effet,la variable aléatoire S est à valeurs dans [[0,n]] et, pour k ∈ [[0,n]], l’événement (S = k) est laréunion des événements consistants à fixer k succès et n − k échecs. Ces événements sont deuxà deux incompatibles, sont au nombre de

(nk

), et chacun est de probabilité pk (1 − p)n−k par

indépendance mutuelle. On a donc

P (S = k) =

(nk

)

pk (1− p)n−k.

Exemples

• Le nombre de « pile » obtenus lors de n lancers successifs mutuellement indépendants d’unepièce suit la loi binomiale de paramètres n et p, où p est la probabilité d’obtenir « pile » à unlancer donné.

• On effectue n tirages avec remise dans une urne contenant des boules indiscernables, rougesen proportion p et vertes en proportion q = 1 − p. La variable aléatoire donnant le nombre deboules rouges tirées suit la loi binomiale de paramètres n et p.

En Python, on peut simuler ainsi une suite de n épreuves de Bernoulli de paramètre p :

1 def sim_tirages(n,p):

2 L = []

3 for i in range(n):


5 if x < p:

6 L.append (1)

7 else:

8 L.append (0)

9 return L

266

On peut simuler la variable aléatoire S de la façon suivante :

1 def sim_nb_succes(n,p):

2 S = 0

3 for i in range(n):


5 if x < p:

6 S += 1

7 return S

On peut alors simuler la loi B(n,p) de la façon suivante : on répète N fois la simulation ci-dessus,et on calcule, pour tout k ∈ [[0,n]] la fréquence relative du résultat k lors de ces N expériences :

1 def loi_binomiale(n,p,N):

2 L = []

3 for i in range(N):

4 S = sim_nb_succes(n,p)

5 L.append(S)

6 return [L.count(k)/float(N) for k in range(n+1)]

d. Loi géométrique

Soit p ∈ ]0,1[. On dit qu’une variable aléatoire X sur (Ω,A , P ) suit la loi géométriquede paramètre p si X(Ω) ⊃ N∗ et si

∀ k ∈ N∗, P (X = k) = p (1− p)k−1.

Ceci se note X → G (p).

Définition

Remarques

• C’est le premier exemple que l’on rencontre de variable aléatoire prenant un nombre infini devaleurs.

• On définit bien une loi car la série géométrique de raison (1 − p) ∈ ]0,1[ est à termes positifs,elle converge, et

+∞∑

k=1

p (1− p)k−1 = p+∞∑

k=0

(1− p)k =p

1− (1− p) = 1.

Exemples

• Considérons le jeu de pile ou face infini, avec p la probabilité d’obtenir « pile ». Pour k ∈ N∗,l’événement « pile apparaît pour la première fois au rang k » a pour probabilité p (1 − p)k−1

(k − 1 échecs suivis d’un succès).

• Plus généralement, la loi géométrique peut être interprétée comme loi du rang du premiersuccès dans une suite illimitée d’épreuves de Bernoulli mutuellement indépendantes et de mêmeparamètre p.

Il est parfois utile d’autoriser que X prenne d’autres valeurs que celles de N∗, avec probabiliténulle, notamment, en lien avec l’interprétation précédente, si aucun succès ne survient.

• La loi géométrique est aussi souvent utilisée pour modéliser des durées de fonctionnement decomposants, machines, etc...

Remarque – On peut remplacer X(Ω) = N∗ par X(Ω) = N avec :

∀ k ∈ N, P (X = k) = p (1− p)k.

Dans ce cas, cette loi s’interprète comme loi du nombre d’échecs avant le premier succès.

267

e. Loi de Poisson

Soit λ ∈ R∗+. On dit qu’une variable aléatoire X sur (Ω,A , P ) suit la loi de Poisson

de paramètre λ si X(Ω) = N et si

∀ k ∈ N, P (X = k) = e−λ λk

k!.

Ceci se note X →P(λ).

Définition

Remarque – On définit bien ainsi une loi, car on reconnaît la série exponentielle de λ, qui est àtermes positifs, convergente, avec

+∞∑

k=0

e−λ λk

k!= e−λ eλ = 1.

Le théorème suivant établit un lien asymptotique entre loi binomiale et loi de Poisson :

Soient (pn)n∈N une suite d’éléments de [0,1], (Xn)n∈N une suite de variables aléatoiressur (Ω,A , P ) et λ ∈ R∗

+. On fait les hypothèses suivantes :

• Pour tout n ∈ N, Xn suit la loi binomiale de paramètres n et pn,

• n pn −→n→+∞

λ.


P (Xn = k) −→n→+∞

e−λ λk

k!

Théorème – Approximation de la loi binomiale par la loi de Poisson

Démonstration – Soit k ∈ N. Alors, pour n > k assez grand, pn ∈ ]0,1[ et on a

P (Xn = k) =

(nk

)

pkn (1− pn)n−k =

n(n− 1) · · · (n− k + 1)

k!pk

n (1− pn)n−k

∼n→+∞

nk

k!pk

n (1− pn)n−k.

Tout d’abord, (npn)k −→n→+∞

λk. De plus, n pn → λ, donc pn → 0+ et, lorsque n→ +∞,

(1− pn)n−k = exp ((n− k) ln (1− pn)) = exp ((n− k)(−pn + o(pn))) .

Or(n− k)(−pn + o(pn)) = −n pn + o(n pn) ∼

n→+∞−n pn −→

n→+∞−λ.

Par continuité de l’exponentielle et d’après ce qui précède, on a bien

P (Xn = k) −→n→+∞

e−λ λk

k!

Remarques

• Dans les calculs, on peut donc approcher

(nk

)

pk (1− p)n−k par e−np (np)k

k!.

Cela permet d’éviter des calculs de coefficients du binôme, qui font intervenir des quotients degrands nombres.

• On considère que l’approximation est intéressante lorsque p 6 0,1, n > 30 et np < 15.

268

Exemple – On lance 100 fois un dé équilibré à 20 faces et on compte le nombre N de 20 obtenus.Ce nombre suit une loi binomiale B(100,1/20), on a donc, pour tout k ∈ [[0,100]],

P (N = k) =

(100k

)1

20k

(19

20

)100−k

On est dans les conditions de l’approximation avec np = 100/20 = 5, on peut donc approcherP (N = k) par e−5 5k/k!. Pour k = 2 par exemple, on a

(1002

)1

202

(19

20

)98

≈ 0,081 et e−5 52

2!≈ 0,084.

Le programme suivant permet d’utiliser cette approximation :

1 from math import exp , factorial

2

3 def approx_poisson(n,p):

4 return [exp(-n*p)*(n*p)**k/factorial(k) for k in range(n+1)]

On peut alors tester par exemple l’approximation de B(30,0.1) par P(3) (listes B et A), ainsiqu’une simulation de cette approximation (liste L) ; dans ce qui suit, on n’affiche que les 10premières valeurs, en arrondissant à 4 décimales pour B et A :

1 from scipy.special import binom

2

3 # Loi binomiale B(30,0.1)

4 B = [ binom(30,k)*(0.1**k)*(0.9**(30 -k)) for k in range (31) ]

5 B = [ float("%.4f" % x) for x in B ]

6

7 # Approximation par P(3)

8 A = approx_poisson(30,0.1)

9 A = [ float("%.4f" % x) for x in A ]

10

11 # Simulation de B(30,0.1)

12 L = loi_binomiale(30 ,0.1 ,10000)

13

14 for k in range (10):

15 print "P( X =",k,") :",B[k],",",A[k],",",L[k]

Voici un résultat possible :

P( X = 0 ) : 0.0424 , 0.0498 , 0.0424

P( X = 1 ) : 0.1413 , 0.1494 , 0.139

P( X = 2 ) : 0.2277 , 0.224 , 0.2332

P( X = 3 ) : 0.2361 , 0.224 , 0.2358

P( X = 4 ) : 0.1771 , 0.168 , 0.1743

P( X = 5 ) : 0.1023 , 0.1008 , 0.1014

P( X = 6 ) : 0.0474 , 0.0504 , 0.047

P( X = 7 ) : 0.018 , 0.0216 , 0.0187

P( X = 8 ) : 0.0058 , 0.0081 , 0.006

P( X = 9 ) : 0.0016 , 0.0027 , 0.0019

Remarque – On s’intéresse à la loi du nombre d’occurrences d’un phénomène dans un intervallede temps [0,T ]. On fait les hypothèses suivantes :

• il existe a ∈ R tel que la probabilité que le phénomène se produise une fois dans un intervallede temps de petite longueur h est ah ;

• la probabilité qu’il se produise plus d’une fois est négligeable (en fait, un o(h)) ;

• les nombres d’occurrences du phénomène dans des intervalles disjoints sont mutuellementindépendants.

269

On subdivise [0,T ] en intervalles de longueur T/n. D’après les hypothèses précédentes, onpeut considérer que le nombre d’occurrences du phénomène dans l’intervalle [0,T ] suit la loibinomiale B(n,aT/n). D’après le résultat d’approximation précédent, pour n grand, on peutapprocher cette loi par la loi de Poisson P(aT ) (le paramètre λ s’identifie donc à aT ).

Pour cette raison, la loi de Poisson est dite loi des événements rares ; elle est souventutilisée pour modéliser le nombre d’occurrences d’un phénomène dans un intervalle de tempsfixé, ce phénomène étant « rare » dans un court intervalle de temps, mais observé sur un grandnombre de tels intervalles. Par exemple, on peut modéliser ainsi le nombre de véhicules passantdevant un point d’observation, de clients entrant dans un magasin, de catastrophes naturelles,de désintégrations de noyaux radioactifs (lorsque la source est éloignée, les mesures faites par uncompteur Geiger font effectivement apparaître une loi de Poisson).

III. Familles de variables aléatoires

1. Couple de variables aléatoires

Soient X et Y deux variables aléatoires sur (Ω,A ).

L’application ω 7→ (X(ω), Y (ω)) est une variable aléatoire sur (Ω,A ), appelée couple(X,Y ).


Démonstration – Les ensembles X(Ω) et Y (Ω) sont finis ou dénombrables, donc X(Ω) × Y (Ω)est fini ou dénombrable. L’image de (X,Y ) est contenue dans X(Ω)× Y (Ω), elle est donc aussifinie ou dénombrable. Notons Z = (X,Y ). Pour tout (x, y) de Z(Ω),

Z−1((x, y)) = ω ∈ Ω; (X(ω), Y (ω)) = (x, y) = X−1(x) ∩ Y −1(y);

c’est un événement en tant qu’intersection de deux événements.

Notation

• L’événement ((X,Y ) = (x, y)) = (X = x) ∩ (Y = y) est plus souvent noté (X = x, Y = y).

• Si A ⊂ X(Ω) et B ⊂ Y (Ω), l’événement ((X,Y ) ∈ A×B), c’est-à-dire (X ∈ A)∩ (Y ∈ B), estplus souvent noté (X ∈ A,Y ∈ B).

L’ensemble des variables aléatoires sur (Ω,A ) à valeurs dans K (K = R ou C) est unK-espace vectoriel (pour les lois d’addition et de multiplication par un scalaire).

Corollaire

Démonstration – C’est un sous-ensemble de l’espace vectoriel des applications de Ω dans K, quiest non vide (la fonction nulle est une variable aléatoire) Enfin, soient X et Y deux variablesaléatoires sur (Ω,A ) à valeurs dans K et soit λ ∈ K. On définit la fonction f : (x, y) 7→ λx+ ysur K2. Alors λX + Y = f(X,Y ), qui est une variable aléatoire car le couple (X,Y ) est unevariable aléatoire.

Soit (X,Y ) un couple de variables aléatoires sur (Ω,A , P ). On appelle :

• loi conjointe de X et Y la loi du couple (X,Y ).

• lois marginales du couple (X,Y ) les lois de X et de Y .

Définition

270

Soit (X,Y ) un couple de variables aléatoires sur (Ω,A , P ).

La loi du couple (X,Y ) détermine entièrement ses lois marginales par les relations

∀x ∈ X(Ω), P (X = x) =∑

y∈Y (Ω)

P (X = x, Y = y),

∀ y ∈ Y (Ω), P (Y = y) =∑

x∈X(Ω)

P (X = x, Y = y).

En revanche, les lois marginales du couple (X,Y ) ne déterminent pas la loi conjointede X et Y .

Propriété

Démonstration – La première égalité est immédiate en remarquant que ((Y = y))y∈Y (Ω) est unsystème complet dénombrable d’événements ; de même pour la seconde, avec ((X = x))x∈X(Ω).

En revanche, considérons l’exemple suivant, où l’on définit les lois de deux couples (X1, Y1)et (X2, Y2) :

(x, y) (0,0) (0,1) (1,0) (1,1)

P (X1 = x, Y1 = y) 0,25 0,25 0,25 0,25

P (X2 = x, Y2 = y) 0,3 0,2 0,2 0,3

Dans les deux cas, les lois marginales sont les mêmes, car pour i ∈ 1,2,

P (Xi = 0) = P (Xi = 1) = P (Yi = 0) = P (Yi = 1) = 0,5

mais les lois conjointes ne sont pas les mêmes (car P (X1 = 0, Y1 = 0) 6= P (X2 = 0, Y2 = 0) parexemple).

Les lois marginales du couple (X,Y ) ne déterminent donc pas la loi conjointe de X et Y .

2. Conditionnement et indépendance

SoientX et Y deux variables aléatoires sur (Ω,A , P ) et y ∈ Y (Ω) tel que P (Y = y) > 0.

On appelle loi conditionnelle de X sachant (Y = y) la fonction

X(Ω) → [0,1]

x 7→ P (X = x |Y = y)

C’est la loi de X en tant que variable aléatoire sur l’espace probabilisé (Ω,A , P(Y =y)).

On rappelle que pour tout x ∈ X(Ω),

P (X = x |Y = y) =P (X = x, Y = y)

P (Y = y).

Définition – Loi conditionnelle

Exemple – Dans l’exemple de la propriété précédente, on a

P (Y2 = 0) = P (X2 = 0, Y2 = 0) + P (X2 = 1, Y2 = 0) = 0,3 + 0,2 = 0,5 > 0.

La loi de X2 sachant (Y2 = 0) est caractérisée par les deux nombres

P (X2 = 0 |Y2 = 0) =0,3

0,5= 0,6 et P (X2 = 1 |Y2 = 0) =

0,2

0,5= 0,4.

271

• Soient X et Y deux variables aléatoires sur (Ω,A , P ).

On dit que X et Y sont indépendantes si pour tout (x, y) ∈ X(Ω) × Y (Ω), lesévénements (X = x) et (Y = y) sont indépendants, i.e.

P (X = x, Y = y) = P (X = x)P (Y = y).

• Soit I un ensemble d’indices. Pour tout i ∈ I, soit Xi une variable aléatoire sur(Ω,A , P ).

On dit que les variables aléatoires Xi, pour i ∈ I, sont mutuellement indépendantessi, pour toute famille (xi)i∈I telle que pour tout i ∈ I, xi ∈ Xi(Ω), les événements(Xi = xi) pour i ∈ I sont mutuellement indépendants, i.e. : pour toute partie finieJ ⊂ I,

P

⋂

j∈J

(Xj = xj)

=∏

j∈J

P (Xj = xj).

Définition – Indépendance de variables aléatoires

• Soient X et Y deux variables aléatoires indépendantes sur (Ω,A , P ), A un sous-ensemble de X(Ω) et B un sous-ensemble de Y (Ω).

Alors les événements (X ∈ A) et (Y ∈ B) sont indépendants, i.e.

P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B).

• Soit (Xi)i∈I une famille de variables aléatoires mutuellement indépendantes sur(Ω,A , P ).

Alors, pour toute famille (Ai)i∈I telle que pour tout i ∈ I, Ai ⊂ Xi(Ω), les événements(Xi ∈ Ai) pour i ∈ I sont mutuellement indépendants, i.e. : pour toute partie finieJ ⊂ I,

P

⋂

j∈J

(Xj ∈ Aj)

=∏

j∈J

P (Xj ∈ Aj).

Propriété (admise : démonstration hors programme)

Soient X et Y deux variables aléatoires indépendantes sur (Ω,A , P ).

Soient f et g des fonctions définies respectivement sur X(Ω) et Y (Ω).

Alors les variables aléatoires f(X) et g(Y ) sont indépendantes.

Propriété

Démonstration – Soit a ∈ f(X(Ω)) et b ∈ g(Y (Ω)). Alors

P (f(X) = a, g(Y ) = b) = P (X ∈ f−1(a), Y ∈ g−1(b)).

Par indépendance de X et Y , et d’après la propriété précédente,

P (f(X) = a, g(Y ) = b) = P (X ∈ f−1(a))P (Y ∈ g−1(b)) = P (f(X) = a)P (g(Y ) = b),


272

3. Quelques propriétés des lois usuelles

Soient X1, . . . ,Xn des variables aléatoires mutuellement indépendantes sur (Ω,A , P ),suivant chacune la loi de Bernoulli B(p).

Alors la variable aléatoire X1 + · · ·+Xn suit la loi binomiale B(n,p).

Propriété – Somme de variables de Bernoulli

Démonstration – La démonstration est identique à celle donnée plus haut en interprétation de laloi B(n,p).

Remarque – Des sommes de variables de Bernoulli, comme dans la propriété précédente, sont trèsutiles pour compter le nombre de succès dans une succession d’épreuves de Bernoulli. On rappellede plus que de telles variables de Bernoulli peuvent être vues comme des fonctions indicatrices.

Soit X une variable aléatoire sur (Ω,A , P ) telle que X(Ω) = N∗.


1. Il existe p ∈ ]0,1[ tel que X → G (p).

2. P (X = 1) > 0, P (X > n) > 0 pour tout n ∈ N et

∀ (n,k) ∈ N2, P (X > n+ k |X > n) = P (X > k).

La loi d’une variable aléatoire vérifiant 2 est dite loi sans mémoire (ou sans vieillise-ment).

Ainsi, les lois géométriques sont exactement les lois sans mémoire.

Propriété – Caractérisation des lois géométriques comme lois sans mémoire

Démonstration

1 ⇒ 2 : supposons que X → G (p) avec p ∈ ]0,1[. Alors P (X = 1) = p > 0 et, pour tout n ∈ N,

P (X > n) =+∞∑

j=n+1

P (X = j) =+∞∑

j=n+1

p(1− p)j−1 = p(1− p)n

1− (1− p) = (1− p)n.

En particulier, P (X > n) > 0 pour tout n ∈ N. Soit (n,k) ∈ N2. Alors

P (X > n+ k |X > n) =P (X > n+ k,X > n)

P (X > n)

=P (X > n+ k)

P (X > n)=

(1− p)n+k

(1 − p)n = (1− p)k = P (X > k).

2 ⇒ 1 : posons p = P (X = 1) > 0. On a aussi p = 1 − P (X > 1) < 1. Soit, pour tout n ∈ N,xn = P (X > n). D’après la propriété d’absence de mémoire,

xn+1 = P (X > n+ 1) = P (X > n+ 1 |X > n)P (X > n) = P (X > 1)P (X > n) = (1− p)xn.

La suite (xn)n∈N est donc géométrique de raison 1− p et de premier terme x0 = P (X > 0) = 1,donc pour tout n ∈ N, xn = (1− p)n. Alors, pour tout n ∈ N∗,

P (X = n) = P (X > n− 1)− P (X > n) = (1− p)n−1 − (1− p)n

= (1− p)n−1(1− (1− p))= p (1− p)n−1.

Finalement, p ∈ ]0,1[ et X → G (p).

273

Remarque – Comme on l’a dit plus haut, la loi G (p) modélise souvent une durée de fonctionne-ment, ou plus généralement un temps d’attente avant qu’un phénomène se produise. La propriétéd’absence de mémoire signifie que ce temps d’attente est indépendant de l’étape à laquelle oncommence à attendre.

4. Indépendance et modélisation

Comme nous l’avons déjà vu, la modélisation d’une expérience aléatoire par le choix de(Ω,A , P ) n’est pas toujours évidente. En fait, elle n’est parfois pas utile, le fait de préciser lesconditions de l’expérience, ce qui est plus intuitif, étant souvent suffisant. C’est ce que permetde faire le résultat suivant :

Soit I un ensemble d’indices fini ou dénombrable. Pour tout i ∈ I, on se donne une loidiscrète Li (ce qui revient à se donner une famille ou une suite de nombres positifs desomme 1).

Alors il existe un espace probabilisé (Ω,A , P ) et une famille (Xi)i∈I de variables aléa-toires sur (Ω,A , P ), mutuellement indépendantes, tels que pour tout i ∈ I, Xi suit laloi Li.

Théorème (admis : démonstration hors programme)

Il est ainsi possible de modéliser une succession, finie ou infinie, d’expériences aléatoiresmutuellement indépendantes, par le choix des lois de variables aléatoires, sans avoir à préciser(Ω,A , P ).

Exemples

• Un jeu de pile ou face, fini ou infini, avec indépendance mutuelle des différents lancers, pourraêtre modélisé par le choix d’une suite (Xi)i∈I , finie ou infinie, de variables de Bernoulli mutuel-lement indépendantes de même paramètre p. Pour tout i ∈ I, Xi représente le résultat du i-ièmelancer (1 pour « pile », de probabilité p, 0 pour « face », par exemple).

• On considère la situation suivante : une urne contient des jetons rouges en proportion p, etblancs en proportion 1−p ; N personnes tirent successivement, avec remise, n jetons dans l’urne,le gain de chaque personne étant lié au nombre de jetons rouges tirés.

On pourra modéliser cette situation par une famille (X1, . . . ,XN ) de N variables aléatoiresmutuellement indépendantes, suivant chacune la loi binomiale B(n,p). Pour tout i ∈ [[1,N ]], Xi

représente le nombre de jetons rouges tirés par le i-ième participant.

IV. Espérance

Soit X une variable aléatoire réelle sur (Ω,A , P ), avec X(Ω) dénombrable ; on décritX(Ω) en extension sous la forme xn; n ∈ N.On dit que X est d’espérance finie si la série

∑

n>0

xn P (X = xn)

est absolument convergente.

Dans ce cas, la somme de cette série est appelée espérance de X, et notée E(X),c’est-à-dire,

E(X) =

+∞∑

n=0

xn P (X = xn).

Définition – Espérance

274

Remarques

• L’espérance de X est à interpréter comme moyenne pondérée des valeurs de X. Par exempleen physique, elle représente l’énergie moyenne de systèmes à spectre discret (comme un atomeconfiné dans une boîte).

• La notion d’espérance de X dépend de X uniquement à travers sa loi.

• La définition précédente semble dépendre du choix des xn (c’est-à-dire de l’ordre d’énumérationdes éléments de X(Ω)). On admettra que lorsque X est d’espérance finie, la somme définissantE(X) ne dépend pas de l’ordre d’énumération.

• Si X(Ω) est fini avec X(Ω) = x1, . . . ,xm, alors X est d’espérance finie, et E(X) est simple-ment définie par :

E(X) =

m∑

n=1

xn P (X = xn).

• S’il existe a ∈ R tel que P (X = a) = 1, alors X est d’espérance finie égale à a.

• Si Ω est fini, on a la relation E(X) =∑

ω∈Ω

X(ω)P (ω).


• Si X suit la loi uniforme avec X(Ω) = x1, . . . ,xm, alors X est d’espérance finieavec

E(X) =1

m

m∑

n=1

xn.

• Si X → B(p), alors X est d’espérance finie et E(X) = p.

• Si X → B(n,p), alors X est d’espérance finie et E(X) = np.

• Si X → G (p), alors X est d’espérance finie et E(X) =1

p.

• Si X →P(λ), alors X est d’espérance finie et E(X) = λ.

Propriété – Espérance correspondant aux lois usuelles

Démonstration

• Pour tout n ∈ [[1,m]], P (X = xn) = 1/m, d’où le résultat.

• Si X → B(p), on a E(X) = 0× (1− p) + 1× p = p.

• Si X → B(n,p),

E(X) =

n∑

k=0

k

(nk

)

pk(1− p)n−k =

n∑

k=1

n

(n− 1k − 1

)

pk(1− p)n−k.

Avec le changement d’indice j = k − 1, on obtient

E(X) = n

n−1∑

j=0

(n− 1j

)

pj+1(1− p)(n−1)−j

= np

n−1∑

j=0

(n− 1j

)

pj(1− p)(n−1)−j = np (p+ (1− p))n−1 = np.

• Supposons que X → G (p). La série (à termes positifs)∑

n>1 n p(1 − p)n−1 est convergente :on reconnaît la dérivée de la série géométrique évaluée en 1 − p avec |1 − p| < 1. Donc X estd’espérance finie et

E(X) = p1

(1− (1− p))2 =1

p.

275

• Supposons que X →P(λ). Pour tout n ∈ N∗,

n e−λλn

n!= e−λ λn

(n− 1)!,

terme général (positif) d’une série convergente (série exponentielle). Donc X est d’espérance finieet avec un changement d’indice, on obtient

E(X) = λ e−λ+∞∑

n=0

λn

n!= λ e−λeλ = λ.

Soit X une variable aléatoire sur (Ω,A , P ) à valeurs dans N.

La variable aléatoire X est d’espérance finie si et seulement si la série∑

n>1 P (X > n)converge, et dans ce cas on a

E(X) =

+∞∑

n=1

P (X > n).

Propriété

Démonstration – Pour tout n ∈ N, on a

(X > n) = (X = n) ∪ (X > n+ 1),

ces deux événements étant incompatibles, et donc

P (X = n) = P (X > n)− P (X > n+ 1).

Alors, pour tout p ∈ N∗,

p∑

n=0

nP (X = n) =

p∑

n=0

n (P (X > n)− P (X > n+ 1))

=

p∑

n=0

nP (X > n)−p+1∑

n=1

(n− 1)P (X > n)

après séparation des sommes et changement d’indice dans la deuxième somme. Finalement,

p∑

n=0

nP (X = n) =

(p∑

n=1

P (X > n)

)

− pP (X > p+ 1). (14.1)

Si X est d’espérance finie, alors on peut écrire

0 6 pP (X > p+ 1) = p

+∞∑

n=p+1

P (X = n) 6

+∞∑

n=p+1

nP (X = n) −→p→+∞

0

en tant que reste d’une série convergente. On en déduit que∑

n>1 P (X > n) converge ainsi quel’égalité souhaitée en faisant tendre p vers +∞.

Par positivité des termes, et d’après (14.1), si∑

n>1 P (X > n) converge, alors

∑

n>1

nP (X = n)

converge (la suite de ses sommes partielles est majorée) donc X est d’espérance finie. On conclutcomme précédemment.

276

Soit X une variable aléatoire sur (Ω,A , P ) avec X(Ω) dénombrable ; on décrit X(Ω)en extension sous la forme xn; n ∈ N. Soit f : X(Ω)→ R une fonction.

La variable aléatoire f(X) est d’espérance finie si et seulement si la série∑

n>0 f(xn)P (X = xn) converge absolument, et dans ce cas, on a

E(f(X)) =+∞∑

n=0

f(xn)P (X = xn).

Théorème de transfert (admis : démonstration hors-programme)

Remarque – Si l’on appliquait la définition de l’espérance pour f(X), on devrait déterminer la loide f(X) : on devrait décrire f(X(Ω)) en extension sous la forme yn; n ∈ I (I fini ou I = N)puis considérer la somme finie ou la série

∑

n∈I yn P (f(X) = yn).

L’immense avantage du théorème de transfert est de montrer qu’il suffit en fait de considérer laloi de X. On a transféré le calcul de E(f(X)) sur la variable aléatoire X. Ceci est particulièrementintéressant lorsque f n’est pas injective.

Exemple – Soit X une variable aléatoire suivant la loi géométrique de paramètre p. D’après lethéorème de transfert, si la série

∑

n>1

(−1)n p (1− p)n−1

converge absolument, alors (−1)X est d’espérance finie et la somme de cette série est E((−1)X ).On reconnaît (à un facteur −p près) la série géométrique de raison p − 1 avec |p − 1| < 1, doncabsolument convergente. On en déduit que (−1)X est d’espérance finie avec

E((−1)X ) =

+∞∑

n=1

(−1)n p (1− p)n−1 = −p 1

1− (p− 1)=

p

p− 2.

Soient X et Y deux variables aléatoires d’espérance finie sur (Ω,A , P ) et λ ∈ R. Alors :

• Linéarité : λX + Y est d’espérance finie et E(λX + Y ) = λE(X) + E(Y ).

• Positivité : si P (X > 0) = 1, alors E(X) > 0.

• Croissance : si P (X 6 Y ) = 1, alors E(X) 6 E(Y ).

Théorème – Quelques propriétés de l’espérance

Démonstration

• La démonstration de la linéarité de l’espérance n’est pas exigible.

Considérons le couple (X,Y ) et lorsque X(Ω)×Y (Ω) est dénombrable, décrivons-le en extensionsous la forme (xn,yn); n ∈ N. Soit f une fonction définie sur X(Ω) × Y (Ω), à valeurs dansR ; d’après le théorème de transfert, la série

∑

n>0 f(xn,yn)P (X = xn, Y = yn) est absolumentconvergente si et seulement si f(X,Y ) est d’espérance finie, et dans ce cas

E(f(X,Y )) =

+∞∑

n=0

f(xn,yn)P (X = xn, Y = yn).

Nous allons utiliser ce résultat avec f : (x, y) 7→ x, f : (x, y) 7→ y et f : (x, y) 7→ λx + y. Lesséries ∑

n>0

xn P (X = xn, Y = yn) et∑

n>0

yn P (X = xn, Y = yn)

sont absolument convergentes car X et Y sont d’espérance finie. Par combinaison linéaire, lasérie ∑

n>0

(λxn + yn)P (X = xn, Y = yn)

277

est absolument convergente, donc λX + Y est d’espérance finie ; on a alors

E(λX + Y ) = λ

+∞∑

n=0

xn P (X = xn, Y = yn) +

+∞∑

n=0

yn P (X = xn, Y = yn) = λE(X) + E(Y ).

On adapte la démonstration avec des sommes finies si X(Ω)× Y (Ω) est fini.

• On décrit X(Ω) en extension sous la forme xn; n ∈ I. On a P (X < 0) = 0, donc pour toutn tel que xn < 0, xn P (X = xn) = 0. Donc on peut écrire E(X) comme somme d’une série (ousomme finie) à termes positifs, d’où E(X) > 0.

• Cela résulte des deux points précédents.

Application – On retrouve facilement l’espérance d’une variable aléatoire suivant la loi B(n,p)en utilisant la linéarité de l’espérance : soient X1, . . . ,Xn des variables aléatoires mutuellementindépendantes suivant la même loi B(p) (on sait qu’il existe un espace probabilisé portant detelles lois). Alors on sait que S = X1 + · · ·+Xn suit la loi B(n,p). Par linéarité de l’espérance,on a donc

E(S) =

n∑

k=1

E(Xk) = np

car E(Xk) = p pour tout k. L’espérance ne dépendant que de la loi, on obtient ainsi l’espérancede toutes les variables aléatoires suivant la loi B(n,p).

Soient X et Y deux variables aléatoires indépendantes sur (Ω,A , P ), d’espérance finie.Alors XY est d’espérance finie et

E(XY ) = E(X)E(Y ).

La réciproque est fausse en général.

Propriété

La démonstration est hors-programme dans le cas général. Dans le cas des univers finis, ellea été donnée en première année.

Exemple – Marche aléatoire

Reprenons un exemple décrit plus haut : une particule peut occuper différentes positions repéréespar les entiers relatifs. À intervalle régulier, la particule peut passer de la position i à la positioni+1 avec probabilité p ∈ ]0,1[, ou à la position i−1 avec probabilité q = 1−p. On suppose qu’unmouvement ne dépend que de la position à partir de laquelle il est fait. Pour n > 1, on noteXn la variable aléatoire représentant la position de la particule après n mouvements ; X0 est lavariable aléatoire nulle (la position initiale est 0). On admet l’existence d’un espace probabilisé(Ω,A , P ) modélisant cette expérience.

On cherche à étudier différents aspects de cette marche aléatoire.

• Loi de X1 et X2 : X1 prend les valeurs 1 et −1, avec P (X1 = 1) = p, P (X1 = −1) = q. Onen déduit que X2 prend les valeurs −2, 0 et 2. D’après la formule des probabilités totales,

P (X2 = 2) = P (X2 = 2 |X1 = 1)P (X1 = 1) + P (X2 = 2 |X1 = −1)P (X1 = −1)

= pP (X1 = 1) + 0× P (X1 = −1) = p2,

P (X2 = 0) = P (X2 = 0 |X1 = 1)P (X1 = 1) + P (X2 = 0 |X1 = −1)P (X1 = −1) = 2pq,

P (X2 = −2) = P (X2 = −2 |X1 = 1)P (X1 = 1) + P (X2 = −2 |X1 = −1)P (X1 = −1)

= 0× P (X1 = 1) + q P (X1 = −1) = q2.

• La particule ne peut revenir en 0 qu’après un nombre pair de mouvements, ainsi, pour toutn ∈ N, P (X2n+1 = 0) = 0. Pour n ∈ N, la particule est à l’origine après 2n mouvements si et

278

seulement si elle a effectué n mouvements à droite et n mouvements à gauche. Le nombre demouvements à droite parmi les 2n premiers suit la loi B(2n,p), donc

P (X2n = 0) =

(2nn

)

pn(1− p)2n−n =(2n)!

(n!)2(p(1− p))n.

D’après la formule de Stirling,

(2n)!

(n!)2∼

(2n

e

)2n√4πn

(n

e

)2n2πn

=4n

√nπ

et finalement,

P (X2n = 0) ∼ 1√nπ

(4p(1− p))n.

• La variable aléatoire 1(X2=0) + · · · + 1(X2n=0) représente le nombre de retours à l’origine aucours des 2n premiers mouvements. Par linéarité de l’espérance (pour tout A ∈ A , la variablealéatoire 1A est d’espérance finie égale à P (A)),

E(1(X2=0) + · · ·+ 1(X2n=0)) =n∑

k=1

P (X2k = 0).

Remarquons que l’on a calculé cette espérance sans déterminer la loi du nombre de retours.

– Si p 6= 1/2, 0 < 4p(1 − p) < 1, et par comparaison de séries à termes positifs, la série determe général P (X2n = 0) converge. L’espérance du nombre de retours à l’origine est majoréeindépendamment du nombre de mouvements.

– Si p = 1/2, P (X2n = 0) ∼ 1√nπ

et la série de terme général P (X2n = 0) (à termes positifs)

diverge par comparaison avec une série de Riemann d’exposant 1/2 < 1. Un résultat sur lessommes partielles de séries à termes positifs divergentes, puis une comparaison série/intégrale(que nous ne détaillons pas ici), montrent alors que

n∑

k=1

P (X2k = 0) ∼n∑

k=1

1√kπ∼ 2

√n

π.

Cette espérance tend vers +∞ lorsque n → +∞ : en un temps illimité, il y a en moyenne uneinfinité de retours à l’origine !

V. Séries génératrices des variables aléatoires à valeurs dans N

Soit X une variable aléatoire sur (Ω,A , P ), à valeurs dans N.

Alors, pour tout t ∈ [−1,1], la variable aléatoire tX est d’espérance finie. On pose, pourtout t ∈ [−1,1],

GX(t) = E(tX), et on a GX(t) =

+∞∑

n=0

P (X = n) tn.

La fonction GX est la somme d’une série entière de rayon de convergence au moins égalà 1. Elle est appelée série génératrice (ou fonction génératrice) de X.

Propriété/Définition – Série génératrice

279

Démonstration – On peut considérer que X(Ω) = N. Soit t ∈ [−1,1]. D’après le théorème detransfert, tX est d’espérance finie si et seulement si la série

∑

n>0

P (X = n) tn

converge absolument. Or, pour tout n ∈ N, |P (X = n) tn| 6 P (X = n), et∑

n>0 P (X = n)

converge (et sa somme vaut 1). Par comparaison, on en déduit l’existence de E(tX) ; la formuledonnant E(tX) provient aussi du théorème de transfert.

Sachant que la série entière définissant GX converge absolument en tout point de [−1,1], sonrayon de convergence est au moins égal à 1.

Remarques

• On a GX(1) =

+∞∑

n=0

P (X = n) = 1.

• Lorsque X(Ω) est fini, GX est un polynôme (et R = +∞).

La loi d’une variable aléatoire à valeurs dans N est caractérisée par sa série génératrice :soient X et Y deux variables aléatoires sur (Ω,A , P ), à valeurs dans N, telles queX(Ω) = Y (Ω) et GX(t) = GY (t) pour tout t ∈ ]− r,r[ (pour un certain r ∈ ]0,1]).

Alors X et Y ont la même loi.

Propriété

Démonstration – Si GX(t) = GY (t) pour tout t ∈ [−1,1], alors par unicité du développement ensérie entière, P (X = n) = P (Y = n) pour tout n ∈ N.

Remarque – La série génératrice de X contient donc toute l’information sur la loi de X. On a enfait, d’après l’expression des coefficients d’une série entière : pour tout n ∈ N,

P (X = n) =G

(n)X (0)

n!


Alors, pour que X soit d’espérance finie, il faut et il suffit que GX soit dérivable àgauche en 1. Dans ce cas, on a

E(X) = G′X(1).

Propriété – Lien avec l’espérance


⇒ Posons, pour tout n ∈ N, fn : t 7→ P (X = n) tn. La série de fonctions∑

n>0 fn convergesimplement sur [−1,1] ; pour tout n ∈ N, fn est de classe C1 sur [−1,1] avec pour tout n ∈ N∗ ett ∈ [−1,1],

|f ′n(t)| = |nP (X = n) tn−1| 6 nP (X = n).

Le majorant est le terme général d’une série convergente car X est d’espérance finie. D’aprèsle théorème de la classe C1 pour les séries de fonctions, GX est de classe C1 sur [−1,1], et enparticulier dérivable à gauche en 1. On a de plus

G′X(1) =

+∞∑

n=0

f ′n(1) =+∞∑

n=1

nP (X = n) = E(X).

⇐ Soit p ∈ N∗. Pour tout t ∈ [0,1[,

GX(t)−GX(1)

t− 1>

p∑

n=0

P (X = n)tn − 1

t− 1=

p∑

n=1

P (X = n) (1 + t+ · · ·+ tn−1),

280

l’inégalité étant valable par positivité des termes. Lorsque t→ 1−, on en déduit que

p∑

n=1

nP (X = n) 6 G′X(1).

pour tout p ∈ N∗. La série à termes positifs∑

n>0 nP (X = n) est donc à sommes partiellesmajorées indépendamment de p, donc convergente, ce qui entraîne (à nouveau par positivité destermes) que X est d’espérance finie.


• Si X → B(p), alors pour tout t ∈ R, GX(t) = 1− p+ pt.

• Si X → B(n,p), alors pour tout t ∈ R, GX(t) = (1− p+ pt)n.

• Si X → G (p), alors pour tout t tel que |(1− p)t| < 1, GX(t) =pt

1− (1− p)t .

• Si X →P(λ), alors pour tout t ∈ R, GX(t) = eλ(t−1).

Propriété – Séries génératrices correspondant aux lois usuelles

Démonstration

• Si X → B(p), on a pour tout t ∈ R, GX(t) = P (X = 0) + P (X = 1)t = 1− p+ pt.

• Si X → B(n,p), on a pour tout t ∈ R,

GX(t) =

n∑

k=0

(nk

)

pk (1− p)n−k tk =

n∑

k=0

(nk

)

(pt)k (1− p)n−k = (1− p+ pt)n

d’après la formule du binôme de Newton.

• Supposons que X → G (p). La série génératrice de X est la fonction somme de la série entière∑

n>1

p (1− p)n−1 tn.

On reconnaît une série géométrique de raison (1−p)t. Elle converge si et seulement si |(1−p)t| < 1,et dans ce cas

GX(t) = pt+∞∑

n=0

((1− p)t)n =pt

1− (1− p)t .

• Supposons que X →P(λ). La série génératrice de X est la fonction somme de la série entière

∑

n>0

e−λ λn

n!tn.

On reconnaît une série exponentielle ; elle converge pour tout t ∈ R, et

∀ t ∈ R, GX(t) = e−λ+∞∑

n=0

(λt)n

n!= e−λ eλt = eλ(t−1).

Soient X et Y deux variables aléatoires indépendantes sur (Ω,A , P ), à valeurs dans N.

Alors, pour tout t ∈ [−1,1],

GX+Y (t) = GX(t)GY (t).

Propriété – Somme de deux variables aléatoires indépendantes

281

Démonstration – La variable X + Y est à valeurs dans N de même que X et Y . Les variables Xet Y sont indépendantes, donc pour tout t ∈ [−1,1], tX et tY sont indépendantes. On en déduitque

GX+Y (t) = E(tX+Y ) = E(tX tY ) = E(tX)E(tY ) = GX(t)GY (t).

Remarque – Soit n ∈ N ; on a

(X + Y = n) =

n⋃

k=0

(X = k, Y = n− k),

ces événements étant deux à deux incompatibles, d’où, par indépendance,

P (X + Y = n) =

n∑

k=0

P (X = k, Y = n− k) =

n∑

k=0

P (X = k)P (Y = n− k).

On connaît donc la loi de X + Y . Par produit de Cauchy de deux séries entières absolumentconvergentes, on a pour tout t ∈ [−1,1],

GX(t)GY (t) =

+∞∑

n=0

(n∑

k=0

P (X = k)P (Y = n− k))

tn =

+∞∑

n=0

P (X + Y = n) tn = GX+Y (t),

ce qui donne une autre démonstration de la propriété précédente.

Soient X et Y deux variables aléatoires indépendantes sur (Ω,A , P ) et λ, µ deux réelsstrictement positifs. On suppose que X →P(λ) et Y →P(µ).

Alors X + Y →P(λ+ µ).

Corollaire – Somme de variables aléatoires suivant une loi de Poisson

Démonstration – Pour tout n ∈ N, P (X = n, Y = 0) = P (X = n)P (Y = 0) par indépendance,donc P (X + Y = n) > 0. On en déduit que (X + Y )(Ω) = N. De plus, pour tout t ∈ [−1,1] (enfait pour tout t ∈ R),

GX+Y (t) = GX(t)GY (t) = eλ(t−1) eµ(t−1) = e(λ+µ)(t−1).

La série génératrice caractérisant la loi, on en déduit que X + Y →P(λ+ µ).

VI. Variance

1. Généralités

L’espérance de X correspond à la moyenne pondérée des valeurs de X, mais ne décrit pascomment sont réparties les valeurs de X autour de cette moyenne. C’est l’intérêt des notions devariance et d’écart-type.

Soit X une variable aléatoire réelle sur (Ω,A , P ). On suppose que X2 est d’espérancefinie. Alors :

• X est d’espérance finie.

• (X − E(X))2 est d’espérance finie.

Propriété

282

Démonstration

• Le problème ne se pose que siX(Ω) est dénombrable. On écritX(Ω) = xn; n ∈ N. La variablealéatoire X2 est d’espérance finie, donc d’après le théorème de transfert,

∑

n>0 x2n P (X = xn)

converge et sa somme est E(X2). Pour tout p ∈ N, on a d’après l’inégalité de Cauchy-Schwarz,

p∑

n=0

|xn|P (X = xn) =

p∑

n=0

(

|xn|√

P (X = xn)) √

P (X = xn)

6

(p∑

n=0

x2n P (X = xn)

p∑

n=0

P (X = xn)

)1/2

6

(+∞∑

n=0

x2n P (X = xn)

+∞∑

n=0

P (X = xn)

)1/2

=√

E(X2)

car∑+∞

n=0 P (X = xn) = 1.

Les sommes partielles de la série à termes positifs∑

n>0 |xn|P (X = xn) sont majoréesindépendamment de p, donc cette série converge, ce qui prouve le résultat. En passant à la limitedans les inégalités précédentes, on obtient même : E(|X|) 6

√

E(X2).

• On a (X − E(X))2 = X2 − 2E(X)X + E(X)2. Si X2 est d’espérance finie, X également, etdonc par combinaison linéaire, (X − E(X))2 est d’espérance finie.

Cette propriété permet de donner la définition suivante :

Soit X une variable aléatoire réelle sur (Ω,A , P ). On dit que X admet une variance(ou admet un moment d’ordre 2) si X2 est d’espérance finie. Dans ce cas :

• On appelle variance de X le réel positif

V (X) = E((X − E(X))2).

On a aussi V (X) = E(X2)− E(X)2.

• On appelle écart-type de X le réel positif σ(X) =√

V (X).

Propriété/Définition – Variance et écart-type

Démonstration de la seconde expression de V (X)

D’après la propriété précédente, (X − E(X))2 = X2 − 2E(X)X + E(X)2 est d’espérance finie ;par linéarité de l’espérance,

V (X) = E(X2)− 2E(X)2 +E(X)2 = E(X2)− E(X)2.

Remarques

• Si X2 est d’espérance finie, le moment d’ordre 2 de X est le réel positif E(X2).

• Si X(Ω) = xn; n ∈ N, d’après le théorème de transfert, X a une variance si et seulement sila série à termes positifs

∑

n>0 x2n P (X = xn) converge, et dans ce cas,

V (X) =+∞∑

n=0

(xn − E(X))2 P (X = xn).

• Si X admet une variance et m = E(X), on a V (X) = 0 si et seulement si P (X = m) = 1.

Exemple – Soit X une variable aléatoire prenant les valeurs 1 et −1 et suivant la loi uniforme, etsoit Y la variable aléatoire nulle. Alors X et Y sont toutes les deux d’espérance nulle. Pourtant,elles se comportent très différemment ; la variance est un moyen de mesurer cette différence : ona

V (X) = E((X − 0)2) = E(X2) = 1 et V (Y ) = 0.

283

SoitX une variable aléatoire réelle sur (Ω,A , P ), admettant une variance, et (a,b) ∈ R2.

Alors aX + b admet une variance et on a : V (aX + b) = a2 V (X).

Propriété

Démonstration – On a (aX+b)2 = a2X2+2abX+b2 etX2 est d’espérance finie doncX également.Par combinaison linéaire, aX + b a une variance et par linéarité de l’espérance,

E((aX + b)2) = a2E(X2) + 2abE(X) + b2

(E(aX + b))2 = (aE(X) + b)2 = a2E(X)2 + 2abE(X) + b2.

Par différence, on en déduit que

V (aX + b) = a2(E(X2)− E(X)2) = a2 V (X).

Remarque – Cette propriété est cohérente avec l’interprétation de V (X) et σ(X) comme indi-cateurs de dispersion des valeurs de X autour de son espérance : ajouter une même valeur b àtoutes les valeurs de X ne modifie pas la variance et l’écart-type, multiplier toutes les valeurs deX par un réel a multiplie l’écart-type par |a|.


Pour que X admette une variance, il faut et il suffit que GX soit deux fois dérivable àgauche en 1. Dans ce cas,

V (X) = G′′X(1) +G′

X(1)−G′X(1)2.

Propriété – Lien entre série génératrice et variance

Ce résultat est admis (démonstration non exigible). Il s’agit d’adapter la démonstration faisantle lien entre l’existence de E(X) et celle de G′

X(1). Expliquons simplement comment retrouverla formule donnant V (X) : en cas d’existence, on montre que G′

X(t) et G′′X(t) se calculent, pour

t ∈ [−1,1], par dérivation terme à terme avec

G′X(t) =

+∞∑

n=1

nP (X = n) tn−1, G′′X(t) =

+∞∑

n=2

n(n− 1)P (X = n) tn−2

G′X(1) =

+∞∑

n=0

nP (X = n) = E(X), G′′X(1) =

+∞∑

n=0

n(n− 1)P (X = n) = E(X(X − 1)).

D’après le théorème de transfert, et par linéarité de l’espérance,

V (X) = E(X2)− E(X)2 = E(X(X − 1)) +E(X) − E(X)2 = G′′X(1) +G′

X(1) −G′X(1)2.


• Si X → B(p), alors X admet une variance et V (X) = p(1− p).• Si X → B(n,p), alors X admet une variance et V (X) = np(1− p).• Si X → G (p), alors X admet une variance et V (X) =

1− pp2

.

• Si X →P(λ), alors X admet une variance et V (X) = λ.

Propriété – Variance correspondant aux lois usuelles

284

Démonstration

• Si X → B(p), on a E(X2) = 02 × (1− p) + 12 × p = p. Alors

V (X) = E(X2)− E(X)2 = p− p2 = p(1− p).

• Si X → B(n,p), on sait que GX(t) = (1− p+ pt)n pour tout t ∈ R. La fonction GX est deuxfois dérivable en 1, donc X admet une variance, et

V (X) = G′′X(1) +G′

X(1) −G′X(1)2 = n(n− 1)p2 + np− n2p2 = np(1− p).

• Supposons que X → G (p). On sait que GX(t) =pt

1− (1− p)t notamment pour tout t ∈ [−1,1].

La fonction GX est deux fois dérivable sur [−1,1], avec

∀ t ∈ [−1,1], G′X(t) =

p

(1− (1− p)t)2 , G′′X(t) =

2p(1 − p)(1− (1− p)t)3 .

En particulier, X admet une variance, et

V (X) = G′′X(1) +G′

X(1)−G′X(1)2 =

2p(1− p)p3

+1

p− 1

p2=

1− pp2

.

• Supposons que X →P(λ). On sait que GX(t) = eλ(t−1) pour tout t ∈ R. La fonction GX estdeux fois dérivable en 1, donc X admet une variance, et

V (X) = G′′X(1) +G′

X(1)−G′X(1)2 = λ2 + λ− λ2 = λ.

Remarque – On peut calculer toutes ces variances directement à partir du théorème de transfert.

2. Covariance et corrélation

Soient X et Y deux variables aléatoires sur (Ω,A , P ), admettant une variance.

Alors XY est d’espérance finie et

|E(XY )| 6√

E(X2)E(Y 2).

Propriété – Inégalité de Cauchy-Schwarz

Démonstration – On a |XY | 6 X2 + Y 2 ; en adaptant la démonstration de la linéarité de l’es-pérance, on en déduit que XY est d’espérance finie. Quant à l’inégalité de Cauchy-Schwarz, onprocède comme pour un produit scalaire, en considérant la fonction polynomiale de degré auplus 2

λ 7→ E((λX + Y )2) = λ2E(X2) + 2λE(XY ) + E(Y 2),

à valeurs positives.


• On appelle covariance de X et Y le réel

Cov(X,Y ) = E([X − E(X)] [Y − E(Y )]

)= E(XY )− E(X)E(Y ).

• Si σ(X) et σ(Y ) sont non nuls, on appelle coefficient de corrélation de X et Y leréel

ρ(X,Y ) =Cov(X,Y )

σ(X)σ(Y ).

Définition

285

Démonstration de l’existence de Cov(X,Y ), et de la seconde formule

On a [X − E(X)] [Y − E(Y )] = XY − E(X)Y − E(Y )X + E(X)E(Y ). Les variables aléatoiresX et Y ont une variance, donc le produit XY est d’espérance finie et par combinaison linéaire,[X − E(X)] [Y − E(Y )] est d’espérance finie. Par linéarité de l’espérance, on a

Cov(X,Y ) = E(XY )− E(X)E(Y )− E(Y )E(X) + E(X)E(Y ) = E(XY )− E(X)E(Y ).

Remarques

• Si X admet une variance, Cov(X,X) = V (X).

• Si X et Y admettent une variance, Cov(X,Y ) = Cov(Y,X).

Soient X et Y deux variables aléatoires indépendantes sur (Ω,A , P ), admettant unevariance.

Alors Cov(X,Y ) = 0.

Propriété

Démonstration – On a Cov(X,Y ) = E(XY )− E(X)E(Y ) = 0 par indépendance.

Remarque – La réciproque de la propriété précédente est fausse comme le montre l’exemplesuivant : soit X une variable aléatoire d’image −1,0,1, de loi uniforme, et soit Y = X2. AlorsE(XY ) = E(X) = 0 (on a XY = X3 = X) donc Cov(X,Y ) = 0, mais X et Y ne sont pasindépendantes car

P (Y = 0 |X = 1) = 0 6= 1

3= P (Y = 0).

Exemple – Soit (Xn)n∈N∗ une suite de variables aléatoires mutuellement indépendantes suivantla loi B(p) avec p ∈ ]0,1[. Posons, pour tout n ∈ N∗, Yn = XnXn+1. Pour tout n, Xn est lafonction indicatrice de l’événement (Xn = 1), et Yn est la fonction indicatrice de l’événement(Xn = 1)∩ (Xn+1 = 1), de probabilité p2 ∈ ]0,1[ par indépendance. En particulier, Yn → B(p2).La variable Yn indique deux succès consécutifs aux rangs n et n+ 1.

De la même façon, pour tout n ∈ N∗, YnYn+1 = XnXn+1Xn+2 → B(p3), donc

Cov(Yn, Yn+1) = E(YnYn+1)− E(Yn)E(Yn+1) = p3 − p4 = p3(1− p).

Notamment, Yn et Yn+1 ne sont pas indépendantes.

En revanche, si j > i+ 2, on remarque que YiYj est la fonction indicatrice de

(YiYj = 1) = (Xi = 1) ∩ (Xi+1 = 1) ∩ (Xj = 1) ∩ (Xj+1 = 1),

de probabilité p4 par indépendance, et donc E(YiYj) = p4, puis

Cov(Yi, Yj) = E(YiYj)− E(Yi)E(Yj) = p4 − p2 p2 = 0.

Attention, on ne peut pas en déduire que Yi et Yj sont indépendantes (c’est vrai, mais il faudraitle prouver en revenant par exemple à la définition).


Alors|Cov(X,Y )| 6 σ(X)σ(Y ),

En particulier, si σ(X) 6= 0 et σ(Y ) 6= 0,

ρ(X,Y ) ∈ [−1,1].

Propriété

286

Démonstration – D’après l’inégalité de Cauchy-Schwarz,

|Cov(X,Y )| = |E([X−E(X)][Y −E(Y )])| 6(E((X − E(X))2)E((Y − E(Y ))2)

)1/2= σ(X)σ(Y ).

L’encadrement de ρ(X,Y ) s’ensuit directement.

Remarque – Le coefficient de corrélation mesure en quelque sorte la dépendance entre X et Y .Lorsque |ρ(X,Y )| est proche de 1, une information sur X apporte une information sur Y . LorsqueX et Y sont indépendantes, ρ(X,Y ) = 0, mais la réciproque est fausse.

Soient X1, . . . ,Xn des variables aléatoires sur (Ω,A , P ), admettant une variance.

Alors :

• ∑nk=1Xk admet une variance et

V

(n∑

k=1

Xk

)

=n∑

k=1

V (Xk) + 2∑

i<j

Cov(Xi,Xj).

• Si de plus X1, . . . ,Xn sont deux à deux indépendantes, on a

V

(n∑

k=1

Xk

)

=n∑

k=1

V (Xk).

Propriété – Variance d’une somme de variables aléatoires

Démonstration

• On a(

n∑

k=1

Xk

)2

=

n∑

k=1

X2k + 2

∑

i<j

XiXj .

Les Xk ont toutes une variance, donc les XiXj sont d’espérance finie, et par combinaison linéaire(∑n

k=1Xk)2 est d’espérance finie (i.e.,

∑nk=1Xk admet une variance). De plus, par linéarité de

l’espérance,

E

(n∑

k=1

Xk

)2

=n∑

k=1

E(X2k) + 2

∑

i<j

E(XiXj).

D’autre part,

(

E

(n∑

k=1

Xk

))2

=

(n∑

k=1

E(Xk)

)2

=

n∑

k=1

(E(Xk))2 + 2∑

i<j

E(Xi)E(Xj).

On en déduit le résultat par différence.

• Si les Xk sont deux à deux indépendantes, on a, pour tout (i,j) ∈ [[1,n]]2 tel que i < j,Cov(Xi,Xj) = 0, d’où l’égalité souhaitée.

Application – Soient X1, . . . ,Xn des variables aléatoires mutuellement indépendantes suivantla même loi B(p) et soit S = X1 + · · ·+Xn. D’après la propriété précédente, S a une variance et

V (S) =

n∑

k=1

V (Xk) = np(1− p).

On sait aussi que S suit la loi B(n,p). La variance ne dépendant que de la loi, on en déduit quepour toute variable aléatoire X qui suit la loi B(n,p), on a V (X) = np(1− p). On retrouve doncla valeur de V (X) déterminée plus tôt par un calcul direct.

287

3. Estimations de la dispersion

La variance s’interprète comme indicateur de dispersion. Dans ce paragraphe, nous allonsmontrer plus précisément comment la variance (ou l’écart-type) permet de mesurer cette disper-sion.

Soit X une variable aléatoire sur (Ω,A , P ), positive, d’espérance finie.

Alors, pour tout ε > 0,

P (X > ε) 6E(X)

ε.

Théorème – Inégalité de Markov

Démonstration – Soit ε > 0 fixé. On décrit X(Ω) en extension sous la forme xn; n ∈ I. SoitU = [ε,+∞[. Par positivité de X,

E(X) >∑

xn∈U

xn P (X = xn) > ε∑

xn∈U

P (X = xn)

car xn > ε si xn ∈ U . Alors

E(X) > εP (X ∈ U) = εP (X > ε),


Soit X une variable aléatoire sur (Ω,A , P ), admettant une variance.


P (|X −E(X)| > ε) 6σ(X)2

ε2.

Théorème – Inégalité de Bienaymé - Tchebychev

Démonstration – Soit ε > 0 fixé. La variable aléatoire X admet une variance donc est d’espérancefinie et, en posant Y = (X−E(X))2, alors Y est une variable aléatoire positive d’espérance finie.De plus, on remarque que

(|X − E(X)| > ε) = (Y > ε2).

Alors, d’après l’inégalité de Markov,

P (|X − E(X)| > ε) = P (Y > ε2) 6E(Y )

ε2=σ(X)2

ε2.

Remarque – L’inégalité de Bienaymé - Tchebychev permet de majorer la probabilité queX s’écarted’au moins ε de son espérance, i.e., de sa moyenne. On voit que cette majoration fait intervenirl’écart-type de X ; plus précisément, plus σ(X) est petit, plus la probabilité précédente est faible,c’est-à-dire, plus grande est la probabilité que X soit proche de son espérance. Cela confirmel’interprétation de σ(X) et V (X) comme indicateurs de dispersion.

Exemple – Notons m = E(X) et σ = σ(X). Pour ε = 2σ, on obtient

P (|X −m| > 2σ) 61

4,

ou de façon équivalente,

P (m− 2σ < X < m+ 2σ) >3

4.

La probabilité que X soit au plus à 2 écarts-types de son espérance est donc au moins 3/4. Enrevanche, pour ε = σ, l’inégalité ne donnerait pas de résultat intéressant.

288

Soit (Xn)n∈N∗ une famille de variables aléatoires sur (Ω,A , P ). On suppose que lesvariables aléatoires Xn

• sont deux à deux indépendantes,

• ont la même loi et admettent une variance.

On note m = E(X1), σ = σ(X1) et pour tout n ∈ N∗, Sn = X1 + · · ·+Xn.


P

(∣∣∣∣

1

nSn −m

∣∣∣∣> ε

)

6σ2

n ε2,

et en particulier,

P

(∣∣∣∣

1

nSn −m

∣∣∣∣> ε

)

−→n→+∞

0.

Théorème – Loi faible des grands nombres

Démonstration – Les variables aléatoires Xn admettent une variance donc également une espé-rance. Sachant qu’elles ont la même loi, elles ont la même espérance et la même variance (parexemple celles de X1, m et σ2). De plus, par linéarité de l’espérance, on a pour tout n ∈ N∗,

E

(1

nSn

)

=1

nnE(X1) = m,

et d’après les propriétés de la variance,

V

(1

nSn

)

=1

n2V (Sn) =

1

nV (X1)

par indépendance deux à deux des Xk. Ainsi, σ

(Sn

n

)2

=σ2

n.

Soit ε > 0 fixé. D’après l’inégalité de Bienaymé-Tchebychev appliquée à Sn/n, on a

P

(∣∣∣∣

1

nSn −m

∣∣∣∣> ε

)

6σ(Sn/n)2

ε2=

σ2

n ε2−→

n→+∞0.

Remarques

• Imaginons que l’on répète indéfiniment une même expérience aléatoire en observant, à chaqueétape, un certain résultat ; cette situation est modélisée par une suite (Xn)n∈N∗ de variablesaléatoires mutuellement indépendantes et de même loi, Xn représentant le résultat observé à lan-ième étape. Alors Sn/n représente la moyenne empirique des résultats au cours des n premièresexpériences.Notons m l’espérance commune à toutes les variables Xn. La loi faible des grands nombres affirmeque pour tout ε > 0, la probabilité que Sn/n s’écarte de m d’au moins ε tend vers 0 lorsquele nombre d’expériences tend vers +∞. De façon équivalente, la probabilité que cette moyennevérifie m− ε < Sn/n < m+ ε tend vers 1.

• Par exemple, considérons un jeu de pile ou face infini (ou toute autre expérience de Bernoullireproduite indéfiniment) et notons Xn l’indicatrice de l’événement « le n-ième lancer donne pile ».Pour tout n ∈ N∗, Xn → B(p), E(Xn) = p et V (Xn) = p(1 − p). Si les Xn sont deux à deuxindépendantes, le théorème précédent affirme que la moyenne Sn/n du nombre de « pile » aucours des n premiers lancers sera « proche » de p (à ε près) avec une probabilité tendant vers 1lorsque n→ +∞. En un certain sens, la moyenne se stabilise vers p lorsque le nombre de lancersaugmente.

Ci-dessous, on a représenté les fréquences relatives d’apparition de « pile » au cours des npremiers lancers, pour n ∈ [[1,200]] puis pour n ∈ [[1,1000]]. Dans chaque cas, on a effectué troissimulations (courbes des différentes couleurs).

289

0 50 100 150 200Nombre de tirages

0.0

0.2

0.4

0.6

0.8

1.0

Frequence

s relatives

0 200 400 600 800 1000Nombre de tirages

0.0

0.2

0.4

0.6

0.8

1.0

Frequence

s relatives

Il faut bien comprendre que ce théorème ne dicte pas à une expérience « concrète » commentelle va se dérouler pour « assurer » l’équilibre. Le théorème s’inscrit à l’intérieur du modèle, maisest cohérent avec l’approche intuitive des probabilités comme fréquence relative de réalisationlors d’un grand nombre de répétitions.

• Ce théorème peut jouer un rôle dans la validation du modèle : si on suppose une pièce équilibréeet que toutes les observations montrent une convergence vers p 6= 1/2, alors le modèle est sansdoute à revoir. Il permet d’estimer certains paramètres (par observation d’un échantillon, commepar exemple lors d’un sondage), l’inégalité du théorème permettant de mesurer le risque d’erreur.Ces deux remarques relèvent de la théorie des Statistiques.

• Le théorème précédent n’affirme pas que Sn(ω)/n tend vers m pour toute issue ω (ce qui estfaux en général) ; il ne faudrait donc pas s’étonner d’une issue ω pour laquelle (Sn(ω)/n)n∈N∗

ne converge pas vers m, ou même, ne converge pas : dans le jeu de pile ou face infini avec unepièce équilibrée, il est possible d’obtenir pile à chaque tirage (même si l’événement associé est deprobabilité nulle), et pour cette issue ω de l’expérience, (Sn(ω)/n) est constante égale à 1.

Exemple – On fait un test de qualité dans une production de N articles. Soit p la proportiond’articles défectueux. On vérifie n articles pris au hasard dans le stock, ce que l’on modélisepar une famille (X1, . . . ,Xn) de variables aléatoires de Bernoulli mutuellement indépendantes deparamètre p (Xk prend la valeur 1 si le k-ième article testé est défectueux).Avec les notationsprécédentes, Sn/n est la proportion d’articles défectueux dans l’échantillon testé. On sait quepour tout ε > 0,

P

(∣∣∣∣

1

nSn − p

∣∣∣∣> ε

)

6p(1− p)n ε2

61

4nε2,

la dernière inégalité provenant de l’étude de la fonction trinôme p 7→ p(1 − p). Choisissons parexemple ε = 10−2 ; alors le majorant vaut 2500/n. Ainsi, en testant n pièces, on peut affirmeravec un risque d’erreur d’au plus 2500/n, que la proportion observée est une valeur approchéede p à 10−2 près. On voit que, avec la précision voulue, minimiser le risque d’erreur implique detester un nombre assez grand d’articles : la convergence du majorant n’est pas très rapide.

290

Le tableau suivant récapitule certaines caractéristiques des lois usuelles :

Nom Notation Condition Image P (X = k) E(X) V (X) GX(t)

Bernoulli B(p) p ∈ [0,1] 0,1 P (X = 1) = p p p(1− p) 1− p+ pt

Binomiale B(n,p) n ∈ N∗, p ∈ [0,1] [[0,n]]

(nk

)

pk(1− p)n−k np np(1− p) (1− p+ pt)n

Géométrique G (p) p ∈ ]0,1[ N∗ p (1− p)k−1 1

p

1− pp2

pt

1− (1− p)t

Poisson P(λ) λ > 0 N e−λ λk

k!λ λ eλ(t−1)

291

292

Chapitre 15

Endomorphismes remarquables desespaces euclidiens

Dans ce chapitre, sauf indication contraire, (E, (· | ·)) désigne un espace euclidien de dimensionn et ‖ · ‖ la norme associée.

I. Isométries vectorielles

1. Définition, propriétés, caractérisations

Soit u ∈ L (E). On dit que u est une isométrie vectorielle si u conserve la norme,c’est-à-dire si

∀x ∈ E, ‖u(x)‖ = ‖x‖.

Définition

Exemple – Dans R2[X] muni du produit scalaire défini par :

(aX2 + bX + c |αX2 + βX + γ

)= aα+ bβ + cγ,

soit u l’endomorphisme défini par :

u(aX2 + bX + c) =b+ c√

2X2 + aX +

b− c√2.

Alors u est une isométrie vectorielle car, pour tout P = aX2 + bX + c ∈ R2[X],

‖u(P )‖2 =1

2(b2 + 2bc+ c2) + a2 +

1

2(b2 − 2bc+ c2) = a2 + b2 + c2 = ‖P‖2,

donc en prenant la racine carrée, on obtient que u conserve la norme.

Une isométrie vectorielle est un automorphisme.

Propriété

Démonstration – L’espace E étant de dimension finie, il suffit de montrer que u est injectif. Or,si u(x) = 0E , alors par conservation de la norme, ‖x‖ = ‖u(x)‖ = 0 et donc x = 0E , d’où lerésultat.

Remarque – Les isométries vectorielles sont également appelées automorphismes orthogo-naux.

Attention ! En général, une projection orthogonale n’est pas un automorphisme orthogonal : ellene conserve pas la norme et n’est pas bijective.

293

L’ensemble des isométries vectorielles de E est appelé groupe orthogonal de E, etnoté O(E).

On a notamment :

• Si u et v sont deux éléments de O(E), alors u v ∈ O(E).

• Si u ∈ O(E), u−1 ∈ O(E).


Démonstration

• Pour tout x ∈ E, ‖x‖ = ‖v(x)‖ = ‖(u v)(x)‖ car u et v sont des isométries vectoriellesdonc conservent la norme. On en déduit que u v conserve la norme, c’est donc une isométrievectorielle.

• Pour tout x ∈ E, ‖x‖ = ‖(u u−1)(x)‖ = ‖u−1(x)‖ car u conserve la norme. On en déduit queu−1 conserve la norme, c’est donc une isométrie vectorielle.

Soit u ∈ L (E). Pour que u soit une isométrie vectorielle, il faut et il suffit que uconserve le produit scalaire, c’est-à-dire, que

∀ (x,y) ∈ E2, (u(x) |u(y)) = (x | y) .

Propriété

Démonstration

⇐ Si u conserve le produit scalaire, pour tout x ∈ E,

‖u(x)‖2 = (u(x) |u(x)) = (x |x) = ‖x‖2 et donc ‖u(x)‖ = ‖x‖.

On en déduit que u est une isométrie vectorielle.

⇒ Si u conserve la norme, on montre que u conserve le produit scalaire à l’aide de l’identité depolarisation : pour tout (x,y) ∈ E2,

(u(x) |u(y)) =1

4

(‖u(x) + u(y)‖2 − ‖u(x)− u(y)‖2

)=

1

4

(‖u(x+ y)‖2 − ‖u(x− y)‖2

),

par linéarité de u. Comme u conserve la norme, on a donc

(u(x) |u(y)) =1

4

(‖x+ y‖2 − ‖x− y‖2

)= (x | y) .

D’où la conservation du produit scalaire.

Soit u ∈ L (E) et B une base orthonormée de E.


• u est une isométrie vectorielle.

• L’image par u de la base orthonormée B de E est une base orthonormée de E.

Propriété

Démonstration – On note B = (e1, . . . ,en).

⇒ Si u est une isométrie vectorielle, alors u conserve le produit scalaire, et donc pour tout(i,j) ∈ [[1,n]]2,

(u(ei) |u(ej)) = (ei | ej) = δi,j.

La famille u(B) est donc une base orthonormée de E : elle est orthonormée, donc libre, et estcomposée de n vecteurs en dimension n.

294

⇐ On suppose que u(B) = (u(e1), . . . ,u(en)) est une base orthonormée de E. Si

x = x1e1 + · · ·+ xnen et y = y1e1 + · · ·+ ynen

sont deux vecteurs de E, alors

u(x) = x1u(e1) + · · ·+ xnu(en) et u(y) = y1u(e1) + · · · + ynu(en),

donc les coordonnées de u(x) et u(y) dans la base u(B) sont les mêmes que celles de x et ydans la base B. L’expression du produit scalaire dans une base orthonormée montre donc que(u(x) |u(y)) = (x | y) . Donc u est une isométrie vectorielle.

Soit u une isométrie vectorielle de E et F un sous-espace vectoriel de E stable par u.

Alors F⊥ est stable par u.

Propriété

Démonstration – L’application u est un isomorphisme, donc dim(u(F )) = dim(F ). Sachant deplus que u(F ) ⊂ F car F est stable par u, on a u(F ) = F .Soit x ∈ F⊥ ; on veut montrer que u(x) ∈ F⊥. Soit donc y ∈ F ; d’après ce qui précède, il existez ∈ F tel que y = u(z). Alors, par conservation du produit scalaire,

(u(x) | y) = (u(x) |u(z)) = (x | z) = 0

car x ∈ F⊥ et z ∈ F. Donc u(x) est orthogonal à tout vecteur de F : u(x) ∈ F⊥. Ceci étant vraipour tout x ∈ F⊥, on a le résultat voulu.

2. Matrices orthogonales

Soit M ∈Mn(R) une matrice carrée réelle.

On dit que M est orthogonale si l’endomorphisme uM canoniquement associé à Mest une isométrie vectorielle pour la norme associée au produit scalaire canonique surMn,1(R).

Définition

Soit M ∈Mn(R). Les propriétés suivantes sont équivalentes :

1. M est une matrice orthogonale.

2. tMM = In.

3. M tM = In.

4. M est inversible et M−1 = tM.

5. Les colonnes de M forment une famille orthonormée de Mn,1(R) muni du produitscalaire canonique. Dans ce cas, elles en forment une base orthonormée.

6. Les lignes de M forment une famille orthonormée de M1,n(R) muni du produitscalaire canonique. Dans ce cas, elles en forment une base orthonormée.

Propriété

Démonstration – Soit (· | ·) le produit scalaire canonique sur Mn,1(R).

1⇔ 2 : La matrice M est orthogonale si et seulement si uM conserve le produit scalaire, ce quiéquivaut au fait que pour tout (X,Y ) ∈Mn,1(R)2,

(uM (X) |uM (Y )) = (X |Y ) .

295

Or, pour tout (X,Y ) ∈Mn,1(R)2,

(uM (X) |uM (Y )) = t(MX)(MY ) = tX(tMM)Y et (X |Y ) = tXY.

Si tMM = In, M est donc orthogonale ; réciproquement, si M est orthogonale, en choisissantpour X et Y les vecteurs de la base canonique de Mn,1(R), on obtient tMM = In.

2⇔ 3⇔ 4 : C’est un résultat du chapitre Matrices.

2 ⇔ 5 : Notons C1, . . . ,Cn les colonnes de M . Le coefficient en position (i,j) dans la matricetMM est tCiCj, c’est-à-dire (Ci |Cj). On en déduit que tMM = In si et seulement si pour tout(i,j), (Ci |Cj) = δi,j, c’est-à-dire, si et seulement si (C1, . . . ,Cn) est une famille orthonormée deMn,1(R). Dans ce cas, sachant de plus que cette famille est composée de n = dim(E) vecteurs,c’est une base orthonormée de Mn,1(R).

3⇔ 6 : On raisonne de la même façon, le coefficient en position (i,j) dans la matrice M tM étant(Li |Lj), où L1, . . . ,Ln sont les lignes de M .

L’ensemble des matrices orthogonales d’ordre n est appelé groupe orthogonal d’ordren, et noté O(n) ou On(R) :

O(n) = M ∈Mn(R); tMM = In.

L’ensemble O(n) est stable par produit et passage à l’inverse.


Démonstration – Si M ∈ O(n) et N ∈ O(n),

t(MN)(MN) = tN tMMN = tNN = In,

donc MN ∈ O(n). De plus,

t(M−1)M−1 = (tM)−1M−1 = (M tM)−1 = In,

donc M−1 ∈ O(n).



• u est une isométrie vectorielle.

• La matrice M de u dans la base orthonormée B est orthogonale.

Propriété – Lien entre isométries vectorielles de E et matrices orthogonales

Démonstration – L’endomorphisme u est une isométrie vectorielle si et seulement si pour tout(x,y) ∈ E2,

(u(x) |u(y)) = (x | y) .Si X et Y sont les vecteurs-colonnes des coordonnées de x et y dans la base orthonormée B, alors

(u(x) |u(y)) = t(MX)(MY ) = tX(tMM)Y et (x | y) = tXY.

Or, lorsque x et y parcourent E, X et Y parcourent Mn,1(R), et réciproquement. Ainsi, u estune isométrie vectorielle si et seulement si pour tout (X,Y ) ∈Mn,1(R)2,

tX(tMM)Y = tXY,

c’est-à-dire, si et seulement si M est orthogonale (voir la démonstration de 1⇔ 2 ci-dessus).

296


M =1√2

−1 1 0

0 0√

21 1 0

est orthogonale, car la famille (C1, C2, C3) de ses colonnes vérifie les relations (Ci |Cj) = δi,jpour tout (i, j) ∈ [[1,3]]2.

En particulier, tout endomorphisme d’un espace euclidien de dimension 3, dont la matrice est Mdans une base orthonormée, est une isométrie vectorielle. C’est notamment le cas de l’endomor-phisme u du premier exemple du chapitre, car sa matrice dans la base orthonormée (1,X,X2)de R2[X] est M .

Les matrices orthogonales sont exactement les matrices de changement de base ortho-normée : si B est une base orthonormée de E et P ∈Mn(R) est la matrice d’une familleF de vecteurs de E dans la base B, alors P est une matrice orthogonale si et seulementsi F est une base orthonormée de E.

Propriété

Démonstration – Avec les notations de la propriété, soit u l’endomorphisme de E ayant P pourmatrice dans la base B. La matrice P est orthogonale si et seulement si u est une isométrievectorielle, ce qui équivaut au fait que u(B), i.e. F , soit une base orthonormée de E.

Remarque – En particulier, si B et B′ sont deux bases orthonormées de E, et si P désigne lamatrice de passage de B vers B′, alors pour tout u ∈ L (E),

MatB′(u) = tP MatB(u)P.

Si M ∈ O(n), alors det(M) = ±1. De même, si u ∈ O(E), alors det(u) = ±1.

Propriété

Démonstration – Une matrice orthogonale M vérifie tMM = In donc det(tM) det(M) = 1. Ordet(tM) = det(M), donc det(M)2 = 1 et det(M) = ±1.

Si u ∈ O(E), on raisonne matriciellement dans une base orthonormée.

Remarque – Bien sûr, la réciproque est fausse, comme le montre l’exemple de la matrice(

1 10 1

)

;

elle a pour déterminant 1 mais n’est pas orthogonale : ses deux colonnes ne sont pas orthogonalespour le produit scalaire canonique.

L’ensemble des matrices orthogonales de Mn(R) de déterminant 1, est appelé groupespécial orthogonal d’ordre n, noté SO(n) ou SOn(R).

Il est stable par produit et passage à l’inverse.


Démonstration – On sait déjà que On(R) est stable par produit et passage à l’inverse. De plus, siM ∈ SOn(R) et N ∈ SOn(R), on a

det(MN) = det(M) det(N) = 1 et det(M−1) = (det(M))−1 = 1,


Si E est de dimension 2 ou 3, un élément de O(E) de déterminant 1 est appelé rotationde E.

Définition

297

II. Endomorphismes symétriques

Soit u ∈ L (E). On dit que u est symétrique si

∀ (x,y) ∈ E2, (u(x) | y) = (x |u(y)) .

Définition



• u est symétrique.

• La matrice M de u dans la base orthonormée B est symétrique, c’est-à-dire vérifietM = M .

Propriété – Lien entre endomorphismes symétriques et matrices symétriques

Démonstration – L’endomorphisme u est symétrique si et seulement si pour tout (x,y) ∈ E2,

(u(x) | y) = (x |u(y)) .

Si X et Y sont les vecteurs-colonnes des coordonnées de x et y dans la base orthonormée B, alors

(u(x) | y) = t(MX)Y = tXtMY et (x |u(y)) = tX(MY ) = tXMY.

Or, lorsque x et y parcourent E, X et Y parcourent Mn,1(R), et réciproquement. Ainsi, u estsymétrique si et seulement si pour tout (X,Y ) ∈Mn,1(R)2,

tXtMY = tXMY,

c’est-à-dire, si et seulement si tM = M .

Exemple – La projection orthogonale p sur un sous-espace vectoriel F de E est symétrique. Eneffet, dans une base orthonormée de E adaptée à la décomposition

E = Im(p)⊕Ker(p) = Im(p)⊕ Im(p)⊥,

la matrice de p est (en notant r = rg(p))

(Ir 0r,n−r

0n−r,r 0n−r,n−r

)

;

elle est symétrique.

Attention ! Pour utiliser ce résultat, il est essentiel que B soit orthonormée, de même que dansla propriété sur le lien entre isométries vectorielles et matrices orthogonales.

Les endomorphismes symétriques ont des propriétés remarquables vis-à-vis de la réductiondes endomorphismes :

Soit u ∈ L (E) un endomorphisme symétrique.

Alors u est diagonalisable dans une base orthonormée : il existe une base orthonorméede E constituée de vecteurs propres pour u.

Théorème spectral

298


On procède par récurrence sur n = dim(E). Le résultat est vrai pour n = 1 car tout vecteur deE de norme 1 est vecteur propre de u. Si le résultat est vrai en dimension n− 1 avec n > 2, soitu un endomorphisme symétrique de E, espace euclidien de dimension n.

• Soit M la matrice de u dans une base orthonormée quelconque. Sachant que u est symétriqueet que M est sa matrice dans une base orthonormée, M est symétrique. La matrice M est réelle,mais on peut la considérer comme matrice complexe et à ce titre, M possède une valeur propreλ ∈ C. Soit X ∈Mn,1(C) un vecteur propre associé ; on va calculer tXMX de deux façons : toutd’abord, M étant réelle,

tXMX = tXMX = tXλX = λ tXX.

De plus, M étant symétrique,

tXMX = tXtMX = t(MX)X = t(λX)X = λ tXX.

Mais, en notant x1, . . . ,xn les coefficients de X, on a

tXX =

n∑

i=1

xi xi =

n∑

i=1

|xi|2 6= 0

car X 6= 0. On en déduit que λ = λ, i.e., λ ∈ R. Ainsi, u possède une valeur propre réelle λ.

• Soit e1 un vecteur propre associé. Quitte à diviser e1 par sa norme (qui est non nulle), on peutsupposer e1 unitaire.

Notons F = Vect(e1)⊥ ; il s’agit d’un sous-espace vectoriel de E de dimension n. De plus, F

est stable par u : en effet, si x ∈ F , alors

(u(x) | e1) = (x |u(e1))

car u est symétrique. Or u(e1) = λe1, donc

(u(x) | e1) = λ (x | e1) = 0

car x ∈ F = Vect(e1)⊥. On a finalement (u(x) | e1) = 0, et donc u(x) ∈ Vect(e1)

⊥ = F.

On peut donc considérer l’endomorphisme u|F de F induit par u ; F est bien sûr un espaceeuclidien par restriction du produit scalaire de E, et u|F est symétrique de même que u. Parhypothèse de récurrence, il existe une base orthonormée (e2, . . . ,en) de F constituée de vecteurspropres pour u|F , et donc pour u. Alors, sachant que E = Vect(e1) ⊕ F (cette somme étantorthogonale), on obtient que (e1, . . . ,en) est une base orthonormée de E de vecteurs proprespour u, ce qui prouve l’hérédité.

Remarques

• En particulier, si u ∈ L (E) est symétrique, u possède n valeurs propres réelles (χu est scindédans R). Ces valeurs propres ne sont pas nécessairement distinctes.

• Si u ∈ L (E) est un endomorphisme symétrique, les sous-espaces propres de u sont deux àdeux orthogonaux.

En effet, soient λ et µ deux valeurs propres distinctes de u, x et y deux vecteurs propresassociés respectivement à ces valeurs propres. Alors

(u(x) | y) = (λx | y) = λ (x | y) .

Mais u étant symétrique, on a aussi

(u(x) | y) = (x |u(y)) = (x |µy) = µ (x | y) .

Sachant que λ 6= µ, on en déduit que (x | y) = 0, et donc Eλ(u) ⊥ Eµ(u).

299

Matriciellement, le théorème spectral s’interprète de la façon suivante :

Soit M ∈Mn(R) une matrice symétrique réelle.

Alors M est diagonalisable au moyen d’une matrice orthogonale, c’est-à-dire qu’ilexiste :

• une matrice diagonale D ∈Mn(R) dont les coefficients diagonaux sont les valeurspropres de M ,

• une matrice orthogonale P ∈ O(n) dont les colonnes constituent une base ortho-normée de Mn,1(R) (pour le produit scalaire canonique) de vecteurs propres pourM ,

telles queM = P D tP.

Théorème spectral (matriciel)

Démonstration – On applique le théorème spectral à l’endomorphisme uM canoniquement associéà M : il existe une base orthonormée B de Mn,1(R) constituée de vecteurs propres pour M .Soit P la matrice de passage de la base canonique de Mn,1(R) à la base B ; P est une matriceorthogonale car c’est une matrice de changement de bases orthonormées, donc P−1 = tP . Laformule M = P D tP est alors une conséquence des formules de changement de base.

Attention ! Une matrice symétrique complexe n’est pas toujours diagonalisable, comme le montrel’exemple de la matrice

(1 ii −1

)

de polynôme caractéristique X2 ; si elle était diagonalisable, elle serait nulle.


A =

1 1 11 1 11 1 1

est symétrique réelle, elle est donc diagonalisable au moyen d’une matrice orthogonale. Commede plus elle est de rang 1, on sait que 0 est valeur propre double de A. Une base orthonormée deE0(A), qui est le plan d’équation x+ y + z = 0, est

1√6

1−21

,1√2

10−1

.

Dans ce cas particulier, on sait alors que le second espace propre est E0(A)⊥, c’est une droitevectorielle dirigée par le vecteur normal t

(1 1 1

)à E0(A), dont on constate qu’il est vecteur

propre pour A associé à la valeur propre 3 (ce que l’on pouvait remarquer directement car lasomme des coefficients de chaque ligne de A est 3). En posant

P =

1√6

1√2

1√3

− 2√6

0 1√3

1√6− 1√

21√3

,

on obtient une matrice orthogonale telle que

A = P

0 0 00 0 00 0 3

tP.

On remarquera que dans ce cas, on n’a pas à calculer P−1, il suffit de transposer P . Attentioncependant, pour pouvoir affirmer ceci, il faut bien prendre soin de vérifier que P est effectivement

300

orthogonale. Dans cet exemple, il était indispensable de choisir une base de E0(A) qui soitorthonormée.

Application : en Sciences Industrielles, la matrice d’inertie d’un solide dans un repère ortho-normé est une matrice symétrique réelle, elle est donc diagonalisable au moyen d’une matriceorthogonale. Les droites propres pour cette matrice sont appelées axes principaux d’inertie dusolide.

III. Espaces euclidiens orientés de dimension 2 et 3

1. Orientation

Soient B et B′ deux bases orthonormées de E, et P la matrice de passage de B à B′. On saitque P ∈ On(R), et donc det(P ) = ±1, c’est-à-dire, detB(B′) = ±1. De plus,

detB′(B) = det(P−1) = det(P ) = detB(B′).

Ceci permet de donner la définition suivante :

• On dit que B et B′ ont la même orientation si detB(B′) = 1.

On dit que B et B′ ont des orientations opposées si detB(B′) = −1.

• Orienter E, c’est choisir l’ensemble des bases orthonormées qui ont la même orien-tation qu’une base orthonormée fixée, de référence. Ces bases sont alors dites basesorthonormées directes.

Les autres bases orthonormées sont dites bases orthonormées indirectes.

Définition – Orientation, bases orthonormées directes

Remarques

• Les matrices de passage entre bases orthonormées directes de E sont exactement les matricesorthogonales de déterminant 1, i.e., les éléments de SO(n) : si B est une base orthonorméedirecte de E et P ∈Mn(R) est la matrice d’une famille F de vecteurs de E dans la base B, alorsP ∈ SO(n) si et seulement si F est une base orthonormée directe de E.

• Échanger deux vecteurs d’une base orthonormée, ou changer le sens d’un de ses vecteurs,change son orientation (c’est-à-dire son caractère direct ou indirect), d’après les propriétés dudéterminant.

• On définit une relation ∼ entre bases orthonormées de E de la façon suivante : si B et B′ sontdeux bases orthonormées de E, on a B ∼ B′ si, par définition, B et B′ ont la même orientation. Lefait que SOn(R) contienne In et soit stable par produit et passage à l’inverse permet de montrerque ∼ est une relation d’équivalence. Il y a exactement deux classes d’équivalence ; orienter Erevient à choisir l’une de ces deux classes, ses éléments sont les bases orthonormées directes deE.

Soit E un espace euclidien orienté de dimension 3.

• Si F est une droite vectorielle ou un plan vectoriel de E, on peut orienter F commetout espace euclidien, par le choix d’une base orthonormée de F .

• Si P est un plan vectoriel, on peut aussi orienter P par le choix d’un vecteur unitairea normal à P : une base orthonormée (i,j) de P est dite directe si (i,j,a) est une baseorthonormée directe de E, sinon, elle est dite indirecte.

Définition – Orientation d’une droite ou d’un plan

301

2. Produit mixte, produit vectoriel

Soient B et B′ deux bases orthonormées directes d’un espace euclidien orienté E dedimension n = 2 ou n = 3.

Alors, pour toute famille (x1, . . . ,xn) de vecteurs de E, on a

detB(x1, . . . ,xn) = detB′(x1, . . . ,xn).

Autrement dit, le déterminant de (x1, . . . ,xn) ne dépend pas de la base orthonorméedirecte choisie pour le calculer.

Ce déterminant est appelé produit mixte de la famille (x1, . . . ,xn), et noté [x1, . . . ,xn].

Propriété/Définition – Produit mixte

Démonstration – Soit M la matrice de (x1, . . . ,xn) dans la base B, M ′ sa matrice dans la baseB′ et P la matrice de passage de B à B′. Alors, d’après les formules de changement de bases,M = PM ′, d’où

det(M) = det(P ) det(M ′) = det(M ′)

car P est une matrice de passage entre bases orthonormées directes, donc P ∈ SOn(R). On endéduit le résultat car

detB(x1, . . . ,xn) = det(M) et detB′(x1, . . . ,xn) = det(M ′).

Interprétation géométrique

• Si u et v sont deux vecteurs de R2,∣∣[u,v]

∣∣ est l’aire du parallélogramme formé sur u et v.

• De même, si u, v et w sont trois vecteurs de R3,∣∣[u,v,w]

∣∣ est le volume du parallélépipède

rectangle formé sur u, v et w.

On a immédiatement :

Soit E un espace euclidien orienté de dimension 3. Alors :

• Échanger deux vecteurs dans un produit mixte change le signe du produit mixte.

• Le produit mixte [u,v,w] est nul si et seulement si la famille (u,v,w) est liée.

• Une base orthonormée (e1,e2,e3) de E est directe si et seulement si [e1,e2,e3] = 1.

On a les propriétés analogues en dimension 2.

Propriété

Soit E un espace euclidien orienté de dimension 3.

Pour tout (u,v) ∈ E2, il existe un unique vecteur de E, noté u ∧ v, tel que

∀x ∈ E, [u,v,x] = (u ∧ v |x) . (1)

Le vecteur u ∧ v est appelé produit vectoriel de u et v.

Propriété/Définition – Produit vectoriel

Démonstration – Par linéarité du déterminant par rapport à sa troisième variable, l’applicationx 7→ [u,v,x] est une forme linéaire sur E. Le théorème de représentation des formes linéaires surun espace euclidien entraîne l’existence et l’unicité du vecteur vérifiant (1).

302

Soit E un espace euclidien orienté de dimension 3 et B = (e1,e2,e3) une base orthonor-mée directe de E. Soient u = u1e1 + u2e2 + u3e3 ∈ E et v = v1e1 + v2e2 + v3e3 ∈ E.

Alorsu ∧ v = (u2v3 − u3v2)e1 + (u3v1 − u1v3)e2 + (u1v2 − u2v1)e3.

En particulier, dans E = M3,1(R),

u1

u2

u3

∧

v1v2v3

=

u2v3 − u3v2u3v1 − u1v3u1v2 − u2v1

.

On peut toujours se ramener à ce cas en raisonnant en coordonnées dans une baseorthonormée directe de E.

Propriété

Démonstration – Pour tout x = x1e1 + x2e2 + x3e3 ∈ E,

[u,v,x] = detB(u,v,x) =

∣∣∣∣∣∣

u1 v1 x1

u2 v2 x2

u3 v3 x3

∣∣∣∣∣∣

.

En développant ce déterminant par rapport à la dernière colonne, on a

[u,v,x] = (u2v3 − u3v2)x1 − (u1v3 − u3v1)x2 + (u1v2 − u2v1)x3.

La base B étant orthonormée, on reconnaît le produit scalaire entre

(u2v3 − u3v2)e1 + (u3v1 − u1v3)e2 + (u1v2 − u2v1)e3

et x. Cette égalité étant vraie pour tout x, et u∧ v étant l’unique vecteur à la vérifier pour toutx, on a le résultat.

Soit E un espace euclidien orienté de dimension 3 et (u,v) ∈ E2.

Alors :

1. u ∧ v = − v ∧ u.2. Les applications x 7→ u ∧ x et x 7→ x ∧ v sont des endomorphismes de E.

3. La famille (u,v) est libre si et seulement si u ∧ v 6= 0E .

4. Le vecteur u ∧ v est orthogonal à u et v.

Si u et v sont indépendants, u ∧ v est un vecteur normal au plan vectoriel Vect(u,v).

5. Si (e1,e2,e3) est une base orthonormée directe de E, on a

e1 ∧ e2 = e3, e2 ∧ e3 = e1, e3 ∧ e1 = e2.

Si (e1,e2) est une famille orthonormée de E, alors (e1,e2,e1∧ e2) est une base orthonor-mée directe de E.

6. Pour tout w ∈ E, on a la formule : u ∧ (v ∧ w) = (u |w) v − (u | v)w.

Propriété

Démonstration

1. Pour tout x ∈ E, par antisymétrie du déterminant,

[u,v,x] = −[v,u,x] = − (v ∧ u |x) = (− v ∧ u |x) .

Ceci étant vrai pour tout x ∈ E, on a u ∧ v = − v ∧ u.

303

2, 6 et première partie de 5. C’est immédiat en revenant aux coordonnées dans une base ortho-normée directe.

Quant à la deuxième partie du point 5, complétons (e1,e2) en base orthonormée directe (e1,e2,e3)de E (ce qui est possible en complétant d’abord en base orthonormée de E puis éventuellementen changeant le sens du troisième vecteur choisi). D’après ce qui précède, on a e1 ∧ e2 = e3, d’oùle résultat.

3. Si (u,v) est liée, alors pour tout x ∈ E, [u,v,x] = 0, et donc (u ∧ v |x) = 0. On en déduit queu ∧ v = 0E .

Si (u,v) est libre, on peut la compléter en une base (u,v,w) de E, et donc [u,v,w] 6= 0, c’est-à-dire,(u ∧ v |w) 6= 0, ce qui entraîne que u ∧ v 6= 0E .

4. On a(u ∧ v |u) = [u,v,u] = 0

car la famille (u,v,u) contient deux fois le même vecteur. Donc u ∧ v est orthogonal à u. Onprocède de même pour v.

Si (u,v) est libre, u ∧ v est un vecteur non nul orthogonal à u et v, donc orthogonal au planVect(u,v). C’est donc un vecteur normal à Vect(u,v).

3. Classification des isométries vectorielles en dimension 2

On a

O2(R) =

(cos(θ) − sin(θ)sin(θ) cos(θ)

)

; θ ∈ R

︸︷︷︸

=SO2(R)

∪(

cos(θ) sin(θ)sin(θ) − cos(θ)

)

; θ ∈ R

︸︷︷︸

=M∈O2(R); det(M)=−1

.

Théorème – Détermination des éléments de O2(R) et SO2(R)

Démonstration – Il est immédiat que les matrices ci-dessus sont éléments de O2(R), car leurscolonnes forment une famille orthonormée de M2,1(R) pour le produit scalaire canonique, d’aprèsla formule cos2 + sin2 = 1. De plus, pour tout θ ∈ R,

det


)

= 1 et det

(cos(θ) sin(θ)sin(θ) − cos(θ)

)

= −1.

Réciproquement, soit

M =

(a cb d

)

∈ O2(R).

Sa première colonne est de norme 1, donc a2 + b2 = 1. En particulier, a2 6 1, donc a ∈ [−1,1],et il existe θ ∈ R tel que a = cos(θ). Alors b = ±

√1− a2 = ± sin(θ), mais quitte à changer θ en

−θ, ce qui ne modifie pas la valeur de cos(θ), on peut supposer que b = sin(θ).

La deuxième colonne de M est orthogonale à la première. Or, (a,b) = (cos(θ), sin(θ)) 6= (0,0),donc

(

Vect

(cos(θ)sin(θ)

))⊥

est une droite vectorielle ; or elle contient le vecteur non nul

(− sin(θ)cos(θ)

)

, et ainsi

(

Vect

(cos(θ)sin(θ)

))⊥= Vect

(− sin(θ)cos(θ)

)

.

En particulier, il existe λ ∈ R tel que(cd

)

= λ

(− sin(θ)cos(θ)

)

.

304

Enfin,

det(M) = det

(cos(θ) −λ sin(θ)sin(θ) λ cos(θ)

)

= λ.

Or det(M) = ±1 ; on obtient les formes indiquées dans chaque cas.

Soit θ ∈ R. La matrice

R(θ) =


)

est appelée matrice de rotation d’angle de mesure θ.

Définition

On remarquera que, pour (θ,θ′) ∈ R2, R(θ) = R(θ′) si et seulement si θ − θ′ ∈ 2πZ. Ainsi,

SO2(R) = R(θ); θ ∈ R = R(θ); θ ∈ ]−π,π] .

• Pour tout (θ,θ′) ∈ R2, R(θ)R(θ′) = R(θ + θ′).

• SO2(R) est commutatif pour le produit matriciel : pour tout (A,B) ∈ (SO2(R))2, ona AB = BA.

Propriété

Démonstration

• On a

R(θ)R(θ′) =


)(cos(θ′) − sin(θ′)sin(θ′) cos(θ′)

)

=

(cos(θ) cos(θ′)− sin(θ) sin(θ′) − cos(θ) sin(θ′)− sin(θ) cos(θ′)sin(θ) cos(θ′) + cos(θ) sin(θ′) − sin(θ) sin(θ′) + cos(θ) cos(θ′)

)

=

(cos(θ + θ′) − sin(θ + θ′)sin(θ + θ′) cos(θ + θ′)

)

= R(θ + θ′).

• Soit (A,B) ∈ (SO2(R))2. D’après le théorème précédent, il existe (θ,θ′) ∈ R2 tel que A = R(θ)et B = R(θ′). Alors d’après le premier point,

AB = R(θ)R(θ′) = R(θ + θ′) = R(θ′ + θ) = R(θ′)R(θ) = BA.

Soit E un plan euclidien orienté.

1. Soit u ∈ O(E) vérifiant det(u) = 1 (i.e., une rotation de E).

Alors, il existe θ ∈ R tel que la matrice de u dans toute base orthonormée directe deE soit R(θ). Le réel θ n’est pas unique, mais unique modulo 2π.

On dit que θ est une mesure de l’angle de la rotation u.

On retrouve facilement les mesures θ de l’angle d’une rotation u de E à l’aide desformules suivantes, valables pour tout vecteur unitaire x0 ∈ E :

cos(θ) =1

2Tr(u) = (x0 |u(x0)) et sin(θ) = [x0,u(x0)].

2. Soit u ∈ O(E) vérifiant det(u) = −1.

Alors u est la symétrie par rapport à Ker(u − Id) parallèlement à Ker(u − Id)⊥ (i.e.,la réflexion par rapport à Ker(u− Id)).

Dans toute base adaptée à la décomposition E = Ker(u−Id)⊕Ker(u−Id)⊥, la matricede u est (

1 00 −1

)

.

Théorème – Classification des isométries vectorielles en dimension 2

305

Démonstration

1. Si u ∈ O(E) vérifie det(u) = 1, sa matrice dans une base orthonormée directe B = (e1,e2) estun élément de SO2(R), donc il existe θ ∈ R tel que MatB(u) = R(θ). Si B′ = (ε1,ε2) est uneautre base orthonormée directe de E, alors la matrice de passage P de B à B′ est un élément deSO2(R), donc d’après les formules de changement de base et la commutativité de SO2(R),

MatB′(u) = P−1 MatB(u)P = P−1P MatB(u) = MatB(u) = R(θ).

La matrice de u dans toute base orthonormée directe de E est donc R(θ). Le réel θ est uniquemodulo 2π car R(θ) = R(θ′) si et seulement si θ − θ′ ∈ 2πZ.

On a alors

Tr(u) = Tr(R(θ)) = 2 cos(θ), d’où cos(θ) =1

2Tr(u).

Soit x0 = αe1 +βe2 un vecteur unitaire de E. Alors la matrice colonne des coordonnées de u(x0)dans la base B est

R(θ)

(αβ

)

=

(α cos(θ)− β sin(θ)α sin(θ) + β cos(θ)

)

.

La base B étant orthonormée,

(x0 |u(x0)) = α(α cos(θ)− β sin(θ)) + β(α sin(θ) + β cos(θ)) = (α2 + β2) cos(θ) = cos(θ)

car x0 est unitaire et B orthonormée. De plus,

[x0,u(x0)] =

∣∣∣∣

α α cos(θ)− β sin(θ)β α sin(θ) + β cos(θ)

∣∣∣∣= α(α sin(θ) + β cos(θ))− β(α cos(θ)− β sin(θ)) = sin(θ).

2. Si u ∈ O(E) vérifie det(u) = −1, sa matrice dans la base orthonormée directe B est un élémentde O2(R) de déterminant −1, donc il existe θ ∈ R tel que

MatB(u) =


)

.

Alors

MatB(u)2 =


)2

= I2,

donc u est une symétrie. On sait que u est diagonalisable avec Sp(u) ⊂ −1,1, mais sachantque dim(E) = 2 et que det(u) = −1, on a Sp(u) = −1,1, les valeurs propres 1 et −1 étantsimples. Les espaces propres Ker(u− Id) et Ker(u+ Id) sont donc des droites vectorielles. Enfin,ils sont orthogonaux, car si x ∈ Ker(u− Id) et y ∈ Ker(u+Id), alors par conservation du produitscalaire,

(x | y) = (u(x) |u(y)) = (x | − y) = − (x | y) ,et donc (x | y) = 0. Ainsi, u est la symétrie par rapport à la droite Ker(u − Id) parallèlementà la droite Ker(u + Id) = Ker(u − Id)⊥. L’écriture matricielle dans toute base adaptée à ladécomposition E = Ker(u− Id)⊕Ker(u− Id)⊥ est alors immédiate.

Soit E un plan euclidien orienté et (θ,θ′) ∈ R2. Soit u la rotation d’angle de mesure θet u′ la rotation d’angle de mesure θ′.

Alors u u′ = u′ u est la rotation d’angle de mesure θ + θ′.

Propriété

Démonstration – Il suffit de raisonner matriciellement dans une base orthonormée directe de E.La matrice de u dans cette base est R(θ), celle de u′, R(θ′). Or, d’après une propriété donnéeplus haut,

R(θ)R(θ′) = R(θ′)R(θ) = R(θ + θ′),


306

Soit E un plan euclidien orienté et B = (e1,e2) une base orthonormée directe de E. Onidentifie E à C, grâce à l’application bijective

φ :

E → C

αe1 + βe2 7→ α+ iβ

Alors la rotation u d’angle de mesure θ a pour expression complexe

z 7→ eiθz,

c’est-à-dire que pour tout x ∈ E, φ(u(x)) = eiθφ(x).

Propriété – Écriture complexe d’une rotation

Démonstration – Pour tout x = αe1 + βe2 ∈ E, la matrice-colonne des coordonnées de u(x) dansla base B est

R(θ)

(αβ

)

=

(α cos(θ)− β sin(θ)α sin(θ) + β cos(θ)

)

,

et doncφ(u(x)) = [α cos(θ)− β sin(θ)] + i[α sin(θ) + β cos(θ)].

De plus,eiθφ(x) = [cos(θ) + i sin(θ)][α+ iβ],

ce qui donne le même résultat après développement.

4. Réduction des isométries vectorielles en dimension 3

Soit E un espace euclidien orienté de dimension 3. Soit u ∈ O(E) ; on note ε = det(u)(ε = 1 ou ε = −1).

• On est dans l’un et un seul des cas suivants :

1. u = ε Id.

2. L’ensemble Ker(u − ε Id) est une droite vectorielle. En notant D cette droite, alorsle plan D⊥ est stable par u et l’endomorphisme de D⊥ induit par u est une rotation.

Si a est un vecteur unitaire dirigeant la droite D, alors en orientant D⊥ par le choixdu vecteur normal a, on peut considérer une mesure θ de l’angle de cette rotation. Lamatrice de u dans toute base orthonormée directe de E de la forme (e1,e2,a) est alors

cos(θ) − sin(θ) 0sin(θ) cos(θ) 0

0 0 ε

.

• Pour les rotations (ε = 1) : D est l’ensemble des vecteurs invariants par u ; on ditque u est une rotation d’axe D, et, D⊥ étant orienté par a, que θ est une mesure del’angle de u.

On détermine alors entièrement θ (modulo 2π) par les formules suivantes, dans les-quelles x0 désigne un vecteur unitaire orthogonal à a :

Pour déterminer cos(θ) : Tr(u) = 2 cos(θ) + 1, cos(θ) = (x0 |u(x0)) ,

Pour déterminer sin(θ) : x0 ∧ u(x0) = (sin(θ)) a, sin(θ) = [x0,u(x0),a].

Enfin, pour tout x ∈ E, l’image de x par u est donnée explicitement par la formule

u(x) = cos(θ)[x− (a |x) a] + sin(θ) a ∧ x+ (a |x) a.

Théorème – Réduction des isométries vectorielles en dimension 3

307

La figure ci-dessous illustre le résultat dans le cas des rotations (ε = 1) : on représente un vecteurx ∈ E ainsi que u(x), et on note

z = (a |x) a et y = x− (a |x) a,

qui sont respectivement les projetés orthogonaux de x sur D et sur F = D⊥.

y

u(y)

x

u(x)

a

z

θ

D

F

+

Démonstration – Si u ∈ O(E), χu est un polynôme unitaire de degré 3, donc définit une fonctioncontinue de limite −∞ en −∞ et +∞ en +∞. D’après le théorème des valeurs intermédiaires,χu possède (au moins) une racine réelle, c’est-à-dire que u possède (au moins) une valeur propreréelle. Soit λ ∈ Sp(u) et x un vecteur propre associé. Par conservation de la norme, ‖u(x)‖ = ‖x‖,c’est-à-dire, |λ| ‖x‖ = ‖x‖. Le vecteur x est non nul, donc |λ| = 1, et λ = ±1.

Le polynôme caractéristique de u est scindé sur C, de degré 3 et à coefficients réels, donc, s’ilpossède des racines complexes non réelles, elles sont au nombre de 2 et complexes conjuguées,on les notera α et α. On a alors αα = |α|2 > 0.

Cas ε = 1 : Le déterminant de u, qui vaut 1, est le produit des racines complexes de χu, donc 1doit être valeur propre de u (les différents triplets possibles de racines de χu sont, à l’ordre près,(1,1,1), (1,− 1,− 1), (1,α,α) avec α ∈ C \R).

Soit a un vecteur propre unitaire de u associé à a valeur propre 1. On note D = Vect(a)et P = D⊥. Sachant que D est stable par u et que u ∈ O(E), on sait que P est stable par u.De plus, u conserve le produit scalaire sur E et donc par restriction, sur P . Ainsi, u|P est uneisométrie vectorielle du plan P . De plus, dans toute base B = (e1,e2,a) adaptée à la décompositionE = P ⊕D,

MatB(u) =

(Mat(e1,e2)

(u|P ) 0

0 1

)

,

donc1 = det(u) = det(u|P )× 1,

ce qui entraîne finalement que u|P est une rotation de P .

On oriente P par le choix du vecteur normal a. D’après le paragraphe précédent, il existeθ ∈ R tel que dans toute base orthonormée directe de P , la matrice de u|P soit R(θ). La matrice

308

de u dans toute base orthonormée directe de E de dernier vecteur a est donc

M =


0 0 1

.

Le polynôme caractéristique de u est alors((X − cos(θ))2 + sin(θ)2

)(X − 1) = (X2 − 2 cos(θ)X + 1)(X − 1).

Si cos(θ) = 1, M = I3 et u = Id. Sinon, 1 est valeur propre simple de u et en particulier,Ker(u − Id) est une droite vectorielle. Dans ce cas, on a D = Ker(u − Id) (inclusion et mêmedimension) et la description annoncée.

De plus,Tr(u) = Tr(M) = 2 cos(θ) + 1,

et on démontre les autres formules en raisonnant en coordonnées dans une base orthonorméedirecte (e1,e2,a) de E : soit x0 = αe1 + βe2 un vecteur unitaire orthogonal à a ; les coordonnéesde u(x0) dans la base (e1,e2,a) sont

M

αβ0

=


0 0 1

αβ0

=

α cos(θ)− β sin(θ)α sin(θ) + β cos(θ)

0

,

donc

(x0 |u(x0)) = α(α cos(θ)− β sin(θ)) + β(α sin(θ) + β cos(θ)) = (α2 + β2) cos(θ) = cos(θ)

car α2 +β2 = ‖x0‖2 = 1. De plus, la matrice colonne des coordonnées de x0 ∧u(x0) dans la base(e1,e2,a) est

αβ0

∧

α cos(θ)− β sin(θ)α sin(θ) + β cos(θ)

0

= (α2 + β2)

00

sin(θ)

=

00

sin(θ)

,

donc x0 ∧ u(x0) = (sin(θ)) a. Par définition, on a alors

[x0,u(x0),a] = (x0 ∧ u(x0) | a) = sin(θ) (a | a) = sin(θ).

Enfin, la formuleu(x) = cos(θ)[x− (a |x) a] + sin(θ) a ∧ x+ (a |x) a

est vraie pour x = e1, x = e2 et x = a : par exemple,

u(e1) = cos(θ)e1 + sin(θ)e2

= cos(θ)[e1 − (a | e1) a] + sin(θ) a ∧ e1 + (a | e1) a

car (a | e1) = 0 et a ∧ e1 = e2 ; on procède de même pour u(e2) et u(a). Sachant que (e1,e2,a)est une base de E et que les deux membres de l’égalité à démontrer définissent des applicationslinéaires, l’égalité est vraie pour tout x ∈ E.Cas ε = −1 : On raisonne de façon analogue en remplaçant la valeur propre 1 par −1 ; avecdes notations semblables, il existe θ ∈ R tel que dans toute base orthonormée directe de E dedernier vecteur a, la matrice de u soit

M =


0 0 −1

.

Si cos(θ) = −1, M = −I3 et u = − Id. Sinon, −1 est valeur propre simple de u, Ker(u+ Id) estune droite vectorielle.

309

Remarques

• Dans le cas d’une rotation, changer l’orientation de l’axe revient à changer θ en −θ.• Si u ∈ O(E) vérifie det(u) = −1 avec u 6= − Id, u est soit la réflexion par rapport à D⊥

(symétrie par rapport à D⊥, parallèlement à D), soit la composée (commutative) d’une rotationd’axe D et d’une réflexion par rapport à D⊥.

Exemple – L’espace R3 étant orienté et muni du produit scalaire canonique, soit

u :

R3 → R3

(x,y,z) 7→ (y,z,x)

La matrice de u dans la base canonique (qui est orthonormée) est

M =

0 1 00 0 11 0 0

.

Elle est orthogonale de déterminant 1, donc u est une rotation. Pour déterminer son axe D, onrésout l’équation u(x) = x, ce qui équivaut à

x ∈ Vect(a), où a =1√3(1,1,1).

On oriente D⊥ par le choix du vecteur normal a. Alors, si θ est une mesure de l’angle de u,

0 = Tr(u) = 2 cos(θ) + 1,

donc cos(θ) = −1/2. Il reste à déterminer le signe de sin(θ). Soit x = (1, − 1,0) ∈ D⊥. Alors lamatrice colonne des coordonnées de x ∧ u(x) dans la base canonique est

1−10

∧

−101

,

dont le premier coefficient est −1. Donc x∧u(x), dont on sait qu’il est colinéaire à a, est de sensopposé à a. On en déduit que sin(θ) < 0, et donc, on peut choisir θ = 4π/3 (ou −2π/3).

310

Chapitre 16

Fonctions vectoriellesArcs paramétrés

Dans ce chapitre, n est un entier strictement positif, I désigne un intervalle de R (non vide etnon réduit à un point), et (sauf indication contraire) f désigne une application définie sur I, àvaleurs dans Rn.

I. Dérivation des fonctions à valeurs vectorielles

1. Définition et premières propriétés

Soit a ∈ I. On dit que f est dérivable en a si la fonction

x 7→ f(x)− f(a)

x− a ,

définie sur I \ a, possède une limite en a.

Dans ce cas, cette limite, qui est un vecteur de Rn, est appelée vecteur dérivé de fen a, noté

f ′(a) oudf

dx(a).

Définition – Dérivabilité en un point

Remarque – La dérivabilité de f en a équivaut au fait que la fonction

h 7→ f(a+ h)− f(a)

h,

définie sur h 6= 0 ; a+ h ∈ I, possède une limite en 0.

Soit a ∈ I. On dit que f est :

• dérivable à gauche en a si a est intérieur à I ou a = sup I, et si x 7→ f(x)− f(a)

x− apossède une limite à gauche en a. Dans ce cas, cette limite est notée f ′(a−).

• dérivable à droite en a si a est intérieur à I ou a = inf I, et si x 7→ f(x)− f(a)

x− apossède une limite à droite en a. Dans ce cas, cette limite est notée f ′(a+).

Définition

Remarque – Si n = 1, on retrouve la définition déjà connue pour les fonctions à valeurs réelles.Le quotient

f(x)− f(a)

x− a

311

est le taux d’accroissement de f entre a et x, et f ′(a) est le coefficient directeur de la tangenteà la courbe représentative de f dans un repère au point d’abscisse a.Cette tangente a pour équation y = f ′(a)(x− a) + f(a).

Exemple – La fonction f : x 7→ (x,x2,x3) est dérivable en tout point de R, et pour tout a ∈ R,

f ′(a) = (1,2a,3a2).

On remarque que pour f : I → Rn, former le quotient

f(x)− f(a)

x− a

revient à former le vecteur contenant les taux d’accroissement de chaque fonction-coordonnée def . Ceci suggère une formule de dérivation composante par composante, dont la démonstrationest immédiate :

Écrivons f = (f1, . . . ,fn) où les fi : I → R sont les fonctions-coordonnées de f dans labase canonique.

Soit a ∈ I. Pour que f soit dérivable en a, il faut et il suffit que pour tout i ∈ [[1,n]],fi soit dérivable en a. Dans ce cas,

f ′(a) = (f ′1(a), . . . ,f′n(a)).

Propriété – Dérivation composante par composante

La propriété suivante montre le lien entre la dérivabilité en un point a et le fait de posséderun développement limité à l’ordre 1 en a :

Soit a ∈ I et b ∈ Rn. Les propriétés suivantes sont équivalentes :

• f est dérivable en a et f ′(a) = b.

• f admet le développement limité f(x) = f(a) + b(x− a) + o(x− a) en a.

Propriété – Lien avec l’existence d’un développement limité

Notation – La notation o(x−a) représente une fonction x 7→ (x−a) ε(x) où ε : I → Rn a pourlimite (0, . . . ,0) en a.

Démonstration – La fonction f est dérivable en a avec f ′(a) = b si et seulement si

f(x)− f(a)

x− a −→x→a

b,

c’est-à-dire, si et seulement sif(x)− f(a)

x− a =x→a

b+ o(1).

Ceci équivaut au fait que f(x) = f(a) + b(x− a) + o(x− a) lorsque x→ a.

Si f est dérivable en a, elle est continue en a. La réciproque est fausse.

Corollaire

Démonstration – Si f est dérivable en a, elle possède un développement limité à l’ordre 1 en a :f(x) = f(a)+f ′(a)(x−a)+o(x−a). Lorsque x tend vers a, f(x) tend vers f(a), d’où le résultat.L’exemple de la fonction t 7→ (|t|,0, . . . ,0) montre que la réciproque est fausse.

312

2. Opérations sur les fonctions dérivables

Soient f : I → Rn, g : I → Rn et α : I → R trois fonctions dérivables en a ∈ I. Soitλ ∈ R. Alors :

• La fonction λf + g est dérivable en a et (λf + g)′(a) = λf ′(a) + g′(a).

• La fonction αf est dérivable en a et (αf)′(a) = α′(a)f(a) + α(a)f ′(a).

Propriété – Combinaison linéaire et produit

Démonstration

• Le premier point est évident par combinaison linéaire de limites.

• Le cas du produit αf est une conséquence d’une propriété plus générale (voir ci-dessous) surla dérivation des fonctions du type B(f1,f2) où B est une application bilinéaire (dans notre cas,le produit), et f1, f2 sont deux fonctions dérivables en a ∈ I.

• Soient p ∈ N∗ et L : Rn → Rp une application linéaire.

Si f : I → Rn est dérivable en a ∈ I, alors L f : I → Rp est dérivable en a et

(L f)′(a) = L(f ′(a)).

• Soient (m,p) ∈ (N∗)2, f : I → Rn et g : I → Rm deux fonctions, et B : Rn×Rm → Rp

une application bilinéaire.

Si f et g sont dérivables en a ∈ I, alors B(f, g) : I → Rp est dérivable en a et

B(f, g)′(a) = B(f ′(a), g(a)) +B(f(a), g′(a)).

Propriété – Composition par une application linéaire ou bilinéaire

Démonstration

• Pour tout x ∈ I différent de a, par linéarité de L, on a

(L f)(x)− (L f)(a)

x− a = L

(f(x)− f(a)

x− a

)

.

Or, f étant dérivable en a,f(x)− f(a)

x− a −→x→a

f ′(a).

De plus, L est une application linéaire sur un espace de dimension finie, elle est donc continue.Il en résulte que

(L f)(x)− (L f)(a)

x− a −→x→a

L(f ′(a)),


• Pour tout x ∈ I différent de a, par bilinéarité de B, on a

B(f, g)(x)−B(f, g)(a)

x− a =B(f(x), g(x)) −B(f(a), g(x)) +B(f(a), g(x)) −B(f(a), g(a))

x− a= B

(f(x)− f(a)

x− a , g(x)

)

+B

(

f(a),g(x)− g(a)x− a

)

.

Or, f et g étant dérivables (et en particulier continues) en a,

g(x) −→x→a

g(a),f(x)− f(a)

x− a −→x→a

f ′(a) etg(x) − g(a)x− a −→

x→ag′(a).

L’application B est bilinéaire sur Rn ×Rm, elle est donc continue, d’où

B(f, g)(x)−B(f, g)(a)

x− a −→x→a

B(f ′(a), g(a)) +B(f(a), g′(a)),

ce qui prouve le résultat.

313

Soit (· | ·) un produit scalaire sur Rn. Soient f : I → Rn et g : I → Rn deux fonctionsdérivables en a ∈ I. Alors :

• La fonction (f | g) est dérivable en a avec

(f | g)′ (a) =(f ′(a) | g(a)

)+(f(a) | g′(a)

).

• La fonction ‖f‖2 est dérivable en a avec

(‖f‖2)′(a) = 2(f(a) | f ′(a)

).

• Si n = 2 et B est une base de R2, la fonction detB(f,g) est dérivable en a avec

(detB(f,g))′(a) = detB(f ′(a),g(a)) + detB(f(a),g′(a)).

Corollaire – Cas d’un produit scalaire et d’un déterminant

Démonstration – Le premier et le troisième point sont immédiats car un produit scalaire et ledéterminant sont bilinéaires. Pour le second point, il suffit de remarquer que ‖f‖2 = (f | f) etd’appliquer le premier point ainsi que la symétrie du produit scalaire.

Soit ϕ : J → I une fonction où J est un intervalle de R. Soit f : I → Rn une fonction.Si ϕ est dérivable en a ∈ J et si f est dérivable en ϕ(a), alors f ϕ est dérivable en aet

(f ϕ)′(a) = ϕ′(a) (f ′ ϕ)(a).


Démonstration – On raisonne à l’aide d’un développement limité à l’ordre 1 de ϕ en a,

ϕ(x) = ϕ(a) + ϕ′(a)(x − a) + (x− a) ε(x),

et de f en ϕ(a),

f(y) = f(ϕ(a)) + f ′(ϕ(a))(y − ϕ(a)) + (y − ϕ(a)) η(y).

En appliquant cette dernière égalité avec y = ϕ(x), on obtient, pour x ∈ J,

f(ϕ(x)) = f(ϕ(a)) + f ′(ϕ(a))(ϕ′(a)(x− a) + (x− a) ε(x)

)

+(ϕ′(a)(x− a) + (x− a)ε(x)

)η(ϕ(a) + ϕ′(a)(x− a) + (x− a) ε(x)

).

Lorsque x tend vers a, ϕ(a) + ϕ′(a)(x− a) + (x− a) ε(x)→ ϕ(a) et donc

η(ϕ(a) + ϕ′(a)(x − a) + (x− a) ε(x)

)→ 0.

En rassemblant les termes, on obtient donc une fonction h : J → Rn telle que h(x) −→x→a

(0, . . . ,0)

etf(ϕ(x)) = f(ϕ(a)) + f ′(ϕ(a))ϕ′(a) (x− a) + (x− a)h(x).

On en déduit le résultat.

3. Fonction dérivée

Si f est dérivable sur I (c’est-à-dire en tout point de I), la fonction x 7→ f ′(x) estappelée fonction dérivée de f , notée f ′.

Définition

314

Bien sûr, la propriété de dérivation composante par composante, et les opérations sur lesfonctions dérivables en un point se traduisent pour les fonctions dérivables sur un intervalle.

En raisonnant composante par composante, on obtient :

Soit f : I → Rn une fonction dérivable.

Pour que f soit constante sur I, il faut et il suffit que f ′ = 0.

Propriété – Dérivation et fonctions constantes

II. Dérivées d’ordre supérieur

• Sous réserve d’existence, on définit par récurrence les dérivées successives de f par :f (0) = f et f (k+1) = (f (k))′, pour k ∈ N.

• Pour k ∈ N∗, on dit que f est de classe Ck sur I si f (k) existe et est continue sur I.

• On dit que f est de classe C∞ sur I si f est de classe Ck sur I pour tout k > 1.

La fonction f (k) se note aussidkf

dxk.

Définition – Classe Ck, dérivées d’ordre k

Écrivons f = (f1, . . . ,fn) où les fi : I → R sont les fonctions-coordonnées de f dans labase canonique. Soit k ∈ N∗.

Alors, pour que f soit de classe Ck (resp. C∞) sur I, il faut et il suffit que pour touti ∈ [[1,n]], fi soit de classe Ck (resp. C∞) sur I. Dans ce cas, pour tout j ∈ [[1,k]] (resp.j ∈ N∗),

f (j) = (f(j)1 , . . . ,f (j)

n ).

Propriété – Classe Ck composante par composante

Soient f : I → Rn et g : I → Rn deux fonctions de classe Ck (resp. C∞) sur I, et λ ∈ R.

Alors λf + g est de classe Ck (resp. C∞) sur I et pour tout j ∈ [[1,k]] (resp. j ∈ N∗),

(λf + g)(j) = λf (j) + g(j).

En particulier, l’ensemble Ck(I,Rn) (resp. C∞(I,Rn)) des fonctions de classe Ck (resp.C∞) sur I à valeurs dans Rn, est un R-espace vectoriel.

Propriété – Combinaison linéaire

Soient p ∈ N∗ et L : Rn → Rp une application linéaire. Si f : I → Rn est de classe Ck

(resp. C∞) sur I, alors L f est de classe Ck (resp. C∞) sur I et pour tout j ∈ [[1,k]](resp. j ∈ N∗),

(L f)(j) = L f (j).

Propriété – Composition par une application linéaire

Démonstration des trois propriétés précédentes - Elle se fait par récurrences immédiates à partirdes propriétés correspondantes de dérivation première, données plus haut.

315

Soient (m,p) ∈ (N∗)2, f : I → Rn et g : I → Rm deux fonctions, et B : Rn × Rm → Rp

une application bilinéaire.

Si f et g sont de classe Ck (resp. C∞) sur I, alors B(f, g) est de classe Ck (resp. C∞)sur I et pour tout j ∈ [[1,k]] (resp. j ∈ N∗),

B(f, g)(j) =

j∑

i=0

(ji

)

B(f (i), g(j−i)).

Théorème – Formule de Leibniz

Démonstration – Elle est en tout point semblable à la démonstration de la formule du binômede Newton ; elle se fait par récurrence sur k. Tout d’abord, B est bilinéaire sur Rn × Rm, donccontinue. Pour k = 1, le résultat est immédiat d’après la propriété de dérivation de B(f, g), etcar B(f, g)′ = B(f ′, g) +B(f, g′) est continue par composition et somme. De plus, on a bien

B(f, g)′ =1∑

i=0

(1i

)

B(f (i), g(1−i)).

Supposons le résultat vrai pour un certain entier k, et supposons f et g de classe Ck+1. Alors parhypothèse de récurrence,

B(f, g)(k) =k∑

i=0

(ki

)

B(f (i), g(k−i)).

Cette fonction est dérivable sur I par opérations sur les fonctions dérivables. De plus, par linéaritéde la dérivation et d’après la formule donnant la dérivée d’une fonction de la forme B(u,v),

B(f, g)(k+1) =k∑

i=0

(ki

)

(B((f (i))′, g(k−i)) +B(f (i), (g(k−i))′))

=k∑

i=0

(ki

)

B(f (i+1), g(k−i)) +k∑

i=0

(ki

)

B(f (i), g(k−i+1))

=

k+1∑

p=1

(k

p− 1

)

B(f (p), g(k−p+1)) +

k∑

i=0

(ki

)

B(f (i), g(k−i+1))

grâce au changement d’indice p = i + 1 dans la première somme. En rassemblant les termescommuns aux deux sommes, on a donc

B(f, g)(k+1) = B(f (k+1), g) +k∑

i=1

((k

i− 1

)

+

(ki

))

B(f (i), g(k−i+1)) +B(f, g(k+1))

= B(f (k+1), g) +

k∑

i=1

(k + 1i

)

B(f (i), g(k−i+1)) +B(f, g(k+1))

=

k+1∑

i=0

(k + 1i

)

B(f (i), g(k+1−i)),

qui est une fonction continue par composition et combinaison linéaire. Ceci prouve le résultat aurang k + 1 et termine la démonstration.

Remarque – En reprenant cette démonstration, il est immédiat que le résultat est vrai pour lesfonctions à valeurs complexes, lorsque B désigne le produit : on retrouve la formule connue duprogramme de première année.

316

Soit ϕ : J → I une fonction avec J intervalle de R. Soit f : I → Rn une fonction.

Si ϕ est de classe Ck (resp. C∞) sur J et si f est de classe Ck (resp. C∞) sur I, alorsf ϕ est de classe Ck (resp. C∞) sur J .


Démonstration – À nouveau, c’est une récurrence immédiate basée sur la formule donnant ladérivée d’une composée. En effet, si ϕ et f sont de classe Ck+1 sur I, alors

(f ϕ)′ = ϕ′ (f ′ ϕ)

est de classe Ck comme produit et composée d’applications de classe Ck, et par hypothèse derécurrence. Donc f ϕ est de classe Ck+1.

Remarque – Les propriétés concernant la combinaison linéaire et la composition d’applications ontleurs équivalents pour des fonctions à valeurs dans C (lorsque cela a un sens, en ce qui concernela composition). On peut également donner une propriété analogue sur le quotient de fonctionsà valeurs dans C dont le dénominateur ne s’annule pas. Pour tous ces résultats, on renvoit aucours de première année.

III. Arcs paramétrés

1. Définitions

Soit k ∈ N∗.

• On appelle arc paramétré de classe Ck (tracé dans Rn) tout couple Γ = (I,f) où Iest un intervalle de R et f : I → Rn une fonction de classe Ck.

• L’image C = f(I) de f est aussi appelée support de l’arc paramétré Γ.

Définition

Dans toute la suite, sauf indication contraire, Γ = (I,f) désigne un arc paramétré de classe Ck

(k ∈ N∗), de support C.Sans soulever de question théorique, on notera M(t) le point de Rn tel que

−−−−→OM(t) = f(t), où O

désigne l’origine du repère canonique de Rn. On identifie vecteur f(t) et point M(t).

Remarque – Si le paramètre décrivant l’intervalle I est le temps, Γ représente le mouvement d’unpoint dans Rn. La courbe C est alors la trajectoire de ce mouvement.

Cas particulier – Lorsque pour tout t ∈ I, f(t) = (t,x(t)) où x : I → R est une fonction declasse Ck, C est le graphe de la fonction x.

Exemple – Les deux arcs paramétrés par

f :

R → R2

t 7→(

1− t21 + t2

,2t

1 + t2

)et g :

]−π,π[ → R2

θ 7→ (cos(θ), sin(θ))

ont pour support le cercle unité de R2 privé du point (−1,0). Deux arcs différents peuvent doncavoir le même support. Il faut bien distinguer un arc et son support.

Un point M de C peut être associé à plusieurs paramètres : on peut avoir−−→OM = f(t1) = f(t2)

avec t1 6= t2. Pour cette raison, on distingue les notions de point de paramètre t, indissociablede son paramètre, et de point géométrique, qui désigne l’élément de C correspondant. On parleraplutôt de point de Γ dans le premier cas, et de point de C dans le second.

317

• Un point M(t) de Γ est dit simple s’il existe un unique t ∈ I tel que−−−−→OM(t) = f(t).

Sinon, il est dit multiple. L’arc Γ est dit simple si tous ses points sont simples, ce quiéquivaut au fait que f soit injective.

• L’arc Γ est dit fermé si I est un segment [a,b] et si f(a) = f(b).

Définition

Un point M(t) de Γ est dit régulier si f ′(t) 6= (0, . . . ,0). Sinon, il est dit stationnaire(ou singulier). Si tous les points de Γ sont réguliers, on dit que Γ est régulier.

Définition – Point régulier

Attention ! Dans le cas d’un point multiple, par exemple f(t1) = f(t2) avec t1 6= t2, le pointM(t1) peut être régulier sans que M(t2) le soit.

Exemple – L’arc Γ paramétré par

f :

[0,2π] → R2


a pour support le cercle unité de R2. Il est fermé et régulier. Tous les points de son supportexcepté (1,0) sont simples.

Il est important de comprendre que cet arc est différent de celui paramétré par

g :

[0,4π] → R2


même si ces deux arcs ont le même support (dans le deuxième cas, le cercle est parcouru deuxfois).

Remarque – Un arc (I,f) de classe C1 avec f de la forme t 7→ (t, x(t)) ou t 7→ (t, x(t), y(t)) esttoujours régulier :

∀ t ∈ I, f ′(t) = (1, x′(t)) 6= (0,0) (ou f ′(t) = (1, x′(t), y′(t)) 6= (0,0,0)).

Soit M(a) un point régulier de Γ et ‖ · ‖ la norme euclidienne usuelle sur Rn. Alors

−−−−−−−→M(a)M(t)

M(a)M(t)−→t→at>a

f ′(a)‖f ′(a)‖ et

−−−−−−−→M(a)M(t)

M(a)M(t)−→t→at<a

− f ′(a)‖f ′(a)‖ .

La droite passant par M(a) et dirigée par le vecteur f ′(a) (ou par tout vecteur non nulcolinéaire à f ′(a)) est appelée tangente à Γ en M(a).

Propriété/Définition : Tangente en un point régulier

Démonstration – Pour t voisin de a, on peut écrire

f(t) = f(a) + f ′(a) (t − a) + o(t− a)

avec f ′(a) 6= (0, . . . ,0), et donc

−−−−−−−→M(a)M(t) = f(t)− f(a) = f ′(a) (t − a) + o(t− a) = (t− a)

(f ′(a) + o(1)

).

En particulier, pour t > a assez proche de a, M(t) 6= M(a), et en utilisant l’homogénéité de lanorme, on a

−−−−−−−→M(a)M(t)

M(a)M(t)=t− at− a

f ′(a) + o(1)

‖f ′(a) + o(1)‖ =f ′(a) + o(1)

‖f ′(a) + o(1)‖ −→t→at>a

f ′(a)‖f ′(a)‖ .

318

De même, pour t < a, on a

−−−−−−−→M(a)M(t)

M(a)M(t)=t− aa− t

f ′(a) + o(1)

‖f ′(a) + o(1)‖ = − f ′(a) + o(1)

‖f ′(a) + o(1)‖ −→t→at<a

− f ′(a)‖f ′(a)‖ .

Remarques

• Du point de vue cinématique, f ′(t) est le vecteur vitesse (instantanée) du point mobile M autemps t. La propriété précédente montre donc qu’à un instant t où la vitesse du point mobile estnon nulle, la trajectoire admet une tangente en M(t) dirigée par le vecteur vitesse en ce point.De même, si Γ est de classe C2, f ′′(t) est le vecteur accélération de M au temps t.

• La démonstration précédente montre que la tangente à Γ en un point régulier M(a) est la« limite » de la droite (M(a)M(t)) lorsque t→ a avec t 6= a.

2. Étude locale des arcs plans

La situation est donc assez simple concernant les points réguliers. On cherche maintenant àdécrire plus précisément l’allure de la courbe au voisinage d’un point. Pour cela il est naturel depousser le développement limité aux ordres suivants.

On suppose que n = 2 (on considère un arc plan). Notons f = (x,y), c’est-à-dire que x ety sont les fonctions-coordonnées de f . Alors x et y sont de classe Ck sur I de même que f . Laformule de Taylor-Young permet d’écrire un développement limité de x et y en a ∈ I à l’ordrek, et donc d’obtenir un développement limité de f de la forme

f(t) =t→a

k∑

j=0

f (j)(a)

j!(t− a)j + (t− a)k ε(t),

où ε : I → R2 a pour limite (0,0) en a.

Supposons maintenant qu’il existe deux entiers p et q avec 1 6 p < q 6 k tels que :

• Pour tout j ∈ [[1,p − 1]], f (j)(a) = (0,0),• Pour tout j ∈ [[p+ 1,q − 1]], (f (p)(a),f (j)(a)) est liée.• (f (p)(a),f (q)(a)) est libre.

Les entiers p et q sont alors uniques, on dit que p et q sont les entiers caractéristiques de Γen a.

On a alors nécéssairement f (p)(a) 6= (0,0). D’après la seconde condition, il existe donc (lorsquep+ 1 6 q − 1) des scalaires λp+1, . . . ,λq−1 tels que pour tout j ∈ [[p+ 1,q − 1]],

f (j)(a) = λj f(p)(a).

En tronquant le développement limité précédent à l’ordre q, on obtient un développement limitéde la forme

f(t) =t→a

f(a) + f (p)(a)(t− a)pp!

(

1 +

q−1∑

j=p+1

λj(t− a)j−p

j!︸︷︷︸

= o(1)

)

+ f (q)(a)(t− a)qq!

+ (t− a)q η(t);

notamment, pour t 6= a proche de a, on a M(t) 6= M(a) car f (p)(a) 6= (0,0). De plus

−−−−−−−→M(a)M(t)

(t− a)p −→t→at6=a

f (p)(a)

p!,

M(a)M(t)

|t− a|p −→t→at6=a

‖f (p)‖(a)p!

et donc −−−−−−−→M(a)M(t)

M(a)M(t)−→t→at>a

f (p)(a)

‖f (p)(a)‖ ,−−−−−−−→M(a)M(t)

M(a)M(t)−→t→at<a

(−1)pf (p)(a)

‖f (p)(a)‖ .

319

La droite passant par M(a) et dirigée par le vecteur f (p)(a) est ici aussi appelée tangente à Γen M(a). Le cas d’un point régulier correspond au cas où p = 1.

De plus, pour tout t ∈ I, le vecteur η(t) peut être décomposé sur la base (f (p)(a), f (q)(a)) deR2. Finalement, dans le repère (M(a),f (p)(a),f (q)(a)), et pour t ∈ I proche de a, le point M(t)a pour coordonnées

(t− a)pp!

+ o((t− a)p)(t− a)qq!

+ o((t− a)q)

=

(t− a)p(

1

p!+ o(1)

)

(t− a)q(

1

q!+ o(1)

)

Pour t 6= a assez proche de a, la première coordonnée est du signe de (t − a)p, la seconde, dusigne de (t− a)q.

Finalement, en déterminant p et q, on peut décrire l’allure de la courbe au voisinage de M(a),selon la parité de p et q :

• Si p est impair, q pair :

On dit que M(a) est un point ordinaire.

f (p)(a)

f (q)(a)

• Si p est impair, q impair :

On dit que M(a) est un point d’inflexion.

f (p)(a)

f (q)(a)

• Si p est pair, q impair :

On dit que M(a) est un point de rebrous-sement de première espèce.

f (p)(a)

f (q)(a)

• Si p est pair, q pair :

On dit que M(a) est un point de rebrous-sement de deuxième espèce.

f (p)(a)

f (q)(a)

Exemple – Soit Γ l’arc paramétré par

f :

R → R2

t 7→(t2 + cos(t), t− sin(t)

)

La fonction f est de classe C∞ sur R. Pour tout t ∈ R,

f ′(t) = (2t− sin(t), 1− cos(t)) .

On en déduit facilement que tous les points sont réguliers, sauf le point (1,0) de paramètre 0.

320

Effectuons un développement limité des fonctions-coordonnées de f en 0 :

f(t) =

(t2 + cos(t)

t− sin(t)

)

=

1 +1

2t2 + o(t3)

1

6t3 + o(t3)

=

(1

0

)

+

1

2

0

t2 +

0

1

6

t3 + o(t3).

M(0)

Les vecteurs

(1

2, 0

)

et

(

0,1

6

)

sont indépendants, donc p = 2 et q = 3. Il s’agit d’un point de

rebroussement de première espèce.

Remarque – Avec les notations précédentes, supposons que x(p)(a) 6= 0. Le vecteur−−−−−−−→M(a)M(t) a

pour coordonnées(x(t)− x(a), y(t) − y(a))

avec

x(t)− x(a) ∼t→a

x(p)(a)

p!(t− a)p

y(t)− y(a) =t→a

y(p)(a)

p!(t− a)p + o((t− a)p).

On a notamment x(t) 6= x(a) pour t 6= a assez proche de a, et la droite (M(a)M(t)) a pour pente

y(t)− y(a)x(t)− x(a) −→t→a

y(p)(a)

x(p)(a),

qui est la pente de la tangente à Γ en M(a). De même, d’après la formule de Taylor-Young,

x′(t) ∼t→a

x(p)(a)

(p− 1)!(t− a)p−1

y′(t) =t→a

y(p)(a)

(p− 1)!(t− a)p−1 + o((t− a)p−1).

On a notamment x′(t) 6= 0 pour t 6= a assez proche de a, et la tangente à Γ en M(t) a pour pente

y′(t)x′(t)

−→t→a

y(p)(a)

x(p)(a).

On retiendra que lorsque les entiers caractéristiques existent avec x(p)(a) 6= 0, la considérationde l’un des quotients

y(t)− y(a)x(t)− x(a) ou

y′(t)x′(t)

permet de déterminer la pente de la tangente à Γ en M(a). Si x(p)(a) = 0 alors y(p)(a) 6= 0 et onpeut raisonner de même avec les quotients inverses pour obtenir l’inverse de la pente.

3. Branches infinies

On suppose que n = 2 ; on note f = (x,y). On s’intéresse aux droites qui donnent la « direc-tion » de la courbe C lorsque le paramètre t tend vers a, point adhérent à I ou ±∞.

On dit que Γ possède une branche infinie en a si ‖f(t)‖ −→t→a

+∞.On peut distinguer t→ a− et t→ a+.

Définition – Branche infinie

321

• Premier cas : x ou y a une limite finie en a.

– Si x(t) −→t→a

m ∈ R et y(t) −→t→a

±∞, on dit que Γ possède une asymptote verticale

d’équation x = m en a.

– Si x(t) −→t→a±∞ et y(t) −→

t→am ∈ R, on dit que Γ possède une asymptote horizontale

d’équation y = m en a.

• Deuxième cas : x et y ont une limite infinie en a.

– Siy(t)

x(t)−→t→a

0, on dit que Γ possède une branche parabolique de direction (Ox) en a.

– Siy(t)

x(t)−→t→a±∞, on dit que Γ possède une branche parabolique de direction (Oy) en a.

– Siy(t)

x(t)−→t→a

m ∈ R∗ :

(i) si y(t)−mx(t) −→t→a

p ∈ R, on dit que Γ possède une asymptote d’équation y = mx+pen a.

(ii) si y(t)−mx(t) −→t→a±∞, on dit que Γ possède une direction asymptotique d’équa-

tion y = mx en a.

Remarque – La liste de cas ci-dessus n’est pas exhaustive : il se peut par exemple que y n’ait pasde limite en a, comme dans le cas du graphe de la fonction sinus lorsque t→ +∞, qui ne rentredans aucun de ces cas.

4. Construction d’arcs plans

On se donne un arc plan Γ = (I,f) avec f = (x,y).

1. On commence par déterminer l’ensemble de définition de la fonction f et les simplificationséventuelles de l’ensemble d’étude dues par exemple aux symétries de la courbe. Par exemple :

• Si x et y sont T -périodiques, il suffit de restreindre l’étude à un intervalle de longueur T .

Si I est symétrique par rapport à 0, il suffit de restreindre l’étude à I ∩R+, puis de compléter lacourbe par symétrie, dans les cas suivants :

• si x et y sont paires : la courbe C est entièrement obtenue à partir de I ∩ R+.

• si x et y sont impaires : la courbe C est symétrique par rapport à l’origine.

• si x est paire et y impaire : la courbe C est symétrique par rapport à l’axe (Ox).

• si x est impaire et y paire : la courbe C est symétrique par rapport à l’axe (Oy).

• si pour tout t ∈ I, x(−t) = y(t) et y(−t) = x(t) : la courbe C est symétrique par rapport à lapremière bissectrice d’équation y = x.

2. On donne la classe de f , on étudie les variations et les limites aux bornes de x et y.

On en déduit les tangentes horizontales ou verticales.

3. On identifie les points réguliers, les points stationnaires, et on étudie leur nature.

4. On étudie les branches infinies. Pour connaître la position de la courbe par rapport à uneasymptote d’équation y = mx + p, il peut être utile d’étudier le signe de la différencey(t)−mx(t)− p.5. On peut également rechercher les éventuels points doubles, c’est-à-dire tels qu’il existe t1 6= t2avec x(t1) = x(t2) et y(t1) = y(t2).

6. On effectue le tracé.

322

Exemple – Étudions l’arc Γ paramétré par

x(t) =t

ln(t)

y(t) =t2

2(t− 1)

pour t ∈ D = R∗+ \ 1 (on peut le considérer comme réunion de deux arcs).

Il n’y a pas de symétrie évidente. Les fonctions x et y sont de classe C∞ sur D (y est en faitde classe C∞ sur R \ 1). De plus, pour tout t ∈ D,

x′(t) =ln(t)− 1

ln2(t)

y′(t) =2t(t− 1)− t2

2(t− 1)2=

t(t− 2)

2(t− 1)2.

On en déduit le tableau de variations suivant :

t 0 1 2 e +∞x′(t) − − − 0 +

0 +∞ +∞x(t) ց ց 2

ln(2)ց ր

−∞ e

0 +∞ +∞y(t) ց ց ր e2

2(e − 1)ր

−∞ 2y′(t) 0 − − 0 + +

En particulier, Γ est régulier, possède une tangente horizontale au point

(2

ln(2), 2

)

de paramètre

2, et une tangente verticale au point

(

e,e2

2(e − 1)

)

de paramètre e.

L’arc admet trois branches infinies, en 1−, 1+ et +∞, qui ne sont pas des asymptotes hori-zontales ou verticales, car x et y ont des limites infinies. Pour tout t ∈ D,

y(t)

x(t)=

t ln(t)

2(t− 1).

Lorsque t→ +∞,y(t)

x(t)∼ 1

2ln(t)→ +∞,

donc Γ admet une branche parabolique de direction (Oy) en +∞.

Pour t 6= 1 proche de 1, posons t = 1 + h, avec h non nul voisin de 0. Alors

y(t)

x(t)=

1 + h

2

ln(1 + h)

h−→h→0

1

2

car ln est dérivable en 1 avec ln′(1) = 1. Alors

y(t)− 1

2x(t) =

(1 + h)2

2h− 1 + h

2 ln(1 + h)=

1

2h+ 1 +

h

2− 1 + h

2

1

h− h2

2+h3

3+ o(h3)

.

323

Or1

h− h2

2+h3

3+ o(h3)

=1

h

1

1− h

2+h2

3+ o(h2)

=1

h

(

1 +h

2− h2

3+h2

4+ o(h2)

)

=1

h

(

1 +h

2− h2

12+ o(h2)

)

,

d’où

y(t)− 1

2x(t) =

1

2h+ 1 +

h

2− 1 + h

2h

(

1 +h

2− h2

12+ o(h2)

)

=1

2h+ 1 +

h

2− 1

2h

(

1 +h

2− h2

12+ h+

h2

2+ o(h2)

)

=1

4+

7

24h+ o(h).

On en déduit notamment que Γ possède une asymptote d’équation y =1

2x+

1

4en 1±.

Pour connaître la position de la courbe par rapport à cette asymptote, on étudie le signe de

y(t)− 1

2x(t)− 1

4

qui est donné, pour t voisin de 1, par le développement limité précédent. On en déduit que lacourbe est au-dessous de son asymptote pour t < 1 proche de 1, et au-dessus pour t > 1 prochede 1. On remarque l’intérêt d’avoir effectué le développement limité à un ordre suffisant dès ledépart.

Lorsque t → 0, x(t) → 0. On peut prolonger x par continuité en 0 en posant x(0) = 0. Enremarquant que x′(t)→ 0 lorsque t→ 0+, le théorème de la limite de la dérivée montre que x estde classe C1 en 0 avec x′(0) = 0 ; de plus y(0) = y′(0) = 0. L’origine n’est pas un point régulierdu prolongement de Γ ; mais, en remarquant que

y(t)− y(0)x(t)− x(0) =

y(t)

x(t)=

t ln(t)

2(t− 1)−→t→0+

0,

on voit que le prolongement de Γ a une tangente horizontale au point (0, 0) de paramètre 0.

+

+1

1

y

x

324

5. Longueur d’un arc

Dans ce paragraphe, ‖ · ‖ désigne la norme euclidienne usuelle sur Rn.

Soit Γ = (I,f) un arc paramétré de classe C1.

• Si I est un segment [a,b], on appelle longueur de Γ le réel∫ b

a‖f ′(t)‖ dt.

• Si I est un intervalle quelconque, on appelle longueur de Γ le réel∫

I‖f ′(t)‖ dt

lorsque l’intégrale∫

I‖f ′(t)‖ dt est convergente.

Définition

Remarque – On peut considérer les intégrales écrites dans la définition précédente car la fonction‖f ′‖ est continue sur I.

Exemple – On considère la cycloïde paramétrée par

x(t) = t− sin(t)

y(t) = 1− cos(t)

pour t ∈ R. Il s’agit d’un arc de classe C∞, et on remarque que pour tout t ∈ R,

x(t+ 2π) = t+ 2π − sin(t) = x(t) + 2π

y(t+ 2π) = 1− cos(t) = y(t)

Il suffit donc d’étudier la portion (appelée arche) de l’arc correspondant à t ∈ [0,2π], puis decompléter le tracé par translations horizontales. La longueur de cette arche est donnée par

L =

∫ 2π

0

√

(x′)2(t) + (y′)2(t) dt =

∫ 2π

0

√

(1− cos(t))2 + (sin(t))2 dt

=

∫ 2π

0

√

2(1 − cos(t)) dt

= 2

∫ 2π

0

√

sin2(t/2) dt

= 2

∫ 2π

0sin(t/2) dt = 8

(on a utilisé que pour tout t ∈ [0,2π], sin(t/2) > 0).

Le support de la cycloïde est la courbe décrite par un point fixe sur un cercle qui roule sansglisser sur une droite, par exemple un point d’une roue de vélo. La longueur d’une arche decycloïde est égale à quatre fois le diamètre du cercle correspondant (ci-dessus ce diamètre vaut2 car le périmètre du cercle correspondant est 2π). En revanche, évidemment, l’arc « complet »n’est pas de longueur finie.

325

326

Chapitre 17

Équations différentielles

Dans ce chapitre, I désigne un intervalle de R, non vide et non réduit à un point, K désigneR ou C, et n ∈ N∗.

Les notions de fonction dérivable, de dérivation composante par composante, de classe Ck,définies pour les fonctions de I dans Rn dans le chapitre Fonctions vectorielles – Arcs pa-ramétrés, s’adaptent de façon évidente aux fonctions de I dans Mn,1(K).

I. Résultats théoriques sur les systèmes différentiels

Un système différentiel de n équations à n inconnues

x′1(t) = a1,1(t)x1(t) + · · · + a1,n(t)xn(t) + b1(t)

...

x′n(t) = an,1(t)x1(t) + · · ·+ an,n(t)xn(t) + bn(t)

peut se mettre sous la forme d’une seule équation, X ′(t) = A(t)X(t)+B(t), dans Mn,1(K), avec

X(t) =

x1(t)...

xn(t)

, A(t) =

a1,1(t) . . . a1,n(t)...

...an,1(t) . . . an,n(t)

et B(t) =

b1(t)...

bn(t)

.

Une telle équation est appelée équation différentielle linéaire. La fonction inconnue X et lesecond membre B sont définis sur I et à valeurs dans Mn,1(K), la fonction A est définie surI à valeurs dans Mn(K). Pour n = 1, on retrouve les équations linéaires scalaires d’ordre 1,x′(t) = a(t)x(t) + b(t). Pour n > 2, on identifie souvent le système différentiel et l’équationdifférentielle qui lui est associée.

Notation – Une équation différentielle du type précédent est souvent notée X ′ = A(t)X+B(t).On ne note la variable t que pour les coefficients de l’équation, pas pour la fonction inconnue.Ce n’est qu’une notation, qui désigne l’équation que l’on cherche à résoudre.

Soient A : I →Mn(K) et B : I →Mn,1(K) deux fonctions continues.

Une solution sur I de l’équation différentielle linéaire

X ′ = A(t)X +B(t) (L )

est une fonction X : I →Mn,1(K) dérivable sur I telle que

∀ t ∈ I, X ′(t) = A(t)X(t) +B(t).

Définition

327

Remarques

• Si K = R et X = t(x1 · · · xn

)est une solution sur I de (L ), l’arc paramétré (I,(x1, . . . ,xn))

(qui est tracé dans Rn) est une courbe intégrale de (L ). Son image est une trajectoire dusystème différentiel.

• Une solution sur I de (L ) est nécessairement de classe C1 ; en effet, pour tout t ∈ I, on aX ′(t) = A(t)X(t) +B(t). Or, l’application B est continue, ainsi que l’application t 7→ A(t)X(t),en raisonnant composante par composante et par opérations sur des fonctions continues. Parsomme, X ′ est continue, donc X est de classe C1, sur I.

Exemple – Ci-dessous, dans trois cas différents, on considère un système différentiel d’ordre 1 dela forme

x′ = ax+ by

y′ = cx+ dy

avec (a, b, c, d) ∈ R4. On a représenté (en partie) le champ de vecteurs associé, c’est-à-direqu’en certains points (x0, y0) du plan, on représente le vecteur (ax0 + by0, cx0 + dy0) ∈ R2

qui correspond au vecteur vitesse instantanée d’un point suivant une trajectoire du système etpassant par (x0, y0). On a également représenté quelques trajectoires.

−1.0 −0.5 0.0 0.5 1.0x

−1.0

−0.5

0.0

0.5

1.0

y

x′ = −2y

y′ = x

−1.0 −0.5 0.0 0.5 1.0x

−1.0

−0.5

0.0

0.5

1.0

y

x′ = x

y′ = 2y

−1.0 −0.5 0.0 0.5 1.0x

−1.0

−0.5

0.0

0.5

1.0

y

x′ = −xy′ = 2y

328

Soient A : I →Mn(K) et B : I →Mn,1(K) deux fonctions continues.

Alors l’équation différentielle linéaire

(L ) : X ′ = A(t)X +B(t)

possède des solutions sur I.

Pour tout t0 ∈ I et X0 ∈Mn,1(K), le problème de Cauchy

X ′(t) = A(t)X(t) +B(t) ∀ t ∈ IX(t0) = X0

possède une unique solution.

Théorème de Cauchy linéaire (admis : démonstration hors programme)

Conséquence importante – Si B = 0 (on parle d’équation sans second membre), il est immé-diat que la fonction nulle est solution sur I de l’équation différentielle X ′ = A(t)X. L’unicité duthéorème précédent montre alors qu’aucune autre solution de cette équation ne peut s’annulersur I.

Exemple – Soit a ∈ K. L’unique solution sur I de l’équation différentielle x′ = ax qui prend lavaleur x0 ∈ K en t0 ∈ I est la fonction

x : t 7→ x0 ea (t−t0).

Bien sûr, en général, la résolution n’est pas aussi simple et se pose le problème de la recherchedes solutions, ou de la solution du problème de Cauchy (que la démonstration du théorème nedonne pas explicitement).

Supposons que l’on dispose d’une solution particulière Xp de (L ). Soit X : I → Mn,1(K)une fonction ; X est dérivable sur I si et seulement si X −Xp est dérivable sur I et dans ce cas,X est solution sur I de (L ) si et seulement si

∀ t ∈ I, X ′(t) = A(t)X(t) +B(t)

ce qui équivaut à ∀ t ∈ I, X ′(t) = A(t)X(t) + [X ′p(t)−A(t)Xp(t)]

ce qui équivaut à ∀ t ∈ I, [X −Xp]′(t) = A(t)[X −Xp](t).

Ainsi, X est solution sur I de (L ) si et seulement si X − Xp est solution sur I de l’équationdifférentielle

Y ′ = A(t)Y. (H)

L’équation (H) est dite équation homogène associée à (L ).

Définition

On obtient toutes les solutions de (L ) sous la forme

« Solution particulière de (L ) + solution générale de l’équation homogène (H) »

Propriété – Forme des solutions de (L )

Il est donc judicieux de s’intéresser à la fois à la recherche de solutions particulières de (L ),et à l’ensemble des solutions de (H).

En ce qui concerne les solutions particulières, commençons par rappeler le principe de su-perposition, très utile pour simplifier leur recherche lorsque le second membre est somme deplusieurs termes :

329

Soient B1, . . . ,Bk des fonctions continues sur I à valeurs dans Mn,1(K), et soitB = B1 + · · · + Bk. Soit, pour tout i ∈ [[1,k]], Xi une solution sur I de l’équationdifférentielle linéaire

X ′i = A(t)Xi +Bi.

Alors X = X1+· · ·+Xk est solution de l’équation différentielle linéaire X ′ = A(t)X+Bsur I.

Propriété

Démonstration – La fonction X est dérivable sur I comme somme de fonctions dérivables, et B estcontinue sur I comme somme de fonctions continues. Pour tout t ∈ I, en sommant les relationsX ′

i(t) = A(t)Xi(t) +Bi(t), on obtient

X ′(t) = A(t)X1(t) + · · ·+A(t)Xk(t) +B1(t) + · · ·+Bk(t)

= A(t)X(t) +B(t)

par définition de B. D’où le résultat.

Donnons maintenant la structure de l’ensemble des solutions de l’équation homogène (H) :

• L’ensemble S des solutions sur I de l’équation homogène (H) est un K-espace vecto-riel.

• Pour tout t0 ∈ I fixé, l’application

φt0 :

S → Mn,1(K)X 7→ X(t0)

est un isomorphisme.

En particulier, S est de dimension finie égale à n.

Théorème

Démonstration

• Nous avons remarqué plus haut que S est un sous-ensemble de l’ensemble des fonctions declasse C1 sur I à valeurs dans Mn,1(K), qui est clairement un K-espace vectoriel. De plus, S estnon vide car la fonction nulle est solution de (H). La stabilité de S par combinaison linéaire estun calcul immédiat.

• Soit t0 ∈ I ; il est évident que φt0 est linéaire. De plus, le théorème d’existence et unicité d’unesolution au problème de Cauchy associé à (H) et t0 montre que φt0 est bijective. Donc φt0 est unisomorphisme. Les isomorphismes préservent la dimension, donc S est de dimension finie avecdim(S) = dim(Mn,1(K)) = n.

Exemple – Considérons le système différentiel sans second membre

x′ = −yy′ = x

d’équation différentielle linéaire associée

X ′ =

(0 −11 0

)

X.

On vérifie facilement que

X1 =

(cossin

)

et X2 =

(− sincos

)

330

sont deux solutions sur R de cette équation. Elles sont linéairement indépendantes car les fonc-tions cos et sin ne sont pas proportionnelles. Ainsi, (X1,X2) est une base de l’espace vectorieldes solutions ; on obtient donc toutes les solutions de l’équation sous la forme

t 7→ λX1(t) + µX2(t) =

(λ cos(t)− µ sin(t)λ sin(t) + µ cos(t)

)

où (λ,µ) ∈ K2.

II. Systèmes à coefficients constants sans second membre

Lorsque A : R → Mn(K) est une fonction constante, on peut l’identifier à une matriceA ∈Mn(K), et on obtient ce que l’on appelle un système différentiel (ou équation différentielle)linéaire à coefficients constants X ′ = AX.

Le théorème de Cauchy, dans ce cas, assure l’existence et l’unicité d’une solution au problèmede Cauchy sur R tout entier.

Commençons par une remarque générale :

Soit A ∈Mn(K) et λ ∈ Sp(A) une valeur propre de A.

Alors, pour tout X0 ∈ Eλ(A), la fonction

X : t 7→ eλtX0

est solution sur R du système différentiel X ′ = AX.

Propriété

Démonstration – La fonction X est dérivable sur R (ses composantes sont des fonctions exponen-tielles). Pour tout t ∈ I,

X ′(t) = λ eλtX0 = eλt(λX0) = eλtAX0 = A(eλtX0) = AX(t).

L’étude du système différentiel X ′ = AX est donc liée à la réduction de la matrice A.

Premier cas : A est diagonalisable

Il existe alors une matrice inversible P ∈ Gℓn(K) et une matrice diagonale D dont les coef-ficients diagonaux sont les valeurs propres de A, notées λ1, . . . ,λn, telles que A = PDP−1. SoitX : R → Mn,1(K) une fonction et Y = P−1X; X est dérivable sur R si et seulement si Y estdérivable sur R et dans ce cas, on a les équivalences suivantes :

X ′ = AX ⇔ X ′ = PDP−1X ⇔ P−1X ′ = DP−1X

⇔ (P−1X)′ = D(P−1X) ⇔ Y ′ = DY.

Dans ce raisonnement, il est essentiel que P ne dépende pas de t. En notant y1, . . . ,yn lesfonctions-coordonnées de Y , la dernière égalité équivaut à

∀ i ∈ [[1,n]], y′i = λi yi,

ce qui équivaut à : ∀ i ∈ [[1,n]], ∃ ki ∈ K; ∀ t ∈ R, yi(t) = ki eλit.

On retrouve alors très simplement X par la relation X = PY . On remarquera que l’on a pasbesoin d’expliciter P−1, qui n’intervient que théoriquement.

331

On a donc démontré le résultat suivant :

Avec les notations précédentes, si A est diagonalisable, la solution générale du systèmedifférentiel à coefficients constants X ′ = AX sur R s’écrit

t 7→ P

k1 eλ1t

...kn e

λnt

où (k1, . . . ,kn) ∈ Kn.

Théorème – Résolution de X ′ = AX avec A diagonalisable

Remarque – Le signe de la partie réelle des λi permet d’étudier le comportement asymptotiquedes solutions du système différentiel : pour qu’une solution X ait une limite en +∞ par exemple,il faut et il suffit que pour tout i ∈ [[1,n]], t 7→ ki e

λit ait une limite dans K en +∞. En particulier,si Re(λi) < 0 pour tout i, alors

|eλit| = eRe(λi) t −→t→+∞

0

et X(t) −→t→+∞

0 dans Mn,1(K).

Deuxième cas : A est réelle, diagonalisable dans Mn(C)

En appliquant la méthode précédente, on obtient les solutions complexes de l’équation. Pouren retrouver les solutions réelles, on cherche, parmi les solutions complexes, les solutions qui sontégales à leur conjuguée, ce qui donne des conditions sur les constantes ki.

Troisième cas : A est trigonalisable

Il existe alors une matrice inversible P ∈ Gℓn(K) et une matrice triangulaire supérieureT = (ti,j) dont les coefficients diagonaux sont les valeurs propres de A, notées λ1, . . . ,λn, tellesque A = PTP−1. Avec le même changement de fonction inconnue Y = P−1X, on se ramène ausystème Y ′ = TY , que l’on peut résoudre en commençant par la dernière équation y′n = λnyn,dont la solution générale sur R s’écrit t 7→ kn e

λnt, où kn ∈ K. L’avant-dernière équation est alors

y′n−1 = λn−1 yn−1 + tn−1,n yn(t), i.e. y′n−1 = λn−1 yn−1 + tn−1,n kn eλnt.

On est amené à résoudre une équation du type

y′ − λy = k eαt,

et l’on poursuit la résolution « de bas en haut ».

Exemple – On considère le système différentiel

x′ = x+ 2z

y′ = x+ y − 5z

z′ = y + 5z

Il est associé à la matrice

A =

1 0 21 1 −50 1 5

de polynôme caractéristique (X − 2)2(X − 3). On détermine facilement

E2(A) = Vect

2−31

et E3(A) = Vect

1−21

.

332

En particulier, dim(E2(A)) 6= m(2), donc A n’est pas diagonalisable (ni dans M3(R) ni dansM3(C)). Elle est en revanche trigonalisable dans M3(R) car son polynôme caractéristique estscindé dans R. Cherchons une matrice semblable à A de la forme

T =

2 α 00 2 00 0 3

.

Pour construire une base de M3,1(R) dans laquelle la matrice de uA soit T , on choisit e1 =

2−31

et e3 =

1−21

. Pour le choix de e2, il suffit que (e1,e2,e3) soit libre et que :

∃α ∈ R; (A− 2I3)e2 = αe1 i.e. (A− 2I3)e2 ∈ Vect(e1) = E2(A) i.e. (A− 2I3)2e2 = 0.

On montre facilement que e2 =

−210

convient, avec (A− 2I3)e2 = e1. En posant

P =

2 −2 1−3 1 −21 0 1

,

on a donc

A = P

2 1 00 2 00 0 3

P−1.

En posant Y = P−1X =

y1

y2

y3

, le système original équivaut donc à

y′1 = 2y1 + y2

y′2 = 2y2

y′3 = 3y3

Les deux dernières équations équivalent à l’existence de (k2, k3) ∈ K2 tels que pour tout t ∈ R,y2(t) = k2 e

2t et y3(t) = k3 e3t. La première équation s’écrit alors y′1 = 2y1 + k2 e

2t ; en posant

y : t 7→ y1(t) e−2t,

cette équation équivaut à : y′ = k2, donc à l’existence de k1 ∈ K tel que pour tout t ∈ R,

y1(t) = (k2t+ k1) e2t.

Les solutions du système différentiel X ′ = AX sont donc données par

∀ t ∈ R,

x1(t)x2(t)x3(t)

= P

(k2t+ k1) e2t

k2 e2t

k3 e3t

où k1, k2 et k3 sont des scalaires quelconques.

333

III. Équations scalaires d’ordre 1

On s’intéresse au cas d’une équation de la forme

x′ + a(t)x = b(t)

où a et b sont deux fonctions continues sur I à valeurs dans K. C’est bien sûr un cas particulierde la théorie précédente avec n = 1, mais on peut être plus explicite dans ce cas.

Équation homogène

Fixons t0 ∈ I et considérons la fonction x0 : t 7→ exp

(

−∫ t

t0

a(s) ds

)

.

La fonction a est continue sur I donc x0 est bien définie et dérivable sur I avec, pour tout t ∈ I,

x′0(t) = −a(t) exp

(

−∫ t

t0

a(s) ds

)

= −a(t)x0(t),

donc x0 est une solution sur I de l’équation x′ + a(t)x = 0. De plus, x0 ne s’annule pas sur I.Pour qu’une fonction x dérivable sur I soit solution de cette équation, il faut et il suffit que

x′ + ax = 0, i.e.x′x0 + axx0

x20

= 0, i.e.

(x

x0

)′= 0.

Ceci équivaut à l’existence d’une constante γ ∈ K telle que x = γ x0. L’ensemble des solutionsde l’équation homogène est donc la droite vectorielle engendrée par x0.

Équation complète : la méthode de variation de la constante

On obtient toutes les solutions de (H) sous la forme γ x0 où γ ∈ K. Pour résoudre l’équationcomplète (L ), l’idée est de faire « varier la constante » γ, c’est-à-dire de voir γ comme unefonction de I dans K, et de chercher à quelle condition la fonction γ x0 est solution de (L ).

Tout d’abord, toute fonction x : I → K peut s’écrire sous la forme γ x0, car x0 ne s’annulepas sur I. De plus, sur I, x0 étant dérivable, x est dérivable si et seulement si γ est dérivable.

Dans ce cas, on a x′ = γ′x0 + γx′0, et donc, pour que x soit solution de (L ) sur I, il faut etil suffit que

[γ′ x0 + γ x′0] + a [γ x0] = b, i.e. γ′x0 + γ [x′0 + ax0] = b.

Or x0 est solution de (H), donc x′0 + ax0 = 0. Ainsi, x est solution de (L ) si et seulement sipour tout t ∈ I,

γ′(t)x0(t) = b(t).

La méthode de variation de la constante se résume donc ainsi : les solutions de l’équation complètex′ + a(t)x = b(t) sur I sont exactement les fonctions γ x0, où γ : I → K est dérivable et vérifieγ′x0 = b. Il sufit donc de déterminer une primitive γ de la fonction b/x0 sur I.

Finalement, on obtient toutes les solutions de l’équation complète sous la forme

x : t 7→(∫ t

t0

b(s)

x0(s)ds+ k

)

exp

(

−∫ t

t0

a(s) ds

)

,

où k ∈ K. Une condition initiale (problème de Cauchy) détermine entièrement k.

Remarque – La solution générale de (L ) se met donc sous la forme

γ x0 + k x0

où γ est une primitive de b/x0 sur I, et k ∈ K. Le premier terme correspond à une solutionparticulière de l’équation complète (L ), le second, à la solution générale de l’équation homogène.

On retrouve donc la structure de l’ensemble des solutions de (L ) ; la méthode de variationde la constante permet de trouver des solutions particulières non évidentes.

334

Exemple – Résolvons, sur I = R∗+, l’équation différentielle

x′ =2

tx+

1

t.

Pour résoudre l’équation homogène, on détermine une primitive sur I de la fonction continuet 7→ 2/t, par exemple t 7→ 2 ln(t). La solution générale de l’équation homogène s’écrit donc

x0 : t 7→ γ exp (2 ln(t)) = γ t2

où γ ∈ K.

Pour résoudre l’équation complète, on peut remarquer que la fonction constante égale à −1/2en est solution.

C’est une vérification qu’il faut penser à faire en général : si l’équation ordinaire

∀ t ∈ I, a(t)x+ b(t) = 0

possède une solution (indépendante de t), alors la fonction constante y : t 7→ x vérifie l’équationcomplète (L ) car dans ce cas on a y′(t) = 0 = a(t)y(t) + b(t) pour tout t ∈ I.

Dans notre cas, la solution générale de l’équation complète s’écrit

x : t 7→ −1

2+ kt2

où k ∈ K.

Si l’on ne remarque pas qu’il existe une solution constante, on peut bien sûr appliquer laméthode variation de la constante : on obtient toutes les solutions de l’équation complète sousla forme t 7→ γ(t) t2 où γ : R∗

+ → K est une fonction dérivable telle que

∀ t > 0, γ′(t) t2 =1

t, ce qui équivaut à : ∀ t > 0, γ′(t) =

1

t3,

et donc à l’existence d’une constante k ∈ K telle que pour tout t > 0, γ(t) = − 1

2t2+ k, et l’on

obtient la solution générale de l’équation complète sous la forme

x : t 7→(

− 1

2t2+ k

)

t2 = −1

2+ k t2,

ce qui donne bien sûr le même résultat.

Remarque – Comme nous l’avons remarqué à l’occasion de la résolution des systèmes différentielsà coefficients constants X ′ = AX, on est souvent amené à résoudre des équations scalaires dupremier ordre de la forme

y′ − λy = P (t)eαt

où (λ,α) ∈ K2 et P est une fonction polynomiale. La solution générale de l’équation homogènes’écrit sous la forme t 7→ γ eλt. La méthode de variation de la constante conduit à chercher lesfonctions dérivables γ : I → K telles que

∀ t ∈ I, γ′(t)eλt = P (t)eαt,

ce qui équivaut à∀ t ∈ I, γ′(t) = P (t)e(α−λ)t.

Si α = λ, on peut choisir pour γ la primitive de P qui s’annule en 0 ; elle se met sous la formet 7→ tQ(t) avec Q de même degré que P . Si α 6= λ, on peut trouver γ sous la forme

t 7→ Q(t)e(α−λ)t

où Q est une fonction polynomiale de même degré que P .

Finalement, la solution générale de l’équation complète s’écrit

t 7→ keλt + tm(α)Q(t) eαt où k ∈ K,

avec Q une fonction polynomiale de même degré que P , et m(α) = 0 si α 6= λ, m(α) = 1 siα = λ.

335

IV. Équations scalaires d’ordre 2

On s’intéresse ici au cas d’une équation différentielle linéaire scalaire d’ordre 2, de la forme

x′′ + a(t)x′ + b(t)x = c(t), (L2)

où a, b et c sont trois fonctions continues sur I à valeurs dans K.

On appelle solution sur I de (L2) toute fonction x : I → K deux fois dérivable sur I, telle quepour tout t ∈ I,

x′′(t) + a(t)x′(t) + b(t)x(t) = c(t).

Une telle solution est alors nécessairement de classe C2 sur I.

1. Système différentiel d’ordre 1 associé

Nous allons montrer comment se ramener au cadre d’application de la théorie précédente.

Soit x : I → K une solution de (L2) sur I et

X : t 7→(x(t)x′(t)

)

.

Alors X est dérivable sur I, à valeurs dans M2,1(K), et vérifie : pour tout t ∈ I,

X ′(t) =

(x′(t)x′′(t)

)

=

(x′(t)

−a(t)x′(t)− b(t)x(t) + c(t)

)

=

(0 1−b(t) −a(t)

)(x(t)x′(t)

)

+

(0c(t)

)

.

Posons, pour tout t ∈ I,

A(t) =

(0 1−b(t) −a(t)

)

∈M2(K) et B(t) =

(0c(t)

)

∈M2,1(K);

les fonctions A et B sont continues sur I, et X est solution du système différentiel

X ′ = A(t)X +B(t).

Réciproquement, soit X =

(xy

)

une solution de X ′ = A(t)X +B(t) sur I. Alors on a, pour tout

t ∈ I,(x′(t)y′(t)

)

=

(0 1−b(t) −a(t)

)(x(t)y(t)

)

+

(0c(t)

)

=

(y(t)

−a(t)y(t)− b(t)x(t) + c(t)

)

.

D’après la première égalité, on a y = x′ ; en particulier x est deux fois dérivable sur I. De plus,pour tout t ∈ I,

x′′(t) = −a(t)x′(t)− b(t)x(t) + c(t).

Finalement, x est solution de x′′ + a(t)x′ + b(t)x = c(t) sur I.

On a donc montré le résultat suivant :

Avec les notations précédentes, les solutions sur I du système différentiel

X ′ = A(t)X +B(t)

sont exactement les fonctions de la forme(xx′

)

où x est solution de x′′ + a(t)x′ + b(t)x = c(t) sur I.

En particulier, on obtient exactement les solutions de (L2) en prenant la premièrefonction-coordonnée des solutions de X ′ = A(t)X +B(t).

Propriété

336

On se ramène ainsi, quitte à passer dans M2,1(K), à un système différentiel du premier ordre.

Exemple – L’équation différentielle linéaire scalaire d’ordre 2

x′′ + t x′ + t2 x = t3

se met sous la forme du système différentiel

X ′ =

(0 1−t2 −t

)

X +

(0t3

)

où X =

(xx′

)

.

La théorie de la première partie (le théorème de Cauchy linéaire et ses conséquences) s’appliqueet donne le résultat suivant :

Soient a, b et c trois fonctions continues sur I à valeurs dans K.

• Alors l’équation différentielle linéaire scalaire d’ordre 2

(L2) : x′′ + a(t)x′ + b(t)x = c(t)

possède des solutions.

• Pour tout t0 ∈ I, x0 ∈ K et x1 ∈ K, le problème de Cauchy

x′′(t) + a(t)x′(t) + b(t)x(t) = c(t) ∀ t ∈ Ix(t0) = x0

x′(t0) = x1

possède une unique solution.

• L’ensemble S des solutions de l’équation homogène

x′′ + a(t)x′ + b(t)x = 0 (H2)

est un plan vectoriel de C2(I,K).

• On obtient toutes les solutions de (L2) sous la forme

« Solution particulière de (L2) + solution générale de l’équation homogène (H2) ».

Théorème

Démonstration – Avec les notations précédentes, le théorème de Cauchy linéaire s’applique àl’équation X ′ = A(t)X + B(t) posée dans M2,1(K), car les applications A et B sont continuessur I. Il existe des solutions de cette équation, et donc des solutions de x′′ +a(t)x′ + b(t)x = c(t).

Pour tout t0 ∈ I et (x0,x1) ∈ K2, il existe une solution X de X ′ = A(t)X + B(t) telle que

X(t0) =

(x0

x1

)

; X se met alors sous la forme

(xx′

)

avec x solution de x′′ + a(t)x′ + b(t)x = c(t)

et(x(t0)x′(t0)

)

=

(x0

x1

)

d’où l’existence d’une solution au problème de Cauchy. Si x et y en sont deux solutions, alors

X =

(xx′

)

et Y =

(yy′

)

sont deux solutions du problème de Cauchy matriciel correspondant,

donc par unicité pour ce problème, X = Y , d’où x = y.

L’ensemble S des solutions de l’équation homogène

x′′ + a(t)x′ + b(t)x = 0

337

est un sous-espace vectoriel de C2(I,K) (vérification immédiate), il est de dimension 2 car, d’aprèsl’existence et unicité pour le problème de Cauchy (que l’on vient de prouver), l’application

φt0 :

S →M2,1(K)

x 7→(x(t0)x′(t0)

)

est un isomorphisme, pour tout t0 ∈ I.

Contrairement au premier ordre, il n’existe pas de méthode générale pour déterminer l’en-semble des solutions de l’équation (H2) ou (L2). Dans la suite, nous allons indiquer un cas quel’on sait traiter, ainsi qu’une méthode d’aide à la recherche de solutions dans le cas général.

2. Cas où l’équation homogène associée est à coefficients constants

On considère le cas particulier des équations de la forme

x′′ + ax′ + bx = c(t)

où (a,b) ∈ K2.

Dans ce cas, le cours de première année permet de déterminer deux solutions indépendantesde l’équation homogène via la résolution de l’équation caractéristique

x2 + ax+ b = 0. (E)

• Si (E) possède deux racines distinctes r1 et r2 dans K, t 7→ er1t et t 7→ er2t constituentune base de l’espace des solutions de (H2) sur R.

Pour toute solution x de (H2), il existe un unique couple (λ,µ) ∈ K2 tel que, pour toutt ∈ R,

x(t) = λ er1t + µ er2t.

• Si (E) possède une racine double r dans K, t 7→ ert et t 7→ t ert constituent une basede l’espace des solutions de (H2) sur R.

Pour toute solution x de (H2), il existe un unique couple (λ,µ) ∈ K2 tel que, pour toutt ∈ R,

x(t) = (λ+ µt)ert.

• Si K = R et (E) possède deux racines complexes conjuguées z et z dans C, alorsil existe r ∈ R et ω ∈ R∗ tels que z = r + iω. Les fonctions t 7→ ert cos(ωt) ett 7→ ert sin(ωt) constituent une base de l’espace des solutions de (H2) sur R.

Pour toute solution x de (H2), il existe un unique couple (λ,µ) ∈ R2 tel que, pour toutt ∈ R,

x(t) = ert(λ cos(ωt) + µ sin(ωt)).

Théorème

La forme matricielle de l’équation homogène x′′ + ax′ + bx = 0 est le système différentiel àcoefficients constants X ′ = AX où

A =

(0 1−b −a

)

.

On remarquera que le polynôme X2 + aX + b apparaissant dans l’équation caractéristique est lepolynôme caractéristique de la matrice A, phénomène semblable à celui que nous avions observélors de l’étude des suites récurrentes linéaires d’ordre 2.

338

Nous avions montré dans le chapitre Réduction des endomorphismes et des matricescarrées que la matrice A est :

• diagonalisable si (E) possède deux racines distinctes r1 et r2 dans K ; il existe P ∈ Gℓ2(K)tel que

A = P

(r1 00 r2

)

P−1;

• trigonalisable si (E) possède une racine double r dans K ; il existe P ∈ Gℓ2(K) tel que

A = P

(r 10 r

)

P−1.

On résout ce système en posant Y = P−1X = t(y1 y2

), ce qui revient à résoudre le système

Y ′ =

(r1 00 r2

)

Y, i.e.

y′1 = r1y1

y′2 = r2y2

dans le premier cas, et le système

Y ′ =

(r 10 r

)

Y, i.e.

y′1 = ry1 + y2

y′2 = ry2

dans le deuxième cas. Après résolution de ce système, en prenant la première coordonnée deX = PY , on retrouve bien la forme générale des solutions présentée dans le théorème précédent.

En ce qui concerne l’équation complète :

• Lorsque le second membre est de la forme P (t) eαt avec P ∈ K[X] et α ∈ K, on pensera àchercher une solution particulière sous la forme t 7→ tm(α)Q(t) eαt où Q ∈ K[X] est de mêmedegré que P et m(α) est la multiplicité de α comme racine de l’équation caractéristique (E)associée à l’équation homogène (m(α) peut valoir 0, 1 ou 2).On pourra aussi utiliser le changement de fonction inconnue consistant à poser y : t 7→ x(t) e−αt.

• En particulier, lorsque b 6= 0 et le second membre est polynomial, on pourra chercher unesolution particulière polynomiale de même degré. En effet, on est dans la situation précédenteavec α = 0 et m(α) = 0.

• Lorsque K = R et le second membre est de la forme A cos(ωt) ou A sin(ωt) avec (A,ω) ∈ R2

et ω 6= 0, on pourra chercher une solution particulière sous la forme t 7→ λ cos(ωt) +µ sin(ωt) où(λ,µ) ∈ R2 si iω n’est pas racine de (E), ou sous la forme t 7→ t(λ cos(ωt) + µ sin(ωt)) sinon.En effet, on se ramène au premier point en considérant l’équation

x′′ + ax′ + bx = Aeiωt.

Si xp en est une solution particulière, alors Re(xp) (resp. Im(xp)) est une solution particulièrede

x′′ + ax′ + bx = A cos(ωt) (resp. x′′ + ax′ + bx = A sin(ωt)),

car a et b sont réels. Or, ces fonctions sont de la forme indiquée ci-dessus, selon que iω est racineou non de l’équation caractéristique (il ne peut pas en être racine double, car a et b sont réels).

• Enfin, on pourra utiliser le principe de superposition lorsque le second membre est somme deplusieurs termes.

Exemples

• L’évolution d’un oscillateur amorti en régime libre est régie par l’équation différentielle

x′′ + 2λx′ + ω20 x = 0,

qui regroupe par exemple les systèmes masse-ressort, les pendules de torsion, les circuits RLC.Le coefficient λ > 0 est le coefficient d’amortissement du système, ω0 > 0 en est la pulsationpropre.

339

L’équation caractéristique associée à cette équation différentielle linéaire du second ordre àcoefficients constants sans second membre est

r2 + 2λ r + ω20 = 0,

de discriminant réduit λ2 − ω20.

– Si λ = 0 (amortissement nul), on obtient deux solutions indépendantes,

t 7→ cos(ω0t) et t 7→ sin(ω0t).

On écrit la solution générale de l’équation sous la forme t 7→ C cos(ω0t + ϕ), où C est l’ampli-tude des oscillations du système, et ϕ la phase à l’origine. On comprend bien ainsi l’expression« pulsation propre » : c’est la pulsation du système en l’absence d’amortissement et de force ousignal extérieur.

– Si 0 < λ < ω0, les racines de l’équation caractéristique sont −λ± i√

ω20 − λ2 ; on obtient deux

solutions indépendantes,

t 7→ e−λt cos(ωt) et t 7→ e−λt sin(ωt),

où ω =√

ω20 − λ2 (appelée pseudo-pulsation, lorsque l’amortissement est faible). On écrit la

solution générale de l’équation sous la forme t 7→ Ce−λt cos(ωt + ϕ), où Ce−λt est l’amplitude,exponentiellement décroissante, des « oscillations » du système.

– Si λ > ω0, les racines de l’équation caractéristique sont r± = −λ ±√

λ2 − ω20 ; leur produit

vaut ω20 > 0, leur somme −2λ < 0 : r+ et r− sont donc strictement négatifs. On obtient deux

solutions indépendantes,t 7→ er+t et t 7→ er−t.

Il n’y a pas d’oscillations, on parle de régime apériodique.

– Si λ = ω0, la racine double de l’équation caractéristique est r = −λ. On obtient deux solutionsindépendantes,

t 7→ e−λt et t 7→ t e−λt.

On parle de régime critique. C’est celui pour lequel le retour à l’équilibre est le plus rapide.

On peut alors soumettre l’oscillateur à une force ou un signal extérieur (régime forcé), parexemple de la forme F0 cos(Ωt) où Ω > 0 est la pulsation et F0 l’amplitude de cette force ou dece signal : l’équation régissant l’évolution du système est alors

x′′ + 2λx′ + ω20 x = F cos(Ω t),

où F est fonction de F0 et des caractéristiques du système (inductance ou masse, notamment).

On a(iΩ)2 + 2λ (iΩ) + ω2

0 = ω20 − Ω2 + 2i λΩ.

Si λ > 0 ou Ω 6= ω0, iΩ n’est pas racine de l’équation caractéristique, on peut trouver unesolution particulière de l’équation complète sous la forme t 7→ α cos(Ωt+ φ).

Si λ = 0 et Ω = ω0, iΩ est racine de l’équation caractéristique, on peut trouver une solutionparticulière de l’équation complète sous la forme t 7→ α t cos(Ωt+ φ).

La solution générale de l’équation complète est alors somme de la solution générale de l’équa-tion homogène et de cette solution particulière. La première est amortie si λ > 0, elle correspondau régime transitoire ; la seconde n’est pas amortie, elle correspond au régime établi ou per-manent. On peut également rechercher pour quelle pulsation Ω la réponse du système a uneamplitude maximale ; on montre facilement que pour un amortissement assez faible, cette pulsa-tion existe, on parle de phénomène de résonance (pour λ = 0, on a immédiatement Ω = ω0).

340

• Résolvons sur R l’équation différentielle x′′ + 6x′ + 9x =e−3t

1 + t2.

L’équation caractéristique associée à l’équation homogène est r2 +6r+9 = 0, elle admet uneracine double r = −3. La solution générale de l’équation homogène s’écrit donc sous la formet 7→ (at+ b) e−3t où (a,b) ∈ K2.

On va chercher la solution générale de l’équation complète sous la forme t 7→ b(t) e−3t (ce quirevient en fait à faire varier la constante b). Cela est possible car e−3t 6= 0 pour tout t ∈ R.

La fonction x : t 7→ b(t) e−3t est deux fois dérivable sur R si et seulement si b l’est, et dans cecas, pour tout t ∈ R,

x′(t) = (b′(t)− 3b(t)) e−3t et x′′(t) = (b′′(t)− 6b′(t) + 9b(t)) e−3t.

Alors, pour tout t ∈ R,

x′′(t) + 6x′(t) + 9x(t) =e−3t

1 + t2

⇔(b′′(t)− 6b′(t) + 9b(t)

)+ 6(b′(t)− 3b(t)

)+ 9b(t) =

1

1 + t2

⇔ b′′(t) =1

1 + t2.

Ainsi, pour que x soit solution de l’équation complète sur R, il faut et il suffit qu’il existe k1 ∈ K

tel que pour tout t ∈ R,

b′(t) = arctan(t) + k1.

On détermine une primitive de arctan sur R par intégration par parties (les fonctions s 7→ s ets 7→ arctan(s) sont de classe C1 sur R) : pour tout t ∈ R,

∫ t

0arctan(s) ds = [s arctan(s)]t0 −

∫ t

0

s

1 + s2ds = t arctan(t)− 1

2ln(1 + t2).

Finalement, pour que x soit solution de l’équation complète sur R, il faut et il suffit qu’il existe(k1,k2) ∈ K2 tel que pour tout t ∈ R,

x(t) =

(

t arctan(t)− 1

2ln(1 + t2) + k1t+ k2

)

e−3t.

Remarque – La méthode utilisée dans l’exemple précédent est inspirée de la méthode de variationde la constante.

Équations d’Euler

Il s’agit des équations différentielles de la forme at2x′′ + btx′ + cx = 0 sur R∗+, où a, b et c

sont des constantes (a 6= 0).

Le théorème de Cauchy linéaire s’applique, car l’équation équivaut sur R∗+ à

x′′ +b

atx′ +

c

at2x = 0,

qui est une équation différentielle linéaire scalaire d’ordre 2 à coefficients continus sur R∗+.

Le changement de variable t = eu (pour t ∈ R∗+) permet de résoudre ces équations, car il les

transforme en équations à coefficients constants. En effet, si l’on pose y : u 7→ x(eu) pour u ∈ R,alors pour tout t > 0, x(t) = y(ln(t)). Pour que x soit deux fois dérivable sur R∗

+, il faut et ilsuffit que y soit deux fois dérivable sur R et dans ce cas, pour tout t > 0,

x′(t) =1

ty′(ln(t)), x′′(t) = − 1

t2y′(ln(t) +

1

t2y′′(ln(t)).

341

La fonction x est solution de l’équation originale si et seulement si pour tout t > 0,

ay′′(ln(t)) − ay′(ln(t)) + by′(ln(t)) + cy(ln(t)) = 0,

L’image de la fonction ln est R, donc ceci équivaut au fait que y soit solution sur R de

ay′′ + (b− a)y′ + cy = 0. (L ′)

L’équation caractéristique associée à cette équation est ar2 + (b − a)r + c = 0. Soient α1 et α2

les racines dans C de cette équation.

Si α1 6= α2, la solution générale de (L ′) s’écrit

y : u 7→ λ eα1u + µ eα2u

avec (λ,µ) ∈ K2, et donc la solution générale sur R∗+ de l’équation d’origine s’écrit

x : t 7→ λ eα1 ln(t) + µ eα2 ln(t) = λ tα1 + µ tα2.

Si α1 = α2 = α, la solution générale de (L ′) s’écrit

y : u 7→ λ eαu + µu eαu

avec (λ,µ) ∈ K2, et donc la solution générale sur R∗+ de l’équation d’origine s’écrit

x : t 7→ λ eα ln(t) + µ ln(t) eα ln(t) = λ tα + µ ln(t) tα.

En particulier, il est donc judicieux de chercher des solutions sur R∗+ sous la forme t 7→ tα avec

α ∈ C. Soit on trouve de telles solutions pour deux valeurs distinctes de α, soit on en trouvepour une seule valeur de α, et alors t 7→ (ln(t)) tα est une autre solution de l’équation. Dans lesdeux cas, on en déduit la solution générale par combinaison linéaire des deux solutions obtenues.

Enfin, x est solution de l’équation sur R∗+ si et seulement si t 7→ x(−t) en est solution sur

R∗−. On en déduit la solution générale de l’équation sur R∗

−.

Exemple – Résolvons l’équation t2x′′ − 4tx′ + 6x = 0 sur R∗+ par la méthode précédente, qui

conduit à l’équation

α(α − 1)− 4α+ 6 = 0 ⇔ α2 − 5α+ 6 = 0 ⇔ α = 2 ou α = 3.

La solution générale de l’équation précédente s’écrit donc

t 7→ λt2 + µt3 où (λ,µ) ∈ K2.

3. Utilisation des séries entières

Pour une équation différentielle linéaire scalaire d’ordre 2 (la méthode peut s’appliquer aussipour l’ordre 1)

x′′ + a(t)x′ + b(t)x = c(t)

dont les coefficients a, b, et c sont polynomiaux ou développables en séries entières, il est intéres-sant de chercher les solutions de ces équations qui sont développables en série entière. Donnonsun exemple de telle résolution.

On cherche à résoudre l’équation différentielle (1+ t2)x′′+4tx′+2x = 0. Cette équation entredans le cadre de ce chapitre, car pour tout t ∈ R, 1 + t2 6= 0, et donc l’équation équivaut à

x′′ +4t

1 + t2x′ +

2

1 + t2x = 0,

qui est à coefficients continus (et elle est sans second membre). En particulier, le théorème deCauchy linéaire s’applique et montre que l’ensemble des solutions sur R est un plan vectoriel.Pour le déterminer, on va chercher les solutions développables en série entière.

342

Soit∑

n>0 antn une série entière de rayon de convergence R > 0. On pose, pour tout t ∈ ]−R,R[,

f(t) =

+∞∑

n=0

antn.

On a les équivalences suivantes :

La fonction f est solution de l’équation (1 + t2)x′′ + 4tx′ + 2x = 0 sur ]−R,R[

⇔ ∀ t ∈ ]−R,R[ , (1 + t2)

+∞∑

n=2

n(n− 1)antn−2 + 4t

+∞∑

n=1

nantn−1 + 2

+∞∑

n=0

antn = 0

⇔ ∀ t ∈ ]−R,R[ ,+∞∑

n=2

n(n− 1)antn−2 +

+∞∑

n=2

n(n− 1)antn +

+∞∑

n=1

4nantn + 2

+∞∑

n=0

antn = 0

⇔ ∀ t ∈ ]−R,R[ ,+∞∑

n=0

(n+ 2)(n + 1)an+2tn +

+∞∑

n=0

n(n− 1)antn +

+∞∑

n=0

4nantn + 2

+∞∑

n=0

antn = 0

⇔ ∀ t ∈ ]−R,R[ ,+∞∑

n=0

[(n + 2)(n + 1)an+2 + (n(n− 1) + 4n + 2)an] tn = 0.

Par unicité du développement en série entière (sachant que R > 0), ceci équivaut à

∀n ∈ N, (n+ 2)(n+ 1)an+2 + (n2 + 3n+ 2)an = 0

i.e. ∀n ∈ N, an+2 = −an.

Ceci équivaut au fait que pour tout p ∈ N,

a2p = (−1)pa0 et a2p+1 = (−1)pa1.

Définissons la suite (an)n∈N par les relations précédentes, a0 et a1 étant des scalaires quelconques.Pour tout t ∈ ]−1,1[ et p ∈ N,

|a2pt2p| = |a0|(t2)p et |a2p+1t

2p+1| = |a1t| (t2)p,

la série géométrique de raison t2 ∈ [0,1[ étant convergente. Ainsi, les deux séries entières

∑

p>0

a2p t2p et

∑

p>0

a2p+1 t2p+1

convergent, et par somme,∑

n>0 antn converge. Donc le rayon de convergence R de cette série

entière vérifie R > 1. De plus, pour tout t ∈ ]−1,1[,

+∞∑

n=0

antn =

+∞∑

p=0

a2pt2p +

+∞∑

p=0

a2p+1t2p+1 = a0

+∞∑

p=0

(−1)pt2p + a1 t

+∞∑

p=0

(−1)pt2p =a0 + a1t

1 + t2.

D’après la série d’équivalences ci-dessus, les solutions développables en série entière autour de 0de

(1 + t2)x′′ + 4tx′ + 2x = 0

sont exactement les fonctions de la forme

t 7→ at+ b

t2 + 1

avec (a,b) ∈ K2.

On vérifie immédiatement qu’une telle fonction est en fait solution sur R tout entier, même sison développement en série entière n’est pas toujours valable sur R.

343

Les deux fonctions

t 7→ t

t2 + 1et t 7→ 1

t2 + 1

sont clairement linéairement indépendantes ; on a donc obtenu un plan vectoriel de solutions, etd’après le théorème de Cauchy linéaire, on a en fait la solution générale de l’équation.

Remarques

• Dans l’exemple précédent, on a pu résoudre entièrement l’équation car toutes ses solutions sontdéveloppables en série entière, mais ce n’est pas toujours le cas.

• La démarche précédente fait souvent apparaître des relations de récurrence entre les coefficientsan. On peut parfois en déduire explicitement les coefficients an, voire une forme simple pour fcomme dans l’exemple précédent, mais à nouveau, ce n’est pas toujours le cas. En revanche,la règle de d’Alembert peut permettre de déterminer le rayon de convergence R à partir d’unerelation de récurrence entre les an, même si ces coefficients ne sont pas connus explicitement.Par exemple, en imaginant une équation différentielle qui aboutisse à la relation

a0 = 1 et : ∀n ∈ N, an+1 =n2 + n+ 1

2(n+ 1)(n + 2)an,

il n’est pas du tout évident d’obtenir une formule explicite pour an. Pourtant, pour tout n ∈ N,an 6= 0 et

∣∣∣∣

an+1

an

∣∣∣∣=

n2 + n+ 1

2(n+ 1)(n + 2)∼

n→+∞n2

2n2=

1

2.

La série entière∑

n>0 antn a donc un rayon de convergence égal à 2 d’après la règle de d’Alem-

bert.

344

Chapitre 18

Fonctions de plusieurs variablesCalcul et géométrie différentiels

Dans ce chapitre, p désigne un entier naturel non nul et U désigne un ouvert de Rp. On notera‖ · ‖ une norme quelconque sur Rp et B = (e1, . . . , ep) la base canonique de Rp.

Dans le chapitre Espaces vectoriels normés, nous nous sommes intéressés notamment àla continuité des fonctions de Rp dans R. Dans ce chapitre, nous nous intéressons à l’aspectdifférentiel. Bien sûr, on ne peut pas procéder comme pour les fonctions de la variable réelle, carla notion de taux d’accroissement n’a pas de sens si p > 2. On souhaite malgré tout généraliser lanotion de dérivée, qui permet notamment, si f est une fonction d’une variable, l’approximation

f(a+ h) = f(a) + f ′(a)h + o(h).

L’une des principales difficultés est la généralisation du terme f ′(a)h lorsque p > 2.

I. Introduction

Soit f : U → R une fonction. Pour étudier f , une première idée peut être de se ramener à desfonctions d’une variable en considérant les fonctions obtenues à partir de f en « fixant » toutesles variables sauf une.

Plus précisément, pour étudier f au voisinage de a = (a1, . . . , ap) ∈ Rp, on s’intéresse aux pfonctions

t 7→ f (a1, . . . , ai−1, t, ai+1, . . . , ap)

pour i ∈ [[1, p]], respectivement définies sur les ensembles

Ua,i = t ∈ R; (a1, . . . , ai−1, t, ai+1, . . . , ap) ∈ U.

Elles sont parfois appelées « applications partielles » de f en a.

Exemple – Soient

f :

R× R∗

+ → R

(x, y) 7→ exy ln(y)

et a = (1, 2) ∈ R× R∗+. Les deux fonctions décrites ci-dessus sont

t 7→ ln(2) e2x définie sur R, et t 7→ ey ln(y) définie sur R∗+.

La figure ci-dessous montre les ensembles Ua,i pour un choix particulier de U et a, en dimension2.

345

x1

x2

a1

a2

U

Ua,1

Ua,2

a

Dans le cas général, U étant ouvert, on montre facilement que Ua,i est toujours un ouvert de R :soit t0 ∈ Ua,i ; alors

(a1, . . . , ai−1, t0, ai+1, . . . , ap) ∈ U.Comme U est ouvert, il existe r > 0 tel qu’on ait l’implication

[ |t− t0| < r et ∀ k 6= i, |xk − ak| < r ] ⇒ (x1, . . . , xi−1, t, xi+1, . . . , xp) ∈ U.

En particulier, en choisissant xk = ak pour tout k 6= i, on a montré que ]t0 − r, t0 + r[⊂ Ua,i,d’où le résultat.

Par un raisonnement analogue, on montre aussi le résultat suivant :

Si f est continue en a ∈ U , alors pour tout a ∈ U et i ∈ [[1, p]],

t 7→ f (a1, . . . , ai−1, t, ai+1, . . . , ap)

est continue en ai : la continuité de f entraîne sa continuité « par rapport à chacunede ses variables ».

Propriété

Un point très important est le fait que la réciproque est fausse : toutes les fonctions

t 7→ f (a1, . . . , ai−1, t, ai+1, . . . , ap)

peuvent être continues sans que f le soit. Ceci tient au fait que la continuité de f signifie que pourtout a ∈ U , f(x)→ f(a) lorsque x tend vers a « de façon arbitraire ». La continuité par rapportà la variable xi signifie que f(x)→ f(a) lorsque x tend vers a en ayant la forme particulière

(a1, . . . , ai−1, t, ai+1, . . . , ap),

c’est-à-dire, le long de la droite a+ R ei passant par a et dirigée par ei. Ceci est plus restrictif,même lorsque cela a lieu pour tout i.

Exemple – Par exemple, soit f : R2 → R définie par

f(x, y) =

xy

x2 + y2si (x, y) 6= (0,0)

0 si (x, y) = (0,0)

Les deux fonctionst 7→ f(t, 0) et t 7→ f(0, t)

346

sont continues sur R : elles sont nulles. Pourtant, f n’est pas continue en 0 car pour t 6= 0,

f(t, t) =t2

2t2=

1

2,

qui ne tend pas vers f(0,0) lorsque t → 0. En quelque sorte, il y a continuité à l’origine le longdes deux axes de coordonnées, mais pas le long de la première bissectrice.

L’étude de la dépendance de f par rapport à chacune de ses variables ne suffit donc pas à fairel’étude de f . Sans renoncer entièrement à cette approche dans la suite, il faudra se souvenir dece phénomène.

II. Fonctions de classe C1

1. Dérivées partielles

Soient a = (a1, . . . , ap) ∈ U et i ∈ [[1, p]]. On dit que f admet une dérivée partielleen a par rapport à la i-ième variable si

t 7→ f (a1, . . . , ai−1, t, ai+1, . . . , ap)

est dérivable en ai, c’est-à-dire, si

h 7→ 1

h(f (a1, . . . , ai−1, ai + h, ai+1, . . . , ap)− f (a1, . . . , ai−1, ai, ai+1, . . . , ap))

a une limite finie lorsque h→ 0 avec h 6= 0.

Dans ce cas, cette limite est notée

∂f

∂xi(a) ou ∂if(a).

Elle est appelée dérivée partielle de f en a par rapport à la i-ième variable.

Définition – Dérivées partielles

Remarque – On considère des fonctions définies sur un ouvert car cela garantit que le tauxd’accroissement apparaissant dans la définition précédente est bien défini pour h 6= 0 assezproche de 0 (sans avoir à imposer, notamment, h > 0 ou h < 0).

Cas particulier – Pour une fonction f de deux variables, étudier l’existence de dérivées par-tielles en (a, b) ∈ U revient à étudier l’existence éventuelle de limites lorsque h → 0 des « tauxd’accroissements partiels »

f(a+ h, b)

het

f(a, b+ h)

h.

Exemple – Soit

f :

R×R+ → R

(x1, x2) 7→ x 21

√x2

Quel que soit a2 ∈ R+ fixé, la fonction x1 7→ f(x1, a2) =√a2 x

21 est dérivable en tout point a1

de R, et∂f

∂x1(a1, a2) = 2

√a2 a1.

En revanche, si l’on fixe a1 ∈ R, la fonction x2 7→ f(a1, x2) = a 21√x2 est dérivable en tout point

a2 de R+ si a1 = 0 (car c’est alors la fonction nulle), et dérivable en tout point a2 de R∗+ mais

pas en 0 si a1 6= 0, et dans ce cas, pour tout a2 ∈ R∗,

∂f

∂x2(a1, a2) =

a 21

2√a2.

347

Si f admet une dérivée partielle sur U (i.e., en tout point de U) par rapport à la i-ièmevariable, alors la fonction

a 7→ ∂f

∂xi(a)

(qui est définie sur U , à valeurs dans R) est appelée dérivée partielle de f par rapportà la i-ième variable.

Définition – Fonctions dérivées partielles

2. Classe C1

Soit f : U → R une fonction.

On dit que f est de classe C1 sur U si f admet des dérivées partielles sur U par rapportà toutes ses variables, et si toutes ces dérivées partielles sont continues sur U .

Définition

Attention ! Si f est de classe C1 sur U , alors pour tout a ∈ U , pour tout i ∈ [[1,p]],

t 7→ f (a1, . . . , ai−1, t, ai+1, . . . , ap)

est de classe C1 sur Ua,i. La réciproque est fausse, le même contre-exemple que dans le cas de lacontinuité le prouve.

Soit f : U → R une fonction de classe C1. Alors f admet en tout point a ∈ U ledéveloppement limité à l’ordre 1

f(a+ h) = f(a) +∂f

∂x1(a)h1 + · · · + ∂f

∂xp(a)hp + o(‖h‖),

lorsque h = (h1, . . . ,hp)→ (0, . . . ,0).

Théorème (admis : démonstration non exigible)

Remarque – La notation précédente signifie que l’on peut écrire, pour h tel que a+ h ∈ U,

f(a+ h) = f(a) +∂f

∂x1(a)h1 + · · ·+ ∂f

∂xp(a)hp + ‖h‖ ε(h),

où ε a pour limite 0 en (0, . . . ,0).

Soient f : U → R de classe C1 et a ∈ U . On appelle différentielle de f en a la formelinéaire

df(a) :

Rp → R

(h1, . . . ,hp) 7→∂f

∂x1(a)h1 + · · · + ∂f

∂xp(a)hp

L’image de h ∈ Rp par l’application df(a) sera notée df(a) · h.

Définition – Différentielle

Attention ! Dans le cadre précédent, pour tout a ∈ U , df(a) est elle-même une application (enl’occurrence une forme linéaire) définie sur Rp tout entier.

Remarque – Le théorème précédent se réinterprète ainsi : si f : U → R est de classe C1, alorspour tout a ∈ U ,

f(a+ h) =‖h‖→0

f(a) + df(a) · h+ o(‖h‖).

348

Ceci est bien sûr à mettre en relation avec le développement limité

g(a+ h) =h→0

g(a) + g′(a)h+ o(h)

pour une fonction g : I ⊂ R→ R de classe C1. Ici, le terme

df(a) · h =∂f

∂x1(a)h1 + · · ·+ ∂f

∂xp(a)hp

généralise terme g′(a)h, mais il prend en compte, du fait de la présence de plusieurs variables,les accroissements de f dans toutes les directions.

La forme linéaire df(a) est l’application qui, à un « déplacement » h par rapport au point a, faitcorrespondre la modification (au premier ordre) sur la valeur de f qui en résulte.

x1

x2

y

aa+ h

h

f(a+ h)

df(a) · h

f(a)

Pour une fonction g d’une seule variable, de classe C1 sur I, pour tout a ∈ I, dg(a) est l’application

h ∈ R 7→ g′(a)h

de multiplication par g′(a). En revanche, si p > 2, la notation · dans df(a) · h ne désigne pasun produit.

Si f est de classe C1 sur U , elle est continue sur U .

Propriété

Démonstration – La fonction f est de classe C1 sur U , donc pour tout point a ∈ U ,

f(a+ h) =‖h‖→0

f(a) + df(a) · h+ o(‖h‖) −→h→(0,...,0)

f(a)

car df(a) est continue. D’où le résultat.

• Toute fonction polynomiale définie sur un ouvert est de classe C1.

• En particulier, toute application linéaire de Rp dans R est de classe C1.

• Toute fraction rationnelle dont le dénominateur ne s’annule pas est de classe C1.

Propriété

349

Démonstration – On considère les applications partielles et on applique les résultats analoguespour les fonctions d’une variable, d’où l’existence des dérivées partielles ; elles sont elles-mêmessoit polynomiales soit des fractions rationnelles dont le dénominateur ne s’annule pas, donccontinues.

3. Opérations sur les fonctions de classe C1

Soient f : U → R et g : U → R deux fonctions de classe C1, et λ ∈ R.

Alors λf + g est de classe C1 sur U et pour tout a ∈ U,

d(λf + g)(a) = λdf(a) + dg(a),

et : ∀ i ∈ [[1, p]],∂(λf + g)

∂xi(a) = λ

∂f

∂xi(a) +

∂g

∂xi(a).

Propriété – Combinaison linéaire

L’ensemble C1(U,R) des fonctions de classe C1 sur U à valeurs dans R est un R-espacevectoriel.

Corollaire

Soient f : U → R et g : U → R deux fonctions de classe C1.

Alors fg est de classe C1 sur U et pour tout a ∈ U,

d(fg)(a) = (df(a))g(a) + f(a)(dg(a)),

et : ∀ i ∈ [[1, p]],∂(fg)

∂xi(a) =

∂f

∂xi(a) g(a) + f(a)

∂g

∂xi(a).

Propriété – Produit

Soit f : U → R∗ une fonction de classe C1.

Alors 1/f est de classe C1 sur U et pour tout a ∈ U,

d(1/f)(a) = − 1

f2(a)df(a),

et : ∀ i ∈ [[1, p]],∂(1/f)

∂xi(a) = − 1

f2(a)

∂f

∂xi(a).

Propriété – Inverse

Démonstration des trois propriétés – C’est immédiat en considérant les applications partielles : lesrésultats sur les fonctions de la variable réelle prouvent l’existence des dérivées partielles ; ellessont continues par opérations sur les fonctions continues.

350

4. Composition : règle de la chaîne

Soient I un intervalle de R et x1, . . . ,xp des fonctions de classe C1 sur I, à valeurs dansR. Soit f : U → R de classe C1. On suppose que pour tout t ∈ I,

(x1(t), . . . ,xp(t)) ∈ U.

Alors la fonctiong : t 7→ f(x1(t), . . . , xp(t))

est définie et de classe C1 sur I, avec, pour tout t ∈ I,

g′(t) =

p∑

i=1

∂f

∂xi(x1(t), . . . , xp(t))x

′i(t).

Théorème – Règle de la chaîne

Démonstration – La fonction g est bien définie car (x1, . . . ,xp) est à valeurs dans U. Soit t ∈ I ;pour tout i ∈ [[1, p]], xi : I → R est de classe C1, donc il existe une fonction ηi qui a pour limite0 en 0, telle que

xi(t+ h) = xi(t) + x′i(t)h+ hηi(h)

lorsque t + h ∈ I. De plus, f est de classe C1 sur U , donc en notant a = (x1(t), . . . ,xp(t)), ilexiste une fonction ε qui a pour limite 0 en (0, . . . ,0), telle que

f(a+ k) = f(a) +

n∑

i=1

∂f

∂xi(a) ki + ‖k‖ ε(k)

pour k = (k1, . . . ,kp) tel que a+ k ∈ U. On écrit cette égalité avec

k =(x′1(t)h+ hη1(h), . . . , x

′p(t)h+ hηp(h)

)

lorsque h→ 0 avec t+ h ∈ I ; on a alors k → (0, . . . ,0), donc a+ k ∈ U pour h assez proche de0, d’où :

g(t+ h) = f(x1(t+ h), . . . , xp(t+ h))

= f(x1(t) + x′1(t)h + hη1(h), . . . , xp(t) + x′p(t)h+ hηp(h))

= f(x1(t), . . . ,xp(t)) +

n∑

i=1

∂f

∂xi(a)(x′i(t)h+ hηi(h)

)+ ‖k‖ ε(k)

= g(t) +

(n∑

i=1

∂f

∂xi(a)x′i(t)

)

h+

(n∑

i=1

∂f

∂xi(a)hηi(h) + ‖k‖ ε(k)

)

Pour conclure, il suffit donc de prouver que le terme dans la dernière parenthèse est un o(h)lorsque h→ 0. Or, en choisissant la norme 1 (‖ · ‖ = ‖ · ‖1), on a, pour h 6= 0,

1

|h|

∣∣∣∣∣

n∑

i=1

∂f

∂xi(a)hηi(h) + ‖k‖ ε(k)

∣∣∣∣∣

6

p∑

i=1

(∣∣∣∣

∂f

∂xi(a) ηi(h)

∣∣∣∣+ |x′i(t) + ηi(h)| |ε(k)|

)

−→h→0

0.

On en déduit que g est dérivable sur I avec la formule annoncée pour g′ ; de plus, cette formulemontre que g′ est continue sur I, car f et tous les xi sont de classe C1. D’où le résultat.

Remarques

• Si I est semi-ouvert ou fermé, la formule précédente doit être interprétée, aux extrémités de I,en termes de dérivées de g à gauche ou à droite.

351

• Dans la formule donnant g′(t), xi apparaît avec deux sens différents qu’il ne faut pas confondre :∂f

∂xiest une notation qui désigne la dérivée partielle de f par rapport à sa i-ième variable ; xi

apparaissant dans xi(t) ou x′i(t) désigne la fonction xi. Il n’y a pas de confusion possible si l’onécrit, de façon équivalente,

g′(t) =

p∑

i=1

∂if(x1(t), . . . , xp(t))x′i(t).

• La formule précédente s’écrit aussi, par définition de la différentielle,

∀ t ∈ I, g′(t) = df(γ(t)) · γ′(t),

où γ = (x1, . . . , xp).

• Avec les notations précédentes, (I,γ) est un arc paramétré de classe C1, et g′ représente ladérivée de f le long de cet arc.

Dans la propriété suivante, on s’intéresse au cas de la composition

g :

V ⊂ R2 (x,y)→ U ⊂ R2 f→ R

(u, v) 7→ (x(u, v),y(u, v)) 7→ f(x(u, v),y(u, v))

Soient V un ouvert de R2, x et y deux fonctions définies sur V , à valeurs dans R, declasse C1 sur V . Soient U un ouvert de R2 et f : U → R de classe C1. On suppose quepour tout (u, v) ∈ V ,

(x(u, v), y(u, v)) ∈ U.Alors la fonction

g : (u, v) 7→ f(x(u, v), y(u, v))

est définie et de classe C1 sur V , avec, pour tout (u, v) ∈ V ,

∂g

∂u(u, v) =

∂f

∂x(x(u, v), y(u, v))

∂x

∂u(u, v) +

∂f

∂y(x(u, v), y(u, v))

∂y

∂u(u, v),

∂g

∂v(u, v) =

∂f

∂x(x(u, v), y(u, v))

∂x

∂v(u, v) +

∂f

∂y(x(u, v), y(u, v))

∂y

∂v(u, v).

Propriété – Application aux fonctions de deux variables

Démonstration – Il suffit d’appliquer le théorème précédent en faisant jouer à t le rôle de u àv fixé, puis celui de v à u fixé. La variable t décrit alors un ouvert de R (pas nécessairementun intervalle) comme on l’a montré au début de ce chapitre. On peut appliquer le théorème auvoisinage de chaque point de cet ouvert.

Exemple – Passage en coordonnées polaires

Pour tout (x, y) ∈ R2, il existe r ∈ R+ et θ ∈ R tels que (x, y) = (r cos(θ), r sin(θ)). On dit quer, θ sont des coordonnées polaires de (x, y). Il n’y a pas unicité de telles coordonnées : parexemple si (x, y) = (0,0), r = 0 et tout θ ∈ R conviennent. De même, si r, θ sont des coordonnéespolaires de (x, y), alors pour tout k ∈ Z, r et θ + 2kπ en sont également.

On définit, pour (r, θ) ∈ R2,

x(r, θ) = r cos(θ) et y(r, θ) = r sin(θ).

Si f : R2 → R est une fonction de classe C1, on pose

g(r, θ) = f(x(r, θ), y(r, θ)) = f(r cos(θ), r sin(θ)).

352

Par exemple, g(√

2, − π/4) = f(1, − 1). D’après la propriété précédente, g est de classe C1 surR2 et pour tout (r, θ) ∈ R2,

∂g

∂r(r, θ) =

∂f

∂x(r cos(θ), r sin(θ))

∂x

∂r(r, θ) +

∂f

∂y(r cos(θ), r sin(θ))

∂y

∂r(r, θ)

=∂f

∂x(r cos(θ), r sin(θ)) cos(θ) +

∂f

∂y(r cos(θ), r sin(θ)) sin(θ)

∂g

∂θ(r, θ) =

∂f

∂x(r cos(θ), r sin(θ))

∂x

∂θ(r, θ) +

∂f

∂y(r cos(θ), r sin(θ))

∂y

∂θ(r, θ)

=∂f

∂x(r cos(θ), r sin(θ))(−r sin(θ)) +

∂f

∂y(r cos(θ), r sin(θ)) r cos(θ).

Soit f : U → R une fonction de classe C1 sur un ouvert U convexe.

Pour que f soit constante, il faut et il suffit que pour tout i ∈ [[1, p]],∂f

∂xi= 0.

Propriété – Caractérisation des fonctions constantes

Démonstration

⇒ Évident, car toutes les applications partielles de f , qui sont des fonctions d’une variable,sont constantes et de classe C1.

⇐ Soient a = (a1, . . . ,ap) ∈ U , b = (b1, . . . ,bp) ∈ U et

g :

[0,1] → R

t 7→ f(a+ t (b− a)) = f(a1 + t (b1 − a1), . . . , ap + t (bp − ap))

Cette fonction est bien définie, car lorsque t parcourt [0,1], a+ t(b−a) parcourt le segment [a,b],qui est contenu dans U car U est convexe. D’après la règle de la chaîne, g est de classe C1 surl’intervalle [0,1] et pour tout t ∈ [0,1],

g′(t) =

n∑

i=1

∂f

∂xi(a+ t(b− a)) (bi − ai) = 0.

La fonction d’une variable g est donc constante, et en particulier g(0) = g(1), i.e. f(a) = f(b).Ceci étant vrai pour tout (a,b) ∈ U2, f est constante.

Plus généralement, on a le résultat suivant :

Soit f : U → R une fonction de classe C1 sur un ouvert U convexe, avec p > 2.On suppose que

∂f

∂x1= 0.

Alors f ne dépend pas de sa première variable : il existe un ouvert convexe V de Rp−1

et une fonction g : V → R de classe C1 telle que pour tout (x1, . . . ,xp) ∈ U ,

(x2, . . . ,xp) ∈ V et f(x1, . . . ,xp) = g(x2, . . . ,xp).

Bien sûr, on peut généraliser ce résultat aux autres variables.

Propriété

353

x1

x2

a1

a2

U

Ua,1

V

a

Démonstration

• Fixons a = (a1, . . . , ap) ∈ U et considérons la première application partielle fa,1 de f en a,définie sur l’ouvert non vide

Ua,1 = t ∈ R; (t, a2, . . . , ap) ∈ U.

On sait déjà que Ua,1 est ouvert, en fait c’est un intervalle : si t0 et t1 sont deux éléments deUa,1 avec t0 6 t1 et si t ∈ [t0, t1], alors le point (t, a2, . . . , ap) appartient au segment joignant(t0, a2, . . . , ap) et (t1, a2, . . . , ap). Comme ces deux points appartiennent à U qui est convexe, ona (t, a2, . . . , ap) ∈ U , d’où : t ∈ Ua,1. Ceci prouve que Ua,1 est un intervalle ouvert. De plus, fétant de classe C1 sur U , fa,1 est de classe C1 sur Ua,1, avec, pour tout t ∈ Ua,1,

f ′a,1(t) =∂f

∂x1(t, a2, . . . , ap) = 0.

On en déduit que fa,1 est constante sur Ua,1. Notons g(a2, . . . ,ap) l’unique valeur prise par fa,1

sur Ua,1. On a doncf(x1, x2, . . . , xp) = g(x2, . . . , xp),

et ce, pour tout (x2, . . . ,xp) tel qu’il existe au moins une valeur x1 telle que (x1, x2, . . . , xp) ∈ U .Notons V l’ensemble de ces (p− 1)-uplets (x2, . . . , xp).

• V est un ouvert de Rp−1 : soient (x2, . . . , xp) ∈ V et x1 ∈ R tel que (x1, x2, . . . , xp) ∈ U.Comme U est ouvert, il existe r > 0 tel que pour tout y = (y1, . . . , yp) ∈ Rp vérifiant |yi−xi| < rpour tout i, on ait y ∈ U. Alors, pour tout (y2, . . . , yp) ∈ Rp−1 vérifiant |yi − xi| < r pour touti, on a (x1, y2, . . . , yp) ∈ U et donc (y2, . . . , yp) ∈ V , d’où le résultat.

• V est convexe : soient (x2, . . . , xp) et (y2, . . . , yp) dans V et λ ∈ [0,1]. Il existe x1 ∈ R et y1 ∈ R

tels que (x1, . . . , xp) ∈ U et (y1, . . . , yp) ∈ U . Alors, par convexité de U ,

(λx1 + (1− λ)y1,λx2 + (1− λ)y2, . . . , λxp + (1− λ)yp) = λ(x1, . . . , xp) + (1− λ)(y1, . . . , yp) ∈ U,

et donc

λ(x2, . . . , xp) + (1− λ)(y2, . . . , yp) = (λx2 + (1− λ)y2, . . . , λxp + (1− λ)yp) ∈ V.

• Enfin, comme f est de classe C1 sur U , la formule définissant g montre que g est de classe C1

sur V , ce qui conclut la démonstration.

5. Gradient

Si f : U → R est de classe C1, alors pour tout a ∈ U , on a le développement limité

f(a+ h) =‖h‖→0

f(a) + df(a) · h+ o(‖h‖),

354

avec, pour tout h = (h1, . . . ,hp) ∈ Rp,

df(a) · h =

p∑

i=1

∂f

∂xi(a)hi.

Dans Rp muni du produit scalaire canonique, ce terme se réinterprète comme un produit scalaire :

Soient f : U → R une fonction de classe C1 et a ∈ U . Le vecteur

∇f(a) =

(∂f

∂x1(a), . . . ,

∂f

∂xp(a)

)

est appelé gradient de f en a. La fonction ∇f : U → Rp est appelée gradient de f .

Pour tout h ∈ Rp, on adf(a) · h = (∇f(a) |h)

pour le produit scalaire canonique sur Rp.

Propriété/Définition : Gradient

Remarque – La règle de la chaîne se réécrit, en notant γ = (x1, . . . ,xp) :

∀ t ∈ I, g′(t) =(∇f(γ(t)) | γ′(t)

).

Exemples

• D’après la loi de Fourier, la densité de flux de chaleur dans un matériau s’écrit −λ∇T , où Test la température et λ > 0 est la conductivité thermique.

• On note ‖ · ‖ la norme euclidienne canonique sur Rp. L’application

f :

Rp → R

x 7→ ‖x‖2

est de classe C1 sur Rp. En effet, pour tout x = (x1, . . . ,xp) ∈ Rp,

f(x) = (x |x) = x21 + · · ·+ x2

p;

l’application f est donc polynomiale. On a de plus, pour tout a = (a1, . . . ,ap) ∈ Rp,

∇f(a) =

(∂f

∂x1(a), . . . ,

∂f

∂xp(a)

)

= (2a1, . . . ,2ap) = 2a.

• Revenons sur le calcul fait plus haut pour g : (r, θ) 7→ f(r cos(θ), r sin(θ)). Le calcul des dérivéespartielles de g peut se mettre sous la forme

∂g

∂r(r, θ)

∂g

∂θ(r, θ)

=

(cos(θ) sin(θ)−r sin(θ) r cos(θ)

)

∂f

∂x(r cos(θ),r sin(θ))

∂f

∂y(r cos(θ),r sin(θ))

.

Or, pour tout (r, θ) ∈ R2,

det

(cos(θ) sin(θ)−r sin(θ) r cos(θ)

)

= r(cos(θ)2 + sin(θ)2) = r

donc, si r > 0, la matrice précédente, notée J(r, θ), est inversible et on vérifie facilement que

J(r, θ)−1 =

cos(θ) −1

rsin(θ)

sin(θ)1

rcos(θ)

.

355

On a donc, pour tout (x, y) = (r cos(θ),r sin(θ)) tel que r > 0,

∂f

∂x(r cos(θ),r sin(θ))

∂f

∂y(r cos(θ),r sin(θ))

=

cos(θ) −1

rsin(θ)

sin(θ)1

rcos(θ)

∂g

∂r(r, θ)

∂g

∂θ(r, θ)

=

∂g

∂r(r, θ) cos(θ)− ∂g

∂θ(r, θ)

sin(θ)

r∂g

∂r(r, θ) sin(θ) +

∂g

∂θ(r, θ)

cos(θ)

r

.

Notons alors, pour tout θ ∈ R,

~u(θ) = (cos(θ), sin(θ)), ~v(θ) = (− sin(θ), cos(θ)).

La famille (~u(θ),~v(θ)) est une base orthonormée de R2 pour tout θ (la famille de fonctions (~u,~v)est appelée repère polaire de R2). On remarque que pour tout θ ∈ R,

~u ′(θ) = ~v(θ), ~v ′(θ) = −~u(θ).

Le calcul ci-dessus s’écrit alors : pour tout (r, θ) ∈ R∗+ × R et (x, y) = (r cos(θ),r sin(θ)),

∇f(x, y) =∂g

∂r(r, θ) ~u(θ) +

1

r

∂g

∂θ(r, θ)~v(θ).

On parle de formule du gradient en coordonnées polaires.

III. Problèmes d’extrema

On recherche les extrema (c’est-à-dire la plus grande et/ou la plus petite valeur) d’une fonctionf : U → R. Pour une fonction d’une variable réelle dérivable sur un intervalle I, on sait qu’enun point a où f atteint un extremum, si a est intérieur à I, on doit avoir f ′(a) = 0. Qu’en est-ilpour les fonctions de plusieurs variables ?

Soit a ∈ U .

• On dit que f admet un minimum local en a s’il existe r > 0 tel que B(a,r) ⊂ U etpour tout x ∈ B(a,r), f(x) > f(a).

• On dit que f admet un minimum global en a si pour tout x ∈ U , f(x) > f(a).

• On dit que f admet un maximum local en a s’il existe r > 0 tel que B(a,r) ⊂ U etpour tout x ∈ B(a,r), f(x) 6 f(a).

• On dit que f admet un maximum global en a si pour tout x ∈ U , f(x) 6 f(a).

• Enfin, un extremum est, par définition, un minimum ou un maximum.

Définition – Extremum

Remarque – Évidemment, un extremum global est un extremum local du même type, et la réci-proque est fausse.

Supposons que f soit de classe C1 et qu’elle ait par exemple un minimum local en a ∈ U. Soit(e1, . . . ,ep) la base canonique de Rp ; pour tout i ∈ [[1, p]] et h assez petit, on a donc

f(a+ hei) > f(a),

et doncf(a+ hei)− f(a)

h> 0 si h > 0,

f(a+ hei)− f(a)

h6 0 si h < 0.

356

Lorsque h tend vers 0, on obtient respectivement∂f

∂xi(a) > 0 et

∂f

∂xi(a) 6 0. Finalement, pour

tout i ∈ [[1, p]],∂f

∂xi(a) = 0.

On obtiendrait le même résultat avec un maximum local.

Soient f : U → R de classe C1 et a ∈ U .

On dit que a est un point critique de f si ∇f(a) = (0, . . . ,0). Ceci équivaut à

∀ i ∈ [[1, p]],∂f

∂xi(a) = 0, ou encore à : df(a) = 0L (Rp,R).

Définition – Point critique

Nous venons donc de montrer le résultat suivant :

Si f : U → R est de classe C1 sur U et admet un extremum local en a ∈ U , alors a estun point critique de f : ∇f(a) = 0.

Théorème – Condition nécessaire d’existence d’un extremum local

Comme pour les fonctions d’une variable, cette condition n’est pas suffisante. Par exemple,

f :

R2 → R

(x, y) 7→ x2 + y2 − 4xy

est de classe C1 car polynomiale, et admet (0,0) comme point critique, car

∀ (x, y) ∈ R2,∂f

∂x(x, y) = 2x− 4y et

∂f

∂y(x, y) = 2y − 4x.

Pourtant f n’a pas d’extremum local en (0,0). En effet, pour tout x ∈ R∗,

f(x,0) = x2 > 0 = f(0,0) tandis que f(x,x) = −2x2 < 0.

Méthode – Si a est un point critique de f , pour vérifier si f a un extremum local en a, on peutconsidérer, pour h tel que a+ h ∈ U,

f(a+ h)− f(a).

• Si on prouve que cette expression a un signe constant pour h dans un voisinage de (0, . . . ,0),alors f a un extremum local en a.

• Si on trouve des points h arbitrairement proches de (0, . . . ,0) pour lesquels f(a+h)−f(a) > 0,et d’autres pour lesquels f(a + h) − f(a) < 0, alors f n’a pas d’extremum local en a. Pourcela, on procède souvent comme dans le contre-exemple ci-dessus, en cherchant des « directions »particulières.

Remarque – Si K est une partie fermée, bornée et non vide de Rp, et si f : K → R est continue,alors on sait que f est bornée et atteint ses bornes : en d’autres termes, f admet un minimumglobal et un maximum global sur K. Mais en général, le théorème des bornes atteintes ne permetpas de savoir en quels points de K ces bornes sont atteintes. La condition nécessaire ci-dessuspermet de savoir, lorsque f est de classe C1 sur K (intérieur de K, qui est un ouvert), en quelspoints de K la fonction f est susceptible d’atteindre ses bornes. Mais il ne faut pas oublierqu’elles peuvent aussi être atteintes sur la frontière Fr(K) de K. Il peut alors suffire de testerla valeur de f sur la frontière de K ainsi qu’aux éventuels points critiques de f dans K, pourdéterminer les points en lesquels f atteint ses bornes.

357

On pourra garder en tête l’exemple très simple de la fonction f : x 7→ x, continue sur le ferméborné non vide [0,1] de R. Elle atteint ses bornes en 0 et 1, qui ne sont pas des points critiquesde f . Il n’y a pas de contradiction, car [0,1] n’est pas ouvert, 0 et 1 sont sur sa frontière.

Exemple – On souhaite conditionner un produit en cartons d’une contenance de 1 litre. On sedemande quelles sont les dimensions à donner à l’emballage afin d’utiliser le moins de cartonpossible (l’épaisseur du carton étant fixée).

Soient x, y et z les longueurs (exprimées en décimètres) des trois côtés du carton, évidemmentstrictement positives. La contrainte sur le volume de l’emballage s’écrit

xyz = 1.

De plus, la surface utilisée est égale à

2(xy + yz + xz) = 2

(

xy +1

x+

1

y

)

= 2S(x, y).

Le problème revient donc à déterminer l’éventuel minimum de S sur U = (R∗+)2.

Voici la représentation graphique de S ainsi que certaines de ses lignes de niveaux, i.e., lesensembles (x, y) ∈ R2; S(x, y) = λ pour certaines valeurs de λ :

x

0.51.0

1.52.0

2.5

y

0.5

1.0

1.52.0

2.5

z

0

2

4

6

8

10

0.5 1.0 1.5 2.0 2.5x

0.5

1.0

1.5

2.0

2.5y

3.1

3.3

3.5

4.0

4.0

5.0

5.0

6.0

6.0

7.0

La fonction S est de classe C1 sur U et pour tout (x, y) ∈ U ,

∂S

∂x(x, y) = y − 1

x2,

∂S

∂y(x, y) = x− 1

y2.

Il s’ensuit immédiatement que S possède un unique point critique sur U , égal à (1,1). On vamontrer que S possède un minimum global sur U en (1,1).

On remarque que S(1,1) = 3 et que l’on a S(x, y) > 3 si x < 1/3 ou y < 1/3 ou xy < 3.Définissons

K = (x, y) ∈ (R∗+)2; x > 1/3, y > 1/3, xy 6 3,

de sorte que S(x, y) > 3 si (x, y) /∈ K. De plus, K est non vide, fermé (intersection de troisfermés, par continuité des fonctions (x, y) 7→ x− 1/3, (x, y) 7→ y − 1/3 et (x, y) 7→ 3− xy) et Kest borné : si (x, y) ∈ K,

1

36 x 6

3

y6 9

et de même pour y. La fonction S a donc un minimum global sur K ; de plus, si (x, y) /∈ K,S(x, y) > 3 = S(1,1), donc S admet un minimum global sur U , qui doit être un point critiquede S, c’est-à-dire (1,1).

Finalement, la fonction S a un minimum global sur U en (1,1), i.e. pour x = y = z = 1.L’emballage le plus économique répondant aux contraintes données est le cube de côté 10 cm.La surface utilisée correspond à 2S(1,1) = 6 (elle vaut donc 6 dm2).

358

IV. Dérivées partielles d’ordre 2

• On dit que f est de classe C2 sur U si f est de classe C1 sur U et si les dérivées

partielles∂f

∂xi, pour i ∈ [[1, p]], sont de classe C1 sur U .

• Si f est de classe C2 sur U , alors pour tout (i,j) ∈ [[1, p]]2,

∂

∂xi

(∂f

∂xj

)

est notée∂2f

∂xi∂xjou ∂2

i,jf.

Lorsque i = j, on écrit simplement

∂2f

∂xi2

au lieu de∂2f

∂xi ∂xi.

Ces fonctions sont appelées dérivées partielles d’ordre 2 de f .

Définition

Remarque – On généralisera sans difficulté les résultats concernant les opérations sur les fonctionsde classe C1 (combinaison linéaire, produit, quotient) aux fonctions de classe C2. De plus, les ap-plications linéaires, les fonctions polynomiales, et les fractions rationnelles dont le dénominateurne s’annule pas, sont de classe C2.

Si f est de classe C2 sur U , alors pour tout (i,j) ∈ [[1, p]]2,

∂2f

∂xi ∂xj=

∂2f

∂xj ∂xi.

Théorème de Schwarz (admis : démonstration hors programme)

Exemple – Soit

f :

R2 → R

(x, y) 7→ x4 + y3 − 5x2y

La fonction f est de classe C∞ sur R2 car elle est polynomiale. Pour tout (x, y) ∈ R2,

∂f

∂x(x, y) = 4x3 − 10xy,

∂f

∂y(x, y) = 3y2 − 5x2,

et en ce qui concerne les dérivées d’ordre 2 :

∂2f

∂x2(x, y) = 12x2 − 10y,

∂2f

∂y2(x, y) = 6y et

∂2f

∂x ∂y(x, y) =

∂2f

∂y ∂x(x, y) = −10x.

V. Résolution d’équations aux dérivées partielles

De très nombreux phénomènes physiques, chimiques, biologiques, économiques sont modéli-sables par des équations aux dérivées partielles, c’est-à-dire, par une relation entre les différentesdérivées partielles (d’ordre 1 ou 2 très souvent) d’une certaine quantité. Elles sont souvent as-sociées à une condition initiale et/ou une condition « au bord », c’est-à-dire sur la frontière dudomaine d’espace.

Exemples

• L’équation de Poisson∆f(x) = g(x) pour x ∈ U ⊂ Rp

359

où ∆f =

p∑

i=1

∂2f

∂xi2

est le laplacien de f , intervient par exemple en électrostatique ; g correspond

à la distribution de charges, et f est le potentiel associé.

• L’équation des ondes

∂2f

∂t2(t,x) = c2 ∆f(t,x) pour (t,x) ∈ U ⊂ R× Rp,

modélise la propagation d’une onde (par exemple, sonore ou électromagnétique) dans Rp (c > 0est la vitesse ou célérité). Ici, ∆f désigne le laplacien de f par rapport aux variables d’espacereprésentées par x. Lorsque p = 1, on obtient l’équation

∂2f

∂t2= c2

∂2f

∂x2,

qui modélise par exemple la vibration unidirectionnelle d’une corde infinie, f(t,x) représentantle déplacement au temps t du point de la corde d’abscisse x.

• L’équation du transfert thermique, ou équation de la chaleur,

∂f

∂t(t,x) = D∆f(t,x) pour (t,x) ∈ U ⊂ R× Rp,

modélise l’évolution de la température f dans un milieu (D > 0 est le coefficient de diffusivitéthermique). Ici aussi, ∆f désigne le laplacien de f par rapport aux variables d’espace.

• L’équation du transport

∂f

∂t(t,x) + c(t,x)

∂f

∂x(t,x) = 0 pour (t,x) ∈ U ⊂ R× Rp,

où c : U → R est continue.

Un principe important de résolution d’équations aux dérivées partielles est d’effectuer unchangement de variable ; si f : U ⊂ Rp → R est une fonction de classe C1 (ou C2 pour une équationd’ordre 2) solution d’une équation aux dérivées partielles, on écrit, pour x = (x1, . . . ,xp) ∈ U ,

f(x) = g(u1(x), . . . ,up(x))

où u1, . . . ,up sont des fonctions définies sur U , à valeurs dans un ouvert V de Rp, et g : V → R.

Pour que cela définisse correctement la fonction g, on choisit les fonctions u1, . . . ,up et l’ouvertV de sorte que

φ :

U → Vx 7→ (u1(x), . . . ,up(x))

soit bijective. Ainsi, la relation f = gφ que l’on veut utiliser équivaut à g = f φ−1. On souhaiteégalement que g et φ soient de classe C1 (resp. C2 pour l’ordre 2), ce qui est le cas si toutes lesfonctions coordonnées de φ et φ−1 sont de classe C1 (resp. C2), par application de la règle de lachaîne.

Le changement de variable est choisi pour que g vérifie une équation aux dérivées partiellesla plus simple possible. Lorsque p = 2, on se ramène par exemple à l’une des équations suivantes(les variables de la fonction g sont notées y1 et y2) :

• ∂g

∂y1= 0 sur V .

Si V est convexe, on sait que cela entraîne que g ne dépend pas de sa première variable, et qu’ilexiste F de classe C1 sur un intervalle ouvert de R tel que, pour tout (y1,y2) ∈ V , g(y1,y2) =F (y2). La réciproque est évidente. On peut bien sûr adapter avec la deuxième variable.

360

• ∂2g

∂y1 ∂y2= 0 sur V .

De même, si V est convexe, ceci entraîne l’existence de G de classe C1 sur un intervalle ouvertde R tel que, pour tout (y1,y2) ∈ V ,

∂g

∂y2(y1,y2) = G(y2).

En notant G une primitive de G sur cet intervalle, la fonction

g : (y1,y2) 7→ g(y1,y2)−G(y2)

vérifie∂g

∂y2= 0 sur V. D’après le premier point, la fonction g ne dépend pas de sa deuxième

variable, et finalement g se met sous la forme

g : (y1,y2) 7→ F (y1) +G(y2)

où F et G sont de classe C2 sur des intervalles ouverts de R. La réciproque est évidente.

Dans chaque cas, on en déduit f par la relation f = g φ, puis on vérifie la réciproque. On peutaussi, dans certains cas, raisonner entièrement par équivalences.

Voici deux exemples fondamentaux de changements de variables qu’il faut savoir utiliser,avec, dans chaque cas, un exemple détaillé :

Transformation affine

Soit ψ un isomorphisme de Rp sur Rp. Une transformation affine consiste à choisir

φ : x ∈ U 7→ ψ(x) + a,

où a ∈ Rp. Dans ce cas, φ est une bijection, et φ−1 : y 7→ ψ−1(y − a), dont chaque fonctioncoordonnée est de classe C1 (et même C2) sur V = φ(U), car linéaire. Par exemple, dans R2, unetransformation affine convenable pour effectuer un changement de variable est une applicationde la forme

(x1,x2) 7→ (αx1 + βx2 + a1,γx1 + δx2 + a2)

avec αδ − βγ 6= 0.

Exemple – On cherche à déterminer toutes les fonctions f de classe C2 sur R2 telles que pour tout(x, y) ∈ R2,

∂2f

∂x2(x, y) − 3

∂2f

∂x ∂y(x, y) + 2

∂2f

∂y2(x, y) = 0. (E)

Le changement de variable utilisé ici est donné par la fonction

φ :

R2 → R2

(x, y) 7→ (x+ y, 2x+ y)

La fonction φ est linéaire, c’est une bijection de R2 sur R2 car, pour tout (x, y) ∈ R2 et (u, v) ∈ R2,

φ(x, y) = (u, v) ⇔

x+ y = u

2x+ y = v⇔

x = v − uy = u− x = 2u− v

Ainsi, φ est un isomorphisme de R2 sur R2, et pour tout (u, v) ∈ R2, φ−1(u, v) = (−u+v,2u−v).Soit f : R2 → R une fonction et

g : (u, v) 7→ (f φ−1)(u, v) = f(−u+ v,2u− v),

de sorte que pour tout (x, y) ∈ R2,

f(x, y) = (g φ)(x, y) = g(x+ y, 2x+ y).

361

D’après la règle de la chaîne pour les fonctions de deux variables, g est de classe C2 sur R2 si etseulement si f est de classe C2 sur R2, et dans ce cas, pour tout (x, y) ∈ R2,

∂f

∂x(x, y) =

∂g

∂u(x+y, 2x+y)+2

∂g

∂v(x+y, 2x+y),

∂f

∂y(x, y) =

∂g

∂u(x+y, 2x+y)+

∂g

∂v(x+y, 2x+y),

et, en tenant compte du théorème de Schwarz,

∂2f

∂x2(x, y) =

∂2g

∂u2(x+ y, 2x+ y) + 2

∂2g

∂v ∂u(x+ y, 2x+ y) + 2

∂2g

∂u ∂v(x+ y, 2x+ y) + 4

∂2g

∂v2(x+ y, 2x+ y)

=∂2g

∂u2(x+ y, 2x+ y) + 4

∂2g

∂u ∂v(x+ y, 2x+ y) + 4

∂2g

∂v2(x+ y, 2x+ y),

∂2f

∂x ∂y(x, y) =

∂2g

∂u2(x+ y, 2x+ y) + 2

∂2g

∂v ∂u(x+ y, 2x+ y) +

∂2g

∂u ∂v(x+ y, 2x+ y) + 2

∂2g

∂v2(x+ y, 2x+ y)

=∂2g

∂u2(x+ y, 2x+ y) + 3

∂2g

∂u ∂v(x+ y, 2x+ y) + 2

∂2g

∂v2(x+ y, 2x+ y),

∂2f

∂y2(x, y) =

∂2g

∂u2(x+ y, 2x+ y) +

∂2g

∂v ∂u(x+ y, 2x+ y) +

∂2g

∂u ∂v(x+ y, 2x+ y) +

∂2g

∂v2(x+ y, 2x+ y)

=∂2g

∂u2(x+ y, 2x+ y) + 2

∂2g

∂u ∂v(x+ y, 2x+ y) +

∂2g

∂v2(x+ y, 2x+ y).

Après simplifications, on obtient que f est solution de (E) sur R2 si et seulement si g est declasse C2 sur R2 avec, pour tout (x, y) ∈ R2,

∂2g

∂u ∂v(x+ y, 2x+ y) = 0.

L’image de φ étant R2, ceci équivaut au fait que g soit de classe C2 sur R2 avec

∂2g

∂u ∂v= 0.

En refaisant le raisonnement du deuxième point ci-dessus (R2 est convexe), on obtient que ceciéquivaut à l’existence de deux fonctions F et G de R dans R de classe C2 telles que pour tout(u, v) ∈ R2,

g(u, v) = F (u) +G(v).

Les solutions de (E) sur R2 sont donc exactement les fonctions de la forme

(x, y) 7→ F (x+ y) +G(2x+ y)

pour F et G deux fonctions quelconques de classe C2 sur R à valeurs dans R.

Coordonnées polaires

Soit θ0 ∈ [−π,π[. Notons U = R2 \D, où D est la demi-droite

(x, y) ∈ R2; arg(x+ iy) = θ0

(en considérant que 0 ∈ D). Si (x, y) ∈ U , il existe un unique r > 0 et un unique θ ∈ ]θ0,θ0 + 2π[tels que

(x, y) = (r cos(θ), r sin(θ)).

La fonction

ψ :

]0,+∞[× ]θ0,θ0 + 2π[ → U

(r, θ) 7→ (r cos(θ), r sin(θ))

est bijective, de classe C1 sur l’ouvert V = ]0,+∞[× ]θ0,θ0 + 2π[.

Pour tout (r, θ) ∈ V , l’égalité (x, y) = ψ(r, θ) entraîne que r =√

x2 + y2 et donc

cos(θ) =x

r=

x√

x2 + y2, sin(θ) =

y

r=

y√

x2 + y2.

362

Par exemple, lorsque θ0 = −π, soit (x, y) = ψ(r,θ) ∈ U avec (r,θ) ∈ V . En se restreignant àx > 0, on a

tan(θ) =y

xavec θ ∈ ]−π

2,π

2[,

doncψ−1(x, y) =

(√

x2 + y2, arctan(y

x

))

,

ce qui montre que chaque fonction-coordonnée de φ = ψ−1 est de classe C1 sur R∗+×R. Selon les

situations, on pourra considérer une autre valeur de θ0 et/ou adapter les formules précédentes.

Le passage en coordonnées polaires, c’est-à-dire le changement de variable défini par la fonc-tion φ précédente (ou une forme analogue selon l’ouvert sur lequel on travaille), permet derésoudre un certain nombre d’équations aux dérivées partielles.

Remarque – La formule donnant φ = ψ−1 dépend de l’ouvert sur lequel on travaille. Il est parfoisplus simple de travailler avec la fonction ψ, c’est-à-dire, à partir de la relation

g(r, θ) = (f ψ)(r, θ) = f(r cos(θ), r sin(θ)).

Exemple – Soit U = R∗+×R. On recherche toutes les fonctions f : U → R de classe C1 telles que,

pour tout (x, y) ∈ U , ∇f(x, y) soit colinéaire à (x, y). Cette condition équivaut au fait que pourtout (x, y) ∈ U ,

∣∣∣∣∣∣∣

∂f

∂x(x, y) x

∂f

∂y(x, y) y

∣∣∣∣∣∣∣

= 0, i.e., y∂f

∂x(x, y)− x∂f

∂y(x, y) = 0.

On résout cette équation aux dérivées partielles en passant en coordonnées polaires : avec lesnotations ci-dessus, on pose, pour f solution du problème,

g(r, θ) = f(r cos(θ), r sin(θ))

pour tout (r, θ) ∈ V = ]0,+∞[× ]−π2 ,

π2 [. D’après la règle de la chaîne, la fonction g est de classe

C1 sur V et pour tout (r, θ) ∈ V ,

∂g

∂θ(r, θ) =

∂f

∂x(r cos(θ),r sin(θ)) (−r sin(θ)) +

∂f

∂y(r cos(θ),r sin(θ)) (r cos(θ)) = 0;

V étant convexe, la fonction g est donc indépendante de θ : il existe F : ]0, +∞[→ R de classeC1 telle que, pour tout (r, θ) ∈ V, g(r, θ) = F (r). La fonction ψ étant une bijection de V sur U ,pour tout (x, y) ∈ U , il existe (r,θ) ∈ V tel que (x, y) = ψ(r,θ), et alors

f(x, y) = (g φ)(x, y) = F (√

x2 + y2) = F (x2 + y2),

où F : r 7→ F (√r ) est de classe C1 sur ]0, +∞[ par composition. Réciproquement, soit f une

fonction de la forme précédente. Alors f est de classe C1 sur U par composition et, pour tout(x, y) ∈ U ,

y∂f

∂x(x, y)− x∂f

∂y(x, y) = y × 2xF ′(x2 + y2)− x× 2y F ′(x2 + y2) = 0.

Les solutions du problème sont donc exactement les fonctions de la forme

(x, y) 7→ F (x2 + y2)

avec F : ]0, +∞[→ R de classe C1. Ce sont des fonctions « isotropes », c’est-à-dire, dépendantde (x, y) uniquement via sa norme euclidienne usuelle.

363

VI. Courbes et surfaces

Dans le chapitre Fonctions vectorielles – Arcs paramétrés, nous avons étudié les courbesdonnées par une représentation paramétrique, et nous avons notamment décrit l’allure localed’une telle courbe, en lien avec la notion de tangente. Dans cette partie, nous allons étudier lecas d’une courbe ou surface définie par une équation cartésienne de la forme f(x, y) = 0 ouf(x, y, z) = 0.

On travaillera dans R2 ou R3 munis de leur structure euclidienne canonique.

1. Courbes du plan données par une équation cartésienne

Dans ce paragraphe, p = 2. Dans de nombreuses situations, une courbe C du plan n’est pasdonnée par un paramétrage, mais par une équation cartésienne, c’est-à-dire que C est l’ensembledes points (x, y) de U tels que f(x, y) = 0 où f : U → R est de classe C1. Il se peut que cecidéfinisse la courbe de façon implicite, car il faut a priori résoudre une équation pour tracer cettecourbe. On peut citer l’exemple des courbes équipotentielles, isoclines, de même altitude, etc . . .

Exemples

• Si φ : I → R est de classe C1 sur un intervalle ouvert I de R, le graphe de φ est la courbe Cd’équation y = φ(x), c’est-à-dire f(x, y) = 0 avec f : (x, y) 7→ φ(x)− y, de classe C1 sur l’ouvertU = I × R. Dans ce cas, la représentation est explicite car y est fonction de x. La courbe C esten fait l’image de l’arc paramétré (I,γ) où, pour tout x ∈ I, γ(x) = (x,φ(x)).

• Le cercle unité C de R2 a pour équation x2 + y2 = 1. On peut choisir f(x, y) = x2 + y2 − 1pour tout (x, y) ∈ R2.

Dans l’exemple précédent, on remarquera que l’on peut entièrement résoudre l’équation, maisce n’est pas toujours possible. On souhaite trouver un moyen de décrire, malgré cela, la courbeC. On sait notamment le faire pour les arcs paramétrés : si Γ = (I,γ) est un arc de classe C1, Γpossède, en chaque point régulier M(t0), une tangente dirigée par γ′(t0) (on rappelle que M(t0)est un point régulier de Γ si et seulement si γ′(t0) 6= 0). On souhaite se ramener à cette situation.

Soit f : U → R de classe C1 et C la partie de R2 d’équation f(x, y) = 0.

On appelle point régulier de C tout point (x0,y0) ∈ C tel que

∇f(x0,y0) 6= (0,0),

c’est-à-dire, tel que∂f

∂x(x0,y0) 6= 0 ou

∂f

∂y(x0,y0) 6= 0.

En d’autres termes, il s’agit des points de C qui ne sont pas des points critiques de f .

Définition – Point régulier

Avec les notations précédentes, soit (x0,y0) un point régulier de C.Alors il existe r > 0, η > 0 et γ : ]−η,η[→ U de classe C1, tels que :

• (x0,y0) = γ(0) ;

• ( ]−η,η[ ,γ) soit un arc paramétré simple et régulier ;

• B((x0,y0),r) ⊂ U et pour tout (x, y) ∈ B((x0,y0),r), on a l’équivalence :

f(x, y) = 0 ⇔ ∃ t ∈ ]−η,η[ ; (x, y) = γ(t).

On dit que ( ]−η,η[ ,γ) est un paramétrage local de C au voisinage de (x0,y0).

Théorème (admis)

364

Exemple – Soit C le cercle unité d’équation f(x, y) = 0 avec f : (x, y) 7→ x2 + y2 − 1. La fonctionf est de classe C1 sur R2 et pour tout (x, y) ∈ R2,

∇f(x, y) = (2x,2y),

qui est non nul sauf à l’origine, qui n’est pas un point de C. Tous les points de C sont donc réguliers.En fait, dans ce cas, on peut construire explicitement un paramétrage de C au voisinage de chaquepoint. Par exemple, au voisinage d’un point (a,b) de C tel que b > 0, on peut paramétrer C par

γ1 :

[−a− 1,− a+ 1] → R2

t 7→ (a+ t,√

1− (a+ t)2)

Au voisinage de (1,0), on peut paramétrer C par

γ2 :

[−1,1] → R2

t 7→ (√

1− t2, t)

On peut procéder de même dans les autres cas.

Il est important de bien comprendre les différentes notions de point régulier selon le type decourbe considéré, et les liens entre ces notions :

Bilan

• Si la courbe est donnée par un paramétrage (I,γ) où γ : I → R2 est de classe C1, un pointM(t) est régulier si et seulement si γ′(t) 6= 0.

• Si la courbe est donnée par une équation cartésienne f(x, y) = 0 où f : U → R est de classeC1, un point (x0,y0) de C est régulier si et seulement si ∇f(x0,y0) 6= (0,0).

Le résultat admis ci-dessus montre que si l’on est dans la situation du deuxième point, on estégalement dans la situation du premier : au voisinage d’un point régulier au sens du deuxièmepoint, une courbe donnée de façon implicite peut être « explicitée », et être vue comme l’imaged’un arc paramétré régulier (on peut écrire x et y comme fonctions d’un paramètre t).

Soit maintenant C une partie de R2 donnée par une équation cartésienne f(x, y) = 0, etsupposons que l’on soit dans le cadre d’application du théorème précédent en un point (x0,y0),c’est-à-dire que f est de classe C1 sur U avec ∇f(x0,y0) 6= (0,0). Avec les notations du théorème,et en notant γ = (x, y), on a par définition même, pour tout t ∈ ]−η,η[,

f(x(t),y(t)) = 0.

D’après la règle de la chaîne, ceci définit une fonction de classe C1 sur ]−η,η[ et, pour toutt ∈ ]−η,η[,

∂f

∂x(x(t),y(t))x′(t) +

∂f

∂y(x(t),y(t)) y′(t) = 0, i.e.

(∇f(γ(t)) | γ′(t)

)= 0,

et donc, pour t = 0,

∂f

∂x(x0,y0)x

′(0) +∂f

∂y(x0,y0) y

′(0) = 0, i.e.(∇f(x0,y0) | γ′(0)

)= 0.

La tangente à la courbe C au point (x0,y0) (en tant que support d’un arc paramétré simple etrégulier au voisinage de ce point) est la droite passant par (x0,y0) et dirigée par γ′(0). Or, l’égalitéprécédente montre que le vecteur (non nul) ∇f(x0,y0) est orthogonal à γ′(0) : ∇f(x0,y0) est unvecteur normal à la tangente.

La tangente à la courbe C au point (x0,y0) est donc l’ensemble des points (x, y) ∈ R2 tels que

(∇f(x0,y0) | (x− x0,y − y0)) = 0.

On a ainsi démontré le résultat suivant :

365

Soit f : U → R de classe C1 et C la partie de R2 d’équation f(x, y) = 0.

Soit (x0,y0) un point régulier de C.• La courbe C possède une tangente en (x0,y0), d’équation

∂f

∂x(x0,y0) (x− x0) +

∂f

∂y(x0,y0) (y − y0) = 0.

Si∂f

∂x(x0,y0) = 0, il s’agit d’une tangente horizontale, si

∂f

∂y(x0,y0) = 0, il s’agit d’une

tangente verticale.

• On appelle normale à C au point (x0,y0), la droite passant par (x0,y0) et dirigée parle vecteur

∇f(x0,y0) =

(∂f

∂x(x0,y0),

∂f

∂y(x0,y0)

)

.

On dit que ∇f(x0,y0) est orthogonal à C au point (x0,y0).

Propriété/Définition : Tangente en un point régulier

Exemple – Soit C la partie de R2 d’équation

x3 + 3y2 + 6xy + 4 = 0.

Elle a pour équation cartésienne f(x, y) = 0 où f : (x, y) 7→ x3 + 3y2 + 6xy + 4 est de classe C1

sur R2. Pour tout (x, y) ∈ R2,

∂f

∂x(x, y) = 3x2 + 6y et

∂f

∂y(x, y) = 6y + 6x.

On a les équivalences

3x2 + 6y = 0

6y + 6x = 0⇔

x2 + 2y = 0

y = −x ⇔

x2 − 2x = 0

y = −x

⇔ (x, y) = (0,0) ou (x, y) = (2,−2).

Les points critiques de f sont donc (0,0) et (2,−2). De ces deux points, seul (2,−2) appartient àC. Tout autre point de C est donc régulier, et l’équation de la tangente à C en l’un de ses pointsréguliers (x0,y0) est

∂f

∂x(x0,y0) (x− x0) +

∂f

∂y(x0,y0) (y − y0) = 0

i.e. (x20 + 2y0)(x− x0) + 2(x0 + y0)(y − y0) = 0.

Cas particulier – Si φ est une fonction de classe C1 sur un intervalle ouvert I, son graphe Cest la courbe d’équation f(x, y) = 0 avec f : (x, y) 7→ φ(x)− y, de classe C1 sur U = I ×R. Toutpoint de C est régulier car

∇f(x, y) = (φ′(x),− 1) 6= (0,0)

pour tout (x, y) ∈ C. La tangente à C en un point (x0,y0) a pour équation

∂f

∂x(x0,y0)(x− x0) +

∂f

∂y(x0,y0)(y − y0) = 0,

i.e. φ′(x0)(x− x0)− (y − y0) = 0.

Sachant que y0 = φ(x0), on retrouve bien sûr l’équation

y = φ′(x0)(x− x0) + φ(x0).

366

Soit f : U → R et λ ∈ R.

On appelle ligne de niveau λ de f la partie de U d’équation f(x, y) = λ.

Définition – Ligne de niveau

Exemple – Voici le graphe et certaines lignes de niveau de la fonction

f : (x, y) 7→ 1

2+

1

10

(

(1− x)2 +

(3

2y − x2

)2)

x

−1.0−0.5

0.00.5

1.0

y

−1.0−0.5

0.00.5

1.01.5

2.0

z

0.0

0.5

1.0

1.5

2.0

Remarque – Bien sûr, l’étude des lignes de niveau de f entre dans le cadre précédent, via l’étudede l’équation f(x, y) − λ = 0. Les points réguliers de cette ligne de niveau sont ses points enlesquels ∇f ne s’annule pas, puisque ∇(f − λ) = ∇f.

Soit f : U → R de classe C1 et λ ∈ R. Soit (x0,y0) un point régulier de la ligne deniveau λ de f , c’est-à-dire que f(x0,y0) = λ et ∇f(x0,y0) 6= (0,0).

Alors ∇f(x0,y0) est orthogonal à la ligne de niveau λ de f , et orienté dans le sens desvaleurs croissantes de f , c’est-à-dire qu’il existe η > 0 tel que la fonction

t 7→ f((x0,y0) + t∇f(x0,y0)) = f

(

x0 + t∂f

∂x(x0,y0), y0 + t

∂f

∂y(x0,y0)

)

soit strictement croissante sur ]−η,η[.

Propriété – Gradient et lignes de niveau

Démonstration – La première conclusion est déjà connue, d’après la propriété et la remarqueprécédentes. Pour la seconde conclusion, la fonction f est de classe C1 sur U et les fonctions

x : t 7→ x0 + t∂f

∂x(x0,y0) et y : t 7→ y0 + t

∂f

∂y(x0,y0)

sont de classe C1 sur R et ont pour limites respectives x0 et y0 en 0, le point (x0,y0) appartenantà l’ouvert U . La fonction

g : t 7→ f((x0,y0) + t∇f(x0,y0)) = f(x(t),y(t))

367

est donc bien définie au voisinage de 0, et d’après la règle de la chaîne, elle est de classe C1 auvoisinage de 0 avec, pour tout t ∈ R assez proche de 0,

g′(t) =∂f

∂x(x(t),y(t))x′(t) +

∂f

∂y(x(t),y(t)) y′(t)

=∂f

∂x(x(t),y(t))

∂f

∂x(x0,y0) +

∂f

∂y(x(t),y(t))

∂f

∂y(x0,y0),

et en particulier

g′(0) =

(∂f

∂x(x0,y0)

)2

+

(∂f

∂y(x0,y0)

)2

= ‖∇f(x0,y0)‖2.

Sachant que ∇f(x0,y0) 6= (0,0), on a donc g′(0) > 0. La fonction g étant de classe C1 au voisinagede 0, il existe η > 0 tel que g′(t) > 0 pour tout t ∈ ]−η,η[, d’où le résultat.

Exemple – Soit f : (x, y) 7→ x2 + y2. Les lignes de niveau de f sont les sous-ensembles de R2

d’équation x2 + y2 = λ où λ ∈ R. Si λ < 0, cet ensemble est vide, si λ = 0, il est réduit au point(0,0), et si λ > 0, il s’agit du cercle de centre (0,0) et de rayon

√λ.

La fonction f est de classe C1 sur R2 et pour tout (x, y) ∈ R2,

∇f(x, y) = 2(x, y),

il est donc colinéaire à (x, y) (ce qui est cohérent avec le deuxième exemple d’équation auxdérivées partielles que nous avons traité). Pour tout (x0,y0) 6= (0,0), ∇f(x0,y0) est non nul etorthogonal à la ligne de niveau λ = x2

0 + y20 de f , orienté dans le sens des valeurs croissantes de

f , c’est-à-dire, « s’éloignant » de l’origine.

Remarque – En électrostatique par exemple :

• Si une fonction V représente un potentiel électrique V , les lignes de niveau de V sont appeléeslignes équipotentielles.

• Si le champ électrostatique−→E dérive de V , c’est-à-dire vérifie

−→E = −∇V , on appelle ligne

de champ de−→E toute courbe C régulière telle que pour tout (x, y) ∈ C, −→E (x, y) soit un vecteur

tangent à C en (x, y).

D’après ce qui précède, les lignes de champ de−→E sont orthogonales aux lignes équipotentielles

de V . De plus,−→E est dirigé dans le sens des potentiels décroissants.

Exemple – Ci-dessous, on visualise certaines lignes de niveau de la fonction f représentée précé-demment, ainsi que les valeurs de ∇f sur un maillage du plan, à partir desquelles on devine leslignes de champ de ∇f . On constate graphiquement sur cet exemple la propriété précédente :

−1.0 −0.5 0.0 0.5 1.0x

−1.0

−0.5

0.0

0.5

1.0

1.5

2.0

y

1 2

3

4

4

5

5

5

6

6

7

7

8

8

9

9 10

368

2. Surfaces données par une équation cartésienne

Dans ce paragraphe, p = 3. On souhaite étudier les surfaces données par une équation carté-sienne de la forme f(x, y, z) = 0, où f : U → R est de classe C1.

Exemples

• La sphère unité de R3 a pour équation cartésienne x2 + y2 + z2 = 1.

• Si g : V → R est une fonction de classe C1 sur un ouvert V de R2, la surface représentativede g a pour équation cartésienne z = g(x, y), ce qui entre dans le cadre précédent, en posantf(x, y, z) = g(x, y) − z pour tout (x, y, z) ∈ R3 tel que (x, y) ∈ V . Dans ce cas, il s’agit d’unereprésentation explicite car z est directement donné en fonction de x et y.

Soit f : U → R de classe C1 et S la partie de R3 d’équation f(x, y, z) = 0.

• On appelle point régulier de S tout point (x0,y0,z0) ∈ S tel que

∇f(x0,y0,z0) 6= (0,0,0)

c’est-à-dire, tel que∂f

∂x(x0,y0,z0) 6= 0 ou

∂f

∂y(x0,y0,z0) 6= 0 ou

∂f

∂z(x0,y0,z0) 6= 0.

• Si (x0,y0,z0) est un point régulier de S, on appelle plan tangent à S en (x0,y0,z0)le plan orthogonal à ∇f(x0,y0,z0) et passant par (x0,y0,z0), c’est-à-dire, le plan de R3

d’équation

(∇f(x0,y0,z0) | (x − x0, y − y0, z − z0)) = 0,

i.e.∂f

∂x(x0,y0,z0)(x− x0) +

∂f

∂y(x0,y0,z0)(y − y0) +

∂f

∂z(x0,y0,z0)(z − z0) = 0.

Définition – Point régulier, plan tangent

Exemple – Soit g : V → R une fonction de classe C1 sur un ouvert V de R2 et soit S la surfacereprésentative de g, c’est-à-dire, la surface d’équation z = g(x, y).

Comme on l’a expliqué ci-dessus, c’est un cas particulier de surface donnée par une équationcartésienne f(x, y, z) = 0 avec f : (x, y, z) 7→ g(x, y) − z définie sur l’ouvert de R3

U = (x, y, z) ∈ R3; (x, y) ∈ V .

La fonction f est de classe C1 sur U de même que g sur V , et pour tout (x, y, z) ∈ U ,

∇f(x, y, z) =

(∂g

∂x(x, y),

∂g

∂y(x, y), − 1

)

6= (0,0,0).

En particulier, chaque point de S est régulier. Si (x0,y0,z0) ∈ S, le plan tangent à S en (x0,y0,z0)a pour équation

∂g

∂x(x0,y0)(x− x0) +

∂g

∂y(x0,y0)(y − y0)− (z − z0) = 0,

i.e. z =∂g

∂x(x0,y0)(x− x0) +

∂g

∂y(x0,y0)(y − y0) + g(x0,y0).

3. Courbes tracées sur une surface

Soit f : U → R de classe C1 et S la partie de R3 d’équation f(x, y, z) = 0.

On appelle courbe tracée sur la surface S tout arc paramétré (I,γ) où I est unintervalle de R et γ = (x, y, z) : I → R3 vérifie, pour tout t ∈ I, (x(t),y(t),z(t)) ∈ S.

Définition

369

Par exemple, ci-dessous, on visualise une partie de la courbe paramétrée par

x(t) = cos(t) ch(t/4)

y(t) = sin(t) ch(t/4)

z(t) = sh(t/4)

tracée sur la surface d’équation cartésienne x2 + y2 − z2 = 1.

−10−5

05

10 −10

−5

0

5

10

−10

−5

0

5

10

Par définition même, on a, avec les notations précédentes : pour tout t ∈ I,

f(x(t), y(t), z(t)) = 0.

Si γ est de classe C1, alors d’après la règle de la chaîne, t 7→ f(x(t), y(t), z(t)) est de classe C1

sur I. Comme cette fonction est nulle, on a, pour tout t ∈ I,

∂f

∂x(x(t), y(t), z(t))x′(t) +

∂f

∂y(x(t), y(t), z(t)) y′(t) +

∂f

∂z(x(t), y(t), z(t)) z′(t) = 0

i.e.(∇f(γ(t)) | γ′(t)

)= 0,

et donc ∇f(γ(t)) est orthogonal à γ′(t), qui dirige la tangente à la courbe en chacun de ses pointsréguliers.

On en déduit le résultat suivant :

Soit Γ = (I,γ) une courbe tracée sur la surface S d’équation f(x, y, z) = 0 où f : U → R

est de classe C1. On note C le support de Γ.

Soit (x0,y0,z0) = M(t0) ∈ S un point régulier en tant qu’élément de S et en tant quepoint de Γ.

Alors la tangente à Γ en M(t0) est contenue dans le plan tangent à S en (x0,y0,z0).

Propriété – Tangente à une courbe tracée sur une surface

370

Cas particulier – Soit S la surface représentative d’une fonction g : V → R de classe C1,c’est-à-dire, la surface d’équation z = g(x, y).

Fixons l’une des coordonnées x ou y, ce qui revient à considérer l’intersection de S avec des plansparallèles aux plans de coordonnées (yOz) ou (xOz). Par exemple, fixons y = y0 et considéronsle sous-ensemble

(x, y0, g(x,y0)); (x,y0) ∈ V .

C’est le support d’une courbe tracée sur S, que l’on peut paramétrer par

x 7→ (x, y0, g(x,y0));

elle est régulière. La situation est analogue si l’on fixe x = x0. Les courbes de cette forme sontappelées courbes coordonnées de S.

Enfin, si l’on fixe z = z0, on obtient le sous-ensemble

(x,y,z0) ∈ U ; g(x, y) = z0,

qui s’identifie à la ligne de niveau z0 de g. Si ∇g(x, y) 6= (0,0) pour tout (x, y) ∈ V tel queg(x, y) = z0, l’ensemble considéré est une courbe régulière et le théorème admis au paragrapheprécédent permet de la paramétrer localement par des fonctions de la forme

t 7→ (x(t), y(t), z0);

à nouveau, on obtient une courbe tracée sur S.

Remarque – Contrairement aux courbes coordonnées, qui sont toujours régulières, le sous-ensemble

(x,y,z0) ∈ U ; z0 = g(x, y)

peut ne pas être une courbe régulière ; il peut même ne pas être une courbe, si par exempleg prend la valeur z0 sur une partie de surface non nulle, comme un disque, une couronne...Pourtant, S est toujours une surface dont tous les points sont réguliers, elle possède bien un plantangent en chacun de ses points !

Exemple – Soit g : (x, y) 7→ x2 − y2. La fonction g est de classe C1 sur R2. À y = y0 fixé, onobtient le sous-ensemble

(x, y0, x2 − y2

0); x ∈ R,

qui est une parabole dont les branches sont tournées « vers le haut ». À x = x0 fixé, on obtientle sous-ensemble

(x0, y, x20 − y2); y ∈ R

qui est une parabole dont les branches sont tournées « vers le bas ». À z = z0 fixé, on obtient lesous-ensemble

(x, y, z) ∈ R3; x2 − y2 = z0.

Si z0 = 0, il s’agit de la réunion de deux droites sécantes, sinon, il s’agit d’une hyperbole.

Voici la représentation graphique de la fonction g, sur laquelle on peut visualiser des courbescoordonnées de la surface (directement sur la surface), certaines de leurs projections sur des plans« verticaux », et certaines lignes de niveau de g :

371

x

−3−2

−10

12

3

y

−3

−2

−1

0

1

2

3

z

−6

−4

−2

0

2

4

6

Sur la figure suivante, on visualise plus particulièrement certaines lignes de niveaux de g :

−3 −2 −1 0 1 2 3x

−3

−2

−1

0

1

2

3

y

-4.8

-4.8

-4.0

-4.0

-3.2

-3.2

-2.4

-2.4

-1.6

-1.6

-0.8

-0.8

0.0 0.0

0.8 0.8

1.6 1.6

2.4 2.4

3.2 3.2

4.0 4.0

4.8 4

.8

On constate que toutes les lignes de niveau de g sont régulières sauf la ligne de niveau 0 (réuniondes deux droites sécantes), dont le point (0, 0) n’est pas un point régulier.

Cela se démontre très facilement : la fonction g est de classe C1 sur R2 car polynomiale, et pourtout (x, y) ∈ R2,

∇g(x, y) = (2x,−2y);

ainsi ∇g s’annule uniquement en (0, 0), qui est un point de la ligne 0 de g.

372

Annexe 1 : Relations de comparaison

Sauf précision, les suites et fonctions considérées ici sont à valeurs dans K = R ou C.

I. Le cas des suites

Soient (un) et (vn) deux suites d’éléments de K. On suppose qu’il existe N ∈ N tel quepour tout n > N , vn 6= 0.

• On dit que (un) est négligeable devant (vn) (ou que (vn) est prépondérante devant(un)) si

un

vn→ 0,

ce quotient étant bien défini pour n > N.

Ceci équivaut à chacune des propriétés suivantes (que l’on peut prendre comme défini-tion dans le cas plus général où vn peut s’annuler pour des valeurs de n arbitrairementgrandes) :

• Il existe une suite (εn) qui converge vers 0 telle que, pour tout n > N,

un = εnvn.

• ∀ ε > 0, ∃n0 > N ; ∀n > n0, |un| 6 ε|vn|.On écrit alors un = o(vn) (se lit « un est un petit o de vn »).

• On dit que (un) est dominée par (vn) (ou que (vn) domine (un)) si la suite(un

vn

)

n>N

est bornée.

Ceci équivaut à l’existence d’un réel M > 0 tel que, pour tout n > N,

|un| 6 M |vn|.

On peut prendre cette propriété comme définition dans le cas plus général où vn peuts’annuler pour des valeurs de n arbitrairement grandes.

On écrit alors un = O(vn) (se lit « un est un grand O de vn »).

Définition – Relations de négligeabilité et de domination

Exemple – Pour tout n ∈ N∗, soit un =ein

n2. Alors un = o

(1

n

)

et un = O

(1

n2

)

.

Remarques

• Si (un) est négligeable devant (vn), alors elle est dominée par (vn).

• un = o(1) signifie que (un) converge vers 0, un = O(1) signifie que (un) est bornée.

373

Une suite bornée est négligeable devant une suite (vn) vérifiant |vn| → +∞.En particulier, une suite convergente est négligeable devant une suite (vn) vérifiant|vn| → +∞.

Propriété

Opérations sur les « o » et les « O »

Soient (un), (vn), (wn) et (tn) quatre suites d’éléments de K.

• Transitivité :

un = o(vn)vn = o(wn)

⇒ un = o(wn).

• Produit par un scalaire : Si un = o(vn), alors, pour tout λ ∈ K∗, un = o(λvn).

• Somme :

un = o(wn)vn = o(wn)

⇒ un + vn = o(wn).

• Produit :

un = o(wn)vn = o(tn)

⇒ unvn = o(wntn).

• Puissance : Si k > 0 et si (un) et (vn) sont à termes réels strictement positifs, alors

un = o(vn) ⇒ ukn = o(vk

n).

Tous ces résultats sont vrais en remplaçant « o » par « O ».

Croissances comparées classiques

• Si (α,β) ∈ R2 et α < β, alors nα = o(nβ).

• Si (a,b) ∈ C2 et |a| < |b|, alors an = o(bn).

• Si α > 0 et β ∈ R, (ln n)β = o(nα).

• Si a ∈ C vérifie |a| > 1 et si α ∈ C, nα = o(an), an = o(n!).

• Si a ∈ C vérifie |a| < 1 et si α ∈ C, an = o

(1

nα

)

.

• n! = o(nn).

Soient (un) et (vn) deux suites d’éléments de K. On suppose qu’il existe N ∈ N tel quepour tout n > N , vn 6= 0.

On dit que (un) est équivalente à (vn) si

un

vn→ 1,

ce quotient étant bien défini pour n > N.

Ceci équivaut à l’existence d’une suite (εn) qui converge vers 0 telle que, pour toutn > N,

un = (1 + εn)vn.

On peut prendre cette propriété comme définition dans le cas plus général où vn peuts’annuler pour des valeurs de n arbitrairement grandes.

On écrit alors un ∼ vn (se lit « un est équivalent à vn »).

Définition – Relation d’équivalence

374

Remarques

• un ∼ vn ⇔ un = vn + o(vn)⇔ un − vn = o(vn).

• Si un ∼ vn, alors pour tout n assez grand, un 6= 0 et

vn

un→ 1.

On en déduit que un ∼ vn ⇔ vn ∼ un. On peut donc dire que (un) et (vn) sont équivalentes.

Exemples

• Tout polynôme en n est équivalent à son terme de plus haut degré.

• Toute fraction rationnelle en n est équivalente au quotient des termes de plus haut degré.

Si (un) et (vn) sont à termes réels, si un ∼ vn et si les termes de l’une des deux suitessont strictement positifs à partir d’un certain rang, alors il en est de même pour l’autre(de même pour un signe strictement négatif).

Propriété – Signe de deux suites équivalentes

Si ℓ 6= 0, alors un → ℓ si et seulement si un ∼ ℓ.Propriété

Si (un) et (vn) sont deux suites équivalentes, alors :

• (un) et (vn) sont de même nature (convergente ou divergente).

• Si un → ℓ ∈ K, alors vn → ℓ.

• Si (un) et (vn) sont à termes réels, et si un → +∞ (resp. −∞) alors vn → +∞ (resp.−∞).

Théorème

Attention ! En revanche, lim un = lim vn ; un ∼ vn. Par exemple, si pour tout n ∈ N, un = net vn = n2, alors un → +∞, vn → +∞ mais un n’est pas équivalent à vn.

Équivalents classiques

• Si un → 0, alors :

ln(1 + un) ∼ un eun − 1 ∼ un

(1 + un)α − 1 ∼ αun (α ∈ R) sin(un) ∼ un

cos(un)− 1 ∼ −u2n

2tan(un) ∼ un.

• Si P (x) = apxp + · · ·+ aqx

q, (avec p > q, ap 6= 0, aq 6= 0), alors :

– si un → 0, P (un) ∼ aquqn;

– si un → +∞ (ou −∞), P (un) ∼ apupn.

375

Opérations sur les équivalents

• Transitivité :

un ∼ vn

vn ∼ wn⇒ un ∼ wn.

• Produit :

un ∼ wn

vn ∼ tn ⇒ unvn ∼ wntn.

• Inverse : un ∼ vn ⇒1

un∼ 1

vn.

• Quotient :

un ∼ wn

vn ∼ tn ⇒ un

vn∼ wn

tn.

• Valeur absolue ou module : un ∼ vn ⇒ |un| ∼ |vn|.• Puissance : Si k ∈ R et si (un) et (vn) sont à termes réels strictement positifs, alors

un ∼ vn ⇒ (un)k ∼ (vn)k.

Remarque – La relation ∼ est une relation d’équivalence.

Opérations à ne pas faire en général sur les équivalents

• La somme : on peut multiplier et diviser les équivalents, mais pas les sommer.un ∼ wn

vn ∼ tn 6⇒ un + vn ∼ wn + tn. Par exemple, on a

n2 + n ∼ n2

−n2 ∼ −n2 , mais n 6∼ 0.

• La composition : en général, on ne peut pas composer un équivalent par une fonction.

un ∼ vn 6⇒ f(un) ∼ f(vn). Par exemple, on a n2 + n ∼ n2, mais en2+n 6∼ en2

.

En dehors du cas de l’élévation à une puissance, il existe toutefois un cas où la compositionest possible, mais à démontrer à chaque usage, car il ne figure pas au programme :

Soient (un) et (vn) deux suites à termes réels strictement positifs telles que un ∼ vn et

un →

ℓ (avec ℓ > 0 et ℓ 6= 1)ou+∞

Alors ln(un) ∼ ln(vn).

Propriété (Hors-programme)

Contre-exemple si un → 1 : considérer un = 1 +1

net vn = 1 +

1

2n.

376

II. Le cas des fonctions

Soit I un intervalle de R et a adhérent à I, avec éventuellement a = ±∞.

Soient f et g deux applications définies sur I \ a à valeurs dans K. On suppose qu’ilexiste η > 0 tel que pour tout x ∈ I \ a tel que |x− a| 6 η, on ait g(x) 6= 0.

• On dit que f est négligeable devant g (ou que g est prépondérante devant g) ena si

f(x)

g(x)−→x→ax 6=a

0,

ce quotient étant bien défini pour x ∈ I \ a tel que |x− a| 6 η.

On écrit alors f(x) =x→a

o(g(x)) (se lit « f(x) est un petit o de g(x) lorsque x tend vers

a »).

• On dit que f est dominée par g (ou que g domine f) s’il existe δ ∈ ]0, η] tel que la

fonctionf

gsoit bornée sur x ∈ I \ a; |x− a| 6 δ.

On écrit alors f(x) =x→a

O(g(x)) (se lit « f(x) est un grand O de g(x) lorsque x tend

vers a »).

• On dit que f est équivalente à g en a si

f(x)

g(x)−→x→ax 6=a

1,

On écrit alors f(x) ∼x→a

g(x) (se lit « f(x) est équivalent à g(x) lorsque x tend vers

a »).

Définition – Relations de comparaison pour les fonctions

On établira aisément les propriétés et opérations possibles et impossibles sur les relations decomparaison.

377

378

Annexe 2 : Intégrales de Wallis

On s’intéresse aux intégrales

In =

∫ π/2

0sinn(x) dx et Jn =

∫ π/2

0cosn(x) dx,

où n ∈ N. Ces intégrales sont appelées intégrales de Wallis (John Wallis (1616–1703) était unmathématicien anglais. On lui doit notamment le symbole ∞, mais également des travaux enphonétique et orthophonie).

Le but de cette annexe est de rassembler divers résultats sur ces intégrales, notamment enrapport avec la démonstration de la formule de Stirling. L’étude des intégrales de Wallis ne figurepas au programme.

1. Montrons que pour tout n ∈ N, In = Jn. Pour cela, on fait dans l’expression de Jn lechangement de variable x = π/2−u pour u ∈ [0,π/2], la fonction cosn étant continue sur [0,π/2]et la fonction u 7→ π/2− u étant de classe C1 sur [0,π/2]. Alors

Jn =

∫ π/2

0cosn(x) dx =

∫ 0

π/2− cosn

(π

2− u)

du =

∫ 0

π/2− sinn(u) du = In.

Dans la suite, on ne s’intéressera donc qu’à In.

2. Pour tout n, x 7→ sinn(x) est continue, positive et non identiquement nulle sur [0,π/2]. On endéduit que In > 0 pour tout n.

3. Pour tout x ∈ [0, π/2], on a 0 6 sin(x) 6 1, donc 0 6 sinn(x) 6 1 quel que soit n ∈ N. Parcroissance de l’intégrale, on en déduit que

0 6 In 6π

2.

En particulier, la suite (In) est bornée. De plus, pour tout n ∈ N,

In+1 − In =

∫ π/2

0(sinn+1(x)− sinn(x)) dx =

∫ π/2

0sinn(x)(sin(x)− 1) dx.

Or, pour tout x ∈ [0, π/2], sinn(x)(sin(x) − 1) 6 0, ce qui implique que In+1 − In 6 0. On endéduit que la suite (In) est décroissante.

4. Limite de (In) : nous allons montrer que In −→n→+∞

0. Pour cela, fixons un réel ε > 0 et soit

δ ∈ ]0,π/2[ à déterminer. On peut supposer sans perte de généralité que ε < π.

4. a. Pour tout x ∈ [0,π/2] et n ∈ N, sinn(x) 6 1, et donc

∫ π/2

δsinn(x) dx 6

∫ π/2

δ1 dx =

π

2− δ.

Si l’on choisit δ =π − ε

2, on obtient donc

∫ π/2

δsinn(x) dx 6

π

2− δ 6

ε

2,

379

avec une majoration indépendante de n. On a de plus δ ∈ ]0,π/2[ car ε ∈ ]0,π[.

4. b. Pour tout x ∈ [0,δ] et n ∈ N, sinn(x) 6 sinn(δ), car la fonction sinn est croissante sur[0,π/2]. On en déduit que

∫ δ

0sinn(x) dx 6

∫ δ

0sinn(δ) dx = δ sinn(δ).

Or δ ∈ ]0,π/2[, donc sin(δ) ∈ ]0,1[. En particulier, δ sinn(δ) −→n→+∞

0 (suite géométrique). Il existe

donc n0 ∈ N tel que pour tout entier n > n0, δ sinn(δ) 6 ε2 .

4. c. D’après la relation de Chasles et le point 3,

0 6 In =

∫ δ

0sinn(x) dx +

∫ π/2

δsinn(x) dx.

En utilisant alors les résultats des points a et b, on obtient, pour tout entier n > n0, In 6 ε.Finalement, pour tout réel ε ∈ ]0,π[, on a montré l’existence d’un entier n0 tel que pour toutentier n > n0, 0 6 In 6 ε : la suite (In) tend vers 0 lorsque n tend vers +∞.Remarque – On peut aussi utiliser le théorème de convergence dominée, puisque sinn est continuepour tout n ∈ N, sinn(x) −→

n→+∞0 pour tout x ∈ [0,π/2[ et | sinn(x)| 6 1 pour tout x ∈ [0,π/2[ et

n ∈ N.

5. Relation de récurrence

Pour tout n ∈ N,

In+2 =

∫ π/2

0sinn+2(x) dx =

∫ π/2

0sin(x) sinn+1(x) dx.

On intègre alors par parties (u = − cos et v = sinn+1 étant de classe C1 sur [0,π/2]) :

In+2 =[− cos(x) sinn+1(x)

]π/2

0+

∫ π/2

0cos(x)(n + 1) cos(x) sinn(x) dx

= (n + 1)

∫ π/2

0cos2(x) sinn(x) dx

= (n + 1)

∫ π/2

0(1− sin2(x)) sinn(x) dx

= (n + 1)

∫ π/2

0(sinn(x)− sinn+2(x)) dx

= (n + 1)(In − In+2).

On en déduit que (n+ 2)In+2 = (n+ 1)In, d’où : pour tout n ∈ N, In+2 =n+ 1

n+ 2In.

Sachant que I0 =

∫ π/2

01 dx =

π

2et I1 =

∫ π/2

0sin(x)dx = [− cos(x)]

π/20 = 1, on en déduit

par exemple

I2 =π

4, I3 =

2

3, I4 =

3π

16, I5 =

8

15.

6. Formule explicite

Montrons par récurrence sur p que pour tout p ∈ N, on a :

I2p =(2p)!

22p+1(p!)2π et I2p+1 =

22p(p!)2

(2p + 1)!.

Initialisation : pour p = 0, on a

I2×0 = I0 =π

2=

(2× 0)!

22×0+1(0!)2π et I2×0+1 = I1 = 1 =

22×0(0!)2

(2× 0 + 1)!.

380

Hérédité : supposons la propriété vraie pour un certain p ∈ N. Montrons qu’elle est alors vraiepour p+ 1 : on a I2(p+1) = I2p+2, donc, d’après le point 5 (avec n = 2p),

I2(p+1) =2p+ 1

2p+ 2I2p.

Avec l’hypothèse de récurrence, on en déduit :

I2(p+1) =2p + 1

2p + 2× (2p)!

22p+1(p!)2π

=(2p+ 1)!

(2p + 2) 22p+1 (p!)2π

=(2p + 2)!

(2p + 2)2 22p+1 (p!)2π

=(2p + 2)!

4(p + 1)2 22p+1 (p!)2π

=(2p + 2)!

22p+3 (p+ 1)!2π,

ce qui est bien le résultat souhaité. De même, avec le point 5 (avec n = 2p + 1),

I2(p+1)+1 =2p+ 2

2p+ 3I2p+1.

D’où :

I2(p+1)+1 =2p + 2

2p + 3× 22p(p!)2

(2p + 1)!

=(2p + 2)2 22p(p!)2

(2p + 2)(2p + 3)(2p + 1)!

=4(p + 1)2 22p (p!)2

(2p + 3)!

=22p+2(p+ 1)!2

(2p+ 3)!,

ce qui prouve l’hérédité. Les deux égalités sont donc vraies pour tout p ∈ N.

7. Comportement asymptotique

7. a. Par décroissance de la suite (In) et d’après le point 5, pour tout n ∈ N, on a

In+2 6 In+1 6 In,

c’est-à-diren+ 1

n+ 2In 6 In+1 6 In.

En divisant par In, qui est strictement positif d’après le point 2, on en déduit

n+ 1

n+ 26In+1

In6 1.

Par encadrement, on a doncIn+1

In→ 1, i.e. In+1 ∼ In.

7. b. Démontrons par récurrence que pour tout n ∈ N, (n+ 1)InIn+1 =π

2.

Pour n = 0, on a bien (1 + 0)I0I1 = 1× π

2× 1 =

π

2.

381

Supposons maintenant l’égalité vraie pour un certain n ∈ N et montrons qu’elle est alorsvraie au rang n+ 1. D’après le point 5 :

(n+ 2)In+1In+2 = (n+ 2)In+1n+ 1

n+ 2In = (n+ 1)InIn+1.

Or, par hypothèse de récurrence, (n+ 1)InIn+1 =π

2. Donc (n+ 2)In+1In+2 =

π

2, ce qui termine

la récurrence.

7. c. Sachant que n + 1 ∼ n et In+1 ∼ In lorsque n tend vers +∞ (point 7. a), on en déduit

que (n + 1)InIn+1 ∼ nI2n. Donc, d’après le point précédent, nI2

n ∼π

2, ce qui implique I2

n ∼π

2net finalement, sachant que In > 0 :

In ∼√

π

2n.

7. d. Application : équivalent de

(2nn

)

D’après le point 6, on a

I2n =π

22n+1

(2nn

)

pour tout n ∈ N. Or, d’après le point précédent, I2n ∼√

π

4n. Ainsi

π

22n+1

(2nn

)

∼n→+∞

√π

4n.

On en déduit que (2n

n

)

∼ 4n

√πn

.

Remarque – Comme nous l’avons montré dans le cours, les intégrales de Wallis permettent d’ob-tenir un équivalent de n! : il s’agit de la formule de Stirling

n! ∼(n

e

)n√2πn.

382

Documents

PSI - aurelien.monteillet.comaurelien.monteillet.com/Cours/cours.pdf · Ce document contient les notes d’un cours de mathématiques pour la classe de PSI. Les démonstrations non