134
Mention “Physique” de la Licence de Sciences et Technologies L2 Parcours “Physique Fondamentale” (PF) Ann´ ee 2010-2011 ethodes math´ ematiques pour physiciens 2 LP207

Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Mention “Physique” de la

Licence de Sciences et Technologies

L2

Parcours “Physique Fondamentale” (PF)

Annee 2010-2011

Methodes mathematiques pour physiciens 2

LP207

Jean-Bernard Zuber

Page 2: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Carl Friedrich Gauss

Carl Friedrich Gauss (1777–1855) domine la science mathematique et physique de son

temps. Il a laisse des contributions fondamentales en arithmetique, algebre, geometrie

differentielle, theorie des probabilites, ainsi qu’en electricite, magnetisme, mecanique

celeste, etc. Nous rencontrerons son nom a plusieurs reprises dans ce cours, du pivot

de Gauss a la courbe gaussienne.

0

Page 3: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Table des matieres i

Table des matieres

Partie I : Algebre lineaire

Chapitre 1. Des vecteurs aux matrices . . . . . . . . . . . . . . . . . . 1

1. Rappels sur les vecteurs. Espaces vectoriels . . . . . . . . . . . . . . . . . 1

1.1. Vecteurs de R2 et R . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Autres espaces vectoriels . . . . . . . . . . . . . . . . . . . . . . . 2

2. Independance lineaire. Base d’un espace vectoriel . . . . . . . . . . . . . . 3

2.1. Dependance et independance lineaire . . . . . . . . . . . . . . . . . . 3

2.2. Base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3. Rang d’un systeme de vecteurs . . . . . . . . . . . . . . . . . . . . . 7

2.4. Changement de base. Matrice d’un changement de base . . . . . . . . . . 8

3. Applications lineaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1. Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.2. Application lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.3. Matrice d’une application lineaire . . . . . . . . . . . . . . . . . . . 12

4. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.1. Produit matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.2. Addition et multiplication par un scalaire des matrices . . . . . . . . . . 16

4.3. Changement de base pour la matrice d’une application . . . . . . . . . . 16

4.4. Autres definitions . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.5. Matrices-lignes, matrices-colonnes . . . . . . . . . . . . . . . . . . . 19

4.6. Rang d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Chapitre 2. Determinants . . . . . . . . . . . . . . . . . . . . . . . . 23

1. Rappels sur les permutations de p objets . . . . . . . . . . . . . . . . . . 23

2. Fonctions multilineaires. Fonctions antisymetriques. Fonction determinant . . . 25

3. Proprietes du determinant . . . . . . . . . . . . . . . . . . . . . . . . 26

4. Methodes de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1. Calcul direct . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.2. Combinaisons lineaires des colonnes ou des lignes . . . . . . . . . . . . . 29

4.3. Developpement par rapport a une ligne ou a une colonne. Mineurs . . . . . 30

4.4. Methode du pivot de Gauss . . . . . . . . . . . . . . . . . . . . . . 32

i

Page 4: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

ii Methodes mathematiques pour physiciens 2. LP207

4.5. Calcul de l’inverse d’une matrice . . . . . . . . . . . . . . . . . . . . 33

5. Applications des determinants . . . . . . . . . . . . . . . . . . . . . . . 34

5.1. Critere d’independance lineaire . . . . . . . . . . . . . . . . . . . . . 34

5.2. Equation d’une droite de R2, d’un plan de R3 . . . . . . . . . . . . . . 34

5.3. Wronskien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.4. Interpretation geometrique du determinant. Jacobien . . . . . . . . . . 36

Chapitre 3. Systemes lineaires d’equations algebriques . . . . . . . . . . 37

1. Position du probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.1. Systeme d’equations considere comme un probleme vectoriel . . . . . . . . 37

1.2. Systemes d’equations homogenes . . . . . . . . . . . . . . . . . . . . 38

1.3. Interpretation matricielle . . . . . . . . . . . . . . . . . . . . . . . 39

2. Rang d’un systeme, determinant principal . . . . . . . . . . . . . . . . . . 40

3. Discussion et resolution. Systemes de Cramer . . . . . . . . . . . . . . . . 41

3.1. p = r ≤ n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.2. r < p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.3. Systeme homogene . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4. Un exemple detaille . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5. Applications mecaniques. Equilibre statique de solides indeformables . . . . . . 44

6. Applications electriques. Circuits et lois de Kirchhoff . . . . . . . . . . . . . 45

Chapitre 4. Valeurs propres, vecteurs propres. Diagonalisation . . . . . . 47

1. Vecteurs et valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . 47

1.1. Definitions de base . . . . . . . . . . . . . . . . . . . . . . . . . . 47

1.2. Valeurs propres d’une matrice singuliere . . . . . . . . . . . . . . . . . 48

1.3. Sous-espace propre. . . . . . . . . . . . . . . . . . . . . . . . . . 48

1.4. Polynome caracteristique . . . . . . . . . . . . . . . . . . . . . . . 49

2. Diagonalisation d’une matrice . . . . . . . . . . . . . . . . . . . . . . . 51

2.1. Determination des vecteurs propres . . . . . . . . . . . . . . . . . . . 51

2.2. Diagonalisation. Changement de base. . . . . . . . . . . . . . . . . . 52

2.3. Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.4. “Triangularisation” d’une matrice. Theoreme de Cayley–Hamilton . . . . . 53

3. Consequences et applications de la diagonalisation . . . . . . . . . . . . . . 55

3.1. Matrices commutantes . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2. Puissances et exponentielle d’une matrice . . . . . . . . . . . . . . . . 55

ii

Page 5: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Table des matieres iii

4. Applications aux systemes lineaires d’equations differentielles. Oscillateurs couples 57

4.1. Systemes de 2 equations differentielles lineaires . . . . . . . . . . . . . . 57

4.2. Systemes de n equations . . . . . . . . . . . . . . . . . . . . . . . 60

4.3. Oscillateurs couples . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Chapitre 5. Matrices symetriques et formes quadratiques . . . . . . . . . 65

1. Formes bilineaires, formes quadratiques . . . . . . . . . . . . . . . . . . . 65

1.1. Formes bilineaires et quadratiques . . . . . . . . . . . . . . . . . . . 65

1.2. Formes definies positives . . . . . . . . . . . . . . . . . . . . . . . 66

1.3. Representations matricielles . . . . . . . . . . . . . . . . . . . . . . 67

2. Reduction d’une forme quadratique . . . . . . . . . . . . . . . . . . . . 68

2.1. Vecteurs orthogonaux, vecteurs orthonormes . . . . . . . . . . . . . . . 68

2.2. Procede d’orthonormalisation de Schmidt . . . . . . . . . . . . . . . . 68

2.3. Matrices orthogonales . . . . . . . . . . . . . . . . . . . . . . . . . 69

2.4. Diagonalisation d’une matrice symetrique . . . . . . . . . . . . . . . . 70

2.5. Reduction d’une forme quadratique . . . . . . . . . . . . . . . . . . . 71

2.6. Diagonalisation simultanee de deux matrices symetriques commutantes . . . 72

3. Extension aux formes sesquilineaires et matrices hermitiennes . . . . . . . . . 73

4. Applications physiques . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.1. Tenseur d’inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.2. Tenseur de conductivite . . . . . . . . . . . . . . . . . . . . . . . . 76

4.3. Stabilite des extrema d’un potentiel . . . . . . . . . . . . . . . . . . 76

Partie II : Probabilites

Chapitre 6. Evenements et probabilites . . . . . . . . . . . . . . . . . . 79

1. Premieres definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

2. Proprietes et axiomes . . . . . . . . . . . . . . . . . . . . . . . . . . 83

2.1. Evenements composes . . . . . . . . . . . . . . . . . . . . . . . . 83

2.2. Espace d’epreuves fini . . . . . . . . . . . . . . . . . . . . . . . . . 84

2.3. Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

2.4. Espace probabilise . . . . . . . . . . . . . . . . . . . . . . . . . . 85

2.5. Probabilites conditionnelles . . . . . . . . . . . . . . . . . . . . . . 85

3. Un peu de combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . 86

iii

Page 6: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

iv Methodes mathematiques pour physiciens 2. LP207

Chapitre 7. Variables aleatoires . . . . . . . . . . . . . . . . . . . . . . 89

1. Variables aleatoires. Distributions de v.a. . . . . . . . . . . . . . . . . . . 90

1.1. Definition d’une variable aleatoire . . . . . . . . . . . . . . . . . . . 90

1.2. Les fonctions importantes attachees a une v.a. . . . . . . . . . . . . . 91

1.3. Plusieurs variables aleatoires . . . . . . . . . . . . . . . . . . . . . . 93

2. Moyenne, variance, ecart-type, moments . . . . . . . . . . . . . . . . . . 93

2.1. Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

2.2. Variance et ecart-type . . . . . . . . . . . . . . . . . . . . . . . . 94

2.3. Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

3. Fonctions de correlation de plusieurs v.a. . . . . . . . . . . . . . . . . . . 96

4. Changement de variable aleatoire . . . . . . . . . . . . . . . . . . . . . 97

Chapitre 8. Distributions classiques . . . . . . . . . . . . . . . . . . . 99

1. Distribution uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . 99

2. Distribution binomiale . . . . . . . . . . . . . . . . . . . . . . . . . 100

3. Distribution normale . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4. Distribution de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 104

5. Limites de la loi binomiale . . . . . . . . . . . . . . . . . . . . . . . 106

6. Quelques exemples concrets . . . . . . . . . . . . . . . . . . . . . . . 108

6.1. L’aiguille de Buffon . . . . . . . . . . . . . . . . . . . . . . . . . 108

6.2. Distribution de Maxwell des vitesses dans un gaz . . . . . . . . . . . 108

6.3. Desintegrations radioactives . . . . . . . . . . . . . . . . . . . . . 110

Chapitre 9. Theoremes asymptotiques . . . . . . . . . . . . . . . . . 113

1. Preambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

1.1. Convergence en probabilite . . . . . . . . . . . . . . . . . . . . . 113

1.2. Moyenne arithmetique de N v.a. . . . . . . . . . . . . . . . . . . . 113

2. Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 114

2.1. Le theoreme et sa preuve . . . . . . . . . . . . . . . . . . . . . . 114

2.2. Deux illustrations . . . . . . . . . . . . . . . . . . . . . . . . . 115

3. Theoreme de la limite centrale . . . . . . . . . . . . . . . . . . . . . . 116

3.1. Enonce et remarques . . . . . . . . . . . . . . . . . . . . . . . . 117

3.2. Elements de preuve du theoreme . . . . . . . . . . . . . . . . . . . 117

3.3. Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

3.4. Evaluations de l’erreur . . . . . . . . . . . . . . . . . . . . . . . 119

iv

Page 7: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Table des matieres v

4. Marche aleatoire. . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

4.1. Marche au hasard sur un reseau . . . . . . . . . . . . . . . . . . . 121

4.2. Processus stochastiques, propriete de Markov . . . . . . . . . . . . . 123

4.3. Limite continue et equation de la chaleur . . . . . . . . . . . . . . . 123

4.4. Lois d’echelle dans la marche au hasard . . . . . . . . . . . . . . . . 125

J.-B. Z. 24 Juin 2011

Page 8: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

vi Methodes mathematiques pour physiciens 2. LP207

24 Juin 2011 J.-B. Z.

Page 9: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 1. Des vecteurs aux matrices 1

Partie I : Algebre lineaire

Chapitre 1. Des vecteurs aux matrices

Ce chapitre est consacre a des rappels sur les vecteurs et les concepts cles d’independance

lineaire et de bases.

La question du changement de base va amener tout naturellement l’introduction des

matrices et leurs proprietes de multiplication.

1. Rappels sur les vecteurs. Espaces vectoriels

1.1. Vecteurs de R2 et R3

La geometrie du plan et de l’espace nous ont familiarises avec la notion de vecteur. Etant

donne le plan note R2 ou l’espace tridimensionnel note R3, on definit le vecteur −−→OM : c’est

le segment oriente reliant l’origine O au point M . Il est donc caracterise par sa longueur ou

module |−−→OM | = longueur ordinaire du segment OM, et sa direction orientee1. Le vecteur~V = −−→

OM est alors identifie a toutes ses copies d’origine arbitraire : −−→OM =−−−→O′M ′ si la

figure OMM ′O′ est un parallelogramme, voir figure 1(a).

Les deux operations suivantes peuvent s’effectuer sur les vecteurs

- multiplication par un nombre reel (un “scalaire”) λ : si ~V = −−→OM , le vecteur λ~V =

−−−→OM ′ a la meme direction que ~V , et une orientation identique ou opposee selon le signe

de λ, mais une longueur multipliee par |λ| : |−−−→OM ′| = |λ||−−→OM | (bien noter la valeur

absolue de λ !). On dit que les vecteurs λ~V =−−−→OM ′ et ~V = −−→

OM sont colineaires ;

- somme de deux vecteurs de meme origine : c’est la fameuse regle du parallelogramme,

voir figure 1(b).

1 Plutot que la fleche, on utilise souvent dans les livres des caracteres gras pour representer un

vecteur OM : pas tres faciles a faire a la main ou au tableau noir. . .

J.-B. Z. 24 Juin 2011

Page 10: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

2 Methodes mathematiques pour physiciens 2. LP207

M

1

2

(a) (b)O

MM’

O’

O

M

M

Fig. 1: (a) : Equivalence des deux vecteurs−−→OM et

−−−→O′M ′ . (b) : Addition de deux vecteurs−−−→

OM1 et−−−→OM2 .

Les regles de calcul combinees de ces deux operations sont familieres

(λ + µ)~V = λ~V + µ~V

λ(~V1 + ~V2) = λ~V1 + λ~V2

(1.1)

(c’est la “distributivite” de la multiplication par un scalaire par rapport a l’addition).

On peut aussi definir le vecteur nul, ~0 =−−→OO, dont l’addition a tout

−−→OM ne le modifie pas, et l’oppose

−−−→OM tel que−−→OM +(−−−→OM) = ~0. Le vecteur ~0 resulte de la multiplication par le scalaire 0 de tout vecteur−−→

OM , et −−−→OM de la multiplication par le scalaire −1 du vecteur−−→OM , en coherence avec les regles (1.1).

L’addition de deux vecteurs quelconques est un autre vecteur, la multiplication d’un

vecteur par un scalaire en est un aussi : on dit que l’ensemble des vecteurs est “stable”

sous l’effet de ces deux operations d’addition et de multiplication par un scalaire. Un tel

ensemble est par definition un espace vectoriel.

En general, dans un tel espace, on peut construire toutes les combinaisons lineaires

de n vecteurs ~V1, · · · , ~Vn,

∀λi ∈ R λ1~V1 + λ2

~V2 + · · ·+ λn~Vn est un vecteur .

La notion de vecteur et toutes ces operations trouvent bien sur leur application en

geometrie (translations etc), en mecanique (deplacements, vitesses, accelerations, forces,

moment cinetique, etc), mais aussi en electromagnetisme (champs et moments electriques

et magnetiques. . . ), en optique (vecteurs d’onde), etc.

1.2. Autres espaces vectoriels

De nombreux concepts d’origine geometrique impliquant des vecteurs peuvent s’etendre a

des situations plus generales impliquant d’autres objets mathematiques dotes de proprietes

de meme nature. Par exemple, on rencontrera les espaces vectoriels des

24 Juin 2011 J.-B. Z.

Page 11: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 1. Des vecteurs aux matrices 3

- fonctions reelles d’une variable x ∈ [a, b] (intervalle qui peut etre infini), par exemple

continues, ou derivables ;

- polynomes d’une variable x ;

- fonctions periodiques de periode T ;

- solutions d’une equation differentielle lineaire homogene (“sans second membre”), etc.

Pour chacun de ces objets, les notions d’addition et de multiplication par un scalaire

reel2 verifiant les regles de calcul (1.1) sont naturelles et ne “font pas sortir de l’ensemble”.

Chacun de ces ensembles de fonctions est donc un espace vectoriel, et les raisonnements

que nous allons developper dans la suite s’y appliquent.

Ces extensions jouent aussi un role dans de nombreuses situations de physique : l’etude

des systemes dynamiques lineaires qu’on rencontre en Mecanique ou en Electricite conduit

naturellement a des systemes d’equations differentielles lineaires dont les solutions for-

ment un espace vectoriel. En Mecanique Quantique, la description des etats d’un systeme

physique se fait en termes de vecteurs abstraits, dont une realisation est celle des “fonc-

tions d’onde”, fonctions a valeurs complexes des variables de position et de temps, dont

l’interpretation est intimement liee au caractere probabiliste de la physique quantique.

2. Independance lineaire. Base d’un espace vectoriel

2.1. Dependance et independance lineaire

Nous continuerons d’utiliser la notation ~V pour designer un vecteur meme si c’est dans

un contexte general comme ceux discutes au § 1.2. Quand on discute de vecteurs, deux

notions fondamentales sont celles de dependance et d’independance lineaire

Definition : Les p vecteurs ~V1, · · · ~Vp sont lineairement dependants (ou “forment un

systeme lie ”) s’il existe un ensemble de p scalaires (nombres reels) λ1, · · · , λp non tous

nuls tels que

λ1~V1 + · · ·+ λp

~Vp = ~0 (2.1)

ce qu’on abregera desormais par la notation∑p

i=1 λi~Vi = 0 .

2 Dans toutes ces notes, on considerera sauf exception le cas d’espaces vectoriels reels, ou

les nombres “scalaires” consideres sont reels. Il n’y a pas de difficulte majeure a etendre la

discussion au cas complexe. Certaines situations rencontrees en physique, comme l’etude des

systemes oscillants, ou la mecanique quantique, peuvent y conduire. Voir l’exercice de TD sur les

matrices d’impedance ou d’admittance de quadrupoles.

J.-B. Z. 24 Juin 2011

Page 12: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

4 Methodes mathematiques pour physiciens 2. LP207

A l’inverse,

Definition : Les n vecteurs ~V1, · · · ~Vp sont lineairement independants (ou “forment un

systeme libre ”) s’il n’existe pas d’ensemble de p scalaires (nombres reels) λ1, · · · , λp non

tous nuls tels que∑p

i=1 λi~Vi = 0 , autrement dit si

p∑

i=1

λi~Vi = 0 =⇒ λi = 0 ∀i = 1, · · · , n . (2.2)

Exemples

- dans l’espace R2 ou R3, (ou plus generalement Rd) les vecteurs ~V1, ~V2 non colineaires

sont lineairement independants (preuve par l’absurde : si λ1~V1 + λ2

~V2 = 0 avec par

exemple λ2 6= 0, on peut ecrire ~V2 = −λ1λ−12

~V1 ce qui montre bien que ~V1 et ~V2 sont

colineaires, contrairement a l’hypothese) ; les vecteurs ~V1, ~V2 et ~V3 = λ1~V1 + λ2

~V2

sont lineairement dependants. En effet on peut ecrire λ1~V1 + λ2

~V2 − ~V3 = 0. Trois

vecteurs non nuls ~V1, ~V2 et ~V3 sont lineairement independants si et seulement s’ils ne

sont pas coplanaires ;

- interpretation geometrique des combinaisons lineaires λ~V1 + µ~V2 dans R3 comme en-

semble des vecteurs du plan contenant ~V1 et ~V2 ;

- les polynomes 1, x et x2 sont lineairement independants ; les polynomes 1, x, ax + b

ne sont pas independants, quels que soient a, b ∈ R ;

- Dans l’espace vectoriel des fonctions periodiques de periode 2π, discuter l’independance

lineaire des fonctions 1, cos x, cos 2x ; ou encore de 1, cos2 x, cos 2x ;

- Dans l’espace vectoriel des solutions de l’equation differentielle x+x = 0, les solutions

eix, e−ix, cos x ne sont pas independantes, pourquoi ?

2.2. Base

Definition : Dans un espace vectoriel, on dit qu’un ensemble de n vecteurs ~e1, ~e2, · · · , ~en

est une base si ces vecteurs sont lineairement independants et si tout autre vecteur ~X de

l’espace peut etre ecrit comme combinaison lineaire des ~ei

∀ ~X ∃x1, x2, · · · , xn~X =

∑xi~ei .

On appelle alors les xi composantes du vecteur ~X dans la base ~ei.Noter que pour un vecteur ~X donne, ces composantes sont uniques, comme

consequence de l’independance lineaire des ~ei. En effet s’il existait deux ensembles de

24 Juin 2011 J.-B. Z.

Page 13: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 1. Des vecteurs aux matrices 5

composantes xi et x′i telles que ~X =∑n

i=1 xi~ei et ~X =∑n

i=1 x′i~ei, en soustrayant membre

a membre on aurait

∑(xi − x′i)~ei = 0

(2.2)=⇒ ∀i, xi − x′i = 0, donc xi = x′i ,

ce qui montre l’unicite des xi.

Exemples.

– Une base dans l’espace Rd est encore appelee repere : elle permet de reperer tout

point M de l’espace (ou tout vecteur −−→OM) par ses composantes (ou coordonnees) dans

ledit repere. Voir Fig. 2.

– Les monomes 1, x, x2, · · · , xn forment une base de l’ensemble des polynomes de

degre inferieur ou egal a n

P (x) = a0 + a1x + a2x2 + · · ·anxn

avec les composantes ai identifiees aux coefficients du polynome.

– Montrer que eix, e−ix et cos x, sinx sont deux bases de solutions de l’equation

differentielle x + x = 0.

Le choix de base n’est en effet jamais unique. Par exemple, si ~e1, ~e2, · · · , ~en forment

une base, il en est de meme de λ1~e1, λ2~e2, · · · , λn~en, pour tous λi 6= 0 ; ou de ~e1 +~e2, ~e1−~e2, ~e3, · · · , ~en, etc. Nous allons bientot disposer d’un critere disant quels choix de base sont

possibles. . .

Theoreme : Si on connaıt une base de n vecteurs, tout systeme de p vecteurs, avec p > n,

est necessairement lineairement dependant.

Preuve par l’absurde. Soit ~ei, i = 1, · · · , n une base, soit ~Xj , j = 1, · · · , p un systeme de p > n

vecteurs que nous supposons independants. Montrons alors que les ~Xi, 1 ≤ i ≤ n forment une autre base,

et que les ~Xj , n + 1 ≤ j ≤ p peuvent donc s’exprimer en termes des ~Xi, 1 ≤ i ≤ n, en contradiction

avec l’hypothese d’independance. Les ~e formant une base, ~X1 s’ecrire ~X1 =∑

1≤j≤nx1j~ej avec des x1j

non tous nuls (sans quoi ~X1 serait nul et le systeme des vecteurs ~X pas independants. Supposons par

exemple que x11 6= 0. Cela permet d’ecrire ~e1 comme fonction lineaire de ~X1 et des ~ej , 2 ≤ j ≤ n. Les

vecteurs ~X1, ~ej , 2 ≤ j ≤ n forment donc une nouvelle base. Iterons alors le raisonnement : ~X2 peut

s’exprimer comme combinaison de ces vecteurs: ~X2 = x21~X1 +

∑n

j=2x2j~ej avec des coefficients x2j non

tous nuls sans quoi ~X1 et ~X2 seraient lineairement dependants, contrairement a l’hypothese. Supposons

par exemple x22 6= 0, ce qui permet d’exprimer ~e2 en termes de ~X1, ~X2, ~e3, · · · , ~en, qui constituent donc

une nouvelle base. Etc. Apres n iterations de ce raisonnement, on arrive a la conclusion que ~X1, · · · , ~Xn

forment une base, et donc que les vecteurs ~Xn+1, · · · , ~Xp peuvent s’exprimer comme combinaisons lineairesdes n premiers, contrairement a l’hypothese. Le theoreme est demontre.

Corollaire : Le nombre d’elements d’une base est independant du choix de cette base.

J.-B. Z. 24 Juin 2011

Page 14: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

6 Methodes mathematiques pour physiciens 2. LP207

i

j

ji

(a) (b)

OO

j

x

y M

M

k

i

Fig. 2: (a) : repere dans l’espace R2 ; (b) : repere dans l’espace R3.

En effet supposons que nous ayons construit deux bases distinctes ~ei, i = 1, · · ·n et

~fi, i = 1, · · ·n′. D’apres le Theoreme precedent, n′ ≤ n (independance des ~fi) et n ≤ n′

(independance des ~ei). Donc n = n′.

Definition : Ce nombre d’elements de toute base est appele dimension de l’espace (vec-

toriel).

Exemples.

a) En geometrie elementaire du plan, on definit des reperes de l’espace R2, constitue

de 2 vecteurs notes ~i, ~j, tels que tout vecteur −−→OM s’exprime comme −−→OM = x~i + y~j,

et les nombres x et y sont les composantes du vecteur −−→OM ou encore les coordonnees du

point M dans le repere ~i, ~j, voir Fig. 2 . Dans l’espace R3, cette construction s’etend en

introduisant un 3eme vecteur ~k dans le repere, et donc une troisieme composante z pour

tout vecteur ~X. De facon generale, Rn est un espace de dimension n et vice versa, tout

espace de dimension n peut etre considere comme identifiable (“isomorphe”) a Rn.

b) Dans l’espace des polynomes de degre strictement inferieur a n, les n polynomes

1, x, x2, · · ·xn−1 constituent une base (pourquoi ?). La dimension de cet espace est donc

egale a n .

c) Dans l’espace vectoriel des fonctions periodiques de periode 2π continues, les fonc-

tions 1 et cos px, sin px pour tout p entier positif constituent une base, selon les theoremes

sur les developpements de Fourier (cf cours LP206). Cet espace est de dimension infinie !

On se restreindra dans toute la suite de ce cours a des situations ou la dimension de

l’espace est finie.

24 Juin 2011 J.-B. Z.

Page 15: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 1. Des vecteurs aux matrices 7

2.3. Rang d’un systeme de vecteurs

Considerons p vecteurs ~X1, · · · , ~Xp d’un espace vectoriel E de dimension n. Ces p vecteurs

engendrent un espace vectoriel F qui est l’ensemble de toutes les combinaisons lineaires de

la forme λ1~X1 + · · ·+ λp

~Xp. (Exercice : verifier que cet ensemble F est en effet un espace

vectoriel, toutes les combinaisons lineaires de vecteurs de cette forme etant elles-memes de

cette forme.) On dit que F est un sous-espace vectoriel de E.

Quelle est la dimension r de cet espace F ? Elle est certainement inferieure ou egale

a celle (notee n) de l’espace E, par le Theoreme. Montrons qu’elle est aussi inferieure ou

egale au nombre p des vecteurs ~Xi. Si ces p vecteurs ~Xi sont lineairement independants,

ils constituent une base de l’espace F (par definition d’une base), et la dimension de F

est donc p. Si les p vecteurs ~Xi sont lineairement dependants, la dimension de F est

strictement inferieure a p. En general

Definition : On appelle rang r d’un systeme de p vecteurs la dimension de l’espace F

qu’ils engendrent.

Nous venons de demontrer les deux inegalites (la notation #· signifie “nombre de”)

dim F = r ≤ p = # ~Xi (2.3)

≤ n = dim E .

⊲ Completer un systeme de vecteurs en une base

Soit un systeme de vecteurs donnes ~Vi de rang r dans un espace E de dimension n : cela

signifie qu’on peut extraire du systeme r vecteurs lineairement independants, supposons

que ce sont les r premiers ~V1, · · · , ~Vr. Si r = n, ils constituent une base de E. Si r < n, il

existe un vecteur X1 de E qui n’appartient pas au sous-espace F engendre par les ~V . On

peut l’ajouter a ~V1, · · · , ~Vr pour obtenir un systeme de r+1 vecteurs independants. On itere

le raisonnement : si r +1 = n, on a une base de E, sinon, etc. Au final, on a construit une

base de E en completant le systeme ~V1, · · · , ~Vr par n−r vecteurs lineairement independants

dans le “sous-espace supplementaire” de F dans E. Ce principe de construction est utilise

tres frequemment.

Exemple. Considerons l’espace vectoriel E des polynomes en x de degre inferieur ou

egal a 3. Sa dimension est 4. Le systeme de “vecteurs” 1 + x2 et 1 + x3 est de rang 2. On

peut le completer en une base de E en lui ajoutant par exemple 1 et x.

J.-B. Z. 24 Juin 2011

Page 16: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

8 Methodes mathematiques pour physiciens 2. LP207

2.4. Changement de base. Matrice d’un changement de base

Comme on l’a dit, le choix de base n’est pas unique. Considerons donc un espace vectoriel

E ou on a construit deux bases distinctes ~ei et ~fi, i = 1, · · ·n. Les ~ei formant une base, on

peut exprimer tout vecteur, et en particulier les ~fj comme fonctions lineaires des ~ei

~fj =n∑

i=1

~eiaij j = 1, · · · , n (2.4)

avec un ensemble de nombres aij . On represente un tel ensemble comme un tableau carre

A a n lignes et n colonnes appele matrice. L’indice de gauche i est l’indice de ligne, prenant

des valeurs de 1 a n ; celui de droite j est celui de colonne, et l’element aij est ce qu’on lit

a la croisee de la i-eme ligne et de la j-ieme colonne, et on ecrit aussi (A)ij = aij . Noter

que cet element aij est par definition la i-ieme composante (dans la base ~e) de ~fj .

Par exemple, si la dimension est n = 3

A =

a11 a12 a13

a21 a22 a23

a31 a32 a33

.

Soit maintenant ~X un vecteur quelconque de l’espace vectoriel E precedent. Dans les

deux bases ~ei et ~fi, le vecteur ~X a deux decompositions

~X =∑

i

xi~ei

=∑

j

yj~fj =

i,j

yj~eiaij ,

ou on a utilise la formule (2.4). En identifiant les composantes sur ~ei de ces deux expres-

sions, on trouve

xi =∑

j

aijyj , (2.5)

formule qui exprime la transformation des composantes d’une base a l’autre. Bien observer

les differences entre (2.4) et (2.5) : dans (2.4), on a exprime les nouveaux vecteurs de base

comme combinaisons lineaires des anciens, tandis que dans (2.5), on exprime les anciennes

composantes en termes des nouvelles, et la sommation sur les indices differe dans les deux

formules : on somme sur l’indice i dans la premiere, sur l’indice j dans la seconde.

24 Juin 2011 J.-B. Z.

Page 17: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 1. Des vecteurs aux matrices 9

Exemple. Dans l’espace R2, considerons le changement de base (~e1, ~e2) → (~f1 =

~e1 + ~e2, ~f2 = 2~e1 − ~e2). Sa matrice est donc, suivant (2.4)(

1 21 −1

)et si on ecrit un

vecteur ~X dans les deux bases ~X = x1~e1 + x2~e2 et

~X = y1~f1 + y2

~f2 = y1(~e1 + ~e2) + y2(2~e1 − ~e2) = (y1 + 2y2)~e1 + (y1 − y2)~e2

en identifiant les composantes sur ~e1 et ~e2, on trouve : x1 = y1 + 2y2, x2 = y1 − y2, qui

est en accord avec (2.5).

⊲ Composition de 2 changements de base et multiplication matricielle.

Supposons maintenant qu’on effectue successivement deux changements de base. D’abord

~e → ~f avec une matrice A de changement de base, puis ~f → ~g avec la matrice B.

On ecrit donc~fj =

n∑

i=1

~eiaij ~gk =n∑

j=1

~fjbjk

soit, en reportant la premiere expression de ~fj dans la deuxieme expression

~gk =n∑

j=1

n∑

i=1

~eiaijbjk =n∑

i=1

~eicik

ou le coefficient cik qui donne la decomposition des ~gk dans la base des ~ei s’identifie a

cik =n∑

j=1

aijbjk . (2.6)

Cela introduit de facon naturelle la multiplication des deux matrices A et B.

Definition : Le produit des deux matrices carrees n× n A et B est la matrice carree C

dont les elements sont donnes par l’expression (2.6).

A ·B = C = (cij) cik =n∑

j=1

aijbjk .

(2.7)

Il faut bien retenir les operations qu’il faut faire pour construire le produit de deux

matrices : selon (2.6), l’element (i, j) de la matrice produit s’obtient par la somme des

produits des elements de la ligne i de la matrice de gauche par ceux de la colonne j de la

matrice de droite. On peut eventuellement visualiser ces operations par une disposition en

equerre des trois matrices, illustree ici dans le cas n = 2

J.-B. Z. 24 Juin 2011

Page 18: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

10 Methodes mathematiques pour physiciens 2. LP207

(b11 b12

b21 b22

)

(a11 a12

a21 a22

)(a11b11+a12b21 a11b12+a12b22

a21b11+a22b21 a21b12+a22b22

)

Exemples. Verifier que(

1 −22 3

)(1 1−2 1

)=(

5 −1−4 5

)

et que (0 11 0

)(a bc d

)=(

c da b

).

Que valent(

a bc d

)(0 11 0

)et(

0 11 0

)(a bc d

)(0 11 0

)?

Oe1 e2

e3

ON

OM

Fig. 3: Projection d’un vecteur−−→OM de l’espace R3 dans le plan R2.

3. Applications lineaires

3.1. Projection

Considerons l’espace R3 et supposons qu’on en connaisse une base ~e1, ~e2, ~e3. Les deux

vecteurs ~e1, ~e2 forment une base d’un sous-espace vectoriel R2 a deux dimensions. Con-siderons alors la transformation geometrique qui a un vecteur −−→OM de l’espace R3 associesa projection sur cet espace R2, −−→ON = P(−−→OM) (projection parallele a ~e3). Autrement dit,

le vecteur −−→OM etant ecrit d’une maniere unique sous la forme −−→OM = x1~e1 + x2~e2 + x3~e3,on a −−→ON = x1~e1 + x2~e2. L’operation de projection P est une operation lineaire puisquequels que soient les coefficients λ et λ′ et les vecteurs ~X = −−→

OM et ~X ′ =−−−→OM ′

P(λ ~X + λ′ ~X ′) = λP( ~X) + λ′P( ~X ′) , (3.1)

et c’est une operation qui envoie tout vecteur de l’espace de depart R3 dans l’espace R2.

24 Juin 2011 J.-B. Z.

Page 19: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 1. Des vecteurs aux matrices 11

3.2. Application lineaire

Definition : En general on dira qu’une application A d’un espace vectoriel E dans un

espace vectoriel F est une application lineaire (on dit aussi un operateur lineaire) si elle

satisfait la relation (3.1) (avec P changee en A) pour tous λ, λ′ ∈ R, et tous ~X, ~X ′ ∈ E,

soit

A(λ ~X + λ′ ~X ′) = λA( ~X) + λ′A( ~X ′) . (3.1)′

Exemples.

1. Comme on vient de voir, la projection sur un sous-espace est une operation lineaire.

2. L’espace d’arrivee peut bien sur aussi coıncider avec l’espace de depart E, on parle

alors de transformation lineaire (ou d’“endomorphisme”) de l’espace E. Par exemple, une

rotation dans l’espace euclidien R2 (ou R3) est une transformation lineaire de cet espace.

Exercice : verifier que la relation (3.1)′ est bien satisfaite par une rotation dans le plan

(pour la somme, se rappeler la regle du parallelelogramme).

⊲ Noyau, image et rang d’une application lineaire

Trois definitions :

1. On appelle noyau d’une application lineaire A de E dans F l’ensemble des ~X ∈ E

tels que A( ~X) = 0. Exercice : montrer que ce noyau est un espace vectoriel, donc un

sous-espace de E.

2. On appelle image de l’application A l’ensemble A(E). Exercice : montrer que c’est un

espace vectoriel, donc un sous-espace vectoriel de F .

3. Le rang de l’application lineaire est la dimension de l’espace image : rang(A) =

dim (A(E)).

Nous avons l’important

Theoreme : dim (noyau(A)) + rang(A) = n .

Preuve. Supposons le noyau de A de dimension s (eventuellement nul, si le noyau se reduit a ~0). Soit~e1, · · · , ~es une base du noyau (eventuellement vide si s = 0) et completons la comme explique au § 2.3 par

n− s vecteurs ~es+1, · · · , ~en pour avoir une base de E. Puisque A(~ei) = 0 pour i = 1, · · · , s, pour tout ~X,

A( ~X) est combinaison lineaire de A(~es+1), · · · ,A(~en), qui engendrent donc l’image A(E). Montrons queces vecteurs A(~es+1), · · · ,A(~en) sont lineairement independants. S’il n’en etait pas ainsi, il existerait des

λi non tous nuls tels que∑n

i=s+1λiA(~ei) = A(

∑n

i=s+1λi~ei) = 0, et alors

∑n

i=s+1λi~ei appartiendrait

au noyau de A, ce qui est en contradiction avec la definition des vecteurs ~es+1, · · · , ~en comme formant unebase du sous-espace supplementaire du noyau. On a bien montre que la dimension de A(E), c’est-a-direle rang de A, est egale a n− s, ce qui etablit le Theoreme.

Exemple : Quelle est l’image, quel est le noyau d’une projection de R3 dans R2 comme

celle consideree au § 3.1 ? Meme question avec une rotation dans R3.

J.-B. Z. 24 Juin 2011

Page 20: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

12 Methodes mathematiques pour physiciens 2. LP207

3.3. Matrice d’une application lineaire

Considerons une application lineaire A d’un espace vectoriel E de dimension n dans un

espace vectoriel F de dimension p, et supposons qu’on connaisse une base dans chacun de

ces espaces : ~ei, i = 1, · · ·n dans E et fj, j = 1, · · · , p dans F . On connaıt l’application

lineaire si et seulement si (sissi) on sait comment les transformes des ~ei s’expriment en

termes des ~fj

A(~ei) =p∑

j=1

~fjaji , (3.2)

c’est-a-dire si on connaıt la matrice aji de l’application lineaire A dans les deux bases ~e

et ~f . Cette matrice est un tableau p× n (c’est-a-dire a p lignes et n colonnes) puisque le

premier indice (indice de lignes) j = 1, · · ·p, tandis que le deuxieme (indice de colonnes)

prend les valeurs i = 1, . . . n.3

Soit un vecteur ~X =∑n

i=1 xi~ei de l’espace E et ~Y =∑p

j=1 yj~fj son transforme (ou

son “image”) par l’application A. Par linearite et en utilisant (3.2), on sait que

~Y = A( ~X) = A(n∑

i=1

xi~ei) =n∑

i=1

xiA(~ei) =n∑

i=1

p∑

j=1

xiaji~fj

donc en identifiant la composante de ~Y sur le vecteur ~fj

yj =n∑

i=1

ajixi . (3.3)

Supposons maintenant qu’on effectue deux applications lineaires successivement : Ade l’espace E dans l’espace F , puis B de l’espace F dans un espace G. On note ~Z l’image

de ~X par cette composition des deux applications, et on ecrit ~Y = A ~X, ~Z = B~Y = (BA) ~X.

Supposons l’espace G de dimension q et muni d’une base ~gk, k = 1, · · · q : un vecteur ~Z

de G s’ecrit ~Z =∑q

k=1 zk~gk. On s’est donne la matrice aij de A dans les bases ~e et ~f , et

la matrice bjk de B dans les bases ~f et ~g. Quelle est la matrice de la composee BA dans

les bases ~e et ~g ? Le calcul est tres simple

~Z = (BA) ~X =B(A( ~X)) =n∑

i=1

p∑

j=1

xiajiB(~fj)

=n∑

i=1

p∑

j=1

q∑

k=1

xiajibkj~gk

3 Echangeant les indices i et j, bien noter que aij est la composante sur ~fi de A(~ej).

24 Juin 2011 J.-B. Z.

Page 21: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 1. Des vecteurs aux matrices 13

donc en identifiant le coefficient de ~gk

zk =n∑

i=1

p∑

j=1

bkjajixi =n∑

i=1

(B ·A)kixi

avec le produit des deux matrices B et A dans cet ordre defini par

(B ·A)ki =p∑

j=1

bkjaji .

(3.4)

Exemple :

(1 2 30 −1 −2

)

︸ ︷︷ ︸B

1 1 12 0 34 −1 2

︸ ︷︷ ︸A

=(

17 −2 13−10 2 −7

)

︸ ︷︷ ︸B·A

.

Plusieurs remarques importantes

- nous avons ete menes a cette definition de la multiplication de deux matrices de facon

naturelle, en suivant les consequences de la linearite des applications ;

- cette definition etend au cas de “matrices rectangulaires” la definition (2.6) de la

multiplication de matrices carrees ;

- bien noter qu’il n’est coherent de multiplier une matrice B par une matrice A que si

le nombre de colonnes de B egale celui des lignes de A (note ici p) ;

- bien noter aussi que l’ordre des operations a ete dicte par la composition des applica-

tions. Meme si on n’a a faire qu’a des matrices carrees, n = p = q, il n’est pas vrai

en general que B ·A = A ·B.

Le produit matriciel n’est en general pas commutatif !

- L’application A suivie de B a mene au produit B · A : il faut garder a l’esprit que

l’action matricielle s’effectue sur un objet a droite, et donc dans le produit B.A,

l’action de A precede celle de B.

⊲ Exemple. Considerons les deux matrices 2× 2

A =(

1 00 −1

)B =

(0 11 0

). (3.5)

Calculer les deux produits A ·B et B ·A et verifier qu’ils sont differents.

J.-B. Z. 24 Juin 2011

Page 22: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

14 Methodes mathematiques pour physiciens 2. LP207

Cette propriete de non-commutation va jouer un role important dans la suite. Elle

implique par exemple que les identites familieres du calcul algebrique usuel doivent etre

reconsiderees. Ainsi pour deux matrices A et B, l’“identite du binome” se lit

(A + B)2 = A2 + A ·B + B ·A + B2 (3.6)

et non A2 + 2A ·B + B2.

Exercice : comment s’ecrit (A + B)3 ?

4. Matrices

4.1. Produit matriciel

Recapitulons ce que nous avons appris sur les matrices.

– Le produit de deux matrices B et A dans cet ordre, B de dimensions q × p et A de

dimensions p× n est defini par l’expression (3.4).

– Si les matrices sont carrees, ce produit n’est en general pas commutatif : A·B 6= B ·Aen general.

– Le produit matriciel est associatif, ce qui veut dire qu’on peut regrouper a sa guise

les facteurs d’un produit (sans modifier leur ordre !), A · (B · C) = (A ·B) · C, et cela est

fort utile dans les calculs...

La matrice identite de dimension n est par definition la matrice ayant des 1 sur sa

diagonale, des zeros partout ailleurs

IIn =

1 0 · · · 00 1 · · · 0...

. . ....

0 0 · · · 1

.

Elle a la particularite d’etre l’element neutre de la multiplication matricielle : si A est une

matrice quelconque p×n et IIn, resp. IIp les matrices identite dans les dimensions indiquees

IIp ·A = A · IIn .

Son element de matrice (i, j) s’ecrit (IIn)ij = δij avec le symbole de Kronecker δij = 0 ou

1 selon que i 6= j ou i = j.

24 Juin 2011 J.-B. Z.

Page 23: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 1. Des vecteurs aux matrices 15

Une autre matrice d’usage courant est la matrice nulle en dimension n, dont tous les

elements sont nuls. Elle est notee 0n, ou simplement 0 quand cela ne prete pas a ambiguıte.

0n =

0 0 · · · 00 0 · · · 0...

. . ....

0 0 · · · 0

.

Elle a la propriete que son produit par toute matrice redonne la matrice 0:

∀A, A · 0 = 0 ·A = 0 .

Une matrice carree n× n A peut avoir une inverse A−1 telle que

A ·A−1 = A−1 ·A = IIn ,

soit encore (A ·A−1)ij =∑

k(A)ik(A−1)kj = δij . Une telle matrice A est dite inversible.

Mais attention !, une matrice peut aussi ne pas avoir d’inverse ! On dit alors qu’elle

est non-inversible, ou encore singuliere. On va etudier plus bas quel critere doit satisfaire

une matrice pour etre inversible, puis comment calculer son inverse dans ce cas.

Exemples. L’inverse de la matrice A de (3.5) est la matrice A elle-meme ; meme chose

pour la matrice B de (3.5); la matrice inverse de(

1 10 1

)est

(1 −10 1

). D’une facon

generale, toute matrice de changement de base, cf (2.4), doit etre inversible, puisqu’on doit

pouvoir exprimer les ~ei en termes des ~fj et vice versa et ce sont les matrices A et A−1 qui

effectuent ces changements de base : ~fj =∑

i ~eiaij, ~ei =∑

j~fj(A−1)ji, si A est la matrice

(aij).

Par contre, la matrice(

0 10 0

)est non-inversible. En effet cherchons une matrice

(a bc d

)telle que

(0 10 0

)(a bc d

)=(

c d0 0

)?=(

1 00 1

).

Il est clair qu’on se heurte a une impossibilite, celle de reproduire le 1 inferieur de la

diagonale de II2. Verifier de meme qu’il n’existe pas d’inverse a gauche.

Plus etonnant encore : il peut exister des matrices A et B non nulles telles que

A ·B = 0. Par exemple, verifier que la matrice A =(

0 10 0

)est de carre nul (on dit aussi

qu’elle est nilpotente)

A ·A =(

0 10 0

)(0 10 0

)=(

0 00 0

).

J.-B. Z. 24 Juin 2011

Page 24: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

16 Methodes mathematiques pour physiciens 2. LP207

Pour finir cette discussion des proprietes surprenantes du calcul matriciel (liees a

la non-commutation en general de deux matrices), considerons deux matrices carrees in-

versibles A et B. On verifie que le produit B · A est lui-meme inversible avec comme

inverse

(B ·A)−1 = A−1 ·B−1 , (4.1)

puisqu’on verifie immediatement que

(B ·A)−1 · (B ·A) = A−1 ·B−1 ·B ·A = A−1 ·A = II

(ou on a utilise l’associativite du produit). Bien noter sur (4.1) que l’inversion a renverse

l’ordre des facteurs A et B.

4.2. Addition et multiplication par un scalaire des matrices

Pour deux matrices A et B de memes dimensions n×p, on peut definir leur somme A+B,

qui est la matrice n× p d’element (i, j) donne par

(A + B)ij = aij + bij ;

on peut aussi definir le produit λA de A par un scalaire λ, avec (λA)ij = λaij . (Noter que

les matrices n× p forment donc elles-memes un espace vectoriel.)

Ces operations de somme et produit par un scalaire sont compatibles avec le produit

matriciel en ce sens que

(λ1A1 + λ2A2) ·B = λ1A1 ·B + λ2A2 ·BA · (λ1B1 + λ2B2) = λ1A ·B1 + λ2A ·B2 ,

c’est la “distributivite” de la multiplication matricielle (a gauche, resp. a droite) par

rapport a l’addition.

4.3. Changement de base pour la matrice d’une application

Soit A un operateur (ou application) lineaire d’un espace vectoriel E dans un espace F .

Supposons que dans une base ~ei de E et une base ~fj de F , l’operateur A soit represente

par une matrice A. Si on change de base dans les espaces E et F , comment cette matrice

est-elle changee ? La reponse est obtenue aisement en combinant les formules (3.2) et (2.4).

24 Juin 2011 J.-B. Z.

Page 25: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 1. Des vecteurs aux matrices 17

Soit ~e ′ la nouvelle base de E, ~f ′j celle de F . En modifiant un peu les notations de

(2.4), soient V et W les matrices de ces changements de base

~e ′i =∑

i′

~ei′Vi′i

~f ′j =

j′

~fj′Wj′j .

Les matrices V et W doivent etre inversibles, puisque les anciens vecteurs de base peuvent

s’exprimer dans les nouveaux. En particulier

~fj′ =∑

j

~f ′jW

−1jj′ . (4.2)

On ecrit alorsA(~e ′i) =

i′

A(~ei′)Vi′i par linearite de A

=∑

i′j′

~fj′aj′i′Vi′i par (3.2)

=∑

i′j′j

~f ′jW

−1jj′ aj′i′Vi′i par (4.2)

=∑

j

~f ′j(A

′)ji par definition de A′

d’ou il decoule que la nouvelle matrice A′ exprimant l’operateur A dans les nouvelles bases

est reliee a la matrice originale par

A′ = W−1AV .(4.3)

Les deux matrices A et A′ = W−1AV qui representent le meme operateur A dans des

bases differentes sont dites equivalentes. (Inversement toute paire de matrices (A, A′) de

cette forme peut s’interpreter comme representant le meme operateur A dans deux bases

differentes.)

Dans le cas particulier ou E = F et ou l’operateur A est donc un operateur lineaire

de E dans lui-meme (un “endomorphisme”), ces expressions se reduisent a

A′ = V −1AV(4.4)

et les matrices A et A′ = V −1AV sont dites semblables.

Exemple : Comment se transforme la matrice A =(

a bc d

)par le changement de

base (~e1, ~e2) 7→ (~e2, ~e1) ? par (~e1, ~e2) 7→ (~e1 + ~e2, 2~e1 − ~e2) ? Utiliser les resultats des

exemples du § 2.4.

J.-B. Z. 24 Juin 2011

Page 26: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

18 Methodes mathematiques pour physiciens 2. LP207

4.4. Autres definitions

⊲ Transposee d’une matrice. Soit A = (aij) une matrice p×n, avec i = 1, · · ·p, j = 1, · · ·n.

La matrice transposee, notee AT (quelquefois aussi tA), est la matrice n× p dans laquelle

les lignes et les colonnes ont ete echangees. Autrement dit

(AT )ij = aji , avec i = 1, · · ·n, j = 1, · · ·p . (4.5)

Attention que la transposition renverse l’ordre des facteurs d’un produit

(B ·A)T = AT ·BT . (4.6)

En effet cela resulte de l’expression du produit et de la definition (4.5)

(AT ·BT

)ij

=∑

k

(AT )ik(BT )kj =∑

k

akibjk =∑

k

bjkaki = (B ·A)ji = ((B ·A)T )ij .

Si A est carree et inversible, sa transposee est aussi inversible. Montrons que l’inverse

de la transposee est la transposee de l’inverse

(AT )−1 = (A−1)T . (4.7)

En effet, en utilisant (4.6)

(A−1)T ·AT = (A ·A−1)T = IIT = II

comme desire.

Exercice : Calculer((A ·B−1 · C)−1

)T .

⊲ Matrice symetrique

Une matrice carree A egale a sa transposee, donc telle que ∀i, j, aij = aji est dite

symetrique. Ses elements sont symetriques par rapport a la diagonale, ainsi

a b cb d ec e f

.

Exercice. Montrer que pour toute matrice A de dimensions p× n, les matrices A ·AT

et AT ·A sont carrees et symetriques.

⊲ Trace d’une matrice carree : par definition la trace d’une matrice carree est la somme

de ses elements diagonaux :

trA =n∑

i=1

aii . (4.8)

24 Juin 2011 J.-B. Z.

Page 27: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 1. Des vecteurs aux matrices 19

Calculons la trace du produit A ·B de deux matrices carrees. On a

tr(A ·B) =∑

i

(A ·B)ii =∑

ij

aijbji =∑

ij

bjiaij =∑

j

(B ·A)jj = tr(B ·A)

donc

trA ·B = trB ·A , (4.9)

c’est l’importante propriete de cyclicite de la trace.

Corollaire : Deux matrices semblables (au sens de (4.4)) ont meme trace. En effet

trA′ = tr(V −1 ·A · V ) = tr(V · V −1 ·A) = tr(II ·A) = trA.

4.5. Matrices-lignes, matrices-colonnes

Soit ~X un vecteur d’un espace de dimension n, et soient xi, i = 1, · · · , n ses composantes

dans une certaine base. Par definition la matrice-colonne X est la matrice a une seule

colonne Xi1 = xi. Autrement dit (dans la base consideree), on peut representer le vecteur~X par la matrice n× 1

X =

x1

x2...

xn

. (4.10)

Noter qu’avec ces notations, la relation (3.3) entre les composantes du vecteur ~X et celle

de ~Y = A ~X s’exprime par un produit matriciel

Y =

y1

y2...yp

= A ·X . (4.11)

Il peut etre commode de considerer aussi des vecteurs a une seule ligne, appeles matrices-

lignes. Ainsi la transposee de X de l’equ. (4.10) est une matrice-ligne

XT = (x1 x2 · · ·xn) . (4.12)

Toute matrice p×n peut etre consideree comme la juxtaposition de n matrices-colonnes

Aj , j = 1, · · · , n, a p composantes (Aj)i = aij, i = 1, · · · , p

A = (aij) = (A1 A2 · · · An) =

a11

a21...

ap1

a12

a22...

ap2

· · ·

a1n

a2n...

apn

J.-B. Z. 24 Juin 2011

Page 28: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

20 Methodes mathematiques pour physiciens 2. LP207

Les vecteurs Aj , j = 1, · · · , n, sont les vecteurs-colonnes de la matrice A. On peut aussi

representer cette meme matrice comme une juxtaposition de p matrices-lignes Ai, i =

1, · · ·p, a n composantes (Ai)j = aij , j = 1, · · · , n

A =

A1

A2...

Ap

=

(a11 a12 · · · a1n)(a21 a22 · · · a2n)

...(ap1 ap2 · · · apn)

.

Les vecteurs Ai, i = 1, · · · , p, sont les vecteurs-lignes de la matrice A. (Noter la position

des indices sur Aj et Ai.)

Ces definitions vont nous etre utiles pour discuter l’inversibilite d’une matrice.

⊲ Interpretation des vecteurs colonnes.

Soit A la matrice d’une application A dans deux bases ~ei et ~fj , cf (3.3). On note que le

vecteur ~ei ayant pour composantes (ei)j = δij , il est represente par la matrice colonne

ei =

00...1...0

avec un unique 1 a la i-ieme ligne. Les composantes de son image dans la base ~fj sont

selon (3.3)

(A(~ei))j =n∑

k=1

ajk(ei)k = aji = (Ai)j i = 1, · · · , p j = 1, · · · , n .

Autrement dit, les vecteurs colonnes Ai sont les images des vecteurs de base ~ei par

l’application A : Ai = A(~ei).

4.6. Rang d’une matrice

Lemme : Pour toute matrice m× n, le rang du systeme de vecteurs-colonnes egale celui

de ses vecteurs lignes.

Preuve : Soit r le rang du systeme des vecteurs-colonnes. Le rang d’un systeme de vecteurs etantinchange si on permute ces vecteurs, on peut toujours supposer que ce sont les r premiers vecteurs-colonnes Ai, i = 1, · · · , r qui sont independants. Les n− r suivants sont donc des combinaisons lineairesdes r premiers

Ar+s =

r∑

j=1

λsjA

j ∀s = 1, · · · , n− r . (4.13)

24 Juin 2011 J.-B. Z.

Page 29: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 1. Des vecteurs aux matrices 21

Les j-iemes composantes des vecteurs-colonnes forment la j-ieme ligne de la matrice. Les relations (4.13)permettent d’exprimer les n − r derniers elements de chaque ligne comme combinaison lineaire des rpremiers, avec des coefficients independants de la ligne consideree

∀i = 1, · · · , m (Ar+s)i = ai r+s =

r∑

j=1

λsjaij . (4.14)

Si on ecrit le i-eme vecteur-ligne comme Ai =∑n

k=1aikek avec ek le vecteur-ligne de composantes

(ek)j = δkj , (ce qui est bien equivalent a (Ai)j = aij), (4.14) permet d’ecrire

∀i = 1, · · · , m Ai =

n∑

j=1

aijej =

r∑

j=1

aijej +

n−r∑

s=1

r∑

j=1

λsjaijer+s

=

r∑

j=1

aij

(ej +

n−r∑

s=1

λsjer+s

)=

r∑

j=1

aije′j ,

avec pour j = 1, · · · , r, e′j = ej +∑n−r

s=1λs

jer+s. On a donc montre que les m vecteurs-lignes de A sont

combinaisons lineaires des r vecteurs e′j , j = 1, · · · , r. Leur rang r′ est donc inferieur ou egal a r. Mais

on peut reprendre ce raisonnement en echangeant le role des lignes et des colonnes, ce qui conduit a laconclusion que r ≤ r′. On conclut que r = r′, c.q.f.d.

Definition : Le rang d’une matrice est le rang de son systeme de vecteurs-colonnes, ou

de celui de ses vecteurs lignes.

Theoreme : Une matrice carree n× n est inversible si et seulement si son rang est egal

a n.

Preuve. Supposons que le rang des vecteurs colonnes ~e ′i = Ai = A(~ei) egale n. Cela

signifie que l’on peut les considerer comme une base de l’espace E = Rn, et donc que les ~ei

peuvent s’exprimer comme fonctions lineaires de ces ~e ′i. Mais cela signifie que l’application

inverse A−1 existe puisque ~ei = A−1(~e ′i). La reciproque est claire : l’inversibilite de A

garantit que les ~ei peuvent s’exprimer en termes des ~e ′i qui forment donc une base, et la

matrice est bien de rang n.

J.-B. Z. 24 Juin 2011

Page 30: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

22 Methodes mathematiques pour physiciens 2. LP207

24 Juin 2011 J.-B. Z.

Page 31: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 2. Determinants 23

Chapitre 2. Determinants

On a deja rencontre le determinant d’une matrice (ou d’un tableau) 2× 2∣∣∣∣a11 a12

a21 a22

∣∣∣∣ = a11a22 − a12a21 .

On observe que cette expression a des proprietes de linearite par rapport a chacune de ses

colonnes (ou de ses lignes), et d’antisymetrie dans l’echange de ces colonnes (ou lignes).

Ce sont ces proprietes que nous allons generaliser pour donner une definition generale d’un

determinant.

1. Rappels sur les permutations de p objets

On considere p objets numerotes de 1 a p : ce peut etre p boules, p vecteurs, p fonctions,

etc. On s’interesse a l’ensemble Sp de leurs permutations, c’est-a-dire a toutes les manieres

de les ordonner. Il y a p choix possibles pour le premier, (p − 1) choix possibles pour le

deuxieme, etc, 1 choix pour le dernier, donc au total “p factoriel” soit p! = 1.2. · · · .(p− 1).p

permutations des p objets. Autrement dit l’ensemble Sp a p! elements. Si σ est une

permutation de Sp, il est conventionnel de noter σ =(

1 2 · · · pσ(1) σ(2) · · · σ(p)

)en placant

en vis a vis les (indices des) objets initiaux et ceux de leurs images par la permutation ;

on peut aussi noter plus simplement σ = (σ(1) σ(2) · · · σ(p) ). Par exemple, si p = 3,

(1 2 3) est la permutation identite, (2 3 1) est la permutation circulaire ou cyclique qui fait

correspondre 2 a 1, etc, 1 a 3. Cette notation permet de construire aisement la composition

τ σ de deux permutations σ et τ de Sp. (A nouveau l’ordre importe, et la notation τ σ

signifie qu’on effectue d’abord σ, puis τ). Il suffit d’ecrire les images par τ des images par

σ de la permutation initiale. Soit

1 2 · · · pσ(1) σ(2) · · · σ(p)

τ(σ(1)) τ(σ(2)) · · · τ(σ(p))

Par exemple, toujours avec p = 3, si σ = (2 3 1) et τ = (3 2 1) =(

1 2 33 2 1

), on calcule

τ σ = (2 1 3). Verifier que σ τ = (1 3 2) 6= τ σ, autrement dit, en general, le produit

J.-B. Z. 24 Juin 2011

Page 32: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

24 Methodes mathematiques pour physiciens 2. LP207

de deux permutations n’est pas commutatif. Toute permutation σ a un inverse, qui est

la permutation σ−1 telle que σ−1 σ = 1 la permutation identite. On l’obtient aisement

en echangeant les deux lignes de la permutation σ et en reordonnant la premiere (et

son image dans la seconde) par ordre croissant. Exemple, σ = (2 3 1) =(

1 2 32 3 1

),

σ−1 =(

2 3 11 2 3

)=(

1 2 33 1 2

)= (3 1 2). On en conclut qu’on a aussi σ σ−1 = 1.

Dans la suite on abregera τ σ en τσ.

D’un point de vue mathematique, les permutations forment donc un groupe. Il est aise de verifierl’associativite du produit.

Parmi les permutations, les plus simples consistent a echanger deux objets, voisins

ou non dans l’ordre initial. On parle de transposition pour un tel echange. Par exemple

τ = (3 2 1) est la transposition de 1 et 3. Un theoreme important qui va nous etre tres

utile dans la suite et que nous admettrons est le suivant

Theoreme : Toute permutation σ de Sp peut s’ecrire comme un produit de transpositions.

Cela peut etre fait de multiples facons, mais le nombre entier de transpositions Ntr est

pair ou impair independamment de la maniere dont on procede.

Que toute permutation σ puisse etre obtenue par produit de transpositions est clair :

partant de la permutation initiale, on amene 1 a sa position σ(1) par une transposition,

puis 2 a sa position, etc. Il est moins evident que la parite de ce nombre de transpositions

est fixee.

Definition : On appelle signature de la permutation σ et on note ǫσ le nombre (−1)Ntr .

Par le theoreme precedent, ce nombre est bien defini, independant de la decomposition de

σ en transpositions. La signature du produit τσ est le produit des signatures de σ et τ

ǫτσ = ǫσǫτ (1.1)

(en donner une preuve simple) et en particulier

ǫσ−1 = ǫσ (1.2)

puisque leur produit vaut 1, selon (1.1).

On parle de permutation paire, resp.impaire, pour une permutation de signature +1,

resp. −1.

Exemple. σ = (2 3 1) = (2 1 3)(1 3 2) mais aussi = (1 3 2)(2 1 3)(1 3 2)(2 1 3), ǫσ = +1,

σ est paire.

24 Juin 2011 J.-B. Z.

Page 33: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 2. Determinants 25

2. Fonctions multilineaires. Fonctions antisymetriques. Fonction determinant

On a rencontre au chapitre precedent des applications lineaires d’un espace vectoriel E

dans un autre. Definissons maintenant une fonction multilineaire F (X1, X2, · · · , Xp) de p

vecteurs de E. Parler d’une “fonction” signifie que l’application est dans l’ensemble des

nombres reels (ou complexes, selon le cas) : F prend des valeurs reelles (ou complexes).

Dire qu’elle est multilineaire signifie qu’elle est lineaire dans chacun de ses p “arguments”

X1, X2, · · · , Xp, autrement dit que

∀λ, µ ∈ R , ∀q = 1, · · · , p F (X1, · · · , λX ′q + µX ′′

q , · · · , Xp) (2.1)

= λF (X1, X2, · · · , X ′q, · · ·Xp) + µF (X1, X2, · · · , X ′′

q , · · ·Xp) .

Exemple, si x ji est la j-ieme composante du vecteur Xi dans une base donnee, et

pour toute permutation σ ∈ Sp, F (X1, · · · , Xp) = xσ(1)

1 xσ(2)

2 · · ·x σ(p)p est une fonction

multilineaire.

⊲ Fonctions antisymetriques.

Definition : Une fonction F (X1, X2, · · · , Xp) de p vecteurs de l’espace E est (completement)

antisymetrique si elle change de signe pour toute transposition de deux indices i et j

F (X1, X2, · · · , Xi, · · · , Xj, · · · , Xp) = −F (X1, X2, · · · , Xj, · · · , Xi, · · · , Xp) (2.2)

Une consequence immediate de l’antisymetrie est que si F a deux arguments iden-

tiques, elle s’annule

F (X1, X2, · · · , Xi, · · · , Xi, · · · , Xp) = −F (X1, X2, · · · , Xi, · · · , Xi, · · · , Xp) = 0 .

L’expression

det A = det(A1, · · ·Ap) =∑

σ∈Sp

ǫσa1σ(1)a2σ(2) · · ·apσ(p)

(2.3)

definit le determinant d’une matrice A carree p×p, ou encore le determinant d’un systeme

de p vecteurs Aj . C’est donc une somme “alternee” (signe ǫσ) sur toutes les permutations σ

de l’ensemble des permutations Sp. Cette expression a bien les deux proprietes precedentes:

J.-B. Z. 24 Juin 2011

Page 34: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

26 Methodes mathematiques pour physiciens 2. LP207

elle est multilineaire dans les composantes des Aj = aij ; elle est antisymetrique car si

τ est la transposition de i et j,

det(A1, · · · Aj︸︷︷︸

i-ieme position

, · · · Ai︸︷︷︸

j-ieme position

, · · · ,Ap) =∑

σ

ǫσa1 σ(1) · · ·ai σ(j) · · ·aj σ(i) · · ·an σ(p)

=∑

σ

ǫσa1 στ(1)a2 στ(2) · · ·an στ(p)

= −∑

στ

ǫστa1 στ(1)a2 στ(2) · · ·an στ(p)

= −∑

σ′

ǫσ′a1 σ′(1)a2 σ′(2) · · ·an σ′(p)

= −det(A1, · · ·Ai, · · ·Aj , · · · ,Ap)

ou a la deuxieme ligne on a utilise le fait que sommer sur tous les σ equivaut a sommer

sur tous les σ′ = στ et que selon (1.1), ǫστ = −ǫσ puisque τ est une transposition et donc

ǫτ = −1.

Le fait qu’il soit equivalent de sommer sur les σ ou les στ , quelle que soit la permutation τ fixee,signifie que quand σ parcourt tout l’ensemble Sp, στ le parcourt aussi, c’est-a-dire “atteint” chaque elementde Sp une fois et une seule. En effet, si σ 6= σ′, on a aussi στ 6= σ′τ , sans quoi, si on avait στ = σ′τ , enmultipliant par la droite par l’inverse de τ , on aurait σ = σ′, ce qui est contradictoire. Les p! permutationsστ sont donc toutes distinctes, donc atteignent bien toutes les permutations de Sp, cqfd.

3. Proprietes du determinant

Proposition 1 : Tout determinant possedant deux colonnes egales ou proportionnelles

est nul.

Cela decoule de l’antisymetrie.

Proposition 2 : det A = 0 si les p vecteurs colonnes Aj sont lineairement dependants.

Preuve. Supposons les p vecteurs colonnes Aj de A lineairement dependants. On

peut toujours supposer que c’est le dernier, Ap, qui s’exprime comme combinaison lineaire

des precedents

Ap =p−1∑

j=1

λjAj .

Grace a sa multilinearite le determinant s’exprime alors comme

det A = det(A1,A2, · · · ,Ap) =p−1∑

j=1

λj det(A1,A2, · · · ,Ap−1,Aj)

24 Juin 2011 J.-B. Z.

Page 35: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 2. Determinants 27

mais en raison de l’antisymetrie, chaque terme de la somme s’annule puisqu’il contient

deux colonnes identiques Aj, cf Proposition 1, donc det A = 0, cqfd.

Corollaire : On ne change pas la valeur d’un determinant en ajoutant a une colonne

donnee une combinaison lineaire des autres colonnes.

Supposons qu’on ajoute a la colonne j une combinaison lineaire des autres colonnes :

det(A1, · · · ,Aj +∑

j′ 6=j

λj′Aj′ , · · · ,Ap) = det A +∑

j′ 6=j

λj′ det(A1, · · · ,Aj′, · · · ,Ap) = det A

d’apres la Proposition 1.

Proposition 3 : det AT = det A

Preuve :

det AT =∑

σ

ǫσ

p∏

i=1

(AT )i σ(i) =∑

σ

ǫσ

i

aσ(i) i

=∑

σ

ǫσ

i

ai σ−1(i) =∑

σ−1

ǫσ−1

i

ai σ−1(i)

=∑

σ′

ǫσ′∏

i

ai σ′(i) = det A .

ou on a utilise (1.2) ainsi que le fait que sommer sur tous les σ equivaut a sommer sur tous

les σ−1, par un argument similaire a celui utilise plus haut pour la sommation sur στ .

Puisque la transposition echange les vecteurs colonnes et les vecteurs lignes, il decoule

de la Proposition 3 que partout ou nous avons raisonne sur les vecteurs colonnes, nous

aurions pu le faire sur les vecteurs lignes. Les deux propositions 1 et 2 et leur corollaire

ont donc une version equivalente, portant sur les lignes:

Proposition 1’ : Tout determinant possedant deux lignes egales ou proportionnelles est

nul.

Proposition 2’ : det A = 0 si les p vecteurs lignes Ai sont lineairement dependants.

Corollaire : On ne change pas la valeur d’un determinant en ajoutant a une ligne donnee

une combinaison lineaire des autres lignes.

Proposition 4 : det(A.B) = det A detB

Preuve : Les vecteurs colonnes de C = A.B ont pour composantes (Cj)i = (C)ij =

(A.B)ij =∑

k(Ak)ibkj , ce sont donc des fonctions multilineaires des composantes des

vecteurs colonnes de A, et on peut donc ecrire

det(A.B) = det C = det(C1, · · · ,Cp) =∑

k1,k2,···,kp

det(Ak1Ak2 · · ·Akp)bk11bk22 · · · bkpp

J.-B. Z. 24 Juin 2011

Page 36: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

28 Methodes mathematiques pour physiciens 2. LP207

mais l’antisymetrie de det(Ak1Ak2 · · ·Akp) nous dit que seules les sommes sur des ki tous

distincts contribuent, c’est-a-dire qu’on somme sur toutes les permutations de Sp

det(A.B) =∑

σ∈Sp

bσ(1) 1bσ(2) 2 · · · bσ(p) p det(Aσ(1)Aσ(2) · · ·Aσ(p))

=( ∑

σ∈Sp

ǫσbσ(1) 1bσ(2) 2 · · · bσ(p) p

)det(A1A2 · · ·Ap)

=( ∑

σ∈Sp

ǫσb1 σ−1(1)b2 σ−1(2) · · · bp σ−1(p)

)det(A1A2 · · ·Ap)

= det B det A

ou on a utilise une fois encore l’antisymetrie du determinant pour remettre au prix d’un

signe ǫσ les colonnes de A dans l’ordre standard, et ou on a alors fait apparaıtre le

determinant de B. (Exercice : justifier la derniere egalite.)

On a alors deux corollaires

Corollaire : Si la matrice A est inversible, det A−1 detA = 1.

Corollaire : Deux matrices semblables (au sens de (4.4)) ont meme determinant.

qui decoulent immediatement de la Proposition 4.

Theoreme fondamental : det A 6= 0 si et seulement si A est inversible.

On a vu plus haut (§3.5 du chap 1) qu’une matrice A est inversible si et seulement

si ses vecteurs colonnes sont lineairement independants. Si ces vecteurs colonnes sont

dependants et donc que A n’est pas inversible, alors det A = 0 selon la Proposition 2.

Inversement, si det A 6= 0, A est non singuliere (inversible). Reciproquement si A est

inversible (ou “reguliere”), le Corollaire precedent nous dit que det A. detA−1 = 1, ce qui

indique que det A 6= 0. Le theoreme est demontre.

⋆ Deux erreurs grossieres a ne pas faire !

Attention, il est faux d’ecrire det(λA) ?=λ det A. Le determinant etant une fonction mul-

tilineaire de ses vecteurs colonnes (ou lignes) qui sont ici tous multiplies par un meme

facteur λ, la formule correcte pour un determinant p× p est

det(λA) = λp det A . (3.1)

Par ailleurs, alors que le determinant d’un produit est le produit des determinants,

le determinant d’une somme de matrices n’admet pas de formule simple : en general,

det(A + B) 6= det A + det B !

24 Juin 2011 J.-B. Z.

Page 37: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 2. Determinants 29

4. Methodes de calcul

4.1. Calcul direct

La methode de calcul direct par l’expression (2.3) peut s’utiliser pour les petites valeurs

de p.

Exemples. On a rappele au debut de ce chapitre la valeur du determinant d’une matrice

2× 2. Donnons maintenant celle d’un determinant 3× 3

∣∣∣∣∣∣

a11 a12 a13

a21 a22 a23

a31 a32 a33

∣∣∣∣∣∣=a11a22a33 + a12a23a31 + a13a21a32

− a11a23a32 − a13a22a31 − a12a21a33

ou les termes successifs correspondent aux 3 permutations paires (123), (231) et (312),

puis aux trois impaires, (132), (321) et (213). Il peut etre bon de se rappeler les 6 termes

et leur signe sous forme graphique, cf Figure 4.

a a

a a a

a a a

a11 12 13

232221

31 32 33

a a

a a a

a a a

a11 12 13

232221

31 32 33

a a

a a a

a a a

a11 12 13

232221

31 32 33

a a

a a a

a a a

a11 12 13

232221

31 32 33

a a

a a a

a a a

a11 12 13

232221

31 32 33

a a

a a a

a a a

a11 12 13

232221

31 32 33

Fig. 4: Les 6 termes du determinant 3× 3

4.2. Combinaisons lineaires des colonnes ou des lignes

Par les Corollaires des Propositions 2 et 2’ ci-dessus, on ne change pas le determinant

en ajoutant a une ligne (resp. une colonne) une combinaison lineaire des autres lignes

(resp. colonnes). Dans certains cas, cela permet d’obtenir (presque) sans calcul la valeur

du determinant.

Exemples :

∣∣∣∣∣∣∣

1 1 1 11 2 3 41 3 6 101 4 10 20

∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣

1 1 1 10 1 2 30 2 5 90 3 9 19

∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣

1 1 1 10 1 2 30 0 1 30 0 3 10

∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣

1 1 1 10 1 2 30 0 1 30 0 0 1

∣∣∣∣∣∣∣= 1

J.-B. Z. 24 Juin 2011

Page 38: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

30 Methodes mathematiques pour physiciens 2. LP207

On a successivement retranche la premiere ligne aux suivantes, puis un multiple par 2 ou 3

de la seconde aux suivantes, puis 3 fois la troisieme a la derniere. Le calcul s’acheve alors

facilement puisque seule la permutation identite contribue et donne le produit des termes

diagonaux, soit 1.

Autres exemples:∣∣∣∣∣∣

a− b− c 2a 2a2b b− c− a 2b2c 2c c− a− b

∣∣∣∣∣∣=

∣∣∣∣∣∣

a + b + c a + b + c a + b + c2b b− c− a 2b2c 2c c− a− b

∣∣∣∣∣∣

=(a + b + c)

∣∣∣∣∣∣

1 1 12b b− c− a 2b2c 2c c− a− b

∣∣∣∣∣∣= (a + b + c)

∣∣∣∣∣∣

1 0 02b −a− b− c 02c 0 −c− a− b

∣∣∣∣∣∣

=(a + b + c)3

ou a la premiere ligne de l’equation on a ajoute les deux dernieres lignes de la matrice a

sa premiere ligne, puis a la seconde ligne de l’equation, on a retranche la premiere colonne

des deux suivantes. On a finalement developpe le determinant selon la premiere ligne.

Ou encore∣∣∣∣∣∣∣

1 2 3 44 3 2 15 4 3 22 3 4 5

∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣

1 2 3 40 −5 −10 −150 −6 −12 −180 −1 −2 −3

∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣

1 2 3 40 −5 −10 −150 −6 −12 −180 0 0 0

∣∣∣∣∣∣∣= 0 ,

pourquoi ? [Reponse: On a d’abord soustrait un multiple de la 1e ligne aux suivantes. A

la deuxieme etape, on a ajoute la 2e ligne et retranche la 3e a la 4e.]

4.3. Developpement par rapport a une ligne ou a une colonne. Mineurs

Le determinant etant une fonction multilineaire de ses vecteurs lignes ou de ses vecteurs

colonnes, c’est-a-dire une fonction lineaire de chacun de ses vecteurs lignes ou colonnes,

on peut le developper selon les composantes d’une ligne ou d’une colonne. Par exemple le

developpement par rapport a la i-eme ligne est

det A =p∑

j=1

aijAij i fixe (4.1)

ou le cofacteur Aij (attention aux notations !) s’exprime lui-meme comme un determinant,

mais d’une matrice (p−1)×(p−1). On a donc gagne en complexite. La regle est la suivante

Aij = (−1)i+j∆ij = (−1)i+j det(A(ij)) (4.2)

24 Juin 2011 J.-B. Z.

Page 39: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 2. Determinants 31

ou A(ij) est la matrice obtenue en detruisant dans A la i-ieme ligne et la j-ieme colonne

et ∆ij = det(A(ij)) est le mineur d’ordre (i, j). En combinant ces deux dernieres formules,

on obtient l’importante relation

det A =p∑

j=1

(−1)i+jaij∆ij i fixe

(4.3)

ou aussi, en developpant par rapport a la j-ieme colonne

det A =p∑

i=1

(−1)i+jaij∆ij j fixe . (4.3)′

(a)

(b)

Fig. 5: Developpement d’un determinant 4 × 4 : (a) selon la premiere ligne, (b) selon laseconde colonne. Dans chaque cas, la ligne et la colonne detruites sont barrees par uneligne en tirets.

Deux exemples de tels developpements sont representes de facon symbolique sur la

figure 5, pour une matrice 4× 4. De facon plus explicite, ils se lisent

det A = a11∆11 − a12∆12 + a13∆13 − a14∆14

= −a12∆12 + a22∆22 − a32∆32 + a42∆42 .

On a evidemment tout interet a utiliser ce developpement par rapport a une ligne (ou

a une colonne) qui contient de nombreux zeros.

Exemples ∣∣∣∣∣∣

1 2 34 5 67 0 0

∣∣∣∣∣∣= +7

∣∣∣∣2 35 6

∣∣∣∣ = 7(2× 6− 3× 5) = −21

J.-B. Z. 24 Juin 2011

Page 40: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

32 Methodes mathematiques pour physiciens 2. LP207

∣∣∣∣∣∣

1 2 34 5 06 7 0

∣∣∣∣∣∣= +3

∣∣∣∣4 56 7

∣∣∣∣ = 3(4× 7− 5× 6) = −6

∣∣∣∣∣∣∣

1 2 3 45 0 6 78 0 9 010 0 11 0

∣∣∣∣∣∣∣= −2

∣∣∣∣∣∣

5 6 78 9 010 11 0

∣∣∣∣∣∣= −2× 7

∣∣∣∣8 910 11

∣∣∣∣ = 2× 7× 2 = 28

∣∣∣∣∣∣∣

1 2 3 45 0 6 07 8 9 1011 0 12 0

∣∣∣∣∣∣∣= −4

∣∣∣∣∣∣

5 0 67 8 911 0 12

∣∣∣∣∣∣−10

∣∣∣∣∣∣

1 2 35 0 611 0 12

∣∣∣∣∣∣= −4×8

∣∣∣∣5 611 12

∣∣∣∣+10×2∣∣∣∣

5 611 12

∣∣∣∣ = 72

Il y a evidemment des facons variees de calculer ces determinants.

4.4. Methode du pivot de Gauss

La methode du pivot de Gauss est une consequence directe des proprietes du § 4.2. Elle

consiste a faire apparaıtre n − 1 zeros sur une colonne (ou une ligne) d’un determinant

d’ordre n par combinaisons lineaires de lignes (ou de colonnes). Le determinant est alors

egal au produit du seul element restant dans cette colonne (ou ligne), le pivot, par son

cofacteur. On passe ainsi d’un determinant d’ordre n a un determinant d’ordre n− 1.

En pratique, on cherche une ligne ou une colonne contenant des nombres simples

(pas trop grands, pour simplifier les calculs), de preference des zeros, et si possible un 1.

Supposons par exemple que le determinant a un element aij = 1. On ne modifie pas le

determinant en retranchant a la k-ieme ligne akj fois la i-eme, pour tout k 6= i : le nouveau

determinant a une j-ieme colonne faite de 0 sauf a la i-eme ligne. On peut alors developper

selon cette colonne, se ramener a un determinant d’ordre n− 1, puis iterer l’algorithme.

∣∣∣∣∣∣∣∣∣∣∣∣∣∣

a11 a12 · · · a1j · · · a1n

a21 a22 · · · a2j · · · a2n

.... . .

ai1 ai2 · · · aij = 1 · · · ain

.... . .

an1 an2 · · · anj · · · ann

∣∣∣∣∣∣∣∣∣∣∣∣∣∣

=

∣∣∣∣∣∣∣∣∣∣∣∣∣

a11 − a1jai1 a12 − a1jai2 · · · 0 · · · a1n − a1jain

a21 − a2jai1 a22 − a2jai2 · · · 0 · · · a2n − a2jain

.... . .

...ai1 ai2 · · · 1 · · · ain...

.... . .

an1 − anjai1 an2 − anjai2 · · · 0 · · · ann − anjain

∣∣∣∣∣∣∣∣∣∣∣∣∣

= (−1)i+j

∣∣∣∣∣∣∣∣

a11 − a1jai1 a12 − a1jai2 · · · a1n − a1jain

a21 − a2jai1 a22 − a2jai2 · · · a2n − a2jain

.... . .

...an1 − anjai1 an2 − anjai2 · · · ann − anjain

∣∣∣∣∣∣∣∣

24 Juin 2011 J.-B. Z.

Page 41: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 2. Determinants 33

ou la i-eme ligne et la j-eme colonne ont ete otees pour fabriquer le dernier determinant.

Si le determinant de depart ne possede aucun element egal a 1, on choisit un element non nul aij , on

ecrit la j-ieme colonne comme Aj = aijA

j

aij, on factorise aij hors du determinant, et on est alors ramene

au cas precedent, avec une j-ieme colonne ayant un 1 a la i-eme ligne.Bien sur, partout dans ce qui precede, les mots “ligne” et “colonne” peuvent etre intervertis.

Exemple : En utilisant cet algorithme, calculer le determinant

D =

∣∣∣∣∣∣∣

2 −1 3 53 1 −1 55 −2 1 11 0 1 1

∣∣∣∣∣∣∣.

[Reponse: Je retranche la premiere colonne aux colonnes 3 et 4 :

D =

∣∣∣∣∣∣∣

2 −1 1 33 1 −4 25 −2 −4 −41 0 0 0

∣∣∣∣∣∣∣= −

∣∣∣∣∣∣

−1 1 31 −4 2−2 −4 −4

∣∣∣∣∣∣= −

∣∣∣∣∣∣

−1 0 01 −3 5−2 −6 −10

∣∣∣∣∣∣= +

∣∣∣∣−3 5−6 −10

∣∣∣∣ = 60 .

]

4.5. Calcul de l’inverse d’une matrice

Dans la formule (4.1), remplacons au membre de droite aij par les elements d’une autre

ligne ai′j de A. L’expression obtenue est, toujours selon (4.1), le developpement d’un

determinant dans lequel la ligne i′ apparaıt deux fois, et qui est donc nul (cf Proposition

2’). On a donc∑p

j=1 ai′jAij = 0, et cette relation et (4.1) peuvent etre mises sous une

forme uniquep∑

j=1

ai′jAij = δii′ det A . (4.5)

Si A est inversible, det A 6= 0 et on peut recrire cette identite sous la forme

p∑

j=1

ai′j1

det AAij = δii′

qu’on compare a celle satisfaite par la matrice inverse A−1

p∑

j=1

ai′j(A−1)ji = δii′ .

L’identite (4.5) nous fournit donc une formule compacte pour la matrice inverse

A−1 =1

det A(Cof A)T , (4.6)

J.-B. Z. 24 Juin 2011

Page 42: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

34 Methodes mathematiques pour physiciens 2. LP207

ou la comatrice Cof A est la matrice d’element i, j egal au cofacteur Aij , et (Cof A)T est

sa transposee.

Exemple. Calculons par cette formule la matrice inverse de la matrice

A =

1 1 12 3 53 6 10

.

On verifie que det A = −2. On calcule alors la comatrice Cof A =

0 −5 3−4 7 −32 −3 1

, et

la matrice inverse est donc

A−1 = −12(Cof A)T =

0 2 −152 −7

232

−32

32

−12

.

5. Applications des determinants

5.1. Critere d’independance lineaire

Une application tres frequente et tres utile des determinants decoule des propositions 2 et

2’ du § 3 :

Proposition 5 : Dans un espace de dimension n, un systeme de n vecteurs est lineairement

independant sissi le determinant de leurs n composantes dans une base arbitraire est non

nul. Dans un espace de dimension n, un systeme de p < n vecteurs est lineairement

independant sissi l’un des determinants p×p formes avec p de leurs composantes dans une

base arbitraire est non nul.

Dire que cela constitue une condition necessaire et suffisante signifie qu’inversement,

la nullite du determinant n× n dans le premier cas, de tous les determinants p× p dans le

second, assure que les vecteurs sont lineairement dependants.

Exemples : Montrer que les vecteurs de composantes (1, 1, 3), (2, 2, 3) et (0, 0, 1) sont

lineairement dependants dans R3. Qu’en est-il des vecteurs (1, 1, 3) et (2, 2, 3) ?

5.2. Equation d’une droite de R2, d’un plan de R3

Comme application du critere precedent, cherchons l’equation d’une droite du plan R2, ou

d’un plan de l’espace R3.

24 Juin 2011 J.-B. Z.

Page 43: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 2. Determinants 35

Soit M1 et M2 deux points du plan, de coordonnees (x1, y1) et (x2, y2) dans un repere

donne (O,~i,~j). Autrement dit, les vecteurs −−−→OM1 et −−−→OM2 s’ecrivent respectivement

−−−→OM1 = x1

~i + y1~j ,

−−−→OM2 = x2

~i + y2~j .

Un point M du plan, de coordonnees (x, y), appartient a la droite M1M2 sissi les vecteurs−−−→M1M et −−−−→M1M2 sont colineaires, c’est-a-dire lineairement dependants, donc selon le critere

de la Proposition 5,

det(−−−→M1M,−−−−→M1M2) =

∣∣∣∣x− x1 x2 − x1

y − y1 y2 − y1

∣∣∣∣ = 0 (5.1)

soit (x− x1)(y2 − y1)− (y − y1)(x2 − x1) = 0 ou encore, si (x2 − x1)(y2 − y1) 6= 0,

x− x1

x2 − x1=

y − y1

y2 − y1

forme familiere de l’equation d’une droite passant par les deux points M1 et M2. Si

(x2 − x1)(y2 − y1) = 0, par exemple y2 = y1 (mais x2 − x1 6= 0 !), l’equation se reduit a

y = y1, droite parallele a l’axe des x.

Le raisonnement se transpose facilement a trois dimensions : soient M1, M2 et M3 trois

points de l’espace, de coordonnees (xi, yi, zi), i = 1, 2, 3, dans un repere~i,~j,~k. Un point M

de coordonnees (x, y, z) appartient au plan passant par M1, M2, M3 sissi les trois vecteurs−−−→M1M , −−−−→M1M2 et −−−−→M1M3 sont coplanaires, c’est-a-dire lineairement dependants, donc selon

le critere de la Proposition 5,

det(−−−→M1M,−−−−→M1M2,

−−−−→M1M3) =

∣∣∣∣∣∣

x− x1 x2 − x1 x3 − x1

y − y1 y2 − y1 y3 − y1

z − z1 z2 − z1 z3 − z1

∣∣∣∣∣∣= 0 , (5.2)

soit, en developpant selon la premiere colonne et en modifiant legerement l’ordre des lignes

(x− x1)∣∣∣∣y2 − y1 y3 − y1

z2 − z1 z3 − z1

∣∣∣∣+ (y − y1)∣∣∣∣z2 − z1 z3 − z1

x2 − x1 z2 − z1

∣∣∣∣+ (z − z1)∣∣∣∣x2 − x1 x3 − x1

y2 − y1 y3 − y1

∣∣∣∣ = 0

qui est l’equation du plan passant par les trois points M1, M2 et M3. Bien noter la structure

de cette equation : le coefficient de (x−x1) est le mineur associe dans le determinant (5.2),

les deux autres termes s’en deduisant par permutation cyclique x 7→ y 7→ z 7→ x. On verifie

aisement, par exemple en soustrayant la deuxieme colonne de (5.1) ou de (5.2) a toutes les

autres, que cette equation est independante du choix du point M1 plutot que M2 ou M3,

comme il se doit.

J.-B. Z. 24 Juin 2011

Page 44: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

36 Methodes mathematiques pour physiciens 2. LP207

Exemple. Soit trois points O, origine des coordonnees, P1 de coordonnees x1, y1 et

P2 : x2, y2. Le plan passant par O, P1, P2, ou encore “sous-tendu” par les vecteurs −−→OP1 et

−−→OP2, a pour equation

∣∣∣∣∣∣

x x1 x2

y y1 y2

z z1 z2

∣∣∣∣∣∣= 0, soit x(y1z2 − y2z1) + perm. cycl. = 0. Ainsi, dans

l’exemple du paragraphe precedent, l’equation du plan sous-tendu par les vecteurs (1, 1, 3)

et (2, 2, 3), est −3(x − y) = 0. C’est donc un plan passant par l’axe des z, d’equation

x = y, c’est le plan bissecteur des vecteurs ~i et ~j.

5.3. Wronskien

Les determinants sont utiles aussi pour discuter de l’(in)dependance lineaire de fonctions. Le wron-skien est le determinant de n fonctions et de leurs n − 1 premieres derivees. Une condition suffisantede l’independance de ces fonctions est la non nullite de cette fonction wronskien, voir TD.

5.4. Interpretation geometrique du determinant. Jacobien

Considerons l’espace euclidien Rn et supposons qu’on y a construit un repere (une base) ~ei orthonorme,c’est-a-dire constitue de vecteurs deux a deux orthogonaux et normes, ce qu’on resume dans une formuleunique

~ei.~ej = δij . (5.3)

Soit ~X1, ~X2, · · · , ~Xp un systeme de p vecteurs avec p ≤ n. On note xij leurs composantes dans labase ~ei

~Xi =∑

j

xij~ej .

On definit alors le parallelepipede generalise, ou parallelotope, P construit sur ces vecteurs, commel’ensemble des points de Rn

P : ~ξ =

p∑

i=1

ξi~Xi, 0 ≤ ξi ≤ 1 . (5.4)

On demontre (et nous admettrons) que le volume de ce parallelotope est donne par

vol(P) = | det( ~X1, ~X2, · · · , ~Xp)| = | det(xij)| . (5.5)

– Il est nul si les vecteurs ~X1, ~X2, · · · , ~Xp sont lineairement independants. Cela correspond bien a

l’image qu’on se fait de cette situation, ou (au moins) un des vecteurs ~Xi est combinaison lineairedes autres, et appartient donc au sous-espace qu’engendrent ces derniers : le parallelotope est aplati,donc de volume nul ;

– si on dilate toutes les longueurs des ~Xi par un meme facteur reel λ, selon la formule (3.1), le volumeest multiplie par λp, conformement a l’analyse dimensionnelle.

Si p = n, le meme determinant (5.5), mais sans valeur absolue, definit le volume algebrique du poly-

tope P a n dimensions. Son signe est positif ou negatif selon que le systeme des n vecteurs ~X1, ~X2, · · · , ~Xn

forme un repere oriente positivement ou negativement (par rapport au repere initial ~ei).Dans le meme ordre d’idees, considerons un changement de variables ~x 7→ ~x′ dans une integrale a

n dimensions I =∫

VdnxF (~x). On demontre que l’element de volume infinitesimal dnx est relie a celui

dnx′ dans les nouvelles coordonnees par

dnx =

∣∣∣∣det

(∂xi

∂x′j

)∣∣∣∣ dnx′ =: |J| dnx′ .

On appelle jacobien le determinant des gradients du changement de variables. La valeur absolue dujacobien est donc le facteur a inserer dans un changement de variables.

24 Juin 2011 J.-B. Z.

Page 45: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 3. Systemes lineaires d’equations algebriques 37

Chapitre 3. Systemes lineaires d’equations algebriques de 1er degre

On rencontre tres souvent en mathematiques ou en physique le probleme de resoudre

un systeme d’equations lineaires (du premier degre) couplees. Nous allons voir que les

methodes matricielles et determinantales sont tres efficaces pour traiter ces questions.

1. Position du probleme

1.1. Systeme d’equations considere comme un probleme vectoriel

Considerons le systeme de p equations a n inconnues x1, x2, · · · , xn :

(S)

a11x1 + a12x2 + · · ·+ a1nxn = b1

a21x1 + a22x2 + · · ·+ a2nxn = b2...

ap1x1 + ap2x2 + · · ·+ apnxn = bp

(1.1)

avec des coefficients aij et bj (reels) donnes et dont on cherche les solutions xj.

Considerons les n vecteurs colonnes a p composantes

V1 =

a11

a21...

ap1

, V2 =

a12

a22...

ap2

, Vn =

a1n

a2n...

apn

(1.2)

et soit

B =

b1

b2...bp

.

Le systeme (S) de l’equation (1.1) se recrit comme une equation vectorielle

x1V1 + x2V2 + · · ·xnVn = B .

Pour que le systeme (1.1) soit “possible”, c’est-a-dire admette des solutions en x, il

faut et il suffit que B appartienne a l’espace vectoriel V, sous-espace de Rp, engendre par

les n vecteurs V1, V2, · · · , Vn.

J.-B. Z. 24 Juin 2011

Page 46: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

38 Methodes mathematiques pour physiciens 2. LP207

Donc deux cas se presentent

(1) B n’appartient pas a ce sous-espace V : le systeme est “impossible”, il n’admet pas

de solution en x ;

(2) B appartient a V. Soit r le rang du systeme de vecteurs V1, V2, · · · , Vn. Quitte

a les renumeroter, on peut toujours supposer que les r premiers V1, V2, · · · , Vr sont

independants. Ils engendrent l’espace V et en particulier Vr+1, · · · , Vn en sont des

combinaisons lineaires. Alors quels que soient xr+1, xr+2, · · · , xn, le vecteur

B′ = B − xr+1Vr+1 − · · ·xnVn

appartient a V, et on peut trouver r nombres reels x1, x2, · · · , xr tels que

x1V1 + x2V2 + · · ·+ xrVr = B − xr+1Vr+1 − · · ·xnVn .

On en conclut que

Theoreme : Si le rang du systeme de vecteurs V1, V2, · · · , Vn est r et si B ∈ V, le systeme

(1.1) admet des solutions dependant de n− r parametres.

Exemple : soit le systeme

x1 + x2 = 1x1 + x3 = 1x2 − x3 = 0

Les trois vecteurs V1 =

110

, V2 =

101

et V3 =

01−1

sont lineairement dependants

et forment un systeme de rang 2 puisque V1 = V2 +V3. Le vecteur B = V1 appartient bien

sur au sous-espace V. La solution depend de 3− 2 = 1 parametre arbitraire, par exemple

x3, soit

x1 = 1− x3 x2 = x3 .

1.2. Systemes d’equations homogenes

On appelle systeme homogene un systeme de la forme (1.1) dans lequel le second membre

s’annule, B = bj = 0

a11x1 + a12x2 + · · ·+ a1nxn = 0a21x1 + a22x2 + · · ·+ a2nxn = 0

...ap1x1 + ap2x2 + · · ·+ apnxn = 0

(1.3)

24 Juin 2011 J.-B. Z.

Page 47: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 3. Systemes lineaires d’equations algebriques 39

Dans ce cas, il est clair que l’on est toujours dans le cas (2) de la discussion precedente :

le vecteur 0 appartient toujours a l’espace V engendre par les vecteurs V1, V2, · · · , Vn.

On note aussi que les solutions xj forment elles-memes un sous-espace vectoriel de

Rn. En effet si x(1), x(2), · · ·x(q) sont q solutions de (1.3), ou chaque x(k) est un vecteur

de Rn a n composantes x(k)j , toute combinaison lineaire

∑qk=1 λkx(k) est aussi solution.

Si le rang des n vecteurs V1, V2, · · · , Vn est n, c’est-a-dire s’ils sont lineairement

independants, la seule facon d’ecrire 0 comme combinaison lineaire∑

j xjVj , donc la seule

solution du systeme, est la solution triviale xj = 0, ∀j = 1, · · · , n.

Si le rang des Vj est r < n, donc que les vecteurs Vj sont lineairement dependants, on a

comme au paragraphe precedent une solution dependant de n−r parametres independants.

En effet, supposant a nouveau les r premiers V1, V2, · · · , Vr independants, pour tout choix

de xr+1, · · · , xn, on peut trouver x1, · · · , xr tels que

x1V1 + x2V2 + · · ·+ xrVr = −xr+1Vr+1 − · · ·xnVn

c’est-a-dire trouver une solution de (1.3).

Bien entendu cette discussion n’est qu’un cas particulier de celle du § 1.1 quand le

second membre B = 0. Inversement, etant deux solutions du systeme (1.1), leur difference

satisfait le systeme (1.3).

1.3. Interpretation matricielle

Considerons le systeme S d’un autre point de vue, comme representant une application

lineaire d’un espace dans un autre. E designe l’espace vectoriel Rn, dote d’une base ei, F

l’espace Rp, avec une base fj . La matrice

A =

a11 a12 · · ·a1n

a21 a22 · · ·a2n...

ap1 ap2 · · ·apn

peut etre consideree comme la matrice d’une application lineaire A de E dans F . Resoudre

le systeme (1.1) equivaut a trouver les vecteurs ~X representes dans la base ~ei par le vecteur

colonne

X =

x1

x2...

xn

∈ E = Rn

J.-B. Z. 24 Juin 2011

Page 48: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

40 Methodes mathematiques pour physiciens 2. LP207

dont l’image par A est le vecteur ~B ∈ F :

A( ~X) = ~B ou encore AX = B .

A nouveau, deux cas se presentent

(1) ~B /∈ A(E), c’est-a-dire l’image de E par A ne contient pas ~B : le systeme est “impos-

sible” ;

(2) ~B ∈ A(E). Il existe au moins un vecteur ~X0 tel que A( ~X0) = ~B, ou encore AX0 = B.

Alors tout autre X solution de (1.1) est tel que (par soustraction des deux equations

satisfaites par X et X0)

A( ~X − ~X0) = 0 ou encore A(X −X0) = 0 .

On obtient donc toutes les solutions a partir de l’une d’entre elles ~X0 en lui ajoutant un

vecteur quelconque ~Y du “noyau”, c’est-a-dire satisfaisant A(~Y ) = 0. Si l’application

A a pour rang r, c’est-a-dire si la matrice A a le rang r, ce noyau a pour dimension

n−r (cf Theoreme du § 3.2 au chap. 1). La solution depend donc de n−r parametres

arbitraires.

On a bien retrouve les conclusions des deux sections precedentes.

2. Rang d’un systeme, determinant principal

Une question importante est donc de determiner le rang r d’un systeme de vecteurs

V1, V2, · · · , Vn , ou le rang de la matrice A (dont ces vecteurs sont les vecteurs-colonnes).

On se rappelle la Proposition 5 du § 5 du chapitre 2, d’ou decoule la methode suivante.

A partir de la matrice A = (aij), on forme des determinants q × q en ne gardant que les

elements communs a q lignes et q colonnes et on cherche la plus grande valeur de q telle

qu’un tel determinant soit non nul. En pratique, on commence par donner a q la valeur

la plus grande possible (q = inf(n, p)), puis si tous ces determinants sont nuls, on passe a

l’entier immediatement inferieur, etc. On s’arrete des qu’on a trouve un determinant non

nul, on appelle un tel determinant determinant principal de la matrice (ou du systeme).

Le rang r cherche est la dimension de ce determinant principal. Noter que le determinant

principal n’est en general pas unique.

Exemple. Soit la matrice

A =

1 1 1 11 1 3 42 2 4 5

24 Juin 2011 J.-B. Z.

Page 49: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 3. Systemes lineaires d’equations algebriques 41

Le rang de cette matrice 3 × 4 est au plus 3. Les trois vecteurs lignes sont evidemment

lineairement dependants, puisque la troisieme ligne est la somme des deux precedentes (et

donc tout sous-determinant de taille 3× 3 est nul). Le rang est donc au plus 2. Calculons

les sous-determinants de taille 2× 2. Le premier en haut a gauche,∣∣∣∣1 11 1

∣∣∣∣, est nul mais le

suivant ∣∣∣∣1 11 3

∣∣∣∣ = 2

est non nul, c’est un determinant principal de A et le rang de A est bien 2.

Les inconnues xi correspondant aux colonnes du determinant principal sont appelees

inconnues principales. On peut toujours, quittes a renumeroter les variables, supposer

que ce sont les r premieres x1, x2, · · · , xr. De meme on appelle equations principales les

equations correspondant aux lignes du determinant principal, et on peut supposer que ce

sont les r premieres du systeme.

3. Discussion et resolution. Systemes de Cramer

3.1. p = r ≤ n

* Si n = r = p, le systeme est dit de Cramer. La matrice A des coefficients est reguliere

(rang = dimension) donc inversible. Le systeme admet une solution unique qu’on

ecrit sous la forme

X = A−1B .

Mais on se rappelle que A−1 = 1det ACof AT , d’ou on tire les formules de Cramer

xj =b1A

1j + b2A2j + · · ·+ bnAnj

det A.

(3.1)

En utilisant la formule (4.1) du chap. 2 (ou plutot son analogue pour un

developpement par rapport a la j-eme colonne), on voit que le numerateur n’est autre

que le determinant de la matrice A ou on a substitue la colonne des bi a la colonne

des aij , c’est-a-dire le vecteur-colonne B au vecteur-colonne Vj (cf. equ. (1.2))

xj =det(V1, V2, · · · ,

↓j

B , · · · , Vn)det(V1, V2, · · · , Vn)

. (3.2)

J.-B. Z. 24 Juin 2011

Page 50: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

42 Methodes mathematiques pour physiciens 2. LP207

* Si p = r < n, on choisit arbitrairement les n− r inconnues non principales. On resoutalors le systeme de Cramer sur les r inconnues principales. La solution a donc uneindetermination d’ordre n− r.

Exemples 1. Soit le systeme

2x1 + 3x2 = 1x1 + 2x2 = 2 . Il a n = p = 2. Son rang est 2 car le

determinant∣∣∣∣2 31 2

∣∣∣∣ = 1. C’est donc un systeme de Cramer, la solution est donnee par

(3.1) ou (3.2).

x1 =

∣∣∣∣1 32 2

∣∣∣∣∣∣∣∣2 31 2

∣∣∣∣= −4, x2 =

∣∣∣∣2 11 2

∣∣∣∣∣∣∣∣2 31 2

∣∣∣∣= 3 .

On peut aussi l’ecrire sous forme matricielle

AX = B, A =(

2 31 2

), X =

(x1

x2

), B =

(12

)

doncX = A−1B =

(2 −3−1 2

)(12

)=(−43

).

2. Soit maintenant le systeme

2x1 + 3x2 + x3 = 1x1 + 2x2 + x3 = 2 . On a n = 3, p = r = 2, et

en recrivant

2x1 + 3x2 = 1− x3

x1 + 2x2 = 2− x3on se ramene a un systeme de Cramer en x1 et x2; la

solution depend de n− r = 1 parametre x3 : x1 = −4 + x3, x2 = 3− x3.

3.2. r < p

Dans ce cas, le nombre d’equations est superieur au rang de la matrice. Comme on l’a vuau § 1, pour que le systeme soit possible, il faut et il suffit que le vecteur ~B appartienneau sous-espace de dimension r engendre par les r vecteurs-colonnes correspondant auxinconnues principales. De facon equivalente, il faut et il suffit que pour tout q, r <

q ≤ p, le vecteur ~b = (b1, b2, · · · , br, bq) appartienne au sous-espace engendre par les ~vi =(a1i, a2,i, · · · , ari, aqi), i = 1, · · · , r, donc que les p− r determinants caracteristiques

dq =

∣∣∣∣∣∣∣∣

a11 · · · a1r b1... · · ·

......

ar1 · · · arr br

aq1 · · · aqr bq

∣∣∣∣∣∣∣∣pour tous les q, r < q ≤ p, s’annulent, cf. Proposition 5 du § 5, chap. 2.

Theoreme de Rouche-Fontene. Si un des p − r determinants caracteristiques dq

ne s’annule pas, le systeme est impossible : pas de solution.

S’ils s’annulent tous, les r equations principales forment un systeme de Cramer a r

equations et r inconnues principales, il y a indetermination d’ordre n− r.

24 Juin 2011 J.-B. Z.

Page 51: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 3. Systemes lineaires d’equations algebriques 43

3.3. Systeme homogene

Comme on l’a vu au § 1.2, pour qu’on ait une solution autre que la solution triviale

X = (xj) = 0, il faut et il suffit que le rang du systeme (de la matrice) soit strictement

inferieur au nombre des inconnues, r < n.

Exemple. Soit (avec des notations un peu differentes) le systeme de trois equations a

trois inconnues

ax + by + cz = 0a′x + b′y + c′z = 0

a′′x + b′′y + c′′z = 0, (3.3)

ou encore x~V1 + y~V2 + z~V3 = 0 avec ~V1 =

aa′

a′′

, etc. Si D =

∣∣∣∣∣∣

a b ca′ b′ c′

a′′ b′′ c′′

∣∣∣∣∣∣6= 0, le

systeme est de Cramer et n’a que la solution triviale x = y = z = 0. Si D = 0 et si deux

des vecteurs ~Vi sont non colineaires, par exemple ~V1 et ~V2, le systeme est de rang 2. Par

exemple, si ab′ − ba′ 6= 0, le systeme des deux premieres equations avec les termes en z au

second membre est de Cramer, et on calcule donc x et y en termes de z

x =bc′ − cb′

ab′ − ba′z , y =

ca′ − ac′

ab′ − ba′z .

Si les trois vecteurs sont colineaires mais non nuls, le rang est 1, il y a indetermination

d’ordre 2, deux des inconnues sont des parametres arbitraires, par exemple y et z, et alors

x = −(by + cz)/a.

4. Un exemple detaille

Soit le systeme

λx + y + z + t = 1x + λy + z + t = µx + y + λz + t = µ2

x + y + z + λt = µ3

(4.1)

qui a donc p = n = 4. Le determinant D de la matrice des coefficients se calcule aisement

par combinaison des lignes et colonnes

D =

∣∣∣∣∣∣∣

λ 1 1 11 λ 1 11 1 λ 11 1 1 λ

∣∣∣∣∣∣∣= (λ+3)

∣∣∣∣∣∣∣

1 1 1 11 λ 1 11 1 λ 11 1 1 λ

∣∣∣∣∣∣∣= (λ+3)

∣∣∣∣∣∣∣

1 0 0 01 λ− 1 0 01 0 λ− 1 01 0 0 λ− 1

∣∣∣∣∣∣∣= (λ+3)(λ−1)3 .

Il faut donc distinguer selon les valeurs de λ

J.-B. Z. 24 Juin 2011

Page 52: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

44 Methodes mathematiques pour physiciens 2. LP207

(a) Si λ 6= 1 et λ 6= −3

Le systeme est de Cramer et admet donc une solution unique. On peut utiliser la formule

generale (3.1) mais il est sans doute preferable de combiner les equations de (4.1) : en les

ajoutant toutes les quatre, on a x+y +z + t = 1+µ+µ2+µ3

λ+3 dont on retranche alors chacune

pour en tirer

x =(λ + 2)− µ− µ2 − µ3

(λ + 3)(λ− 1), y =

µ(λ + 2)− 1− µ2 − µ3

(λ + 3)(λ− 1)

z =µ2(λ + 2)− 1− µ− µ3

(λ + 3)(λ− 1), t =

µ3(λ + 2)− 1− µ− µ2

(λ + 3)(λ− 1)

(b) λ = −3, la matrice des coefficients est de rang r = 3 et on peut prendre par exemple∣∣∣∣∣∣

−3 1 11 −3 11 1 −3

∣∣∣∣∣∣= −16 comme determinant principal, donc x, y, z comme inconnues

principales. Le determinant caracteristique est obtenu en bordant le precedent en

d =

∣∣∣∣∣∣∣

−3 1 1 11 −3 1 µ1 1 −3 µ2

1 1 1 µ3

∣∣∣∣∣∣∣= (1 + µ + µ2 + µ3)

∣∣∣∣∣∣

−3 1 11 −3 11 1 −3

∣∣∣∣∣∣= −16(1 + µ + µ2 + µ3)

donc d = −16(1 + µ)(1 + µ2) ne s’annule que µ = −1. Donc

(i) µ 6= −1, le systeme est impossible : pas de solution ;

(ii) µ = −1, indetermination d’ordre n− r = 1, x = z = t− 12 , y = t.

(c) λ = 1 : on revient au systeme (4.1) ou on remplace λ par 1 : les 4 membres de gauche

sont egaux, tandis que ceux de droite sont 1, µ, µ2, µ3. Donc

(i) µ 6= 1, systeme impossible, pas de solution ;

(ii) µ = 1, le systeme est de rang r = 1, une seule equation x + y + z + t = 1,

indetermination d’ordre n−r = 3, par exemple y, z, t arbitraires et x = 1−y−z−t.

5. Applications mecaniques. Equilibre statique de solides indeformables

Considerons un solide indeformable, soumis a differentes forces statiques ~Fext,i s’appliquant

en des points Mi : son poids ~P , les reactions ~Ri de differents corps avec lesquels il est en

contact, etc. On sait que l’equilibre statique est conditionne par deux conditions vecto-

rielles ∑

i

~Fext,i = 0∑

i

−−→OMi ∧ ~Fext,i = 0 , (5.1)

24 Juin 2011 J.-B. Z.

Page 53: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 3. Systemes lineaires d’equations algebriques 45

pour un point O arbitraire. Ces 6 conditions (sur les composantes) constituent donc unsysteme lineaire homogene dans les ~Fext,i qui contraint les valeurs possibles des forces. Engeneral, certaines des forces ~Fext,i sont connues, poids, traction par un ressort etc, et lesysteme est inhomogene dans les autres forces (reactions des supports, etc) qui sont lesinconnues du probleme. Dans de nombreux problemes, en particulier impliquant des forcesde frottement, ce systeme est indetermine : certaines composantes des forces de reactiondemeurent non determinees.

On en verra un exemple en TD avec le probleme de la stabilite d’une echelle.

6. Applications electriques. Circuits et lois de Kirchhoff

Soit un circuit electrique compose de resistances et de generateurs de tensions constantesdonnees. Il s’agit de determiner toutes les intensites circulant dans toutes les branches ducircuit. Le probleme se ramene a un systeme d’equations lineaires couplees, auquel nouspouvons appliquer les techniques que nous venons d’etudier.

On obtient le systeme de la maniere suivante : On fait un choix arbitraire d’orientationde chaque branche α du reseau et on lui attribue une variable d’intensite iα : elle est avaleur algebrique, et sera positive ou negative, selon que le courant circule dans le sens del’orientation choisie ou en sens contraire ; l’ensemble des intensites iα constitue l’ensembledes inconnues du probleme. On ecrit alors les lois de Kirchhoff :

– la loi des nœuds dit qu’a chaque nœud (jonction de plusieurs branches), la sommedes intensites algebriques arrivant a ce nœud est nulle ; (ou encore que la somme desintensites entrantes est egale a la somme des sortantes) ;

– la loi des mailles dit que pour chaque circuit elementaire ferme (ou “maille”), la sommedes differences de potentiel le long des branches de la maille s’annule. Ces differencesde potentiel sont pour chaque branche la somme de la chute ohmique Rαiα compteealgebriquement et de l’eventuelle tension (elle aussi comptee algebriquement) creeepar un generateur.

4

1

i2

i3i4

i5 V43V54

V15

V32

V211

2

3

5

i

Fig. 6: Lois de Kirchhoff : loi des nœuds i1 + i2 = i3 + i4 + i5, loi des mailles V21 + V32 +· · ·+ V51 = 0.

J.-B. Z. 24 Juin 2011

Page 54: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

46 Methodes mathematiques pour physiciens 2. LP207

V

R1

R3R2

i3i2

i1

i1

R5i2 R6 i3

R4i −i3 2

i −i3 1i −i2 1

Fig. 7: Circuit a trois mailles

Le systeme lineaire resultant a autant d’inconnues que de branches dans le circuit,

ce qui peut etre assez considerable (par exemple, 6 intensites dans le circuit de la figure

7). Il est souvent preferable de reduire le nombre de ces variables en utilisant les relations

de nœuds. C’est ce qui a ete fait sur la figure 7, ou les 4 relations aux quatre nœuds ont

permis de recrire le probleme en termes de 3 intensites i1, i2, i3. Noter qu’on a choisi

ces variables pour etre des “intensites de maille”, ce qui signifie que l’intensite circulant

dans une branche donnee se lit comme somme a coefficients ±1, selon l’orientation, des

intensites des mailles auxquelles appartient cette branche. Les trois lois de mailles donnent

alors le systeme

R1i1 + R3(i1 − i3) + R2(i1 − i2) = 0R2(i2 − i1) + R4(i2 − i3) + R5i2 = VR3(i3 − i1) + R5i3 + R4(i3 − i2) = 0

soit

R1 + R2 + R3 −R2 −R3

−R2 R2 + R4 + R5 −R4

−R3 −R4 R3 + R4 + R6

i1i2i3

=

0V0

En presence de sources externes (ici le potentiel V ), le systeme n’est pas homogene.

Le determinant de la matrice A n’est pas nul, le systeme est de Cramer et admet une

solution unique.

La methode s’etend aussi a des circuits comportant des condensateurs et des induc-

tances, soumis a un courant de frequence ω. Les calculs s’effectuent maintenant en com-

plexes, ce qui ne presente aucune difficulte nouvelle pour les calculs de determinants et les

resolutions de systemes d’equations lineaires.

24 Juin 2011 J.-B. Z.

Page 55: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 4. Valeurs propres, vecteurs propres. Diagonalisation. 47

Chapitre 4. Valeurs propres, vecteurs propres. Diagonalisation.

Etant donnee une matrice carree A, on va chercher a la mettre sous une forme semblable

(au sens de (4.4)) particulierement simple, a savoir une forme diagonale. Autrement dit on

cherche une base dans laquelle seuls les elements diagonaux de la matrice sont non nuls.

On verra que cela n’est pas toujours possible, mais que les valeurs susceptibles d’apparaıtre

sur la diagonale, les valeurs propres, peuvent etre caracterisees assez simplement.

Les implications physiques de cette operation de “diagonalisation”, dans des problemes

impliquant des oscillateurs mecaniques ou electriques couples, sont importantes et seront

discutees ensuite. Mais il existe bien d’autres problemes physiques ou ces concepts sont

importants. Signalons ainsi qu’en Physique Quantique, ou les quantites observables sont

representees par des operateurs lineaires agissant sur l’espace vectoriel des etats (ou des

“fonctions d’onde”), les valeurs propres de ces operateurs constituent les valeurs suscepti-

bles d’etre observees dans une experience. . .

1. Vecteurs et valeurs propres

1.1. Definitions de base

Considerons une matrice carree diagonale n× n, c’est-a-dire de la forme

aij = λiδij

ce qu’on ecrira encore

A = diag (λ1, · · · , λn) .

Si ~ei, i = 1, · · · , n designent les vecteurs de la base ou A a cette forme, on voit que

Aei = λiei

ou ei est la matrice colonne representant ~ei, soit (ei)j = δij .

Cela nous mene a la definition suivante, pour une matrice A carree quelconque

Definition : Soit A une matrice carree, soit X un vecteur (matrice colonne) non nul tel

que

AX = λX , (1.1)

J.-B. Z. 24 Juin 2011

Page 56: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

48 Methodes mathematiques pour physiciens 2. LP207

avec λ un nombre reel (ou complexe, voir plus bas). On dit que X est vecteur propre de A

pour la valeur propre λ.

On vient de voir que si la matrice A est diagonale, alors chaque vecteur de base est un

vecteur propre pour la valeur propre donnee par le terme correspondant de la diagonale

de A.

Reciproquement, supposons que l’on ait trouve n vecteurs propres lineairement independants

Xi (une hypothese pas innocente, comme on va le voir). Alors ces Xi peuvent etre choisis

comme nouvelle base de l’espace vectoriel, et dans cette base, A est diagonale. Une telle

matrice est dite diagonalisable. Autrement dit, il existe alors une matrice V telle que

V −1AV soit une matrice diagonale de valeurs propres,

V −1AV = Λ = diag (λ1, λ2, · · · , λn) :=

λ1 0 · · · 00 λ2 · · · 0...

. . .0 0 · · · λn

⇐⇒ A = V ΛV −1 .

(1.2)

Voir plus bas au § 2.2 la suite de cette discussion.

1.2. Valeurs propres d’une matrice singuliere

Supposons que la matrice A est singuliere. Cela signifie que ses n vecteurs colonnes Aj ne

sont pas independants (cf chap. 1, Theoreme du § 4.6), donc qu’il existe n nombres non

tous nuls xj tels que∑

j xjAj = 0, soit encore

∀i = 1, · · · , n∑

j

aijxj = 0 . (1.3)

Cela exprime que le vecteur X de composantes xj est vecteur propre de A pour la valeur

propre nulle. La reciproque est evidente : la condition (1.3) exprime la dependance lineaire

des colonnes de A, donc le fait qu’elle est singuliere.

Proposition 1 : Une matrice est singuliere (non inversible) sissi elle admet la valeur

propre 0.

1.3. Sous-espace propre.

Soit X et Y deux vecteurs propres de A de meme valeur propre : AX = λX, AY = λY .

Il est clair que toute combinaison lineaire de X et Y est aussi vecteur propre pour la valeur

propre λ : A(αX +βY ) = λ(αX +βY ). Les vecteurs propres de A pour une valeur propre

24 Juin 2011 J.-B. Z.

Page 57: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 4. Valeurs propres, vecteurs propres. Diagonalisation. 49

donnee λ forment donc un sous-espace vectoriel, appele espace propre de la valeur propre

λ.

Proposition 2 : Deux vecteurs propres pour deux valeurs propres λ 6= µ sont

necessairement independants.

Preuve. Soit X un vecteur propre pour la valeur propre λ, Y un vecteur propre pour

µ 6= λ. Supposons X et Y lineairement dependants. On aurait aX + bY = 0 pour deux

nombres a et b non tous deux nuls : supposons par exemple b non nul. Appliquant A

a cette relation, on aurait 0 = A(aX + bY ) = aλX + bµY = 0, soit une autre relation

lineaire entre X et Y . En combinant ces deux relations (par exemple, λ fois la premiere

moins la seconde), on aurait b(λ− µ)Y = 0, avec b 6= 0 et Y 6= 0, ce qui implique λ = µ

contrairement a l’hypothese. La proposition est demontree.

Plus generalement on demontre (par recurrence) que q vecteurs propres correspondant a q

valeurs propres distinctes sont necessairement lineairement independants.

Corollaire : Si une matrice carree n×n possede n valeurs propres distinctes, cette matrice

est diagonalisable.

En effet elle possede alors n vecteurs propres independants (Prop. 2), on peut les choisir

comme base, et la matrice est donc diagonalisable.

Exercice. Demontrer la Proposition suivante

Proposition 3 : Une matrice est diagonalisable sissi la somme des dimensions de ses

espaces propres egale n.

1.4. Polynome caracteristique

Soit λ une valeur propre de A. Nous recrivons la condition (1.1) sous la forme

(A− λII)X = 0 .

On l’a vu a la proposition 1 ci-dessus, cela est la condition necessaire et suffisante pour

que A−λII soit singuliere. Mais se rappelant le Theoreme fondamental du chapitre 2 (§ 3),

cela est equivalent a det(A− λII) = 0.

Pour une matrice carree n× n, l’expression

P (z) = det(A− zII) (1.4)

est un polynome de la variable z, de degre n en raison de la multilinearite du determinant.

Definition : Ce polynome est appele polynome caracteristique de A.

J.-B. Z. 24 Juin 2011

Page 58: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

50 Methodes mathematiques pour physiciens 2. LP207

On vient de voir que toute valeur propre est une racine du polynome caracteristique.

Reciproquement (grace au fait que toutes les propositions impliquees sont des conditions

necessaires et suffisantes), toute racine de P (z) est une valeur propre de A.

Theoreme : Les valeurs propres sont les racines du polynome caracteristique.

Selon que l’on travaille sur R, ensemble des nombres reels, ou sur C, les choses sont

un peu differentes. Sur C le polynome caracteristique a exactement n racines, distinctes

ou non (“theoreme fondamental de l’algebre”). On peut donc ecrire

P (z) = det(A− zII) =n∏

i=1

(λi − z) (1.5)

avec le coefficient de zn egal a (−1)n (pourquoi ?). Par contre il peut arriver que le

polynome caracteristique n’ait pas de racine sur R, auquel cas la matrice A n’a pas de

valeur propre reelle, ou qu’il n’ait que n′ < n racines reelles.

Corollaire : Une matrice reelle n × n a au plus n valeurs propres reelles, distinctes ou

non.

Exemples

1. Soit A =(

2 11 −1

). Le polynome caracteristique s’ecrit

P (z) =∣∣∣∣2− z 1

1 −1− z

∣∣∣∣ = (2− z)(−1− z)− 1 = z2 − z − 3

et a deux racines distinctes 12(1 ±

√13). La matrice est donc diagonalisable. On va voir

au § suivant comment determiner ses vecteurs propres.

2. Soit A =(

1 10 1

). Son polynome caracteristique est

∣∣∣∣1− z 1

0 1− z

∣∣∣∣ = (1− z)2 ,

et la seule valeur propre possible est λ = 1, la racine (double) de P (z). On montrera plus

bas que la matrice n’est pas diagonalisable, n’ayant qu’un seul vecteur propre independant

pour la valeur propre 1. Cette situation doit etre comparee avec celle de la matrice A =

II2 =(

1 00 1

), qui a 1 comme valeur propre double mais qui est evidemment diagonalisable

puisque deja diagonale !

3. Soit A =(

cos α − sin αsin α cos α

)la matrice d’une rotation d’angle α dans le plan. Le

polynome caracteristique se calcule aisement

P (z) = z2 − 2z cos α + 1

24 Juin 2011 J.-B. Z.

Page 59: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 4. Valeurs propres, vecteurs propres. Diagonalisation. 51

dont les racines sont complexes z1,2 = exp±iα. La matrice a deux valeurs propres dis-

tinctes, elle est diagonalisable a condition de “passer dans les complexes” ; ses vecteurs

propres sont alors eux-memes a composantes complexes, comme on verra ci-dessous. Sur

R, par contre, la matrice n’est pas diagonalisable (pour α 6= 0, π).

⊲ Trace et determinant en termes des valeurs propres

On constate dans les exemples precedents et on demontre aisement en general que

Proposition 4 : La somme des racines du polynome caracteristique d’une matrice A est

egale a sa trace, leur produit a son determinant

n∑

i=1

λi = trA etn∏

i=1

λi = det A . (1.6)

En effet, en faisant z = 0 dans (1.5), on a P (0) = det A =∏

i λi. La deuxieme propriete

decoule de la multilinearite du determinant : il n’est pas difficile d’identifier le terme en

zn−1 dans le developpement du determinant comme (−1)n−1∑

i aii et dans l’expression∏

i(λi − z) comme (−1)n−1∑

i λi.

Noter que pour des matrices 2× 2, on peut donc ecrire l’equation caracteristique sous

la forme

P (z) = z2 − (trA) z + det A = 0 , (1.7)

dont les coefficients se calculent aisement au vu de A.

Noter enfin que des matrices semblables ont meme polynome caracteristique, puisque

si B = W−1AW , alors PB(z) = det(B−zII) = det(W−1(A−zII)W ) = det(A−zII) = PA(z).

2. Diagonalisation d’une matrice

2.1. Determination des vecteurs propres

Supposons qu’on connaisse une valeur propre λ de la matrice A, soit par recherche des

racines de son polynome caracteristique, soit par une autre methode. Que peut-on dire

alors de l’espace propre pour cette valeur propre ? Un vecteur propre X pour la valeur

propre λ satisfait

(A− λII)X = 0 .

On est ramene a un probleme de systeme lineaire homogene du type etudie au chapitre 3.

Noter que certaines valeurs propres pouvant etre complexes, on peut etre amene a

rechercher les vecteurs propres complexes correspondants, et donc a etendre la discussion

du chapitre 3 au cas complexe, ce qui ne presente aucune difficulte nouvelle.

J.-B. Z. 24 Juin 2011

Page 60: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

52 Methodes mathematiques pour physiciens 2. LP207

2.2. Diagonalisation. Changement de base.

Supposons maintenant qu’on a trouve n vecteurs propres independants Xi de la matrice

A. Formons la matrice V dont les Xi sont les vecteurs-colonnes. On a

AV = A (X1, X2, · · · , Xn)︸ ︷︷ ︸V

= (λ1X1, λ2X2, · · · , λnXn) = (X1, X2, · · · , Xn)

λ1 0 · · · 00 λ2 · · · 0... 0

. . . 00 · · · 0 λn

donc AV = V Λ ou Λ = diag (λ1, λ2, · · · , λn) est la matrice diagonale des valeurs propres,

ce qu’on peut encore recrire

Λ = V −1AV ⇐⇒ A = V ΛV −1 .

La matrice V est donc la matrice qui diagonalise la matrice A.

On vient donc de demontrer la proposition

Proposition 5 : Si la matrice A admet n vecteurs propres independants Xi, elle est

diagonalisable. La matrice V de diagonalisation, telle que A = V.Λ.V −1, est la matrice

dont les vecteurs-colonnes sont les vecteurs propres de A.

2.3. Exemples

Reprenons les exemples precedents :

1er exemple. A =(

2 11 −1

), valeurs propres λ± = 1

2(1 ±√

13). Pour λ+, on ecrit

A − λ+II =( 3

2 − 12

√13 1

1 −32 − 1

2

√13

)qui est bien singuliere (determinant nul) et dont

le noyau est engendre par les X =(

ξη

)tels que (A− λ+II)X = 0 soit

12(3−

√13)ξ + η = 0 .

On prend par exemple ξ = 1 et η = −12 (3−

√13). Un vecteur propre de A pour la valeur

propre λ+ est donc X+ =(

1−1

2(3−√

13)

)(ou tout vecteur qui lui est proportionnel).

Un vecteur propre pour la valeur propre λ− s’obtient ici simplement en changeant partout

le signe de√

13 dans l’expression de X+ (le verifier). Finalement

X+ =(

1−1

2 (3−√

13)

)X− =

(1

−12(3 +

√13)

).

24 Juin 2011 J.-B. Z.

Page 61: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 4. Valeurs propres, vecteurs propres. Diagonalisation. 53

Ces deux vecteurs propres peuvent etre choisis comme nouvelle base, ce qui diagonalise la

matrice

A = V

(1+

√13

20

0 1−√

132

)V −1 , V =

1 1

−3+√

132

−3−√

132

, V −1 =

1√13

3+√

132 1

−3+√

132 −1

V −1AV =(

λ+ 00 λ−

).

2eme exemple. A =(

1 10 1

), valeur propre λ = 1 double. Le noyau de (A−II) =

(0 10 0

)

est engendre par les vecteurs X =(

ξη

)tels que η = 0, ξ arbitraire, ce qui donne un espace

propre de dimension 1, engendre par le vecteur(

10

). La matrice A n’a qu’un seul vecteur

propre independant, elle n’est pas diagonalisable.

3eme exemple. A =(

cos α − sin αsin α cos α

), valeurs propres complexes mais distinctes λ± =

exp±iα. L’espace propre de la valeur propre λ+, c’est-a-dire le noyau de A − λ+II =(−i sin α − sin αsin α −i sin α

)= sin α

(−i −11 −i

)est engendre par les vecteurs X+ =

(ξη

)tels

que ξ − iη = 0, par exemple X+ =(

i1

). Le vecteur complexe conjugue X− =

(−i1

)est

vecteur propre pour λ−. La matrice de diagonalisation est donc

V =(

i −i1 1

), V −1 =

12

(−i 1i 1

), V −1AV =

(eiα 00 e−iα

).

(Exercice : verifier le calcul de V −1AV .) On voit que les calculs en nombres complexes

n’offrent pas de difficulte supplementaire.

2.4. “Triangularisation” d’une matrice. Theoreme de Cayley–Hamilton

Meme si la matrice A n’est pas diagonalisable, on demontre par recurrence sur sa dimension n que l’onpeut toujours la “triangulariser”, c’est-a-dire trouver une matrice W telle que T = W−1.A.W soit unematrice triangulaire superieure, dont tous les elements au dessous de la diagonale sont nuls : Tij = 0 sii > j. Dans ce cas encore, les valeurs apparaissant sur la diagonale sont les valeurs propres, avec leurmultiplicite, pourquoi ? [Reponse: comparer les pol carac de A et T .]

On verra en TD des exemples concrets de “triangularisation” d’une matrice non diagonalisable.

J.-B. Z. 24 Juin 2011

Page 62: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

54 Methodes mathematiques pour physiciens 2. LP207

.

0

0 0

0 0

0

1

m3m1 m2

A2

T

0

0 0

12

2

2

T2

T3m3

m2

m1

m3m1 m2

0

0 0

1

0

T"’

0

0 0

1

0

T"

0

0 0

0 0

0

0 0 0

0

0 0

0

T’2

T’3 T’’3

T"’2

0

0 0

0

T’2

T’3

A

T

0 0

1 A B1

A2

T3

T20

(A−z I) (A−z I) (A−z I)2 31

Fig. 8: Le calcul de P (A) pour A triangulaire, schematise ici pour p = 3 valeurs propresdistinctes, de multiplicites m1, m2, m3. Les matrices T sont triangulaires superieures,(T1 − z1II) est strictement triangulaire, donc (T1 − z1II)m1 = 0 etc.

⊲ Polynome caracteristique et polynome minimalAppelons z1, · · · , zp les racines distinctes dans C du polynome caracteristique P (z), et mr , r = 1, · · · pla multiplicite de la racine zr .On a

∑p

r=1mr = n, l’ensemble des valeurs propres (dans C) de A est

λ1, λ2, · · · , λn = z1, · · · , z1︸ ︷︷ ︸m1

, · · · , zp, · · · , zp︸ ︷︷ ︸mp

, et P (z) =∏p

r=1(zr − z)mr . Si nr est la dimension de

l’espace propre pour la valeur propre λ = zr , on a nr ≤ mr.

Theoreme de Cayley–Hamilton : La matrice A satisfait son equation caracteristique, autrement ditP (A) = 0.

Il faut noter que la matrice A commutant avec elle-meme, avec ses puissances Ak et avec la matriceidentite, la factorisation d’un polynome comme P s’applique aussi quand on l’evalue en remplacant z parA et on peut ecrire P (A) = (A− z1II)m1 · · · (A− zpII)mp en ecrivant les facteurs dans un ordre arbitraire.

Pour demontrer le theoreme, observons d’abord que si T est une matrice m×m triangulaire “stricte-ment superieure”, c’est-a-dire telle que Tij = 0 si i ≥ j, donc avec des zeros sur sa diagonale, alors T m = 0

(le verifier pour m = 2, 3). Ecrivons alors la matrice A sous forme triangulaire. Le r-ieme facteur (A−zrII)de P (A) est lui-meme une matrice triangulaire, avec dans le r-ieme bloc le long de la diagonale, une matricetriangulaire strictement superieure. En s’appuyant sur le schema de la figure 8, verifier que P (A) = 0.

Exemples et applications du theoreme de Cayley–Hamilton.– Considerons un espace E de dimension n muni d’une base e1, · · · , en et l’operation A de projection dansle sous-espace E1 de dimension q engendre par e1, · · · , eq “parallelement” au sous-espace E2 engendre pareq+1, · · · , en : cela generalise ce que nous avons fait au chap. 1, § 3.1. Les valeurs propres et espacespropres de A se trouvent sans aucun calcul : tout vecteur de l’espace E1 est invariant, donc est vecteurpropre de valeur propre 1, tout vecteur de l’espace E2 est envoye par A sur 0, donc est vecteur propre devaleur propre 0. La matrice A est diagonalisable (la somme des dimensions des sous-espaces propres E1

et E2 est n), son polynome caracteristique est (z− 1)qzn−q , et donc selon le theoreme (A− II)qAn−q = 0.En fait toute projection satisfait une equation beaucoup plus simple, A2 = A, comme on s’en convaincgeometriquement : en iterant la projection (en calculant A2), on ne modifie rien au resultat de la premiere

projection ! Or si A2 = A, on a aussi (II−A)2 = (II−A) (le verifier), donc (II−A)qAn−q = (II−A)A = 0.– Soit A une matrice 2×2. Elle satisfait donc son equation caracteristique (1.7), A2−(trA)A+(detA)A = 0.Si on veut calculer la trace de A2, il suffit de prendre la trace de cette expression pour obtenir trA2 =(trA)2 − 2 detA. Comment calculer alors trA3 ?

On peut enfin demontrer, et nous admettrons, la proposition suivante.Proposition 6 : La matrice A est diagonalisable sissi elle satisfait (A − z1II) · · · (A − zpII) = 0, diteequation minimale.

24 Juin 2011 J.-B. Z.

Page 63: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 4. Valeurs propres, vecteurs propres. Diagonalisation. 55

Dans un sens, la proposition est evidente : si la matrice est diagonalisable, en se mettant dans labase ou elle est diagonale, (A− z1II) · · · (A− zpII) est un produit de matrices diagonales, et la r-ieme a mr

zeros dans son r-ieme bloc. Ce produit est donc la matrice nulle.Exemple : la projection que nous venons de considerer est diagonalisable et satisfait (II − A)A = 0.Autre exemple : quelles sont l’equation caracteristique et l’equation minimale satisfaites par une reflexionorthogonale dans un plan de R3 ?

3. Consequences et applications de la diagonalisation

3.1. Matrices commutantes

Proposition 7 : Deux matrices carrees A et B de meme dimension n ayant n valeurs

propres distinctes commutent sissi elles ont des vecteurs propres communs.

Preuve. La condition est necessaire : si AX = λX, on deduit ABX = BAX = λBX. Le vecteurBX, s’il est non nul, est donc vecteur propre de A de valeur propre λ, et par l’hypothese que les valeurspropres sont distinctes, est donc proportionnel a X, donc BX = µX, et X est aussi vecteur propre de B.Si BX = 0, X est vecteur propre de B de valeur propre nulle.La condition est aussi suffisante. En effet les vecteurs propres Xi forment une base et sur chaque vecteurde cette base, (AB − BA)Xi = 0, donc aussi pour tout vecteur X, cqfd.

Applications. Si A a n valeurs propres distinctes, trouver les matrices carrees B qui

commutent avec A. Reponse : si on diagonalise A = V ΛV −1, toutes les matrices B de la

forme B = V diag (µ1, · · · , µn)V −1 avec µi quelconques.

Pour le physicien, cette proposition prend tout son sens en Mecanique Quantique, puisque

deux observables representees par deux matrices A et B peuvent etre mesurees simul-

tanement sissi A et B commutent. . .

3.2. Puissances et exponentielle d’une matrice

Soit A une matrice n × n dont nous desirons calculer la p-ieme puissance, Ap, et en

particulier, etudier le comportement asymptotique de Ap quand p tend vers l’infini. Si la

matrice A est diagonalisable, A = V ΛV −1, avec Λ = diag (λ1, · · · , λn), on calcule aisement

Ap = V ΛpV −1 et le calcul de Λp est trivial

Ap = V ΛpV −1, Λp = diag (λp1, · · · , λp

n) .

Exemple A =(

1 22 1

)=

(1√2

− 1√2

1√2

1√2

)(3 00 −1

)( 1√2

1√2

− 1√2

1√2

)donc

Ap =

(1√2

− 1√2

1√2

1√2

)(3p 00 (−1)p

)( 1√2

1√2

− 1√2

1√2

). Asymptotiquement, le terme 3p

domine sur (−1)p, et on peut donc approximer

Ap ≈(

1√2

− 1√2

1√2

1√2

)(3p 00 0

)( 1√2

1√2

− 1√2

1√2

)=

3p

2

(1 11 1

).

J.-B. Z. 24 Juin 2011

Page 64: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

56 Methodes mathematiques pour physiciens 2. LP207

En general, on voit qu’asymptotiquement la puissance p-ieme d’une matrice est dominee

par sa (ou ses) plus grande(s) valeur(s) propre(s) (en valeur absolue ou en module). C’est

d’ailleurs une methode possible pour determiner numeriquement cette ou ces valeurs pro-

pre(s).

(b)

R1

R4R3

R

i 0

i n

V1

i 1

VnV0

V0 V1

R2

0 1

0 1i i

ii

1

(a)

n

Fig. 9: (a) : quadripole elementaire. (b) chaıne de quadripoles en cascade.

Application : etude de la transmission d’une chaıne de quadripoles. Considerons une ligne de trans-mission electrique constituee d’une chaıne de quadripoles tels ceux etudies en exercice au TD 1 et au TP1.On suppose que p quadripoles identiques sont montes “en cascade”, voir figure 9. On desire relier le signal(Vn, in) au bout de la ligne a celui d’entree (V0, i0). Il est approprie d’utiliser la “matrice de transfert”

T , cf ex. IV du TD 1,

(Vj

ij

)=

(T11 T12

T21 T22

)(Vj−1ij−1

), de la diagonaliser, T = WΛW−1 et de calculer

T n = WΛnW−1. Pour le quadripole de la figure , on a

T =

(1 + R24

R−R1234 − R13R24

R

− 1R

1 + R13R

)

avec R12 = R1 + R2, etc. On verifie immediatement que det T = 1 et tr T > 2, ce qui implique que lesdeux valeurs propres sont λ > 1 et 1/λ.

Comme λn → ∞ quand n → ∞, la matrice T n n’a pas de limite. Comment cela est-il compatibleavec notre intuition qui nous dit que le signal doit s’attenuer le long de la ligne, a cause de la dissipationohmique ? Il faut bien voir que l’on ne peut pas fixer arbitrairement V0 et i0 et deduire des equationsprecedentes les valeurs de Vn et in. Typiquement on va fixer la tension d’entree V0, imposer qu’a l’extremitedroite de la ligne, la tension (par exemple) est fixee, et on determine alors les intensites i0 et in. Si on

ecrit la matrice inverse de diagonalisation comme W−1 =

(α βγ δ

), la formule de diagonalisation de T n :

W−1T n =

(λn 00 λ−n

)W−1 appliquee a

(V0

i0

)implique la paire de relations

αVn + βin = λn(αV0 + βi0)

γVn + δin = λ−n(γV0 + δi0)(3.1)

Supposons par exemple qu’on ait branche un amperemetre de resistance negligeable a la sortie (a droite).La tension Vn aux bornes de cet amperemetre est nulle, et on y lit l’intensite in. Quand n → ∞, ladeuxieme equation nous dit que in = δ−1λ−n(γV0 + δi0) qui tend vers zero (comme λ−n), il y a bien

attenuation. La premiere equation nous apprend alors que (αV0 + βi0) = λ−nβin qui tend vers zero

plus vite encore (comme λ−2n). Cette relation determine donc la valeur asymptotique de i0 en fonctionde V0 : i0 ≈ −αV0/β. Pour le quadripole ci-dessus, on trouve une resistance effective du reseau egale a

limV0/i0 = −β/α = 12(R13−R24+

√R1234

√4R + R1234). Bien entendu, si on avait branche un voltmetre

de resistance infinie a droite plutot que l’amperemetre, on aurait in = 0, Vn ∼ λ−n et la meme relationasymptotique entre V0 et i0.

24 Juin 2011 J.-B. Z.

Page 65: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 4. Valeurs propres, vecteurs propres. Diagonalisation. 57

⊲ Le calcul des puissances d’une matrice via sa diagonalisation s’etend au calcul de

l’exponentielle d’une matrice. Avec les memes notations que precedemment, on definit

exp A =∞∑

p=0

Ap

p!=

∞∑

p=0

(V ΛV −1)p

p!= V

∞∑

p=0

Λp

p!V −1 = V diag (eλi)V −1 . (3.2)

On verra au paragraphe suivant que l’exponentielle d’une matrice se rencontre couramment

dans la resolution des equations differentielles.

Toutes les series ci-dessus convergent. Il faut d’abord definir une norme sur les matrices qui generalisela valeur absolue sur les reels ou le module sur les complexes. Par exemple ‖ A−B ‖=

∑n

i,j=1|Aij−Bij |.

La convergence signifie que ‖ expA−∑N

p=0A

p

p!‖ peut etre rendu aussi petit que l’on veut a condition de

prendre N assez grand, et cela decoule de la convergence de l’exponentielle usuelle des reels ou complexes.

4. Applications aux systemes lineaires d’equations differentielles. Oscillateurs

couples

4.1. Systemes de 2 equations differentielles lineaires

Les systemes d’equations differentielles lineaires couplees peuvent aussi beneficier d’un

traitement par des methodes matricielles.

Considerons par exemple le systeme lineaire de deux equations du premier ordre a

coefficients constants a , b , c , d, satisfait par les fonctions inconnues y1(x) et y2(x)

y′1 = ay1 + by2

y′2 = cy1 + dy2

, (4.1)

et complete par la donnee de deux conditions initiales, par exemple de y1(0) et y2(0).

Comme on l’a vu dans le cours LP 206, ce systeme peut etre traite de plusieurs facons :

1) En derivant la premiere equation par rapport a x et en y reportant l’expression

de y′2 donnee par la seconde, (c’est-a-dire en eliminant y′2 entre ces deux equations), on

obtient la paire d’equations

y′′1 = ay′1 + b(cy1 + dy2)

y′1 = ay1 + by2

. (4.2)

Entre ces deux equations, on peut cette fois eliminer y2, ce qui conduit a

y′′1 = (a + d)y′1 + (bc− ad)y1 . (4.3)

J.-B. Z. 24 Juin 2011

Page 66: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

58 Methodes mathematiques pour physiciens 2. LP207

On traite alors cette equation differentielle lineaire du second ordre a coefficients constants

par la methode familiere : la solution generale en y1(x) (et de meme en y2(x)) est une

combinaison lineaire de fonctions exponentielles eλ1x et eλ2x, ou λ1 et λ2 sont solutions de

l’equation

λ2 − (a + d)λ + (ad− bc) = 0 . (4.4)

On a donc y1(x) = A1eλ1x + B1e

λ2x, d’ou l’on tire y2(x) par la premiere equation (4.1),

et les constantes A1 et B1 sont alors determinees grace aux conditions initiales.

En resume, le systeme de deux equations lineaires du premier ordre a coefficients

constants (4.1) est equivalent a une equation lineaire du second ordre.

2) Une autre methode consiste a effectuer des combinaisons lineaires des deux

equations de (4.1) avec des coefficients ξ et η quelconques : on trouve que

(ξy1 + ηy2)′ = (aξ + cη)y1 + (bξ + dη)y2 . (4.5)

Supposons qu’on sache trouver ξ et η tels que

aξ + cη = λξ

bξ + dη = λη, (4.6)

pour un certain nombre λ. Alors, en reportant (4.6) dans (4.5), on voit que l’equation

(4.5) est une equation differentielle lineaire du premier ordre particulierement simple pour

la fonction y := ξy1 + ηy2

y′ = λy , (4.7)

ce qui s’integre immediatement en y = Ceλx. Le systeme homogene (4.6) n’admet de

solution non nulle en (ξ, η) que si son determinant s’annule

(d− λ)(a− λ)− bc = 0 , (4.8)

equation du second degre en λ qui admet elle-meme deux solutions, reelles ou complexes,

distinctes ou confondues. Supposons les distinctes, il existe donc deux valeurs λ1 et λ2

de λ, donc aussi deux paires (ξ1, η1) et (ξ2, η2) (a un facteur global pres) remplissant les

conditions ci-dessus, c’est-a-dire conduisant a une equation du type (4.7) pour la combi-

naison lineaire correspondante. Chacune de ces deux combinaisons lineaires est appelee

mode propre du systeme initial (4.1). Par les combinaisons algebriques que nous avons

effectuees, nous avons donc reduit le systeme initial, equivalent a une equation du second

24 Juin 2011 J.-B. Z.

Page 67: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 4. Valeurs propres, vecteurs propres. Diagonalisation. 59

ordre selon la discussion du point 1) ci-dessus, a la solution de deux equations du premier

ordre decouplees. Les fonctions y1(x) et y2(x) se determinent finalement en resolvant le

systeme ξ1y1 + η1y2 = C1eλ1x, ξ2y1 + η2y2 = C2e

λ2x. Les constantes C1 et C2 sont fixees

par les conditions initiales.

On note que les deux approches ont en commun de faire jouer un role central a

l’equation “caracteristique” (4.4)-(4.8).

3) Recrivons le systeme lineaire (4.1) sous une forme matricielle

d

dx

(y1

y2

)=(

a bc d

)(y1

y2

)(4.9)

ou en definissant

A =(

a bc d

)Y =

(y1

y2

),

d

dxY = AY . (4.10)

Supposons maintenant que la matrice A puisse se diagonaliser par un changement de base

A = V ΛV −1, V −1 =(

ξ1 η1

ξ2 η2

)une matrice 2 × 2 independante de x, Λ =

(λ1 00 λ2

)

la matrice diagonale ou λ1 et λ2 sont les valeurs propres de A. Redefinissant le vecteur

colonne Y = V −1Y =(

y1

y2

)=(

ξ1y1 + η1y2

ξ2y1 + η2y2

), on a en multipliant les deux membres de

l’equation matricielle (4.10) par V −1

d

dxY = ΛY

(y′1y′2

)=(

λ1 00 λ2

)(y1

y2

)(4.11)

c’est-a-dire deux equations decouplees

y′1 = λ1y1 et y′2 = λ2y2 . (4.12)

La demarche reproduit celle suivie au point 2). Les valeurs propres λ1 et λ2 sont

les racines de l’equation (4.8) ; la diagonalisation de la matrice, c’est-a-dire l’existence

d’une matrice V , est assuree par l’hypothese que ces deux racines sont distinctes ; et les

combinaisons y1 et y2 sont les deux “modes propres” definis en 2).

L’avantage de cette methode matricielle est sa puissance et sa generalite. Elle s’etend

sans difficulte a des systemes d’equations differentielles de dimension et/ou d’ordre plus

eleves.

J.-B. Z. 24 Juin 2011

Page 68: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

60 Methodes mathematiques pour physiciens 2. LP207

4.2. Systemes de n equations

Considerons un systeme de n equations differentielles du premier ordre

d

dxY (x) =

d

dx

y1(x)...

yn(x)

= A

y1(x)...

yn(x)

= AY (x) (4.13)

avec A une matrice de coefficients constants. Cette equation est completee par n conditionsinitiales (ou au bord), par exemple yi(0) = yi0 donnes pour i = 1, · · ·n.⊲ Supposons la matrice A diagonalisable, et soient λ1, · · ·λn ses valeurs propres, et V lamatrice de ses vecteurs propres. On ecrit comme plus haut Λ = diag (λi) = V −1AV .

Definissant alorsY (x) = V −1Y (x),

on a (apres multiplication de (4.13) par V −1)d

dxY (x) = V −1 d

dxY (x) = V −1AY = V −1AV V −1Y = ΛY , (4.14)

complete par les conditions au bord Y (0) = V −1Y (0). Mais ce nouveau systeme est aise aintegrer, puisqu’il est diagonal :

d

dxY (x) = ΛY (x) ⇐⇒ d

dxyi(x) = λiyi(x) (4.15)

dont la solution est

yi(x) = eλixyi(0) ⇐⇒ Y (x) = exp(Λx)Y (0)

ou en revenant aux notations de depart

Y (x) = V Y (x) = V diag (eλix)V −1Y (0) . (4.16)

En comparant avec (3.2), on voit que ceci n’est autre que

Y (x) = exp(Ax)Y (0) . (4.17)

En pratique, la diagonalisation (4.16) permet d’obtenir une resolution du systeme (4.13)plus explicite que la forme (4.17), cf exercices de TD. Elle permet aussi de mieux com-prendre la physique en jeu, comme on va l’illustrer sur l’etude d’oscillateurs couples.

4.3. Oscillateurs couples

2k

O

k m m k

O1 2

1 1 2

Fig. 10: 2 oscillateurs couples

24 Juin 2011 J.-B. Z.

Page 69: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 4. Valeurs propres, vecteurs propres. Diagonalisation. 61

⊲ Oscillations longitudinales de deux oscillateurs couples

La discussion precedente s’applique par exemple au cas de deux oscillateurs harmoniques

couples, voir figure 10 et cours de LP 206.

On considere le systeme constitue de deux masses ponctuelles m1 et m2 reliees par

des ressorts de raideurs k1 et k2 fixes en O1 et O2 et couplees par un ressort de raideur k,

voir Fig. 10. x1 et x2 representent les ecarts de m1 et m2 par rapport a leurs positions

d’equilibre, comptes positivement vers la droite. On calcule alors les forces auxquelles sont

soumises chacune des deux masses m1 et m2 et on ecrit leurs equations du mouvement

sous la forme

m1x1 = −k1x1 + k(x2 − x1) (4.18)

m2x2 = −k2x2 + k(x1 − x2)

Dans la suite on supposera, pour simplifier, que les masses sont identiques, m = m1 =

m2, ainsi que les constantes de raideur k1 = k2 = k′; x1 et x2 jouent alors des roles

identiques. On peut donc recrire (4.18) sous la forme:

x1 + (Ω20 + ω2

0)x1 − ω20x2 = 0

x2 + (Ω20 + ω2

0)x2 − ω20x1 = 0 ,

avec ω20 = k/m et Ω2

0 = k′/m.

On peut recrire ce systeme sous forme matricielle

d2

dt2

(x1

x2

)+ A

(x1

x2

)= 0 (4.19)

avec A =(

(Ω20 + ω2

0) −ω20

−ω20 (Ω2

0 + ω20)

).

Cherchons des solutions de la forme(

ab

)eiωt, etant entendu que comme il est usuel

dans ce type de probleme, l’introduction d’exponentielles complexes sert uniquement a

simplifier les calculs intermediaires ; la solution physique s’obtient a la fin en imposant des

conditions initiales telles qu’elle est bien une combinaison reelle des solutions complexes

obtenues. L’equation (4.19) se recrit alors comme

(A− ω2II)(

ab

)= 0

c’est-a-dire comme une equation aux valeurs et vecteurs propres.

J.-B. Z. 24 Juin 2011

Page 70: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

62 Methodes mathematiques pour physiciens 2. LP207

Dans le cas present de masses et de coefficients de raideur egaux, il est facile de voir

que les modes propres du systeme (4.19) sont ξ± = x1 ± x2, qui satisfont des equations

simples, decouplees,ξ+ + Ω2

0ξ+ = 0

ξ− + (Ω20 + 2ω2

0)ξ− = 0 ,

ou on note ω+ = Ω0 et ω− =√

Ω20 + 2ω2

0 les deux frequences propres du systeme. La

solution generale pour x1(t) et x2(t) en decoule. Supposant par exemple que le systeme

au temps t = 0 est tel que seule la coordonnee x1 est non nulle, x1(0) = a, tandis que

x2(0) = 0 et que les vitesses initiales sont nulles x1(0) = x2(0) = 0, l’expression de x1(t)

et x2(t) est donnee par

x1(t) =a

2(cosω+t + cos ω−t) = a cos(

ω+ + ω−2

t) cos(ω− − ω+

2t)

x2(t) =a

2(cosω+t− cos ω−t) = a sin(

ω+ + ω−2

t) sin(ω− − ω+

2t)

expression qui se prete bien a la discussion des phenomenes de battement, etc, cf cours et

TD de LP206.

⊲ Oscillateurs electriques

2

I1 I 2

C CI − I

L L1 2

1 21

Fig. 11: 2 oscillateurs electriques couples

On se rappelle que les tensions aux bornes et les courants traversant une bobine

d’induction d’inductance L, resp. un condensateur de capacite C, satisfont

UL = LdIL

dtIC = C

dUC

dt.

Dans le circuit de la figure 11, on a

UL1 + UC1 = 0

UL2 + UC2 − UC1 = 0

24 Juin 2011 J.-B. Z.

Page 71: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 4. Valeurs propres, vecteurs propres. Diagonalisation. 63

et apres elimination des Ii et des ULi, on trouve le systeme d’equations couplees pour les

Ui ≡ UCi

L1

(C1

d2U1

dt2+ C2

d2U2

dt2

)+ U1 = 0

L2C2d2U2

dt2+ U2 − U1 = 0

Si L1 = L2 on peut reporter la seconde dans la premiere et obtenir

L1C1d2U1

dt2+ 2U1 − U2 = 0

L2C2d2U2

dt2+ U2 − U1 = 0

Montrer l’analogie avec les deux ressorts couples etudies plus haut. Etudier les modes

propres de ce circuit. (Voir TD4).

On etudiera en TP ce type d’oscillateur, amorti par la presence de resistances.

J.-B. Z. 24 Juin 2011

Page 72: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

64 Methodes mathematiques pour physiciens 2. LP207

24 Juin 2011 J.-B. Z.

Page 73: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 5. Matrices symetriques et formes quadratiques. 65

Chapitre 5. Formes quadratiques et matrices symetriques.

1. Formes bilineaires, formes quadratiques

1.1. Formes bilineaires et quadratiques

Sur un espace vectoriel E, on appelle forme bilineaire une application qui fait correspondre

a toute paire de vecteurs X, Y ∈ E un nombre reel f(X, Y ), cette fonction etant lineaire

en X et en Y , donc

f(λ1X1 + λ2X2, Y ) = λ1f(X1, Y ) + λ2f(X2, Y )

f(X, µ1Y1 + µ2Y2) = µ1f(X, Y1) + µ2f(X, Y2) . (1.1)

La forme bilineaire est dite symetrique si f(X, Y ) = f(Y, X).

Exemples. Le produit scalaire ~X.~Y dans l’espace euclidien Rn est une forme bilineaire

symetrique. La composante sur un axe donne du produit vectoriel ~X ∧ ~Y dans l’espace

R3 est une forme bilineaire, mais pas symetrique (elle est en fait antisymetrique !). Si g

et h sont deux fonctions d’une variable reelle, integrables sur un intervalle (a, b), f(g, h) =∫ b

ag(x)h(x) dx est une forme bilineaire symetrique en g et h.

Le premier exemple suggere la definition suivante : Etant donnee une forme bilineaire

symetrique f , on dit que X et Y sont orthogonaux pour f si f(X, Y ) = 0.

Etant donnee la forme bilineaire f(X, Y ), on lui associe une forme quadratique par

Q(X) = f(X, X) . (1.2)

Bien sur, cette forme quadratique n’est pas lineaire : Q(λX) = λ2Q(X). Inversement

pour toute forme quadratique Q, on peut construire une forme bilineaire symetrique f

telle que Q(X) = f(X, X) par l’operation de polarisation : on ecrit simplement, grace a la

bilinearite

f(X + Y, X + Y ) = f(X, X) + f(X, Y ) + f(Y, X) + f(Y, Y ) (1.3)

et si on fait l’hypothese que f est symetrique, f(X, Y ) = 12 (f(X + Y, X + Y )− f(X, X)−

f(Y, Y )) = 12 (Q(X + Y )−Q(X)−Q(Y )).

J.-B. Z. 24 Juin 2011

Page 74: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

66 Methodes mathematiques pour physiciens 2. LP207

Exemples. Reprenons les deux exemples ci-dessus. Au produit scalaire dans Rn cor-

respond la forme quadratique ‖ ~X ‖2= ~X. ~X qui est la norme carree (la longueur carree)

du vecteur ~X . De meme,∫ b

af2(x) dx est une norme carree pour les fonctions (de carre

integrable) sur (a, b).

Theoreme de Pythagore. Soit f une forme bilineaire symetrique, Q la forme

quadratique associee, on a pour toute paire de vecteurs orthogonaux

∀X, Y : f(X, Y ) = 0 =⇒ Q(X + Y ) = Q(X) + Q(Y ) , (1.4)

qui decoule de (1.3).

1.2. Formes definies positives

On dit que la forme quadratique Q est definie positive si

∀X 6= 0 ∈ E Q(X) > 0, (1.5)

et donc Q(X) = 0 seulement si X = 0. La forme est semi-definie positive si l’inegalite n’est

pas stricte : ∀X 6= 0 ∈ E Q(X) ≥ 0, elle est indefinie si Q(X) peut prendre un signe ou

l’autre selon la valeur de X . Par abus de langage on dit d’une forme bilineaire qu’elle est

definie positive, semi-definie positive, etc, si la forme quadratique associee l’est.

Exemples. Le produit scalaire habituel dans l’espace euclidien Rn est defini positif, Q( ~X)

definissant la norme carree, c’est-a-dire la longueur carree du vecteur ~X. Au contraire,

dans l’espace-temps de la Relativite restreinte (espace de Minkowski), la forme quadratique

Q(X) = c2t2 − x21 − x2

2 − x23 est indefinie : les quadrivecteurs de “genre temps” ont une

norme carree positive, ceux de “genre espace” negative, ceux de “genre lumiere” une norme

nulle. Dans l’espace R2, la forme quadratique Q(X) = x1x2 est indefinie et la forme

Q′(X) = (x1 − x2)2 est semi-definie positive, pourquoi ?

Si la forme symetrique f est definie positive, pour toute paire X, Y de vecteurs non

colineaires et tout reel λ, le vecteur λX + Y n’est pas nul, donc Q(λX + Y ) > 0 est

strictement positif. Or

Q(λX + Y ) = λ2Q(X) + 2λf(X, Y ) + Q(Y ) .

est un trinome du second degre en λ, et le fait qu’il est toujours strictement positif implique

que son discriminant est negatif, donc

∆′ = f(X, Y )2 −Q(X)Q(Y ) < 0

24 Juin 2011 J.-B. Z.

Page 75: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 5. Matrices symetriques et formes quadratiques. 67

Par contre si X et Y sont colineaires, il existe un λ0 tel que λ0X + Y = 0, et alors

Q(λX + Y ) ≥ 0 s’annule en λ0 mais ne change pas de signe, son discriminant est nul. On

obtient ainsi l’inegalite de Schwarz

|f(X, Y )| ≤ (Q(X)Q(Y ))12 , (1.6)

avec egalite si et seulement si X et Y sont colineaires.

Exemple : dans l’exemple precedent de l’espace euclidien R3, cette inegalite nous dit que

| ~X.~Y | ≤‖ ~X ‖ ‖ ~Y ‖

ou encore, si on se rappelle la formule de trigonometriecos θ = ~X.~Y

‖~X‖ ‖~Y‖ , que | cos θ| ≤ 1,

avec egalite sissi θ = 0 ou π donc ~X et ~Y colineaires. Plus generalement, pour toute forme

bilineaire definie positive, l’inegalite de Schwarz (1.6) nous permet de definir l’angle θ entre

deux vecteurs X et Y par cos θ = f(X, Y )/(Q(X)Q(Y ))12 .

1.3. Representations matricielles

Supposons que l’on a choisi une base ei dans l’espace E. Dans cette base, on ecrit les

vecteurs X =∑

i xiei et Y =∑

i yiei, donc la forme bilineaire

f(X, Y ) =∑

ij

xiyjf(ei, ej) =∑

ij

xibijyj ,

ou la matrice B de la forme bilineaire (dans la base choisie ei) est definie par

B = (bij) bij = f(ei, ej) . (1.7)

Cette matrice est symetrique, bij = bji, si la forme bilineaire l’est. Utilisant la meme

notation X et Y pour les matrices colonnes des composantes de X et Y , on voit que l’on

peut ecrire

f(X, Y ) = XT BY .

Supposons maintenant que l’on effectue un changement de base ei → e′j =∑

i eiaij

(cf Chap 1, (2.4)). Comme on l’a vu au chapitre 1, les composantes X et X ′ d’un

vecteur donne dans l’ancienne et la nouvelle base sont reliees par X = AX ′ (Chap 1,

(2.5)). Par consequent la forme bilineaire s’exprime maintenant selon f(X, Y ) = XT BY =

X ′T AT BAY ′ donc a l’aide de la matrice B′ = AT BA (et non pas selon A−1BA comme

pour une application lineaire, comparer avec Chap 1, (4.4) !)

J.-B. Z. 24 Juin 2011

Page 76: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

68 Methodes mathematiques pour physiciens 2. LP207

2. Reduction d’une forme quadratique

Dans toute cette section on supposera que les formes bilineaires et les matrices associees

sont symetriques.

2.1. Vecteurs orthogonaux, vecteurs orthonormes

Definition : Si f est une forme bilineaire symetrique definie positive, on dit que des

vecteurs X1, · · · , Xk sont orthonormes (pour la forme f) si

f(Xi, Xj) = δij

autrement dit si ces vecteurs sont deux a deux orthogonaux : f(Xi, Xj) = 0 si Xi 6= Xj

et s’ils sont normes Q(Xi) = 1.

Lemme 1 : si les vecteurs X1, · · · , Xk sont orthonormes (pour la forme f), ils sont

necessairement lineairement independants.

La preuve (elementaire !) est laissee en exercice.

2.2. Procede d’orthonormalisation de Schmidt

Soit f une forme bilineaire symetrique definie positive.

Theoreme 1 : A partir de tout systeme de k vecteurs lineairement independants

X1, · · · , Xk, on peut construire un systeme de k vecteurs orthonormes X1, · · · , Xk, combi-

naisons lineaires des X1, · · · , Xk.

Preuve par recurrence sur k. Pour k = 1, on dispose d’un vecteur X1 non nul, donc de norme

non nulle. Le vecteur X1 = X1/Q(X1)12 est bien norme. Supposons alors la propriete vraie pour tout

systeme de k− 1 vecteurs, et considerons le systeme de k vecteurs lineairement independants X1, · · · , Xk.Le sous-systeme X1, · · · , Xk−1 remplit la condition de recurrence, on peut donc construire un systeme de

k − 1 vecteurs orthonormes X1, · · · , Xk−1, combinaisons lineaires des X1, · · · , Xk−1. Le k-ieme vecteur

Xk est orthogonal aux X1, · · · , Xk−1 donc aux X1, · · · , Xk−1, il est donc independant de X1, · · · , Xk−1,

cherchons un Y = Xk +∑k−1

i=1λiXi orthogonal a X1, · · · , Xk−1 : en prenant le produit scalaire par f

entre cet Y et les autres : f(Y, Xi) = f(Xk, Xi) + λi, on determine λi = −f(Xk, Xi). Finalement ce

vecteur Y etant non nul (sans quoi Xk ne serait pas lineairement independant des X1, · · · , Xk−1), il suffit

de le normer pour obtenir Xk = Y/f(Y, Y )12 et terminer la preuve par recurrence.

Ce theoreme a comme corollaire que l’on peut toujours trouver une base orthonormale

dans l’espace vectoriel E.

Bien comprendre que ce theoreme, sous l’hypothese de l’existence d’une forme

bilineaire definie positive, nous ramene sur le terrain bien connu de la geometrie euclidienne.

Dans la base orthonormee, la forme bilineaire prend l’allure familiere du produit scalaire

24 Juin 2011 J.-B. Z.

Page 77: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 5. Matrices symetriques et formes quadratiques. 69

“en coordonnees rectangulaires”, f(X, Y ) =∑

i xiyi, et la norme carree Q(X) =∑

i x2i .

Un espace vectoriel dote d’une forme bilineaire definie positive est appele espace euclidien.

Exemple. Considerons l’espace E des polynomes de degre ≤ n dans la variable x et definissons la

forme bilineaire f(p, q) =∫ 1

−1p(x)q(x) dx. Cette forme est evidemment symetrique et definie positive. A

partir de la base naturelle 1, x, x2, · · ·xn de l’espace E, on peut, grace au procede d’orthonormalisation

de Schmidt, construire une base orthonormee pk(x). Ce sont les polynomes pk(x) = (k + 12)12 Pk(x),

avec Pk les “polynomes de Legendre” P0(x) = 1, P1(x) = x, P2(x) = 12(3x2 − 1), etc. (Voir TP1.)

Ces polynomes seront rencontres par la suite dans le cours de mecanique quantique, ou ils jouent un roleimportant dans la description du moment angulaire.

2.3. Matrices orthogonales

Considerons un espace E dote d’une forme bilineaire definie positive, donc euclidien. On

notera dans la suite X.Y = f(X, Y ) et ‖X ‖2= Q(X). Soit ei une base orthonormee, xi,

yi les composantes de deux vecteurs X et Y dans cette base : X =∑

i xiei, Y =∑

i yiei.

Le produit scalaire et la norme carree y prennent donc les expressions familieres

X.Y =∑

i

xiyi ‖X ‖2=∑

i

x2i , (2.1)

et les composantes xi, yi s’expriment en termes de produits scalaires avec les vecteurs de

base

xi = ei.X, yi = ei.Y . (2.2)

En termes des vecteurs colonnes des composantes de X et Y

X.Y = XT Y = Y T X ‖X ‖2= XT X . (2.3)

Definition : On appelle matrice orthogonale toute matrice carree n× n telle que

OT O = I ⇐⇒ O−1 = OT ⇐⇒ OOT = I , (2.4)

En ecrivant explicitement ces conditions d’orthonormalite, on obtient

k

OkiOkj = δij

OiℓOjℓ = δij (2.5)

qui expriment que les vecteurs colonnes d’une part, les vecteurs lignes de l’autre, de la

matrice O sont orthonormes.

Exemples. Verifier que les matrices

(1√2

− 1√2

1√2

1√2

)et

1√2

1√3

1√6

− 1√2

1√3

1√6

0 − 1√3

√23

sont

orthogonales.

J.-B. Z. 24 Juin 2011

Page 78: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

70 Methodes mathematiques pour physiciens 2. LP207

Proposition 1 : Les transformations par des matrices orthogonales laissent invariant le

produit scalaire.

En effet si X ′ = OX, Y ′ = OY , alors X ′T Y ′ = XT OT OY = XT Y . En particulier, si

X et Y sont deux vecteurs orthogonaux, leurs transformes par une matrice orthogonale

X ′ = OX , Y ′ = OY le sont aussi : XT Y = 0 =⇒ X′T Y ′ = 0.

Dans l’espace euclidien a 3 dimensions, les transformations definies par ces matrices

sont telles que −−→OM = X 7→ −−−→OM ′ = X ′ = OX avec |OM | = |OM ′|, ce sont des isometries

et on demontre que ce sont des rotations ou des reflexions par rapport a un plan, ou leurs

composees (leurs produits). La transformation X 7→ −X qui correspond a la matrice

O = −I est le produit d’une rotation de π autour d’un axe quelconque ∆ passant par

l’origine O par la reflexion dans le plan orthogonal en O a ∆. Exercice : pour s’en

convaincre, (1) faire la figure, (2) ecrire les deux matrices qui effectuent ces transformations.

Proposition 2 : Tout changement de base orthonormee definit une matrice orthogonale.

Reciproquement, toute matrice orthogonale transforme une base orthonormee en une autre

base orthonormee.

Preuve : soient ei et fi deux bases orthonormees, ei.ej = δij , fi.fj = δij . Formons la

matrice de changement de base, cf. equ. (2.4) du chapitre 1, fj =∑

i eiΩij , soit en utilisant

les produits scalaires orthonormes : Ωij = ei.fj. Mais selon l’observation faite en (2.2),

Ωij represente la composante de ei sur fj (ou vice versa), et selon (2.5), l’orthonormalite

de ces composantes est equivalente a l’orthogonalite de la matrice Ω, cqfd. La reciproque

decoule de la Proposition 1.

Remarque : en geometrie usuelle dans l’espace euclidien a 3 dimensions, cette propo-

sition dit simplement qu’on passe d’un repere orthonorme a un autre par une rotation ou

une “rotation-reflexion”.

Proposition 3 : Tout changement de base par une matrice orthogonale transforme une

matrice symetrique en matrice symetrique.

La preuve est immediate : si B = BT , pour toute matrice orthogonale O, B′ = OT BO

satisfait bien B′T = (OT BO)T = OT BT O = OT BO = B′ cqfd.

2.4. Diagonalisation d’une matrice symetrique

Supposons qu’on a dans E une autre forme bilineaire symetrique f . (On ne la suppose

pas definie positive.) Elle est definie par la donnee dans la base ei (orthonormee pour le

produit scalaire euclidien) de la matrice symetrique B, Bij = f(ei, ej).

On demontre alors l’important theoreme

24 Juin 2011 J.-B. Z.

Page 79: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 5. Matrices symetriques et formes quadratiques. 71

Theoreme 2 : Toute matrice symetrique reelle B peut se diagonaliser par un changement

de base orthogonal

∃O B = OΛOT , Λ = diag (λ1, · · · , λn) . (2.6)

Autrement dit, toute matrice symetrique reelle B possede un systeme de n vecteurs propres

orthonormes.

Lemme 2 : (i) deux vecteurs propres de B correspondant a deux valeurs propres distinctes

sont orthogonaux ; (ii) une matrice symetrique B n’a que des valeurs propres reelles.

Les deux proprietes decoulent du meme argument :(i) Soit λ et µ deux valeurs propres distinctes de B, de vecteurs propres respectifs X et Y . On a

donc BX = λX, BY = µY . Calculons de deux facons Y T BX

Y T BX = λY T X

=(Y T BX)T = XT BT Y = XT BY = µXT Y = µY T X ,

(ou on a utilise le fait que le nombre Y T BX, considere comme un matrice 1× 1, est egal a son transpose).Il en decoule que (λ − µ)Y T X = 0, donc puisque λ 6= µ, Y T X = 0, les vecteurs propres X et Y sontorthogonaux (pour le produit scalaire euclidien (2.1)).

(ii) Soit λ une valeur propre de B pour le vecteur propre X. Il se pourrait que λ et X soient complexes.

Ecrivant BX = λX et sa conjuguee (B est reelle) BX∗ = λ∗X∗, on voit qu’on est dans les conditions du

point (i) precedent, mais cette fois X et X∗ ne peuvent etre orthogonaux, car XX∗ =∑n

i=1|xi|2, somme

des modules carres des composantes de X, qui ne peut s’annuler que si X = 0. On en conclut que λ 6= λ∗est impossible, donc que λ est reelle.

Preuve du Theoreme. Demonstration par recurrence sur la dimension n de la matrice (ou de l’espacevectoriel). Pour n = 1, le theoreme est evident : dans l’espace de dimension 1, le vecteur de base peutetre norme. Supposons le theoreme vrai pour tout espace de dimension ≤ n − 1. Dans l’espace E dedimension n, dote d’une base ei orthonormee pour le produit scalaire euclidien (2.1), B a au moins unvecteur propre X1 de valeur propre λ1, que nous supposerons norme. Par le lemme, λ1 et X1 sont reels,et X1 =

∑ixiei. Supposons par exemple que x1 6= 0. Le systeme de vecteurs X1, e2, · · · , en est

une base, et par le procede d’orthonormalisation de Schmidt, on peut construire une base orthonormeeX1, e2, · · · en. Soit F le sous-espace engendre par les vecteurs e2, · · · en. C’est l’espace orthogonal auvecteur propre X1. Montrons que B laisse le sous-espace F invariant. En effet pour tout j = 2, · · · , n,X1.Bej = ej .BX1 = λ1ej .X1 = 0, Bej est orthogonal a X1 donc appartient au sous-espace F . B estrepresentee dans F par une matrice symetrique (Proposition 3 du § 2.3). On peut maintenant appliquera F , espace de dimension n− 1, l’hypothese de recurrence : il possede une base orthonormee de vecteurspropres X2, · · ·Xn de B. Par la Proposition 2 du § 2.3, on passe de la base initiale ei a cette nouvelle baseX1, X2, · · · , Xn par un changement de base orthogonal, cqfd.

2.5. Reduction d’une forme quadratique

Soit Q une forme quadratique, B la matrice reelle symetrique qui la represente dans une

base,

Q(X) =∑

ij

Bijxixj .

Selon le theoreme du § precedent, on peut trouver un changement de base par une matrice

orthogonale qui diagonalise la matrice B : B = OΛOT , ou O a pour vecteurs-colonnes les

J.-B. Z. 24 Juin 2011

Page 80: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

72 Methodes mathematiques pour physiciens 2. LP207

vecteurs propres (orthonormes) de B, cf chapitre 4, § 2.2. Recrivant Q(X) = XT BX =

XT OΛOT X , on voit que le changement de coordonnees X = OX ′, soit xi =∑

j Oijx′j ,

diagonalise la forme quadratique Q : Q = X′T ΛX ′, c’est-a-dire l’exprime comme somme

de carres avec comme coefficients les valeurs propres de B.

Theoreme 3 : Pour toute forme quadratique Q(X) =∑

ij Bijxixj , il existe un change-

ment de coordonnees orthogonal x′i =∑

j Ojixj qui la diagonalise

Q(X) =n∑

i=1

λix′2i =

n∑

i=1

λi(∑

j

Ojixj)2 . (2.7)

On appelle cette expression somme de carres la forme reduite de Q.

Corollaire : Une forme quadratique est definie positive (resp. semi-definie positive) sissi

les valeurs propres de sa matrice sont strictement positives (resp. positives ou nulles). Elle

est indefinie si sa matrice possede des valeurs propres des deux signes.

Exemples. Au vu de ce corollaire, il n’est pas difficile de voir que dans l’espace de

dimension 3, la forme Q1(X) = x21 + x2

2 + x23 − x1x2 − x2x3 est definie positive, que

Q2(X) = x21 +x2

2 +x23−x1x2−x2x3−x1x3 est semi-definie positive, et que Q3(X) = x2

1−2x2x3 est indefinie. Verifier que les valeurs propres de leurs matrices sont respectivement

B1 : 1 ±√

22

, 1, B2 : 32, 3

2, 0 et A3 : 1, 1,−1 et que leurs formes reduites s’ecrivent

effectivement

Q1(X) =2 +

√2

8(x1 −

√2x2 + x3)2 +

12(x1 − x3)2 +

2−√

28

(x1 +√

2x2 + x3)2

Q2(X) =32

(x1 − x3√

2

)2

+32

(−x1 + 2x2 − x3√6

)2

Q3(X) = x21 +

(x2 − x3√

2

)2

−(

x2 + x3√2

)2

.

2.6. Diagonalisation simultanee de deux matrices symetriques commutantes

Le theoreme 2 du paragraphe § 2.4 possede encore un autre corollaire interessant.Corollaire : Si A et B sont deux matrices reelles symetriques qui commutent, AB = BA, on peut lesdiagonaliser simultanement par un meme changement de base orthogonal.

Noter que le theoreme 2 en est un cas particulier, quand A = I, la matrice identite.Lemme 3 : Si A et B commutent, un espace propre de A est invariant par B.En effet si X est un vecteur propre de A, AX = λX, et ABX = BAX = λBX. Ou bien BX = 0, ou bienil est vecteur propre de A. Dans les deux cas, il appartient a l’espace propre.

Preuve du corollaire : on diagonalise d’abord A selon le theoreme. B laisse invariant tout sous-espace propre F de A, c’est une matrice symetrique dans F , on peut donc l’y diagonaliser toujours selonle theoreme par un nouveau changement de base orthogonal (qui n’affecte pas la diagonalite de A). Enprocedant ainsi dans chaque sous-espace propre de A, on construit une base orthonormale dans laquelleles deux matrices sont diagonales, cqfd.

24 Juin 2011 J.-B. Z.

Page 81: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 5. Matrices symetriques et formes quadratiques. 73

3. Extension aux formes sesquilineaires et matrices hermitiennes

Toute la discussion qui precede se generalise a des formes a valeurs complexes dites formes sesquilineaireset aux matrices “hermitiennes” qui leur sont associees. Cette situation est importante pour le physicien enparticulier dans les applications a la physique quantique. Nous nous bornerons ici a de breves indications.

Si E designe maintenant un espace vectoriel sur les nombres complexes (c’est-a-dire les combinaisonslineaires de vecteurs peuvent se faire avec des nombres complexes), on definit une forme sesquilineairef(X,Y ) comme une forme (une application dans les nombres complexes) qui est lineaire dans son secondargument Y , mais “antilineaire” dans le premier X. Ce qui remplace (1.1) est donc

f(λ1X1 + λ2X2, Y ) = λ∗1f(X1, Y ) + λ∗2f(X2, Y )

f(X,µ1Y1 + µ2Y2) = µ1f(X, Y1) + µ2f(X,Y2) , (3.1)

ou λ∗ est le complexe conjugue de µ. La forme est dite hermitienne si f(Y, X) = f(X, Y )∗.Exemples. (1) Considerons l’espace Cn des vecteurs X a n composantes xi complexes. La forme∑

ix∗i yi est une forme sesquilineaire hermitienne. (2) Soit a nouveau g et h des fonctions d’une variable

reelle x ∈ (a, b), mais cette fois a valeurs complexes (par exemple eix). L’expression∫ b

ag(x)∗h(x) dx est

une forme sesquilineaire hermitienne.On definit comme precedemment la forme Q(X) = f(X, X) associee a une forme sesquilineaire, qui

peut etre selon les cas definie positive, semi-definie positive, indefinie, etc. On a a nouveau une inegalitede Schwarz, qui s’exprime de la meme facon. Dans une base, une forme hermitienne s’exprime a l’aided’une matrice A = (aij) , aij = f(ei, ej), et la matrice est hermitienne ce qui signifie que

A = AT∗ ⇐⇒ aij = a∗ji . (3.2)

Si X =∑

ixiei et Y =

∑jyjej , f(X,Y ) =

∑ij

x∗i yjf(ei, ej) =∑

ijx∗i yjaij .

On definit en general la conjugaison hermitique d’une matrice B par

B† = BT∗ . (3.3)

Les matrices hermitiennes sont donc les matrices egales a leur conjuguee hermitique. On demontre queleurs valeurs propres sont toutes reelles, c’est l’analogue du Lemme 2 du § 2.4.

Par ailleurs on definit les matrices unitaires. Ce sont les matrices carrees U a elements complexesqui satisfont

U†U = I ⇐⇒ U−1 = U† . (3.4)

On demontre alors le theoremeTheoreme : Toute matrice hermitienne peut se diagonaliser par un changement de base unitaire

A = UΛU†

qui implique leCorollaire : Toute forme sesquilineaire peut se mettre sous forme diagonale par un changement de baseunitaire,

f(X,Y ) = X†AY = X†ΛY =∑

i

λix∗i yi X = U†X, Y = U†Y

et la forme est definie positive sissi les valeurs propres sont toutes (reelles) positives.Finalement le corollaire de la fin du paragraphe precedent admet une extension : si A et B sont deux

matrices hermitiennes qui commutent, elles peuvent etre diagonalisees simultanement.Cette derniere propriete joue un role fondamental en mecanique quantique : toute quantite observable

y est representee par un operateur (une matrice, dans une base) hermitien(ne). Ses valeurs propres sont lesvaleurs que peut donner la mesure de cette observable. Le fait que deux “observables commutent” signifiequ’on peut les mesurer simultanement.

Recapitulons le parallele entre formes bilineaires et formes sesquilineairesforme bilineaire symetrique f(X,Y ) ↔ forme sesquilineaire hermitienne f(X, Y )

forme quadratique Q(X) = f(X, X) ↔ forme quadratique complexe Q(X) = f(X, X)

matrice symetrique A = AT ↔ matrice hermitienne A = A†matrice orthogonale O−1 = OT ↔ matrice unitaire U−1 = U†diagonalisation par une matrice orthogonale ↔ diagonalisation par une matrice unitaire .

Toutes ces proprietes, etendues eventuellement a des espaces de dimension infinie, seront tres utilesen mecanique quantique. . .

J.-B. Z. 24 Juin 2011

Page 82: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

74 Methodes mathematiques pour physiciens 2. LP207

4. Applications physiques

4.1. Tenseur d’inertie

On connaıt du cours de Mecanique les notions de moment cinetique ~J et de moment

d’inertie I d’un point materiel M de masse m en rotation de vitesse angulaire ω autour

d’un axe ~u. Si r est la distance du point M a l’axe ~u, sa vitesse est v = rω, (ou mieux

~v = ω~u∧~r), son moment cinetique (par rapport a ~u) est Ju = mvr = mr2ω, et son moment

d’inertie (par rapport a ~u) est Iu = mr2, tel que

Ju = Iuω . (4.1)

Ce moment d’inertie (et Ju) s’annule seulement si la masse m est sur l’axe ~u. L’energie

cinetique de rotation est T = 12mv2 = 1

2Iuω2 = 12

J2u

Iu. Generalisons maintenant ces formules

au cas d’un solide en rotation.

Soit un corps solide indeformable dont la distribution de masse est decrite par une

densite ρ(~r) dans un certain volume V . Quand ce corps a un mouvement de rotation

de vitesse angulaire ω autour d’une direction ~u passant par un point O, le point M de

coordonnees ~r = −−→OM a une vitesse ~v = ω~u ∧ ~r et le vecteur moment cinetique ~J par

rapport a O est la superposition des contributions −−→OM ∧ ρ~v sommees sur tout le solide :

~J =∫

d3rρ(~r)~r ∧ (~ω ∧ ~r) . (4.2)

C’est donc un vecteur dont les composantes sont des fonctions lineaires de celles de ~ω = ω~u,

ce qui generalise (4.1) et amene a definir le “tenseur d’inertie” I (ne pas confondre avec la

matrice identite !)~J = I.~ω . (4.3)

En utilisant la formule du double produit vectoriel ~a ∧ (~b ∧ ~c) = ~b(~a.~c)− ~c(~a.~b), on calcule

J i =∫

d3rρ(~r)∑3

j=1(r2δij − rirj)ωj , et le tenseur d’inertie I est decrit par la matrice

symetrique 3× 3

Iij =∫

d3rρ(~r)(r2δij − rirj) , (4.4)

ou encore,

I =∫

dx dy dz ρ(x, y, z)

y2 + z2 −xy −xz−yx x2 + z2 −yz−zx −zy x2 + y2

=

A −F −E−F B −D−E −D C

. (4.5)

24 Juin 2011 J.-B. Z.

Page 83: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 5. Matrices symetriques et formes quadratiques. 75

(Les notations A, B · · · , F sont traditionnelles.)

Noter que le moment cinetique n’est en general pas colineaire au vecteur rotation ~ω.

Mais la matrice Iij est symetrique, donc diagonalisable par changement de coordonnees

orthogonal, (Theoreme 2). Dans les nouveaux axes (OX, OY, OZ), I = diag (IX , IY , IZ).

Le long de ces “axes principaux d’inertie”, le moment cinetique est colineaire au vecteur

rotation.

L’energie cinetique de rotation se calcule aussi aisement. Comme ~v2 = (~ω ∧ ~r)2 =

~ω.(~r ∧ (~ω ∧ ~r))

T =∫

dx dy dz12ρ(x, y, z)~v2 =

12~ω. ~J =

12~ω.I.~ω .

L’energie cinetique de rotation est donc donnee par la forme quadratique Q associee

a I. Cette forme est evidemment definie positive, en tant qu’energie cinetique. Cela

peut se voir aussi d’autres facons : les valeurs propres IX , IY , IZ sont les “moments

d’inertie principaux” par rapport aux axes (OX, OY, OZ) et sont donc positifs. En-

fin cette propriete resulte de l’inegalite de Schwarz. En effet, pour tout vecteur ~w,

Q(~w) = ~w.I. ~w =∫

d3rρ(~r)(r2w2 − (~r. ~w)2) ; or r2w2 − (~r. ~w)2 ≥ 0 avec egalite seule-

ment si ~r et ~w sont colineaires, (cf (1.6)), donc la somme∫

d3rρ(~r)(r2w2 − (~r. ~w)2) avec

ρ ≥ 0 est aussi ≥ 0 (et ne s’annulerait que pour une distribution lineaire de masses le long

de la direction ~w).

Y

X

Z

y

x

O

z

Fig. 12: Ellipsoıde d’inertie en O (ligne brisee) et axes principaux d’inertie.

J.-B. Z. 24 Juin 2011

Page 84: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

76 Methodes mathematiques pour physiciens 2. LP207

Soient α, β, γ les coordonnees du vecteur ~w. La forme quadratique s’ecrit Q(~w) =

Aα2 + Bβ2 + Cγ2 − 2Dβγ − 2Eγα − 2Fαβ et l’equation Q(~w) = 1 definit une surface

dans l’espace a trois dimensions. C’est un ellipsoıde, dit ellipsoıde d’inertie au point O.

Les axes principaux d’inertie sont les axes de cet ellipsoıde, voir figure 12.

Toutes ces notions sont importantes dans l’etude de la rotation du corps considere et

de la stabilite de ce mouvement de rotation.

Comment ce tenseur I est-il modifie si on change le point de reference O 7→ O′ ? En particulier si on

choisit le centre de gravite G ? Se rappeler que par definition de G, si ~r′ =−−→GM ,

∫d3r′ρ(~r′)~r′ = 0, tandis

que∫

d3r′ρ(~r′) = M , la masse du corps. Reponse : soit ~g =−−→OG, alors IO = IG + M(g2δij − gigj).

Soit IG le tenseur d’inertie par rapport a son centre de gravite G dont la vitesse (instantanee) est ~V .

L’energie cinetique totale s’ecrit T =∫

d3r 12ρ(~r)~v2 mais ~v(~r) = ~V +~ω∧~r donc ~v2 = V 2+2~V .(~ω∧~r)+(~ω∧~r)2.

Le terme “croise” ~V .(~ω ∧ ~r) s’annule par integration sur ~r, (puisqu’a nouveau, pour le centre de gravite,∫d3rρ(~r)~r = 0) ; et (~ω∧~r)2 = ~ω.(~r∧(~ω∧~r)), comme plus haut, et

∫d3rρ(~r)(~ω∧~r)2 = ~ω.IG.~ω. Finalement

l’energie est la somme de l’energie cinetique de translation du centre de gravite et de l’energie cinetiquede rotation autour de G

T =1

2M ~V 2 +

1

2~ω.IG.~ω . (4.6)

4.2. Tenseur de conductivite

Dans un conducteur a trois dimensions (et non plus necessairement filaire), la loi de proportionnalite des

intensites aux differences de potentiel (loi d’Ohm), ou des densites de courant ~j au champ electrique ~E,prend une forme matricielle j = σE, soit en composantes

(j1j2j3

)=

(σ11 σ12 σ13

σ21 σ22 σ23

σ31 σ32 σ33

)(E1

E2

E3

).

On admettra que le tenseur σ est symetrique σij = σji. Selon le theoreme de diagonalisation du § 2,il existe un repere orthonorme de coordonnees tel que σ soit diagonal. Dans ce repere, les nouvelles

composantes de ~j sont proportionnelles a celles de ~E. On retrouve la loi d’Ohm habituelle, mais avec engeneral des conductivites differentes dans les differentes directions !

4.3. Stabilite des extrema d’un potentiel

Considerons un systeme mecanique a N degres de liberte. Ce peut etre un systeme de

n particules massives en interaction dans l’espace R3, chacune dotees de 3 coordonnees

x, y, z, auquel cas le nombre de degres de liberte est N = 3n ; ce peut etre un solide

indeformable dont la position dans l’espace R3 est reperee par les trois coordonnees de

son centre de gravite G et par trois angles de rotation autour de G, d’ou N = 6, etc. On

appellera xi, i = 1, · · · , N les coordonnees de ces N degres de liberte.

Supposons la dynamique de ce systeme decrite par un potentiel V (x1, · · · , xN). Cela

implique que pour chaque degre de liberte, l’equation de la dynamique s’ecrit mixi =

−∂V (x)∂xi

. Les points stationnaires du systeme sont les extrema du potentiel (force nulle)

∂V (x)∂xi

∣∣∣x(0)

= 0 . (4.7)

24 Juin 2011 J.-B. Z.

Page 85: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 5. Matrices symetriques et formes quadratiques. 77

La question est de savoir lesquels de ces extrema correspondent a des positionsd’equilibre stable. Pour cela on effectue un developpement limite au deuxieme ordre deV (x) au voisinage de l’un des x(0) en posant xi − x

(0)i = ξi. Selon la formule de Taylor a

plusieurs variables

V (x) = V (x(0)) +12

N∑

i=1

ξ2i

∂2V (x)∂x2

i

∣∣∣x(0)

+∑

1≤i<j≤N

ξiξj∂2V (x)∂xi∂xj

∣∣∣x(0)

+ · · · (4.8)

ou le terme d’ordre 1 est absent en vertu de (4.7). Au terme constant V (x(0)) pres, qui nejoue aucun role dans la discussion, on voit que dans cette approximation de petits ecarts ξ

a l’extremum x(0), le potentiel est une forme quadratique dans les N variables ξi. Ecrivonssa forme reduite

V (x) = V (x(0)) +12

N∑

i=1

λiξ2i (4.9)

avec λi les valeurs propres de B et ξi les modes propres. La question du signe des λi vaetre cruciale :

– s’ils sont tous strictement positifs, c’est-a-dire si la forme quadratique est definiepositive, ( cf Theoreme 3 et Corollaire), l’extremum x(0) est un minimum local : au voisi-nage de x(0), V (x) est superieur a V (x(0)). Posons Bij = ∂2V (x)

∂x2i

∣∣∣x(0)

: les ξi satisfont

ξi +∑

j Bijξj = 0, soit des equations d’oscillateurs harmoniques couples, comme le montre

mieux encore le passage aux modes propres ξi : ¨ξi + ω2

i ξi = 0, ou λi = ω2i est la valeur

propre de B correspondant au mode ξi. Le systeme effectue donc de petites oscillationsau voisinage de x(0), l’equilibre est stable ;

– si par contre la forme possede une ou plusieurs valeurs propres negatives ou nulles, lesysteme est instable. Pour chaque ξi de valeur propre λi ≤ 0, l’equation de la dynamiqueest ¨

ξi = λiξi, avec une force de rappel nulle ou negative : il n’y a plus d’oscillation, il y ameme croissance de ξi si λi < 0. L’extremum est un point d’equilibre instable.

Exemple. Ceci est illustre sur un systeme a deux degres de liberte x et y, de potentielV (x, y) = cos(πx) cos(πy). Ce potentiel est represente sur la figure 13. On lui donne lenom de “boıte a oeufs” pour ces raisons evidentes. . . . Il est aise de voir sur la figure et lecalcul confirme que le potentiel presente des extrema aux points x, y tous deux entiers outous deux demi-entiers. Seuls les points a x et y entiers de parite opposee (x = 0, y = 1 parexemple) sont des minima du potentiel, les points ou x et y sont entiers de meme paritesont des maxima, les points ou ils sont tous deux demi-entiers sont des “cols”, avec unevaleur propre positive et une negative. Tout cela est bien en accord avec notre intuition :une petite bille lachee dans ce potentiel oscille au fond d’un creux. . .

On verra en TD un autre exemple.

J.-B. Z. 24 Juin 2011

Page 86: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

78 Methodes mathematiques pour physiciens 2. LP207

Fig. 13: Le potentiel V (x, y) = cos(πx) cos(πy) avec ses extrema periodiques

24 Juin 2011 J.-B. Z.

Page 87: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Partie II : ProbabilitesLa theorie des probabilites n’est, au fond,

que le bon sens reduit au calcul ;

elle fait apprecier avec exactitude ce que

les esprits justes sentent par une sorte d’instinct,

sans qu’ils puissent souvent s’en rendre compte.

Pierre-Simon Laplace

La theorie des probabilites est nee au XVIeme siecle de l’etude quantitative des jeux de

hasard1 (travaux de Fermat, Pascal, Huyghens). Son etude a ete poursuivie aux XVIIIe

et XIXe siecles par de grands mathematiciens, les Bernoulli, Laplace, Gauss, Poincare,

jusqu’au debut du XXeme, ou, sous la double pression des compagnies d’assurance

(evaluation des risques) et des sciences exactes, en particulier de la physique statistique, et

humaines, les travaux d’E. Borel, P. Levy, A.N. Kolmogorov et d’autres lui ont donne sa

forme moderne. Etroitement associee aux statistiques, elle est aujourd’hui omnipresente

dans les sciences “pures” et appliquees, depuis la physique quantique ou statistique a

l’economie et a la finance, aux sciences de la terre et de l’environnement, a la biologie et

a l’epidemiologie, etc.

Chapitre 6. Evenements et probabilitesCe chapitre est consacre a une introduction aux concepts de base de la theorie des pro-

babilites –evenements independants, probabilites conditionnelles, . . . –, ainsi qu’a quelques

notions de combinatoire des denombrements.

1. Premieres definitions

La theorie des probabilites s’interesse a des evenements –accidents, jeux de hasard, carac-

teristiques de grandes populations biologiques ou physiques etc– qui dependent du hasard

ou de causes non identifiees. On cherche a remplacer une information deterministe –la

certitude de tel evenement a tel instant– par une notion statistique, sa probabilite.

1 Le mot “hasard” vient de l’arabe az-zhar”, des, et de meme alea veut dire de en latin.

Page 88: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

80 Methodes mathematiques pour physiciens 2. LP207

Par exemple, quelle est la probabilite qu’un enfant ait le sexe feminin a la naissance ?

quelle est la probabilite d’un “pile” a un lancer de piece ? Dans ces deux cas, l’experience,

fondee sur de nombreuses observations, nous donne la reponse : une chance sur deux, c’est-

a-dire une probabilite 12 . Autre exemple, on dispose d’un sac contenant b1 billes rouges,

b2 bleues et b3 blanches, b1 + b2 + b3 = b. On effectue une experience consistant a tirer k

fois une bille au hasard et a la remettre dans le sac apres avoir note sa couleur. La donnee

de l’experience est donc constituee des nombres k1, k2 et k3 de billes rouges, bleues et

blanches tirees dans l’epreuve, avec k1 + k2 + k3 = k. Notre intuition nous dit, et les “lois

des grands nombres” que nous etablirons plus tard confirment, que quand k devient tres

grand, les rapports ki/k tendent vers les rapports des “populations” bi/b de billes dans

le sac. On voit que dans ce cas, l’echantillonnage d’un nombre k suffisamment grand de

billes permet d’evaluer la composition de la population du sac. Les sondages d’opinion

procedent de facon analogue. . .

La physique moderne fait un appel constant a des concepts de probabilites et de

statistiques. D’une part, dans des situations impliquant un nombre gigantesque d’atomes,

d’electrons, de photons, etc –gaz, metal, . . . –, le determinisme de la physique classique perd

son sens : il est inconcevable de donner les conditions initiales et de resoudre les equations

du mouvement de N ∼ 1023 particules ! Il faut remplacer ces donnees inconnues et

ingerables par une information de nature statistique : quelle est la probabilite de tel type

de particules d’avoir telle vitesse, etc. C’est sur ce principe qu’est batie la Mecanique

Statistique, qui fournit une relation entre le monde microscopique des constituants et les

proprietes macroscopiques observees.

D’autre part, le monde de la physique quantique est intrinsequement de nature probabiliste.

On y renonce a predire avec certitude les positions, vitesses ou evolutions des objets etudies

et on se contente de calculer et mesurer leurs probabilites de presence, de transition, etc.

Il est donc fondamental de disposer d’un formalisme mathematique precis et operatoire

qui permette de discuter ces questions de probabilites. Pour cela on va devoir preciser un

peu les choses pour bien definir de quoi on parle.

Un evenement est le nom donne au resultat d’une experience ou d’une observation.

Dans les cas les plus simples, il est code par une variable prenant une valeur binaire 0

ou 1 –pile ou face, garcon ou fille, etre vivant ou mort, etc–, ou entiere –valeur du de

apres un lancer, age de deces, . . . – ou reelle continue –poids des bebes a la naissance, taille

d’une plante, etc. Mais l’evenement peut-etre plus complexe, impliquer plusieurs variables

(plusieurs lancers de de, poids et age de deces, etc), ou dependre d’autres evenements,

24 Juin 2011 J.-B. Z.

Page 89: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 6. Evenements et probabilites 81

comme on verra. En general on parlera de l’espace Ω des experiences ou epreuves pour un

probleme donne, une situation donnee. (Un tel “espace” ne doit pas etre confondu avec

les espaces vectoriels de la premiere partie de ce cours !) Un evenement A est associe a

une partie (un sous-ensemble) ΩA de Ω, qui rassemble toutes les epreuves conduisant a la

realisation (a l’observation) de A.

Exemples :

1. on s’interesse au resultat d’un lancer de deux des. L’espace Ω est l’ensemble de tous

les resultats possibles de tels lancers. Si A est l’evenement consistant en deux valeurs iden-

tiques des 2 des, il est associe au sous-ensemble ΩA = (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6) ;

2. un projectile est emis depuis l’origine O avec une vitesse ~v proche de l’axe Ox mais

qui a une certaine indetermination en direction et en longueur ; ce projectile peut etre

classique –une balle de fusil– ou microscopique –un photon ou un electron– et l’incertitude

sur ~v peut donc etre liee a la qualite du fusil ou de la cartouche dans le premier cas, a

des effets quantiques dans le second. On s’interesse au point ou il atteindra le plan x = a.

L’espace Ω est donc l’ensemble des points d’impact dans ce plan, et peut etre decrit par

les coordonnees y, z dans le plan x = a. Un evenement A possible est que le projectile

atteint le plan x = a a une distance r1 ≤ r < r2 de l’axe Ox.

Definitions de la probabilite

Intuitivement, pour definir la probabilite d’un evenement A, on imagine qu’on peut repeter

un grand nombre N de fois une experience ou l’evenement A se produit ou non. S’il se

produit nA fois, on dira que sa probabilite est

p(A) = limN→∞

nA

N. (1.1)

La probabilite est alors definie comme une frequence (frequence au sens commun de taux

de repetition, et non au sens physique). Evidemment 0 ≤ nA ≤ N donc 0 ≤ p(A) ≤ 1.

Mais on peut aussi se donner ces nombres p(A) a priori, ou les calculer, et on dit que

l’espace Ω a ete probabilise. C’est en particulier le cas si l’espace des epreuves Ω a un

nombre d’elements (ou cardinal) fini, note |Ω|. Il en est bien sur alors de meme de tous ses

sous-ensembles ΩA et il est naturel de definir la probabilite de A comme le rapport

p(A) =|ΩA||Ω| (1.2)

du nombre des epreuves ou A se realise au nombre total d’epreuves, ou comme on dit

souvent, “le rapport du nombre de cas favorables au nombre total de cas”. Le fait que

J.-B. Z. 24 Juin 2011

Page 90: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

82 Methodes mathematiques pour physiciens 2. LP207

les deux definitions (1.1) et (1.2) fournissent la meme reponse est assez intuitif et sera

justifie dans la suite. Ainsi dans l’exemple precedent du lancer de deux des (non pipes),

le calcul se ramene au comptage (ou denombrement) des differentes combinaisons de des :

les N = |Ω| = 62 = 36 lancers de Ω ont autant de chances de “sortir” (si le de est bien

equilibre), le nombre de “cas favorables” de deux nombres identiques est |ΩA| = 6 et la

probabilite de A est le rapport du nombre de cas favorables au nombre total p(A) = 636

= 16.

Dans le cas plus general ou l’espace d’epreuves Ω n’est pas un ensemble fini, comme

c’est le cas quand on s’interesse par exemple a des quantites entieres non bornees (nombre

de desintegrations d’un materiau radioactif, nombre de photons dans une cavite, . . . ) ou

continues (distributions de masses, de tailles d’une population animale ou physique, de

vitesses comme dans un exemple precedent), la definition a priori des probabilites des

parties de Ω n’a plus rien d’evident. Donner un sens a de telles probabilites en general

releve d’un domaine mathematique ardu (lie a la “theorie de la mesure”). Contentons nous

ici d’admettre que la donnee de probabilites sur l’espace Ω est liee a celle d’une mesure sur

Ω et sur (certaines de) ses parties ΩA. Notant µ(Ω) et µ(ΩA) ces mesures (positives) de

Ω et ΩA, la probabilite de l’evenement A est donnee par la mesure relative de l’ensemble

ΩA par rapport a celle de Ω

p(A) =µ(ΩA)µ(Ω)

. (1.3)

Intuitivement plus la mesure µ(ΩA) est elevee, c’est-a-dire plus le sous-ensemble ΩA est

gros, plus l’evenement A est probable. Dans le cas d’evenements discrets en nombre fini,

cette mesure µ(ΩA) est simplement fournie par le nombre d’elements de ΩA, comme on

vient de le voir. La definition (1.3) englobe et generalise donc (1.2). Nous verrons au

chapitre suivant comment proceder quand les epreuves et les evenements sont reperes par

des variables continues.

Dans les deux definitions (1.1) et (1.2) il est manifeste que p(A) verifie les inegalites

0 ≤ p(A) ≤ 1 (1.4)

pour tout evenement A. Cette inegalite est fondamentale pour la coherence du concept de

probabilite et on supposera (et on verifiera) qu’elle est toujours satisfaite dans les cas plus

generaux comme (1.3).

Si p(A) = 1, on dit que l’evenement est certain (ou presque sur). Si p(A) = 0, on dit

qu’il est impossible ou ne se produit presque jamais.

24 Juin 2011 J.-B. Z.

Page 91: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 6. Evenements et probabilites 83

Exemple : A est un lancer de de compris entre 1 et 6 : certain ; A = le de atterrit (et reste

en equilibre !) sur un coin : p(A) = 0.

Histogrammes

Supposons que l’on repete un certain nombre N de fois une experience (une mesure par

exemple) dont le resultat est un nombre (somme T des deux points dans un lancer de deux

des, taille d’un individu, . . . ). Il est commode de construire un diagramme qui rassemble

ces donnees et leur nombre (ou leur frequence) d’apparitions. Dans le cas ou le resultat x

de l’experience est un nombre entier borne entre a et b, on porte x = i en abscisse, et en

ordonnee y = ni nombre de fois ou le resultat x = i est observe. On obtient l’histogramme

des donnees. Une variante est de porter en ordonnee non pas le nombre absolu mais sa

frequence f = ni/N . Selon l’argument/definition donne plus haut en (1.1), la fonction f(x)

doit dans la limite N ≫ 1 donner la probabilite d’observer x, plus precisement pi = f(i).

Exemple : une serie de 200 lancers de deux des m’a fourni le resultat suivant

(5, 3), (1, 3), (5, 4), (6, 4), (4, 1), (1, 3), (6, 6), (1, 1), (6, 6), (4, 3), etc, et les sommes des points

des deux des valent donc 8, 4, 9, 10, 5, 4, 12, 2, 12, 7, etc.

On construit alors l’histogramme suivant

0 2 4 6 8 10 12

10

20

30

40

Fig. 1: Histogramme du total de deux des

qui se lit ainsi : il y a 4 “evenements” de total x = 2, 9 pour x = 3, etc, 6 pour x = 12.

On verra au chapitre suivant un exemple d’histogramme pour des quantites continues.

2. Proprietes et axiomes

2.1. Evenements composes

Attention ! pour alleger les notations, nous noterons dans la suite par le meme symbole

A, B, etc, un evenement et le sous-ensemble de Ω qui lui est associe (note ΩA . . . au

paragraphe precedent). Supposons donc qu’a toute partie A de l’espace Ω, on a associe

J.-B. Z. 24 Juin 2011

Page 92: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

84 Methodes mathematiques pour physiciens 2. LP207

une probabilite p(A). On peut donc appliquer les notions et notations de la theorie des

ensembles aux combinaisons d’evenements et parler des evenements ∅, A∪B et A∩B etc.

⊲. A ⊂ B signifie du point de vue de la theorie des ensembles que A est un sous-ensemble

de B et du point de vue des evenements que A implique B. Exemple : “A = taille d’une

plante inferieure a 50 cm” ⊂ “B = taille ≤ 100 cm”.

⊲. A = ∅. Il est naturel de postuler que l’evenement ∅ est impossible, p(∅) = 0.

⊲. De meme pour A = Ω, (qui represente un evenement quelconque de l’ensemble !)

p(Ω) = 1, en accord avec les definitions (1.1), (1.2) ou (1.3). L’evenement Ω est certain.

⊲. A := Ω\A, le complementaire de A, represente l’evenement contraire : A se produit

sissi A ne se produit pas.

⊲. A ∩ B (note parfois A · B) : les evenements A et B se produisent, c’est l’evenement

(A et B).

Une definition tres importante en probabilites est celle d’evenements independants.

Definition : Deux evenements A et B sont independants si et seulement si

p(A ∩B) = p(A)p(B) . (2.1)

⊲. A et B sont mutuellement exclusifs (ou “ils s’excluent mutuellement”) si p(A ∩B) = 0

: l’evenement (A et B) est impossible.

⊲. A ∪B : evenement A ou B (ou les deux).

2.2. Espace d’epreuves fini

Dans le cas d’un espace d’epreuves Ω ayant un nombre fini d’elements, la definition de la

probabilite d’un evenement (un sous-ensemble) A de Ω se ramene au calcul du nombre de

ses elements, comme on l’a vu dans (1.2).

On peut donc preciser alors les probabilites des evenements composes precedents :

⊲. A ⊂ B implique |A| ≤ |B| donc aussi p(A) ≤ p(B).

⊲. A = ∅, |∅| = 0 donc p(∅) = 0 est tout naturel.

⊲. De meme, p(Ω) = |Ω|/|Ω| = 1.

⊲. |A| := |Ω| − |A|, donc p(A) = 1− p(A).

On a alors le

Theoreme des probabilites totales : p(A ∪B) = p(A) + p(B)− p(A ∩B)

qui decoule de la meme propriete pour le nombre d’elements dans un ensemble fini.

En particulier, si A et B sont mutuellement exclusifs, p(A ∩ B) = 0, p(A ∪ B) =

p(A) + p(B).

24 Juin 2011 J.-B. Z.

Page 93: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 6. Evenements et probabilites 85

2.3. Exemples

1. On joue a la roulette (36 numeros de 1 a 36 plus le 0) et on parie sur A =“pair” (avec

0 exclu) et sur B =“manque” (numero entre 1 et 18). Quelle est la probabilite de gain ?

p(A) = 18/37, p(B) = 18/37, A ∩B = 2, 4, 6, 8, 10, 12, 14, 16, 18, p(A ∩B) = 9/37, donc

p(A ∪B) = (18 + 18− 9)/37 = 27/37.

2. Dans un tirage de 13 cartes dans un paquet de 52 cartes bien battues, soit A = presence

d’un as, P = presence d’un pique, A ∩ P = presence d’un as et d’un pique (qui peut etre

ou non l’as). Le calcul de p(A), p(P ), p(A ∩ P ), p(A ∪ P ) n’est pas si aise. . .

2.4. Espace probabilise

Dans le cas ou l’espace d’epreuves Ω n’est pas un ensemble fini, on a vu plus haut que

le concept de probabilites sur Ω est lie a celui de mesure sur cet ensemble. En general

on dira qu’on a probabilise l’espace Ω si on a pu definir une famille F de ses parties

(sous-ensembles) A et leur attacher un nombre 0 ≤ p(A) ≤ 1 avec les axiomes suivants

⊲. ∅ ∈ F , et p(∅) = 0 ;

⊲. Ω ∈ F et p(Ω) = 1 ;

⊲. Si A ∈ F , son complementaire A := Ω \A ∈ F , et p(A) = 1− p(A) ;

⊲. Si A,B ∈ F , A ⊂ B implique p(A) ≤ p(B) ;

⊲. Si A,B ∈ F , A ∩B et A ∪B ∈ F et p(A ∪B) = p(A) + p(B)− p(A ∩B) ;

toutes proprietes qui generalisent celles vues pour un ensemble fini.

Nous y reviendrons au chapitre suivant.

2.5. Probabilites conditionnelles

Soient deux evenements A et B. On definit la probabilite conditionnelle p(A|B) comme

la probabilite de realiser l’evenement A quand B est deja realise. On dit que p(A|B) est

la “probabilite de A si B” (ou la “probabilite de A sachant B”).

Axiome de Bayes

p(A|B) =p(A ∩B)p(B)

. (2.2)

Cette proposition se demontre aisement pour un espace d’epreuves Ω qui est un en-

semble fini. En effet par l’hypothese “B s’est realise”, on doit restreindre notre espace

d’epreuves au sous-ensemble de Ω ou B est realise. Son cardinal est p(B) · |Ω|. Celui de

l’espace des evenements recherches (“cas favorables”) est p(A∩B) · |Ω|. Leur rapport, qui

est la probabilite conditionnelle, est bien le rapport (2.2). En general, pour un espace Ω

J.-B. Z. 24 Juin 2011

Page 94: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

86 Methodes mathematiques pour physiciens 2. LP207

quelconque, il faut supposer que la mesure des differentes parties de Ω satisfait bien (2.2)

et on prefere parler d’“axiome”, c’est-a-dire de principe indemontrable que l’on ajoute aux

proprietes du § 2.4.

Noter que p(A|B)p(B) = p(B|A)p(A) = p(A ∩B) qui est bien symetrique en A et B.

Noter encore le cas particulier ou A et B sont independants, donc p(A ∩B) = p(A)p(B),

et alors p(A|B) = p(A), ce qui correspond bien a l’intuition : l’occurrence de l’evenement

A est independante de l’occurrence ou non de l’evenement B.

Exemple. Dans un lancer d’un de, probabilite d’avoir un nombre multiple de 3, sachant

qu’on a un nombre pair ? B = 2, 4, 6, p(B) = 1/2, A = 3, 6, A∩B = 6, p(A∩B) =

1/6, p(A|B) = 1/3.

3. Un peu de combinatoire

Dans les questions de probabilites portant sur des variables discretes, on est souvent amene

a un probleme de denombrement : combien d’elements (epreuves) y a-t-il dans l’espace

Ω, combien d’elements dans un de ses sous-ensembles, donc de realisations de l’evenement

correspondant ?

Par exemple, avec un lancer de trois des, combien de configurations des trois des

donnent un total de points donne ?

Permutations. Arrangements et combinaisons.

Rappelons d’abord qu’etant donne un ensemble E de n elements, elements qu’on suppose

distincts et numerotes de 1 a n, (par exemple, n boules portant les numeros de 1 a n), le

nombre de tirages ordonnes de ces n elements (de ces n boules) est le nombre de permuta-

tions de ces n objets, soit n! = n · (n− 1) · · ·2 · 1. En effet il y a n choix pour le premier,

n− 1 choix pour le second, etc.

Le nombre de tirages ordonnes de p numeros quelconques est, par le meme argument

Apn = n(n− 1) · · · (n− p+ 1) =

n!(n− p)!

. (3.1)

(n choix pour le premier, n − 1 choix pour le second, . . . , n − p + 1 pour le p-ieme). La

seconde expression peut aussi se comprendre de la facon suivante : Apn est le nombre total

n! de tirages de n elements divise par le nombre des tirages des n − p elements restants,

qu’on n’effectue pas. Le nombre Apn est appele nombre d’arrangements de p objets choisis

parmi n.

24 Juin 2011 J.-B. Z.

Page 95: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 6. Evenements et probabilites 87

Supposons maintenant qu’on s’interesse aux tirages non ordonnes de ces p elements

(boules). On compte alors les combinaisons de p elements choisis parmi n. Leur nombre

est

Cpn =

n(n− 1) · · · (n− p+ 1)p(p− 1) · · ·2 · 1 =

n!p!(n− p)!

. (3.2)

Cette expression s’obtient en divisant Apn par le nombre p! d’ordres differents des p elements

tires, puisque cet ordre n’importe pas.

Attention, ce nombre Cpn est note

(np

)dans la litterature anglo-saxonne, y compris

dans les commandes de certains logiciels. . . (par exemple Binomial[n,p] en Mathematica).

Exemple. On a 12 boules distinctes dans une urne. Le nombre total de tirages de

5 boules ou par exemple le tirage 1, 3, 8, 7, 4 est distingue de 1, 3, 4, 7, 8 est A512 =

12!/7! = 95040. La probabilite d’un tirage particulier (un ordre donne de 5 boules donnees)

est donc 1/95040. Si on ne s’interesse pas a l’ordre, le nombre de tirages differents est

C512 = A5

12/5! = 792. La probabilite d’un tirage donne est maintenant 1/792, qui est

5! = 120 fois plus elevee que la precedente.

Attention, ces calculs supposent que les n objets sont distincts et qu’on les retire du

choix a chaque tirage. S’ils ne sont pas distincts, ou si on les remet en jeu (on remet les

boules dans l’urne), le calcul est different ! (voir TD)

Exercice : le tierce. Imaginons la situation totalement irrealiste ou une course hippique

met en piste n = 18 chevaux de force egale (et ou la course n’est pas truquee). Quelle

est la probabilite de gagner le tierce (3 chevaux gagnants dans l’ordre) ?, celle de gagner

le tierce dans le desordre ? Reponse: Nombre de tierces possibles A318 = 4896, p(tierce)=

1A3

18≈ 2 10−4 ; p(tierce dans le desordre) = 1

C318≈ 1,2 10−3.

Proprietes des Cpn

Les Cpn sont definis pour 1 ≤ p ≤ n mais on peut les etendre a tout p entier positif ou

nul : C0n = 1, et Cp

n = 0 si p > n. Ils satisfont les proprietes suivantes :

⊲. Symetrie Cpn = Cn−p

n : cette propriete est evidente sur la deuxieme expression (3.2),

elle signifie que l’on peut compter aussi bien le nombre de tirages complementaires.

⊲. Triangle de Pascal

Cpn = Cp

n−1 + Cp−1n−1 , (3.3)

qui se verifie immediatement par le calcul, en reduisant au denominateur commun les deux

termes du membre de droite

Cpn−1 + Cp−1

n−1 =(n− 1)!

p!(n− 1− p)!+

(n− 1)!(p− 1)!(n− p)!

=(n− 1)!p!(n− p)!

((n− p) + p) = Cpn .

J.-B. Z. 24 Juin 2011

Page 96: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

88 Methodes mathematiques pour physiciens 2. LP207

Mais il est plus profitable d’en retrouver la demonstration par un argument combinatoire.

Un element donne de l’ensemble ou bien appartient a la selection des p elements voulus,

et on doit en choisir p− 1 autres parmi les n− 1 restants, ou bien n’y appartient pas, et il

faut donc choisir les p parmi les n− 1 autres.

La formule (3.3) permet une construction recursive et graphique des Cpn

1

1 1

1 2 1

1 3 3 1

1 4 6 4 1

... . .

.ou le nombre Cp

n a la p-ieme position (p = 0, 1, · · · , n) de la n-ieme ligne est obtenu comme

somme des deux nombres de la ligne superieure immediatement a sa gauche et a sa droite.

C’est le celebre triangle de Pascal.

⊲. Ces coefficients Cpn apparaissent dans la formule du binome

(a+ b)n =n∑

p=0

Cpna

pbn−p . (3.4)

En effet le coefficient de ap est precisement le nombre de choix des p facteurs parmi les n

de la puissance (a+ b)n ou on va choisir a plutot que b. Cette formule du binome implique

elle-meme, en prenant a = b = 1, que

n∑

p=0

Cpn = 2n .

Exercices. Montrer que la formule (3.3) exprime simplement que (a+b)n = (a+b)(a+b)n−1.

Que vaut la somme alternee∑n

p=0(−1)pCpn ?

24 Juin 2011 J.-B. Z.

Page 97: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 7. Variables aleatoires 89

Chapitre 7. Variables aleatoires

Le chapitre precedent a ete consacre a des situations ou l’evenement pouvait etre decrit

par une ou plusieurs variables discretes : valeur du de, numero du cheval gagnant etc. On

va maintenant examiner des situations ou il faut faire appel a une variable continue X .

Par exemple, la taille ou le poids d’enfants a un certain age, le volume d’eau tombee par

cm2 a un certain site pendant un certain temps, etc.

En pratique, quand on enregistre des donnees concernant de tels evenements, il est

commode de construire leur histogramme : on divise l’ensemble des resultats possibles en

intervalles de la droite reelle d’une taille choisie a l’avance, In = [a + n∆, a + (n + 1)∆[,

et on porte verticalement au dessus de chaque intervalle le nombre d’evenements qui ont

fourni un resultat tombant dans cet intervalle In.

Fig. 2: Histogramme des poids de 2673 nouveaux nes dans une maternite du Bas-Rhin.

Exemples. Poids des 2673 bebes nes a la maternite d’Haguenau (Bas-Rhin) en 1984-85.

L’histogramme de la figure 2 regroupe les poids de 200g en 200g : 80 bebes sont nes avec

un poids dans l’intervalle de 2400 a 2600 g, etc. Celui de la figure 3 collecte les 81 notes

sur 20 du controle continu de ce cours (avril 2011) en 19 intervalles de point en point. . .

Pour des variables continues, le choix de l’intervalle (bin en franglais) n’est pas unique : on a uncertain arbitraire sur le centre et la largeur de l’intervalle. C’est tout l’art du statisticien de trouver lesbonnes valeurs qui donneront un aspect regulier a son histogramme. . .

J.-B. Z. 24 Juin 2011

Page 98: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

90 Methodes mathematiques pour physiciens 2. LP207

0 5 10 15 20

2

4

6

8

10

12

Fig. 3: Histogramme des notes du controle continu de l’UE 207, avril 2011

1. Variables aleatoires. Distributions de v.a.

1.1. Definition d’une variable aleatoire

On s’interesse donc maintenant au cas ou l’espace d’epreuves est la droite reelle Ω = R. Les

sous-ensembles de Ω qu’on va pouvoir “probabiliser” sont certains types d’intervalles, typ-

iquement des intervalles de la forme [a, b[, ouverts a droite, c’est-a-dire des ensembles des

reels a ≤ x < b. Un “evenement” elementaire est donc un tel intervalle et on suppose qu’on

connaıt les probabilites p([a, b[) pour tous les intervalles [a, b[, avec eventuellement le point

a rejete a moins l’infini (−∞, b[. On interprete cette probabilite comme decrivant la dis-

tribution d’une quantite reelle X (taille, poids, volume d’eau dans les exemples ci-dessus),

appelee variable aleatoire (v.a.), et la probabilite de l’intervalle [a, b[ est la probabilite que

cette variable X prenne des valeurs dans cet intervalle

0 ≤ p(a ≤ X < b) ≤ 1 . (1.1)

Ces probabilites satisfont tous les axiomes qu’on a detailles au chapitre precedent. En

particulier

a) p(R) = p(−∞ < X <∞) = 1 (il est certain que X prend une valeur reelle)

b) quels que soient a < b < c,

p(a ≤ X < c) = p(a ≤ X < b) + p(b ≤ X < b) (1.2)

puisque ces deux intervalles ont une intersection vide, etc.

L’ensemble de ces p([a, b[) definit ce qu’on appelle la loi de probabilite de la v.a. X .

24 Juin 2011 J.-B. Z.

Page 99: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 7. Variables aleatoires 91

Remarques

– Noter que les donnees contenues dans un histogramme comme dans les exemples

precedents devraient permettre de definir les probabilites p pour les intervalles choisis

In, par p(X ∈ In) = # evenements dans l’intervalle In/ # total d’evenements. Ceci

devrait se justifier dans la limite ou ce nombre total d’evenements est grand.

– Bien entendu, la v.a. X peut ne prendre ses valeurs que dans un sous-ensemble strict de

R. Ainsi par exemple, les ordinateurs sont pourvus de programmes generateurs de nombres

aleatoires compris entre 0 et 1. Pour une telle v.a., p(X < x) = 0 pour tout x < 0 et

p(X < x) = 1 pour tout x > 1.

– Il est clair aussi que le concept de v.a. englobe les cas de variables discretes : ainsi pour

une v.a. ne prenant que des valeurs entieres, p(X = k) = pk au sens ou on l’a vu au

chapitre precedent.

1.2. Les fonctions importantes attachees a une v.a.

On definit alors la fonction de repartition2 F (x)

F (x) = p(X < x) (1.3)

correspondant donc a un intervalle (−∞, x[. Il decoule de (1.2) que cette fonction est

monotone croissante : si x < y, F (x) ≤ F (y).

Cette fonction peut etre discontinue. C’est en particulier le cas pour une v.a. discrete, comme cellesconsiderees au chapitre precedent. Exemple : la valeur d’un de etant consideree comme v.a., la fonctionde repartition est discontinue a chaque entier.Si on definit la probabilite avec une inegalite “large” p(X ≤ a) = limx→a+0 p(X < x) = limx→a+0 F (x) ≡F (a+ 0) par une limite, on voit que p(X = a) = p(X ≤ a)− p(X < a) = F (a+ 0)−F (a), la discontinuitede F en a est la probabilite que X = a.

Supposons maintenant que la fonction F (x) est non seulement continue mais aussi

derivable. Soit f(x) = F ′(x). Inversement F (x) est la primitive de f(x) s’annulant a

x→ −∞, donc

F (x) =∫ x

−∞f(x′) dx′ , (1.4)

et en general

p(a ≤ X ≤ b) =∫ b

a

f(x) dx . (1.5)

2 appelee aussi “fonction de distribution cumulative”, le danger etant que “fonction de distri-

bution” est aussi utilise dans un autre sens, voir plus bas.

J.-B. Z. 24 Juin 2011

Page 100: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

92 Methodes mathematiques pour physiciens 2. LP207

La fonction f , appelee densite de probabilite3, est positive (puisque F est croissante) et telle

que p(R) =∫∞−∞ f(x) dx = 1 , on dit qu’elle est normalisee. Noter que f(x) dx represente

la probabilite que la v.a. X appartienne a l’intervalle [x, x+ dx[.

Remarque. Bien comprendre que dans ce cas d’une v.a. continue X a fonction de

repartition F derivable, on ne parle pas de la probabilite que X prenne une valeur x, mais

seulement qu’elle soit dans un intervalle, qu’il soit fini [a, b[, infini (−∞, a[ ou infinitesimal

[x, x+ dx[.

Graphe d’une loi f . Il est commode de visualiser une loi de probabilite par le graphe de

la fonction f . Noter la relation entre ce graphe et les histogrammes que l’on peut construire

a partir d’echantillons de N evenements : tout histogramme a N fini donne (a un facteur

N pres) une approximation du graphe de f . Intuitivement, on s’attend a ce que dans la

limite ou N → ∞ et ou la largeur des intervalles tend vers 0, l’histogramme approche le

graphe, puisque f(x) = limh→0F (x+h)−F (x)

h, donc pour h petit, f(x)h ≈ p(x ≤ X < x+h),

mais cela meriterait d’etre justifie plus precisement . . .

Fonction caracteristique.Un outil tres utilise en probabilites mais qui fait appel a des mathematiques encore peu etudiees en L2 estla fonction caracteristique de la v.a., definie comme la transformee de Fourier de la densite f , c’est-a-dire

ϕ(u) =

∫ ∞

−∞eiuxf(x) dx . (1.6)

Cette integrale converge absolument puisque |∫eiuxf(x) dx| <

∫|eiux|f(x) dx =

∫f(x) dx = 1. On

demontre qu’inversement la densite f est completement determinee par ϕ grace a la formule suivante(theoreme d’inversion de Fourier)

f(x) =1

∫ ∞

−∞e−iuxϕ(u)du . (1.7)

L’utilite de cette fonction caracteristique tient au theoreme suivant :La somme de N v.a. independantes a pour fonction caracteristique le produit des fonctions car-

acteristiques,et en particulier

La somme de N v.a. independantes et de meme loi f a pour fonction caracteristique ϕN (u) = ϕ(u)N .On peut la definir aussi dans le cas discret : soit X une v.a. discrete prenant la valeur entiere k avec

la probabilite pk. On a ϕ(u) =∑

kpke

iuk ou, de facon equivalente, φ(z = eiu) =∑

kpkz

k . Sous cette

derniere forme, comme fonction de z, on l’appelle aussi fonction generatrice des probabilites pk. En effeton retrouve les pk a partir de cette fonction generatrice par differentiation

pk =1

k!

(d

dz

)k

φ(z)

∣∣∣z=0

. (1.8)

Exemple: loi binomiale. Une v.a. prend la valeur 0 avec la probabilite p et 1 avec la probabilite1 − p, donc φ(z) = p + (1 − p)z. La somme de N v.a. independantes et de meme loi a pour fonction

caracteristique φN (z) = φ(z)N =∑N

k=0Ck

NpN−k(1− p)kzk . Cela donne la reponse a un probleme pose

au chapitre precedent : si on tire a pile (0) ou face (1), quelle est la probabilite d’un score total k apres

N tirages? Reponse , si p = 1 − q = 12, pk = ( 1

2)NCk

N . On reviendra sur cette loi binomiale au chapitresuivant.

3 appelee aussi probability distribution fonction, ou PDF, en anglais. . .

24 Juin 2011 J.-B. Z.

Page 101: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 7. Variables aleatoires 93

1.3. Plusieurs variables aleatoires

Ce qui vient d’etre dit pour une v.a. continue peut etre repete pour deux v.a. : l’espace

Ω = R2 peut etre visualise comme le plan muni de deux coordonnees x et y, les deux v.a.

X, Y prenant des valeurs x et y avec une certaine loi decrivent un point aleatoire dans le

plan.

La fonction de repartition F (x, y) est alors definie comme

F (x, y) = p(X < x, Y < y) ; (1.9)

quand F est continue et derivable, on lui associe la densite

f(x, y) = p(x < X ≤ x+ dx, y < Y ≤ y + dy) , (1.10)

et F (x, y) =∫ x

−∞∫ y

−∞ f(x, y) dx dy.

Si f est factorisee, f(x, y) = f1(x)f2(y), les deux v.a. X et Y sont independantes,

puisque

p(a ≤ X< b, c ≤ Y < d) =∫ b

a

dx∫ d

c

dyf(x, y) =∫ b

a

f1(x) dx∫ d

c

f2(y) dy = p(a ≤ X< b) p(c ≤ Y < d)

qui est bien la definition de l’independance, voir chap. 6, (2.1).

On passe sans difficulte de 2 a n v.a. X1, · · · , Xn. On rencontrera souvent dans la

suite le cas de n v.a. independantes et de meme loi, ou “egalement distribuees”4, donc

dotees d’une densite factorisee fn(x1, · · ·xn) =∏n

i=1 f(xi).

2. Moyenne, variance, ecart-type, moments

2.1. Moyenne

Pour une v.a. discrete X prenant la valeur xi avec la probabilite pi, il est naturel et d’usage

commun de definir sa moyenne par

〈X〉 = X = EX =∑

i

pixi . (2.1)

On a introduit ici les trois principales notations en usage : les crochets 〈·〉, tres prises des

physiciens, la barre, utilisee quand les crochets pretent a ambiguıte, et le E (pour esperance

4 Les probabilistes anglo-saxons parlent de variables i.i.d, independent, identically distributed.

J.-B. Z. 24 Juin 2011

Page 102: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

94 Methodes mathematiques pour physiciens 2. LP207

mathematique, ou expectation) tres en vogue chez les mathematiciens. . .Plus generalementpour toute fonction G(x), la moyenne ou esperance de cette fonction pour la v.a. X est

〈G(X)〉 = G(X) = EG(X) =∑

i

piG(xi) . (2.2)

Pour une v.a. X continue dotee d’une densite f , on definit de meme

〈X〉 = X = EX =∫ ∞

−∞xf(x) dx

〈G(X)〉 = G(X) = EG(X) =∫ ∞

−∞G(x)f(x) dx .

(2.3)

Exercice. Soient X et Y deux v.a. independantes. Montrer que 〈X.Y 〉 = 〈X〉〈Y 〉.Inversement si 〈X.Y 〉 6= 〈X〉〈Y 〉, cela implique que X et Y ne peuvent etre independantes.

Remarques : 1. En Mecanique, on introduit la notion de barycentre (ou centre degravite) de N points massifs de coordonnees ~xi et de masse mi par ~xB = 1

M

∑imi~xi,

M =∑

imi, ou dans la cas d’une distribution continue de masse de densite massique ρ(~x),

~xB =∫

d3~x ρ(~x)~x∫d3~x ρ(~x)

. (2.4)

Bien noter l’analogie entre les moyennes des formules (2.1)-(2.3) et (2.4). Le role desprobabilites pi ou de la densite f(x) est joue ici par les rapports mi/M ou ρ(~x)/

∫d3 ~xρ(~x).

2. Soit X une v.a., on definit la nouvelle v.a. X ′ = X−〈X〉 : il est clair que 〈X ′〉 = 0,et on dit que la v.a. X ′ est centree.

2.2. Variance et ecart-type

La variance d’une v.a. X est definie comme la moyenne de (X − 〈X〉)2, soit

varX = σ2X = 〈(X − 〈X〉)2〉 . (2.5)

A nouveau, les deux notations en vigueur ont ete donnees. L’ecart-type (ou deviationstandard) est σX =

√varX .

Intuitivement l’ecart-type est une mesure de l’etalement des valeurs de la v.a. autourde sa moyenne. Une variance (donc un ecart-type) faible signale des valeurs de la v.a.resserrees autour de la moyenne 〈X〉, avec donc un histogramme pointu. A l’inverse, unevariance elevee signifie que X peut prendre (avec une probabilite non negligeable) desvaleurs eloignees de 〈X〉.

Demontrons une utile formule pour la variance. Developpons (X − 〈X〉)2 = X2 −2X〈X〉+ 〈X〉2. La moyenne etant une operation lineaire, son calcul peut se faire terme aterme, donc 〈(X − 〈X〉)2〉 = 〈X2〉 − 2〈X〉2 + 〈X〉2 = 〈X2〉 − 〈X〉2, et finalement

varX = σ2X = 〈X2〉 − 〈X〉2 . (2.6)

24 Juin 2011 J.-B. Z.

Page 103: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 7. Variables aleatoires 95

Remarques.

– La variance est insensible a une translation de la v.a. X par une constante c. En effet, si

X ′ = X+c, 〈X ′〉 = 〈X〉+c et X−〈X〉 = X ′−〈X ′〉, donc les variances de X et X ′ sont les

memes. Par une dilatation par un facteur λ, la moyenne et l’ecart-type sont dilatees par

ce meme facteur X 7→ λX, 〈X〉 7→ λ〈X〉, varX 7→ λ2varX , donc σX/〈X〉 est invariant.

– Les definitions de 〈X〉 et de varX qui impliquent des integrales “impropres” sur (−∞,∞)

n’ont de sens que si ces integrales convergent. La convergence a l’infini de la moyenne de

X2 est evidemment plus contraignante que celle de X : pour certaines distributions de

v.a., la moyenne peut exister sans que la variance existe.

2.3. Moments

La definition des moments generalise celles de la moyenne et de la variance. En general,

pour tout k entier positif, on definit le k-ieme moment d’une v.a. comme

mk = 〈Xk〉 =∫ ∞

−∞xkf(x) dx (2.7)

si cette integrale existe (converge).

Pour une v.a. discrete, on ecrit simplement, avec les notations ci-dessus

mk =∑

i

xki pi .

On verra au chapitre suivant des exemples explicites de “lois” et des calculs detailles

de leurs moments.

Inegalite de Tchebychev

Supposons que l’integrale du k-ieme moment converge absolument, 〈|X |k〉 <∞. On peut

borner superieurement p(|X | > a) par

p(|X | > a) =∫

|x|>a

f(x) dx ≤∫

|x|>a

∣∣∣xa

∣∣∣k

f(x) dx ≤∫ ∞

−∞

∣∣∣xa

∣∣∣k

f(x) dx = 〈∣∣X

a

∣∣k〉 (2.8)

L’inegalite p(|X | > a) ≤ 〈∣∣X

a

∣∣k〉 est appelee inegalite de Tchebychev. Elle nous dit

que quand a croıt, la probabilite que |X | > a decroıt au moins comme a−k, pour tout k

pour lequel le k-ieme moment existe.

J.-B. Z. 24 Juin 2011

Page 104: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

96 Methodes mathematiques pour physiciens 2. LP207

3. Fonctions de correlation de plusieurs v.a.

Quand on dispose de plusieurs v.a., comme X et Y au § 1.3 ci-dessus, on s’interesse a leur

fonction de correlation definie par

〈XY 〉 =∫f(x, y)xy dx dy . (3.1)

Sous l’hypothese de factorisation de la densite f(x, y) = f1(x)f2(y), donc d’independance

des v.a. X et Y , on a

〈XY 〉 = 〈X〉〈Y 〉 .

Le calcul de

〈XY 〉c = 〈XY 〉 − 〈X〉〈Y 〉 (3.2)

fournit donc une mesure de la non-independance, ou de la correlation, des v.a. X et Y .

Plus generalement, on peut bien sur definir des fonctions de correlation plus compliquees,

telles 〈P (X)Q(Y )〉 ou P et Q sont des polynomes, etc.

Exemple physique : dans un barreau de fer, l’aimantation est due aux moments

magnetiques ~mi portes par les N atomes, plus precisement a l’effet cooperatif de ces

moments microscopiques. Selon les lois de la Mecanique Statistique, on peut decrire un tel

systeme par une approche probabiliste. A chaque configuration de moments magnetiques

~mi, on associe son energie E(~mi) qui depend de tous ces moments et de leurs interac-

tions, et aussi d’eventuels champs magnetiques appliques, etc. Le principe fondamental de

la Mecanique Statistique est qu’a l’equilibre, a une temperature T (temperature absolue,

mesuree en Kelvin), la probabilite de cette configuration est

p(~mi) =1Z

e−βE(~mi) (3.3)

ou β := 1kBT , avec kB la constante de Boltzmann, kB = 1, 380 10−23 J K−1. Le facteur

exponentiel e−βE(~mi) est appele poids de Boltzmann de la configuration. Le facteur Z,

appele fonction de partition du systeme, est defini par

Z =∑

config.

e−βE(~mi) (3.4)

ou on somme sur toutes les configurations des moments magnetiques, de telle facon que

la probabilite (3.3) est bien normalisee :∑

config. p(~mi) = 1. Le resultat de l’analyse

24 Juin 2011 J.-B. Z.

Page 105: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 7. Variables aleatoires 97

theorique, en accord avec l’observation, est qu’a haute temperature les moments micro-

scopiques sont desordonnes, “pointant” dans toutes les orientations, l’aimantation totale

est alors nulle et le corps est dans sa phase paramagnetique ; a temperature inferieure a

la temperature de Curie, par contre, les moments magnetiques ont tendance a s’orienter

parallelement les uns aux autres, creant ainsi une aimantation macroscopique ~M : on est

dans la phase ferromagnetique. La valeur moyenne 〈~mi〉 du moment de l’atome i est nulle

dans la phase paramagnetique, et non nulle et egale a 1N~M (par definition) dans la phase

ferromagnetique. La fonction de correlation 〈~mi ~mj〉 des moments de deux atomes i et j

distants s’annule avec leur separation dans la phase paramagnetique, elle tend vers le carre

de 〈~m〉 dans la phase ferromagnetique.

Remarque : 〈XY 〉c = 0 est une condition necessaire pour que les v.a. X et Y

soient independantes, mais elle n’est pas suffisante : elle n’implique pas que X et Y

sont independantes. Ainsi soit ϕ une v.a. angulaire prenant des valeurs sur [0, 2π[ avec

une densite uniforme f(ϕ) = 12π . Soient les v.a. X = cosϕ et Y = sinϕ. Montrer que

〈XY 〉c = 0. Il est pourtant clair que X et Y ne sont pas independantes, etant toutes deux

liees a la v.a. ϕ. Exercice : montrer dans cet exemple que 〈X2Y 2〉 6= 〈X2〉〈Y 2〉, ce qui

verifie la non-independance de X et Y .

4. Changement de variable aleatoire

On considere un phenomene aleatoire dont les evenements sont decrits par une v.a. X

reelle, par exemple une coordonnee d’un point M . Pour une raison ou une autre, on peut

etre interesse a changer la description du phenomene en passant de la variable X a une

autre, par exemple Y = aX + b ou toute autre fonction (monotone croissante) Y = φ(X).

Comment la loi de X se modifie-t-elle par ce changement de variable (ce changement de

coordonnee) ? Appelons f(x) et f(y) les densites de probabilite qui decrivent le phenomene

dans les deux variables. La quantite f(x)dx qui fournit la probabilite que x ≤ X < x+dx

doit etre independante du choix de variable, en ce sens que

p(M ∈ I) = p(x < X < x+ dx) = p(y < Y < y + dy)

doncf(x) dx = f(y) dy avec y = φ(x) et dy = φ′(x) dx

donc f(x) = f(y)dydx

= f(y)φ′(x) ⇐⇒ f(y) =f(x)φ′(x)

. (4.1)

J.-B. Z. 24 Juin 2011

Page 106: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

98 Methodes mathematiques pour physiciens 2. LP207

Noter que l’on a suppose explicitement que y est une fonction croissante de x, sinon que

faudrait-il faire ?

Exemples

1. Un point aleatoire sur le segment [−1, 1] est decrit par une coordonnee X ou par un

angle T , −12π ≤ T ≤ 1

2π, avec X = sinT . Les densites sont reliees par f(t) = f(x) dx

dt=

f(sin t) cos t ou f(x) = f(t)√1−x2 .

2. Passage en coordonnees radiales. Supposons qu’on se donne une distribution aleatoire

de points dans le plan, decrits par une densite (de probabilite) f(x, y). En coordonnees

polaires, (x, y) 7→ (r, θ), on va ecrire

f(x, y) dx dy = f(r, θ) dr dθ

mais on sait bien que l’element de surface infinitesimal dx dy = r dr dθ, donc f(r, θ) =

rf(x, y). Si la distribution en θ est uniforme, on peut se reduire a la seule coordonnee

radiale r et ecrire f(r) = 2πrf(x, y). Exemple : des points sont distribues dans le plan avec

la densite f(x, y) = A exp−α(x2+y2) (loi gaussienne, voir chapitre suivant). Cette densite

est evidemment invariante par rotation dans le plan (elle ne depend que de la distance de

l’origine au point M de coordonnees (x, y)), il est naturel d’utiliser la coordonnee radiale

r =√x2 + y2. La densite dans la v.a. R correspondante est f(r) = 2πAr exp−αr2. De la

meme facon, une distribution dans l’espace R3 peut se recrire en coordonnees spheriques

(r, θ, ψ), avec 0 ≤ θ ≤ π, 0 ≤ ψ ≤ 2π. On a alors f(r, θ, ψ) = r2 sin θf(x, y, z), ou s’il y a

invariance par rotation (independance en θ, ψ), f(r) = 4πr2f(x, y, z). On verra en TD et

TP des applications de ces considerations a differents problemes, dont la distribution de

Boltzmann des vitesses des molecules d’un gaz.

24 Juin 2011 J.-B. Z.

Page 107: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 8. Distributions classiques 99

Chapitre 8. Distributions classiques

Dans ce chapitre nous definissons et etudions quelques distributions usuelles, ou lois,

de variables aleatoires discretes ou continues.

1. Distribution uniforme

f(x)

1

a b

x

F(x)

Fig. 1: Densite et fonction de repartition d’une distribution uniforme sur l’intervalle [a, b].

C’est la plus simple des distributions de v.a. : la densite est constante et non nulle

dans un intervalle [a, b]. La valeur de cette constante p est fixee par la normalisation∫ b

af(x) dx = (b − a)p = 1 soit p = 1

b−a , voir Fig. 1. La fonction de repartition F (x) est

nulle pour x ≤ a, croıt lineairement de a a b et vaut 1 pour x ≥ b.

Dans sa version discrete, ou la v.a. prend un nombre fini de valeurs xi avec des

probabilites pi, les pi sont egales, les valeurs xi sont equiprobables. C’est le cas d’une piece

(au jeu de pile ou face) ou d’un de bien equilibres, avec des probabilites respectives de

pp = pf = 12 ou de pi = 1

6 . Dans sa version continue, c’est la distribution des generateurs

de nombres aleatoires usuels, qui engendrent des nombres xi de l’intervalle [0, 1] avec une

densite de probabilite constante. A partir de cette densite sur [0, 1], on fabrique une

distribution uniforme sur tout autre intervalle [a, b] en translatant et dilatant la variable

en y = x(b− a) + a et en prenant f(y) = 1b−af(x) = 1

b−af( y−ab−a ) pour y ∈ [a, b].

Moyenne, variance, moments

Le calcul de la moyenne, de la variance et des moments est aise

〈X〉 =1

b− a

∫ b

a

dxx =a+ b

2

mk = 〈Xk〉 =1

b− a

∫ b

a

dxxk =bk+1 − ak+1

(k + 1)(b− a)=

1k + 1

(ak + ak−1b+ · · ·+ bk)

varX = 〈X2〉 − 〈X〉2 =112

(a− b)2

(1.1)

J.-B. Z. 24 Juin 2011

Page 108: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

100 Methodes mathematiques pour physiciens 2. LP207

2. Distribution binomiale

C’est la distribution rencontree au chapitre 7 (§1.2) dans la discussion des sommes des

valeurs de pile ou face : si on a tire a pile ou face n fois, quelle est la probabilite de k

“faces” ?

Il est instructif de faire ce calcul de plusieurs facons differentes.

a) par definition des probabilites par la frequence d’apparition des configurations (cf.

chap 6) et par denombrement de ces configurations : dans un tirage de n fois, il y a

2n configurations possibles et il y a Ckn facons d’avoir k faces. La probabilite cherchee

est donc

p(n)k =

(12

)n

Ckn .

b) par utilisation des proprietes generales des probabilites. Generalisons un peu le

probleme en supposant la piece mal equilibree : elle a une probabilite p de tomber sur

face, 0 < p < 1 et q = 1−p de tomber sur pile (leur somme vaut 1, pourquoi ?). Dans

une serie de n lancers, les resultats successifs sont des variables independantes (la

piece ne garde pas le souvenir si elle est tombee sur pile ou face les fois precedentes!).

Par consequent la probabilite d’une suite donnee de k faces et donc de n− k piles est

independante de l’ordre de ces faces ou piles et elle est factorisee de la forme pkqn−k.

Comme deux suites de k faces differant par leur ordre sont des evenements A et B

mutuellement exclusifs, la probabilite de A∪B est la somme des probabilites de A et

de B, chacune egale a pkqn−k, et plus generalement la probabilite totale cherchee p(n)k

est pkqn−k fois le nombre total de suites avec k faces, soit Ckn, d’ou

p(n)k = Ck

npkqn−k .

(2.1)

La loi est bien normalisee :∑p(n)k =

∑nk=0C

knp

kqn−k = (p + q)n = 1 par l’identite

(3.4) du chapitre 6. Pour p = q = 12 on retrouve bien sur le resultat precedent du a).

La distribution (2.1) est appelee loi binomiale.

24 Juin 2011 J.-B. Z.

Page 109: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 8. Distributions classiques 101

0 1 2 3 4 5 6 7 8 9 10

0.05

0.10

0.15

0.20

0.25

0 1 2 3 4 5 6 7 8 9 10

0.05

0.10

0.15

0.20

0.25

Fig. 2: Distribution binomiale pour p = 0, 5 et pour p = 0, 3 et n = 10.

Elle se rencontre chaque fois qu’on s’interesse a n occurrences d’un evenement se

produisant ou non avec une probabilite p ou 1 − p. Par exemple, on considere n noyaux

radioactifs dont chacun a la probabilite p de se desintegrer pendant un intervalle ∆t. Quelle

est la probabilite que k noyaux se soient desintegres au bout de ce temps ? (on suppose

que les desintegrations sont des phenomenes aleatoires independants, c’est-a-dire qu’elles

ne s’influencent pas mutuellement.) Nous reviendrons en detail sur cet exemple au § 6.3.

Moyenne, variance, moments

A nouveau, le calcul de la moyenne et de la variance est un bon exercice

〈X〉 =∑

k

kp(n)k = np

〈X2〉 =∑

k

k2p(n)k = n(n− 1)p2 + np

varX = 〈X2〉 − 〈X〉2 = n(p− p2) = npq

(2.2)

dans lequel on pourra utiliser de facon repetee l’identite kCkn = nCk−1

n−1 (la verifier).

Fonction caracteristiqueAu vu de ce qui a ete dit plus haut, au § 1.2 du chap. 7, il est egalement utile de construire la fonc-

tion caracteristique. Rappelons qu’elle est definie comme ϕ(u) =∑

kpke

iuk, donc pour la distribution

binomiale

ϕ(n)(u) =∑

k

p(n)keiuk =

n∑

k=0

Ckne

iukpkq1−k = (1− p+ peiu)n . (2.3)

Nous ferons usage de cette expression dans la suite.

3. Distribution normale

Rappelons d’abord que

I =∫ ∞

−∞e−x2

dx =√π . (3.1)

J.-B. Z. 24 Juin 2011

Page 110: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

102 Methodes mathematiques pour physiciens 2. LP207

C’est la tres fameuse integrale gaussienne.

Cette formule tres utile se demontre aisement de la facon suivante : calculons le carre de l’integrale,considere comme une integrale dans le plan et appliquons lui le changement de variables en coordonnees

polaires. Explicitement I2 =∫∞−∞ dx e−x

2 ∫∞−∞ dy e−y

2=∫

R2 dx dy e−x2−y

2=∫

R2 r dr dθ e−r2

=

2π∫∞0

12

d(r2) e−r2

= π∫∞0

du e−u = π, cqfd.

Par un simple changement de variable, on en deduit que pour tout α > 0

I(α) =∫ ∞

−∞e−αx2

dx =√π

α(3.2)

et en particulier1√

2πσ2

∫ ∞

−∞e−

x2

2σ2 dx = 1 . (3.3)

-5 5 10

0.02

0.04

0.06

0.08

0.10

0.12

Fig. 3: Densite d’une distribution gaussienne, µ = 2, σ = 3 et σ = 5. Le maximum estatteint en x = µ, la largeur du pic (par exemple a la hauteur e−1 fois le maximum) estproportionnelle a σ.

On definit alors une v.a. gaussienne x par sa densite

fGauss(x) =1√

2πσ2e−

(x−µ)2

2σ2 .

(3.4)

On parle aussi de loi normale. Elle depend de deux parametres µ et σ2 que nous allons

maintenant interpreter. Calculons pour cela la moyenne et la variance de cette v.a.

〈X〉 =∫ ∞

−∞dxx fGauss(x) =

∫ ∞

−∞dx((x− µ) + µ

)fGauss(x) = 0 + µ :

le premier terme est nul car dans le calcul de 〈x− µ〉 on peut effectuer le changement de

variable d’integration x′ = x−µ et l’integrale qui en resulte d’une fonction impaire x′e−ax′2

sur (−∞,∞) est nulle ; le deuxieme terme de la moyenne est egal a µ car l’integrale est

bien normalisee.

24 Juin 2011 J.-B. Z.

Page 111: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 8. Distributions classiques 103

Pour le calcul de la variance, remarquons d’abord qu’en differentiant les deux membres

de I(α) dans (3.2) 5 par rapport a α on obtient − ∂∂αI(α) =

∫dxx2e−αx2

= 12αI(α).

Prenant α = (2σ2)−1, on est alors en mesure de calculer

varX =∫ ∞

−∞dx (x−µ)2 fGauss(x) =

∫dx√2πσ2

(x−µ)2e−(x−µ)2

2σ2 =∫

dx′√2πσ2

x′2e−x′22σ2 = σ2 .

Par consequent les deux parametres µ et σ2 dont depend la loi gaussienne (3.4)

s’interpretent respectivement comme sa moyenne et sa variance.

Le graphe de f(x) a une allure caracteristique de courbe en cloche, voir Fig. 3. Elle

est “centree” en x = µ, et est d’autant plus etroite que l’ecart-type σ (ou la variance σ2)

est plus faible. Cette variance peut etre mesuree par la largeur 2√

2σ du pic entre les

points x = µ±√

2σ ou f est reduit d’un facteur e par rapport a son maximum:

f(µ±√

2σ) = f(µ)e−1 .

Definition : on dit qu’une v.a. X a une loi normale centree normalisee si elle est

gaussienne avec µ = 0 et σ2 = 1.

Moments.

Les calculs qui precedent ont prepare le terrain au calcul des moments d’ordre arbitraire.

Par changement de variable on ramene tout calcul de moment de X a celui de X ′ =

X − µ. Pour la variable X ′ qui est centree, tous les moments impairs sont nuls, par

l’argument de parite donne pour la moyenne. Ses moments pairs s’obtiennent a nouveau

par differentiation repetee par rapport a α dans (3.2).

Exercice. Selon ce principe, verifier les formules suivantes

〈X2〉 = µ2 + σ2 ; 〈X3〉 = µ3 + 3µσ2 ; 〈X4〉 = µ4 + 6µ2σ2 + 3σ4 .

On verra en exercice de TD une autre maniere de calculer ces moments.

La conclusion importante est que pour la distribution gaussienne, tous les moments

existent et sont calculables explicitement.

Au vu de l’inegalite de Tchebychev (chapitre 7), l’existence de moments d’ordre quelconque implique

que la probabilite p(|X| > a) s’annule tres vite quand a croıt, plus vite que toute puissance inverse a−k ;ceci est en accord avec notre intuition : dans la distribution gaussienne les evenements tres eloignes de lamoyenne sont extremement rares.

5 Cette procedure de “deriver sous le signe somme”, c’est-a-dire d’intervertir la derivation par

rapport a α et l’integration est justifiee par la tres rapide convergence de l’integrale gaussienne.

J.-B. Z. 24 Juin 2011

Page 112: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

104 Methodes mathematiques pour physiciens 2. LP207

Fonction caracteristiqueIci aussi, il est utile de calculer la fonction caracteristique de la loi normale :

ϕGauss(u) =

∫ ∞

−∞dxeiuxf(x) =

∫ ∞

−∞

dx√2πσ2

eiuxe− (x−µ)2

2σ2

= eiuµ

∫ ∞

−∞

dx√2πσ2

eiu(x−µ)e− (x−µ)2

2σ2 = eiuµ

∫ ∞

−∞

dx′√2πσ2

e− x′2

2σ2 +iux′

= eiuµ

∫ ∞

−∞

dx′√2πσ2

e− (x′−iuσ2)2+u2σ4

2σ2 = eiuµe−12 u

2σ2

.

(3.5)

ou nous avons d’abord effectue le changement de variable familier x′ = x − µ, suivi d’un deuxieme :x′′ = x′ − iuσ2, translation par une quantite complexe que l’on peut justifier, et qui nous ramene une foisencore a l’integrale gaussienne. Au final

ϕGauss(u) = eiuµe−12 u

2σ2

(3.6)

une expression qui permet aussi de calculer aisement tous les moments de la distribution gaussienne, voirTD 8.

Importance des variables gaussiennes

Pour des raisons que l’on va voir, cette distribution joue un role particulierement im-

portant. La distribution gaussienne joue un role central aussi bien en probabilites et

statistiques qu’en physique. En probabilites et statistiques, cela tient en particulier au

theoreme de la limite centrale, que nous etudierons au chapitre suivant, selon lequel cette

distribution apparaıt comme limite de nombreux phenomenes aleatoires. En physique, elle

est au cœur de tres nombreuses considerations ; en physique statistique, en relation avec les

poids de Boltzmann : pour un systeme de particules sans interactions, tel un gaz parfait,

l’energie cinetique est E =∑

12mv2

i , et les vitesses considerees comme des v.a. obeissent a

une loi gaussienne dictee par le poids de Boltzmann e−E

kBT =∏

i e− mv2

i2kBT , (voir ci-dessous

§ 6.2) ; c’est le cas encore avec l’etude d’ensembles d’oscillateurs harmoniques, que l’on

rencontre en physique des solides et en theorie quantique des champs, etc etc.

4. Distribution de Poisson

Soit λ un parametre reel positif, et k une v.a. discrete a valeurs entieres ≥ 0. La distribution

de Poisson est definie par les probabilites

pPoissonk =

λk

k!e−λ

. (4.1)

Il convient d’abord de verifier que cette loi est bien normalisee, ce qui est immediat :∑∞

k=0 pk = e−λ∑∞

k=0λk

k! = 1.

24 Juin 2011 J.-B. Z.

Page 113: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 8. Distributions classiques 105

0 1 2 3 4 5 6 7 8 9 10

0.05

0.10

0.15

0.20

0.25

01234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950

0.02

0.04

0.06

0.08

Fig. 4: Distribution de Poisson pour λ = 2, 5 et λ = 20.

Moyenne, variance, moments

Une fois encore, on calcule aisement les moyenne et variance de la distribution :

〈X〉 =∞∑

k=0

kλk e−λ

k!= λ

〈X2〉 =∞∑

k=0

k2λk e−λ

k!= λ2 + λ

varX = 〈X2〉 − 〈X〉2 = λ

. (4.2)

Exercice : verifier ces formules.

Importance de la loi de Poisson

La loi de Poisson apparaıt dans de nombreux phenomenes naturels ou de la vie pratique,

chaque fois que des evenements independants se produisent a un taux constant λ (dans

l’espace et/ou le temps) : la loi pPoissonk donne alors la probabilite d’avoir k occurrences de

l’evenement. Ainsi supposons que N objets ont ete distribues au hasard pendant un temps

T donne (cela peut s’appliquer a des appels telephoniques, a des impacts de particules

emises par une source, a des gouttes de pluie ou autres projectiles supposes repartis a un

rythme constant, etc). On s’attend donc a en recevoir en moyenne λ = N/T par unite

de temps. La probabilite d’en recevoir k pendant un temps t ≤ T est donnee par la loi

de Poisson de parametre λt. Exemple : je recois en moyenne 20 e-mails par jour, repartis

grosso modo de facon uniforme dans le temps. Quelle est la probabilite que j’en recoive k

un certain jour ? Reponse : pPoissonk avec λ = 20. Que j’en recoive 9 en une demi-journee ?

Reponse : pPoisson9 avec λ′ = Nt/T = 10.

Cette apparition de la loi de Poisson tient au fait qu’elle decrit une certaine limite de

la loi binomiale, comme on le verra plus bas au § suivant.

J.-B. Z. 24 Juin 2011

Page 114: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

106 Methodes mathematiques pour physiciens 2. LP207

5. Limites de la loi binomiale

Limite gaussienne.

Comme le suggere le graphe de la distribution binomiale (voir Fig. 2), avec sa forme

en cloche tres proche de celle de la gaussienne, la distribution gaussienne est une bonne

approximation de la loi binomiale p(n)k dans la limite des n grands, et pour k ∼ np, avec

p et q = 1 − p finis, donc n ≫ 1, k ≫ 1, n − k ≫ 1. C’est donc la partie centrale de la

distribution que l’on explore la. On peut en effet utiliser alors la formule de Stirling que

nous admettrons

n! ≃√

2π exp(n logn− n+12

logn)(1 +O(n−1) , (5.1)

l’appliquer a chacun des 3 termes n!, k! et (n − k)! du coefficient Ckn et demontrer apres

un calcul non trivial que

p(n)k ≃ 1√

2πσ2exp(−(k − np)2

2σ2)(1 +O(n−1) (5.2)

avec σ =√np(1− p).

Une autre demonstration repose sur l’etude dans la limite consideree des fonctions caracteristiquescalculees plus haut, cf (2.3) et (3.6). Calculons le logarithme de ϕ(n)(u) pour u petit (qui seul nousinteresse si k ≫ 1)

lnϕ(n)(u) = n ln(1 + p(eiu − 1)) ≃ n

(p(eiu − 1)− 1

2p2(eiu − 1)2 + · · ·

)

= n

(p(iu− u2

2+ · · ·) +

1

2p2u2 +O(u3)

)

= n

(iup− u2

2p(1− p) + · · ·

)

et comparons le a celui de ϕGauss(u), cf (3.6)

lnϕGauss(u) = iuµ− 1

2u2σ2

Pour k ≫ 1, donc u≪ 1, on voit que les deux fonctions caracteristiques coıncident pourvu que d’une partles moyennes 〈k〉 = np et µ, de l’autre les variances var k = np(1− p) et σ2 coıncident.

En pratique, pour comparer la distribution (discrete) binomiale et la distribution (con-

tinue) gaussienne, il faut calculer numeriquement a l’aide de cette derniere la probabilite

que la variable x soit dans un intervalle de longueur 1 centre sur l’entier k

p′k = p(k − 12< x < k +

12) =

∫ k+ 12

k− 12

dxfGauss(n) = F (k +12)− F (k − 1

2)

et la comparer a p(n)k calcule avec la loi binomiale. Par exemple pour n = 50 et p = 0, 2,

on trouve que p′k differe de p(n)k d’au plus 8% dans l’intervalle 6 ≤ k ≤ 16, voir la figure

suivante.

24 Juin 2011 J.-B. Z.

Page 115: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 8. Distributions classiques 107

æ æ ææ

æ

æ

æ

æ

æ

ææ

æ

æ

æ

æ

æ

æ

ææ æà à à

à

à

à

à

à

à

à

à

à

à

à

à

à

à

àà à

5 10 15 200.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Fig. 5: Comparaison de la distribution binomiale (n = 50, p = 0, 2 : petits disques) et de

la gaussienne (µ = 10, σ =√np(1− p) : petits carres) integree dans chaque intervalle de

longueur 1.

Limite poissonnienne

Il peut etre aussi interessant d’etudier la limite de la loi binomiale quand p est tres petit et

np (la valeur moyenne de k) est finie, tandis que n≫ 1. Il faut bien comprendre que l’on

explore maintenant le bord de la distribution binomiale, loin de son maximum. Poisson a

montre que l’on trouve alors la distribution qui porte son nom.

p(n)k

∣∣∣n≫1

≃ pPoissonk =

λk

k!e−λ (5.3)

avec λ = np supposee finie tandis que n→∞.

Demonstration de cette limite :

p(n)k

=n!

k!(n− k)!pk(1− p)n−k =

n(n− 1) · · · (n− k + 1)

k!

(np)k

nk

(1− np

n

)n−k

=n(n− 1) · · · (n− (k − 1))

k!

λk

nk(1− λ

n)n−k

=λk

k!

(1− λ

n

)n

×(

1− 1

n

)(1− 2

n

)· · ·(

1− k − 1

n

)(1− λ

n

)−k

≃ λk

k!e−λ

(1 +O(n−1)

)

(5.4)

en se rappelant que limn→∞(1− λ

n

)n= e−λ.

A nouveau une petite experience numerique est utile. Pour n = 50, p = 0, 02, on voit

que la distribution de Poisson pour λ = np = 1 approxime a moins de 2% la binomiale

pour 0 ≤ k ≤ 3, comme le montre cette table

k : 0 1 2 3 4 5

Binomiale p(50)k : 0,36417 0,37160 0,18580 0,06067 0,01454 0,002731

Poisson pPoissonk

∣∣λ=1

: 0,36788 0,36788 0,18394 0,06131 0,01533 0,003066

J.-B. Z. 24 Juin 2011

Page 116: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

108 Methodes mathematiques pour physiciens 2. LP207

Recapitulons. Pour n tres grand et p finie, la loi binomiale est bien approximee par

une gaussienne pour les valeurs de k les plus probables, k ≈ pn ∼ n : les sommets des

deux cloches binomiale et gaussienne se superposent bien. Pour p tres petit et 〈k〉 = pn

fini, les evenements a k ≪ n (le bord gauche de la cloche binomiale) sont bien decrits par

la loi de Poisson.

6. Quelques exemples concrets

6.1. L’aiguille de Buffon

Voici le probleme pose par Buffon : on laisse tomber une aiguille sur un parquet, quelle

est la probabilite que l’aiguille chevauche deux lames du parquet ?

De facon plus precise, soit un ensemble de droites paralleles a l’axe des x, espacees

d’une distance ℓ. Quelle est la probabilite pour un segment de longueur b uniformement

distribue en position et en orientation d’etre secant a une de ces droites ?

Dans la bande (la lame du parquet) ou se trouve le milieu du segment, soit y la

distance de ce milieu au bord inferieur. Soit θ l’angle qu’il fait avec le bord, 0 ≤ θ < π.

L’hypothese de distribution uniforme en position et angle signifie que la densite

de probabilite autour du point (y, θ) est f(y, θ) = 1ℓ

1π qui est bien normalisee puisque

∫dy dθf(y, θ) =

∫ ℓ

0dyℓ

∫ π

0dθπ

= 1.

La condition que le segment recoupe un bord est y < 12b sin θ (bord inferieur) ou

ℓ− y < 12b sin θ (bord superieur). La probabilite pour le segment de ne pas etre secant est

donc

PNC =∫ π

0

dθπ

∫ ℓ− 12 b sin θ

12 b sin θ

dyℓ

=∫ π

0

dθπ

(1− b

ℓsin θ)

= 1− 2bπℓ

.

La probabilite de croisement est donc

PC =2bπℓ

.

6.2. Distribution de Maxwell des vitesses dans un gaz

Dans un gaz (parfait) a l’equilibre, soit f(vx, vy, vz) la densite de probabilite des vitesses

d’une molecule. Montrons que des considerations de symetrie et d’independance conduisent

24 Juin 2011 J.-B. Z.

Page 117: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 8. Distributions classiques 109

a l’expression de f . Supposons en effet que les v.a. vx, vy et vz sont independantes, une

hypothese qu’il faudrait justifier. . . . La fonction f est donc factorisee, cf chap 7, § 1.3, et

le gaz etant isotrope, les trois directions d’espace jouent le meme role et les trois fonctions

sont identiques

f(vx, vy, vz) = g(vx)g(vy)g(vz) .

Par ailleurs, par invariance par rotation, la fonction f(vx, vy, vz) doit n’etre fonction que

de ~v2 = v2x + v2

y + v2z . On cherche donc une fonction

f(vx, vy, vz) = h(v2x + v2

y + v2z) = g(vx)g(vy)g(vz) .

On montre que seule la fonction exponentielle a cette propriete:

f(vx, vy, vz) = Ae−α(v2x+v2

y+v2z)

et c’est donc une distribution gaussienne ! La normalisation de f fixe A =(

απ

) 32 et

le coefficient α est identifie avec 12mβ, β = (kBT )−1, de telle sorte qu’apparaıt dans

l’exponentielle β × 12m~v

2 = 1kBT× energie cinetique de la molecule, cf fin du chap 7

f(vx, vy, vz) =(

m

2πkBT

) 32

e−m(v2

x+v2y+v2

z)

2kBT (6.1)

Enfin il peut etre utile d’exprimer cette loi en termes de la seule variable v =√~v2. Pour

cela on effectue un changement de variable des coordonnees (vx, vy, vz) 7→ (v, θ, φ), cf fin

du chap 7, on integre sur les angles θ et φ dont la densite f ne depend pas et on trouve

finalement

f(v) = 4π(

m

2πkBT

) 32

v2e− mv2

2kBT , (6.2)

c’est la distribution de Maxwell-Boltzmann des vitesses d’un gaz, que l’on etudiera au

TP 3. Exercice : utiliser le “truc” de la derivation sous le signe somme pour calculer 〈v2〉et montrer que 〈v2〉 = 3〈v2

x〉 ou la moyenne de v2x est calculee avec la distribution (6.1).

Cela n’etait-il pas attendu ?

J.-B. Z. 24 Juin 2011

Page 118: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

110 Methodes mathematiques pour physiciens 2. LP207

6.3. Desintegrations radioactives

On s’interesse ici a la desintegration de noyaux d’un isotope X → X′. On decrit en general le phenomenepar une loi “empirique” : le nombre de desintegrations par unite de temps est proportionnel au nombreN(t) de noyaux X presents a l’instant t, avec un taux de desintegration constant λ, caracteristique dunoyau etudie X et de son mode de desintegration X → X′. Pendant le temps dt, le nombre de noyaux sedesintegrant selon ce mode est

|dN | = λNdt = −dN . (6.3)

Autrement dit, la fonction N(t) satisfait l’equation differentielle N(t) = −λN(t). En l’integrant, on trouve

N(t) = N(0)e−λt , (6.4)

la quantite de l’isotope considere decroıt exponentiellement. On definit la demi-vie, notee τ , par le tempsau bout duquel le nombre N a decru par un facteur 2. On a donc N(τ) = N(0)/2, ce qui conduit a

τ =ln 2

λN(t) = N(0) e−t ln 2/τ = N(0)2−t/τ . (6.5)

Le nombre de noyaux de l’isotope aura decru d’un facteur 1000 au bout d’un temps ln 1000ln 2

τ ≈ 10 τ (se

rappeler que 210 ≈ 103).Par exemple, pour l’isotope naturel 238U de l’Uranium, qui se desintegre en Thorium selon

23892U

α−→ 23490Th

en emettant un noyau d’Helium (particule α), la demi-vie est τ = 4, 5 Gans, (1 “Gan”= 1 milliardd’annees !) donc le nombre N aura decru d’un facteur 1000 au bout d’un temps t = 45 Gans, soit trois foisl’age actuel de l’Univers. . .En revanche, pour les isotopes 131I et 137Cs, les demi-vies sont respectivementde 8j et 30 ans. . .

Le probleme de desintegration de noyaux atomiques peut et doit en fait etre traite par une approcheprobabiliste, puisque c’est bien la le fond de la question : un noyau (comme tout systeme individuel denature quantique) a une probabilite de transition de tel ou tel etat vers tel autre. Le traitement quia precede s’est applique implicitement a une vaste population de noyaux (dont le nombre a ete traitecomme une variable continue, et non comme un entier discret), et a concerne en fait le nombre moyen(la valeur moyenne ou esperance au sens probabiliste) de la v.a. nombre total de noyaux de l’isotope X.L’equation (6.3) se redit en termes probabilistes comme suit : la probabilite d’un noyau donne de subir ladesintegration etudiee pendant le temps dt est P(X → X′; dt) = λdt. Notons pN (t) la probabilite d’avoirN noyaux dans l’etat initial (radioactif) X au temps t. Les desintegrations des differents noyaux etantsupposees des evenements independants, on a

pN (t+ dt) = (1− λdt)N(pN (t) + λ(N + 1)pN+1(t)dt

)+ O(dt2) ,

somme des probabilites des evenements exclusifs suivants : aucune desintegration des N noyaux (prob-abilite (1 − λdt) pour chacun, factorisation pour l’ensemble puisque evenements independants) + unedesintegration d’un des N + 1 noyaux avec la probabilite λdt fois la probabilite que les N autres

restent inchanges + des desintegrations multiples d’ordre plus eleve en dt. Ecrivant pN (t + dt) =

pN (t) + dt ddtpN (t) + O(dt2) et ne gardant que les termes d’ordre dt, on a donc

d

dtpN (t) = λ

((N + 1)pN+1(t)−NpN (t)

)(6.6)

On se donne (avec probabilite 1) la valeur initiale N0 au temps 0, pN (t = 0) = δNN0 . On resout l’equation(6.6) en considerant la fonction generatrice des pN (t) (voir chap. 7, § 1.2) : soit

φ(x, t) =

N0∑

N=0

xNpN (t) . (6.7)

24 Juin 2011 J.-B. Z.

Page 119: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 8. Distributions classiques 111

Calculons les derivees partielles de φ(x, t)

∂tφ(x, t) =

N0∑

N=0

xN d

dtpN (t) ,

∂xφ(x, t) =

N0∑

N=1

NxN−1pN (t) =

N0−1∑

N=0

(N + 1)xNpN+1(t) =

N0∑

N=0

(N + 1)xNpN+1(t)

↑ car pN0+1(t) = 0 !

x∂

∂xφ(x, t) =

N0∑

N=0

NxNpN (t) .

(6.8)

On a donc fait apparaıtre les trois termes de l’equation (6.6), ce qui conduit donc a une equation auxderivees partielles pour φ

∂tφ(x, t) = λ(1− x)

∂xφ(x, t) . (6.9)

La methode systematique de resolution fait appel a la “transformation de Laplace”, qui sera etudieeen L3. Contentons-nous d’observer que toute fonction de la forme φ(x, t) = G((1 − x)ψ(t)), avec G

une fonction arbitraire, est solution de (6.9) a condition que ψ(t) = −λψ(t), soit ψ(t) = ae−λt, a uneconstante quelconque. La fonction jusque la arbitraire G est fixee par la condition initiale φ(x, 0) = xN0 =G(a(1−x)), soit G(ax) = (1−x)N0 , et finalement la solution unique de (6.9) completee par cette conditioninitiale est

φ(x, t) =(1− (1− x)e−λt

)N0=((1− e−λt) + xe−λt

)N0

=

N0∑

N=0

(N0

N

)xNe−Nλt(1− e−λt)N0−N

(6.10)

qui permet d’identifier

pN (t) =(N0

N

)e−Nλt(1− e−λt)N0−N .

On voit apparaıtre la loi binomiale pour une probabilite p(t) = e−λt ! On peut alors calculer l’esperancede la variable aleatoire N

〈N〉(t) =

N0∑

N=0

NpN (t) =∂φ(x, t)

∂x

∣∣∣x=1

= N0e−λt .

On retrouve bien le resultat obtenu plus haut a partir de l’equation differentielle (6.3), qui s’appliquaitdonc en fait a 〈N〉. On pourrait aussi etudier maintenant ce que sont les fluctuations de la v.a. N autourde cette valeur moyenne.

J.-B. Z. 24 Juin 2011

Page 120: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

112 Methodes mathematiques pour physiciens 2. LP207

24 Juin 2011 J.-B. Z.

Page 121: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 9. Theoremes asymptotiques 113

Chapitre 9. Theoremes asymptotiques

Dans ce chapitre nous allons enoncer, demontrer et illustrer deux theoremes asymp-

totiques, la loi des grands nombres et le theoreme de la limite centrale.

1. Preambule

1.1. Convergence en probabilite

Considerons d’abord une suite infinie Xn de v.a. reelles, n = 1, 2, · · ·. On dira que la suite

converge en probabilite vers une limite ℓ si

∀h > 0 p(|Xn − ℓ| > h) → 0 quand n→∞. (1.1)

Autrement dit, (cf le cours LP206), ∀ǫ > 0, ∃N : ∀n > N p(|Xn − ℓ| > h) < ǫ .

Plus generalement on dira que la suite de v.a. reelles Xn converge en probabilite vers une

v.a. reelle Y si

∀h > 0 p(|Xn − Y | > h) → 0 quand n→∞. (1.2)

1.2. Moyenne arithmetique de N v.a.

Soient X1, X2, · · · , XN N v.a. reelles independantes et distribuees selon la meme loi de

probabilite. (Elles ont donc en particulier meme valeur moyenne 〈Xi〉 = m et meme

variance varXi = σ2, si cette moyenne et cette variance existent). Ce peut etre par

exemple le resultat de N lancers successifs d’un meme de (qu’il soit “honnete” ou pipe), la

taille de N individus choisis au hasard dans une population homogene, N mesures repetees

d’une quantite physique entachees d’erreurs, etc. On definit alors une nouvelle v.a., leur

moyenne arithmetique,

Y =1N

(X1 +X2 + · · ·+XN ) . (1.3)

Bien distinguer cette moyenne arithmetique Y , qui est une v.a., des Xi de leur valeur

moyenne 〈Xi〉, qui est un nombre reel.

On se propose d’etudier la loi que suit Y dans la limite ou N est grand.

De facon qualitative (nous allons preciser les hypotheses et demontrer precisement les

choses ci-dessous)

– la loi des grands nombres nous dit que la v.a. Y converge en probabilite quand N →∞vers la valeur commune des 〈Xi〉 ;

– le theoreme de la limite centrale affirme que la v.a. Y converge en probabilite vers une

v.a. normale (gaussienne) de moyenne 〈X〉 et de variance 1N var(Xi) dans la limite N →∞.

J.-B. Z. 24 Juin 2011

Page 122: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

114 Methodes mathematiques pour physiciens 2. LP207

2. Loi des grands nombres

2.1. Le theoreme et sa preuve

Theoreme : Soient X1, X2, · · ·XN une suite de v.a. independantes et de meme loi. On

suppose que la valeur moyenne m et la variance σ2 de cette loi sont bien definies6. Alors la

moyenne arithmetique Y de (1.3) converge en probabilite vers sa valeur moyenne m quand

N →∞.

Preuve : Par l’hypothese que les Xi sont independantes et ont meme loi, donc meme

valeur moyenne (ou esperance) 〈X〉, on a d’abord

〈Y 〉 =1N

N∑

i=1

〈Xi〉 = 〈X〉 = m .

Calculons alors la variance de Y

varY = 〈(Y −m)2〉 =⟨( 1

N

N∑

i=1

(Xi −m))2⟩

=1N2

⟨∑

i

(Xi −m)2⟩

+2N2

i<j

〈(Xi −m)(Xj −m)〉

=1N2

⟨∑

i

(Xi −m)2⟩

+2N2

i<j

〈(Xi −m)〉〈(Xj −m)〉 (independance)

=1N2

⟨∑

i

(Xi −m)2⟩

=1N2

Nσ2 puisque 〈(Xi −m)〉 = 0

=1Nσ2 =

1N

varX

(2.1)

On est maintenant en mesure d’appliquer l’inegalite de Tchebychev (equ. (2.8) du chap 7,

avec k = 2) a la v.a. Y −m

p(|Y −m| > h) ≤ 〈(Y −m)2〉h2

=σ2

Nh2. (2.2)

Quel que soit h > 0, la probabilite p(|Y −m| > h) tend vers zero quand N →∞, CQFD.

6 On peut en fait se passer de l’hypothese d’existence de la variance, mais la preuve est alors

plus compliquee.

24 Juin 2011 J.-B. Z.

Page 123: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 9. Theoremes asymptotiques 115

2.2. Deux illustrations

Evaluation empirique de la probabilite ou de la moyenne 〈X〉La loi des grands nombres nous permet de justifier a posteriori la definition “intuitive”

d’une probabilite d’un evenement comme une frequence d’occurrence de cet evenement.

Soit A un evenement aleatoire se realisant avec la probabilite p, associons lui une v.a. X

prenant la valeur X = 1 si A se realise, X = 0 sinon. Donc p(X = 1) = p, p(X = 0) = 1−p,〈X〉 = 1 · p+ 0 · (1− p) = p. Effectuons un grand nombre d’epreuves Xi, i = 1, · · · , N et

considerons leur moyenne arithmetique Y = 1N (X1 + X2 + · · · + XN ). Cette v.a. est la

frequence de realisation de A dans nos N epreuves. La loi des grands nombres nous dit que

Y tend en probabilite vers 〈X〉 = p et fournit donc une estimation de cette probabilite.

C’est bien de cette facon que nous nous assurons qu’un de est “honnete” : chacun

des 6 nombres vient avec une frequence ≈ 16

dans une serie d’un grand nombre de lancers.

La meme methode permet d’estimer la (valeur) moyenne d’une v.a. X , en “mesurant” la

moyenne (arithmetique) d’un echantillon de taille N suffisamment grande.

Les sondages d’opinion procedent de maniere analogue. Pour savoir quel pourcentage

de la population aime les savonnettes Truc, ou a une opinion favorable de M. X, etc, c’est-

a-dire quelle est la probabilite qu’un individu tire au hasard ait telle ou telle opinion, on

prend un echantillon de taille N et on mesure l’opinion moyenne de cet echantillon. Noter

que (2.1) nous enseigne que l’ecart-type de Y (c’est-a-dire la largeur de la distribution des

Y ) decroıt comme N− 12 : la precision d’un sondage est donc d’ordre N− 1

2 , c’est-a-dire que

pour gagner un facteur 10 sur l’incertitude, il faut multiplier la taille de l’echantillon par

100 !

Grace a l’inegalite de Tchebychev (2.2), on peut meme estimer la taille de l’echantillon

necessaire pour obtenir une precision donnee. Quelle doit etre cette taille N (ou le nombre

d’epreuves ou de mesures dans les exemples precedents) pour que la probabilite que Y

fournisse la valeur de m = 〈X〉 avec une erreur relative de moins de 1% soit de 95%,

autrement dit pour que p(|Y −m| > 0,01m) < 0,05 ? Il suffit que σ2

Nh2 = 104

N

(σm

)2< 0,05,

soit N > 200 000(

σm

)2. On a deja note que la quantite “sans dimension” σm

est la bonne

facon de mesurer l’etalement de la distribution d’une v.a. On voit que c’est elle encore qui

donne la taille de l’echantillon requise pour atteindre une precision donnee.

J.-B. Z. 24 Juin 2011

Page 124: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

116 Methodes mathematiques pour physiciens 2. LP207

Evaluation Monte-Carlo d’une integrale

Supposons les v.a. X1, · · · , XN uniformement distribuees entre 0 et 1, (donc avec une

densite de probabilite f(x) = 1). Soit g(x) une fonction (de carre integrable), g(Xi) est

une nouvelle v.a. dont la valeur moyenne et la variance se calculent aisement

mg = 〈g(Xi)〉 =∫ 1

0

g(x)dx

σ2g =

∫ 1

0

(g(x)−mg)2dx .

La loi des grands nombres nous dit que la moyenne arithmetique des g(Xi)

1N

(g(X1) + · · ·+ g(XN))

converge en probabilite vers la valeur moyenne mg = 〈g(X)〉 =∫ 1

0g(x)dx et que l’ecart-

type de la difference est σg = σ/N12 . Cela signifie qu’on a une approximation

1N

(g(x1) + · · ·+ g(xN)) ≈∫ 1

0

g(x)dx (2.3)

dans laquelle les xi sont des valeurs tirees de tables de nombres aleatoires uniformement

distribues entre 0 et 1 ; la precision de cette approximation se comporte en N− 12 .

Cette methode de calcul est appelee methode de Monte-Carlo. La convergence en

N− 12 n’est pas tres rapide et necessite beaucoup de points. La methode prend toute son

importance pour des integrales multiples et est tres utilisee. On peut lui apporter toutes

sortes d’ameliorations et de raffinements. . .

3. Theoreme de la limite centrale

On a vu au chapitre precedent que la limite quand N ≫ 1 d’une loi binomiale au voisi-

nage de son maximum est une loi normale. Or cette loi binomiale decrit la distribution

des evenements quand on repete N fois une epreuve dont la probabilite de succes est p.

Le theoreme de la limite centrale, encore appele “theoreme central limite”, generalise ce

resultat.

24 Juin 2011 J.-B. Z.

Page 125: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 9. Theoremes asymptotiques 117

3.1. Enonce et remarques

Theoreme : Soient N v.a. X1, · · · , XN independantes et de meme loi, dont la valeur

moyenne m et la variance σ2 existent (c’est-a-dire sont finies). Leur moyenne arithmetique

Y , definie en (1.3), est une v.a. dont la loi f tend quand N →∞ vers une loi normale de

moyenne m et de variance σ2/N

f(y) ≈ f(N)G (y) =

1√2π σ√

N

e

− (y−m)2

2(

σ√N

)2. (3.1)

Les hypotheses excluent donc une loi lorentzienne f(x) = aπ(x2+a2) dont la valeur

moyenne et la variance n’existent pas (cf TP).

Il faut d’abord noter que la fonction gaussienne f (N)G qui apparaıt au second membre

de (3.1) est de plus en plus “piquee” quand N → ∞ : en effet elle est bien normalisee,∫∞−∞ dyf

(N)G (y) = 1, sa variance est de plus en plus petite σ2

N = σ2

N et son maximum de

plus en plus grand f(N)G (m) ∝

√N . Le graphe de f (N)

G est donc un pic de plus en plus

haut et de plus en plus etroit au dessus de la valeur y = m, mais toujours d’aire 1. A la

limite N → ∞ la fonction f(N)G est infinie en y = m, nulle partout ailleurs, mais on voit

que son integrale avec toute fonction reguliere g de y donne g(m)

∫ ∞

−∞dyf

(N)G (y) g(y) ≃ g(m)

∫ ∞

−∞dyf

(N)G (y) = g(m) , (3.2)

l’approximation devenant exacte dans la limite N → ∞. Il ne s’agit plus d’une fonction,

mais d’une distribution, et on appelle distribution delta de Dirac δ(x −m) (ou “fonction

delta”, par abus de langage) cette limite. On rencontrera ces distributions et en particulier

la “fonction” δ dans le cours de physique quantique de L3.

On voit alors que le theoreme de la limite centrale implique la loi des grands nombres :

la loi de la moyenne Y est de plus en plus concentree en Y = m, autrement dit la v.a. Y

converge en probabilite vers la valeur moyenne m des v.a. Xi.

3.2. Elements de preuve du theoreme

La methode de preuve est analogue a celle suivie pour la limite de la loi binomiale au § 5.1 du chap.8. Elle repose sur la comparaison des fonctions caracteristiques de la v.a. Y et de la loi normale, quandN →∞ . Puisque Y est la somme de N v.a. independantes 1

NXi de meme loi, sa fonction caracteristique

vautϕY (u) = (ϕX/N (u))N .

J.-B. Z. 24 Juin 2011

Page 126: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

118 Methodes mathematiques pour physiciens 2. LP207

On sait que

ϕX/N (u) =⟨e

iuXN

⟩= 1 +

iu

N〈X〉 − u2

2N2〈X2〉+O(

u3

N3)

= 1 + imu

N− u2

2N2(σ2 +m2) +O(

u3

N3)

et donc pour le logarithme de la fonction caracteristique de Y

lnϕY (u) = N lnϕX/N (u) = N ln

(1 + im

u

N− u2

2N2(σ2 +m2) +O(

u3

N3)

)

= N(im

u

N− u2

2N2σ2)

+O(u3

N3)

= imu− u2

2Nσ2 +O(

u3

N2)

= lnϕ(N)G +O(

u3

N2)

ou ϕ(N)G est la fonction caracteristique de la loi normale de moyenne m et de variance σ2/N . Ce calcul

montre que dans la limite N → ∞, la fonction caracteristique de la moyenne arithmetique Y des N v.a.Xi tend vers la fonction caracteristique de la loi normale attendue. Nous admettrons que cela suffit ademontrer la convergence de la loi de Y vers la loi normale, c’est-a-dire le theoreme de la limite centrale.

3.3. Illustrations

Le resultat du theoreme de la limite centrale est remarquable : quelle que soit la loi des

v.a. X1, · · · , XN , la loi limite de leur moyenne (1.3) est une loi normale ! La loi normale a

ainsi un caractere d’universalite. Testons numeriquement ce resultat sur des lois simples :

les figures qui suivent presentent la densite de probabilite de la v.a. Y pour N v.a. X

obeissant a une loi simple f , soit la loi uniforme, soit la loi “triangle” (cf. TD 7)

f(x) =

4x si 0 ≤ x ≤ 1

24(1− x) si 1

2 ≤ x ≤ 10 sinon

(3.3)

dont la moyenne est 12 et la variance 1

24 . Pour chacune de ces lois, nous calculons

numeriquement la densite de Y donnee par l’expression que nous admettrons

f(y) = N

∫dx1 · · ·dxN−1f(x1)f(x2) · · ·f(xN−1)f(Ny − x1 − · · · − xN−1)

A titre d’exercice, effectuons ce calcul de f pour N = 2 v.a. obeissant a une loi uniforme entre 0 et 1

f(y) = 2

∫ 1

0

dx1f(x1)f(2y − x1) .

La premiere fonction f(x1) est non nulle (et egale a 1) sissi 0 ≤ x1 ≤ 1, la deuxieme f(2y − x1) sissi0 ≤ 2y − x1 ≤ 1. Il faut prendre l’intersection des deux domaines 0 ≤ x1 ≤ 1 et 2y − 1 ≤ x1 ≤ 2y, ce qui

differe selon que y < 12

ou y > 12. Si 0 ≤ y ≤ 1

2, 2y − 1 ≤ 0 mais 2y ≤ 1, donc f(y) = 2

∫ 2y

0dx = 4y,

tandis que si 12≤ y ≤ 1, 2y ≥ 1 mais 2y− 1 ≥ 0 donc f(y) = 2

∫ 1

2y−1= 4(1− y). On constate que la loi f

obtenue n’est autre que la “loi triangle” de (3.3), cf figure de gauche de la Fig. 1.

24 Juin 2011 J.-B. Z.

Page 127: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 9. Theoremes asymptotiques 119

0.2 0.4 0.6 0.8 1.0

0.5

1.0

1.5

2.0

0.2 0.4 0.6 0.8 1.0

0.5

1.0

1.5

2.0

0.2 0.4 0.6 0.8 1.0

0.5

1.0

1.5

2.0

2.5

3.0

Fig. 1: Distribution f(y) de la moyenne de N v.a. de loi uniforme, et comparaison avec la

loi normale de meme moyenne m = 12

et de variance 112N

(en ligne brisee). SuccessivementN = 2, 3, 5.

0.2 0.4 0.6 0.8 1.0

0.5

1.0

1.5

2.0

0.2 0.4 0.6 0.8 1.0

0.5

1.0

1.5

2.0

2.5

0.2 0.4 0.6 0.8 1.0

0.5

1.0

1.5

2.0

2.5

3.0

Fig. 2: Distribution f(y) de la moyenne de N v.a. de loi “triangle” (3.3), et compara-

ison avec la loi normale de meme moyenne m = 12

et de variance 124N

(en ligne brisee).Successivement N = 1, 2, 3.

-3 -2 -1 1 2 3

0.5

1.0

1.5

2.0

Fig. 3: Graphe de la fonction erfc(x/√

2). On y voit que erfc(1, 96/√

2) ≃ 0, 05 (plusexactement=0,0499958 !)

3.4. Evaluations de l’erreur

Reexprimons le theoreme en termes de la v.a.

Z =Y −m

σ

N12

=∑Xi −Nm

σN12

Elle est centree 〈Z〉 = 0 et le theoreme nous dit qu’elle obeit asymptotiquement (quand

J.-B. Z. 24 Juin 2011

Page 128: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

120 Methodes mathematiques pour physiciens 2. LP207

N →∞) a une “loi normale centree normalisee” (de variance 1). On en deduit que

p(|Z| > ζ) → 2√2π

∫ ∞

ζ

e−s22 ds (3.4)

ou de facon equivalente, dans les variables de depart,

p(|Y −m| > ξ) = p(| 1N

∑(Xi −m)| > ξ) → 2√

∫ ∞

ξN12 /σ

e−s22 ds (3.5)

En raison de leur importance en probabilites et en statistiques, on a donne un nom aux

integrales gaussiennes incompletes

erf(x) =2√π

∫ x

0

dt e−t2

erfc(x) =2√π

∫ ∞

x

dt e−t2 = 1− erf(x) .(3.6)

Ce sont respectivement la fonction d’erreur erf et la fonction d’erreur complementaire erfc.

Le graphe de la seconde est represente sur la figure 3 et leurs valeurs sont tabulees dans

tous les livres de probabilites. On peut donc recrire (3.4) et (3.5)

p(|Z| > ζ) → erfc(ζ√2

)ou p(|Y −m| > ξ) → erfc

(ξN

12 /σ√2

). (3.7)

Avec (3.4) et (3.5) on a retrouve la loi des grands nombres : la somme∑

(Xi −m)

est approximativement normale et centree avec un ecart-type N− 12 σ. Mais les expres-

sions (3.4)-(3.5) sont plus precises et permettent d’affiner l’estimation faite au paragraphe

precedent de la taille d’un echantillon necessaire pour atteindre une precision donnee.

Reprenons l’exemple du § 2.2 : quel N permet d’obtenir p(|Y − m| > 0,01m) < 0,05 ?

D’apres (3.7) il faut chercher N tel que erfc(

N12 m

100√

)< 0,05. On lit dans les tables de erfc

que N12 ≈ 200 σ

msoit N ≈ 40 000( σ

m)2. On a gagne un facteur 5 par rapport a l’estimation

plus grossiere venant de l’inegalite de Tchebychev !

Remarques finales

1. Comme note plus haut, le theoreme de la limite centrale ne s’applique pas a des “lois

larges” comme la loi lorentzienne, dont la moyenne ou la variance n’existent pas.

2. Le fait que des lois normales apparaissent empiriquement (et approximativement) dans

de tres nombreux phenomenes naturels, taille ou poids d’individus dans une certaine popu-

lation, erreurs dans les mesures successives d’une meme grandeur, etc, pourrait trouver son

origine dans le fait que le phenomene en question resulte d’un grand nombre de variables

aleatoires independantes et de meme loi. Mais ceci explique-t-il vraiment cela ? . . .

24 Juin 2011 J.-B. Z.

Page 129: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 9. Theoremes asymptotiques 121

4. Marche aleatoire.

Une large classe de phenomenes physiques est modelisee par le probleme de la marche

au hasard, ou les pas successifs d’un marcheur sont des v.a. independantes, tirees selon

une certaine loi. On s’interesse au comportement asymptotique de telles marches, dans

la limite d’un grand nombre de pas elementaires. C’est par exemple le cas du celebre

mouvement brownien7 qu’accomplissent des particules en suspension dans un fluide, sous

l’effet des chocs avec les molecules de ce fluide : voir le site

http://www.phy.ntnu.edu.tw/ntnujava/index.php?topic=24

pour une tres jolie illustration du phenomene. On va d’abord s’interesser a une version

simple du probleme, ou la marche se fait sur une grille, un reseau regulier.

r

r0

e1

e2

Fig. 4: Marche aleatoire sur un reseau carre

4.1. Marche au hasard sur un reseau

On considere un reseau carre de maille a, de vecteurs de base ~e1 et ~e2 (de norme a), voir

figure 48. Chaque site du reseau a 4 voisins. On considere un mobile (“marcheur”) qui

a chaque instant tn = nτ , saute du site ou il se trouve vers un des 4 sites voisins. On

suppose ce saut aleatoire et equidistribue : la probabilite de sauter sur n’importe lequel

des sites adjacents est egale a 1/4. Les sauts successifs sont supposes independants.

7 du nom du botaniste Robert Brown qui a le premier observe le phenomene sous le microscope8 Toute la discussion qui suit pourrait etre menee en dimension arbitraire, sur un reseau “hy-

percubique” de dimension d. Nous nous restreignons a d = 2 dimensions pour la commodite de

l’exposition et des dessins.

J.-B. Z. 24 Juin 2011

Page 130: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

122 Methodes mathematiques pour physiciens 2. LP207

Soit P (~r, tn|~r0, t0) la probabilite conditionnelle que le marcheur se trouve au point ~r

du reseau a l’instant tn, sachant qu’il etait en ~r0 a l’instant t0. On va s’interesser a la

determination de cette probabilite et a ses proprietes, en particulier dans la limite n≫ 1.

On observe d’abord que cette probabilite satisfait une condition initiale

P (~r, t0|~r0, t0) = δ~r,~r0 (4.1)

ou δ~r,~r0 = 1 si ~r = ~r0, = 0 sinon, c’est un “symbole de Kronecker” (cf chap. 1) a deux

dimensions : δ~r,~r0 = δx,x0δy,y0 en termes des composantes x et y des vecteurs ~r et ~r0. La

probabilite P satisfait aussi une condition de normalisation

~r

P (~r, tn|~r0, t0) = 1 (4.2)

ou l’on somme sur tous les sites du reseau, condition qui exprime qu’a l’instant tn, le

marcheur se trouve bien quelque part !

Moins trivial est le fait que P satisfait aussi une relation de recurrence entre les temps

tn et tn+1, puisque le marcheur ne peut etre a tn+1 en ~r que s’il etait au temps tn en un

des points voisins sur le reseau, ~r ± ~ej , j = 1, 2. Comme les evenements correspondants

(etre en ~r ± ~ej a l’instant tn) sont exclusifs, leurs probabilites s’ajoutent et on a donc

P (~r, tn+1|~r0, t0) =14

~r′=~r±~ej

P (~r′, tn|~r0, t0) (4.3)

(Cette relation rappelle et generalise la relation de recurrence du triangle de Pascal, qui

correspondrait a un reseau a une dimension.) Cette relation de recurrence, completee par

la condition initiale, suffit en principe a determiner completement la probabilite P .

Notons encore que le probleme etant invariant par translation d’espace et de temps,

la fonction P (~r, tn|~r0, t0) ne depend que des differences ~r−~r0 et tn− t0 = nτ , et que pour

des raisons dimensionnelles, elle ne peut dependre que des rapports 1a (~r−~r0) et tn−t0

τ = n

P (~r, tn|~r0, t0) = F (~r − ~r0a

,tn − t0τ

) . (4.4)

24 Juin 2011 J.-B. Z.

Page 131: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 9. Theoremes asymptotiques 123

4.2. Processus stochastiques, propriete de Markov

La marche au hasard sur un reseau que nous venons de definir est un exemple de processus aleatoire ouprocessus stochastique, c’est-a-dire d’un systeme dont l’evolution temporelle est probabiliste, au contraired’un systeme deterministe. La marche au hasard a de plus la propriete de Markov, ce qui signifie quel’evolution au temps t ne depend pas de l’histoire passee du systeme. (Ce ne serait pas le cas si onimposait que le marcheur ne recroise jamais sa trajectoire passee.)

Dans notre probleme de marche au hasard sur le reseau, on a aussi la propriete que si t′ > t > t0,

P (~r′, t′|~r0, t0) =∑

~r

P (~r′, t′|~r, t)P (~r, t|~r0, t0) (4.5)

qui exprime qu’entre les instants t0 et t′ le marcheur passe en un temps intermediaire t par un point ~r,que les evenements correspondant a des ~r differents sont exclusifs et ont des probabilites qui s’ajoutent, etque les evolutions entre les temps t0 et t et entre t et t′ etant independantes (processus de Markov), leursprobabilites se multiplient.

4.3. Limite continue et equation de la chaleur

Si on soustrait aux deux membres de l’equation (4.3) la quantite P (~r, tn|~r0, t0), elle peut

etre recrite sous la forme suivante :

P (~r, tn+1|~r0, t0)−P (~r, tn|~r0, t0) =14

~r′=~r±~ej

(P (~r′, tn|~r0, t0)− P (~r, tn|~r0, t0))

=14

j=1,2

(P (~r + ~ej , tn|~r0, t0) + P (~r − ~ej , tn|~r0, t0)− 2P (~r, tn|~r0, t0)) .

(4.6)

Supposons maintenant qu’on laisse les increments de temps et d’espace τ et a tendre vers

zero. Dans cette limite, les coordonnees de temps et d’espace, qui etaient discretisees, ten-

dent vers des variables continues. On regarde donc la limite continue du probleme initial.

(De facon equivalente au vu de (4.4), cette limite decrit la situation ou les separations

d’espace ~r − ~r0 ou tn − t0 = nτ sont tres grandes par rapport a a et τ .) Dans la limite

τ → 0 et a → 0, le membre de gauche de (4.6) est approxime par τ ∂∂tP (~r, tn|~r0, t0), celui

de droite par 14a2∆P (~r, tn|~r0, t0) ou ∆ est le laplacien a 2 dimensions

∆ =∂2

∂x2+

∂2

∂y2(4.7)

agissant sur les coordonnees x et y de ~r. Dans cette limite l’equation (4.3) devient

τ∂

∂tP =

14a2∆P (4.8)

qui est une equation fondamentale de la physique, decrivant les phenomenes de diffusion,

(diffusion de particules dans un milieu, de chaleur etc). Selon le contexte, cette equation

est appelee equation de Fick, equation de la chaleur, . . .

J.-B. Z. 24 Juin 2011

Page 132: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

124 Methodes mathematiques pour physiciens 2. LP207

La solution de l’equation (4.8) completee par une condition initiale qui est la version

continue de (4.1), voir plus bas, est bien connue :

F(~r − ~r0

a,t− t0τ

)= P (~r, t|~r0, t0) =

(t− t0)e− (~r−~r0)2

a2(t−t0)/τ (4.9)

ou on suppose t− t0 > 0 et ou la constante A va etre fixee plus bas. Exercice : verifier que

cette fonction est bien solution de (4.8).

Dans la limite qui nous occupe ou ~r est une variable (aleatoire) continue, il faut rem-

placer la probabilite du marcheur d’etre en un point donne ~r par une densite de probabilite,

p(~r, tn|~r0, t0) =1a2P (~r, tn|~r0, t0) (4.10)

(qui a bien la dimension d’une densite a deux dimensions). La condition de normalisation

(4.2),∑

~r a2 P (~r,tn|~r0,t0)

a2 =∑

~r a2p(~r, tn|~r0, t0) = 1 peut etre consideree comme une somme

de Riemann de l’integrale de p et donne donc dans la limite a→ 0∫

d2~r p(~r, tn|~r0, t0) = 1 , (4.11)

qui est bien la condition de normalisation d’une densite de probabilite, comme nous l’avons

vu, mais ici pour une v.a. a deux dimensions ~r. Cette condition fixe la constante A = 1π ,

(cf les integrales gaussiennes du chapitre 8), donc

p(~r, tn|~r0, t0) =τ

πa2(t− t0)e− (~r−~r0)2

a2(t−t0)/τ .

Le calcul jusqu’ici a suppose que les limites a → 0 et τ → 0 etaient independantes. Afin

de se debarrasser completement de ces echelles “microscopiques”, on voit qu’il convient de

prendre τ ∝ a2. On choisira l’echelle de temps de telle sorte que

τ =14a2 (4.12)

(et plus generalement, en dimension d’espace d, on prendrait τ = 12da

2). L’expression

finale de la densite de probabilite p est donc

p(~r, tn|~r0, t0) =1

4π(t− t0)e− (~r−~r0)2

4(t−t0) , (pour t > t0) (4.13)

(et plus generalement, en dimension d’espace d, le prefacteur serait (4π(t− t0))d/2).

24 Juin 2011 J.-B. Z.

Page 133: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

Chapitre 9. Theoremes asymptotiques 125

La condition initiale satisfaite par cette solution est obtenue en prenant la limite

tn − t0 → 0. Selon un argument donne plus haut, la fonction gaussienne est de plus en

plus piquee au voisinage de ~r = ~r0 mais toujours bien normalisee, et la limite est une

“distribution delta de Dirac”, cf § 3.1. On ecrit donc

limtn−t0→0

p(~r, tn|~r0, t0) = δ(~r − ~r0) = δ(x− x0)δ(y − y0) (4.14)

qui est la version continue de la condition initiale (4.1).

Notons enfin que si t′ > t > t0, la propriete (4.5) se recrit pour p selon

∫d2~r p(~r′, t′|~r, t)p(~r, t|~r0, t0) = p(~r′, t′|~r0, t0)

comme on le verifiera en calculant cette convolution d’integrales gaussiennes.

L’apparition d’une gaussienne, c’est-a-dire d’une loi normale pour p, comme solution

de notre marche au hasard ne doit pas surprendre : elle decoule du theoreme de la limite

centrale, la trajectoire de ~r0 a ~r resultant de l’addition d’un grand nombre n = (t− t0)/τ

de pas elementaires (qui sont des v.a. independantes et de meme loi).

4.4. Lois d’echelle dans la marche au hasard

Une propriete tres remarquable de la solution (4.13) est son invariance par le changement

simultane~r − ~r0 → λ(~r − ~r0) ; t− t0 → λ2(t− t0)

p(~r, tn|~r0, t0) → λ−2p(~r, tn|~r0, t0)p(~r, tn|~r0, t0) d2~r → p(~r, tn|~r0, t0) d2~r

(4.15)

ou nous avons souligne que par cette dilatation, la densite de probabilite p est multipliee

par un facteur λ−2, tandis que la probabilite p d2~r que ~r soit dans un petit domaine au

voisinage de ~r est invariante. Cette propriete qui relie les dilatations de l’espace et du

temps apparaissait deja dans la relation (4.12) entre les echelles microscopiques a et τ .

Une consequence de cette invariance est que l’ecart-type de la loi (4.13), 〈(~r−~r0)2〉12 ,

qui decrit l’etalement de la distribution, c’est-a-dire le rayon typiqueR de la region couverte

par le marcheur dans sa marche au hasard, croıt comme

R = 〈(~r − ~r0)2〉12 ∼ |t− t0|

12 . (4.16)

Inversement la relation |t−t0| ∼ R2 est interpretee en disant que la marche au hasard a une dimensionfractale, (plus precisement une dimension de Hausdorff), egale a 2 : si le marcheur deroule une bobine de

J.-B. Z. 24 Juin 2011

Page 134: Me thodes mathe matiques pour physiciens 2 LP207zuber/Cours/LP207.pdf · 2011. 6. 24. · Mention \Physique" de la Licence de Sciences et Technologies L2 Parcours \Physique Fondamentale"

126 Methodes mathematiques pour physiciens 2. LP207

fil (fil d’Ariane ?) le long de sa trajectoire, il aura consomme une quantite ∝ R2 de fil quand il se seraeloigne de R de son point de depart. . .

Cette invariance de dilatation (4.15) est un exemple de ce que l’on appelle une loid’echelle et le nombre ν = 1

2 qui apparaıt dans la puissance de (t−t0) dans (4.16) est un ex-emple d’exposant critique. Il est tout a fait remarquable que cet exposant soit independantdu detail de la marche au hasard : pas discrets egaux a ± les vecteurs de base du reseau,ou mouvement brownien avec des pas de longueur arbitraire, etc. Il ne depend pas nonplus de la dimension de l’espace ou s’effectue cette marche. La raison etant une fois encorele theoreme de la limite centrale et l’universalite de la loi gaussienne qui en decoule. Enrevanche, cet exposant serait modifie si on imposait que le marcheur ne recoupe jamais satrajectoire passee. . .

L’etude de systemes ayant un comportement d’echelle et des exposants critiques est untheme majeur de la physique contemporaine, qui s’applique par exemple au comportementd’un ferromagnetique au point de Curie, mais cela est une autre histoire !

Fig. 5: Deux marches aleatoires sur reseau, vues a des echelles differentes. Sur la premiere,ou on distingue bien les pas sur le reseau discret, on constate que le mouvement ne s’etalepas beaucoup, le marcheur revenant souvent sur ses pas. Cela est encore plus visible surla seconde, ou apparaıt aussi une propriete remarquable du mouvement brownien continu,son invariance d’echelle (proprietes fractales) : le grossissement d’une petite partie de la“courbe” est de meme nature que la courbe originale.

24 Juin 2011 J.-B. Z.