Département d'Informatique BACHIR BOUIADJRA Rochdi · L'optimisation par les essaims de particules (PSO) est utilisée en premier lieu, pour la résolution approximative des équations

Département d’Informatique

THESE

Présentée par :

BACHIR BOUIADJRA Rochdi

Pour obtenir le diplôme de

DOCTORAT EN SCIENCESSpécialité :Informatique et Automatique

Thème

Commande robuste des systèmesnon linéaires

Devant les membres du jury :

Président :Rapporteur :Examinateur :Examinateur :Examinateur :Examinateur :

Pr. H. HAFFAFPr. M.F KHELFIPr. Y. LEBBAHPr. Z. AHMED FOITIHPr. A. TAHOURDr. M. SEDRAOUI

Professeur, Université d’Oran 1 Ahmed Ben BellaProfesseur, Université d’Oran 1 Ahmed Ben BellaProfesseur, Université d’Oran 1 Ahmed Ben BellaProfesseur, USTO-MBProfesseur, Université de MascaraMaître de Conférences A, Université de Guelma

–2015–

1

Á ma très chére épouse AminaÁ mes petites filles

Ayat ErrahmaneIbtissem

Meriem RitadjÁ toute ma famille

Á tous ce qui comptent pour moi

Remerciements

Bénit Soit DIEU le tout puissant, le compassion et le miséricordieux qui nous a donné son aide et sa force.

Je suis parvenu au terme de ce modeste travail grâce à sa générosité non pas à mes efforts.

Il y a un hadith qui dit "Qui ne remercie pas les gens ne remercie pas DIEU".

C’est sous la lumière de ce hadith que je tiens à remercier très chaleureusement mon directeur de thèse,

Mohamed Fayçal Khelfi, Professeur à l’Université d’Oran 1, pour avoir dirigé mes travaux et m’avoir fait

découvrir le monde de la recherche. Merci pour vos échanges scientifiques, votre disponibilité et votre rigueur.

Merci pour votre soutien scientifique et humain. Je voudrais aussi vous remercier d’avoir cru en mes capacités

et de m’avoir fourni d’excellentes conseils tout au long de ce travail.

Mes remerciement vont aussi, à Monsieur Hafid HAFFAF, Professeur à l’Université d’Oran 1 et directeur

du laboratoire RIIR pour m’avoir fait l’honneur en acceptant de présider le jury. Merci pour votre disponibilité.

J’exprime également mes remerciements à Monsieur Yahia Lebbah Professeur à l’Université d’Oran 1 d’avoir

accepté de juger mon modeste travail. Je remercie également Monsieur Zoubir Fouatih Professeur à l’université

des sciences et technologies d’Oran - Mohamed Boudiaf pour avoir accepté d’examiner mon travail et de faire

partie de mon jury de thèse.

Je remercie profondément le Professeur Ahmed Tahour de l’université de Mascara pour sa disponibilité et

pour avoir accepté de juger mon travail.

Toute ma gratitude va à Monsieur Moussa Sedraoui Maitre de conférence à l’université de Guelma pour

m’avoir fait l’honneur en acceptant de se déplacer de loin et d’accepter d’être membre de jury de ma thèse. Je

suis vraiment touché par ce geste noble.

Mes vifs remerciements sont adressé également au Professeur Béat Hirsbrunner et au Docteur Michele

Courant du département informatique de l’université de Fribourg-Suisse. Ils m’ont accueillis chaleureuse-

ment dans leur groupe de recherche Pervasive and Artificial Intelligence (PAI). Qu’ils trouvent ici, toute ma

reconnaissance.

J’ai tant partagé de bonnes souvenirs avec mes amis et collèges de l’université de Mascara. Je tiens tous à

les remercier, particulièrement, Sahnoun, Salem, Debbat, Belgharbi, Aid, Driss et bien d’autres.

Toute ma gratitude et mes chaleureux remerciements vont à ma famille et ma belle famille. Par des simples

mots, quoi qu’ils sortent de mon cœur, je ne peut remercie assez, ma très chère mère. Qu’elle trouve ici tout

mon amour. Je remercie également mes frères Mustapha, Sidahmed, Menaouar, ma sœur Fatiha, mes oncles

Mohamed et Bachir ainsi que leurs familles, mes tentes. Je remercie plus particulièrement et sincèrement ma

grand-mère. Dans la crainte d’oublier quelqu’un, je remercie tous ce qui comptent pour moi.

Enfin, je ne remercierai sans doute jamais assez ma très chère épouse, qui a su faire preuve d’une grande

patience, de compréhension et m’a accompagné et soutenu de façon permanente dans les moments difficiles tout

au long de ces années.

3

Résumé

Ce travail de thèse s'intéresse à appliquer des algorithmes numériques pour la résolu-

tion du problème de la commande H∞ non linéaire par retour d'état et de sorties à temps

continu et discret. Les méthodes en question se basent en premier lieu sur la méthode des

résidus pondérés.

Nous avons opté pour la méthode de Galerkin et la celle des Réseaux de Neurones-

Moindres Carrés. Ces deux derniers sont hybridées avec l'algorithme des approximations

successives pour faciliter la résolution des équations Hamilton-Jaccobi-Isaacs résultantes.

Nous avons étudié plusieurs approches de la commande H∞ non linéaires, à savoir, la

commande continue/discrète par retour d'état avec et sans contraintes sur les entrées, la

commande continue par retour d'état à horizon ni et la commande par retour de sorties

impliquant un observateur non linéaire. Bien que l'application de cette hybridation ait

donnée de bons résultats les lois de commandes H∞ non linéaires sont hors ligne et donc

diciles à implémenter en temps réel.

Le deuxième volet de cette thèse s'intéresse à un algorithme d'apprentissage en ligne

pour la résolution des équations HJI. Il s'agit de l'apprentissage par renforcement basé sur

le concept d'Acteur-Critique. Contrairement au méthodes de Galerkin et de RNA-MMC,

la commande H∞ à appliquer et la perturbation à rejeter sont mises à jour de manière

simultanée, qualiant ainsi l'algorithme d'apprentissage par renforcement de simultané.

L'optimisation par les essaims de particules (PSO) est utilisée en premier lieu, pour

la résolution approximative des équations HJI, ensuite pour l'ajustement des gains d'un

contrôleur H∞-PID non linéaire synthétisé analytiquement pour une classe de systèmes

non linéaires (systèmes lagrangiens).

Les méthodes utilisées ont été appliqués pour la commande d'une variété de systèmes

non linéaires dynamiques (systèmes purement mathématiques, Robots, · · · ). Les résultatsde simulation obtenus ont montré des meilleurs performances en matière de stabilité et

atténuation des eets de perturbations et incertitudes paramétriques.

Mots Clés.

Commande H∞ non linéaire, équation HJI, Méthode de Galerkin, Réseaux de neu-

rones, Apprentissage par renforcement, Optimisation basée sur les essaims de particules

i

Abstract

In this research, numerical methods for the design of H∞ nonlinear state and output

feedback controllers for continuous and discret time systems are proposed. These methods

are based primarily on the method of weighted residuals.

The Galerkin and Neural Networks-based Least Squares Method are rst combined

with successive aproximation algorithm to solve the Hamilton-Jaccobi-Isaacs resulting

equations. We have studied severalH∞ nonlinear approachs, i.e, the continuous and discret

state feedback control with and without constraints on inputs, the xed time H∞ control

and output feedback control involving a nonlinear observer.

Although the good results obtained with these methods, they have a major drawback.

They are o line and thus dicult to implement in real time.

The second part of this thesis focuses on an online learning algorithm for solving

HJI equations . This is, the reinforcement learning algorithm based on the actor-critic

structure for the implementation. Unlike the methods of Galerkin and RNA-MMC, the

approach try to update the H∞ control law and the worst disturbance simultaneously.

Particles Swarm Optimization (PSO) is used primarily for approximatly solving HJI

equation resulting from the H∞ state feedback control, and for adjusting H∞ nonlinear-

PID gains for a class of nonlinear systems namely Lagrangian ones.

The simulation results show the eectiveness of these approachs to resolve the stabi-

lizing and disturbance attenuation problems.

Keywords.

Nonlinear H∞ control, HJI equation, Galerkin method, Neural Network based Least

squares method, reinforcement learning, Particle Swarm Optimization (PSO)

ii

Table des matières

Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii

Table des matières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii

Table des gures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii

Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii

Index des notations 1

Abréviations 2

Introduction générale 3

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Contexte et problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3 Objectifs et Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3.1 Résolution des équations HJI par la MWR . . . . . . . . . . . . . . 5

3.2 Résolution des équations HJI par apprentissage en ligne . . . . . . 5

3.3 Résolution des équations HJI par une méta heuristique d'optimisation 6

4 Organisation du document . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1 Commande H∞ non linéaire 9

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Stabilité des systèmes non linéaires . . . . . . . . . . . . . . . . . . . . . . 11

2.1 Premières dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Fonctions (semi) dénies positives . . . . . . . . . . . . . . . . . . . 12

2.3 Rappels de quelques concepts de stabilité . . . . . . . . . . . . . . . 13

2.4 Théorie de Lyapounov . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.5 Stabilité asymptotique des systèmes connectés en cascade . . . . . . 15

2.6 Notions de passivité et dissipativité . . . . . . . . . . . . . . . . . . 16

3 Commande H∞ des systèmes non linéaires générales . . . . . . . . . . . . . 17

3.1 Formulation mathématique du problème . . . . . . . . . . . . . . . 17

3.2 Objectifs de la commande . . . . . . . . . . . . . . . . . . . . . . . 17

3.3 Hypothèses simplicatrices . . . . . . . . . . . . . . . . . . . . . . . 18

iii

Table des matières

3.4 Commande par retour d'état . . . . . . . . . . . . . . . . . . . . . . 19

3.5 Commande par retour de sortie . . . . . . . . . . . . . . . . . . . . 21

3.5.1 Condition nécessaire pour le retour de sortie . . . . . . . 21

3.5.2 Loi de commande par retour de sortie . . . . . . . . . . . 24

4 Commande H∞ des systèmes non linéaires anes . . . . . . . . . . . . . . 25

4.1 Commande par retour d'état . . . . . . . . . . . . . . . . . . . . . . 26

4.1.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1.2 Cas Particulier : Systèmes linéaires anes . . . . . . . . . 30

4.2 Commande par retour d'état avec contraintes sur la commande . . 32

5 Commande H∞ par retour d'état des systèmes non linéaire discrets . . . . 36

5.1 Commande H∞ discrète et jeu diérentiel non coopératif . . . . . . 37

6 Commande H∞ non linéaire par retour de sortie . . . . . . . . . . . . . . . 41

6.1 Formulation mathématique du probléme . . . . . . . . . . . . . . . 41

6.2 Loi de commande par retour de sortie . . . . . . . . . . . . . . . . 43

6.2.1 Calcul de la matrice gain G . . . . . . . . . . . . . . . . . 46

6.3 Cas Particulier : Systèmes linéaires anes . . . . . . . . . . . . . . 47

7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2 Solutions approximatives des équations de HJI : Méthode de Galerkin 49

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2 Méthode des Approximations successives . . . . . . . . . . . . . . . . . . . 50

3 Méthode des Résidus Pondérés . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.1 Approximation polynomiale . . . . . . . . . . . . . . . . . . . . . . 54

3.2 Formulation intégrale normale . . . . . . . . . . . . . . . . . . . . . 54

3.3 Les méthodes des résidus pondérés . . . . . . . . . . . . . . . . . . 55

4 Méthode de Galerkin appliquée à la synthèse de la commande H∞ par

retour d'état -Cas continu . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.1 Algorithme de Galerkin . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2 Les méthodes d'implémentations . . . . . . . . . . . . . . . . . . . 60

4.2.1 Réduction de N . . . . . . . . . . . . . . . . . . . . . . . . 61

4.2.2 Méthode basée sur la discrétisation des intégrales . . . . . 62

4.2.3 La Méthode de Monté-Carlo . . . . . . . . . . . . . . . . . 63

4.2.4 Méthode basé sur le calcul symbolique. . . . . . . . . . . . 64

4.3 Exemples Numériques . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.3.1 Système linéaire MIMO 3-D . . . . . . . . . . . . . . . . . 67

4.3.2 Système non linéaire SISO 2-D . . . . . . . . . . . . . . . 70

4.3.3 Système de suspension magnétique . . . . . . . . . . . . . 74

4.3.4 Robot Planaire à deux degrés de liberté . . . . . . . . . . 79

4.3.5 Oscillateur translationnel avec actionneur rotatif (TORA) 83

iv

Table des matières

4.4 Méthode de Galerkin : Cas de la commande H∞ contrainte par

retour d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.4.1 Application au système TORA . . . . . . . . . . . . . . . 87

5 Méthode de Galerkin appliquée à la synthèse de la commande H∞ à temps

nal xe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89


5.2 Application à la validation d'une commande H∞ inverse . . . . . . 93

5.3 Application au système TORA . . . . . . . . . . . . . . . . . . . . 95

6 Méthode de Galerkin appliquée à la synthèse de la commande H∞ par

retour d'état -Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.1 Méthode des approximations successives . . . . . . . . . . . . . . . 97


6.3 Exemples Numériques . . . . . . . . . . . . . . . . . . . . . . . . . 101

6.3.1 Système non linéaire discret MIMO . . . . . . . . . . . . . 101

6.3.2 Oscillateur translationnel avec actionneur rotatif (TORA)

discrétisé . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

7 Méthode de Galerkin appliquée à résolutions des équations de HJI pour la

commande par retour de sortie . . . . . . . . . . . . . . . . . . . . . . . . 107

7.1 Algorithme des approximations successives . . . . . . . . . . . . . . 107


7.2.1 Calcul de la matrice de gain G . . . . . . . . . . . . . . . 109

7.3 Commande H∞ par retour de sortie du système TORA . . . . . . . 110

8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

3 Solutions approximatives des équations de HJI : Méthode des réseaux

de neurones 115

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

2 Les réseaux de neurones comme approximateurs universels . . . . . . . . . 116

3 Résolution des équations de HJI : Cas de la Commande H∞ continue par

retour d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

3.1 Méthode des approximations successives . . . . . . . . . . . . . . . 117

3.2 Méthode des Résidus pondérés basée sur les moindres carrés . . . . 118

3.3 Méthode d'implémentation . . . . . . . . . . . . . . . . . . . . . . . 120

3.4 Application à la commande H∞ par retour d'état du système TORA122

4 Résolution des équations de HJI Cas de la Commande H∞ discrète par

retour d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124


4.2 Application à la commande H∞ discrète par retour d'état du sys-

tème TORA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

v

Table des matières

5 Résolution des équations de HJI Cas de la Commande H∞ par retour de

sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

5.1 Algorithme des Moindres Carrés . . . . . . . . . . . . . . . . . . . . 132


5.2.1 Calcul de la matrice de gain G . . . . . . . . . . . . . . . 133

5.3 Commande H∞ par retour de sortie du système TORA . . . . . . . 133

6 Étude comparative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

4 Solutions approximatives des équations de HJI : Méthode d'apprentis-

sage en-ligne 147

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

2 Apprentissage simultané en ligne : Cas de la commande H∞ non linéaire

par retour d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

2.1 Approche de résolution en-ligne (1er algorithme) . . . . . . . . . . . 149

2.2 Étude de la stabilité de l'algorithme en-ligne . . . . . . . . . . . . . 151

2.3 Architecture Acteur-Critique et RN pour la résolution en-ligne des

HJI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

2.4 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

3 Exemples illustratifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

3.1 Système Linéaire 3D . . . . . . . . . . . . . . . . . . . . . . . . . . 155

3.2 Système non linéaire 2D . . . . . . . . . . . . . . . . . . . . . . . . 157

3.3 Système TORA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

5 Application d'une méthode d'optimisation à la synthèse de la commande

H∞ non linéaire 163

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

2 Optimisation et méthodes méta-heuristiques . . . . . . . . . . . . . . . . . 164

2.1 Dénition de l'optimisation . . . . . . . . . . . . . . . . . . . . . . 164

2.2 Problème d'optimisation . . . . . . . . . . . . . . . . . . . . . . . . 164

2.3 Méthodes classiques v.s. Méthodes métaheuristiques . . . . . . . . . 165

2.3.1 Caractéristiques des métaheuristiques . . . . . . . . . . . . 166

2.3.2 Classication des métaheuristiques . . . . . . . . . . . . . 167

2.3.2.1 Méthodes de trajectoires . . . . . . . . . . . . . . 167

2.3.2.2 Méthodes basées sur une population . . . . . . . 167

3 Optimisation par Essaim de Particules . . . . . . . . . . . . . . . . . . . . 167

3.1 Principe de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

3.2 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

3.2.1 Déroulement de la PSO . . . . . . . . . . . . . . . . . . . 168

vi

Bibliographie

3.3 Les variantes de la PSO . . . . . . . . . . . . . . . . . . . . . . . . 169

3.4 PSO avec contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . 171

3.4.1 Algorithme ALPSO . . . . . . . . . . . . . . . . . . . . . 172

3.4.2 Méthode de la fonction ctive . . . . . . . . . . . . . . . . 173

4 Résolution de l'équation HJI par PSO . . . . . . . . . . . . . . . . . . . . . 174

4.1 Approximation par réseau de neurones . . . . . . . . . . . . . . . . 174

4.2 Fonctions objectives . . . . . . . . . . . . . . . . . . . . . . . . . . 176

4.2.1 Fonction objevtive basée sur l'Hamiltonien . . . . . . . . . 176

4.2.2 Fonction objective basée sur le L2-gain . . . . . . . . . . . 177

4.3 Résultats de simulation . . . . . . . . . . . . . . . . . . . . . . . . . 177

4.3.1 Système non linéaire 2D . . . . . . . . . . . . . . . . . . . 178

4.3.2 Système TORA . . . . . . . . . . . . . . . . . . . . . . . . 179

5 Synthèse de la Commande H∞ non linéaire par PSO . . . . . . . . . . . . 181

5.1 Commande H∞ des systèmes variants dans le temps . . . . . . . . . 181

5.2 Application de la PSO à la commande des systèmes lagrangiens . . 183

5.2.1 Commande H∞ non linéaire des systèmes lagrangiens . . . 183

5.2.2 Méthode d'ajustement par PSO . . . . . . . . . . . . . . . 186

5.3 Application à la commande d'un robot SCARA à 4 d.d.l. . . . . . . 187

5.3.1 Dynamique du SCARA à 4 d.d.l . . . . . . . . . . . . . . 187

5.3.2 Paramètres du PSO . . . . . . . . . . . . . . . . . . . . . 189

5.3.3 Résultats et discussions . . . . . . . . . . . . . . . . . . . 190

6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

Conclusion générale 195

Bibliographie 198

A Démonstration des théorèmes 205

1 Equation (1.28) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

2 Equation (1.31) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

3 Démonstration du théorème 3.2 . . . . . . . . . . . . . . . . . . . . . . . . 206

vii

Table des gures

1 Relations entre les chapitres . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.1 Systèmes connectés en cascade . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2 Problème standard H∞ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.3 Problème standard H∞ avec retour de sortie . . . . . . . . . . . . . . . . . 22

1.4 Évolution de l'état x(t) et de la commande u(t) (Exemple 4.1.1) . . . . . . 30

1.5 Commande saturée : Sat+1−1(u) et tanh(u) . . . . . . . . . . . . . . . . . . . 33

1.6 Coût quadratique et non quadratique . . . . . . . . . . . . . . . . . . . . . 36

2.1 Approximations successives de la solution de l'équation HJI . . . . . . . . . 52

2.2 Algorithme de la méthode de Galerkin pour la commande H∞ par retour

d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

2.3 Maillage dans <3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

2.4 Méthode de discrétisation déterministe n = 4 . . . . . . . . . . . . . . . . . 65

2.5 Méthode stochastique de Monté-Carlo n = 4 . . . . . . . . . . . . . . . . . 65

2.6 code Matlab c© pour le calcul symbolique . . . . . . . . . . . . . . . . . . . 66

2.7 Norme du vecteur des coecients (MIMO-3D) . . . . . . . . . . . . . . . . 68

2.8 Évolution des états et des commandes H∞ (MIMO-3D) . . . . . . . . . . . 69

2.9 Évolution de l'atténuation r et du résidus R en présence d'une perturbation

(MIMO-3D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

2.10 Principe de la commande par linéarisaation entrés-sortie . . . . . . . . . . 71

2.11 Norme du vecteur des coecients (SISO-2D) . . . . . . . . . . . . . . . . . 73

2.12 Évolution des états pour N = 0, 3, 8, 15 (SISO-2D) . . . . . . . . . . . . . . 73

2.13 Évolution de la commande et atténuation r pour N = 0, 3, 8, 15 (SISO-2D) 74

2.14 Système de suspension magnétique . . . . . . . . . . . . . . . . . . . . . . 74

2.15 Norme du vecteur des coecients (Suspension magnétique) . . . . . . . . . 77

2.16 Position et commande pour une trajectoire variable (Suspension magnétique) 77

2.17 Position et commande avec perturbation (Suspension magnétique) . . . . . 78

2.18 Évolution de l'atténuation r (Suspension magnétique) . . . . . . . . . . . . 78

2.19 Robot Plainaire à 2 ddl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

2.20 Norme du vecteur des coecients (Robot planaire) . . . . . . . . . . . . . 81

viii

Table des gures

2.21 Convergence asymptotique des états vers le point d'équilibre (Robot planaire) 81

2.22 Évolution des commandes τ et des perturbations τd (Robot planaire) . . . 82

2.23 Évolution de l'atténuation r (Robot planaire) . . . . . . . . . . . . . . . . 82

2.24 Oscillateur translationnel avec actionneur rotatif (TORA) . . . . . . . . . 83

2.25 Norme du vecteur des coecients (TORA) . . . . . . . . . . . . . . . . . . 85

2.26 Convergence asymptotique vers l'état d'équilibre x = 0 (TORA) . . . . . . 85

2.27 Évolution de la commande u, de la perturbation ω et l'atténuation r (TORA) 86

2.28 Algorithme de la méthode de Galerkin pour la commande H∞ contrainte

par retour d'état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

2.29 Norme du vecteur des coecients- Cas de la commande contrainte (TORA) 88

2.30 Convergence asymptotique vers l'état d'équilibre x = 0- Cas de la com-

mande contrainte (TORA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

2.31 Évolution de la commande u, de la perturbation ω et l'atténuation r- Cas

de la commande contrainte (TORA) . . . . . . . . . . . . . . . . . . . . . 89

2.32 Algorithme de Galerkin pour la commande H∞ à temps nal xe . . . . . 92

2.33 Poids ci : Commande H∞ à temps nal xe . . . . . . . . . . . . . . . . . 94

2.34 Évolution des états x1, x2 et des commandes u1, u2 : Commande H∞ à

temps nal xe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

2.35 Norme du vecteur des coecients (TORA)- Cas de la commande à temps

nal xe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

2.36 Convergence asymptotique vers l'état d'équilibre x = 0 (TORA)- Cas de

la commande à temps nal xe . . . . . . . . . . . . . . . . . . . . . . . . 96

2.37 Évolution de la commande u, de la perturbation ω et l'atténuation r (TORA)-

Cas de la commande à temps nal xe . . . . . . . . . . . . . . . . . . . . 96

2.38 Approximations successives de la solution de l'équation HJI - Cas discret . 99

2.39 Algorithme des Galerkin pour la commande H∞ par retour d'état discret . 101

2.40 Norme du vecteur des coecients ||c|| (Système discret 1) . . . . . . . . . 102

2.41 Évolution des états x1 et x2 pour u0 et uH∞ (Système discret 1) . . . . . . 103

2.42 Évolution des commandes u0 et uH∞ (Système discret 1) . . . . . . . . . . 103

2.43 Évolution de l'atténuation r pour u0 et uH∞ (Système discret 1) . . . . . . 104

2.44 Norme des coecients ||c|| (TORA Discret) . . . . . . . . . . . . . . . . . 105

2.45 Convergence asymptotique des états vers x = 0 (TORA discret) . . . . . . 106

2.46 Évolution de la commande u et de l'atténuation r (TORA discret) . . . . . 106

2.47 Approximations successives de la solution de l'équation HJI . . . . . . . . . 108

2.48 Algorithme de la méthode de Galerkin pour la commande H∞ par retour

de sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

2.49 Incréments des coecients c, ν - Commande pr retour de sortie du système

TORA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

ix

Table des gures

2.50 Convergence asymptotique des états et des estimées vers (x, ξ) = (0, 0)

(TORA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

2.51 Commande H∞ par retour de sortie et Atténuation r : G (2.127) . . . . . . 112

2.52 Commande H∞ par retour de sortie et Atténuation r : G (2.129) . . . . . . 113

3.1 Implémentation de la commande H∞ par un réseau de neurones non bouclée117

3.2 Algorithme des RNA pour la commande H∞ contrainte par retour d'état . 121

3.3 Algorithme des Moindres Carrées récursives . . . . . . . . . . . . . . . . . 122

3.4 Norme du vecteur des coecients (TORA) - Méthode des RNA . . . . . . 123

3.5 Convergence asymptotique des états vers x = 0 (TORA) - Méthode des

RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

3.6 Commande u et atténuation r (TORA) - Méthode des RNA . . . . . . . . 124

3.7 Algorithme des RNA pour la commande H∞ par retour d'état discret . . . 129

3.8 Norme du vecteur des coecients (TORA) Méthode des RNA- Cas discret 130

3.9 Convergence asymptotique des états vers x = 0 (TORA) Méthode des

RNA- Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

3.10 Commande u et atténuation r (TORA) Méthode des RNA- Cas discret . . 131

3.11 Algorithme des RNA pour la commande H∞ par retour de sortie . . . . . . 134

3.12 Erreurs sur c et ν- Cas de RNA (TORA avec N = M = 45) . . . . . . . . 134

3.13 Convergence asymptotique des états et des estimées vers (x, ξ) = (0, 0)-

Cas de RNA (TORA avec N = M = 45) . . . . . . . . . . . . . . . . . . . 137

3.14 Commande par retour de sortie et Atténuation -Cas de RNA (TORA avec

N = M = 45) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

3.15 Évolution de la Norme de G(x)- Cas de RNA (TORA) . . . . . . . . . . . 139

4.1 Algorithme d'apprentissage en-ligne simultané . . . . . . . . . . . . . . . . 150

4.2 Structure Acteur-Critique de l'algorithme d'apprentissage simultané on-line 153

4.3 Implémentation de l'algorithme d'apprentissage simultané on-line . . . . . 154

4.4 Algorithme MCR pour l'apprentissage simultané en-ligne . . . . . . . . . . 155

4.5 Évolution temporelle des coecients ci pour le système MIMO-3D . . . . . 156

4.6 Convergence asymptotique des états vers x = 0, Commande et perturbation

pour le système MIMO-3D . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

4.7 Évolution de r(t) pour le système MIMO-3D . . . . . . . . . . . . . . . . . 157

4.8 Évolution temporelle des coecients ci pour le système SISO-2D . . . . . . 158

4.9 Convergence asymptotique des états vers x = 0, Commande et perturbation

pour le système SISO-2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

4.10 Évolution de r(t) pour le système SISO-2D . . . . . . . . . . . . . . . . . . 159

4.11 norme de c en fonction de ∆t et N pour le système SISO-2D . . . . . . . . 159

4.12 Évolution temporelle de la norme de c pour le système TORA . . . . . . . 160

x

Table des gures

4.13 Convergence asymptotique des états vers x = 0 et commande pour le sys-

tème TORA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

4.14 Évolution de r(t) pour le système TORA . . . . . . . . . . . . . . . . . . . 161

5.1 Déplacement d'une particule dans PSO . . . . . . . . . . . . . . . . . . . . 170

5.2 Algorithme du PSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

5.3 Algorithme du ALPSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

5.4 Fonction objective quadratique . . . . . . . . . . . . . . . . . . . . . . . . 176

5.5 Évolution des états x pour l'algorithme PSO et les AG (système non linéaire

2-D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

5.6 Évolution de la commande et l'atténuation r pour l'algorithme PSO et les

AG (système non linéaire 2-D) . . . . . . . . . . . . . . . . . . . . . . . . . 180

5.7 Évolution des états x1(ζ) et x2(θ) pour l'algorithme PSO et la méthode

NN-LS (système TORA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

5.8 Évolution de la commande et atténuation r pour l'algorithme PSO et la

méthode NN-LS (système TORA) . . . . . . . . . . . . . . . . . . . . . . . 182

5.9 Organigramme PSO pour H∞-PID NL . . . . . . . . . . . . . . . . . . . . 188

5.10 Robot SCARA à 4 d.d.l. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

5.11 Évolution de la meilleur et moyenne fonction objective . . . . . . . . . . . 191

5.12 Évolution des paramètres de la commande . . . . . . . . . . . . . . . . . . 192

5.13 trajectoires désirées et réelles du robot SCARA . . . . . . . . . . . . . . . 193

5.14 Évolution des couples du robot SCARA . . . . . . . . . . . . . . . . . . . . 194

xi

Liste des tableaux

2.1 Paramètres du système de suspension magnétique . . . . . . . . . . . . . . 75

3.1 Vecteur c - RNA Cas continu (TORA) . . . . . . . . . . . . . . . . . . . . 123

3.2 Vecteur c -RNA Cas discret (TORA) . . . . . . . . . . . . . . . . . . . . . 128

3.3 Vecteur c -RNA (TORA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

3.4 Vecteur ν -RNA (TORA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

3.5 Performances des deux méthodes (GALERKIN et RNA-MMC) Système

linéaire 3-D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139


non linéaire 2-D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141


non linéaire 2-D (suite). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

3.8 Erreurs absolues entre Galerkin et RNA-MMC Système linéaire 3-D. . . . . 143


TORA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144


TORA (suite). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

3.11 Erreurs absolues entre Galerkin et RNA-MMC Système TORA. . . . . . . 146

4.1 Paramètres de l'algorithme en-ligne : MIMO-3D . . . . . . . . . . . . . . . 155

4.2 Paramètres de l'algorithme en-ligne : Exemple SISO-2D . . . . . . . . . . . 157

4.3 Paramètres de l'algorithme on-line pour le système TORA . . . . . . . . . 160

4.4 Vecteur c -RNA Cas discret (TORA) . . . . . . . . . . . . . . . . . . . . . 160

5.1 Paramètres de PSO et GA . . . . . . . . . . . . . . . . . . . . . . . . . . 178

5.2 Minimas des fonctions objectives J1(c) et J2(c) pour les algorithmes PSO

et GA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

5.3 Vecteur optimale des coecients obtenue par PSO et NN-LS . . . . . . . . 180

5.4 Performance du système TORA pour la PSO et NN-LS . . . . . . . . . . . 181

5.5 Paramètres du SCARA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

xii

Index des notations

< Ensemble des nombres réels

<+ Ensemble des nombres réels positifs

<n×m Ensemble des matrices réelles de dimension n×mx Vecteur d'état

xe Point d'équilibre

ξ Vecteur d'état observé

u Vecteur de commandes

y Vecteur de sorties

ω Vecteur de perturbation

z Vecteur des signaux à contrôlés

γ Niveau d'atténuation

V (x), W (x) Fonctions de Lyapounov ou Fonctions coûts

Vx, Wx Jacobiennes de V (x), W (x)

AT Transposée de A

G′ Dérivée de Fréchet

L Gâteaux dérivée

Φ, Ψ Vecteur des fonctions de base

w Fonction de pondération (MWR)

Ω Domaine de faisabilité de la commande

P Nombre de points dans un maillage

ou solution d'une équation de Riccati

δx Pas de discrétisation d'une intégrale

J Fonction objective

Jv Fonction ctive

λ Multiplicateur de Lagrange

w, c1, c2 facteur d'inertie, cognitif et sociale (PSO)

kmax Nombre maximale de générations (PSO)

ε Tolérance d'un algorithme

c, ν Vecteurs de coecients

‖x‖ =√xTx Norme euclidienne de x

1

Abréviations

AS Asymptotiquement Stable ou Approximations Successives

ULS Uniformément Asymptotiquement Stable

GAS Globalement Asymptotiquement Stable

UGAS Uniformément Globalement Asymptotiquement Stable

MWR Method of Weighted Residuals

RN(A) Réseau de Neurones (Articiel)

MMC Méthode des Moindres Carrées

ARE Algebric Riccati Equation

HJB Hamilton-Jaccobi-Bellman

GHJB Hamilton-Jaccobi-Bellman Généralisée

HJI Hamilton-Jaccobi-Isaac

GHJI Hamilton-Jaccobi-Isaac Généralisée

PSO Particle Swarm Optimisation

ALPSO Augmented Lagrangien Particle Swarm Optimisation

GA Genetic Algorithm

SCARA Selective Compliance Articulated Robot Arm

DDL Degré De Liberté

TORA Transational Oscillator with Rotational Actuator

SISO Single Input Single Output

MIMO Multiple Input Multiple Output

PID Proportionnelle, intégrale et dérivée

2

Introduction générale

1 Introduction

L'automatique est une science multidisciplinaire (elle englobe les sciences de l'ingénieur

et les mathématiques) qui étudie, dans une phase d'analyse, le comportement des systèmes

dynamiques (stabilité, performance, robustesse), et dans une autre phase de synthèse, la

conception de systèmes de commande dites correcteurs ou contrôleurs.

L'analyse et la synthèse des systèmes dynamiques commencent par une phase de mo-

délisation qui consiste à trouver, par le biais des lois de la physique et des outils ma-

thématiques, un modèle assez proche du processus physique considéré. Plusieurs types

de modèles s'obtiennent. Il s'agit de systèmes linéaires/non linéaires, SISO/MIMO, in-

variants/variants dans le temps, etc · · · . Ceci dépend du processus à modéliser et des

simplications faites.

Historiquement, la synthèse des systèmes de commande a connu trois phases princi-

pales de développement : Dans les années 30 à 60, les méthodes fréquentielles (classiques),

ont été développées. Ils associent outils mathématiques avec critères graphiques pour la

synthèse des correcteurs conventionnels (PID, avance/retard de phase,...). Entre les an-

nées 60 et 80, et grâce aux travaux de Kalman (Kalman and Bucy, 1960), les techniques

modernes ont vu le jour. Nous pouvons citer la commande optimale (LQR) qui est basée

sur la représentation d'état dans le domaine temporel. L'avantage majeur de ces méthodes

modernes est leurs capacité à traiter le cas multivariable. Cependant, la notion de robus-

tesse est quelque peu négligée. Elle est prise en compte qu'à partir du début des années

80. En eet, c'est en 1981 que nous assistons à la naissance de la commande H∞ optimale

linéaire, phare des méthodes robustes, dans les travaux de Zames (Zames, 1981). Elle est

ensuite développée, en particulier par Doyle, Glover, Khargonekar et Francis (Francis,

1987), (Doyle et al., 1989). Dans ces travaux, la robustesse est étudiée en utilisant la

notion de norme matricielle (norme-∞) qui remplace celle des gains dans les systèmes

multivariables.

En pratique, nous ne pouvons pas toujours modéliser de manière réaliste un processus

physique par un modèle linéaire. En eet, une représentation correcte implique souvent

une prise en charge de toutes les non linéarités existantes. Dans un tel cas, les correcteurs

linéaires ne permettent pas d'assurer la stabilité, ni d'avoir une certaine robustesse.

3


L'extension de la commande H∞ au cas non linéaire a vue le jour grâce aux travaux

de Ball, Helton et Walker (Ball and Helton (1989), Ball et al. (1993)), Isidori, Asttol

et Kang (Isodori and Astol (1992), Isidori and Kang (1995)), et Van der Schaft (Van

der Shaft (1992), Van der Shaft (2000)). Van der shaft a utilisé la norme induite 2 (L2

gain) pour remplacer la norme H∞ dans le cas linéaire. Il a utilisé aussi les concepts de

passivité, de dissipativité et de jeux diérentiels non coopératifs dans la synthèse de la

commande H∞ non linéaire.

2 Contexte et problématique

Contrairement au cas linéaire, la résolution du problème H∞ non linéaire s'avère très

dicile, voir même, analytiquement impossible. Dans une telle situation, le problème se

ramène à la résolution des équations non linéaires à dérivées partielles dites équations de

Hamilton-Jaccobi-Isaac (HJI). Dans le cas linéaire, ces derniers se transforment en des

équations algébriques de Riccati (ARE) faciles à résoudre.

L'utilisation des approximations successives (AS) permettent de rendre l'équation HJI

sous une forme linéaire dites GHJI (HJI généralisée). La méthode AS permet de résoudre

de manière itérative l'équation GHJI. Elle a été, d'abord, initiée par Sadaris (Saridis and

Lee, 1979), ensuite appliquée dans le cadre de la commande optimale non linéaire (H2).

La méthode des résidus pondérés, abrégé en MWR (Method of Weighted Residuals),

est une méthode générale pour la résolution des équations intégro-diérentielles et/ou à

dérivées partielles (Finlayson and Scriven (1966), Finlayson (1972)). La solution inconnue

est étendue dans un ensemble de fonctions de bases, qui sont spéciées au préalable, mais

avec des constantes ou des fonctions ajustables.

La MWR est illustrée par son application dans la synthèse de la commande H∞ par

retour d'état en résolvant l'équation GHJI. La méthode générale de résolution propose une

solution approximative du problème. Les fonctions de pondérations utilisées constituent

la diversité de la méthode. Nous trouvons dans la MWR, la méthode de Galerkin et celle

des moindres carrés. Ces deux derniers sont, par excellence, les plus répondus et les plus

utilisés dans divers problèmes d'engineering.

L'hybridation entre les AS et la MWR a été appliquée dans le domaine des commandes

H2 et H∞ non linéaires.

3 Objectifs et Contributions

L'objectif principal du travail mené dans cette thèse est la résolution du problème H∞non linéaire. Diérents cas ont été traités, selon la nature du temps (continu et discret)

ou selon l'accessibilité à l'information (retour des sorties mesurées ou d'état et retour

des sorties observées). Trois grands axes ont été explorés. Il s'agit d'utiliser, en premier

4


lieu, des méthodes approximatives à base de l'hybridation entre les AS et la MWR. Le

deuxième axe concerne l'utilisation d'un apprentissage en ligne pour la résolution des

équations HJI. Tandis que le troisième axe traite la résolution des HJI par les méthodes

métaheuristiques d'optimisation.

3.1 Résolution des équations HJI par la MWR

Dans ce volet, deux méthodes ont été appliquées dans le contexte de la commande

H∞ non linéaire. Il s'agit de la méthode de Galerkin et celle des moindres carrés. Divers

problèmes ont été traités, à savoir

• le retour d'état continu ;

• le retour d'état avec contraintes sur le signal de commande ;

• la commande à horizon ni ;

• le retour d'état discret ;

• le retour de sortie (commande avec observateur)

Dans chaque cas, des méthodes d'implémentations ont été données et des simulations ont

été faites sur une diversité de systèmes dynamiques.

Cette partie a fait l'objet d'une soumission d'une publication internationale (Bachir-

Bouiadjra and Khel, 2015a)

• Nonlinear H∞ control via measurement feedback using neural network. Journal of

Control Enginneing and Applied Informtaics (In Reveiw).

et une communication internationale (Bachir-Bouiadjra and Khel, 2014) (acceptée)

3.2 Résolution des équations HJI par apprentissage en ligne

Les lois de commandes établies soit par Galerkin ou moindres carrés sont hors ligne.

Leurs implémentations nécessitent un temps assez important et une connaissance complète

du système à commander. Pour remédier à cet handicap, nous avons utilisé une méthode

d'approximation en ligne de la solution des équations HJI. La méthode utilise l'apprentis-

sage par renforcement où la notion Acteur/critique est utilisée. L'agent acteur réactualise

la commande et la perturbation de manière simultanée selon la solution de l'équation HJI

fournie par l'agent Critique. Si la solution s'approche de la valeur exacte, alors l'acteur

cesse la ré-actualisation. L'algorithme est appliqué dans le cadre de la commande H∞ non

linéaire par retour d'état à diérents systèmes dynamiques.

5


3.3 Résolution des équations HJI par une méta heuristique d'op-

timisation

Dans ce volet, une méthode d'optimisation métaheuristique est utilisée pour trouver

une solution approximative à l'équation HJI dans le cas du retour d'état continu. La méta

heuristique en question est les essaims de particules (PSO- Particle Swarm Optimisation).

Les variables de décisions choisies sont les coecients de la solution approximative, tan-

dis que les fonctions objectives à optimiser (minimiser) sont le L2 gain et le résidu sur

l'équation HJI (la diérence entre HJI approchée et HJI exacte). Nous avons introduit des

contraintes au problème d'optimisation. Pour relaxer ces dernières, deux méthodes ont été

utilisées. La première est celle du Lagrangien augmenté hybridée avec la PSO (ALPSO) et

la seconde utilise une fonction ctive pour se ramener à un problème d'optimisation sans

contraintes. Cette partie a fait l'objet d'une soumission d'une publication internationale

(Bachir-Bouiadjra and Khel, 2015b)

• Particle swarm optimisation and Firey algorithm for solvingH∞ sub-optimal control

of nonlinear systems. International Journal of Automation and Control (IJAAC) -

In review

La PSO a été aussi utilisée pour l'ajustement des gains d'une commande H∞ non linéaire

d'une classe de systèmes appelés système lagrangiens. Cette partie a fait l'objet d'une

publication internationale (Bachir-Bouiadjra and Khel, 2015c)

• H∞ non linear PID controller tuning based on simple constrained particle swarm

optimisation, International Journal of Industrial and Systems Engineering (In Pro-

duction).

et une communication internationale (Bachir-Bouiadjra and Khel, 2013)

• H∞ - PID Controller Optimization Using Heuristic Kalman Algorithm. In 3rd IEEE

International Conference on Systems and Control ICSC13, Algiers, Algeria.

4 Organisation du document

Ce document est organisé de la façon suivante (Figure 1).

Commande H∞ non linéaire (Chapitre 1). L'objectif de ce chapitre est de présenter

un état d'art regroupant toutes les stratégies de la commande H∞ non linéaire dans un

aspect purement théorique. Nous examinons les objectifs à atteindre et nous exposons les

diérentes lois de commandes, à savoir le retour d'état continu et discret, la commande

sans et avec contraintes sur les signaux d'entrée et la commande par retour de sorties

(avec observateur).

6


Solutions approximatives des équations de HJI : Méthode de Galerkin (Cha-

pitre 2). Dans ce chapitre, nous donnons l'algorithme itératif des approximations succes-

sives (AS). Ensuite, nous introduisons la méthode des résidus pondérés en particulier, la

méthode de Galerkin. Une hybridation de cette dernière avec l'algorithme des approxima-

tions successives est exposée. Cette hybridation nous permettra de résoudre de manière

itérative les équations HJI des diérentes lois de commandes étudiées. Plusieurs méthodes

d'implémentation ainsi que des applications à diérents types de systèmes sont présentées.

Solutions approximatives des équations de HJI : Méthode des réseaux de neu-

rones (Chapitre 3). Ce chapitre est consacré à l'application des réseaux de neurones

(RN) hybridés avec l'algorithme des approximations successives, à la résolution approchée

des HJI. Les poids des RN sont ajustés par les moindres carrés qui est une méthode des

résidus pondérés. Les lois de commandes résultantes (par retour d'état, de sorties,continue

et discrète) sont validées sur une panoplie de systèmes.

Solutions approximatives des équations de HJI : Méthode d'apprentissage en-

ligne (Chapitre 4). Nous nous intéressons ici à une méthode d'apprentissage en ligne

utilisée pour résoudre approximativement des équations de type HJI. En eet, contraire-

ment aux chapitres précédents, le but est de concevoir une architecture Acteur/Critique

simultanée qui permet d'avoir des lois de commandes en ligne. Une application à diérents

types de systèmes est aussi exposée.

Applications d'une méthode d'optimisation à la synthèse de la commande H∞non linéaire (Chpitre 5). Ce chapitre est dédié, à l'utilisation d'une méthode d'op-

timisation métaheuristique pour résoudre d'une façon approximative les équations HJI.

La métaheuristique en question est les essaims de particules (PSO). Le problème d'op-

timisation proposé étant avec contraintes, deux méthodes de relaxation des contraintes

sont données. Il s'agit du lagrangien augmenté hybridé avec la PSO (ALPSO) et celui de

la fonction ctive. Des comparaisons avec les algorithmes génétiques et la méthode des

réseaux de neurones sont présentées dans le cadre de la commande H∞ de deux systèmes

dynamiques. Ensuite, la PSO est utilisée pour l'ajustement des gains d'un contrôleur

H∞-PID non linéaire d'une certaine classe de systèmes appelées les lagrangiens. Une ap-

plication à un robot SCARA est faite.

7


Chapitre 1 Chapitre 2

Chapitre 3

Chapitre 4

Chapitre 5

Section 2.3

Figure 1 Relations entre les chapitres

8

Chapitre 1

Commande H∞ non linéaire

1 Introduction

La commande H∞ des systèmes linéaires a été initiée par Zames au début des années

80 (Zames (1981)) et développée, en particulier par Doyle, Glover, Khargonekar, Zhoo

et Francis (Francis (1987), Doyle et al. (1989), Zhou et al. (1995)). Les techniques de

résolution utilisées pour la synthèse des correcteurs H∞ sont basées sur les équations al-

gébriques de Riccati (ARE) et les inégalités matricielles linéaires (LMI). La nature des

systèmes considérés (linéaires et déterministes) rend cette résolution exacte et facile à éla-

borer. En eet, des outils de calculs existent, tel que, pour ne pas citer d'autres, le "toolbox

robust-control" de Matlab. Nous rappelons que la commande H∞ linéaire a pour objectif

de trouver un correcteur qui stabilise le système de façon interne et minimise la norme

H∞ de la matrice de transfert reliant les sorties à réguler et les entrées exogènes (pertur-

bations), donc assurer un rejet de ces derniers. Le problème de la commande H∞ linéaire

est dit un problème sous-optimal puisque le minimum à atteindre est prédéni.

L'objectif de la commande H∞ non linéaire, comme dans le cas linéaire, est d'assurer

une stabilité asymptotique du système en boucle fermée et de minimiser le rapport entre

l'énergie de sorties à réguler et l'énergie des entrées exogènes (perturbations). Ce rapport

est appelé par la suite le L2-gain. Sa minimisation n'est pas globale mais relative à un

certain niveau d'atténuation. Ce qui qualie la commande de sous-optimale.

Les premiers travaux concernant l'extension de la commande H∞ au cas non linéaire

sont celles de Ball, Helton et Walker (Ball and Helton (1989), Ball et al. (1993)), Isi-

dori, Asttol et Kang (Isodori and Astol (1992), Isidori and Kang (1995)), et Van der

Schaft (Van der Shaft (1992), Van der Shaft (2000)). Ces travaux concernent l'utilisation

des concepts de dissipativité et de jeux diérentiels non coopératifs dans la synthèse de

la commande H∞ pour les systèmes non linéaires anes en entrées et en perturbations.

Van der Schaft (Van der Shaft (1992), Van der Shaft (2000)) démontre que les lois de

9

Chapitre 1. Commande H∞ non linéaire

commandes par retour d'état sont fonction de solutions des équations dites de Hamition-

Jacobi-Iscaas (HJI). Ces dernières sont la version non linéaires des ARE. Dans leur article

(Isodori and Astol (1992)), les auteurs traitent la commande H∞ par retour dynamique

de sortie. Cette commande est mise en ÷uvre par un observateur non linéaire dont la

matrice des gains est fonction des états à observer. Ils montrent l'analogie avec le cas

linéaire et spécialement le rapport existant entre les solutions des équations de HJI avec

celles des ARE. Isodori et Kang (Isidori and Kang (1995)) introduisent une méthode de

calcul de la matrice de gain.

La commandeH∞ des systèmes non linéaires discrets n'est pas sollicitée par un nombre

important de travaux comme son rivale (cas continue) (Lin and Byrnes (1995), James and

Baras (1995), Lin and Byrnes (1996)). En eet, seul le cas linéaire discret a fait l'objet

d'une étude théorique approfondie. Ceci est du à la nature simple des équations aux dif-

férences qui modèlent le système et des équations de Riccati discrètes utilisées pour la

synthèse de la commande. Dans le cas non linéaire, Lin et Byrnes dans (Lin and Byrnes

(1995), Lin and Byrnes (1996)) se sont inspirés des travaux de Van der Schaft, Isodori,

et Astol, dans le cas continu (Van der Shaft (1992), Van der Shaft (2000), Isodori and

Astol (1992) et Isidori and Kang (1995)), pour donner les solutions des problèmes de la

commande H∞ non linéaire discrète par retour d'état et de sorties.

Le but de ce chapitre est de présenter d'une part quelques rappels, sur la notion de

stabilité, indispensables et nécessaires à la compréhension de cette thèse, et d'autre part

un état de l'art de la commande H∞ pour les systèmes non linéaires dans le cas du retour

d'état et de sorties.

Ce chapitre est organisé comme suit : La section 2 regroupe un ensemble de déni-

tions relatives à la stabilité (le concept de stabilité considéré est celui de Lyapounov)

des systèmes non linéaires. Les diérentes formes de stabilité des systèmes non linéaires

sont détaillées ainsi que leurs liaison avec la théorie de Lyapounov. Ces dénitions sont

utilisées lors de la démonstration de la stabilité dans les lois de commandes élaborées. Les

notions de passivité et dissipativité sont très utiles et très liées au concept du L2-gain. La

section 3 traite la commande H∞ des systèmes non linéaires générales, par retour d'état

et par retour de sorties mesurées. La section 4 fournit un état d'art de la commande H∞par retour d'état des systèmes non linéaires anes avec et sans contraintes sur les entrées.

Le cas discret de la commande par retour d'état est mis en évidence dans la section 5.

Finalement, la commandeH∞ non linéaire par retour de sortie est élaborée dans la section

6.

10


2 Stabilité des systèmes non linéaires

Soit U un ouvert non vide de <n (n ∈ N∗) contenant 0 et I un intervalle non vide de

<, non borné à droite. La classe des systèmes considérés sera celle pouvant être mis sous

la forme de l'équation diérentielle ordinaire suivante

x = f(x) (1.1)

ou celle donnée par

x = f(t, x) (1.2)

où x ∈ <n et f une fonction non linéaire. Cette forme (1.2), de par la présence explicite

de la variable temporelle t, sera susceptible d'évoluer au cours du temps et sera donc

qualiée de non-stationnaire.

2.1 Premières dénitions

Dénition 2.1. Un point x ∈ U est un point d'équilibre, ou un point singulier du

système (1.1) (respectivement de (1.2)) si f(x) = 0 (respectivement ∀t ∈ I, f(t, x) = 0).

On considérera toujours le point d'équilibre en 0. Pour le cas général, il sut de faire une

translation.

Dénition 2.2. Soit le système (1.1), et V : U → < ayant des dérivées partielles sur U .

La dérivée totale V le long de la trajectoire d'état du système (1.1) est donnée par :

V (y) =n∑i=1

∂V

∂xi(y)fi(y)

Dénition 2.3. Considérant le système (1.2), et V : I × U → < ayant des dérivées

partielles sur U . La dérivée totale V le long de la trajectoire d'état du système (1.2) est

dénie par :

V (t, y) =∂V

∂t+

n∑i=1

∂V

∂xi(t, y)fi(t, y)

Dénition 2.4. Soit a > 0 et f : [0, a] → <+ une application (une fonction) continue,

on dit que f appartient à la classe K si :

1. f est strictement croissante,

2. f(0) = 0.

11


Dénition 2.5. Soit f : <+ → <+ une application (une fonction) continue, on dit que f

appartient à la classe K∞ si :

1. f est strictement croissante,

2. limr→+∞ f(r) = +∞.

Dénition 2.6. Une fonction V : I × U → < est décrescente si et seulement s'il existe

un voisinage V de 0 et une fonction ψ de classe K telle que :

|V (t, y)| ≤ ψ(‖y‖) ∀t ∈ I,∀y ∈ V

Dénition 2.7. Une fonction V : I × <n → < continue est radialement non bornée s'il

existe une fonction ψ de classe K∞ telle que :

|V (t, y)| ≥ ψ(‖y‖) ∀t ∈ I,∀y ∈ <n

2.2 Fonctions (semi) dénies positives

Dénition 2.8. Une fonction V : U → < est dite semi-dénie positive (respectivement

semi-dénie négative) s'il existe un voisinage V de 0 tel que :

1. V (0) = 0

2. pour tout y ∈ V , V (y) ≥ 0 (respectivement V (y) ≤ 0).

Elle est dite dénie positive (respectivement dénie négative) s'il existe un voisinage V de

0 tel que :

1. V (0) = 0

2. pour tout y ∈ V \ 0, V (y) > 0 (respectivement V (y) < 0).

Dénition 2.9. Une fonction V : I×U → < est dite semi-dénie positive (respectivement

négative) s'il existe un voisinage V de 0 tel que :

1. ∀t ∈ I, V (t, 0) = 0

2. ∀t ∈ I,∀y ∈ V , V (t, y) ≥ 0 (respectivement V (t, y) ≤ 0)).

Elle est dite dénie positive (respectivement négative) s'il existe un voisinage V de 0 tel

que :

1. ∀t ∈ I, V (t, 0) = 0

2. ∃V0 : V → < dénie positive (respectivement négative) telle que : ∀t ∈ I,∀y ∈ V ,V (t, y) ≥ V0(y) (respectivement V (t, y) ≤ V0(y))

12


2.3 Rappels de quelques concepts de stabilité

Dans ce qui suit, on considère une version uniforme de la stabilité. Cette version est

directement liée à la non-stationnarité du système (1.2) et au fait que ce que l'on recherche

en général est un comportement du système qui est le même, quel que soit l'instant initial

considéré.

Dénition 2.10. (Khalil, 1996) Le point d'équilibre x = xe du système (1.1) est dit

Uniformément Localement Stable (ULS) si toute trajectoire solution du système comprise

dans une boule de centre xe et de rayon ε de grandeur quelconque est initialisée en x0

dans une boule de centre xe et de rayon δ dépendant de ε. Plus précisément

∀ε > 0, ∃δ(ε) tel que si ‖x0 − xe‖ ≤ δ(ε), alors ‖x(t)− xe‖ ≤ ε (1.3)

Dénition 2.11. (Khalil, 1996) Le point d'équilibre x = xe du système (1.1) est dit

Uniformément Localement Asymptotiquement Stable (ULAS) s'il est Uniformément Lo-

calement Stable et si toute trajectoire solution du système et initialisée en x0 dans une

boule de centre xe et de rayon η converge vers le point d'équilibre quand t tend vers

l'inni. Plus précisément

∃η > 0 tel que si ‖x0 − xe‖ ≤ η, alors limt→∞‖x(t)− xe‖ → 0 (1.4)

On parle d'une convergence asymptotique.

Dénition 2.12. (Khalil, 1996) Le point d'équilibre x = xe du système (1.1) est dit Uni-

formément Globalement Asymptotiquement Stable (UGAS) s'il est Uniformément Stable

et si toute trajectoire solution du système et initialisée en x0 dans une boule de centre xeet de rayon inni converge vers le point d'équilibre quand t tend vers l'inni.

Parmi les inconvénients de l'utilisation des précédentes dénitions pour analyser la

stabilité des systèmes non linéaires on cite :

- Il est nécessaire de calculer explicitement la trajectoire du système pour chaque condi-

tion initiale.

- Le maniement des dénitions est fastidieux.

d'où la nécessité d'introduire la stabilité au sens de Lyapounov, par le biais de la dite

seconde méthode de Lyapounov.

13


2.4 Théorie de Lyapounov

La théorie de stabilité de Lyapounov, (Khalil (1996), Slotine andWeiping (1991), Lewis

et al. (1993), Lewis et al. (2004)), traite du comportement des systèmes non linéaires libres

(sans commande) décrits par les équations diérentielles (1.1) ou (1.2).

L'idée derrière cette théorie est que l'on considère un système isolé dans le sens où il n'y a

pas de forces extérieures qui s'exercent, où, sans perte de généralité, l'origine est le point

d'équilibre. Ensuite, nous supposons qu'il est possible de dénir une fonction, de sorte

qu'elle est nulle à l'origine et positive partout, qui décrit, dans un certain sens, l'énergie

totale du système. Si le système initialement à l'équilibre, est perturbé à un nouvel état

initial non nul, alors plusieurs possibilités sont à envisager. Si la dynamique du système

est telle que son énergie est non croissante, alors il est facile de conclure que l'origine est

stable. Si la dynamique est telle que l'énergie est réduite à zéro, alors le point d'équilibre

est asymptotiquement stable. Finalement, si la dynamique est telle que l'énergie augmente

au-delà de sa valeur initiale, alors il est possible de conclure que le système est instable.

A partir de ce raisonnement, Lyapounov a généralisé la notion d'énergie pour n'importe

quel système dynamique décrit par les équations (1.1) et (1.2). L'énergie est souvent

décrite par une fonction mathématique qui possède certaines propriétés prédénies. Elle

est dite fonction candidate de Lyapounov.

La théorie de Lyapounov nous permettra de déterminer la stabilité d'un point d'équilibre

particulier sans pour autant résoudre l'équation diérentielle (1.1) ou (1.2). En outre, elle

nous donnera des résultats qualitatifs aux questions de stabilité, qui peuvent être utilisés

dans la conception des lois de commandes pour les systèmes dynamiques non linéaires.

Dans cette section, nous allons donner les théorèmes de Lyapounov de base qui traitent

principalement la stabilité asymptotique du point d'équilibre.

Thèoreme 2.1. Khalil (1996), Slotine and Weiping (1991) Soit 0 un point d'équilibre de

(1.1), s'il existe un voisinage V de 0 et une fonction V : V → <+ continue, ayant des

dérivées partielles continues, telle que :

1. V soit dénie positive

2. la dérivée totale V soit semi-dénie négative où V est évaluée le long de la trajectoire

du (1.1)

alors 0 est stable. V s'appelle une fonction de Lyapounov. En plus, si V est décrescente,

alors 0 est uniformément stable.





14


2. la dérivée totale V soit dénie négative où V est évaluée le long de la trajectoire du

(1.2)

alors 0 est asymptotiquement stable. V est dite une fonction stricte de Lyapounov. En

plus, si V est décrescente, alors 0 est uniformément asymptotiquement stable.





2. V est décrescente et radialement non bornée

3. V est dénie négative

alors 0 est uniformément globalement asymptotiquement stable.

Thèoreme 2.4. Théoréme de LaSalle. Lewis et al. (1993), Lewis et al. (2004)

Si on suppose qu'il existe une fonction de Lyapounov V dénie positive et V (x) ≤ 0, ∀x ∈V, alors l'origine 0 est asymptotiquement stable si et seulement si V (x) = 0 seulement au

point x = 0.

Une variante du théorème de LaSalle est la suivante

Thèoreme 2.5. Principe d'invariance de LaSalle. Lewis et al. (1993), Lewis et al. (2004)

Soit V une fonction de Lyapounov dénie positive radialement non bornée et tel que

V (x) ≤ 0, ∀x ∈ <n. Soit aussi, l'ensemble D = x ∈ <n|V (x) = 0 et supposant

que la seule trajectoire contenue dans D soit la trajectoire triviale, alors l'origine 0 est

globalement asymptotiquement stable.

Dans ce qui suit, on omet le terme "Uniformément".

2.5 Stabilité asymptotique des systèmes connectés en cascade

Dans cette section les notions de mise en cascade de systèmes non linéaires et la

stabilité asymptotique associée à ce type de connexion sont données. Lyshevski (2001)

Soient deux systèmes connectés en cascade comme indiqué sur la gure 1.1

x = f(x)

ξ = l(x, ξ)(1.5)

où x ∈ <n et ξ ∈ <m, f(0) = 0 et l(0, 0) = 0, c.à.d (x, ξ) = (0, 0) est le point d'équilibre

des deux systèmes connectés en cascade. L stabilité asymptotique du point d'équilibre est

donnée par le résultat suivant.

15


La stabilité asymptotique locale du point d'équilibre ξ = 0 du sous système supérieur

entrainé par x = 0 (du système ξ = l(0, ξ)) et la stabilité asymptotique locale du point

d'équilibre x = 0 du sous système inférieur (du système x = f(x)) induit toujours la

stabilité asymptotique locale du point d'équilibre (x, ξ) = (0, 0). Par contre, la stabilité

asymptotique globale de ξ = 0 de ξ = l(0, ξ) et la stabilité asymptotique globale de x = 0

de x = f(x) n'entraine pas toujours la stabilité asymptotique globale de (x, ξ) = (0, 0),

sauf sous certaines conditions.

x = f(x) ξ = l(x, ξ)x

Figure 1.1 Systèmes connectés en cascade

2.6 Notions de passivité et dissipativité

La propriété d'atténuation des perturbations est liée au concept de passivité suivant.

Dénition 2.13. (Van der Shaft (2000)) Un système non linéaire de la forme

x = f(x, ω)

z = h(x, ω) (1.6)

avec x(0) = x0 est localement dissipatif autour de (x, ω) = (0, 0) s'il existe une fonction

de stockage S(x) positive telle que S(0) = 0, et une fonction s(w, z) localement intégrable

pour tout ω, telles que

S(x)− S(x0) ≤∫ t

0

s(ω(τ), z(τ))dτ (1.7)

sur tout l'intervalle [0, t].

Si S(x) est diérentiable, l'équation (1.7) peut être mise sous la forme

S(x) ≤ s(ω, z) (1.8)

dS

dxf(x, ω) ≤ s(ω, h(x, ω)) (1.9)

Une particularité de s permet de dénir la passivité du système (1.6)

Dénition 2.14. (Van der Shaft (2000)) Le système (1.6) est dit passif s'il est dissipatif

et si la fonction s s'exprime par s(ω, z) = ωT z.

16


3 Commande H∞ des systèmes non linéaires générales

3.1 Formulation mathématique du problème

Soit le système non linéaire décrit par les équations suivantes

x = F (x, ω, u)

z = Z(x, ω, u) (1.10)

y = Y (x, ω)

La première équation est l'équation d'état du système ayant comme vecteur d'état x

dénit autour de l'origine de <n, comme vecteur de commande, u ∈ <m, et comme vecteur

d'entrée exogène, ω ∈ <r, qui peut englober les perturbations, les bruits de mesures et

les consignes. La seconde équation décrit la variable de pénalité z ∈ <s pouvant inclureles erreurs de poursuite ainsi que la commande u. Le choix de cette variable de pénalité

est guidé par les performances de la commande H∞ élaborées par un cahier de charge

prédéni. La troisième équation décrit la relation statique entre les sorties mesurées d'une

part y et les états x et perturbations ω d'autre part. Les fonctions F (x, ω, u), Z(x, ω, u)

et Y (x, ω) sont supposées lisses (fonctions de classe Ck, avec k susamment grand) et

dénies au voisinage de l'origine de <n ×<r ×<m.

Système

Contrôleur

z

yu

ω

Figure 1.2 Problème standard H∞

3.2 Objectifs de la commande

Le problème de la commande H∞ sous-optimale consiste à trouver un contrôleur (une

loi de commande) ayant comme entrées les sorties mesurées du système, y et produisant les

entrées de commande u, tel que le système non linéaire sous la forme standard représentée

sur la gure 1.2

17


1. soit asymptotiquement stable en boucle fermée ;

2. ait un L2-gain inférieur ou égale à un niveau γ donné, c.à.d. pour tout T ≥ 0 et

ω ∈ L2(0, T ), on ait ∫ T

0

‖z(τ)‖2dτ ≤ γ2

∫ T

0

‖ω(τ)‖2dτ (1.11)

On parle du problème d'atténuation de l'inuence des entrées exogènes ω sur la variable de

pénalité z. Le lien entre la dissipativité et le L2-gain d'un système non linéaire est mise en

évidence dans Van der Shaft (2000). Si le système (1.10) est localement asymptotiquement

stable et localement dissipatif avec

s(ω, z) = γ2‖ω‖2 − ‖z‖2 (1.12)

alors sa réponse, pour une entrée susamment petite et x(0) = 0, satisfait∫ t

0

(γ2‖ω(τ)‖2 − ‖z(τ)‖2)dτ ≥ S(x(t)) ≥ 0 (1.13)

pour tout t > 0. D'où (1.10) ait un L2-gain inférieur ou égale γ.

3.3 Hypothèses simplicatrices

Les hypothèses suivantes (Christen and Cirillo (1997)) sont nécessaires pour le déve-

loppement de la commande H∞ optimale non linéaire.

H1 F (0, 0, 0) = 0, Z(0, 0, 0) = 0 et Y (0, 0) = 0, c.à.d. (0, 0, 0) est un point d'équilibre du

système (1.10). Si ce n'est pas le cas, un changement de variables est susant pour

vérier cette hypothèse.

H2 La matrice

D11 =∂Z(x, ω, u)

∂ω

∣∣∣∣(0,0,0)

(1.14)

satisfait la condition σ(D11) < γ, avec σ est la plus grande valeur singulière de D11.

Ceci garanti la solvabilité du problème de la commande par retour d'état statique.

Cette hypothèse n'est guère un problème car la dénition de l variable de pénalité

z est de l'essor du cahier de charge prédénie.

H3 La matrice

D12 =∂Z(x, ω, u)

∂u

∣∣∣∣(0,0,0)

(1.15)

est telle queDT12D12 est inversible. Cette hypothèse permet la solvabilité du problème

de la commande par retour d'état.

18


H4 La matrice

D21 =∂Y (x, ω)

∂ω

∣∣∣∣(0,0)

(1.16)

est telle queDT21D21 est inversible. Cette hypothèse permet la solvabilité du problème

de la commande par retour des sorties mesurées.

H5 Pour toute trajectoire bornée du système (1.10) avec comme entrée exogène ω = 0

∀tZ(x, 0, u) = 0 ∀t ⇒ lim

t→∞x(t) = 0

Cette hypothèse permet de garantir la stabilité asymptotique du point d'équilibre.

3.4 Commande par retour d'état

L'objectif de la commande par retour d'état est de trouver une loi de commande

u = α(x) tel que le système en boucle fermée

x = F (x, ω, α(x))

z = Z(x, ω, α(x)) (1.17)

y = x

soit localement dissipatif pour s(ω, z) = γ2‖ω‖2 − ‖z‖2.

Dénissant le vecteur

ν =

[ω

u

]avec cette notation le système (1.17) devient

x = F (x, ν)

z = Z(x, ν) (1.18)

et γ2‖ω‖2 = νT

[γ2Ir 0

0 0

]ν.

La commande H∞ par retour d'état est considérée comme un jeu diérentiel à deux

joueurs ω et u. Le premier joueur ω tend à maximiser la fonction Hamiltonienne du jeux

(1.19) tandis que le deuxième joueur tend à minimiser (1.19). La fonction Hamiltonienne

(de Pontryagin) du jeu diérentiel est donnée par

H(x, p, ν) = pT X(x, ν) + ‖Z(x, ν)‖2 − νT[γ2Ir 0

0 0

]ν (1.19)

19


p est appelé le facteur de Lagrange.

L'optimum ν∗(x, p) de H(x, p, ν) au voisinage de (x, p) = (0, 0) est calculé par

∂H(x, p, ν)

∂ν

∣∣∣∣ν=ν∗(x,p)

= 0 (1.20)

avec ν∗(0, 0) = (0, 0).

La matrice Hessienne du Hamiltonien H est

∂2H(x, p, ν)

∂ν2

∣∣∣∣(x,p,ν)=(0,0,0)

= 2R = 2

[DT

11D11 − γ2Ir DT11D12

DT12D11 DT

12D12

]

La matrice R peut être factorisée comme suit R = NTMN avec

M =

[DT

11D11 − γ2Ir −DT11(D12TD12)−1 0

0 DT12D12

]

N =

[Ir 0

(D12TD12)−1DT12D11 Im

]

D'après l'hypophyse H2, l'élément diagonal supérieur de M est déni négatif, donc ω∗ est

un maximum du Hamiltonien H, en plus l'élément diagonal inférieur de M est toujours

déni positif, ce qui rend u∗ un minimum de H. Donc le point-selle ν∗ du Hamiltonien

vérie au voisinage de (x, p) = (0, 0)

H(x, p, ν)

∣∣∣∣ν=

ω

u∗(x, p)

≤ H(x, p, ν)

∣∣∣∣ν=

ω∗(x, p)u∗(x, p)

≤ H(x, p, ν)

∣∣∣∣ν=

ω∗(x, p)u

(1.21)

Supposant maintenant l'existence d'une fonction lisse non négative V (x) : <n → < dénie

au voisinage de x = 0, avec V (0) = 0 et posant

H∗(x, p) = H(x, p, ν∗)

D'après (1.21) on a

H(x, V Tx , ν) ≤ H∗(x, V

Tx )

Supposant aussi que V (x) satisfait

H∗(x, VTx ) ≤ 0 (1.22)

alors la loi de commande

u = u∗(x, VTx ) (1.23)

20


rend le système (1.17) satisfaisant l'inégalité suivante

VxF (x, ω, u∗) + ‖Z(x, ω, u∗)‖2 − γ2‖ω‖2 ≤ 0 (1.24)

c'est-à-dire localement dissipatif autour de (x, ω) = (0, 0). Les inégalités (1.22) et (1.24)

sont appelées les inégalités de Hamilton-Jacobi-Isaacs.

D'après l'hypothèse H5, le système non linéaire (1.17) avec la loi de commande (1.23)

est localement asymptotiquement stable. En eet, en prenant ω = 0, l'inégalité (1.24)

devienne

VxF (x, 0, u∗) + ‖Z(x, 0, u∗)‖2 ≤ 0

et comme Z(x, 0, u∗) est nulle pour toute trajectoire asymptotiquement stable (Hypothèse

H5), alors V (x) est une fonction de Lyapunov, c'est-à-dire

V (x) > 0

V (0) = 0

dV (x)

dt= VxF (x, 0, u∗) ≤ 0

D'après la seconde méthode de Lyapounov, le système non linéaire (1.17) avec la loi de

commande (1.23) est localement stable.

Remarque 3.1. Rappelant l'interprétation du problème par un jeu diérentiel à deux

joueurs. Le développement ci-dessus se résume comme suit : S'il existe une fonction V (x)

telle que H∗(x, V Tx ) = 0, alors la stratégie u = u∗(x, V

Tx ) est la meilleure stratégie pour

le joueur minimisant le Hamiltonien H∗ et la stratégie ω = ω∗(x, VTx ) est la pire stratégie

pour le joueur maximisant le Hamiltonien H∗. Comme ω est en général une perturba-

tion, alors ω∗(x, V Tx ) peut être interprétée comme la pire perturbation qui peut aecter le

système.

3.5 Commande par retour de sortie

On considère dans cette section le cas ou les états ne sont pas disponibles en mesure

mais plutôt observables via un observateur. On parle d'un retour de sorties mesurées. Le

schéma fonctionnel d'une telle commande nécessitant un observateur d'état est donnée

par la gure 1.3

3.5.1 Condition nécessaire pour le retour de sortie

Soit le Hamiltonien K : <n ×<n ×<r ×<p → < déni par

K(x, p, ω, y) = pTF (x, ω, 0)− yTY (x, ω) + ‖Z(x, ω, 0)‖2 − γ2‖ω‖2 (1.25)

21


Système

ObservateurContrôleurξ

z

yu

ω

Figure 1.3 Problème standard H∞ avec retour de sortie

Puisque∂2K(x, p, ω, y)

∂ω2

∣∣∣∣(x,p,ω,y)=(0,0,0,0)

= 2(DT11D11 − γ2Ir) < 0 (1.26)

il existe une fonction lisse ω(x, p, y) au voisinage de (0, 0, 0) tel que

∂K(x, p, ω, y)

∂ω

∣∣∣∣ω=ω(x,p,y)

= 0, ω(0, 0, 0) = 0 (1.27)

La solution de l'équation (1.27) est donnée par

ω(x, p, y) = −(2(DT11D11 − γ2Ir))

−1(2DT11C1x+BT

1 p−DT21y) (1.28)

avec C1 = ∂Z(x,ω,u)∂x

∣∣∣∣(0,0,0)

et B1 = ∂F (x,ω,u)∂ω

∣∣∣∣(0,0,0)

.

De même, on a

∂2K(x, p, ω(x, p, y), y)

∂y2

∣∣∣∣(x,p,y)=(0,0,0)

= −1

2D21(DT

11D11 − γ2Ir)−1DT

21 > 0 (1.29)

alors, il existe une fonction lisse y∗(x, p) au voisinage de (0, 0) solution de l'équation

suivante∂K(x, p, ω(x, p, y), y)

∂y

∣∣∣∣y=y∗(x,p)

= 0, y∗(x, p)(0, 0) = 0 (1.30)

La solution de l'équation (1.30) est donnée par

y∗(x, p) = −(D21(DT11D11 − γ2Ir)

−1DT21)−1

× (2(C2 −D21(DT11D11 − γ2Ir)

−1DT11C1)x−D21(DT

11D11 − γ2Ir)−1BT

1 p) (1.31)

22


avec C2 = ∂Y T (x,ω)∂x

∣∣∣∣(x,p,y)=(0,0,0)

.

voir l'annexe A pour plus de détails concernant les équations (1.28), (1.29) et (1.31).

En dénissant la nouvelle variable

ω∗∗ = ω(x, p, y∗(x, p))

et d'après (1.26) et (1.29) on obtient au voisinage de (0, 0, 0, 0) les inégalités suivantes

K(x, p, ω, y) ≤ K(x, p, ω(x, p, y), y)

K(x, p, ω(x, p, y), y) ≥ K(x, p, ω∗∗(x, p), y∗(x, p))(1.32)

Thèoreme 3.1. (Christen and Cirillo (1997))

Pour le système non linéaire (1.10), et la loi de commande par retour de sortie

ξ = η(ξ, y), η(0, 0) = 0

u = θ(ξ), θ(0) = 0

s'il existe une fonction lisse dénie positive, U(x, ξ), qui satisfait l'inégalité

[Ux(x, ξ) Uξ(x, ξ)

][F (x, ω, θ(ξ))

η(ξ, Y (x, ω))

]+ ‖Z(x, ω, θ(ξ))‖2 − γ2‖ω‖2 ≤ 0 (1.33)

pour tout (x, ξ, ω) au voisinage de (0, 0, 0), alors la fonction dénie positive W (x) =

U(x, 0) satisfait l'inégalité HJI suivante

K(x,W Tx (x), ω∗∗(x,W

Tx (x)), y∗(x,W

Tx (x))) ≤ 0 (1.34)

pour tout x au voisinage de 0.

Démonstration. En posant ξ = 0 dans (1.33), on obtient

Wx(x)F (x, ω, 0) + Uξ(x, 0)η(0, Y (x, ω)) + ‖Z(x, ω, 0)‖2 − γ2‖ω‖2 ≤ 0 (1.35)

Puisque η(0, 0) = 0, on peut toujours trouver une fonction lisse P (x, y) tel que on a

Uξ(x, 0)η(0, y) = −P (x, y)y

alors l'inégalité (1.35) devienne

Wx(x)F (x, ω, 0)− P T (x, Y (x, ω))Y (x, ω) + ‖Z(x, ω, 0)‖2 − γ2‖ω‖2 ≤ 0

23


avec ω = ω(x,W Tx (x), y) cette dernière devienne

K(x,W Tx (x), ω(x,W T

x (x), y), P (x, Y (x, ω(x,W Tx (x), y)))) ≤ 0

Posant maintenant y = y(x) solution de y(x) = P (x, Y (x, ω(x,W Tx (x), y(x)))) on obtient

donc


x (x), y(x)), y(x)) ≤ 0

D'après (1.32), on obtient nalement


Tx (x)), y∗(x,W

Tx (x))) ≤ 0

3.5.2 Loi de commande par retour de sortie

Thèoreme 3.2. (Christen and Cirillo (1997))

Considérant le système non linéaire décrit par l'équation (1.10) et soit les hypothèses

suivantes

i) Les hypothèse H1 à H5 sont vériés,

ii) L'inégalité (1.22) est vérié,

iii) L'inégalité


Tx (x)), y∗(x,W

Tx (x)))−H∗(x, V T

x (x)) ≤ 0 (1.36)

possède une solution W (x) > 0, avec W (0) = 0,

iv)

Wx(x)− Vx(x) > 0 ∀x 6= 0

v) La matrice Hessienne de (1.36) est non singulière au point x = 0 et l'équation

(W (x)− V (x))G(x) = yT∗ (x,W Tx (x)) (1.37)

possède une solution lisse G(x)

Alors la loi de commande suivante

ξ = F (ξ, ω∗(ξ, VTξ (ξ)), u∗(ξ, V

Tξ (ξ))) +G(ξ)(y − Y (ξ, ω∗(ξ, V

Tξ (ξ))))

u = u∗(ξ, VTξ (ξ)) (1.38)

stabilise asymptotiquement le système autour de (x, ξ) = (0, 0) avec un L2-gain ≤ γ.

24


Démonstration. Voir l'annexe A.

Remarque 3.2. (Isidori and Kang (1995), Christen and Cirillo (1997))

Le gain G(x), de l'observateur non linéaire (1.38), peut être calculé de la manière suivante :

on extrait xT de Wx(x)− Vx(x) et de yT∗ (x,W Tx (x)) tel que

Wx(x)− Vx(x) = xTR1(x)

yT∗ (x,W Tx (x)) = xTL(x)

puis on obtient facilement

G(x) = R−11 (x)L(x)

Remarque 3.3. Les deux signaux ω∗∗(x,W Tx (x)) et y∗(x,W T

x (x)) sont interprétés comme

dans le cas de la commande par retour d'état. En eet, ω∗∗(x,W Tx (x)) maximise le Ha-

miltonien K, tandis que y∗(x,W Tx (x)) le minimise. Donc, ω∗∗(x,W T

x (x)) est interprétée

comme la pire perturbation qui tend à augmenter la norme de la variable de pénalité z et

y∗(x,WTx (x)) est le signal de commande qui tend de réduire l'eet de ω sur z.

4 Commande H∞ des systèmes non linéaires anes

Dans la section précédente, il a été impossible d'aboutir à une loi de commande ex-

plicite dû à la nature générale des fonctions F , Z et Y . Dans cette section nous nous

intéressons aux systèmes non linéaires de type ane.

Nous appelons système non linéaire ane (en état ou en entrée) un système dont la

représentation d'état prend l'une des formes suivantes

• Ane en état :

x = f(ω, u)x+ g1(ω) + g2(u)

z = h1(ω, u)x+ k11(ω) + k12(u)

y = h2(ω, u)x+ k21(ω)

• Ane en entrée exogène et en commande :

x = f(x) + g1(x)ω + g2(x)u

z = h1(x) + k11(x)ω + k12(x)u (1.39)

y = h2(x) + k21(x)ω

Nous nous intéressons dorénavant aux systèmes non linéaires anes en entrée exogène

25


et en commande. Avec ce type de représentation il sera possible d'aboutir à des lois de

commandes explicites non plus générales comme dans le cas précédant.

4.1 Commande par retour d'état

Dans la commande par retour d'état les états sont accessible en mesure, c.à.d y = x.

Le système sera donc décrit par les équations suivantes

x = f(x) + g1(x)ω + g2(x)u(x)

z = h1(x) + k11(x)ω + k12(x)u(x) (1.40)

Les fonctions f(x), g1(x) et g2(x) sont non linéaires lisses de dimensions appropriées.

Le système (1.40) est supposé avoir un point d'équilibre á l'origine de <n, donc, sansperdre de généralité, nous supposons que f(0) = 0 et h1(0) = 0.

Le choix de la variable de pénalité z est assez large. Si le problème de la commande est

de minimiser l'erreur, x = 0, nous avons zT z = xTx, ou zT z = xTQx (h1(x) = Q1/2x et

k12(x) = 0), avec Q = QT ≥ 0 est une matrice symétrique semi-dénie positive, décrivant

les poids relatifs à chaque état. Si l'objectif est la minimisation de l'énergie du signal de

commande, nous choisirons zT z = uTu ou zT z = uTRu (h1(x) = 0 et k12(x) = R1/2),

avec R = RT > 0 est une matrice symétrique dénie positive décrivant les poids relatifs à

chaque commande. Nous pouvons combiner les deux objectifs pour avoir le critère général

suivant

zT z = xTQx+ uTRu (1.41)

Si nous désirons avoir une convergence rapide vers le point d'équilibre nous devons aug-

menter Q largement par rapport à R. Par contre si nous souhaitons conserver de l'énergie

nous devons cette fois-ci augmenter R largement par rapport à Q.

Dans le cas de la commande non linéaire, h1(x) et k12(x) sont, en général, des fonctions

non linéaires lisses quelconques, non pas forcement quadratiques.

Pour simplier l'analyse, les hypothèses suivantes sont imposées (Isodori and Astol

(1992), Van der Shaft (1992), Isidori and Kang (1995), Van der Shaft (2000))

k11(x) = 0

hT1 (x)k12(x) = 0 (1.42)

kT12(x)k12(x) = I

Ces dernières sont dites les hypothèses simplicatrices de Doyle-Glover-Khargonekar-

Francis (DGKF).

La première hypothèse est évidente, puisqu'en général, il n'y a pas une relation directe

entre les entrées exogènes et la variable de pénalité z. Nous parlons, dans ce cas, d'un

26


retour d'état statique. Les deux autres hypothèses imposent d'une part une orthogonalité

entre h1(x) et la commande u dans la norme de z et d'autre part, une matrice de pon-

dération R égale à la matrice identité. La variable de pénalité z sera écrite sous la forme

suivante

z =

[h1(x)

u

]et sa norme sera ‖z‖2 = zT z = ‖h1(x)‖2 + ‖u‖2.

Le problème de la commande H∞ optimal par retour d'état est de trouver la plus petite

valeur γ∗ ≥ 0 et une loi de commande par retour d'état associée, u∗(x), telle que pour toute

valeur de γ > γ∗, le système décrit par (1.40) est asymptotiquement stable et possédé

un L2-gain inférieur ou égale à γ > 0. Le principe de la commande H∞ sous-optimal par

retour d'état est mis en évidence par le théorème suivant

Thèoreme 4.1. Soit γ > 0. S'il existe une fonction V (x), dénie positive, solution de

l'équation de Hamilton-Jacobi-Isaacs (HJI) suivante

Vx(x)f + hT1 h1 +1

4Vx(x)

(1

γ2g1g

T1 − g2g

T2

)V Tx (x) = 0, V (x0) = 0 (1.43)

alors, avec la loi de commande suivante

u∗(x) = −1

2gT2 V

Tx (x) (1.44)

le système en boucle fermée (1.40)-(1.44) est asymptotiquement stable et possédé un L2-

gain ≤ γ.

Démonstration. En utilisant les équation intermédiaires suivantes

gT2 VTx (x) = −2u∗(x)

γ2‖ω − 1

2γ2gT1 Vx(x)T‖2 = γ2‖ω‖2 +

1

4γ2Vx(x)g1g

T1 V

Tx (x)− Vx(x)g1ω

et en complétant les carrés dans l'équation (1.43), nous obtiendrons facilement

dV

dt= Vx(x)f + Vx(x)g1ω + Vx(x)g2u

=

∥∥∥∥u+1

2gT2 V

Tx (x)

∥∥∥∥2

− γ2

∥∥∥∥ω − 1

2γ2gT1 V

Tx (x)

∥∥∥∥2

− ‖h1‖2 − ‖u‖2 + γ2‖ω‖2 (1.45)

27


avec la loi de commande (1.44) et la norme de z, on aurons

dV

dt= −γ2

∥∥∥∥ω − 1

2γ2gT1 V

Tx (x)

∥∥∥∥2

− ‖z‖2 + γ2‖ω‖2

≤ −‖z‖2 + γ2‖ω‖2 (1.46)

L'intégration de dV/dt, de t = 0 à t = T ≥ 0, donne∫ T

0

‖z(t)‖2dt ≤ γ2

∫ T

0

‖ω(t)‖2dt+ V (x0)− V (x(T )) (1.47)

puisque V (x0) = 0 et V > 0, nous concluons que le système (1.40) possédé un L2-gain

≤ 0.

Pour démontrer la stabilité du système en boucle fermée nous posons ω = 0 et nous

obtiendrons ainsi

dV

dt= −γ2

∥∥∥∥ 1

2γ2gT1 V

Tx (x)

∥∥∥∥2

− ‖z‖2 ≤ −‖z‖2 ≤ 0

donc, le système en boucle fermée est stable. Pour démontrer sa stabilité asymptotique,

on remarque que n'importe quelle trajectoire vériant

dV

dt= 0

est telle que h1(x(t)) = 0 et u = 0 pour t ≥ 0. En remplaçant dans (1.40), nous aurons

x = f(x)

z = h1(x)

Maintenant, si (f, h1) est détectable (h1(x) = 0 implique limt→∞ x(t) = 0) alors, selon le

théorème de LaSalle, le point d'équilibre est asymptotiquement stable.

Remarque 4.1. Le problème de la commande H∞ par retour d'état est considéré comme

un jeu diérentiel à deux joueurs (Abu-Khalaf (2005b)) :

minu

maxω

H(x, V Tx , ω, u) = max

ωminuH(x, V T

x , ω, u) = 0 (1.48)

tel que

H(x, V Tx , ω, u) = Vx(f(x) + g1(x)ω + g2(x)u) + ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 (1.49)

La condition (1.48) est dite condition d'Isaacs.

La stratégie u = u∗(x), donnée par (1.44), est obtenue en minimisant le Hamiltonien H

28


en utilisant les conditions d'optimalité de Bellman suivantes

∂H

∂u|u=u∗ = gT2 V

Tx + 2u = 0,

∂2H

∂u2= −2 > 0

Elle est considérée comme la meilleure stratégie pour le joueur minimisant le Hamiltonien

H.

Maintenant, en maximisant le Hamiltonien H avec les conditions d'optimalité suivantes

∂H

∂ω|ω=ω∗ = gT1 V

Tx − 2γ2ω = 0,

∂2H

∂ω2= −2γ2 < 0

nous aurons

ω∗(x) =1

2γ2gT1 V

Tx (x) (1.50)

Cette dernière est considérée comme la pire perturbation qui peut aecter le système. En

remplaçant (1.44) et (5.20) dans le Hamiltonien H donné par (1.49) l'équation HJI (1.43)

découle.

4.1.1 Exemple

C'est un système 1-D (n = 1), (Van der Shaft (2000)), décrit par l'éqution d'état

suivante

x = x2 + x(ω + u)

z =

[x

u

]

Le point d'équilibre du système est 0. L'équation HJI correspondante est donnée par

1

4(Vx)

2

(1− γ2

γ2

)+ Vx + 1 = 0

ayant comme solution pour γ > 1

V (x) =2(1 +

√2γ2 − 1)γ

γ2 − 1|x|

La commande u∗(x) est ainsi donnée par

u∗(x) = −(1 +√

2γ2 − 1)γ

γ2 − 1|x|

La simulation du système en boucle fermée pour la condition initiale x0 = 1 et γ = 2,

montre la convergence du point d'équilibre vers 0. (voir gure 1.4)

29


0 5 10 15 20 25 30 35 40 45 50−2.5

−2

−1.5

−1

−0.5

0

0.5

1

temps [sec]

x,u

xu

Figure 1.4 Évolution de l'état x(t) et de la commande u(t) (Exemple 4.1.1)

4.1.2 Cas Particulier : Systèmes linéaires anes

Dans ce paragraphe, nous allons étudier, dans un esprit similaire au paragraphe pré-

cédent, les relations entre le problème de la commande H∞ des systèmes non linéaires et

le problème de la commande H∞ des systèmes linéarisés correspondantes. En particulier,

nous allons voir que si la commande H∞ par retour d'état est solvable pour les systèmes

linéaires, elle est aussi pour les systèmes non linéaires autour du point d'équilibre. Ces ré-

sultats sont très utiles du fait que la commande H∞ linéaire est facile à obtenir. D'ailleurs,

plusieurs méthodes existent pour la synthèse d'une telle commande. Nous pouvons citer,

par exemple, la méthode de résolution fondée sur les équations de Riccati et la méthode

de résolution fondée sur les LMI.

La linéarisation du système (1.40) autour du point d'équilibre x = 0 donne

x = Ax+B1ω +B2u

z = C1x+D12u (1.51)

avec

A =∂f

∂x

∣∣∣∣x=0

, B1 = g1(0), B2 = g2(0)

C1 =∂h1

∂x

∣∣∣∣x=0

, D12 = k12(0)

30


Ces matrices sont obtenues par développement en série de Taylor, autour de x = 0 et en

prenant seulement les premiers termes

f(x) ' f(0) +∂f

∂x

∣∣∣∣x=0

x = Ax,

g1(x) ' B1,

g2(x) ' B2,

h1(x) ' h1(0) +∂h1

∂x

∣∣∣∣x=0

x = C1x,

k12(x) ' D12

Les hypothèses (1.42) deviennent

CT1 D12 = 0

DT12D12 = I

Maintenant, en choisissant V (x) = xTPx, telle que P est symétrique et dénie positive

l'équation HJI (1.59) devienne une équation algébrique de Riccati (ARE) donnée par

PA+ ATP + P (1

γ2B1B

T1 −B2B

T2 )P + CT

1 C1 = 0 (1.52)

Thèoreme 4.2. Supposant que (A,C1) est détectable, et soit γ > 0, alors il existe un

retour d'état statique

u = −BT2 Px (1.53)

tel que, le système en boucle fermée (1.51)-(1.53) est asymptotiquement stable et possède

un L2-gain ≤ γ, si et seulement s'il existe une matrice P ≥ 0 solution de l'équation de

Riccati (1.52).

Démonstration. Nous choisissons comme fonction de Lyapounov V (x) = xTPx, telle que

P est symétrique dénie positive solution de l'équation de Riccati (1.52). Sa dérivée totale

est donnée par

V = Vxx = 2xTP (Ax+B1ω +B2u) (1.54)

en utilisant (1.52) et en complétant les carrés, (1.54) devienne

V = γ2‖ω‖2 − ‖u‖2 − ‖C1x‖2 − γ2‖ω − 1

γ2BT

1 Px‖2 + ‖u+BT2 Px‖2

= γ2‖ω‖2 − ‖z‖2 − γ2‖ω − 1

γ2BT

1 Px‖2

≤ γ2‖ω‖2 − ‖z‖2

31


L'intégration de V entre 0 et T donne∫ T

0

‖z(t)‖2dt ≤ γ2‖ω(t)‖2dt+ V (0)− V (T ) ≤ γ2‖ω(t)‖2dt

puisque V (0) = 0 et V > 0. Cela prouve que le système en boucle fermée possède un

L2-gain ≤ γ.

Pour démontrer la stabilité, nous posons ω = 0, nous obtiendrons ainsi

V ≤ −‖z‖2 ≤ 0

donc le point d'équilibre du système en boucle fermée est stable.

Pour démontrer sa stabilité asymptotique, il sut de remarquer que V est nulle pour une

trajectoire nulle ,c.à.d, limt→∞ x(t) = 0. D'après le principe d'invariance de LaSalle le

point d'équilibre du système en boucle fermée est asymptotiquement stable.

4.2 Commande par retour d'état avec contraintes sur la com-

mande

Dans le domaine industriel, où nous avons recours à une implémentation, la commande

agissante sur les actionneurs doit être bornée. Ceci est justié par un souci de protection

du système à contrôler où une forte action peut le détériorer, et une faible action est sans

eet.

La fonction la plus usuelle utilisée pour limiter un signal de commande est la fonction

Sat+1−1 donnée par

Sat+1−1(u) =

−1 si u < −1;

u si −1 ≤ u ≤ +1;

+1 si u > +1.

Cette fonction n'est pas dérivable, ce qui pose un problème lors de l'implémentation. Il est

donc judicieux de remplacer Sat+1−1 par une autre fonction qui change de transition de −1

à −1 progressivement et de manière lisse. Nous pouvons choisir par exemple la fonction

tangente hyperbolique donnée par

tanh(u) =eu − e−u

eu + e−u

La gure 1.5 illustre la similitude entre les deux fonctions.

32


−2 −1 0 1 2−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

( · )

u

Sat+1

-1 ( · )tanh( · )

Figure 1.5 Commande saturée : Sat+1−1(u) et tanh(u)

Dans le cas général où φ(·) est une fonction utilisée pour limiter la commande u, elle doit

être bornée, monotone croissante élément-à-élément (cas multi-variable) et impaire. Ly-

shevski (Lyshevski, 2001) a introduit la fonction générale non quadratique suivante dans

le cas de la commande optimale des systèmes non linéaires

W (u) = 2

∫ u

0

φ−T (v)dv = 2m∑k=1

∫ uk

0

φ−1(vk)dvk (1.55)

où W (u) est un scalaire et

φ(v) =[φ(v1) · · · φ(vm)

]Tφ−T (v) =

[φ−1(v1) · · · φ(vm)−1

]La norme de la variable de pénalité z sera donc donnée par

‖z‖2 = zT z = ‖h1(x)‖2 +W (u)

33


La résolution du problème H∞ non linéaire dans le cas de la commande contrainte est

équivalente à la résolution de l'équation HJI suivante

H(x, V Tx , u∗, ω∗) = Vx(f(x) + g1(x)ω∗ + g2(x)u∗) + ‖h1‖2 +W (u∗)− γ2‖ω∗‖2 = 0

= Vx(f(x) + g1(x)ω∗ + g2(x)u∗) + ‖h1‖2 + 2

∫ u∗

0

φ−T (v)dv

− γ2‖ω∗‖2 = 0 (1.56)

tel que (u∗, ω∗) est le point-selle du Hamiltonien H(x, V Tx , u, ω).

La meilleure stratégie (du jeu diérentiel) u∗(x) est obtenue en minimisant le Hamiltonien

H. En utilisant les conditions d'optimalité suivantes

∂H

∂u

∣∣∣∣u=u∗

= gT2 VTx + 2φ−1(u) = 0,

∂2H

∂u2= 2

dφ−1(u)

du> 0

nous obtiendrons

u∗(x) = φ(−1

2gT2 V

Tx (x)) (1.57)

La pire perturbation ω∗ reste inchangée et est donnée par (5.20).

Si nous remplaçons (1.57) et (5.20) dans le HamiltonienH (1.56), nous obtiendrons l'équa-

tion de HJI donnée par

Vxf(x)− Vxg2φ(1

2gT2 V

Tx ) + ‖h1‖2 + 2

∫ −φ( 12gT2 V

Tx (x))

0

φ−T (v)dv

+1

4γ2Vxg1g

T1 V

Tx = 0 (1.58)

Thèoreme 4.3. Soit γ > 0. Supposant que (f, h1) est détectable (voir dénition 6.1), s'il

existe une fonction V (x), dénie positive, solution de l'équation de Hamilton-Jacobi-Isaacs

(HJI) suivante

Vx(x)f + ‖h1‖2 +1

4Vx(x)

(1

γ2g1g

T1

)V Tx (x) +W (u∗) + Vxg2u∗ = 0 V (x0) = 0 (1.59)

alors le système en boucle fermée (1.18)-(1.57) est asymptotiquement stable et possède un

L2-gain ≤ γ.

Démonstration. Elle est similaire à celle des théorèmes 4.1 et 4.2. En eet, nous pouvons

écrire facilement

dV

dt= −‖h1‖2 −W (u∗)︸︷︷︸

‖z‖2|u=u∗

+γ2‖ω‖2 − γ2

∥∥∥∥ω − 1

2γ2gT1 V

Tx (x)

∥∥∥∥2

− Vxg2(u∗ − u)

34


En introduisant (1.57) nous aurons

dV

dt= −γ2

∥∥∥∥ω − 1

2γ2gT1 V

Tx (x)

∥∥∥∥2

− ‖z‖2 + γ2‖ω‖2

≤ −‖z‖2 + γ2‖ω‖2 (1.60)

Après intégration entre t = 0 et t = T ≥ 0 nous obtiendrons∫ T

0

‖z(t)‖2dt ≤ γ2

∫ T

0

‖ω(t)‖2dt+ V (x0)− V (x(T )) ≤ γ2

∫ T

0

‖ω(t)‖2dt (1.61)

Cela dit, le système (1.18)-(1.57) possède un L2-gain ≤ 0.

Pour démontrer la stabilité du système en boucle fermée, posant ω = 0. l'équation (1.60)

deviennedV

dt= −γ2

∥∥∥∥ 1

2γ2gT1 V

Tx (x)

∥∥∥∥2

− ‖z‖2 ≤ 0

Donc le système en boucle fermée est stable au sens de Lyapounov. Pour démontrer sa

stabilité asymptotique, il sut de remarquer que n'importe quelle trajectoire vériant,

pour ω = 0dV

dt= −γ2

∥∥∥∥ 1

2γ2gT1 V

Tx (x)

∥∥∥∥2

− ‖h1‖2 −W (u) = 0

est telle que h1(x(t)) = 0. Puisque (f, h1) est détectable, c.à.d., h1(x) = 0⇒ limt→∞ x(t) =

0, donc le point d'équilibre x = 0 est asymptotiquement stable (principe d'invariance de

LaSalle).

Remarque 4.2. Si la commande u est limitée dans l'intervalle |u| ≤ A, nous pouvons

choisir comme fonction de saturation, la fonction φ(v) = A tanh(v/A), ainsi la commande

saturée sera donnée par

u∗(x) = A tanh(−1

2gT2 V

Tx (x)/A) (1.62)

La fonction non quadratique devienne

W (u) = 2

∫ u

0

A tanh−1(v/A)dv = 2Au tanh−1(u/A) + A2 ln(1− u2/A2) (1.63)

La gure 1.6 illustre clairement qu'un tel choix de W (u) est dèlement proche à la forme

quadratique de u utilisée dans la synthèse de la commande sans contraintes.

En remplaçant (1.62) et (1.63) dans l'équation HJI (1.58) nous obtiendrons une forme

plus simple à utiliser dans le cas de la commande H∞ par retour d'état avec contraintes

sur la commande

Vxf(x) + ‖h1‖2 +1

4γ2Vxg1g

T1 V

Tx + A2 ln(1− tanh2(−1

2gT2 V

Tx (x)/A)) = 0 (1.64)

35


−1 0 10

0.2

0.4

0.6

0.8

1

u

W(u)

u2

2∫

tanh-1(u)

Figure 1.6 Coût quadratique et non quadratique

5 Commande H∞ par retour d'état des systèmes non

linéaire discrets

Dans cette section la commande H∞ des systèmes non linéaires anes discrets obte-

nus par discrétisation des systèmes continus données par (1.40) est détaillée. Soit ∆T la

période de discrétisation et notant tous les signaux x, u, ω et z à l'instant t = k∆T res-

pectivement par xk, uk, ωk et zk. Si nous utilisons l'approximation suivante de la dérivée,

dite méthode d'Euler

x ' xk+1 − xk∆T

le système (1.40) devient

xk+1 = ∆Tf(xk) + ∆Tg1(xk)ωk + ∆Tg2(xk)uk + xk

zk = h1(xk) + k11(xk)ωk + k12(xk)uk

Une écriture plus générale d'un système discret non linéaire ane est donnée par

xk+1 = f(xk) + g1(xk)ωk + g2(xk)uk

zk = h1(xk) + k11(xk)ωk + k12(xk)uk (1.65)

Les fonctions f, g1, g2, h1, k11 et k12 sont toujours lisses et le système (1.65) possède un

point d'équilibre à l'origine.

36


Les hypothèses (1.42) sont toujours maintenues dans le cas discret, avec

k11(xk) = 0

hT1 (xk)k12(xk) = 0 (1.66)

kT12(xk)k12(xk) = I

Nous envisageons, dans ce qui suit, le cas où seulement l'état est disponible dans la loi de

commande (commande par retour d'état)

uk = F (xk) (1.67)

où F1 : <n → <n est une fonction lisse tel que F1(0) = 0.

L'objectif de la commande H∞ est :

1. assurer la stabilité asymptotique du point d'équilibre du système en boucle fermée

(1.65)-(1.67),

2. diminuer l'inuence des entrées exogènes sur la variable de pénalité z. En d'autre

terme, le système en boucle fermée ait un L2-gain inférieur ou égale à un niveau γ

donné, c.à.d. pour tout k ∈ [0, N ] (N est un entier positif) et ωk ∈ L2(0, N), nous

aurionsN∑k=0

‖zk‖2 ≤ γ2

N∑k=0

‖ωk‖2 ∀N (1.68)

La dénition du L2-gain dans la cas discret peut être déduite directement de celle

du cas continu.

5.1 Commande H∞ discrète et jeu diérentiel non coopératif

Soit le système discret (1.65) et la fonction coût à horizon ni suivante

V (xk, uk, ωk) =N∑i=k

(‖zi‖2 − γ2‖ωi‖2

)(1.69)

=N∑i=k

(‖hi‖2 + ‖ui‖2 − γ2‖ωi‖2

)(1.70)

avec V (xN+1, uN+1, ωN+1) = 0.

L'objectif est de, simultanément, minimiser V (xk, uk, ωk) par uk = u∗k(xk) (Joueur 1) et

maximiser V (xk, uk, ωk) par ωk = ω∗k(xk) (Joueur 2). Une telle solution, (u∗k, ω∗k), si elle

existe est basée sur le théorème suivant, inspirée de celui de la commande optimale non

linéaire H2 (Chen and Jagannathan (2008)) et des travaux de Mehraeen et al. (2009) et

Zhang et al. (2009)

37


Thèoreme 5.1. Considérant un jeu diérentiel à deux joueurs et à somme nulle. Un

point-selle (u∗k, ω∗k) est une solution du jeu, c.à.d.

V (xk, u∗k, ω) ≤ V (xk, u

∗k, ω

∗k) ≡ V ∗(xk) ≤ V (xk, uk, ω

∗k) ∀u, ∀ω

ou

V ∗(xk) = minuk

maxωk

V (xk, uk, ωk)

= max

ωk

minuk

V (xk, uk, ωk)

(1.71)

si et seulement si V ∗(xk) est solution de l'équation HJI discrète suivante

0 = ‖hk‖2 − 1

4

∂V ∗(xk+1)

∂xk+1

1

γ2g1(xk)g

T1 (xk)− g2(xk)g

T2 (xk)

∂TV ∗(xk+1)

∂xk+1

+ V ∗(xk+1)− V ∗(xk) (1.72)

Démonstration. Soit la fonction Hamiltonienne suivante associée au jeu diérentiel (1.65)-

(1.69)

H(xk, uk, ωk) = V (f(xk) + g1(xk)ωk + g2(xk)uk, uk, ωk)− V (xk, uk, ωk)

+ ‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2 (1.73)

En utilisant le développement en série de Taylor d'ordre 1 de V (xk+1, uk, ωk) autour de

xk

V (xk+1, uk, ωk) = V (xk, uk, ωk) +∂V (xk+1, uk, ωk)

∂xk+1

(xk+1 − xk) (1.74)

la fonction Hamiltonienne devient

H(xk, uk, ωk) =∂V (xk+1, uk, ωk)

∂xk+1

(f(xk) + g1(xk)ωk + g2(xk)uk − xk)

+ ‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2

Les conditions nécessaires d'optimalité de Bellman, c.à.d, ∂H/∂uk = 0, ∂H/∂ωk = 0

donnent

∂H(xk, uk, ωk)

∂uk= 2uk + gT2 (xk)

∂TV (xk+1, uk, ωk)

∂xk+1

= 0

∂H(xk, uk, ωk)

∂ωk= −2γ2ωk + gT1 (xk)

∂TV (xk+1, uk, ωk)

∂xk+1

= 0

Le point-selle est donc donné par la meilleure et la pire stratégie du jeu diérentiel sui-

38


vantes

u∗k = −1

2gT2 (xk)

∂TV ∗(xk+1)

∂xk+1

(1.75)

ω∗k =1

2γ2gT1 (xk)

∂TV ∗(xk+1)

∂xk+1

(1.76)

Maintenant, d'après la dénition de V ∗(xk) (1.71), l'équation suivante s'obtienne

V ∗(xk) = ‖h1(xk)‖2 + ‖u∗k‖2 − γ2‖ω∗k‖2 + V ∗(xk+1) (1.77)

qui peut être réécrite sous la forme suivante

0 =∂V ∗(xk+1)

∂xk+1

(f(xk) + g1(xk)ω∗k + g2(xk)u

∗k − xk) + ‖h1(xk)‖2 + ‖u∗k‖2− γ2‖ω∗k‖2 (1.78)

Si nous remplaçons les équations (1.75) et (1.76) dans (1.78) l'équation HJI discrète (1.72)

découle facilement.

Remarque 5.1. Puisque le système discret (1.65) est ane en commande uk et en pertur-

bation ωk, et le Hamiltonien H(xk, uk, ωk) est quadratique en uk et ωk, nous avons

∂2H(xk, uk, ωk)/∂u2k = 2 > 0 et ∂2H(xk, uk, ωk)/∂ω

2k = −2γ2 < 0. Donc

H(xk, u∗k, ωk) ≤ H(xk, u

∗k, ω

∗k) ≤ H(xk, uk, ω

∗k) (1.79)

et

H(xk, u∗k, ω

∗k) = V ∗(xk+1)− V ∗(xk) + ‖h1(xk)‖2 + ‖u∗k‖2 − γ2‖ω∗k‖2 = 0 (1.80)

Le théorème précédant nous a donné la solution, (u∗k, ω∗k), du jeu diérentiel non co-

opératif associé à la commande H∞ par retour d'état, par contre le principal théorème

traitant l'atténuation des perturbations et la stabilité asymptotique est le suivant.

Thèoreme 5.2. (Lin and Byrnes, 1996) Soit γ > 0 et l'hypothèse suivante

H1) Le système suivant

xk+1 = f(xk) + g1(xk)ω∗k + g2(xk)u

∗k (1.81)

possède un point d'équilibre xk = 0 asymptotiquement stable.

S'il existe une fonction V ∗, solution de l'équation HJI discrète (1.72) ou (1.78), alors, avec

la loi de commande (1.75), le système en boucle fermée (1.65)-(1.75) est asymptotiquement

stable et possède un L2-gain ≤ γ.

Démonstration. D'après (1.79) et (1.80), l'inégalité suivante découle

H(xk, u∗k, ωk) ≤ 0

39


ou

V (xk+1, u∗k, ωk)− V (xk, u

∗k, ωk) ≤ γ2‖ωk‖2 − (‖h1(xk)‖2 + ‖u∗k‖2)︸︷︷︸

‖zk‖2|uk=u∗k

(1.82)

Donc le système déni par son entrée ωk et sa sortie zk est dissipatif pour une fonction

de stockage V (xk, u∗k, ωk) et par conséquence possède un L2-gain ≤ γ (voir 2.6).

Pour démontrer la stabilité du système, nous posons ωk = 0 dans l'équation (1.82), ce qui

donne une stabilité au sens de Lyapounov du point d'équilibre xk = 0 du système

xk+1 = f(xk) + g2(xk)u∗k

Pour démontrer la stabilité asymptotique nous avons besoin d'une analyse plus ne.

Le développement en série de Taylor, d'ordre deux, de H(xk, u∗k, ωk) autour de ω

∗k donne

H(xk, u∗k, ωk) = H(xk, u

∗k, ω

∗k) +

1

2(ωk − ω∗k)TR22(ωk − ω∗k) +O(‖ωk − ω∗k‖)

où R22 = ∂2H(xk, u∗k, ωk)/∂

2ωk|ωk=ω∗k= −2γ2 < 0.

Puisque H(xk, u∗k, ω

∗k) = 0, et en posant ωk = 0, il vient que

H(xk, u∗k, 0) =

1

2(ω∗k)

TR22(ω∗k) ≤1

4(ω∗k)

TR22(ω∗k)

ou

V (xk+1, u∗k, 0)− V (xk, u

∗k, 0) ≤ −‖zk‖2 +

1

4(ω∗k)

TR22(ω∗k) ≤ 0

Maintenant, si nous imposons l'égalité suivante V (xk+1, u∗k, 0) − V (xk, u

∗k, 0) = 0 nous

aurons (ω∗k)TR22(ω∗k) = 0. Cette dernière relation est équivalente à trouver une matrice

L(xk) tel que

y(xk) , L(xk)ω∗k = 0, avec, LT (xk)L(xk) = −R22

Avec cette nouvelle variable ctive le système discret en boucle fermée devient

xk+1 = f(xk) + g1(xk)u∗k + g2(xk)ω

∗k + d(xk)y(xk)

où d(xk) = −g1(xk)L−1(xk).

Il est clair que toute trajectoire xk vériant y(xk) = 0 est aussi une trajectoire du système

(1.81). D'après l'hypothèse H1, nous avons y(xk) = 0 ⇒ limk→∞ xk = 0, donc, d'après

le principe d'invariance de LaSalle le point d'équilibre xk = 0 est asymptotiquement

stable.

Remarque 5.2. Le développement de la commande H∞ discrète est basée sur l'approxi-

mation d'ordre 1 de la fonction coût V (xk+1, uk, ωk) (1.74). En augmentant l'ordre à 2,

40


l'analyse devienne plus rigoureuse. En eet, avec la notation suivante

∂TV ∗(xk+1)

∂xk+1

= ∇V ∗(xk+1) = ∇V ∗k+1 (1.83)

nous aurons la relation suivante

∇V ∗k+1 = ∇V ∗k +∇2V ∗k (xk+1 − xk)

= ∇V ∗k +∇2V ∗k (f(xk) + g1(xk)ω∗k + g2(xk)u

∗k − xk) (1.84)

où

∇2Vk =

∂2V (x)

∂x21

∂2V (x)∂x1x2

· · · ∂2V (x)∂x1xn

∂2V (x)∂x2x1

∂2V (x)

∂x22· · · ∂2V (x)

∂x2xn...

.... . .

...∂2V (x)∂xnx1

∂2V (x)∂xnx2

· · · ∂2V (x)∂x2n

x=xk

(1.85)

En substituant (1.84) dans (1.75) et (1.76), nous obtiendrons respectivement

u∗k = −1

2gT2 (xk)

(∇V ∗k +∇2V ∗k (f(xk) + g1(xk)ω

∗k + g2(xk)u

∗k − xk)

)(1.86)

ω∗k =1

2γ2gT1 (xk)

(∇V ∗k +∇2V ∗k (f(xk) + g1(xk)ω

∗k + g2(xk)u

∗k − xk)

)(1.87)

avec V ∗ est le coût optimum donné par l'équation (1.71).

En substituant les équation (1.86) et (1.87) dans l'hamiltonien, l'équation HJI discrète

devient

0 =∂V (xk+1, u

∗k, ω

∗k)

∂xk+1


∗k − xk)

+1

2(f(xk) + g1(xk)ω

∗k + g2(xk)u

∗k − xk)T ·

∂2V (xk+1, u∗k, ω

∗k)

∂x2k+1

·


∗k − xk)

+ ‖h1(xk)‖2 + ‖u∗k‖2 − γ2‖ω∗k‖2 (1.88)

6 Commande H∞ non linéaire par retour de sortie

6.1 Formulation mathématique du probléme

Dans cette section le problème de la commande par retour de sortie des systèmes non

linéaires anes est envisagé. La démarche à suivre est similaire à celle da la partie 3.5.

Rappelons que la forme ane en entrée (commande et exogène) du système (1.10) est

41


décrite par

x = f(x) + g1(x)ω + g2(x)u

z = h1(x) + k11(x)ω + k12(x)u (1.89)

y = h2(x) + k21(x)ω

La description des trois équations (1.89) est déjà donnée dans 3.1.

Comme dans 4.1, les fonctions f(x), g1(x), g2(x), h1(x), h2(x), k11(x), k12(x) et k21(x) sont

des fonctions non linéaires lisses (c.à.d C∞) au voisinage de l'origine de <n. On suppose

aussi, et sans perdre de généralité, que l'origine est un point d'équilibre, c.à.d f(0) = 0,

h1(0) = 0 et h2(0) = 0.

L'objectif de la commande H∞ par retour de sortie est de trouver une loi de commande

ξ = η(ξ, y)

u = θ(ξ) (1.90)

avec η(0, 0) = 0 et θ(0) = 0 tel que le système non linéaire en boucle fermée (1.89)-(1.90)

possède les deux propriétés suivantes

1. soit asymptotiquement stable ;

2. ait un L2-gain inférieur ou égal à un niveau γ donné, c.à.d. pour tout T ≥ 0 et

ω ∈ L2(0, T ), on ait ∫ T

0

‖z(τ)‖2dτ ≤ γ2

∫ T

0

‖ω(τ)‖2dτ (1.91)

Dans le but de simplier l'analyse et d'obtenir une expression raisonnable de la loi de com-

mande par retour de sortie, nous supposons que les fonctions non linéaires caractérisant

le système (1.89) obéissent aux hypothèses simplicatrices de (DGKF) suivantes

k11(x) = 0

hT1 (x)k12(x) = 0

kT12(x)k12(x) = I (1.92)

k21(x)gT1 (x) = 0

k21(x)kT21(x) = I

La description des trois premières hypothèses a été déjà détaillée. Les quatrième et cin-

quième hypothèse ont une interprétation duale que les précédentes. Relaxer ces hypothèses

est possible, mais la formulation mathématique du problème devient plus complexe.

42


6.2 Loi de commande par retour de sortie

Avant d'aborder le théorème principal de la commande par retour de sortie, la notion

suivante de détectabilité doit être rappelée.

Dénition 6.1. Supposant que f(0) = 0 et h(0) = 0. La paire (f, h) est dite localement

détectable s'il existe un voisinage U du point x = 0 tel que, si x(t) est toute trajectoire

du système x = f(x) qui vérie x(0) ∈ U , alors h(x(t)) = 0 pour tout t ≥ 0 implique

limt→∞ x(t) = 0

Le théorème suivant résout le problème de l'atténuation des perturbations tout en

assurant la stabilité asymptotique du système en boucle fermée.

Thèoreme 6.1. (Isodori and Astol (1992), Isidori and Kang (1995))

Considérant le système (1.89) et supposant ce qui suit

H1 La paire (f, h1) est localement détectable,

H2 Il existe une fonction lisse dénie positive V (x) autour de l'origine de <n et solution

de l'équation HJI suivante

Vx(f(x) + g1(x)ω∗(x) + g2(x)u∗(x)

)+ ‖h1(x)‖2 + ‖u∗(x)‖2− γ2‖ω∗(x)‖2 = 0 (1.93)

avec

ω∗(x) =1

2γ2gT1 (x)V T

x u∗(x) = −1

2gT2 (x)V T

x

H3 Il existe une matrice de gains, G, de taille n×n tel que le point d'équilibre du système

ξ = f(ξ) + g1(ξ)ω∗(ξ)−Gh2(ξ) (1.94)

est localement asymptotiquement stable,

H4 Il existe une fonction lisse semi-dénie positive W (x, ξ), localement dénie au voisi-

nage de <n × <n tel que W (0, ξ) > 0 pour ξ 6= 0 et qui est solution de l'équation

HJI suivante

[Wx Wξ]fe(x, ξ) + hTe (x, ξ)he(x, ξ) + γ2ΦT (x, ξ)Φ(x, ξ) = 0 (1.95)

avec

fe(x, ξ) =

[f(x) + g1(x)ω∗(x) + g2(x)u∗(ξ)

f(ξ) + g1(ξ)ω∗(ξ)− g2(ξ)u∗(ξ) +G(h2(x)− h2(ξ))

]he(x, ξ) = u∗(ξ)− u∗(x)

Φ(x, ξ) =1

2γ2(Wxg1(x) +WξGk21(x))T

43


alors la commande par retour de sortie suivante

ξ = f(ξ) + g1(ξ)ω∗(ξ) + g2(ξ)u∗(ξ) +G(y − h2(ξ))

u = u∗(ξ) (1.96)

stabilise le système (1.89) asymptotiquement et le rend dissipatif avec un L2-gain ≤ γ.

Démonstration. La démonstration est similaire à celle donnée dans le cas de la commande

par retour de sortie des systèmes non linéaires généraux. Dans ce qui suit nous donnons

seulement un aperçu.

Le Hamiltonien

H(x, ω, u) = Vx(f(x) + g1(x)ω(x) + g2(x)u(x)

)+ ‖h1(x)‖2 + ‖u(x)‖2 − γ2‖ω(x)‖2

est quadratique par rapport à (ω, u).

Suivant l'hypothèse H2 on a Vxg2(x) = −2uT∗ (x) et Vxg1(x) = 2γ2ωT∗ (x), d'où

H(x, ω∗, u∗) = Vxf(x) + 2γ2‖ω∗(x)‖2− 2‖u∗(x)‖2 + ‖h1(x)‖2 + ‖u∗(x)‖2− γ2‖ω∗(x)‖2 = 0

Donc, en complétant les carrés nous obtiendrons

Vx(f(x)+g1(x)ω+g2(x)u

)= ‖u−u∗‖2−γ2‖ω−ω∗‖2−‖h1(x)‖2−‖u‖2−γ2‖ω‖2 (1.97)

Observant maintenant que le système en boucle fermée (1.89)-(1.96) peut être écrit sous

la forme augmentée suivante

xe = fe(x, ξ) + ge(x)(ω − ω∗)

où xe = [x ξ]T et

ge(x) =

[g1(x)

Gk21(x)

]La quantité

He(x, ξ, r) = (Wx Wξ)(fe(x, ξ) + ge(x, ξ)r

)+ hTe (x, ξ)he(x, ξ)− γ2rT r

est quadratique par rapport à r et en utilisant l'hypothèse H4 on obtient

He(x, ξ,Φ(x, ξ)) = 0

44


Alors l'égalité suivante découle facilement

(Wx Wξ)(fe(x, ξ) + ge(x, ξ)(ω − ω∗(x))

)=

− γ2‖ω − ω∗(x)− Φ(x, ξ)‖2 − ‖u∗(ξ)− u∗(x)‖2 + γ2‖ω − ω∗(x)‖2 (1.98)

Pour démontrer la stabilité asymptotique du système en boucle fermée, nous utilisons la

fonction de Lyapounov suivante

U(x, ξ) = V (x) +W (x, ξ)

qui est, par construction, dénie positive. En posant ω = 0 et en utilisant (1.97) et (1.98)

nous aurons

dU

dt= −‖h1(x)‖2 − ‖u∗(ξ)‖2 − γ2‖ω∗(x) + Φ(x, ξ)‖2 ≤ 0

Cela démontre la stabilité du point d'équilibre (x, ξ) = (0, 0) du système en boucle fermée.

Pour démontrer la stabilité asymptotique du point d'équilibre, remarquant que n'importe

quelle trajectoire vériantdU(x(t), ξ(t))

dt= 0

est telle que h1(x(t)) = 0 et u∗(ξ) = 0 pour t ≥ 0. Par conséquence, le système en boucle

fermée devient

x = f(x)

z = h1(x)

ξ = f(ξ) + g1(ξ)ω∗(ξ) +G(h2(x)− h2(ξ))

D'après l'hypothèse H1, on a h1(x) = 0 implique limt→∞ x(t) = 0, et comme h2(0) = 0 et

d'aprèsH3, nous obtiendrons ξ = 0 est asymptotiquement stable. Finalement, en utilisant

le concept de la stabilité asymptotique des systèmes en cascade (voir 2.5) et le théorème

de LaSalle, nous concluons que le point d'équilibre (x, ξ) = (0, 0) est asymptotiquement

stable.

Pour démontrer la propriété de l'atténuation des perturbations (L2-gain ≤ γ) avec ω 6= 0,

nous utilisons le fait que

dU

dt= −‖h1(x)‖2 − ‖u∗(ξ)‖2 + γ2‖ω‖2 − γ2‖ω − ω∗(x)− Φ(x, ξ)‖2

45


En intégrant dU/dt de t = 0 à t = T ≥ 0 nous obtiendrons∫ T

0

‖z(t)‖2dt ≤ γ2

∫ T

0

‖ω(t)‖2dt− γ2

∫ T

0

‖ω − ω∗(x)− Φ(x, ξ)‖2dt+ U(0)− U(T )

≤ γ2

∫ T

0

‖ω(t)‖2dt

Ce qui termine la démonstration.

6.2.1 Calcul de la matrice gain G

Il a été démontré, dans la section 3.5, que la matrice gain, G, est donnée en fonction

de y∗, le minimum du Hamiltonien K donné par l'équation (1.25). Pour les systèmes non

linéaires anes, cette équation devienne

K(x,W Tx , ω, y) = Wx(f + g1ω)− yT (h2 + k21ω) + ‖h1‖2 − γ2‖ω‖2 (1.99)

Pour calculer le point-selle du Hamiltonien K donné par (1.99), (y∗, ω∗∗) nous procédons

comme suit :

Tout d'abord nous calculons ω = ω tel que

∂K

∂ω(x,W T

x , ω, y)

∣∣∣∣ω=ω

= 0

ce qui donne

ω(x,Wx, y) =1

2γ2(gT1 Wx − kT21(x)y) (1.100)

Si nous utilisons les hypothèses simplicatrices données par (1.92), l'équation (1.99) de-

vient

K(x,W Tx , ω, y) = W T

x f −1

4γ2(yTy −W T

x g1gT1 Wx)− yTh2 + ‖h1‖2

Ensuite nous calculons y∗ par

∂K

∂y(x,W T

x , ω, y)

∣∣∣∣y=y∗(x,Wx)

= 0 (1.101)

ce qui donne

y∗(x,Wx) = 2γ2h2(x) (1.102)

Substituant (1.102) dans (1.100) donne

ω∗∗(x,Wx) = ω(x,Wx, y∗) =1

2γ2gT1 Wx − kT21(x)h2(x) (1.103)

Finalement, le calcul de la matrice G, connaissant y∗ se fait par la même méthode détaillée

dans la remarque 3.2 concernant les systèmes non linéaires générales

46


1 Extraire R1(x) de xTR1(x) = Wx(x)− Vx(x)

2 Extraire L(x) de xTL(x) = 2γ2hT2 (x)

3 Calculer la matrice des gains G(x) = R−11 (x)L(x).

6.3 Cas Particulier : Systèmes linéaires anes

Dans cette section, nous présentons les travaux d'Isodori et Astol (Isodori and Astol

(1992)), qui montrent que le problème de la commande H∞ par retour de sortie des

systèmes non linéaires anes est solvable par la commande H∞ par retour de sortie des

systèmes linéaires anes autour du point d'équilibre.

Proposition 6.1. (Isodori and Astol (1992)) Soit le système linéaire décrit par

x = Ax+B1ω +B2u

z = C1x+D12u (1.104)

y = C2x+D21ω

Supposant les hypothèses suivantes

L1 La paire (A,B1) est stabilisable.

L2 La paire (A,C1) est détectable.

L3 Il existe une matrice symétrique dénie positive X solution de l'équation algébrique

de Riccati suivante

ATX +XA+ CT1 C1 −XB2B

T2 X +

1

γ2XB1B

T1 X = 0 (1.105)

L4 Il existe une matrice symétrique dénie positive Y solution de l'équation algébrique

de Riccati suivante

Y AT + AY +B1BT1 − Y CT

2 C2Y +1

γ2Y CT

1 C1Y = 0 (1.106)

L5 ρ(XY ) < γ2, tel que ρ est le rayon spectral.

Alors les hypothèses H1 à H4 sont vériées avec

G = ZCT2 (1.107)

V (x) = xTXx

W (x, ξ) = γ2(x− ξ)TZ−1(x− ξ)

47


où

Z = Y (I − 1

γ2XY )−1

Démonstration. Voir Isodori and Astol (1992)

Cette proposition, montre que le contrôleur par retour de sortie suivant

ξ = (A+B1F1 +B2F2)ξ +G(y − C2ξ)

u = F2ξ (1.108)

où F1 = (1/γ2)BT1 X, F2 = −BT

2 X, garantit la stabilité asymptotique du système (1.104),

avec un L2-gain ≤ γ.

7 Conclusion

Ce chapitre a été consacré d'une part à quelques rappels sur des concepts relatifs à la

stabilité (au sens de Lyapounov) et aux notions de passivité et dissipassivité.

D'autre part, nous avons présenté un état de l'art qui regroupe les diérentes stratégies

de commande H∞ par retour d'état et de sorties pour les systèmes non linéaires à temps

continu et à temps discret. Le problème de la commande par retour d'état peut être

résolu par le biais d'une équation HJI non linéaire à dérivée partielle. Cette dernière

est analytiquement dicile, voir même impossible à résoudre. Dans le cas où les entrées

sont contraintes à être bornées (saturées), l'équation HJI devienne plus complexe et sa

résolution plus dicile.

L'extension de la commande par retour d'état aux systèmes à temps discret est pré-

sentée. Par analogie avec le cas continu, nous avons obtenu une équation HJI discrète

dont la résolution est aussi analytiquement dicile voir impossible.

Finalement, nous avons présenté la commande H∞ par retour dynamique de sorties,

vu comme un observateur non linéaire à matrice des gains variables. Celle ci peut être

obtenue en résolvant deux équations de HJI, dont leurs solutions nous donne la matrice

des gains.

Nous pouvons constater que l'élément majeur qui revient à chaque fois que nous abordons

le problèmeH∞ non linéaire est les équations de HJI. Nous avons déjà parlé de la diculté

à résoudre analytiquement ces derniers.

Dans le chapitre qui suit, nous donnerons une méthode de résolution itérative dite des

itérations successives. Cette dernière hybridée avec les méthodes des résidus pondérés en

particulier la méthode de Galerkin nous donnera une approximation des solutions exactes

des HJI.

48

Chapitre 2

Solutions approximatives des équations

de HJI : Méthode de Galerkin

1 Introduction

Dans ce chapitre, les diérents problèmes de la commande H∞ non linéaires sont

résolus d'une manière itérative. En eet les équations de Hamilton-Jacobi-Isaac (HJI)

résultantes, d'une part de la commande par retour d'état continu et discret, et de la com-

mande par retour de sorties sont résolus par hybridation de la méthode des approximations

successives et de la méthode de Galerkin.

La méthode des approximations successives connue par "Policy Iteration Method" ou

"Iteration in Policy Space" a été initialement introduite par Saridis and Lee (1979). Les

auteurs ont introduit une méthode qui améliore une commande initiale tout en vériant

la solvabilité de l'équation de Hamilton-Jacobi-Bellman (HJB) dans le cas de la com-

mande optimale non linéaire. La méthode de résolution des HJB à chaque itération était

analytique et limitée à des classes de systèmes non linéaires. IL a fallu attendre les tra-

vaux de Beard et al. (1997), Beard and McLain (1998) pour avoir une hybridation entre

la méthode des approximations successives et la méthode de Galerkin pour résoudre la

HJB à chaque itération. Dans Beard et al. (1997), les auteurs ont transformé l'équation

HJB non linéaire en une séquence d'équations dites GHJB (HJB Généralisées) linéaires

et ont utilisé la méthode de Galerkin pour les résoudre. Dans Beard and McLain (1998),

Ils proposent la même méthodologie pour le cas des équations HJI dans le contexte de

la commande H∞ non linéaire. Dans Beard et al. (1997), Beard and McLain (1998) et

Abu-Khalaf et al. (2006), est présentée, entre autres, une démonstration de la stabilité de

l'algorithme des approximations successives.

Dans ce chapitre, nous proposons d'appliquer la méthode de Galerkin pour la syn-

thèse d'une loi de commande H∞ non linéaire par retour d'état des systèmes non linéaires

continus et discrets sans et avec contraintes (saturation) sur les entrées et par retour de

sorties. Des procédures de calculs des intégrales de Galerkin sont aussi données. On pré-

49

Chapitre 2. Solutions approximatives des équations de HJI : Méthode de Galerkin

sente trois méthodes ; l'une est déterministe et est basée sur la discrétisation du domaine

d'intégration, la deuxième est stochastique et est basée sur la méthode de Monté-Carlo,

nalement, la troisième est analytique et est basée sur le calcul symbolique que proposent

plusieurs logiciels de calculs scientiques tel que Matlab et Mapple.

Le reste de ce chapitre est organisé comme suit : Dans la section 2 est présentée

la méthode des approximations successives comme donnée dans Beard et al. (1997) et

Beard and McLain (1998). Dans la section 3 est donnée la méthode des résidus pondérés

et dans 4 la méthode de Galerkin appliquée à la synthèse d'une commande continue

par retour d'état. Des résultats de simulation sont aussi présentés. Dans la section 5,

on propose l'application de la méthode de Galerkin pour résoudre le problème de la

commande H∞ non linéaire à horizon ni (à temps nal xe). La section 6 traite la

résolution des HJI discrètes par la méthode de Galerkin. Finalement, la résolution du

problème de la commande par retour de sortie est établie dans la section 7

2 Méthode des Approximations successives

Rappelons que l'équation HJI dans le cas de la commande H∞ par retour d'état du

système

x = f(x) + g1(x)ω + g2(x)u

z =

[h1(x)

u

](2.1)

est donnée par

Vx(f(x) + g1(x)ω∗ + g2(x)u∗) + ‖h1‖2 + ‖u∗‖2 − γ2‖ω∗‖2 = 0 (2.2)

avec

u∗(x) = −1

2gT2 V

Tx (x) (2.3)

ω∗(x) =1

2γ2gT1 V

Tx (x) (2.4)

L'équation (2.2) peut être réécrite sous la forme suivante

H(x, Vx, ω∗, u∗) = 0 (2.5)

Une telle équation est non linéaire par rapport à Vx (dépendance de u∗ et ω∗ en fonction de

Vx) et à dérivée partielle, ce qui rend sa solvabilité analytiquement très dicile voire même

impossible. Néanmoins, on peut la résoudre en utilisant les approximations successives

(AS).

50


L'idée principale de cette méthode est de transformer (2.2) en une équation linéaire à

dérivée partielle dite équation HJI généralisée (GHJI) donnée par

Vx(f + g1ω + g2u) + ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 = 0 (2.6)

La résolution par rapport à Vx de (2.6) se fait de la manière itérative suivante :

En partant d'une commande initiale u(0) stabilisante du système non linéaire (2.1) avec

une perturbation ω(i,j) = 0, dans une région appelée domaine de faisabilité Ω ; nous

commençons par résoudre, par rapport à Vx, l'équation (2.6) puis nous réactualisant la

perturbation par la loi suivante :

ω(i,j) =1

2γ2gT1 (x)V (i,j)

x (2.7)

jusqu'au |V (i,j+1)x − V (i,j)

x | < ε. Nous posons, ainsi, j =∞. Ensuite, nous réactualisons la

commande selon la loi

u(i) = −1

2gT2 (x)V (i,∞)

x (2.8)

jusqu'au |V (i+1,∞)x − V (i,∞)

x | < ε. Nous posons, ainsi, i = ∞. La solution nale de (2.2)

selon l'algorithme des AS est V (∞,∞)x .

Cet algorithme, proposé par Beart and Mcain dans (Beard et al., 1997), est interprété

comme un jeu diérentiel à deux joueurs et à somme nulle. En eet, étant donnée une

commande initiale, une boucle interne réactualise la perturbation ω jusqu'à ce qu'elle

devienne la pire stratégie maximisant le hamiltonien du jeu, H(x, Vx, ω, u), tandis que

la boucle externe réactualise, pour la perturbation obtenue, la commande u jusqu'à ce

qu'elle devienne la meilleure stratégie minimisant le hamiltonien du jeu.

L'algorithme des approximations successives est donnée par la gure 2.1.

Remarque 2.1. Le choix du domaine Ω est guidé par les conditions suivantes :

1. Le système x = f(x) + g2(x)u(0)(x) doit être asymptotiquement stable.

2. Le domaine Ω doit être fermé, continu et entourant le point d'équilibre du système.

La commande u(0)(x) est dite une commande faisable.

Remarque 2.2. On note que le problème de la commande H∞ optimal (recherche du γ

optimal) n'est pas solvable dans le cas non linéaire. Ceci est dû au fait qu'il n'existe pas

une méthode du calcul de la norme H∞ entre l'entrée exogène ω et la sortie z (le gain L2)

comme dans le cas linéaire. En eet, pour les systèmes linéaires la recherche de la norme

H∞ ou le gain L2 se fait par dichotomie (Zhou et al. (1995), Zhoo (1999)). Néanmoins,

on peut procéder comme suit pour trouver un γ sous-optimal :

1. Choisir une commande initiale u0(x) et xer γ

51


2. Si le problème H∞ non linéaire est solvable, réduire γ et prendre u0(x) = u∞

(u∞ est la commande résultante) puis refaire 2 (Algorithme 2.1) sinon aller à 1 en

augmentant γ.

La commande résultante est dite commande H∞ sous optimale.

1 Soit u(0)(x) une commande initiale stabilisante, dans un domaine Ω le système(2.1) avec ω = 0

2 Fixer γ un niveau d'atténuation initiale3 for i = 0 to ∞ do4 Fixer ω(i,0) = 05 for j = 0 to ∞ do

6 Résoudre pour V (i,j)x

7 V(i,j)x (f(x) + g1(x)ω(i,j) + g2(x)u(i)) + ‖h1‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2 = 0

8 Mise à jour de la perturbation

9 ω(i,j+1) = 12γ2gT1 (x)V

(i,j)x

10 end11 Mise à jour de la commande

12 u(i) = −12gT2 (x)V

(i,∞)x

13 end

14 Si l'équation HJI est solvable alors, réduire γ et aller à 3 avec u0(x) = u(∞)(x).

Figure 2.1 Approximations successives de la solution de l'équation HJI

La démonstration de la convergence de l'algorithme des approximations successives

peut être déduite par les lemmes suivants.

Lemme 2.1. (Beard et al., 1997)

Si pour tout (i, j) le système

x = f + g1ω(i,j) + g2u

(i) (2.9)

est asymptotiquement stable dans Ω, alors,

V (i,j)(x) ≤ V (i,j+1)(x) ≤ V (i,∞)(x) (2.10)

pour tout x ∈ Ω, où V (i,∞)(x) est la solution de l'équation HJI

V (i,∞)x (f + g2u

(i)) + ‖h1‖2 + ‖u(i)‖2 +1

4γ2V (i,∞)x g1g

T1 V

(i,∞)Tx = 0 (2.11)

En plus, si V (i,j+1)(x) = V (i,j)(x), alors V (i,j)(x)→ V (i,∞)(x).

Démonstration. Voir (Beard et al., 1997).

52



Si pour tout i, le système

x = f + g1ω(i,∞) + g2u

(i) (2.12)

est asymptotiquement stable dans Ω, alors

V (∞,∞)(x) ≤ V (i+1,∞)(x) ≤ V (i,∞)(x) (2.13)

pour tout x ∈ Ω, où V (∞,∞)(x) est la solution de l'équation HJI

V (∞,∞)x f + ‖h1‖2 +

1

4V (∞,∞)x

(1

γ2g1g

T1 − g2g

T2

)V (∞,∞)Tx = 0 (2.14)

En plus, si V (i+1,∞)(x) = V (i,∞)(x), alors V (i,∞)(x)→ V (∞,∞)(x).



Si u(i)(x) stabilise asymptotiquement le système (2.1) dans Ω, il est de même pour u(i+1)(x).

En plus, V (i,∞) est une fonction de Lyapunov pour u(i+1)(x).


La résolution de (2.6) de manière analytique reste un chalenge, d'où on fait recours à

des approximations numériques basées sur la méthode des résidus pondérés.

3 Méthode des Résidus Pondérés

La méthode des résidus pondérés, ci-après abrégé en MWR (Method of Weighted Re-

siduals), est une méthode générale pour la résolution des équations intégro-diérentielles

et/ou aux dérivées partielles (Finlayson and Scriven (1966), Finlayson (1972)). La solu-

tion inconnue est étendue dans un ensemble de fonctions de bases, qui sont spéciées au

préalable, mais avec des constantes ou des fonctions ajustables.

La MWR est illustrée par l'application à la synthèse de la commande H∞ par retour

d'état en résolvant l'équation GHJI (2.6).

La méthode générale de résolution propose de représenter V (x), solution de (2.6) par sa

projection dans un sous-espace de dimension nie N , dont la base est dénie par les N

fonctions φi(x), c.à.d.

VN(x) =N∑k=1

ckφk(x) (2.15)

Les composantes scalaires ck deviennent les inconnues du problème et les fonctions de

base φk(x) sont choisies a priori en fonction de la connaissance qu'on peut avoir sur la

solution exacte V (x). Les méthodes de résolution approximatives sont donc des techniques

53


qui permettent le calcul des composantes ck de la solution approchée dans le sous espace

de recherche. Il est bien évident que si la solution exacte du problème appartient à ce

sous-espace, la technique de calcul des composantes ck doit donner la solution exacte.

3.1 Approximation polynomiale

Dans les exemples cités si-après les fonctions de base seront choisis polynomiales paires.

En plus si l'ordre du système, dont le problème H∞ est issu, est n et l'ordre de l'approxi-

mation est M , ces fonctions seront les termes du développement du polynôme suivant

M/2∑j=1

( n∑k=1

xk

)2j

(2.16)

Dans le cas où n = 2, les fonctions de base seront

x21, x1x2, x

22, x

41, x

31x2, x

21x

22, x1x

32, x

42, · · · , xM2

3.2 Formulation intégrale normale

On appelle résidus, la diérence entre l'équation généralisée de HJI (GHJI) pour VN(x),

l'approximation de V aux étapes (i, j) (des mises à jour de ω et u) et l'équation GHJI

pour V (x), nous le notons par R et est donné par

R(c, x) = GHJI(V(i,j)N (x))−GHJI(V (x)) (2.17)

avec

GHJI(V(i,j)N (x)) =

N∑k=1

ckφk,x(x)

(f(x) + g1(x)ω(i,j) + g2(x)u(i)

)+ ‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2

GHJI(V (x)) = Vx(f + g1ω + g2u) + ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 = 0

et φk,x(x) = ∂φk∂x

.

Si la solution approximative (2.15) est une solution exacte alors le résidu est égal à 0,

sinon nous devons chercher les coecients ck en forçant le résidu à être nul au sens des

intégrales normales pondérées suivantes∮Ω

R(c, x)wldΩ = 0, l = 1, · · · , N (2.18)

Intuitivement, nous pouvons remarquer que les équations (2.17) et (2.18) sont équivalentes

quelque soit les fonctions de pondération wl. Il s'agit d'une projection de l'équation (2.17)

54


sur les fonctions wl.

En combinant (2.17) et (2.18) nous obtiendrons

N∑k=1

ck

∮Ω

φk,x(x)

(f(x) + g1(x)ω(i,j) + g2(x)u(i)

)wldΩ

= −∮

Ω

(‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2

)wldΩ (2.19)

Une forme matricielle plus compacte est donnée comme suit

N∑k=1

Bklck = dl (2.20)

où Bkl =∮

Ωφk,x(x)

(f(x)+g1(x)ω(i,j) +g2(x)u(i)

)wldΩ et dl = −

∮Ω

(‖h1(x)‖2 +‖u(i)‖2−

γ2‖ω(i,j)‖2

)wldΩ.

Puisque les fonctions de base φl(x) sont connues et les poids wl sont dénies ci-dessous,

alors les Bkl et dl peuvent être facilement obtenues donnant la solution approximative

(2.15).

Dans la section suivante nous donnons les diérentes formes des fonctions de pondération

wl qui donnent la diversité de la méthode des résidus pondérés.

3.3 Les méthodes des résidus pondérés

Les fonctions de pondération peuvent être choisies de diérentes manières et chaque

choix correspond à un critère diérent de la MWR. Par exemple, nous pourrions diviser

le domaine Ω en N sous-domaines plus petits, Ωl, et choisir

wl =

1 si x ∈ Ωl;

0 sinon.(2.21)

Cette méthode est dite méthode des sous-domaines (subdomain method). Initiée en 1923

par les ingénieurs hollandais, Biezeno et Koch, elle fut appliquée aux problèmes de stabilité

des poutres, tiges et plaques (Finlayson and Scriven (1966), Lindgren (2009)).

Dans la méthode de collocation (Finlayson and Scriven (1966), Lindgren (2009)), les

fonctions de pondération sont choisies comme des fonctions de Dirac

wl = δ(x− xl) (2.22)

qui possèdent la propriété suivante :∮

ΩRwldΩ = R|xl .

Dans la méthode des moments (Lindgren (2009)), les fonctions de pondération sont don-

55


nées par les polynômes suivants

wl = xl (2.23)

La méthode des moindres carrés a été introduite par Gauss en 1795 . Le travail n'a été

publié qu'en 1809. Legendre a publié les mêmes idées en 1806. Dans la MWR, la méthode

des moindres carrés est utilisée en choisissant comme fonctions de pondérations

wl =∂R

∂cl(2.24)

de telle façon à minimiser le critère des moindres carrés suivant : I(cl) =∮RTRdx.

Une des méthodes d'approximation les plus connues est celle développée par l'ingénieur

russe Galerkin en 1915. Les fonctions de pondération sont, tout simplement, les fonctions

de base (Finlayson and Scriven (1966), Finlayson (1972)), c.à.d.

wl = φl(x) (2.25)

Dans ce qui suit nous présenterons une technique de synthèse de la commande H∞ non

linéaire basée sur les approximations successives hybridées avec la méthode de Galerkin.

4 Méthode de Galerkin appliquée à la synthèse de la

commande H∞ par retour d'état -Cas continu

4.1 Algorithme de Galerkin

Soit u(0) : Ω → Rm une loi de commande stabilisante asymptotiquement le système

non linéaire (2.1) dans le domaine Ω. Soit φk(x), k = 1, · · · , N un ensemble de fonctions

de base. Réécrivons la solution approximative de (2.6) donnée par (2.15) sous la forme

VN(x) =N∑k=1

ckφk(x) = cTΦ(x) (2.26)

avec cT =[c1 · · · cN

]et Φ(x) =

[φ1(x) · · · φN(x)

]T.

Avec le choix des fonctions de pondération donné par (2.25), l'équation (2.19) devienne

N∑k=1

ck

∮Ω

φk,x(x)

(f(x) + g1(x)ω(i,j) + g2(x)u(i)

)φl(x)dΩ =

−∮

Ω

(‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2

)φl(x)dΩ (2.27)

56


ou sous forme matricielle plus compacte

(A1 + A2(ω(i,j)) + A3(u(i)))c = b1 + γ2b2(ω(i,j)) + b3(u(i)) (2.28)

avec :

A1 =

∮Ω

ΦfT (x)∇ΦTdΩ (2.29)

A2(ω(i,j)) =

∮Ω

Φω(i,j)TgT1 (x)∇ΦTdΩ (2.30)

A3(u(i)) =

∮Ω

Φu(i)TgT2 (x)∇ΦTdΩ (2.31)

et

b1 = −∮

Ω

Φ‖h1(x)‖2dΩ (2.32)

b2(ω(i,j)) =

∮Ω

Φ‖ω(i,j)‖2dΩ (2.33)

b3(u(i)) = −∮

Ω

Φ‖u(i)‖2dΩ (2.34)

où ∇Φ =[φ1,x · · · φN,x

]=[dφ1/dx · · · dφN/dx

].

La solution est donc donnée par

c =

(A1 + A2(ω(i,j)) + A3(u(i))

)−1(b1 + γ2b2(ω(i,j)) + b3(u(i))

)(2.35)

Pour démontrer l'unicité de la solution, c.à.d. rang(A1 +A2(ω(i,j)) +A3(u(i))) = N , nous

utiliserons les résultats données dans le cas de la résolution de l'équation HJB dans le

cas de la commande H2 non linéaire (Beard et al. (1997)). Les lemmes suivants sont une

extension au cas des équations HJI.

Lemme 4.1. (Abu-Khalaf, 2004), (Abu-Khalaf, 2005a)

Si les fonctions de bases φk(x)∞1 sont linéairement indépendantes, c.à.d.∑k

ckφk(x) = 0⇒ ck = 0, ∀k

alors l'ensemble ∂φk(x)∂x

F (x, ω(i,j), u(i))N1 est linéairement indépendant,

avec F (x, ω(i,j), u(i)) = f(x) + g1(x)ω(i,j) + g2(x)u(i).

Démonstration. Cette démonstration est similaire à celle donnée dans Beard et al. (1997),

concernant l'application de la méthode de Galerkin dans la commande H2 non linéaire.

57


Nous omettrons les indices i, j.

Si F (x, ω, u) est asymptotiquement stable, alors nous aurons, le long de la trajectoire de

x notée ϕ(t;x0, ω, u), avec x0 ∈ Ω

φ(x0) = −∫ ∞

0

dφ

dτ(ϕ(τ ;x0, ω, u))dτ

= −∫ ∞

0

∂φ

∂xF (x, ω, u)(ϕ(τ ;x0, ω, u))dτ

Maintenant, en supposant que le lemme n'est pas vrai, c.à.d. il existe un vecteur non nul

c tel que

cT∇Φ(x)F (x, ω, u) = 0

nous obtiendrons, pour tout x0 ∈ Ω,∫ ∞0

cT∇Φ(x)F (x, ω, u)(ϕ(τ ;x0, ω, u))dτ = 0

⇒ cT∫ ∞

0

∇Φ(x)F (x, ω, u)(ϕ(τ ;x0, ω, u))dτ = 0

⇒ cTΦ(x0) = 0

Ce qui est contradictoire avec l'indépendance linéaire de φi(x)N1 .

Le lemme suivant donne une condition d'inversibilité de la matrice A1 +A2(ω)+A3(u).

Tout d'abord, nous supposons que ∂φj∂xF (x, ω, u) peut être écrite en combinaison linéaire

par rapport à l'ensemble φj(x)∞1 , c.à.d.

∂φj∂x

F (x, ω, u) =∞∑k=1

djkφk = djΦ (2.36)

Lemme 4.2. (Abu-Khalaf et al., 2006)

Si l'ensemble φj(x)∞1 est linéairement indépendant et si∂φj∂xF (x, ω, u) vérie (2.36),

alors

rang

(∮Ω

ΦF (x, ω, u)T∇ΦTdΩ

)= N

Démonstration. Il est facile d'écrire∮Ω

ΦF (x, ω, u)T∇ΦTdΩ =

∮Ω

ΦΦTdΩD

avec D = [d1, · · · ,dN ].

Nous concluons donc que rang(A1 +A2(ω) +A3(u)) = N puisque rang(∮

ΩΦΦTdΩ) = N

(φj(x)∞1 est linéairement indépendant).

Beard et McLain dans Beard and McLain (1998) donne une méthode de calcul des

intégrales dans A2(ω), A3(u), b2(ω) et b2(u) réduisant ainsi le temps de calcul de ces

58


derniers. En eet, en utilisant le point-selle de l'équation HJI (2.6) donnée par le couple

(ω∗,u∗) suivant

ω∗ =1

2γ2gT1 (x)V T

x,N =1

2γ2gT1 (x)

N∑k=1

ckφx,k =1

2γ2gT1 (x)∇ΦTc

u∗ = −1

2gT2 (x)V T

x,N = −1

2gT2 (x)

N∑k=1

ckφx,k = −1

2gT2 (x)∇ΦTc

avec Vx,N = ∂VN (x)∂x

.

les termes donnés dans (2.30), (2.31), (2.33) et (2.34) deviennent

A2(c) =1

2γ2

∮Ω

cT∇Φg1gT1∇ΦTΦdΩ

=1

2γ2

N∑k=1

ck

∮Ω

∂φk∂x

g1gT1∇ΦTΦdΩ︸︷︷︸G1i

=1

2γ2

N∑k=1

ckG1k (2.37)

A3(c) = −1

2

∮Ω

cT∇Φg2gT2∇ΦTΦdΩ

= −1

2

N∑k=1

ck

∮Ω

∂φk∂x

g2gT2∇ΦTΦdΩ︸︷︷︸Kk

= −1

2

N∑k=1

ckKk (2.38)

de même on trouve

b2(c) =1

4γ2

N∑k=1

ckG1kc (2.39)

b3(c) =1

4

N∑k=1

ckKkc (2.40)

Les intégrales A2(c), A3(c), b2(c) et b3(c) peuvent être calculées de manière itérative une

fois les matrices G1k et Kk obtenues. D'où l'algorithme de Galerkin pour la synthèse de

la commande H∞ par retour d'état donné par la gure 2.2.

59


Input : N un entier positif, ε un nombre susamment petitInput : u(0)(x) commande initialeInput : A1, A3(u(0)(x)), b1, b3(u(0)(x)), G1i, Ki, i = 0, · · · , NInput : Φ(x) vecteur des fonctions de base

1 Fixer γ un niveau d'atténuation initiale2 Fixer cold1 , cold2 susamment grand;3 for i = 0 to ∞ do4 Fixer ω(i,0) = 05 if i == 0 then6 A(i) = A1 + A3(u(0)(x))

7 b(i) = b1 − b3(u(0)(x))

8 else

9 A(i) = A1 − 12

∑Nk=1 c

(i−1)k Kk

10 b(i) = b1 − 14

∑Nk=1 c

(i−1)k Kkc

(i−1)k

11 end12 for j = 0 to ∞ do13 if j == 0 then14 A = A(i) b = b(i)

15 else

16 A = A(i) + 12γ2

∑Nk=1 c

(i,j−1)k G1k

17 b = b(i) + 14γ2

∑Nk=1 c

(i,j−1)k G1kc

(i,j−1)k

18 end

19 c(i,j) = A−1b

20 if ‖c(i,j) − cold1‖ ≤ ε then

21 j =∞22 else23 cold1 = c(i,j)

24 end

25 end

26 if ‖c(i,∞) − cold2‖ ≤ ε then

27 i =∞28 else29 cold2 = c(i,∞)

30 end

31 end32 S'il y'a convergence de c, alors réduire γ et retour à l'étape 3 avec

u0(x) = −1/2gT2 (x)∇ΦTc(∞,∞)

33 Sauvegarder c(∞,∞).

Figure 2.2 Algorithme de la méthode de Galerkin pour la commande H∞ par retour d'état

4.2 Les méthodes d'implémentations

Avant de survoler quelques méthodes d'implémentation de la méthode de Galerkin,

nous présentons des conditions sur la dynamique du système pouvant réduire considé-

60


rablement le temps de calcul des intégrales en réduisant le nombre N des fonctions de

base.

4.2.1 Réduction de N .

Il est clair que lorsque n et N augmentent les calcules des intégrales multiples gu-

rants dans les équations (2.29) à (2.34) deviennent fastidieux , néanmoins nous montrons

par la suite que, sous certaines conditions, nous pouvons réduire N considérablement. La

motivation vient du fait que si f est une fonction mono dimensionnelle impaire alors on

a∫ a−a fdx = 0. Pour faire une généralisation, nous commençons par un certain nombre de

dénitions :

Dénition 4.1. f est dite séparable dans Ω si f =∏n

1 fj(xj), ∀xj ∈ Ω

Dénition 4.2. L'ensemble Lo est dénie par l'ensemble de toutes les fonctions impaires

et séparables, c.à.d. Lo = f : <n → < : fest impaire et séparable

Dénition 4.3. L'ensemble Le est dénie par l'ensemble de toutes les fonctions paires etséparables, c.à.d. Le = f : <n → < : fest paire et séparable

Lno est un vecteur dont les éléments sont dans Lo.Le théorème suivant donne une justication mathématique de la réduction du nombre de

fonctions de base N .

Thèoreme 4.1. Soit l'équation (2.1) et supposant que le lemme 4.1 est vérié, en plus

on suppose ce qui suit :

S1 Ω est un hypercube centré à l'origine, c.à.d. Ω = [−a1, a1]× · · · × [−an, an] ,

S2 f + g1ω + g2u ∈ Lno ,

S3 ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 ∈ Le,

Si φj ∈ Lo alors, cj = 0

En d'autres termes, en choisissant pour un système vériant les hypothèses précé-

dentes, des fonctions de base φi paires, nous réduisons considérablement le nombre N et

par conséquence le temps de calcul des intégrales.

Dans ce qui suit, nous nous intéressons aux méthodes de calcul des intégrales multiples.

61


4.2.2 Méthode basée sur la discrétisation des intégrales

Lemme 4.3. (Approximation de Riemann) Un intégral peut être approximé par

∫ b

a

f(x)dx = limδx→0

P∑i=1

f(xi)δx

où δx = xi − xi−1 et P est le nombre de points dans l'intervalle [a, b].

δx

Figure 2.3 Maillage dans <3

En construisant un maillage de P point dans Ω (gure 2.3), les quantités (A1+A2(ω)+

A3(u)) et (b1 + b2(ω) + b3(u)) dans (2.29)-(2.34), selon le lemme 4.3, deviennent

A1 + A2(ω) + A3(u) = limδx→0

(ΦX)δx

b1 + γ2b2(ω) + b3(u) = − limδx→0

(ΦY )δx

avec

X =

(∇Φ(f + g1ω + g2u))T |x1

...

(∇Φ(f + g1ω + g2u))T |xP

, Y =

(∇Φ(‖h1‖2 + ‖u‖2 − γ2‖ω‖2))T |x1

...

(∇Φ(‖h1‖2 + ‖u‖2 − γ2‖ω‖2))T |xP

, (2.41)et

Φ =[Φ|x1 · · · Φ|xP

](2.42)

Le vecteur des coecients sera calculé par

c = −(ΦX)−1(ΦY ) (2.43)

62


4.2.3 La Méthode de Monté-Carlo

Il est bien connu en probabilités, qu'une espérance mathématique peut être formelle-

ment dénie par une intégrale. Or la méthode de Monté-Carlo (Hammersley and Hand-

scomb (1975), Evans and Swartz (2000), Peyre (2012)) permet d'évaluer facilement cette

espérance. En renversant le paradigme, c.à.d., en écrivant une intégrale comme une espé-

rance, il est possible d'utiliser la méthode de Monté- Carlo pour calculer une intégrale :

Soit à calculer, par exemple, l'intégrale A suivant

A =

∮Ω

f(x)dΩ (2.44)

L'espérance mathématique d'une fonction aléatoire g(x) dénie sur Ω par n variables

aléatoires x1, x2, · · · , xn distribuées selon la loi de probabilité P est

EΩ[g(X)] =

∮Ω

g(x)P(x)dΩ

Donc l'espérance mathématique de f(x)/P(x) est

EΩ[f(X)/P(X)] =

∮Ω

f(x)dΩ = A

Au nal, on peut évaluer l'intégral A par l'algorithme suivant

1. Simuler P variables indépendantes distribuées selon la loi de probabilité P(x) ;

2. Pour chacune de ces variables, évaluer f(x)/P(x) ;

3. Prendre la moyenne des valeurs obtenues pour avoir un estimateur de l'intégrale.

Pour simuler P variables indépendantes distribuées selon P(x), il sut de prendre P va-

riables indépendantes uniformément distribuées dans l'intervalle [0, 1] : U1, U2, · · · , UP ,puis prendre x1 = P−1(U1), x2 = P−1(U2), · · · , xP = P−1(UP ).

Pour notre cas, le domaine Ω est choisi comme étant un hypercube donné par [a1, b1] ×[a2, b2]× · · · × [an, bn]. La loi de probabilité choisie est la loi uniforme donnée par

P(x) =n∏i=1

Pi(xi)

telle Pi(x) sont données par

Pi(xi) =

1

bi − aisi xi ∈ [ai, bi], i = 1, · · · , n;

0 sinon.

63


Alors nous avons

A =

∮Ω

ΦF T (x, ω, u)∇ΦdΩ

= E[ΦF T (x, ω, u)∇Φ/P(x)]

=n∏i=1

(bi − ai)E[F T (x, ω, u)∇ΦΦ]

=

∏ni=1(bi − ai)

P

P∑k=1

ΦF T (x, ω, u)∇Φ|x=xk

=

∏ni=1(bi − ai)

P(ΦX)

de même nous trouvons

b =

∮Ω

(Φ‖h1‖2 + ‖u‖2 − γ2‖ω‖2)TdΩ

=

∏ni=1(bi − ai)

P

P∑k=1

Φ(‖h1‖2 + ‖u‖2 − γ2‖ω‖2)T |x=xk

=

∏ni=1(bi − ai)

P(ΦY )

avec X, Y et Φ sont données par (2.41) et (2.42).

Finalement le vecteur c est donné par c = −(ΦX)−1(ΦY ).

Le choix de la loi de probabilité uniforme rend la méthode de Monté-Carlo identique à

celle utilisant l'approximation de Reiman . La seule diérence est le pas de discrétisation

qui est xe dans le cas de l'approximation de Reiman et aléatoire dans la méthode de

Monté-Carlo.

Les codes Matlab c© données par les gures 2.4 et 2.5 génèrent, respectivement, un maillage

dans le cas n = 4 pour la méthode de discrétisation des intégrales et pour la méthode de

Monté-Carlo stochastique.

4.2.4 Méthode basé sur le calcul symbolique.

Matlab c© ore un outil de calcul symbolique très puisant, à savoir Symbolic Toolbox c©.

Le code Matlab c© de la gure 2.6 illustre ces calculs pour l'exemple 4.3.1 de la section sui-

vante. Nous avons utilisé les fonctions symboliques , int (calcul des intégrales) et jacobian

(calcul de la matrice jacobienne de Φ(x)) pour l'obtention de A1 et b1.

64


x1 = x1min:Deltax:x1max;




P1 = size(x1,1);

P2 = size(x2,1);

P3 = size(x3,1);

P4 = size(x4,1);

x = [];

for i1 = 1:P1

for i2 = 1:P1

for i3 = 1:P1

for i4 = 1:P1

x = [x;x1(i1) x2(i2) x3(i3) x4(i4)];

end

end

end

end

P = size(x,1);

for k = 1:P

% On fait appel aux variables par x(k,1), x(k,2), x(k,3) et x(k,4)

....

end

Figure 2.4 Méthode de discrétisation déterministe n = 4

P = 5000;

for k = 1:P

% On fait appel aux variables par x(k,1), x(k,2), x(k,3) et x(k,4)

x(k,1) = x1min + (x1max-x1min)*rand;




....

end

Figure 2.5 Méthode stochastique de Monté-Carlo n = 4

65


x1=sym('x1');x2=sym('x2');x3=sym('x3');

f=[2*x1+x2+x3;x1-x2;x3];

h1=[x1;x2;x3];

x1b=[-1.2;1.2];

x2b=[-1.2;1.2];

x3b=[-1.2;1.2];

PHI=[x1^2;x2^2;x3^2;x1*x2;x1*x3;x2*x3;...

x1^4;x2^4;x3^4;...

x1^2*x2^2;x1^2*x3^2;x2^2*x3^2;...

x1^2*x2*x3;x1*x2^2*x3;x1*x2*x3^2;x1^3*x2;x1^3*x3;...

x1*x2^3;x1*x3^3;x2*x3^3;x2^3*x3];

jac=jacobian(PHI).';

A1=PHI*f.'*jac;

A1=int(int(int(A1,x1,x1b(1),x1b(2)),x2,x2b(1),x2b(2)),...

x3,x3b(1),x3b(2));

A1=double(A1);

b1=PHI*(h1.'*h1);

b1=int(int(int(b1,x1,x1b(1),x1b(2)),x2,x2b(1),x2b(2)),...

x3,x3b(1),x3b(2));

b1=double(b1);

Figure 2.6 code Matlab c© pour le calcul symbolique

66


4.3 Exemples Numériques

L'objectif de cette section est de démontrer l'ecacité de l'algorithme donnée par la

gure 2.2 à résoudre l'équation HJI pour diérents type de systèmes dynamiques.

4.3.1 Système linéaire MIMO 3-D

Nous commençons par l'application de l'algorithme de Galerkin pour la résolution de

l'équation de HJI pour un système linéaire multi-variables décrit par l'équation d'état

suivante

x =

2x1 + x2 + x3

x1 − x2

x3

+

0 0

1 0

0 1

ω +

0 0

0 1

1 0

u (2.45)

z =

[x

u

]

Pour initialiser l'algorithme, la commande LQR suivante

u = argminu

∫ ∞0

(xTx+ uTu)dt

est appliquée au système (2.46) avec ω = 0. Nous obtenons ainsi

u1 = −8.31x1 − 2.28x2 − 4.66x3

u2 = −8.57x1 − 2.27x2 − 2.28x3

La région de faisabilité est <3. Nous choisissons arbitrairement le domaine suivant : Ω =

[−1.2, 1.2]3.

Les fonctions de base utilisées sont les termes du développement de l'équation (2.16) pour

n = 3 et M = 4 et sont données par

Φ(x) = [x21, x

22, x

23, x1x2, x1x3, x2x3, x

41, x

42, x

43,

x21x

22, x

21x

23, x

22x

23, x

21x2x3, x1x

22x3, x1x2x

23, x

31x2, x

31x3, x1x

32, x1x

33, x2x

33, x

32x3)]T

La valeur de γ initiale était choisie égale à 10. Après réduction de celle-ci jusqu'à la valeur

de 4, nous avons obtenu le vecteur des coecients suivant, après seulement 4 itérations

(voir gure 2.7).

c = [32.7820, 2.8904, 4.9499, 18.1759, 17.6333, 4.8718]T

les éléments restants sont proches de 0, donc négligeables. La fonction V (x) s'écrit, donc,

67


1 1.5 2 2.5 3 3.5 442.1

42.2

42.3

42.4

42.5

itération

||c||

Figure 2.7 Norme du vecteur des coecients (MIMO-3D)

comme suit

V (x) = xT

32.7820 9.0879 8.8166

9.0879 2.8904 2.4359

8.8166 2.4359 4.9499

xLa loi de commande H∞ ainsi obtenue est donnée par

u1 = −8.8166x1 − 2.4359x2 − 4.9499x3

u2 = −9.0879x1 − 2.8904x2 − 2.4359x3

Le résultat obtenu est identique à celui obtenu en résolvant l'équation de Riccati (1.52)

pour le système linéaire. En eet, la fonction CARE de Matlab donne

P =

32.7820 9.0880 8.8166

9.0879 2.8904 2.4359

8.8166 2.4359 4.9499

Pour la simulation du système en boucle fermée des conditions initiales nulles, c.à.d.

x0 = [0, 0, 0]T , sont choisies et un vecteur de perturbation ω12 = 5 sin te−t est introduit au

début de simulation.

Dans la gure 2.8, sont illustrés les états du système. Nous remarquons la stabilité asymp-

totique du point d'équilibre x = 0. La même gure schématise le vecteur de commande

H∞ non linéaire par retour d'état u. L'atténuation

r(t) =

∫ t0‖z‖2dτ∫ t

0‖ω‖2dτ

(2.46)

68


dénie par le rapport entre l'énergie de la fonction de pénalité z et celle des entrées

exogènes ω est illustrée dans la gure 2.9. Nous remarquons que r γ2 = 16. Donc,

la commande obtenue par la méthode des approximations successives hybridée avec la

méthode de Galerkin est robuste avec un L2 < γ. Dans la même gure, est schématisé le

résidus R déni par l'équation (2.17), sa valeur nale vaut R = −1.9902× 10−17.

0 5 10 15 20

−0.2

−0.1

0

0.1

0.2

temps [sec]

États

x1x2x3

0 5 10 15 20

−1

−0.5

0

temps [sec]

Com

mandesH∞

u1u2

Figure 2.8 Évolution des états et des commandes H∞ (MIMO-3D)

0 5 10 15 200

0.5

1

1.5

2

2.5

temps [sec]

Atténuation

r

5 10 15 20

−1.5

−1

−0.5

0·10−4

temps [sec]

Résidus

R

Figure 2.9 Évolution de l'atténuation r et du résidus R en présence d'une perturbation(MIMO-3D)

69


4.3.2 Système non linéaire SISO 2-D

C'est un système non linéaire décrit par l'équation d'état suivante

x =

[−x3

1 − x2

x1 + x2

]+

[1

0

]ω +

[0

1

]u (2.47)

avec z =[x u

]T. Ce système possède un point d'équilibre à l'origine.

La commande initiale est obtenue par une linéarisation exacte entrée-sortie du système

avec ω = 0 et par application d'une commande optimale linéaire quadratique.

La méthode est résumée par les étapes suivantes :

0. Étant donnée un système non linéaire x = f(x) + g(x)u, choisir une sortie ctive du

système par y = h(x)

1. Calcul de la première dérivée

y =∂h

∂xf +

∂h

∂xgu = Lfh(x) + Lgh(x)u

Lf est la dérivée de Lie le long du champ de vecteur f .

2. Si Lgh(x)u 6= 0 alors le système linéaire y = v est obtenu par la loi de commande

suivante

u =1

Lgh(x)(−Lfh(x) + v)

3. Si Lgh(x)u = 0, calculer la seconde dérivée de la sortie, c.à.d.

y = L2fh(x) + LgLfh(x)u

4. Si Lgh(x)u = 0, continuer la dérivation de y jusqu'à l'apparition de la commande

u, c. à. d., LgLr−1f h(x)u 6= 0 (r est dit degré relatif du système non linéaire). Le

système linéaire y(r) = v est obtenu par la loi de commande suivante

u =1

LgLr−1f h(x)

(−Lr−1f h(x) + v)

5. Par le changement de variable suivant z = [h(x), Lfh(x), · · · , Lr−1f h(x)]T , nous

obtenons le système linéaire suivant

z =

0 1 0 · · · 0

0 0 1 · · · 0...

......

. . ....

0 0 0 · · · 0

+

0

0...

1

v70


La commande par linéarisation entrée-sortie peut être schématisée par la gure 2.10.

An d'appliquer la linéarisation Entrées/Sorties au système (2.47), la sortie ctive y = x1

yref

+ −CommandeLinéaire

Transformationdes Entrées

Système

Non linéaire

Transformation

des États

v(t) u(t)

x(t) x(t)

z(t)

y(t)

Figure 2.10 Principe de la commande par linéarisaation entrés-sortie

est choisie. Nous obtenons ainsi

y = x1 = −x31 − x2

y = x1 = −3x21x1 − x2

= −3x21(−x3

1 − x2)− x1 − x2 − u = v

La commande linéarisante est donc donnée par

u = 3x21(x3

1 + x2)− x1 − x2 − v (2.48)

et le système linéaire obtenu y = v s'écrit par représentation d'état comme suit

z =

[0 1

0 0

]+

[0

1

]v (2.49)

avec z1 = y et z2 = y.

Si nous appliquons au système (2.49) une commande LQR qui minimise le critère suivant

J =

∫ ∞0

(zT z + v2)dt

nous obtenons

v = −z1 − 1.7321z2 (2.50)

Finalement la commande initiale utilisée pour débuter l'algorithme de Galerkin est obte-

nue en remplaçant (2.50) dans (2.48)

u0(x) = 3x51 + 3x2

1x2 − x2 − 1.7321(x31 + x2) (2.51)

71


La commande u0(x) stabilise le système dans <2, donc Ω est choisi arbitrairement comme

suit Ω = [−1, 1]2.

Les fonctions de base utilisées pour cet exemple sont

Φ(x) = [x21, x1x2, x

22, x

41, x

31x2, x

21x

22, x1x

32, x

42,

x61, x

51x2, x

41x

22, x

31x

32, x

21x

42, x1x

52, x

62, · · · ]T

Le nombre de fonctions de base N est égal à 3, 8 et 15 pour M = 2, 4, 6 (voir équation

(2.16)). La valeur initiale de γ est prise égale à 20, sa valeur réduite garantissant la

convergence de l'algorithme est choisie égale à γ = 3.

Les vecteurs des coecients obtenus après convergence de l'algorithme sont les suivants

c3 = [1.2823, 1.0728, 2.0914]T

c8 = [2.7396, 0.0103, 2.5078, −1.0209, 0.7652, −0.5441, 0.2168, −0.0838]T

, c15 = [3.6339, −0.9549, 2.8147, −2.6752, 2.9931, −2.1305, 0.8422, −0.2234,

0.8543, −1.3222, 1.2068, −0.6757, 0.2851, −0.0670, 0.0330]T

Les commandes ainsi obtenues sont données par

u3(x) = −0.5364x1 − 2.0914x2 (2.52)

u8(x) = −0.0052x1 − 2.5078x2 − 0.3826x31 + 0.5441x2

1x2 −

0.3252x1x22 + 0.1676x3

2 (2.53)

u15(x) = 0.4774x1 − 2.8147x2 − 1.4965x31 + 2.1305x2

1x2 −

1.2632x1x22 + 0.4469x3

2 + 0.6611x51 − 1.2068x2x

41 +

1.0136x22x

31 − 0.5701x3

2x12 + 0.1675x42x1 − 0.0990x5

2 (2.54)

Dans la gure 2.11 est illustrée la norme du vecteur des coecients c par rapport aux

itérations et pour diérentes valeurs de N . On conclue que l'algorithme converge après 5 à

6 itérations. Pour simuler le système en boucle fermée avec les lois de commandes (2.52),

(2.53) et (2.54) les valeurs initiales x0 = [−1, 1]T sont sélectionnées. Une perturbation

ω = 5 sin te−t est introduite au début de simulation. Dans la gure 2.12 nous présentons

les états x1 et x2 pour N = 0, 3, 8 et 15. La valeur de N = 0, correspond à la commande

initiale (2.51). Nous remarquons que les états convergent asymptotiquement vers le point

d'équilibre 0. En plus, il est observé que plus la valeur N augmente, plus la réponse est

améliorée (temps de réponse, oscillations), et plus les non linéarités apparaissent dans la

commande, ce qui entraine un coût d'implémentation plus élevé. La valeur de N = 3 sut

pour notre système. Dans la gure 2.13 sont schématisées l'évolution des commandes et

l'atténuation r (2.46). Le rejet de perturbation est meilleure dans le cas où N = 3.

72


1 2 3 4 5 62

4

6

8

10

itération

||c||

N = 3N = 8N = 15

Figure 2.11 Norme du vecteur des coecients (SISO-2D)

0 5 10 15 20−1

−0.5

0

0.5

temps [sec]

x 1

N = 0N = 3N = 8N = 15

0 5 10 15 20

0

0.5

1

temps [sec]

x 2

N = 0N = 3N = 8N = 15

Figure 2.12 Évolution des états pour N = 0, 3, 8, 15 (SISO-2D)

73


0 5 10 15 20−2

−1.5

−1

−0.5

0

0.5

temps [sec]

Com

mande

u N = 0N = 3N = 8N = 15

5 10 15 20

1.4

1.6

1.8

2

2.2

temps [sec]

Atténuation

N = 0N = 3N = 8N = 15

Figure 2.13 Évolution de la commande et atténuation r pour N = 0, 3, 8, 15 (SISO-2D)

4.3.3 Système de suspension magnétique

Considérons le système de suspension magnétique de la gure 2.14 constitué d'une

boule de fer dans un champ magnétique vertical créé par un électro-aimant. Nous adoptons

l'hypothèse du ux non saturé, c.à.d., λ = L(θ)i, où λ est le ux, θ est la diérence entre

la position mesurée et nominale du rotor et i le courant circulant dans la bobine du rotor.

L(θ) dénote la valeur de l'inductance.

θ(t)

mg

F (t)

i(t), R

Figure 2.14 Système de suspension magnétique

La dynamique du système est obtenu en invoquant les lois de Kircho et Newton

λ+Ri = u

mθ = F −mg + d

74


où m désigne la masse de la boule, R la résistance de la bobine et F la force crée par

l'électro-aimant donnée par (2.55). Finalement d est une force de perturbation qui peut

aecter le système.

F =1

2

∂L

∂θ(θ)i2 (2.55)

Il existe plusieurs façons d'approximer l'inductance L(θ). La plus utilisée (Barie and Chias-

son (1996), Rodriguez et al. (2000)) est L(θ) = kC−θ , avec k est une constante qui dépend

du bobinage du rotor et C est un écart de position. Les paramètres du système de sus-

pension magnétique sont assignés dans le tableau 2.1 (Rodriguez et al. (2000)).

Table 2.1 Paramètres du système de suspension magnétique

Paramètre Désignation Valeur

m Masse de la boule [Kg] 0.0844

k Constante de bobine [Nm2/A2] 6.4042 · 10−5

R Résistance de la bobine [Ω] 2.52

C Écart de position [m] 0.005

g Constante de la gravité [N/s2] 9.81

En posant x = [λ, θ, θ]T nous obtenons le système non linéaire suivant

x1 = −Rkx1(C − x2) + u

x2 = x3 (2.56)

x3 =1

2kmx2

1 − g +1

md

Le système (2.56), possède un point d'équilibre donné par xe = [x∗1, x∗2, 0]T , tel que

x∗1 =√

2kmg et x∗2 est une position désirée . Pour écrire (2.56) sous la forme standard

(2.1) et avoir ainsi un point d'équilibre à l'origine le changement de variables suivante

x1 = x1 − x∗1, x2 = x2 − x∗2 et x3 = x3 est à faire. Nous obtenons ainsi le système suivant

˙x1 = −Rk

(x1 + x∗1)(C − x2 − x∗2) +R

kx∗1(C − x∗2) + u

˙x2 = x3

˙x3 =1

2km(x1 + x∗1)2 − g +

1

md

où

f(x) =

−Rk

(x1 + x∗1)(C − x2 − x∗2) + Rkx∗1(C − x∗2)

x3

12km

(x1 + x∗1)2 − g

, g1(x) =

0

01

m

, g2(x) =

1

0

0

75


La commande u0(x) utilisée pour initialiser l'algorithme des approximations successives

de Galerkin est choisi comme étant une commande linéaire donnée par

u0(x) = −100(x1 − x∗1)− 1000(x2 − x∗2)− 10x3 +R

kx∗1(C − x∗2) (2.57)

La commande initiale (2.57) étant linéaire, son application au système non linéaire doit

être au voisinage du point d'équilibre xe. Dans cette lumière, nous choisissons Ω =

[−0.01, +0.01] × [−1 × 10−3, +1 × 10−3] × [−0.1, +0.1]. Les pas de discrétisation (voir

paragraphe 4.2.2) sont choisis comme suit : δx1 = 0.0001, δx2 = 0.00001 et δx3 = 0.01.

Avec l'objectif de réguler x(t) au point d'équilibre xe, nous dénissons la variable de

pénalité z comme suit

z =

[x(t)− xe

u

](2.58)

Les fonctions de base utilisées dans l'algorithme de Galerkin sont choisies, dans un premier

temps, sous la forme suivante

Φ = [x21, x

22, x

23, x1x2, x1x3, x2x3]T

avec N = 6 (M = 2), et dans un deuxième lieu sous la forme

Φ = [x21, x

22, x

23, x1x2, x1x3, x2x3, x

41, x

42, x

43,

x21x

22, x

21x

23, x

22x

23, x

21x2x3, x1x

22x3, x1x2x

23, x

31x2, x

31x3, x1x

32, x1x

33, x2x

33, x

32x3)]T

avec N = 21 (M = 4).

Dans cet exemple la valeur de γ assurant la convergence de l'algorithme est égale à γ = 2.

Les valeurs des coecients obtenues après convergence de l'algorithme de Galerkin sont

presque identiques pour N = 6 et N = 21, et sont données par

c = [184.128, 5.887.339, 1.153, 2075.99, 29.104, 164.077]T

Les coecients proches de 0 dans le cas N = 21 ont été omis. Pour le critère d'arrêt de

l'algorithme la valeur de ε = 10−6 est sélectionnée.

Dans la gure 2.15 nous illustrons la norme du vecteur des coecients c par rapport aux

itérations. Nous remarquons qu'il y' a la convergence de l'algorithme après seulement 5

itérations.

76


1 1.5 2 2.5 3 3.5 4 4.5 56,200

6,400

6,600

6,800

7,000

7,200

7,400

itération

[[c[[

Figure 2.15 Norme du vecteur des coecients (Suspension magnétique)

Pour la simulation du système en boucle fermée, les conditions initiales sont prises égale

à x0 = [0, 0, 0]T . Une trajectoire de référence x∗2 = 3 mm pour t < 1 seconde et

x∗2 = −3 mm pour t > 1 seconde est imposée au système.

0 0.5 1 1.5 2

−4

−2

0

2

4

temps [sec]

x 2(m

m)

x∗2N = 0N = 6

0 0.5 1 1.5 2

−2

0

2

4

6

temps [sec]

Com

mande

u(V)

N = 0N = 6

Figure 2.16 Position et commande pour une trajectoire variable (Suspension magnétique)

Dans la gure 2.16 sont illustrées l'évolution temporelle de la position x2 et la commande

H∞ non linéaire. Dans les graphes, N = 0 est assigné au cas de la commande initiale

u0(x) donnée par (2.57). Nous observons que pour N = 6 il y' a une bonne poursuite de

référence mais avec un eort de commande plus considérable.

77


0 1 2 3 4

0

2

4

6

temps [sec]

x 2(m

m)

0 1 2 3 4

0

2

4

6

temps [sec]

Com

mande

u(V)

Figure 2.17 Position et commande avec perturbation (Suspension magnétique)

Dans la gure 2.17, sont schématisées la position x2 et la commande H∞ dans le cas

de la présence d'une perturbation ω = 0.5 cos te−t au début de la simulation. Il est clair

que le système rejette la perturbation. L'atténuation r, dénie auparavant, est illustrée

par la gure 2.18. Pour N = 6 elle vaux r = 2.82 < γ2 = 4, ce qui assure un bon rejet des

perturbations.

0 0.5 1 1.5 2 2.5 3 3.5 40

2

4

6

8

10

temps [sec]

Atténuation

r

Figure 2.18 Évolution de l'atténuation r (Suspension magnétique)

78


x

y

q1

q2

l1

l2

m1, τ1

m2, τ2

g

Figure 2.19 Robot Plainaire à 2 ddl

4.3.4 Robot Planaire à deux degrés de liberté

Le système considéré dans cet exemple est un robot planaire à deux degrés de liberté

(voir Figure 2.19) dont les équations de mouvement obtenues par l'approche d'Euler-

Lagrange sont [α + β + 2η cos q2 β + η cos q2

β + η cos q2 β

][q1

q2

]

+

[−η(2q1q2 + q2

1) sin q2

ηq21 sin q2

]

+

[αe1 cos q1 + ηe1 cos(q1 + q2)

ηe1 cos(q1 + q2)

]+

[τd1

τd2

]=

[τ1

τ2

](2.59)

où α = (m1 +m2)l21, β = m2l22 η = m2l1l2 , et e1 = g/l1.Les paramètres du robot sont les

suivants : m1 = m2 = 1kg, a1 = a2 = 1m, et g = 10m/s2 ; ce qui donne, α = 2, β = 1,

η = 1, et e1 = 10.

Nous dénissons les états, commandes et perturbations du système comme suit

x =[q1 q2 q1 q2

]Tu =

[τ1 τ2

]Tω =

[τd1 τd2

]TLes équations de mouvement (2.60) peuvent être réécrites sous la forme d'état suivante

x = f(x) + g1(x)ω + g2(x)u (2.60)

79


où f(x), g1(x) et g2(x) sont données par

f(x) =

x3

x4

−(2x3x4+x24−x23−x23 cosx2) sinx2+20 cosx1−10 cos(x1+x2) cosx2cos2 x2−2

(2x3x4+x24+2x3x4 cosx2+x24 cosx2+3x23+2x23 cosx2+20[cos(x1+x2)−cosx1](1+cosx2)−10 cosx2 cos(x1+x2))

cos2 x2−2

g1(x) =

0 0

0 0−1

cos2 x2 − 2

1 + cos x2

2− cos2 x21 + cos x2

cos2 x2 − 2

−3− 2 cosx2

2− cos2 x2

, g2(x) =

0 0

0 01

cos2 x2 − 2

−1− cosx2

2− cos2 x2−1− cosx2

cos2 x2 − 2

3 + 2 cosx2

2− cos2 x2

L'objectif de la commande est de déplacer le robot d'une position initiale quelconque x(0)

vers la position verticale. Donc le vecteur d'état désirée est dénie par xd =[π/2 0 0 0

]T.

Avec cet objectif, la variable de pénalité z devienne

z =

[x(t)− xd

u

](2.61)

Pour avoir un point d'équilibre à l'origine il est recommandé de faire le changement de

variable suivant : x(t) = x(t)− xd.Les fonctions de base utilisées dans l'algorithme de Galerkin sont choisies sous la forme

suivante

Φ = [x21, x1x2, x1x3, x1x4, x

22, x2x3, x2x4, x32, x3x4, x

24, x

41, x

31x2,

x31x3, x

31x4, x

21x

22, x

21x2x3, x

21x2x4, x

21x

23, x

21x3x4, x

21x

24, x1x

32,

x1x22x3, x1x

22x4, x1x2x

23, x1x2x3x4, x1x2x

24, x1x

33, x1x

23x4,

x1x3x24, x1x

34, x

42, x

32x3, x

32x4, x

22x

23, x

22x3x4, x

22x

24, x2x

33,

x2x23x4, x2x3x

24, x2x

34, x

43, x

33x4, x

23x

24, x3x

34, x

44]

avec N = 45 (n = 4, M = 4). Dans cet exemple la valeur de γ = 10 est sélectionnée.

La commande initiale utilisé pour lancer l'algorithme de Galerkin est la suivante

u0(x) =[−500x1 − 500x3; −200x2 − 200x4

]Tqui est une commande stabilisante. On a utilisé la méthode de Monté-Carlo avec un

maillage de 3000 points dans l'hypercube Ω = [−1,+1]4. Pour le critère d'arrêt de l'al-

gorithme la valeur de ε = 10−6 est sélectionnée. L'algorithme converge après seulement 6

itérations. La gure 2.20 montre l'évolution de la norme de c par rapport à l'itération i.

80


1 2 3 4 5 6

2.5

3

3.5

4

itération

||c||

Figure 2.20 Norme du vecteur des coecients (Robot planaire)

Le vecteur des perturbations ω(t) est composé par des couples de frottement secs et vis-

queux pour les deux articulations et est donnée par

ω(t) =

[q1 + 0.1sign(q1)

q2 + 0.1sign(q2)

]

Les résultats de simulation du système en boucle fermée pour les conditions initiales sui-

vantes x(0) = [π/4;π/6; 0; 0]T sont illustrés aux gures 2.21-2.22. Sur la gure 2.21 sont

présentées les positions articulaires (q1− π/2)(x1) et q2(x2), la convergence asymptotique

vers le point d'équilibre est atteinte.

0 1 2 3 4 5 60

0.5

1

temps [sec]

x 1',x 2

[rad]

x1'x2

Figure 2.21 Convergence asymptotique des états vers le point d'équilibre (Robot planaire)

81


Nous présentons aussi les couples de commandes et celles de perturbations sur la gure

2.22.

0 2 4 6−80

−60

−40

−20

0

temps [sec]

τ1,τ2[N.m

]

τ 1τ 2

0 2 4 6

−1

−0.5

0

temps [sec]τd1,τd2[N.m

]

τd1τd2

Figure 2.22 Évolution des commandes τ et des perturbations τd (Robot planaire)

L'atténuation r donnée par (2.46) est schématisée par la gure 2.23. Nous remarquons

clairement que r(tf ) γ2 = 100, donc un rejet de perturbation malgré la présence conti-

nue de cette dernière (sign(q)).

1 2 3 4 5 60

20

40

60

temps [sec]

Atténuation

r

Figure 2.23 Évolution de l'atténuation r (Robot planaire)

82


4.3.5 Oscillateur translationnel avec actionneur rotatif (TORA)

C'est un système constitué d'un chariot de masse M , contraint de se déplacer le long

d'une ligne horizontale et xée, par un ressort de raideur K, à un mur. Le chariot est sta-

bilisé par un actionneur rotatif de masse m et de moment d'inertie I, situé à une distance

e de l'axe de rotation. Le signal de commande est le couple N autour de l'axe de rotation

et le signal de perturbation est la force F exercée sur le chariot. Le système est présenté

par la gure 2.24.

K

F(t)

M

θ

e

mI

N

Figure 2.24 Oscillateur translationnel avec actionneur rotatif (TORA)

Ses équations de mouvement sont (Abu-Khalaf (2005b), Christen and Cirillo (1997), Ta-

vakoli et al. (2003))

(M +m)q + kq = −me(θ cos θ − θ2 sin θ) + F

(I +me2)θ = −meq cos θ +N (2.62)

En utilisant la normalisation suivante

ζ ≡√M +m

I +me2q, τ ≡

√k

M +m

u ≡ M +m

k(I +me2)N, ω ≡ 1

k

√M +m

I +me2F

les équations de mouvement deviennent

ζ + ζ = ε(θ cos θ − θ2 sin θ) + ω

θ = −εζ cos θ + u (2.63)

83


où ε décrit le couplage existant entre le mouvement translationnel et le mouvement de

rotation

ε =me√

(I +me2)(M +m)

L'écriture de (2.63) sous la forme d'état donne

x =

x3

x4

−x1 + εx24 sinx2

1− ε2 cos2 x2ε cosx2(x1 − εx2

4 sinx2)

1− ε2 cos2 x2

+

0

01

1− ε2 cos2 x2−ε cosx2

1− ε2 cos2 x2

ω +

0

0−ε cosx2

1− ε2 cos2 x21

1− ε2 cos2 x2

u (2.64)

où x =[x1 x2 x3 x4

]T=[ζ θ ζ θ

]TLa norme de la variable de pénalité z est choisie égale à (Christen and Cirillo, 1997)

‖z(x, u)‖2 = 0.1(x21 + x2

2 + x23 + x2

4) + u2 (2.65)

Le paramètre ε et le niveau d'atténuation γ sont choisis respectivement égales à 0.5 et 10.

Pour la détermination du vecteur des coecients c, la commande initiale est déterminée

par l'approximation en utilisant le développement de Taylor de V (x) (Christen and Cirillo

(1997)) et est donnée par

u0(x) = 0.3568x1 + 0.04095x3 − 0.318481x2 − 0.9275x4 −

0.398x21x2 − 0.693x2

1x4 + 0.04706x2x24 − 0.11167x3x

24 +

0.2080x2x3x4 + 0.2585x3x22 + 0.43052x1x

24 + 0.27214x1x2x4 −

0.001801x1x22 + 0.7113x1x3x4 + 0.3076x1x2x3 + 0.13067x3

1 −

0.431x21x3 + 0.32392x1x

23 − 0.1936x3

3 − 0.37795x23x4 −

0.1482x23x2 − 0.034129x3

4 + 0.0217469x22x4 + 0.00008549x3

2 (2.66)

La région de faisabilité de la commande est choisie comme suit : Ω = [−2, 2]4.

Les fonctions de base utilisées sont les termes du développement de l'équation (2.16) pour

n = 4 et M = 2, 4 et 6 et sont données par

Φ = [x21, x1x2, x1x3, x1x4, x

22, x2x3, x2x4, x

23, x3x4, x

24, x

41, · · · , x4

4, x61, · · · , x6

4]T (2.67)

Ce qui donne, N = 10, 45 et 129.

Nous présentons sur la gure 2.25 la norme du vecteur des coecients c, pour diérentes

valeurs de N . Nous constatons qu'il y'a convergence de l'algorithme de Galerkin après

seulement 4 itérations.

84


1 1.5 2 2.5 3 3.5 4

2.4

2.6

2.8

3

3.2

itération

||c||

N = 10N = 45N = 129

Figure 2.25 Norme du vecteur des coecients (TORA)

Pour la simulation du système en boucle fermée, les conditions initiales sont choisies nulles.

Une perturbation (la force F (t)) est appliquée au début de la simulation et vaut ω(t) =

5 sin 5te−t. Sur la gure 2.26 sont illustrés les trajectoires de x1 et x2, pour diérentes

valeurs de N . Il est facile de remarquer la stabilité asymptotique du point d'équilibre 0.

La commande H∞ u ainsi que l'atténuation r dénie par (2.46) sont tracés dans la gure

2.27. Nous concluons que r γ2, ce qui signie une bonne atténuation des perturbations.

0 20 40 60 80 100−2

−1

0

1

2

temps [sec]

x 1(ζ)

N = 10N = 45N = 129

0 20 40 60 80 100−1

0

1

2

temps [sec]

x 2(θ)

N = 10N = 45N = 129

Figure 2.26 Convergence asymptotique vers l'état d'équilibre x = 0 (TORA)

85


0 20 40 60 80 100

−1

−0.5

0

0.5

temps [sec]

Com

mande

H∞

N = 10N = 45N = 129

0 20 40 60 80 1000

1

2

3

4

temps [sec]

Attétun

ationr

N = 10N = 45N = 129

Figure 2.27 Évolution de la commande u, de la perturbation ω et l'atténuation r (TORA)

4.4 Méthode de Galerkin : Cas de la commande H∞ contrainte

par retour d'état

Dans le cas de la commande contrainte par retour d'état, les simplications faites sur

le calcul de A3(u) et b3(u) (équations (2.31), (2.34)) ne sont plus valables. Néanmoins, ces

derniers peuvent être calculées directement par

A3(u) =

∮Ω

uTgT2 (x)∇ΦTΦdΩ (2.68)

b3(u) = −∮

Ω

W (u)ΦdΩ (2.69)

avec

u = φ(−1

2gT2 (x)∇ΦTc) (2.70)

etW (u) = 2∫ u

0φ−T (v)dv (voir équations (1.55) et (1.57)). φ étant la fonction de saturation

de la commande.

Nous rappelons que dans le cas d'une saturation dans un intervalle [−A, +A] par une

tangente hyperbolique, c.à.d., φ(·) = A tanh(·/A), on a

W (u) = 2A

(u tanh−1(u/A) + 0.5A log(1− (u/A)2)

)L'algorithme de Galerkin décrit par la gure 2.2 est donc remplacée par celui de la gure

2.28

86


Input : N un entier positif, ε un nombre susamment petitInput : u0(x) commande initiale avec saturationInput : A1, A3(u(0)(x)), b1, b3(u(0)(x))Input : Φ(x) vecteur des fonctions de base

1 Fixer cold1 , cold2 susamment grand;2 for i = 0 to ∞ do3 Fixer ω(i,0) = 04 for j = 0 to ∞ do5 Calcul de A2(ω(i,j) =

∫Ωω(i,j)TgT1∇ΦTΦdΩ

6 A3(u(i)) =∫

Ωu(i)TgT2∇ΦTΦdΩ

7 b2(ω(i,j)) =∫

Ω‖ω(i,j)‖2ΦdΩ

8 b3(u(i)) = −∫

ΩW (u(i))ΦdΩ

9 c(i,j) = (A1 + A2(u(i)) + A3(ω(i,j)))−1(b1 + b2(u(i)) + γ2b3(ω(i,j)))


11 j =∞12 else13 Mise à jour de la perturbation14 ω(i,j+1) = 1

2γ2gT1 (x)∇ΦTc(i,j)

15 cold1 = c(i,j)

16 end

17 end

18 if ‖c(i,∞) − cold2‖ ≤ ε then

19 i =∞20 else21 Mise à jour de la commande22 u(i) = φ(−1

2gT2 (x)∇ΦTc(i,∞))

23 cold2 = c(i,∞)

24 end

25 end26 S'il y'a convergence de c, alors réduire γ et retour à l'étape 3 avec

u0(x) = −1/2gT2 (x)∇ΦTc(∞,∞)

27 Sauvegarder c(∞,∞).

Figure 2.28 Algorithme de la méthode de Galerkin pour la commande H∞ contrainte parretour d'état

4.4.1 Application au système TORA

Pour illustrer l'application de l'algorithme de Galerkin pour la commandeH∞ contrainte

(avec saturation), l'exemple 4.3.5 (TORA) est repris. A cet eet nous utilisons les mêmes

paramètres de synthèse de la commande, tout en imposant une bornitude |u| < 0.4.

La norme du vecteur c est illustrée dans la gure 2.29 pour diérentes valeurs de N .

Nous constatons que l'algorithme convergence pour une tolérance ε = 10−6 après 4 à 6

itérations.

87


1 2 3 4 5 62

2.5

3

3.5

4

4.5

itération

||c||

N = 10N = 45N = 129

Figure 2.29 Norme du vecteur des coecients- Cas de la commande contrainte (TORA)

Après application des commandes H∞ contraintes, et sous les mêmes conditions du para-

graphe précédent, nous remarquons que le point d'équilibre x = 0 est asymptotiquement

stable (voir gure 2.30). Les commandes et atténuations sont schématisées dans la gure

2.31. La commande est saturée avec |u| < 0.4. Plus le nombre N augmente plus les per-

formances du système s'améliorent et plus l'atténuation des perturbations est meilleure.

Quand N = 129, les non linéarités deviennent plus importantes, ce qui rend l'atténuation

légèrement plus grande que le cas où N = 45. Donc, le choix de N = 45 est largement

susant pour atteindre les objectifs de stabilité et robustesse.

0 20 40 60 80 100−2

−1

0

1

2

temps [sec]

x 1(ζ)

N = 10N = 45N = 129

0 20 40 60 80 100−1

0

1

2

temps [sec]

x 2(theta)

N = 10N = 45N = 129

Figure 2.30 Convergence asymptotique vers l'état d'équilibre x = 0- Cas de la commandecontrainte (TORA)

88


0 20 40 60 80 100−0.4

−0.2

0

0.2

0.4

temps [sec]

Com

mande

H∞

N = 10N = 45N = 129

0 20 40 60 80 1000

1

2

3

4

temps [sec]

Atténuation

r

N = 10N = 45N = 129

Figure 2.31 Évolution de la commande u, de la perturbation ω et l'atténuation r- Cas de lacommande contrainte (TORA)


commande H∞ à temps nal xe

Considérons le système non linéaire ane décrit par l'équation d'état

x = f(x) + g1(x)ω + g2(x)u

z =

[h1(x)

u

](2.71)

Le problème de la commande H∞ par retour d'état à temps nal xe consiste à trouver

le point selle (u, ω) minimisant et maximisant le critère de cout suivant

V (x(t0), t0) = ϕ(x(tf ), tf ) +

∫ tf

t0

(‖h1‖2 + ‖u‖2 − γ2‖ω‖2)dt (2.72)

avec V (x(tf ), tf ) = ϕ(x(tf ), tf ).

Le calcul innitésimal sur l'équation (2.72) et l'utilisation du principe d'optimalité de

Bellman donne l'équation de HJI suivante

∂V (x, t)

∂t+∂V (x, t)

∂x(f + g1ω + g2u) + ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 = 0 (2.73)

89


En eet, en posant L(x, ω, u) = ‖h1‖2 + ‖u‖2 − γ2‖ω‖2, (2.72) peut s'écrire comme suit

V (x(t), t) = ϕ(x(tf ), tf ) +

∫ tf

t

L(x, ω, u)dτ

= ϕ(x(tf ), tf ) +

∫ t+∆t

t

L(x, ω, u)dτ +

∫ tf

t+∆t

L(x, ω, u)dτ

= ϕ(x(tf ), tf ) + L(x, ω, u)∆t+ V (x(t+ ∆t), t+ ∆t)− ϕ(x(tf ), tf )

≈ L(x, ω, u)∆t+ V (x(t), t) +∂V

∂t∆t+

∂V

∂x∆x (2.74)

En supposant que ∆t→ 0 nous obtenons facilement

0 = L(x, ω, u) +∂V

∂t+∂V

∂x

∆x

∆t

= L(x, ω, u) +∂V

∂t+∂V

∂x(f + g1ω + g2u)

et l'équation de HJI (2.73) découle.

Cette équation donne une solution au problème de la commande H∞ par retour d'état

à temps nal xe, et est solvable en rétrograde "backward" connaissant la solution à

l'instant nal V (x(tf ), tf ) = ϕ(x(tf ), tf ).

Le point selle (u, ω) est tel que

V ∗(x(t), t) = minu

maxω

(ϕ(x(tf ), tf ) +

∫ tf

t

L(x, u, ω)dt

)(2.75)

D'après (2.74) nous avons

V ∗(x(t), t) = minu

maxω

(L(x, ω, u)∆t+ V ∗(x(t), t) +

∂V ∗

∂t∆t+

∂V ∗

∂x∆x

)(2.76)

puisque V ∗(x(t), t) + ∂V ∗

∂t∆t ne dépend pas de u et ω, l'équation suivante s'obtienne faci-

lement en prenant ∆t→ ∂t

−∂V∗(x, t)

∂t= min

umaxω

(‖h1‖2 + ‖u‖2 − γ2‖ω‖2 +

∂V ∗(x, t)

∂x(f + g1ω + g2u)

)(2.77)

L'équation (2.77) est dite équation HJI à temps nal xe. Le point selle (u, ω) s'obtient

par minimisation et maximisation et est donnée par

u∗ = −1

2gT2∂V ∗(x, t)T

∂x(2.78)

ω∗ =1

2γ2gT1∂V ∗(x, t)T

∂x(2.79)

90


En remplaçant (2.78) et (2.79) dans (2.77), nous aurons l'équation HJI à temps nal xe

suivante

−∂V∗(x, t)

∂t= ‖h1‖2 +

∂V ∗(x, t)

∂xf +

1

4

∂V ∗(x, t)

∂x

(1

γ2g1g

T1 − g2g

T2

)∂V ∗(x, t)T

∂x(2.80)

La solution de l'équation HJI (2.80) est dicile voir même impossible analytiquement.

L'algorithme des approximations successives combiné avec la méthode de Galerkin peut

être utilisé pour résoudre, cette fois ci, une séquence d'équations HJI linéaires données

par (2.73).


Dans ce qui suit, nous présentons une solution de (2.73) par la méthode de Galerkin.

Pour cela, V (x, t) est approchée par

VN(x, t) =N∑i=1

ci(t)φi(x) = c(t)TΦ(x) (2.81)

avec c(t)T =[c1(t) · · · cN(t)

]et Φ(x) =

[φ1(x) · · · φN(x)

]T.

L'équation (2.73) devienne

N∑i=1

ci(t)φi(x) +N∑i=1

ci(t)φi,x(x)(f + g1ω + g2u) + ‖h1‖2 + ‖u‖2 − γ2‖ω‖2 = 0 (2.82)

L'application de la méthode de Galerkin sur l'équation (2.82) donne

N∑k=1

ck(t)

∮Ω

φk(x)φl(x)dΩ +N∑k=1

ck

∮Ω

φk,x(x)

(f(x) + g1(x)ω + g2(x)u

)φl(x)dΩ =

−∮

Ω

(‖h1(x)‖2 + ‖u‖2 − γ2‖ω‖2

)φl(x)dΩ, l = 1, · · · , N (2.83)

ou sous forme matricielle plus compacte∮Ω

cT (t)ΦT (x)Φ(x)dΩ +

∮Ω

c(t)T (f + g1ω + g2u)T∇ΦΦdΩ

+

∮Ω

(‖h1‖2 + ‖u‖2 − γ2‖ω‖2)ΦTdΩ = 0 (2.84)

Si nous utilisons une discrétisation du domaine Ω par un maillage de P points (voit lemme

4.3) l'équation (2.84) devienne

ATAc(t) + ATBc(t) + ATC = 0 (2.85)

91


avec

A =[Φ(x)|x1 · · · Φ(x)|xP

]TB =

[∇ΦT (f + g1ω + g2u)|x1 · · · ∇ΦT (f + g1ω + g2u)|xP

]TC =

[(‖h1‖2 + ‖u‖2 − γ2‖ω‖2)|x1 · · · (‖h1‖2 + ‖u‖2 − γ2‖ω‖2)|xP

]TL'équation (2.85) est une équation diérentielle ordinaire rétrograde qui peut être résolue

en connaissant au préalable la valeur du vecteur des coecient c(t) à l'instant nal t = tf .

La commande H∞ par retour d'état à temps nal xe est donc donnée par

u∗ = −1

2gT2∇TΦ(x)c(t) (2.86)

et est appliquée au système de t allant de 0 à tf , ce qui rend cette dernière une commande

o-line (le vecteur de coecients c(t) est calculé de t allant de tf à 0).

L'algorithme de Galerkin pour la synthèse de la commande H∞ par retour d'état à temps

nal xe est donné par la gure 2.32.

Input : P un entier positifInput : Φ(x) vecteur des fonctions de base

1 Initialiser le vecteur c(tf ) ;2 Calculer les matrices

3 A =[∇Φ(x)|x1 · · · ∇Φ(x)|xP

]T4 B =

[∇Φ(x)f(x)|x1 · · · ∇Φ(x)f(x)|xP

]T5 E =

[h(x)|x1 · · · h(x)|xP

]T6 for t = tf to 0 do7 u = −1

2gT2∇TΦ(x)c(t)

8 ω = 12γ2gT1∇TΦ(x)c(t)

9 Calculer les matrices

10 C =[∇Φ(x)g1(x)ω|x1 · · · ∇Φ(x)g1(x)ω|xP

]T11 D =

[∇Φ(x)g2(x)u|x1 · · · ∇Φ(x)g2(x)u|xP

]T12 F =

[uTu|x1 · · · uTu|xP

]T13 G =

[ωTω|x1 · · · ωTω|xP

]T14 résoudre l'équation diérentielle ordinaire

15 c(t) = −(ATA)−1

(AT (B + C +D)c(t) + AT (E + F − γ2G)

)16 Sauvegarder c(t).17 end

Figure 2.32 Algorithme de Galerkin pour la commande H∞ à temps nal xe

92


5.2 Application à la validation d'une commande H∞ inverse

Dans cette section nous nous intéressons à l'application de la commande H∞ avec

horizon ni (à temps nal xe) sur un système dynamique obtenu par résolution inverse

de l'équation HJI (Doyle et al. (1996)). En d'autre termes, étant donnée V (x), ‖h1(x)‖2,

g1(x), g2(x) et γ, la résolution inverse d'une équation HJI consiste à trouver la famille des

systèmes non linéaires données par f(x) et vériant l'équation de HJI suivante

Vxf(x) +1

4Vx

(1

γ2g1(x)gT1 (x)− g2(x)gT1 (x)

)V Tx + ‖h1(x)‖2 = 0 (2.87)

Pour notre exemple, on suppose que

V (x) = x21 + 2x2

2 + 3x21x

22

‖h1(x)‖2 = 2(2x1 + 6x1x22)2 + 2(4x2 + 6x2

1x2)2

g1(x) =

[0.5

1

]

g2(x) =

[1 0

0 3

]γ = 1

la dynamique du système f(x) s'obtient en résolvant l'équation HJI (2.87) (par rapport

à f(x)). Elle est donnée par

f(x) =

[−(29x1 + 87x1x

22)/8− (2x2 + 3x2x

21)/4

−(x1 + 3x1x22)/4

](2.88)

La solution approchée de V (x) est donnée par

VN(x, t) = c1(t)x21 + c2(t)x1x2 + c3(t)x2

2

+c4(t)x41 + c5(t)x3

1x2 + c6(t)x21x

22 + c7(t)x1x

32

+c8(t)x42 + c9(t)x6

1 + c10(t)x51x2 + c11(t)x4

1x22 + c12(t)x3

1x32

+c13(t)x21x

42 + c14(t)x1x

52 + c15(t)x6

2

Les valeurs attendues des ck sont ck = [1, 0, 2, 0, 0, 3, 0, · · · , 0]T .

Un maillage de 1000 points dans le domaine Ω = [−1,+1]2 est utilisée pour approximer

les intégrales dans l'équation diérentielle ordinaire ODE (2.85).

Les valeurs nales

c(tf ) = [10, 10, 10, 10, 10, 0, 0, 0, 0, 0, 10, 10, 10, 10, 10]T

93


sont utilisées et l'équation (2.85) est résolue en rétrograde. Nous disposons de la com-

mande qu'après sa résolution totale de t = tf à t = 0.

0 0.2 0.4 0.6 0.8 1−2

0

2

4

6

8

10

temps [sec]

c i

c1c3c6

Figure 2.33 Poids ci : Commande H∞ à temps nal xe

La gure 2.34 représente les états et les commandes obtenus après application de la loi de

commande (2.86). La convergence asymptotique du point d'équilibre x = 0 est visible.

0 0.2 0.4 0.6 0.8 1

−0.5

0

0.5

1

temps [sec]

Etats

x1x2

0 0.2 0.4 0.6 0.8 1−5

0

5

10

15

temps [sec]

Com

mandes

u1u2

Figure 2.34 Évolution des états x1, x2 et des commandes u1, u2 : Commande H∞ à tempsnal xe

94


5.3 Application au système TORA

Pour pouvoir appliquer la commande H∞ par retour d'état à temps nal xe au sys-

tème TORA décrit par l'équation d'état (2.64) nous choisissons comme fonctions de base

celles données par l'équation (2.67) avec N = 10 et N = 45. Le paramètre ε et le niveau

d'atténuation γ sont choisis respectivement égales à 0.5 et 10.

Pour résoudre l'équation diérentielle ordinaire ODE (2.85) un maillage de 1000 points

dans le domaine Ω = [−1,+1]2 a été créé. Les valeurs nales du vecteur des coecients c

pour N = 10 et N = 45 sont tel que ck(tf ) = 1, ∀k.La gure 2.35 montre la convergence des coecients ck.

Les conditions initiales nulles et une perturbations ω(t) = 5 sin(t)e−t sont imposées au

0 10 20 30 40 50 602

4

6

8

temps [sec]

||c(t)||

N = 10N = 45

Figure 2.35 Norme du vecteur des coecients (TORA)- Cas de la commande à temps nalxe

système au début de simulation. La gure 2.36 illustre la convergence des états vers le

point d'équilibre x = 0 pour diérentes valeurs de N . La meilleure performance est obte-

nue pourN = 45.

La gure 2.37 représente la commande et l'atténuation r dénie par (2.46). Plus N est

grand plus la commande est réalisable et plus une bonne atténuation des perturbations

est assurée : r γ2 = 100.

95


0 20 40 60−2

−1

0

1

2

temps [sec]

x 1(ζ)

N = 10N = 45

0 20 40 60−1

0

1

2

temps [sec]

x 2(θ)

N = 10N = 45

Figure 2.36 Convergence asymptotique vers l'état d'équilibre x = 0 (TORA)- Cas de la com-mande à temps nal xe

0 20 40 60−1

−0.5

0

0.5

temps [sec]

Com

mande

u

N = 10N = 45

0 20 40 600

1

2

3

4

temps [sec]

Atténuation

r

N = 10N = 45

Figure 2.37 Évolution de la commande u, de la perturbation ω et l'atténuation r (TORA)-Cas de la commande à temps nal xe


commande H∞ par retour d'état -Cas discret

Le système non linéaire considéré est donné par la forme d'état standard suivante

xk+1 = f(xk) + g1(xk)ωk + g2(xk)uk (2.89)

96


La variable de pénalité z est donnée par

zk =

[h1(xk)

uk

](2.90)

Dans cette section, nous nous intéressons à la résolution de l'équation HJI obtenue dans

le cadre de la commande H∞ par retour d'état des systèmes non linéaires discrets. Nous

rappelons que cette équation, dans le cas d'approximation d'ordre 2, est donnée par

0 = ∇V ∗(xk+1)(f(xk) + g1(xk)ω∗k + g2(xk)u

∗k − xk)

+1

2(f(xk) + g1(xk)ω

∗k + g2(xk)u

∗k − xk)T · ∇2V ∗(xk+1) ·


∗k − xk)

+ ‖h1(xk)‖2 + ‖u∗k‖2 − γ2‖ω∗k‖2 (2.91)

où la commande H∞ sous-optimale discrète et la pire perturbation sont, respectivement,

exprimées par

u∗k = −(

2 + gT2 (xk)∇2V ∗k g2(xk)

)−1

·

gT2 (xk)

(∇V ∗k +∇2V ∗k (f(xk) + g1(xk)ω

∗k − xk)

)(2.92)

ω∗k =

(2γ2 + gT1 (xk)∇2V ∗k g1(xk)

)−1

·

gT1 (xk)

(∇V ∗k +∇2V ∗k (f(xk) + g2(xk)u

∗k − xk)

)(2.93)

avec

∇V ∗(xk+1) = ∇V ∗k =∂TV ∗(xk+1)

∂xk+1

et

∇2Vk =

∂2V (x)

∂x21

∂2V (x)∂x1x2

· · · ∂2V (x)∂x1xn

∂2V (x)∂x2x1

∂2V (x)

∂x22· · · ∂2V (x)

∂x2xn...

.... . .

...∂2V (x)∂xnx1

∂2V (x)∂xnx2

· · · ∂2V (x)∂x2n

x=xk

6.1 Méthode des approximations successives

L'équation (2.91) étant non linéaire sa résolution est dicile voir analytiquement im-

possible. Néanmoins, nous pouvons la résoudre par l'algorithme des approximations suc-

cessives (AS).

L'idée principale de cette méthode est de transformer (2.91) en une séquence d'équations

97


linéaires données par

0 = ∇V (i,j)k (f(xk) + g1(xk)ω

(i,j)k + g2(xk)u

(i)k − xk)

+1

2(f(xk) + g1(xk)ω

(i,j)k + g2(xk)u

(i)k − xk)

T · ∇2V(i,j)k ·

(f(xk) + g1(xk)ω(i,j)k + g2(xk)u

(i)k − xk)

+ ‖h1(xk)‖2 + ‖u(i)k ‖

2 − γ2‖ω(i,j)k ‖2 (2.94)

puis de les résoudre par rapport à ∇Vk de manière itérative. L'équation (2.94)) est dite

équation HJI discrète généralisée, notée G-DHJI.

L'algorithme des AS dans le cas discret est similaire à celui présenté dans le cas continu,

et est résumé comme suit :

En partant d'une commande initiale u(0)k stabilisante du système non linéaire suivant

xk+1 = f(xk) + g2(xk)uk dans une région appelée région de faisabilité Ω ; et pour une

perturbation ω(i,j)k = 0, l'équation (2.94) est résolue puis la perturbation est réactualisée

par la loi suivante

ω(i,j)k =

(2γ2 + gT1 (xk)∇2V

(i,j)k g1(xk)

)−1

·

gT1 (xk)

(∇V (i,j)

k +∇2V(i,j)k (f(xk) + g2(xk)u

(i)k − xk)

)(2.95)

jusqu'au |∇V (i,j+1)k − ∇V (i,j)

k | < ε, nous posons ainsi j = ∞. Ensuite, la commande est

réactualisée selon la loi

u(i)k = −

(2 + gT2 (xk)∇2V

(i,∞)k g2(xk)

)−1

· (2.96)

gT2 (xk)

(∇V (i,∞)

k +∇2V(i,∞)k (f(xk) + g1(xk)ω

(i,∞)k − xk)

)(2.97)

jusqu'au |∇V (i+1,∞)k −∇V (i,∞)

k | < ε, nous posons ainsi i =∞. La solution nale de (2.94)

selon l'algorithme des AS est ∇V (∞,∞)k . L'algorithme des approximations successives est

donnée par la gure 2.38.

98


1 Soit u(0)k une commande initiale stabilisante, dans un domaine Ω

2 Fixer γ un niveau d'atténuation initiale3 for i = 0 to ∞ do4 Fixer ω(i,0) = 05 for j = 0 to ∞ do

6 Résoudre pour ∇V (i,j)k

7 0 = ∇V (i,j)k (f(xk) + g1(xk)ω

(i,j)k + g2(xk)u

(i)k − xk) + 1

2(f(xk) + g1(xk)ω

(i,j)k +

g2(xk)u(i)k − xk)T · ∇2V

(i,j)k · (f(xk) + g1(xk)ω

(i,j)k + g2(xk)u

(i)k − xk) +

‖h1(xk)‖2 + ‖u(i)k ‖2 − γ2‖ω(i,j)

k ‖2


9 ω(i,j)k = (2γ2 + gT1 (xk)∇2V

(i,j)k g1(xk))

−1 · gT1 (xk)(∇V (i,j)k +∇2V

(i,j)k (f(xk) +

g2(xk)u(i)k − xk))

10 end11 Mise à jour de la commande

12 u(i)k = −(2 + gT2 (xk)∇2V

(i,∞)k g2(xk))

−1 · gT2 (xk)(∇V (i,∞)k +∇2V

(i,∞)k (f(xk) +

g1(xk)ω(i,∞)k − xk))

13 end

14 Si l'équation HJI est solvable alors, réduire γ et aller à 3 avec u(0)k = u

(∞)k .

Figure 2.38 Approximations successives de la solution de l'équation HJI- Cas discret


La résolution de l'équation G-DHJI (2.94) par la méthode de Galerkin suppose tout

d'abord une solution approximative donnée par

VN(xk) =N∑i=1

ciφi(xk) = cTΦ(xk) (2.98)

avec cT =[c1 c2 · · · cN

]et Φ(xk) =

[φ1(x) φ2(x) · · · φN(x)

]Tx=xk

.

L'équation (2.94) devient

0 = cT∇Φ(xk)(f(xk) + g1(xk)ω+g2(xk)uk − xk) +1

2(f(xk) + g1(xk)ωk + g2(xk)uk − xk)TcT∇2Φ(xk) ·

(f(xk) + g1(xk)ωk + g2(xk)uk − xk) +

‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2

99


avec ∇Φ et ∇2Φ sont la jacobienne et la matrice Hessienne de Φ

∇Φ(xk) =[∂φ1∂x

∂φ2∂x· · · ∂φN

∂x

]Tx=xk

∇2Φ(xk) =[∂2φ1∂x2

∂2φ2∂x2

· · · ∂2φN∂x2

]Tx=xk

La méthode de Galerkin, détaillée dans la section 4.1, donne la solution c comme suit

c = −(∮

Ω

(f(xk) + g1(xk)ωk + g2(xk)uk − xk)T∇Φ(xk)TΦ(xk)dΩ

+1

2

∮Ω

(f(xk) + g1(xk)ωk + g2(xk)uk − xk)T∇2Φ(xk)×

(f(xk) + g1(xk)ωk + g2(xk)uk − xk)Φ(xk)dΩ

)−1

·(∮Ω

(‖h1‖2 + ‖u‖2 − γ2‖ω‖2)Φ(xk)dΩ

)(2.99)

Remarque 6.1. Pour le calcul des poids c nous utilisons une méthode de discrétisation des

intégrales qui peut être soit déterministe, soit stochastique (Monté-Carlo). En eet (2.99)

peut s'écrire comme suit

c = −(ΦX)−1 · (ΦY ) (2.100)

avec

Φ =[Φ(xk)|x1k · · · Φ(xk)|xPk

](2.101)

XT =

(∇Φ(xk)∆xk + 1

2(∆xk)

T∇2Φ(xk)(∆xk))|x1k...

(∇Φ(xk)∆xk + 12(∆xk)

T∇2Φ(xk)(∆xk))|xPk

(2.102)

Y =

(‖h1(xk)‖2 + ‖u(i)

k ‖2 − γ2‖ω(i,j)k ‖2)|x1k

...

(‖h1(xk)‖2 + ‖u(i)k ‖2 − γ2‖ω(i,j)

k ‖2)|xPk

(2.103)

où ∆xk = f(xk) + g1(xk)ωk + g2(xk)uk et P étant le nombre de point constituant la

maillage du domaine Ω.

En combinant la méthode des AS et celle de Galerkin nous obtenons l'algorithme

donné par la gure 2.39. Les deux exemples suivants montrent l'ecacité de la méthode

de Galerkin pour résoudre le problème de la commande H∞ non linéaire discrète par

retour d'état.

100


Input : P un entier positif, ε un nombre susamment petitInput : u0(xk) commande initiale avec saturationInput : I, J deux nombres entiers positifsInput : Φ(xk) vecteur des fonctions de base

1 Fixer cold1 , cold2 susamment grand;2 for i = 0 to I do3 Fixer ω(i,0) = 04 for j = 0 to J do5 Calcul de Φ, X et Y selon (2.101), (2.102) et (2.103) respectivement6 Calcul de c(i,j) = −(ΦX)−1 · (ΦY )7 Calcul de ∇V = cT∇Φ(xk), ∇2V = cT∇2Φ(xk)


9 j = J10 else11 Mise à jour de la perturbation

12 ω(i,j+1) =

(2γ2 − gT1 (xk)∇2V (xk)g1(xk)

)−1

gT1 (xk)

(∇V (xk) +

∇2V (xk)(f(xk) + g2(xk)u(i−1) − xk)

)13 cold1 = c(i,j)

14 end

15 end

16 if ‖c(i,J) − cold2‖ ≤ ε then

17 i = I18 else19 Mise à jour de la commande

20 u(i) =

(2 + gT2 (xk)∇2V (xk)g2(xk)

)−1

gT2 (xk)

(∇V (xk) +∇2V (xk)(f(xk) +

g1(xk)ω(i,j+1) − xk)

)21 cold2 = c(i,∞)

22 end

23 end

24 Sauvegarder c(I,J).

Figure 2.39 Algorithme des Galerkin pour la commande H∞ par retour d'état discret

6.3 Exemples Numériques

6.3.1 Système non linéaire discret MIMO

C'est un système MIMO discret donnée par l'équation au diérences non linéaire

suivante (Jagannathan, 2009)

x(k + 1) =

[x2

1(k) sin(0.5x2(k))

sin(0.9x1(k)) cos(1.4x2(k))

]+

[0

1

]ω(k) +

[1 0

0 0.2

]u(k) (2.104)

101


et

z(k) =

[x(k)

u(k)

](2.105)

Pour la détermination du vecteur des coecients c, la commande initiale utilisée est

donnée par

u0(x) =

[x1(k)− 0.6x2(k)

−0.2x1(k) + 0.35x2(k)

](2.106)

La région de faisabilité de la commande est <2, nous choisissons donc arbitrairement

Ω = [−1, 1]2.

Les fonctions de base utilisées sont les termes du développement du polynôme (2.16) pour

n = 2 et m = 6, c.à.d.3∑j=1

( 2∑i=1

xi

)2j

d'où

Φ = [x21, x1x2, x

22, x

41, x

31x2, x

21x

22, x1x

32, x

42, x

61, x

51x2, x

41x

22, x

31x

32, x

21x

42, x1x

52, x

62]T

avec N = 15. Les valeurs de γ et ε sont, respectivement, égaux, à 10 et 10−6. Le vecteur

des coecients c obtenu après convergence de l'algorithme est le suivant

c = [0.5163, 0.3342, 0.4779, −0.0004, 0.0470, −0.0999, −0.1571,

0.0126, 0.0004, 0.0040, 0.0150, 0.0198, 0.0347, 0.0045, −0.0036]T

1 2 3 4 5 6 7 80

2

4

6

8

itération

||c||

Figure 2.40 Norme du vecteur des coecients ||c|| (Système discret 1)

La gure 2.40 montre la convergence de l'algorithme de Galerkin, après seulement six

102


itérations, en illustrant la norme de c.

Pour la simulation du système en boucle fermée, les conditions initiales sont x0 = [1, −1]T .

L'entrée exogène est choisi égale à ω(k) = sin(k)e−0.2k. Sur la gure 2.41 sont présentés

les états du système dans le cas de l'application de la commande initiale (2.106) et la

commande H∞ par retour d'état. Nous constatons facilement d'une part la convergence

vers le point d'équilibre x = 0 et d'autre part l'amélioration, en temps de réponse, obtenue

par rapport à l'utilisation de la commande initiale. La gure 2.42 présente les commandes

u1 et u2 dans le cas de l'application de la commande initiale (2.106) et la commande H∞par retour d'état. Les mêmes interprétations peuvent être établies.

0 10 20 30 40 50

−0.5

0

0.5

1

k

x 1

x1 initialx1 H∞

0 10 20 30 40 50−1

−0.5

0

0.5

1

1.5

k

x 2

x2 initialx2 H∞

Figure 2.41 Évolution des états x1 et x2 pour u0 et uH∞ (Système discret 1)

0 10 20 30 40 50

0

0.5

1

1.5

k

u 1

u1 initialu1 H∞

0 10 20 30 40 50−0.6

−0.4

−0.2

0

0.2

k

u 2

u2 initialu2 H∞

Figure 2.42 Évolution des commandes u0 et uH∞ (Système discret 1)

103


L'atténuation dénie dans le cas discret par

r(k) =

∑ki=0 x(k)Tx(k) + u(k)Tu(k)∑k

i=0 ω(k)Tω(k)

est illustrée dans la gure 2.43. Nous constatons que celle obtenue dans le cas H∞ est

nettement réduite par rapport à celle obtenue avec la commande initiale.

0 10 20 30 40 500

5

10

15

20

25

k

Attenuation

r

r initialr H∞

Figure 2.43 Évolution de l'atténuation r pour u0 et uH∞ (Système discret 1)

6.3.2 Oscillateur translationnel avec actionneur rotatif (TORA) discrétisé

L'application de la commande H∞ non linéaire discrète par retour d'état u système

TORA est présentée. L'approximation de la fonction coût V est choisie d'ordre 2. En

utilisant un temps de discrétisation ∆T = 0.001 nous obtenons un système discret dèle

et proche du modèle continu.

x(k + 1) =

∆T · x3(k) + x1(k)

∆T · x4(k) + x2(k)

∆T · −x1(k) + εx24(k) sinx2(k)

1− ε2 cos2 x2(k)+ x3(k)

∆T · ε cosx2(k)(x1(k)− εx24(k) sinx2(k))

1− ε2 cos2 x2(k)+ x4(k)

+

∆T ·

0

01

1− ε2 cos2 x2(k)−ε cosx2(k)

1− ε2 cos2 x2(k)

ω + ∆T ·

0

0−ε cosx2(k)

1− ε2 cos2 x2(k)1

1− ε2 cos2 x2(k)

u (2.107)

104


avec ε = 0.5.

Une commande contrainte est synthétisée avec la condition |u| ≤ A = 0.8. la fonction de

saturation est la tangente hyperbolique. La norme de la variable de pénalité z, dans le

cas discret, est donc

‖z(x, u)‖2 = 0.1x(k)Tx(k)+2A(u(k) tanh−1(u(k)/A)+0.5A log(1−(u(k)/A)2))) (2.108)

Pour la détermination du vecteur des coecients c, la commande initiale est choisie égale

à celle utilisée dans le cas continu, c.à.d. (2.66).

La région de faisabilité est Ω = [−2, 2]4 et le niveau d'atténuation γ est 10.

Les fonctions de base utilisées sont les termes du développement du polynôme (2.16) pour

n = 4 et m = 6, c.à.d.3∑j=1

( 4∑i=1

xi

)2j

donc N = 129.

La méthode de discrétisation du domaine Ω, avec un maillage de 10000 point, est utilisée.

La gure 2.44 montre la convergence de la norme du vecteur c après seulement 5 itérations.

1 1.5 2 2.5 3 3.5 4 4.5 5

2,880

2,890

2,900

2,910

itération

||c||

Figure 2.44 Norme des coecients ||c|| (TORA Discret)

Une fois le vecteur des coecients obtenu, la loi de commande avec saturation

u(k) = −A tanh

1

A

(2 + gT2 (xk)∇2TΦcg2(xk)

)−1

·

gT2 (xk)

(∇TΦc +∇2TΦc(f(xk) + g1(xk)ωk − xk)

)(2.109)

105


avec A = 0.8 est appliquée pour simuler du système en boucle fermée avec comme condi-

tions initiales x(0) = [1.5, −0.6, 1.5, 0.6]T et une perturbation (la force F (t)) qui vaut

ω(k) = 5 sin ke−k/100. Dans la gure 2.45 sont illustrés les trajectoires de x1(k), x2(k) et

x3(k), x4(k). IL est facile de remarquer la stabilité asymptotique du point d'équilibre 0.

0 1 2 3 4

·104

−2

−1

0

1

2

k

x 1(ζ),x 2(θ)

x1x2

0 1 2 3 4

·104

−2

−1

0

1

2

k

x 3(dζ/dt),x 4(dθ/dt)

x3x4

Figure 2.45 Convergence asymptotique des états vers x = 0 (TORA discret)

0 1 2 3 4

·104

−0.5

0

0.5

k

Com

mande

u

0 1 2 3 4

·104

0

2

4

6

8

10

12

k

Atténuation

r

Figure 2.46 Évolution de la commande u et de l'atténuation r (TORA discret)

La commande u(k) est tracée dans la gure 2.46. Nous voyons clairement la bornitude la

commande dans l'intervalle [−A = 0.8,+0.8 = +A]. L'atténuation r dénie par

r(k) =

∑kl=0 ‖z(xl, ul)‖2∑k

l=0 ‖ωl‖2

106


est aussi présentée dans la gure 2.46. Nous concluons que r γ2, ce qui signie une

bonne atténuation des perturbations.

7 Méthode de Galerkin appliquée à résolutions des équa-

tions de HJI pour la commande par retour de sortie

Nous rappelons que la résolution du problème de la commande H∞ non linéaire par

retour de sortie est basée sur l'équation de HJI suivante


Tx (x)))−H∗(x, V T

x (x)) = 0 (2.110)

avec

H∗(x, VTx (x)) = H(x, V T

x (x), ω∗, u∗) = 0 (2.111)

et


x (x))) = Wx(f + g1ω)− 2γ2hT2 (h2 + k21ω) + ‖h1‖2 − γ2‖ω‖2

ω∗∗(x,Wx) =1

2γ2gT1 Wx − kT21(x)h2(x) (2.112)

H∗, ω∗ et u∗ dans (2.111) sont données respectivement par les équations (1.49), (5.20) et

(1.44).

7.1 Algorithme des approximations successives

La résolution de l'équation HJI (2.111) a déjà fait l'objet de l'application de l'algo-

rithme des approximations successives (gure 2.1) jumelé avec l'algorithme de Galerkin

(gure 2.2). Nous obtenons ainsi le vecteur des coecients c.

L'équation (2.110) est interprétée comme un jeu diérentiel à un seul joueur ω∗∗. L'algo-

rithme 2.1 est reformulé pour transformer l'équation non linéaire (par rapport à Wx) à

dérivées partielles (2.110) en une séquence d'équations linéaires à dérivées partielles et de

les résoudre itérativement. L'algorithme est donnée par la gure 2.47.


Soit ω : Ω→ Rr une perturbation initiale dénie dans le domaine Ω et soit ψk(x), k =

1, · · · ,M un ensemble de fonctions de base approximant la fonction W (x), solution de

(2.110)

WM(x) =M∑k=1

νkψk(x) = νTΨ(x) (2.113)

107


1 Soit c le vecteur des coecients relatif à la résolution de l'équation HJI dans le casde la commande par retour d'état

2 Soit H∗ donnée par (2.111) avec u∗ = −12gT2∇ΦTc et ω∗ = 1

2γ2gT1∇ΦTc

3 Soit ω(0)(x) = ω∗4 for i = 0 to ∞ do

5 Résoudre pour W (i)x

6 W(i)x (f + g1ω

(i))− 2γ2hT2 (h2 + k21ω(i)) + ‖h1‖2 − γ2‖ω(i)‖2 −H∗ = 0


8 ω(i+1) = 12γ2gT1 W

(i)Tx − kT21h2

9 end

Figure 2.47 Approximations successives de la solution de l'équation HJI

avec νT =[ν1 · · · νM

]et Ψ(x) =

[ψ1(x) · · · ψM(x)

]T.

En remplaçant l'approximation (2.113) dans l'équation HJI (2.110) cette dernière devient

M∑i=1

νiψi,x(x)(f + g1ω)− 2γ2hT2 (h2 + k21ω) + ‖h1‖2− γ2‖ω‖2−H∗(x, V Tx (x)) = 0 (2.114)

Maintenant la méthode de Galerkin appliquée à l'équation (2.114) donne

M∑k=1

νk

∮Ω

ψk,x(x)(f(x) + g1(x)ω

)ψl(x)dΩ =

M∑k=1

∮Ω

(2γ2hT2 (h2 + k21ω)− ‖h1(x)‖2 + γ2‖ω‖2 +H∗

)ψl(x)dΩ (2.115)

ou sous forme matricielle plus compacte

(C1 + C2(ω))ν = d1 + γ2d2(ω) (2.116)

avec :

C1 =

∮Ω

fT (x)∇ΨTΨdΩ (2.117)

C2(ω) =

∮Ω

ωTgT1 (x)∇ΨTΨdΩ (2.118)

et

d1 =

∮Ω

(2γ2‖h2(x)‖2 − ‖h1(x)‖2 +H∗)ΨdΩ (2.119)

d2(ω) =

∮Ω

(‖ω‖2 + 2hT2 k21ω)ΨdΩ (2.120)

108


Les termes C1, C2(ω) et d2(ω) peuvent être calculés en utilisant l'équation (2.112). En

eet, cette dernière devient

ω =1

2γ2gT1 W

Tx − kT21(x)h2(x) =

1

2γ2gT1∇ΨTν − kT21(x)h2(x) (2.121)

En remplaçant dans (2.118) et (2.120), nous obtenons

C1 =

∮Ω

(fT (x)− hT2 k21gT1 )∇ΨTΨdΩ (2.122)

C2(ν) =1

2γ2

∮Ω

νT∇Ψg1gT1∇ΨTΨdΩ

=1

2γ2

M∑j=1

νj

∮Ω

∂ψj∂x

g1gT1∇ΨTΨdΩ︸︷︷︸G2j

=1

2γ2

M∑j=1

νjG2j (2.123)

de même nous aurons, après quelques manipulations

d2(ν) =1

4γ2

M∑j=1

νjG2jν (2.124)

Les intégrales C2(ν) et d2(ν) peuvent être calculées de manière itérative une fois la matrice

G2j a été calculée.

L'algorithme de Galerkin pour la synthèse de la commande H∞ par retour de sortie est

illustré par la gure 2.48.

7.2.1 Calcul de la matrice de gain G

Une fois nous avons déterminés c et ν, par les algorithmes 2.2 et 2.48, la matrice de

gain G est obtenue par l'équation

(νT∇Ψ− cT∇Φ)G(x) = 2γ2h2(x) (2.125)

en introduisant les approximations faites sur V (x) et W (x).

Finalement, la remarque 3.2 permet de déterminer la matrice G, comme suit

1 Extraire R1(x) de xTR1(x) = (νT∇Ψ− cT∇Φ)

2 Extraire L(x) de xTL(x) = 2γ2h2(x)

3 Calculer la matrice gain non linéaire par G(x) = R−11 (x)L(x).

109


Input : M un entier positif, ε un nombre susamment petitInput : c, H∗ donnée par (2.111) avec u∗ = −1

2gT2∇ΦTc et ω∗ = 1

2γ2gT1∇ΦTc

Input : ω(0)(x) = ω∗ perturbation initialeInput : C1 (2.122), C2(ω(0)(x)) (2.118), d1 (2.120), d2(ω(0)(x)) (2.120), G2j,

j = 0, · · · ,MInput : Ψ(x) vecteur des fonctions de base

1 Fixer νold susamment grand;2 for i = 0 to ∞ do3 if i == 0 then4 C(i) = C1 + C2(ω(0)(x))

5 d(i) = d1 + d2(ω(0)(x))

6 else

7 C(i) = C1 + 12γ2

∑Mj=1 νjG2j

8 d(i) = d1 + 14γ2

∑Mj=1 νjG2jν

9 end

10 ν(i) = C−1d

11 if ‖ν(i) − νold‖ ≤ ε then12 i =∞13 else14 νold = ν(i)

15 end

16 end

17 Sauvegarder ν(∞).

Figure 2.48 Algorithme de la méthode de Galerkin pour la commandeH∞ par retour de sortie

7.3 Commande H∞ par retour de sortie du système TORA

Dans cette section nous nous intéressons à l'application de l'algorithme de Galerkin

dans le cas de la commande par retour de sortie au système TORA. Nous supposons que

seul les états x1(ζ) et x2(θ) sont accessibles par mesure, et ces derniers sont entachés,

respectivement, de bruits de mesures ω2 et ω3, c.à.d

y =

[x1 + ω2

x2 + ω3

](2.126)

Donc, h2(x) =[x1 x2

]Tet k21 =

[0 1 0

0 0 1

].

Pour la détermination des vecteurs de coecients c et ν nous avons utilisé les fonctions

de bases suivantes

Φ = [x21, x1x2, x1x3, x1x4, x

22, x2x3, x2x4, x

23, x3x4, x

24]T

Ψ = Φ

110


Ce choix est justié dans le souci d'avoir une matrice de gain G(x) constante. D'ailleurs,

nous obtenons, après convergence des algorithmes 2.2 et 2.48, les résultats suivants.

c = [0.9369, −0.1910, −0.0690, −0.2718, 0.3972,

0.4290, 0.9296, 0.9741, 0.9352, 1.0270]T

ν = [111.8537, 28.1290, −45.9130, −28.4083, 122.3326,

−2.3055, −83.1247, 45.0090, 38.5496, 82.8899]T

La gure 2.49 présente ||ci+1−ci|| et ||νi+1−νi|| en fonction de l'itération i. La convergencedes deux algorithmes est obtenue après 10 et 16 itérations.

0 2 4 6 8 10 12 14 1610−6

10−3

100

103

106

itération

||ci+

1-c

i ||,||ν

i+1-ν

i ||

||ci+1-ci||||ν i+1-ν i||

Figure 2.49 Incréments des coecients c, ν - Commande pr retour de sortie du systèmeTORA

La méthode de détermination de G donne

G =

0.9990 −0.0927

−0.0927 1.0144

0.5078 −0.2510

0.0135 0.5584

(2.127)

Après l'obtention de G, la loi de commande par retour de sortie est donnée par


u = u∗(ξ) (2.128)

avec u∗(ξ) = −0.5g2(ξ)∇Φ(ξ)c et ω∗(ξ) = 0.5γ−2g1(ξ)∇Φ(ξ)c.

La commande (2.128), ainsi qu'une perturbation ω1 = 5 sin t exp(−t) sont appliquées au

111


système TORA avec les conditions initiales suivantes : x(0) =[1.5 −0.6 1.5 0.6

]Tet

ξ(0) =[0 0 0 0

]T.

Dans la gure 2.50 sont présentés les états x et leurs estimés ξ. Nous constatons clairement

la stabilité asymptotique du point d'équilibre (x, ξ) = (0, 0) et donc, la capacité de la

méthode approximative de Galerkin à résoudre le problème de la commande H∞ non

linéaire par retour de sortie. Dans la gure 2.51 sont montrées la commande non linéaire

et l'atténuation r =∫∞

0‖z‖2dt/

∫∞0‖ω‖2dt. L'objectif, r γ2 avec γ = 10, est visiblement

atteint.

Dans ce qui suit, nous proposons d'appliquer la commande par retour de sortie (2.128)

0 10 20 30 40 50

−2

−1

0

1

2

temps [sec]

x 1(ζ),ξ 1

x1ξ1

0 10 20 30 40 50

−1

0

1

2

temps [sec]

x 2(θ),ξ 2

x2ξ2

Figure 2.50 Convergence asymptotique des états et des estimées vers (x, ξ) = (0, 0) (TORA)

0 10 20 30 40 50

−1

0

1

temps [sec]

Com

mande

u

0 10 20 30 40 500

2

4

6

temps [sec]

Atténuation

r

Figure 2.51 Commande H∞ par retour de sortie et Atténuation r : G (2.127)

en utilisant, cette fois-ci, la matrice de gain G données dans la proposition 6.1 du chapitre

112


1. Pour cela, le modèle non linéaire du TORA (2.64) est linéarisé autour de l'origine. Les

matrices suivantes s'obtiennent directement

A =

0 0 1 0

0 0 0 1

−1/(1− ε2) 0 0 0

ε/(1− ε2) 0 0 0

, B1 =

0 0 0

0 0 0

1/(1− ε2) 0 0

−ε/(1− ε2) 0 0

B2 =

0

0

−ε/(1− ε2)

1/(1− ε2)

, C1 =√

0.1I4, C2 =

[1 0 0 0

0 1 0 0

]

La résolution des deux équations de Riccati (1.105) et (1.106), donne la matrice de gain

(1.107), suivante

G =

1.2491 −0.1231

−0.123 1.5930

0.7881 −0.4095

0.0607 1.2653

(2.129)

La gure 2.52 montre la loi de commande (2.128) dans le cas de l'application de la matrice

de gain (2.129). La stabilité asymptotique de (x, ξ) = (0, 0) reste assurée. L'atténuation

r est illustrée sur la même gure et l'objectif r γ2 est toujours vérié.

0 10 20 30 40 50−1

−0.5

0

0.5

temps [sec]

Com

mande

u

0 10 20 30 40 500

2

4

6

temps [sec]

Atténuation

r

Figure 2.52 Commande H∞ par retour de sortie et Atténuation r : G (2.129)

113


8 Conclusion

Ce chapitre a été consacré à la synthèse des lois de commandes H∞ des systèmes

non linéaires anes en entrées et en perturbations par hybridation de l'algorithme des

approximations successives avec la méthode de Galerkin. L'algorithme des AS a été utilisé

pour transformer les équations HJI non linéaires en des équations GHJI linéaires. La

méthode de Galerkin, quand à elle, a été utilisée pour résoudre approximativement les

équations GHIJ dans un sous espace engendré par des fonctions de base choisies, pour des

raisons de simplication, polynomiales.

Plusieurs stratégies de commande ont été élaborées. Il s'agit de la commande H∞continu par retour d'état sans et avec contraintes sur les signaux d'entrées, de la commande

H∞ par retour d'état avec horizon ni, de la commandeH∞ discrète par retour d'état et la

commande H∞ par retour de sorties. Nos contributions sont focalisées sur l'application de

la méthode Galerkin-AS dans la synthèse de la commande à horizon ni et la commande

à temps discret. Plusieurs méthodes d'implémentation ont été élaborées (déterministe

et stochastique). Nous avons pu appliquer le calcul symbolique pour implémenter cette

hybridation.

Les applications faites sur une diversité de systèmes et les résultats de simulations

montrent l'ecacité d'une telle méthode de résolution du problème H∞ non linéaire.

114

Chapitre 3


de HJI : Méthode des réseaux de

neurones

1 Introduction

Dans le chapitre précédant nous avons traité le problème de la commande H∞ non

linéaire par la résolution des équations de HJI résultantes en utilisant une hybridation de

l'algorithme des approximations successives et la méthode de Galerkin. En eet plusieurs

problèmes liés au concept de la commande H∞ non linéaire ont été traités, à savoir,

le retour d'état continu et discret, la commande à horizon ni et le retour de sortie

(commande avec observateur).

Ce chapitre présente une alternative à la méthode de Galerkin qui est l'utilisation des

réseaux de neurones articiels (RNA) dont les poids sont optimisés par la méthode des

moindres carrés (MMC). Cette dernière est une des méthodes des résidus pondérés, donc

peut résoudre, par approximation, des équations à dérivées partielles non linéaires telles

que les équations de HJI. Les premiers travaux relatifs à l'utilisation des RNA dans le

domaine de la commande H2 optimale est celle de M. Abu-Khalaf et F. Lewis dans Abu-

Khalaf (2004) Abu-Khalaf et al. (2006) Abu-Khalaf (2005a) Abu-Khalaf (2005b). Une

extension à la commande H∞ non linéaire est aussi donnée dans Abu-Khalaf (2005b).

Notre contribution dans ce chapitre est l'utilisation de la méthode RNA-MMC (réseaux

de neurones-moindres carrés) pour résoudre le problème de la commande par retour d'état

discret et par retour de sortie du système TORA.

Ce chapitre est organisé comme suit : Dans la section 2 nous donnons la propriété

fondamentale des RNA qui est l'approximation des fonctions lisses. Dans la section 3, la

MMC, combinée avec l'algorithme des approximations successives (AS), est utilisée pour

la résolution des équations GHJI dans le cas du retour d'état continu. Une application

115

Chapitre 3. Solutions approximatives des équations de HJI : Méthode des réseaux deneurones

sur le système TORA est faite. Ensuite, la section 4 donne une extension au cas du retour

d'état discret avec comme système de validation le TORA discrétisé. La section 5 aborde

le problème de la commande H∞ par retour de sortie, ou commande avec observateur

dynamique non linéaire appliqué au même système. Finalement, une étude comparative

entre la méthode de Galerkin et celle des RNA-MMC, dans le cas de la commande par

retour d'état, est donnée dans la section 6. Une conclusion terminer ce chapitre.

2 Les réseaux de neurones comme approximateurs uni-

versels

Dans cette section la résolution des équations HJI par les réseaux de neurones est

traitée. La propriété d'approximation universelle des RN à approximer des fonctions lisses

quelconques s'énonce comme suit : (Cybenko, 1989), (Hornik et al., 1990)

Toute fonction bornée susamment lisse peut être approximée uniformément, avec une

précision arbitraire, dans un domaine ni de l'espace de ces variables, par un réseau de

neurones qui possède une couche cachée de plusieurs neurones et une couche de sortie

linéaire.

Dans les réseaux de neurones nous trouvons deux architectures diérentes, à savoir, les

réseaux statiques non bouclés et les réseaux dynamiques bouclés. Les premiers sont utilisés

dans le cas de l'approximation des fonctions et les seconds dans le cas de l'identication

et la commande des systèmes dynamiques.

Comme nous nous intéressons à l'approximation des fonctions valeurs V (x), la première

architecture est envisagée.

Pour pouvoir implémenter les réseaux de neurones, rappelons que la fonction valeur V (x)

solution de l'équation GHJI (2.6) peut être remplacée par une approximation (Méthode

des résidus pondérés) donnée par

VN(x) =N∑k=1

ckφk(x) = cTΦ(x) (3.1)

avec

c =[c1 c2 · · · cN

]T∇Φ =

[∂φ1(x)∂x

∂φ2(x)∂x

· · · ∂φN (x)∂x

]TL'équation (3.1) peut être considérée comme une sortie linéaire d'un réseau de neurones

non bouclé possédant n entrées et N neurones dans la couche cachée dont les fonctions

d'activation sont φi. Le réseau de neurones qui implémente la commande H∞ non linéaire

par retour d'état est schématisé par la gure 3.1.

116


x1

x2

...

xn−1

xn

...

φ1

φ2

...

φN−1

φN

Σ

c1

c2

cN−1

cN

VN ∂T

∂x

−12g2(x)T ∂

TVN∂x

12γ2

g1(x)T ∂TVN∂x

u

ω

x = f(x) + g1(x)ω + g2(x)u

Figure 3.1 Implémentation de la commande H∞ par un réseau de neurones non bouclée

3 Résolution des équations de HJI : Cas de la Com-

mande H∞ continue par retour d'état

3.1 Méthode des approximations successives

Nous rappelons dans ce paragraphe la méthode des approximations successives (AS)

détaillée dans la section 2 du chapitre 2. Dans la méthode AS, l'équation de HJI (2.2) est

remplacée par une suite d'équations à dérivées partielles linéaires suivantes en séparant le

calcul de la commande et perturbation optimales (u∗, ω∗) de la solution Vx. Ces équations

sont données par

V (i,j)x (f(x) + g1(x)ω(i,j) + g2(x)u(i)) + ‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2 = 0 (3.2)

L'algorithme des AS résout (3.2) de la manière itérative suivante :

En partant d'une commande initiale u(0) stabilisante du système non linéaire x = f(x) +

g1(x)ω+ g2(x)u(0) dans une région de faisabilité Ω ; et une perturbation ω(i,j) = 0, l'équa-

117


tion (3.2) est résolue et la perturbation est réactualisée par

ω(i,j) =1

2γ2gT1 (x)V (i,j)

x (3.3)

jusqu'au |V (i,j+1)x − V

(i,j)x | < ε, nous posons ainsi j = ∞. Ensuite, la commande est

réactualisée selon la loi

u(i) = −1

2gT2 (x)V (i,∞)

x (3.4)

jusqu'au |V (i+1,∞)x −V (i,∞)

x | < ε, nous posons ainsi i =∞. La solution nale de (3.2) selon

l'algorithme des AS est V (∞,∞)x .

3.2 Méthode des Résidus pondérés basée sur les moindres carrés

En remplaçant dans l'équation GHJI (3.2) la fonction coût V (x) par l'approximation

donnée par (3.1), (3.2) devient

V(i,j)Nx (f(x) + g1(x)ω(i,j) + g2(x)u(i)) + ‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2 ' 0 (3.5)

L'égalité dans (3.2) n'est valide que pour la solution exacte V (x), donc en remplaçant

V (x) par VN(x) nous obtenons un résidu donné par

R = V(i,j)Nx (f(x) + g1(x)ω(i,j) + g2(x)u(i)) + ‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2

ou sous la forme

R(c, x) = cT∇Φ(x)F (x, ω(i,j), u(i)) +H(x, ω(i,j), u(i)) (3.6)

avec

F (x, ω(i,j), u(i)) = f(x) + g1(x)ω(i,j) + g2(x)u

H(x, ω(i,j), u(i)) = ‖h1(x)‖2 + ‖u(i)‖2 − γ2‖ω(i,j)‖2

Notre objectif est de trouver le vecteur c de telle manière à minimiser le carré du résidus

sur tout le domaine de solution Ω. Le carré du résidu est une mesure de la distance

(positive ou négative) du résidu par rapport à 0

I(c) =

⟨R(c, x), R(c, x)

⟩=

∮Ω

R(c, x)TR(c, x)dΩ (3.7)

118


En eet, la minimisation de I(c) par rapport à c s'écrit par

∂I(c)

∂c= 0

ce qui donne ∮Ω

R(c, x)∂R(c, x)

∂cdΩ = 0 (3.8)

En comparant (3.8) avec les intégrales normales de la méthode des résidus pondérés, nous

obtenons une variante des MWR, dite méthode des moindres carrés. Les fonctions de

pondération wl sont choisies comme suit

wl =∂R(c, x)

∂c, l = 1, · · · , N (3.9)

La relation suivante peut être facilement déduite

∂R(c, x)

∂c= ∇Φ(x)F (x, ω(i,j), u(i))

D'où les intégrales normales pondérées deviennent∮Ω

(cT∇Φ(x)F (x, ω(i,j), u(i)) +H(x, ω(i,j), u(i)))(∇Φ(x)F (x, ω(i,j), u(i)))dΩ = 0 (3.10)

Finalement ,le vecteur des coecients s'obtient comme suit

c = −(∮

Ω

∇Φ(x)F (x, ω(i,j), u(i))F T (x, ω(i,j), u(i))∇TΦ(x)dΩ

)−1

×(∮Ω

∇Φ(x)F (x, ω(i,j), u(i))H(x, ω(i,j), u(i))dΩ

)(3.11)

L'équation (3.11) implique une inversion matricielle. Le lemme 4.1 de la section 4.1 du

chapitre précédent donne une condition d'existence de la solution c. En eet, si l'ensemble

∂φi(x)∂x

F (x, ω, u)N1 est linéairement indépendant, alors la matrice∮Ω

∇Φ(x)F (x, ω, u)F T (x, ω, u)∇TΦ(x)dΩ

est de rang complet N , donc inversible ce qui garantit l'unicité de la solution (3.11).

119


3.3 Méthode d'implémentation

La méthode de calcul des intégrales reste inchangée. Ceci dit les intégrales sont ap-

prochées par la dénition de l'intégrale de Reimann suivante

b∫a

f(x)dx = lim||δx||→0

P∑i=1

f(xi)δx (3.12)

où δx = xi − xi−1 et f est une fonction bornée sur [a, b].

L'application de cette dernière aux intégrales de l'équation (3.11) donne∮Ω

∇Φ(x)F (x, ω(i,j), u(i))F T (x, ω(i,j), u(i))∇TΦ(x)dΩ = lim||δx||→0

(XTX) · ||δx||

∮Ω

∇Φ(x)F (x, ω(i,j), u(i))H(x, ω(i,j), u(i))dΩ = lim||δx||→0

(XTY ) · ||δx||

la solution c devienne

c = −(XTX)−1 · (XTY ) (3.13)

avec

X =[∇Φ(x)F (x, ω, u)|x1 · · · ∇Φ(x)F (x, ω, u)|xP

](3.14)

Y =[H(x, ω, u)|x1 · · · H(x, ω, u)|xP

](3.15)

P étant le nombre de points constituant la maillage du domaine Ω. Ce nombre doit être

supérieur ou égal au nombre de fonctions de bases, N . Cela garantira l'inversibilité de

XTX. On note aussi que plus le pas de discrétisation des intégrales, ∆x est petit plus

le nombre de points constituant le maillage, P , est grand. Il existe d'autres méthodes

d'approximation des intégrales, on peut citer entre autres la méthode d'intégration de

Monté-Carlo (voir section 4.2.3 du chapitre précédant).

Les codes Matlab c© données dans les gures 2.4 et 2.5 et générant un maillage dans le cas

n = 4 peuvent êtres reprises facilement dans le cas de la méthode des RNA-MMC.

La gure 3.2 donne l'algorithme des moindres carrés pour la résolution de l'équation GHJI.

Remarque 3.1. La résolution d'un problème de moindres carrés via l'inversion matricielle

(3.13) possède deux inconvénients majeurs. D'une part, la perturbation due aux erreurs

d'arrondi lorsque nous passons par les équations normalesXc = −Y peut être importante.

En eet, si la matrice des données X est légèrement perturbée comme suit : X = X+δX,

le calcul de c va amplier la perturbation : (X+δX)T (X+δX) = XTX+δXTX+XT δX+

δXT δX alors qu'en passant par d'autres méthodes de résolution (par exemple factoriser

X sous la forme LU où L est orthogonale et U triangulaire, ou utiliser une méthode calcul

120


Input : P un entier positif, ε un nombre susamment petitInput : u0(x) commande initiale avec saturationInput : I, J deux nombres entiers positifsInput : Φ(x) vecteur des fonctions de base

1 Fixer cold1 , cold2 susamment grand;2 for i = 0 to I do3 Fixer ω(i,0) = 04 for j = 0 to J do5 for l = 1 to P do6 Calcul de7 Xl = ∇Φ(x)F (x, ω(i,j), u(i))|xl8 Yl = H(x, ω(i,j), ui)|xl9 end

10 X =[X1 · · · XP

]11 Y =

[Y1 · · · YP

]12 c(i,j) = −(XTX)−1 · (XTY )


14 j = J15 else16 Mise à jour de la perturbation17 ω(i,j+1) = 1

2γ2gT1 (x)∇ΦTc(i,j)

18 cold1 = c(i,j)

19 end

20 end


22 i = I23 else24 Mise à jour de la commande25 u(i) = tanh(−1

2gT2 (x)∇ΦTc(i,∞))

26 cold2 = c(i,∞)

27 end

28 end


Figure 3.2 Algorithme des RNA pour la commande H∞ contrainte par retour d'état

récursive) la perturbation des données sera moindre. D'autre part, le calcul de XTX peut

faire intervenir des overow ou underow parasites. En eet, si X contient un élément

supérieur (mais proche) au plus petit ottant représentable, XTX contient un élément

inférieur à ce ottant.

Remarque 3.2. L'inversion matricielle dans (3.13) peut provoquer, dans les boucles des

mises à jours des perturbations ω et des commandes u, des matrices singulières. Pour

contrecarrer ce phénomène, nous pouvons toujours calculer le vecteur des coecients c en

utilisant le lemme d'inversion matricielle qui nous ramène à un algorithme des moindres

121


carrés récursives. En eet la ligne 12 de l'algorithme donnée dans la gure 3.2 est remplacée

par celles de la gure 3.3.

1 A = X2 B = −Y3 c = 04 S = δI, avec δ susament grand5 for i = 1 to P do

6 S = S − SA(i, :)TA(i, :)S

(1 + A(i, :)SA(i, :)T )7 c = c + SA(i, :)T (B(i, :)− A(i, :)c)

8 end

Figure 3.3 Algorithme des Moindres Carrées récursives

3.4 Application à la commande H∞ par retour d'état du système

TORA

Dans cette section l'application de la méthode RNA-MMC au système TORA décrit

dans l'exemple 4.3.5 de la section 4.3 est faite. Nous rappelons que c'est un système

mécanique instable en boucle ouverte et qui peut être modélisé sous la forme standard

(2.1). L'objectif de la commande est double, à savoir, assurer la stabilité asymptotique

du point d'équilibre x = 0 et garantir une atténuation des variables d'entrées exogènes

(Force de perturbation F (t)) par rapport à des sorties à régulées (z), c.à.d, assurer un

L2-gain inférieur à un certain niveau d'atténuation γ.

Les fonctions de base utilisées dans l'algorithme des RNA-MMC sont choisies sous la

forme suivante

Φ = [x21, x1x2, x1x3, x1x4, x

22, x2x3, x2x4, x

23, x3x4, x

24, x

41, x

31x2,

x31x3, x

31x4, x

21x

22, x

21x2x3, x

21x2x4, x

21x

23, x

21x3x4, x

21x

24, x1x

32,

x1x22x3, x1x

22x4, x1x2x

23, x1x2x3x4, x1x2x

24, x1x

33, x1x

23x4,

x1x3x24, x1x

34, x

42, x

32x3, x

32x4, x

22x

23, x

22x3x4, x

22x

24, x2x

33,

x2x23x4, x2x3x

24, x2x

34, x

43, x

33x4, x

23x

24, x3x

34, x

44] (3.16)

avec N = 45. Dans cet exemple la valeur de γ = 10 est sélectionnée.

La commande initiale utilisée pour lancer l'algorithme des RNA-MMC est la même que

dans le cas de la méthode de Galerkin.

La région de faisabilité de la commande est Ω = [−1, 1]4 et la méthode utilisée pour

calculer les intégrales est celle de Monté-Carlo avec un nombre de points P = 3000. La

valeur ε utilisée pour l'arrêt des boucles des mise à jour des commandes et perturbations

122


est choisie égale à 0.001 (ceci est susant puisqu'on compare la diérence sur la norme

quadratique du vecteur des coecients c).

L'algorithme converge après seulement 4 itérations et le vecteur des coecients obtenu

est donné par le tableau 3.1.

Table 3.1 Vecteur c - RNA Cas continu (TORA)

c = [1.1620 0.0232 0.0955 −0.3491 0.2196 0.4862 0.6905 1.20901.3163 1.0022 −0.0099 0.0056 −0.0148 0.0260 0.0925 0.00500.1165 −0.0138 0.0158 0.0586 −0.0547 0.0393 0.0744 0.01550.0719 0.1124 −0.0008 0.0392 0.0455 0.0369 0.0835 −0.14650.0900 0.0180 −0.7374 0.0091 0.0014 0.0560 −0.0874 0.0147−0.0048 0.0173 0.0554 0.0103 0.0004]

Nous présentons sur la gure 3.4 la norme du vecteur des coecients ||c|| en fonction

des itérations.

1 1.5 2 2.5 3 3.5 42.6

2.65

2.7

2.75

2.8

2.85

itération

||c||

Figure 3.4 Norme du vecteur des coecients (TORA) - Méthode des RNA

Pour la simulation du système en boucle fermée, les conditions initiales sont choisies égales

à x(0) = [1.5, −0.6, 1.5, 0.6]T . Une perturbation (la force F (t)) est appliquée au début

de la simulation et vaut ω(t) = 5 sin 5te−t. Sur la gure 3.5 sont illustrés les trajectoires

des états x1(t) et x2(t). IL est facile de remarquer la stabilité asymptotique du point

d'équilibre 0. La commande u, ainsi que l'atténuation r dénie par

r(t) =

∫ t0‖z‖2dτ∫ t

0‖ω‖2dτ

sont tracés dans la gure 3.6. Nous concluons que r γ2, ce qui signie une bonne

atténuation des perturbations.

123


0 10 20 30 40

−2

0

2

temps [sec]

x 1(ζ)

0 10 20 30 40−1

−0.5

0

0.5

1

tmps [sec]

x 2(θ)

Figure 3.5 Convergence asymptotique des états vers x = 0 (TORA) - Méthode des RNA

0 10 20 30 40

−0.5

0

0.5

1

temps [sec]

Com

mande

u

10 20 30 40

1

2

3

temps [sec]

Atténuation

r

Figure 3.6 Commande u et atténuation r (TORA) - Méthode des RNA

4 Résolution des équations de HJI Cas de la Com-

mande H∞ discrète par retour d'état

Nous rappelons que l'approximation d'ordre 2 faite sur la fonction coût V (xk+1, uk, ωk)

dans le cas discret donne l'équation GHJI suivante

0 =∂V (xk+1, uk, ωk)

∂xk+1

(f(xk) + g1(xk)ωk + g2(xk)uk − xk

)+

1

2

(f(xk) + g1(xk)ωk + g2(xk)uk − xk

)T∂2V (xk+1, uk, ωk)

∂x2k+1(

f(xk) + g1(xk)ωk + g2(xk)uk − xk)

+ ‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2 (3.17)

124


Maintenant, dans le cas ou nous utilisons un RNA pour approximer V par VN donnée par

(3.1), l'équation (3.17) donne un résidu R que nous essayons de le minimiser au sens des

moindres carrés

R = cT∇Φ(x)∆xk +1

2(∆xk)

TcT∇2Φ(x)(∆xk)

+‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2

avec

∆xk = xk+1 − xkxk+1 = f(xk) + g1(xk)ωk + g2(xk)uk

∇Φ =[∂φ1∂x

∂φ2∂x· · · ∂φN

∂x

]T∇2Φ =

[∂2φ1∂x2

∂2φ2∂x2

· · · ∂2φN∂x2

]TPour trouver la solution (c) au sens des moindres carrés nous utilisons la méthode des

résidus pondérés. Comme dans le cas continu, les fonctions de pondérations sont choisies

comme suit

wj =∂R(c, x)

∂c, j = 1, · · · , N (3.18)

La solution au problème est donc formalisée par les intégrales normales pondérées sui-

vantes ∮Ω

R(c, x)∂R(c, x)

∂cdΩ = 0 (3.19)

L'équation (3.19) donne la solution suivante

c = −[ ∮

Ω

(∇Φ(x)∆xk +

1

2(∆xk)

T∇2Φ(x)(∆xk)

)·(

∇Φ(x)∆xk +1

2(∆xk)

T∇2Φ(x)(∆xk)

)TdΩ

]−1

·[ ∮Ω

(∇Φ(x)∆xk +

1

2(∆xk)

T∇2Φ(x)(∆xk)

)·(

‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2

)dΩ

](3.20)

Pour démontrer l'unicité de la solution, c.à.d.

rang

(∮Ω

(∇Φ(x)∆xk +1

2(∆xk)

T∇2Φ(x)(∆xk))

(∇Φ(x)∆xk +1

2(∆xk)

T∇2Φ(x)(∆xk))TdΩ

)= N

125


les résultats donnés dans le cas de la résolution de l'équation HJB dans le cas de la

commande H2 non linéaire continue (Beard et al. (1997)) sont utilisés. Le lemme suivant

est une extension au cas des équations HJI.

Lemme 4.1. Si les fonctions de bases φj(x)∞1 sont linéairement indépendantes, c.à.d.∑j

cjφj(x) = 0⇒ cj = 0, ∀j

alors l'ensemble ∇φj(x)∆xk + 12(∆xk)

T∇2φj(x)(∆xk)N1 est linéairement indépendant.

Démonstration. Tout d'abord, nous commençons par écrire

∆φj(xk) = φj(xk+1)− φj(xk)

ce qui donne

φj(x∞)− φj(x0) =∞∑k=0

∆φj(xk)

Or en faisant un développement limité de φj(xk) autour de xk nous aurons facilement

∆φj(xk) = ∇φj(xk)T∆xk +1

2(∆xk)

T∇2φj(xk)(∆xk)

Ceci donne

φj(x∞)− φj(x0) =∞∑k=0

(∇φj(xk)T∆xk +

1

2(∆xk)

T∇2φj(xk)(∆xk)

)(3.21)

Puisque le système est asymptotiquement stable, c.à.d., limk→∞

xk = 0, et en supposant que

φj(0) = 0, ∀j, alors l'équation (3.21) devient

φj(x0) = −∞∑k=0

(∇φj(xk)T∆xk +

1

2(∆xk)

T∇2φj(xk)(∆xk)

)(3.22)

La notation matricielle de (3.22) est

Φ(x0) = −∞∑k=0

(∇Φ(xk)

T∆xk +1

2(∆xk)

T∇2Φ(xk)(∆xk)

)(3.23)

Maintenant, nous supposons que le lemme n'est pas vrai, c.à.d. il existe un vecteur non

nul β tel que

βT(∇Φ(x)∆xk +

1

2(∆xk)

T∇2Φ(x)(∆xk)

)= 0

126


alors, d'après (3.23), nous pouvons écrire

βTΦ(x0) = −∞∑k=0

βT(∇Φ(xk)

T∆xk +1

2(∆xk)

T∇2Φ(xk)(∆xk)

)= 0 (3.24)

Ce qui est contradictoire avec l'indépendance linéaire de

∇φj(x)∆xk + 12(∆xk)

T∇2φj(x)(∆xk)N1 .


Les intégrales dans l'équation (3.20) peuvent êtres approchées par la formule (3.12) ce

qui donne ∮Ω

(∇Φ(x)∆xk +

1

2(∆xk)

T∇2Φ(x)(∆xk)

)·(

∇Φ(x)∆xk +1

2(∆xk)

T∇2Φ(x)(∆xk)

)TdΩ = lim

||δx||→0(XTX) · ||δx||∮

Ω

(∇Φ(x)∆xk +

1

2(∆xk)

T∇2Φ(x)(∆xk)

)·(

‖h1(xk)‖2 + ‖uk‖2 − γ2‖ωk‖2

)= lim||δx||→0

(XTY ) · ||δx||

la solution c devienne

c = −(XTX)−1 · (XTY ) (3.25)

avec

XT =

(∇Φ(x)∆xk + 1

2(∆xk)

T∇2Φ(x)(∆xk))|x1k...

(∇Φ(x)∆xk + 12(∆xk)

T∇2Φ(x)(∆xk))|xPk

(3.26)

Y =

(‖h1(xk)‖2 + ‖u(i)

k ‖2 − γ2‖ω(i,j)k ‖2)|x1k

...

(‖h1(xk)‖2 + ‖u(i)k ‖2 − γ2‖ω(i,j)

k ‖2)|xPk

(3.27)

P étant le nombre de points constituant la maillage du domaine Ω. Ce nombre doit être

supérieur ou égal au nombre de fonctions de bases, N . Cela garantira l'inversibilité de

XTX.

Une fois la détermination des coecients c est faite, la mise à jour de la commande H∞sous-optimale u∗k (1.86) et la perturbation ω

∗k (1.87), selon la méthode des approximations

127


successives, se font comme suit

ω(i,j+1) =

(2γ2 − gT1 (xk)∇2V (xk)g1(xk)

)−1

gT1 (xk)

(∇V (xk) +∇2V (xk)(f(xk) + g2(xk)u

(i−1) − xk))

(3.28)

u(i) = −(

2 + gT2 (xk)∇2V (xk)g2(xk)

)−1

gT2 (xk)

(∇V (xk) +∇2V (xk)(f(xk) + g1(xk)ω

(i,j+1) − xk))

(3.29)

La gure 3.7 donne l'algorithme des RNA appliqué à la commande H∞ discrète par retour

d'état.

4.2 Application à la commande H∞ discrète par retour d'état du

système TORA

Le modèle du TORA discrétisé est celui obtenu dans le cas de la méthode de Galerkin

et est donnée par (2.107). Une commande contrainte est synthétisée avec la condition

|u| ≤ A = 0.8. la fonction de saturation est la tangente hyperbolique. La norme de la

variable de pénalité z, dans le cas discret, est toujours donnée par (2.108).

Pour la détermination du vecteur des coecients c, la commande initiale est choisie égale

à celle utilisée dans le cas continu, c.à.d. (2.66).

La région de faisabilité de la commande est Ω = [−2, 2]4 et le niveau d'atténuation γ est

10. Les fonctions de base utilisées sont données par l'équation (3.16), avec N = 45. Le

pas de discrétisation du domaine Ω est δx = 0.2.

La gure 3.8 montre la convergence de la norme du vecteur ||c|| après seulement 9 itéra-

tions (ε = 0.001), et est donnée par le tableau 3.2.

Table 3.2 Vecteur c -RNA Cas discret (TORA)

c = [1.1858 0.0075 −0.0879 −0.3643 0.3027 0.4464 0.7354 0.21161.2795 0.9814 −0.0003 0.0024 −0.0253 0.0343 0.0523 −0.01230.0905 0.0077 0.0429 0.1151 −0.0191 0.0570 0.0959 0.01150.0638 0.1569 −0.0059 0.0465 0.0665 0.0959 0.0178 0.11360.0079 0.0101 −0.7180 −0.0106 −0.0067 0.0848 −0.0474 0.08650.0073 0.0482 0.1249 0.0665 0.0804]

128


Input : P un entier positif, ε un nombre susamment petitInput : u0(xk) commande initiale avec saturationInput : I, J deux nombres entiers positifsInput : Φ(xk) vecteur des fonctions de base

1 Fixer cold1 , cold2 susamment grand;2 for i = 0 to I do3 Fixer ω(i,0) = 04 for j = 0 to J do5 Calcul de X et Y selon (3.26) et (3.27) respectivement6 Calcul de c(i,j) = −(XTX)−1 · (XTY )7 Calcul de ∇V = cT∇Φ(xk), ∇2V = cT∇2Φ(xk)


9 j = J10 else11 Mise à jour de la perturbation

12 ω(i,j+1) =

(2γ2 − gT1 (xk)∇2V (xk)g1(xk)

)−1

gT1 (xk)

(∇V (xk) +

∇2V (xk)(f(xk) + g2(xk)u(i−1) − xk)

)13 cold1 = c(i,j)

14 end

15 end


17 i = I18 else19 Mise à jour de la commande

20 u(i) =

(2 + gT2 (xk)∇2V (xk)g2(xk)

)−1

gT2 (xk)

(∇V (xk) +∇2V (xk)(f(xk) +

g1(xk)ω(i,j+1) − xk)

)21 cold2 = c(i,∞)

22 end

23 end


Figure 3.7 Algorithme des RNA pour la commande H∞ par retour d'état discret

Une fois le vecteur des coecients est obtenue, la loi de commande avec saturation est

appliquée pour simuler du système en boucle fermée avec comme conditions initiales

x(0) = [1.5, −0.6, 1.5, 0.6]T . Une perturbation (la force F (t)) est appliquée au début de

la simulation et vaut ω(k) = 5 sin ke−k/100.

129


1 2 3 4 5 6 7 8 92,650

2,700

2,750

2,800

2,850

2,900

itération

||c[[

Figure 3.8 Norme du vecteur des coecients (TORA)Méthode des RNA- Cas discret

Dans la gure 3.9 sont illustrés les trajectoires de x1(k) et x2(k). IL est facile de constater la

stabilité asymptotique du point d'équilibre 0. La commande u(k) est tracée dans la gure

3.10. Nous constatons la bornitude la commande dans l'intervalle [−A = 0.8,+0.8 = +A].

L'atténuation r dénie par (2.46) est aussi présentée. La condition r γ2 étant vériée,

ce qui signie une bonne atténuation des perturbations.

0 1 2 3 4

·104

−2

−1

0

1

2

k

x 1(ζ)

0 1 2 3 4

·104

−0.5

0

0.5

1

k

x 2(θ)

Figure 3.9 Convergence asymptotique des états vers x = 0 (TORA)Méthode des RNA- Cas discret

130


0 1 2 3 4

·104

−0.5

0

0.5

k

Com

mande

u

0 1 2 3 4

·104

0

2

4

6

8

10

12

k

Atténuation

r

Figure 3.10 Commande u et atténuation r (TORA)Méthode des RNA- Cas discret

5 Résolution des équations de HJI Cas de la Com-

mande H∞ par retour de sortie

Dans cette section le problème de la commande H∞ non linéaire par retour de sortie

est résolu par la méthode RNA-MMC. Il se ramène à trouver la solution d'une équation

GHJI à un seul joueur donnée par

Wx(f + g1ω)− 2γ2hT2 (h2 + k21ω) + ‖h1‖2 − γ2‖ω‖2 −H∗(x, V Tx (x)) = 0 (3.30)

avec

H∗(x, VTx (x)) = H(x, V T

x (x), ω∗, u∗) = 0 (3.31)

H, ω∗ et u∗ dans (3.30) sont données respectivement par les équations (1.49), (5.20) et

(1.44).

La résolution de l'équation HJI (3.31) a déjà fait l'objet de l'application de l'algorithme des

approximations successives, AS, (gure 2.1) jumelé avec l'algorithme des moindres carrés

(gure 3.2). Nous obtenons le vecteur des coecients c approximant ainsi la fonction coût

V (x).

La résolution de (3.30) par la méthode des AS consiste à résoudre itérativement l'équation

suivante

W (i)x (f + g1ω

(i))− 2γ2hT2 (h2 + k21ω(i)) + ‖h1‖2 − γ2‖ω(i)‖2 −H∗(x, V T

x (x)) = 0 (3.32)

131


pour ω(0) donnée puis de faire une mise à jour de ω(i) selon la loi suivante

ω(i+1) =1

2γ2gT1 W

(i)Tx − kT21h2 (3.33)

jusqu'à∣∣∣W (i+1)(x)−W (i)(x)

∣∣∣→ 0.

L'algorithme des AS dans le cas de la commande H∞ par retour de sortie est déjà donnée

dans la gure 2.47.

5.1 Algorithme des Moindres Carrés

En remplaçant, dans (3.32), W (x) par son approximation donnée par

WM(x) =M∑k=1

νkψk(x) = νTΨ

nous obtenons le résidu suivant

R(ν, x) = ν∇Ψ(x)F (x, ω(i)) + Γ(x, ω(i)) (3.34)

avec

F (x, ω(i)) = f(x) + g1(x)ω(i) (3.35)

Γ(x, ω(i)) = −2γ2hT2 (h2 + k21ω(i)) + ‖h1‖2 − γ2‖ω(i)‖2 −H∗(x, V T

x (x)) (3.36)

Comme dans le cas de l'algorithme de Galerkin, la méthode des moindres carrés consiste à

résoudre (3.34) en minimisant le carré du résidu R par rapport au vecteur des coecients

ν. Nous aurons donc∮Ω

(νT∇Ψ(x)F (x, ω(i)) + Γ(x, ω(i)))(∇Ψ(x)F (x, ω(i)))dΩ = 0 (3.37)

Finalement ,le vecteur des coecients s'obtient comme suit

ν = −(∮

Ω

∇Ψ(x)F (x, ω(i))F T (x, ω(i))∇TΨ(x)dΩ

)−1

×(∮Ω

∇Ψ(x)F (x, ω(i))Γ(x, ω(i))dΩ

)(3.38)

L'équation (3.38) implique une inversion matricielle, le lemme 4.1 de la section 4.1 du

chapitre précédent donne une condition d'existence de la solution ν.

132



Les intégrales dans l'équation (3.38) peuvent êtres approchées par la formule (3.12) ce

qui donne ∮Ω

∇Ψ(x)F (x, ω(i))F T (x, ω(i))∇TΨ(x)dΩ = lim||δx||→0

(XTX) · ||δx||

∮Ω

∇Ψ(x)F (x, ω(i))Γ(x, ω(i))dΩ = lim||δx||→0

(XTY ) · ||δx||

la solution ν devient

ν = −(XTX)−1 · (XTY ) (3.39)

avec

X =[∇Ψ(x)F (x, ω)|x1 · · · ∇Φ(x)F (x, ω)|xP

](3.40)

Y =[Γ(x, ω)|x1 · · · Γ(x, ω)|xP

](3.41)

P est le nombre de points constituant la maillage du domaine Ω et que ce nombre doit être

supérieure ou égale au nombre de fonctions de basesM . La gure 3.11 donne l'algorithme

des moindres carrés pour la résolution du problème de la commande H∞ par retour de

sortie.

5.2.1 Calcul de la matrice de gain G

Une fois les vecteurs c et ν ont été obtenus par les algorithmes 3.2 et 3.11 la matrice

de gain G de la loi commande par retour de sortie est déterminée par la même méthode

détaillée dans la section 7.2.1 du chapitre précédent.

5.3 Commande H∞ par retour de sortie du système TORA

Dans cette section nous nous intéressons à l'application de l'algorithme des moindres

carrés dans le cas de la commande par retour de sortie au système TORA. Les mêmes

conditions que celle dans la méthode de Galerkin sont utilisées. Les fonctions de bases,

pour la déterminations de c et ν, sont de taille N = M = 45.

Nous obtenons après convergence des algorithmes 3.2 et 3.11 les résultats donnés dans les

tableaux 3.3 et 3.4.

La gure 3.12 présente ||ci+1−ci|| et ||νi+1−νi|| en fonction de l'itération i. Nous consta-

tons qu'il y'a convergence des deux algorithmes après 14 et 20 itérations (ε = 10−6).

133


Input : P un entier positif, ε un nombre susamment petitInput : ω0(x) = ω∗ perturbation initialeInput : I un nombre entier positifInput : Ψ(x) vecteur des fonctions de base

1 Fixer νold susamment grand;2 for i = 0 to I do3 for l = 1 to P do4 Calcul de5 Xl = ∇Φ(x)F (x, ω(i))|xl6 Yl = Γ(x, ω(i))|xl7 end

8 X =[X1 · · · XP

]9 Y =

[Y1 · · · YP

]10 ν(i) = −(XTX)−1 · (XTY )

11 if ‖ν(i) − νold‖ ≤ ε then12 i = I13 else14 Mise à jour de la perturbation15 ω(i+1) = 1

2γ2gT1 ΨT (x)ν(i) − kT21h2

16 νold = ν(i)

17 end

18 end

19 Sauvegarder ν(I).

Figure 3.11 Algorithme des RNA pour la commande H∞ par retour de sortie

0 2 4 6 8 10 12 14 16 18 2010−6

10−3

100

103

106

itération

||ci+

1-c

i ||,||ν

i+1-ν

i ||

||ci+1-ci||||ν i+1-ν i||

Figure 3.12 Erreurs sur c et ν- Cas de RNA (TORA avec N = M = 45)

134


Table 3.3 Vecteur c -RNA (TORA)

c = [1.1835 0.0180 −0.1126 −0.3800 0.2209 0.5041 0.7049 1.23581.3566 1.0244 −0.0109 0.0056 −0.0160 0.0280 0.0971 0.00260.1186 −0.0163 0.0132 0.0591 −0.0554 0.0438 0.0802 0.01670.0788 0.1174 −0.0006 0.0423 0.0492 0.0392 0.0872 −0.14770.0933 0.0167 −0.7545 0.0063 −0.0005 0.0555 −0.0913 0.0142−0.0059 0.0161 0.0565 0.0104 0.0003]

Table 3.4 Vecteur ν -RNA (TORA)

ν = [184.6327 23.2337 −87.4421 −34.1931 2.9733 3.4886 28.885999.9464 40.9633 35.5817 −25.4491 21.7275 10.0789 1.351679.2947 −36.1509 −100.5170 −27.9425 −22.3049 −35.1331 −34.0313−51.9139 36.4305 24.3909 48.9790 −52.5770 4.4668 25.313167.4902 78.3274 −1.2836 27.7504 31.3788 48.6435 −36.90185.2485 −15.8567 −72.1315 −40.1750 −30.9718 −9.2220 −17.5560−41.1842 −36.6020 −10.0615]

Le choix de N = M = 45 rend la matrice de gain G fortement non linéaire, qu'il est

impossible de la présenter, néanmoins nous donnons ci-après les matrices R1 et L tel que

G = R−11 L

R1 =

R11 R12 R13 R14

R21 R22 R23 R24

R31 R32 R33 R34

R41 R42 R43 R44

avec

R11 = − 101.75x21 + 65.16x1x2 + 30.28x1x3 + 3.97x1x4 + 158.39x2

2

− 72.30x2x3 − 201.27x2x4 − 55.85x23 − 44.63x3x4 − 70.38x2

4 + 366.89

R12 = + 21.72x21 + 158.39x1x2 − 36.15x1x3 − 100.63x1x4 − 101.92x2

2

− 103.91x2x3 + 72.70x2x4 + 24.37x23 + 48.90x3x4 − 52.69x2

4 + 23.21

R13 = + 10.09x21 − 36.15x1x2 − 55.85x1x3 − 22.31x1x4 − 51.95x2

2

+ 48.74x2x3 + 48.90x2x4 + 13.40x23 + 50.54x3x4 + 67.44x2

4 − 87.32

R14 = + 1.32x21 − 100.63x1x2 − 22.31x1x3 − 70.38x1x4 + 36.35x2

2

+ 48.90x2x3 − 105.38x2x4 + 25.27x23 + 134.88x3x4 + 234.86x2

4 − 33.81

135


R21 = − 33.97x22 − 51.95x2x3 + 36.35x2x4 + 24.37x2

3 + 48.90x3x4 − 52.69x24 + 23.21

R22 = − 5.48x22 + 83.69x2x3 + 93.85x2x4 + 97.25x2

3 − 72.29x3x4 + 10.48x24 + 5.50

R23 = + 27.89x22 + 97.25x2x3 − 36.14x2x4 − 47.56x2

3 − 144.37x3x4 − 40.08x24 + 2.98

R24 = + 31.28x22 − 36.14x2x3 + 10.48x2x4 − 72.18x2

3 − 80.16x3x4 − 92.95x24 + 28.18

R31 = + 4.46x23 + 25.27x3x4 + 67.44x2

4 − 87.32

R32 = − 15.85x23 − 72.18x3x4 − 40.08x2

4 + 2.98

R33 = − 36.86x23 − 52.71x3x4 − 82.48x2

4 + 197.42

R34 = − 17.57x23 − 82.48x3x4 − 109.83x2

4 + 39.60

R41 = + 78.28x24 − 33.81

R42 = − 30.98x24 + 28.18

R43 = − 36.61x24 + 39.60

R44 = − 40.24x24 + 69.11

et

L =

2γ2 0

0 2γ2

0 0

0 0

La loi de commande par retour de sortie est donnée par


u = u∗(ξ) (3.42)

avec u∗(ξ) = −0.5g2(ξ)∇Φ(ξ)c et ω∗(ξ) = 0.5γ−2g1(ξ)∇Φ(ξ)c. La commande (3.42), ainsi

qu'une perturbation ω1 = 5 sin t exp(−t) sont appliquées au système TORA avec les condi-

tions initiales suivantes : x(0) =[1.5 −0.6 1.5 0.6

]Tet ξ(0) =

[0 0 0 0

]T.

Les résultats de simulations sont portés sur les gures 3.13 à 3.15. Dans la gure 3.13

sont présentés les graphes des états x et leurs estimés ξ. Nous remarquons clairement

la stabilité asymptotique du point d'équilibre (x, ξ) = (0, 0). L'amélioration des perfor-

mances (moins d'oscillations, un régime transitoire plus court) par rapport au cas continu

est agrante. Nous pouvons conclure, donc, sur la capacité de la méthode RNA-MMC à

résoudre le problème de la commande H∞ non linéaire par retour de sortie. Dans la gure

3.14 sont montrées la commande non linéaire et l'atténuation r =∫∞

0‖z‖2dt/

∫∞0‖ω‖2dt.

L'objectif, r γ2 avec γ = 10, est visiblement atteint. La gure 3.15 illustre l'évolution

136


de la norme de G(x) en fonction du temps. La convergence de ‖G(x)‖ illustre la stabilité

asymptotique du point d'équilibre (x, ξ) = (0, 0) au régime permanent.

0 10 20 30 40−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

temps [sec]

x 1(θ),ξ 1

x1ξ1

0 10 20 30 40−1.5

−1

−0.5

0

0.5

1

1.5

2

temps [sec]

x 2(θ),ξ 2

x2ξ2

Figure 3.13 Convergence asymptotique des états et des estimées vers (x, ξ) = (0, 0)- Cas deRNA (TORA avec N = M = 45)

6 Étude comparative

Les performances de l'algorithme des RNA-MMC ont été comparées, dans le cas de

la commande H∞ continue par retour d'état, avec celles de algorithme de Galerkin pour

les systèmes 4.3.1 (système linéaire MIMO 3-D), 4.3.2 (système non linéaire SISO 2-D)

et 4.3.5 (TORA) du chapitre précédant. La comparaison a été réalisée dans les mêmes

conditions (Fonctions de base, Critère d'arrêt, Méthode de discrétisation).

Pour eectuer la comparaison, la méthode utilisée pour discrétiser les intégrales est la

méthode stochastique de Monté-Carlo. Ce choix est fait dans un souci d'exécuter chaque

algorithme plusieurs fois (10 Exécutions).

Dans les tableaux de comparaison sont mentionnés :

137


0 10 20 30 40−1.2

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

temps [sec]

Com

mande

u

0 10 20 30 401

2

3

4

5

temps [sec]Atténuation

r

Figure 3.14 Commande par retour de sortie et Atténuation -Cas de RNA (TORA avec N =M = 45)

• Le nombre des fonctions de base N ;

• Le nombre d'itération nécessaire à la convergence de l'algorithme, Niter ;

• La norme du vecteur des coecients, ||c|| ;

• Le L2-gain (l'atténuation r) ;

• La fonction coût minimal dénie par J∗ = minu(∫∞

0(‖z‖2 − γ2‖ω‖2)dt) ;

• Le résidus sur l'équation GHJI Res.

Pour le système linéaire 3-D décrit dans la section 4.3.1, nous avons comparé les deux

méthodes avec la méthode de résolutions de l'équation algébrique de Riccati en utilisant

la fonction de MATLAB, CARE. Puisque le système est linéaire, les trois méthodes (Ga-

lerkin, RNA-MMC et CARE) convergent vers les mêmes résultats pour les 10 exécutions

( voir Table 3.5).

La comparaison des algorithmes pour ke système non linéaire 2-D (cf. 4.3.2) est dé-

taillée dans les Tables 5.3 à 3.8. Dans les Tables 5.3-3.7 nous avons constaté que le nombre

d'itération nécessaire à la convergence des deux algorithmes reste inchangé (Niter = 5) par

rapport au nombre de fonctions de bases N et pour chaque exécution. Nous avons aussi

constaté que l'algorithme des RNA-MMC présente des meilleurs résultats par rapport à la

méthode de Galerkin en terme du L2-gain et de la fonction coût minimal, J∗. Par contre,

138


0 5 10 15 20 25 30 35 401.1

1.2

1.3

1.4

1.5

temps [sec]

||G||

Figure 3.15 Évolution de la Norme de G(x)- Cas de RNA (TORA)

Table 3.5 Performances des deux méthodes (GALERKIN et RNA-MMC)Système linéaire 3-D.

GALERKIN

N Niter ‖c‖ L2 J∗ Res

6 5 42.1017 2.4706 −11.5451 1.9902× 10−17

21 5 42.1017 2.4706 −11.5451 1.9902× 10−17

RNA-MMC


6 5 42.1017 2.4706 −11.5451 1.9902× 10−17

21 5 42.1017 2.4706 −11.5451 1.9902× 10−17

CARE (MATLAB)


− − 42.1017 2.4706 −11.5451 −1.9902× 10−17

L'application de l'algorithme de Galerkin donne un résidu plus petit.

La Table 3.8 présente les erreurs absolus sur les états et la commande entre les deux

algorithmes et pour diérentes valeurs de N . Plus ce nombre augmente plus les erreurs

absolues diminuent. Ce ci est attendu du fait que plus nous augmentons le nombre de fonc-

tions de base, N , plus nous nous approchons de la solution exacte de l'équation GHJI.

La comparaison des algorithmes pour ke système TORA (cf. 4.3.5) est donnée dans les

Tables 3.9 à 3.11. Dans les Tables 3.9-3.10 nous avons remarqué que le nombre d'itération

nécessaire à la convergence de l'algorithme de Galerkin est réduit par rapport à celui de

la méthode des RNA-MMC. L'algorithme des RNA-MMC présente aussi des meilleurs

139


résultats par rapport à la méthode de Galerkin en terme du L2-gain et de la fonction coût

minimal, J∗. En contre partie, L'application de l'algorithme de Galerkin donne un résidu

relativement plus petit.

La Table 3.11 présente les erreurs absolues sur les états et la commande entre les deux

algorithmes et pour diérentes valeurs de N . Les remarques précédentes concernant la

Table 3.8 sont maintenues.

7 Conclusion

Ce chapitre présente l'application des RNA et principalement l'algorithme des moindres

carrés hybridé avec l'algorithme des approximations successives (AS) pour la résolution

des équations GHJI dans le cas de la commande H∞ par retour d'état continue, la com-

mande par retour d'état discrète, et de la commande par retour de sortie. Le problème

de la commande H∞ par retour d'état à temps nal xe n'est pas abordé. Ceci est du au

fait que la dérivée du résidu par rapport au vecteur des coecients donne la fonction de

base elle même, ce qui rend les deux algorithmes (Galerkin et RNA-MMC) identiques.

L'application a été faite sur le système TORA continu et discrétisé. Les résultats obtenus

montrent que la méthode des RNA-MMC présente des améliorations en terme de l'atté-

nuation des perturbations vis-à-vis des signaux à commander. Donc l'ecacité d'un tel

algorithme à synthétiser une commande H∞ non linéaire par retour d'état et de sortie.

L'implémentation est hors-ligne, ce qui augmente considérablement son coût de réalisa-

tion. Le chapitre suivant donne une alternative en- ligne quand à la détermination d'une

commande H∞ non linéaire par retour d'état.

140


Table3.6Perform

ancesdes

deuxméthod

es(G

ALERKIN

etRNA-M

MC)

Systèmenon

linéaire2-D.

GALERKIN

RNA-M

MC

N=

3Niter

‖c‖

L2

J∗

Res

Niter

‖c‖

L2

J∗

Res

15

2.67

701.

3524

−23.8

981

1.21

16×

10−

10

52.

6584

1.35

14−

23.9

015

2.34

52×

10−

10

25

2.67

651.

3528

−23.8

968

7.91

30×

10−

11

52.

6597

1.35

13−

23.9

019

2.46

76×

10−

10

35

2.68

381.

3528

−23.8

970

1.04

74×

10−

11

52.

6523

1.35

14−

23.9

017

2.43

78×

10−

10

45

2.67

151.

3529

−23.8

967

7.80

73×

10−

11

52.

6463

1.35

11−

23.9

025

2.68

43×

10−

10

55

2.66

801.

3523

−23.8

985

1.24

03×

10−

11

52.

6540

1.35

16−

23.9

010

2.13

19×

10−

10

65

2.67

881.

3533

−23.8

953

4.67

09×

10−

11

52.

6648

1.35

09−

23.9

032

2.71

42×

10−

10

75

2.69

111.

3523

−23.8

985

1.44

47×

10−

11

52.

6540

1.35

15−

23.9

014

2.30

98×

10−

10

85

2.67

671.

3525

−23.8

980

1.07

14×

10−

11

52.

6525

1.35

16−

23.9

008

2.12

76×

10−

10

95

2.67

761.

3531

−23.8

960

6.55

72×

10−

11

52.

6552

1.35

13−

23.9

019

2.48

66×

10−

10

105

2.68

421.

3529

−23.8

965

7.91

06×

10−

11

52.

6615

1.35

11−

23.9

024

2.56

01×

10−

10

moy

2.67

851.

3527

−23.8

972

9.50

15×

10−

11

2.65

581.

3513

−23.9

018

2.42

65×

10−

10

N=

15Niter

‖c‖

L2

J∗

Res

Niter

‖c‖

L2

J∗

Res

15

6.90

961.

4717

−23.5

257

9.38

29×

10−

15

55.

9359

1.45

40−

23.5

809

4.52

10×

10−

15

25

6.92

131.

4718

−23.5

254

8.36

62×

10−

15

55.

9140

1.45

29−

23.5

844

3.69

21×

10−

15

35

6.99

921.

4729

−23.5

220

9.30

29×

10−

15

55.

8115

1.45

17−

23.5

882

3.83

06×

10−

15

45

6.95

101.

4729

−23.5

219

9.33

76×

10−

15

55.

8568

1.45

29−

23.5

844

4.21

19×

10−

15

55

6.91

371.

4716

−23.5

259

9.02

29×

10−

15

55.

8373

1.45

23−

23.5

861

3.81

59×

10−

15

65

6.99

641.

4734

−23.5

203

1.07

85×

10−

14

55.

9471

1.45

40−

23.5

808

3.99

06×

10−

15

75

6.82

341.

4705

−23.5

293

8.81

01×

10−

15

56.

0503

1.45

59−

23.5

751

4.19

82×

10−

15

85

6.89

361.

4718

−23.5

254

1.03

24×

10−

14

55.

9758

1.45

35−

23.5

824

3.68

54×

10−

15

95

6.92

241.

4715

−23.5

264

8.95

14×

10−

15

55.

8902

1.45

32−

23.5

833

4.18

46×

10−

15

105

6.92

561.

4730

−23.5

217

1.08

04×

10−

14

55.

9223

1.45

36−

23.5

822

4.00

53×

10−

15

moy

6.92

561.

4720

−23.5

243

9.50

89×

10−

15

5.91

411.

4534

−23.5

827

4.01

36×

10−

15

141


Table3.7Perform

ancesdes

deuxméthod

es(G

ALERKIN

etRNA-M

MC)

Systèmenon

linéaire2-D

(suite).

GALERKIN

RNA-M

MC

N=

24Niter

‖c‖

L2

J∗

Res

Niter

‖c‖

L2

J∗

Res

15

13.3

106

1.48

56−

23.4

822

8.65

65×

10−

15

510.7

303

1.47

47−

23.5

162

1.14

76×

10−

14

25

13.5

006

1.48

69−

23.4

780

8.85

21×

10−

15

510.9

357

1.47

68−

23.5

098

1.12

29×

10−

14

35

13.5

233

1.48

77−

23.4

756

8.82

48×

10−

15

510.7

314

1.47

54−

23.5

140

1.25

17×

10−

14

45

13.5

278

1.48

67−

23.4

789

8.64

55×

10−

15

510.8

725

1.47

60−

23.5

122

1.17

06×

10−

14

55

13.5

047

1.48

73−

23.4

767

8.98

01×

10−

15

510.6

593

1.47

51−

23.5

150

1.16

40×

10−

14

65

13.3

529

1.48

69−

23.4

781

9.10

20×

10−

15

510.7

190

1.47

57−

23.5

130

1.17

04×

10−

14

75

13.3

590

1.48

61−

23.4

806

8.45

73×

10−

15

510.9

999

1.47

56−

23.5

133

1.09

70×

10−

14

84

13.4

371

1.48

46−

23.4

853

8.35

33×

10−

15

510.7

760

1.47

60−

23.5

122

1.20

61×

10−

14

95

13.5

486

1.48

72−

23.4

771

9.21

94×

10−

15

510.8

623

1.47

67−

23.5

100

1.12

80×

10−

14

105

13.2

354

1.48

61−

23.4

805

8.77

79×

10−

15

510.5

778

1.47

54−

23.5

140

1.16

76×

10−

14

moy

13.4

300

1.48

65−

23.4

793

8.78

69×

10−

15

10.7

864

1.47

57−

23.5

129

1.16

26×

10−

14

N=

35Niter

‖c‖

L2

J∗

Res

Niter

‖c‖

L2

J∗

Res

15

27.9

865

1.48

88−

23.4

722

4.67

19×

10−

15

521.1

306

1.48

42−

23.4

864

7.01

72×

10−

15

25

28.2

325

1.48

86−

23.4

727

4.58

45×

10−

15

521.7

335

1.48

40−

23.4

871

6.67

79×

10−

15

35

27.4

820

1.48

87−

23.4

724

4.74

06×

10−

15

521.1

764

1.48

44−

23.4

861

6.84

42×

10−

15

45

27.1

718

1.48

81−

23.4

742

4.78

43×

10−

15

520.5

475

1.48

40−

23.4

871

7.12

57×

10−

15

55

27.4

382

1.48

91−

23.4

713

4.73

61×

10−

15

520.6

157

1.48

43−

23.4

862

7.10

39×

10−

15

65

27.3

240

1.48

88−

23.4

723

4.77

01×

10−

15

520.5

298

1.48

31−

23.4

899

7.17

72×

10−

15

75

27.5

747

1.48

84−

23.4

734

4.73

21×

10−

15

520.6

232

1.48

43−

23.4

862

7.09

87×

10−

15

86

27.9

702

1.48

86−

23.4

728

4.63

07×

10−

15

520.8

372

1.48

34−

23.4

891

7.07

37×

10−

15

95

27.3

850

1.48

83−

23.4

737

4.68

84×

10−

15

520.8

927

1.48

36−

23.4

883

7.03

26×

10−

15

105

27.2

323

1.48

85−

23.4

731

4.78

97×

10−

15

520.8

551

1.48

37−

23.4

881

6.91

77×

10−

15

moy

27.5

797

1.48

85−

23.4

728

4.71

28×

10−

15

20.8

941

1.48

39−

23.4

874

7.00

69×

10−

15

142


Table 3.8 Erreurs absolues entre Galerkin et RNA-MMCSystème linéaire 3-D.

∆ = |Galerkin−RNAMCC |t=20s

N ∆x1 ∆x2 ∆u

3 3.4923e− 06 4.8262e− 07 2.8182e− 06

8 3.8907e− 07 3.7234e− 07 1.0086e− 06

15 1.1189e− 08 4.0396e− 08 1.2003e− 07

24 1.8299e− 08 1.7269e− 08 3.4090e− 08

35 3.8354e− 09 1.1327e− 08 3.1459e− 08

143


Table3.9Perform

ancesdes

deuxméthod

es(G

ALERKIN

etRNA-M

MC)

SystèmeTORA.

GALERKIN

RNA-M

MC

N=

10Niter

‖c‖

L2

J∗

Res

Niter

‖c‖

L2

J∗

Res

14

2.38

863.

7378

−30

0.81

959.

5532×

10−

15

52.

2927

3.38

39−

301.

9252

1.18

16×

10−

12

24

2.39

383.

6048

−30

1.23

513.

1881×

10−

14

42.

2875

3.42

38−

301.

8008

1.23

44×

10−

12

34

2.38

163.

7854

−30

0.67

053.

8106×

10−

14

42.

2802

3.49

94−

301.

5644

1.32

40×

10−

12

44

2.40

233.

5859

−30

1.29

415.

7259×

10−

14

52.

2756

3.43

24−

301.

7737

1.33

11×

10−

12

54

2.39

323.

6757

−30

1.01

365.

4707×

10−

14

42.

2947

3.40

32−

301.

8650

1.16

45×

10−

12

64

2.39

063.

6604

−30

1.06

135.

4345×

10−

14

42.

2869

3.47

38−

301.

6445

1.47

95×

10−

12

74

2.37

363.

8031

−30

0.61

536.

2843×

10−

14

42.

2802

3.57

20−

301.

3376

1.03

40×

10−

12

84

2.39

493.

7012

−30

0.93

378.

4927×

10−

15

52.

3017

3.34

57−

302.

0445

1.33

30×

10−

12

94

2.39

353.

7907

−30

0.65

413.

5128×

10−

14

42.

2984

3.40

71−

301.

8527

1.09

78×

10−

12

104

2.38

273.

6340

−30

1.14

362.

7458×

10−

14

52.

2892

3.48

45−

301.

6108

1.04

96×

10−

12

moy

2.38

943.

6978

−30

0.94

403.

6067×

10−

14

2.28

873.

4425

−30

1.74

191.

2230×

10−

12

N=

45Niter

‖c‖

L2

J∗

Res

Niter

‖c‖

L2

J∗

Res

14

2.71

622.

0020

−30

6.24

364.

6175×

10−

15

62.

6580

1.99

76−

306.

2576

5.93

81×

10−

15

24

2.71

251.

9968

−30

6.25

993.

4547×

10−

15

62.

6619

2.00

31−

306.

2402

6.52

50×

10−

15

34

2.71

651.

9905

−30

6.27

963.

4563×

10−

14

62.

6607

1.99

78−

306.

2569

6.49

95×

10−

15

44

2.71

801.

9910

−30

6.27

804.

1105×

10−

15

62.

6570

2.00

04−

306.

2486

7.13

94×

10−

15

54

2.72

101.

9976

−30

6.25

743.

3462×

10−

15

52.

6631

2.00

13−

306.

2460

6.62

95×

10−

15

64

2.71

631.

9969

−30

5.25

964.

7086×

10−

15

72.

6561

1.99

75−

306.

2579

5.52

53×

10−

15

74

2.72

701.

9877

−30

6.28

855.

3125×

10−

15

62.

6551

1.98

91−

306.

2841

6.73

21×

10−

15

84

2.71

551.

9904

−30

6.27

994.

1464×

10−

15

62.

6640

1.99

66−

306.

2606

6.08

76×

10−

15

94

2.72

031.

9899

−30

6.28

173.

8766×

10−

15

62.

6609

1.99

11−

306.

2778

6.04

97×

10−

15

104

2.71

631.

9934

−30

6.27

074.

4037×

10−

15

52.

6570

1.99

32−

306.

2711

5.82

31×

10−

15

moy

2.71

791.

9936

−30

6.26

984.

1433×

10−

15

2.65

931.

9967

−30

6.26

006.

2949×

10−

15

144


Table3.10

Perform

ancesdes

deuxméthod

es(G

ALERKIN

etRNA-M

MC)

SystèmeTORA

(suite).

GALERKIN

RNA-M

MC

N=

129

Niter

‖c‖

L2

J∗

Res

Niter

‖c‖

L2

J∗

Res

14

2.93

302.

0136

−30

6.20

744.

2052×

10−

15

62.

7383

1.96

73−

306.

3523

4.68

92×

10−

15

25

2.96

482.

0459

−30

6.10

674.

0986×

10−

15

62.

7511

1.96

24−

306.

3676

4.85

21×

10−

15

34

2.94

082.

0621

−30

6.05

594.

4885×

10−

15

72.

7550

1.97

46−

306.

3293

4.58

33×

10−

15

45

2.97

772.

0337

−30

6.14

474.

2084×

10−

15

62.

7453

1.97

94−

306.

3144

4.51

28×

10−

15

54

2.95

402.

0023

−30

6.24

294.

1840×

10−

15

62.

7518

1.98

38−

306.

3006

4.73

62×

10−

15

65

2.96

731.

9976

−30

6.25

744.

3154×

10−

15

52.

7471

1.99

16−

306.

2762

4.57

54×

10−

15

79

3.56

722.

1425

−30

5.80

473.

6456×

10−

15

72.

7570

1.97

80−

306.

3188

4.36

14×

10−

15

84

2.93

772.

0370

−30

6.13

444.

0294×

10−

15

62.

7333

1.98

14−

306.

3082

4.51

51×

10−

15

94

2.92

692.

0574

−30

6.07

054.

3823×

10−

15

52.

7443

1.97

17−

306.

3385

4.70

41×

10−

15

104

2.90

131.

9970

−30

6.25

944.

3431×

10−

15

52.

7378

1.96

62−

306.

3556

4.65

15×

10−

15

moy

3.00

702.

0389

−30

6.12

844.

1901×

10−

15

2.74

611.

9756

−30

6.32

614.

6181×

10−

15

145


Table 3.11 Erreurs absolues entre Galerkin et RNA-MMCSystème TORA.

∆ = |Galerkin−RNAMCC |t=100s

N ∆x1 ∆x2 ∆x3 ∆x4 ∆u

10 1.2175e− 06 9.0044e− 07 4.2237e− 06 2.2531e− 06 1.9274e− 06

45 4.1428e− 08 4.8538e− 08 7.8125e− 08 1.6512e− 08 3.0854e− 08

129 1.8684e− 08 8.3487e− 10 2.6718e− 08 2.1240e− 08 1.3465e− 08

146

Chapitre 4


de HJI : Méthode d'apprentissage

en-ligne

1 Introduction

Dans les chapitres précédents, nous avons mis en évidence le fort potentiel des mé-

thodes basées sur les résidus pondérés (Galerkin et RNA-MMC) pour résoudre le problème

de la commande H∞ non linéaire. Nous avons vu que ces méthodes peuvent être appliquer

au cas du retour d'état de sortie en temps continu ou discret. Leur inconvénient majeur

est leurs incapacités à être implémentées en-ligne.

Plusieurs travaux ont contribué à l'émergence des méthodes de résolution des équations

HJI en-ligne. Ces travaux sont basés sur les concepts d'apprentissage par renforcement

(AR) et des algorithmes Acteurs-Critiques (AC).

L'apprentissage par renforcement, venue de la communauté intelligence articielle

(IA), consiste à apprendre quoi faire, comment associer des actions à des situations an

d'optimiser quantitativement une récompense (fonction coût) (Coulom, 2002). L'appre-

nant ne reçoit pas l'ordre de quoi faire, mais au lieu de cela, il doit découvrir quelles

actions donnent le plus de récompenses. Dans l'apprentissage par renforcement, nous

trouvons souvent le vocabulaire de l'acteur et du critique. L'acteur correspond à l'agent

réagissant par les actions sur l'état du système et le critique correspond à la fonction

coût à optimiser pour pouvoir réactualiser l'action de l'acteur, selon que nous avons une

amélioration ou pas.

Vrabie et al. (2009) sont les premiers à appliquer l'architecture AC pour résoudre en-

ligne le problème de la commande optimale à horizon inni des systèmes linéaires. Ils

proposent deux structures : l'acteur qui est la commande optimale à réactualiser et le cri-

tique qui est la fonction coût à évaluer. Cette dernière n'est que la solution de l'équation

147

Chapitre 4. Solutions approximatives des équations de HJI : Méthode d'apprentissageen-ligne

HJB associée à la commande optimale. La mise à jour de l'acteur est faite selon la valeur

du critique.

Dans (Prasad et al., 2014), les auteurs appliquent la méthode de synthèse de la com-

mande, proposée dans (Vrabie et al., 2009), dans la régulation automatique de la tension

électrique appelée AVR, pour 'Automatic voltage regulation'. Dans (Wang et al., 2014),

les auteurs résolvent le problème de la commande optimale robuste pour une certaine

classe de systèmes non linéaires en utilisant la technique de la programmation dynamique

adaptative (ADP), concept étroitement liée au AR. Des extensions au cas de la commande

H∞ linéaire et non linéaire peuvent être trouvées dans (Wu and Luo, 2013), (Wu. and

Luo, 2012),(Liu et al., 2013), (Zhang et al., 2011) et (Jiang and Jiang, 2013b).

Dans ce chapitre nous allons détailler une méthode en-ligne de synthèse de la com-

mande H∞ non linéaire continue par retour d'état qui utilise les réseaux de neurones avec

un apprentissage par renforcement.

Ce chapitre est organisé de la façon suivante

1. Nous commencerons par donner la première version de l'algorithme de résolution si-

multané de l'équation HJI. L'algorithme cherche à résoudre itérativement l'équation

HJI pour la fonction coût V (x), puis réactualise de façon simultanée la commande

et la perturbation.

2. Ensuite, et en se basant sur les concepts de dérivée au sens de Fréchet et Gâteaux-

dérivée, une analyse de stabilité de la méthode de résolution est faite. Le théorème

principal donné montre qu'en ramenant la méthode itérative à une méthode de

Newton la stabilité est facilement démontrée.

3. Nous montrerons que l'utilisation des RN avec un apprentissage par renforcement

transforme le problème en problème de détermination en-ligne des poids du RN.

L'apprentissage utilise seulement une seule structure Acteur pour à la fois la com-

mande et la perturbation et une structure Critique pour la fonction coût. Pour

l'implémentation nous utiliseront la méthode des moindres carrés.

4. Finalement, nous terminerons par appliquer la méthode de synthèse de la commande

à des systèmes linéaires et non linéaires pour démontrer l'ecacité de la méthode.

2 Apprentissage simultané en ligne : Cas de la com-

mande H∞ non linéaire par retour d'état

Nous avons vu que l'objectif de la commande H∞ non linéaire par retour d'état est

double ; assurer d'un coté, la stabilité asymptotique du point d'équilibre x = 0 du système

148


non linéaire

x = f(x) + g1(x)ω + g2(x)u

z = [h(x) u]T

et d'autre coté, assurer une atténuation de l'eet des entrées exogènes ω (perturbations)

sur les sorties à commandé z au sens du L2-gain déni par :∫∞

0zT zdt ≤ γ2

∫∞0ωTωdt,

avec γ est le niveau d'atténuation.

Nous avons vu aussi que la solution d'un tel problème est donnée par le retour d'état non

linéaire u∗ = −1/2gT2∇V où V (x) est la solution de l'équation HJI suivante

G(V ) = ∇V T (f + g1ω∗ + g2u

∗) + ||h(x)||2 + ||u∗||2 − γ2||ω∗||2

= ∇V Tf + ||h(x)||2 +1

4∇V T

(1

2g1g

T1 − g2g

T2

)∇V = 0 (4.1)

avec ∇V T = ∂V∂x, ω∗ = 1/2γ2gT1∇V et G est un opérateur sur l solution V .

La résolution d'une telle équation est dicile voir impossible analytiquement.

Dans les deux chapitres précédents, nous avons donné des solutions approximatives à

(4.1) en supposant que V (x) peut être approché par VN(x) =∑N

k=1 ckφk(x). Le problème

se ramène donc à trouver les coecients ck. Nous avons utilisé deux méthodes o-line

parmi les méthodes des résidus pondérés, à savoir, l'algorithme de Galerkin et la méthode

RNA-MMC.

2.1 Approche de résolution en-ligne (1er algorithme)

La fonction coût V (x) solution de (4.1) peut être formulée comme suit

V (x(t)) =

∞∫t

(||h(x)||2 + ||u(x)||2 − γ2||ω(x)||2

)dτ (4.2)

En eet, si nous la dérivant par rapport au temps t nous obtiendrons facilement

∇V(f(x) + g1(x)ω + g2(x)u

)+ ||h(x)||2 + ||u(x)||2 − γ2||ω(x)||2 = 0 (4.3)

avec la condition V (∞) = 0. Nous pouvons aussi écrire

V (x(t)) =

t+dt∫t

(||h(x)||2 + ||u(x)||2 − γ2||ω(x)||2

)dτ + V (x(t+ dt)) (4.4)

A partir de cette dernière formulation les auteurs dans Wu. and Luo (2012) ont proposé

l'algorithme en-ligne de la gure 4.1, pour la résolution des équations HJI.

149


1 Soit V (0)(x) une fonction coût initiale et2 u(0) = −1

2gT2 (x)∇V (0)(x)

3 ω(0) = 12γ2gT1 (x)∇V (0)(x)

4 for i = 0 to ∞ do5 Résoudre pour V (i+1)(x)

6 V (i+1)(x(t)) =t+dt∫t

(||h(x)||2 + ||u(i)(x)||2 − γ2||ω(i)(x)||2

)dτ + V (i+1)(x(t+ dt))

7 Mise à jour de la commande et perturbation8 u(i+1)(x) = −1

2gT2 (x)∇V (i+1)(x)

9 ω(i+1)(x) = 12γ2gT1 (x)∇V (i+1)(x)

10 if ||V (i+1)(x)− V (i)(x)|| ≤ ε then11 i =∞, V (i)(x) est la solution12 else13 Aller à 5 et Continuer14 end

15 end

Figure 4.1 Algorithme d'apprentissage en-ligne simultané

Remarque 2.1. La diérence entre les travaux données dans Abu-Khalaf (2004), Abu-

Khalaf et al. (2006), Abu-Khalaf (2005a) et Abu-Khalaf (2005b) et d'algorithme ici pré-

senté est que les méthodes antérieures sont qualiées de hors-ligne et exigent par consé-

quent une connaissance apriori du modèle (dynamique) du système. D'où une implémen-

tation assez couteuse. L'algorithme en-ligne est "model-free", c.à.d, aucune connaissance

apriori du modèle (f , g1, g2) n'est requise. Ce qui rend son implémentation possible et en

temps réel.

Remarque 2.2. Les algorithmes hors-ligne nécessitent des mises à jour de u et ω boucles

diérés, c.à.d, la mise à jour de ω suppose que u est constante et la mise à jour de u ne

commence que si l'optimum de ω est atteint. L'algorithme en-ligne de la gure 4.1 procède

à une mise à jour simultanée de u et ω. D'où son nom : Algorithme d'apprentissage en-ligne

simultané.

Remarque 2.3. Le travail présenté est une extension de celui dans Vrabie et al. (2009)

pour le cas de la commande optimale des systèmes linéaires. En eet, l'auteur résous en-

ligne une équation algébrique de Riccati, sans connaissance du modèle du système et en

utilisant un réseau de neurones formel. L'algorithme est considéré comme une architecture

acteur-critique. L'acteur est réactualisé pour déterminer la commande (action) optimale

selon la fonction valeur (coût) donnée par le critique. Cette architecture est considérée

comme étant une architecture phare de l'apprentissage par renforcement.

150


2.2 Étude de la stabilité de l'algorithme en-ligne

L'objectif est de démontrer la convergence de l'algorithme, en d'autre terme, démontrer

que V (i+1)(x(t)) solution de

V (i+1)(x(t)) =

t+dt∫t

(||h(x)||2 + ||u(i)(x)||2 − γ2||ω(i)(x)||2

)dτ + V (i+1)(x(t+ dt)) (4.5)

converge vers la solution de l'équation HJI G(V ∗) quand i→∞.

Pour aboutir, les auteurs dans Wu. and Luo (2012) utilisent les notions de dérivée au sens

de Fréchet et Gâteaux-dérivée.

Soit V un espace de Banach (espace vectoriel muni d'une norme) et G et T deux applica-

tion de V dans V tel que :

TV = V − (G′(V ))−1G(V ) (4.6)

où G′(V ) est la dérivée au sens de Fréchet (fonctionnelle) de G au point V . Cette dérivée

est souvent remplacée par la dérivée de Gâteaux plus facile à calculer.

Dénition 2.1. G est Gâteaux-dérivable au point V , s'il existe un opérateur linéaire

L : V→ V, tel queG(V + sW ) = G(V ) + sL(W ), s→ 0

L est dit Gâteaux dérivée de G au point V et est donnée par

L(W ) = lims→0

G(V + sW )−G(V )

s(4.7)

Le lemme suivant est utilisé pour démontrer que (4.6), pour G dénie par (4.1), se

ramène à une équation itérative de Newton.

Lemme 2.1. (Wu. and Luo, 2012) La Gâteaux dérivée de G au point V est donnée par

G′(V )W = L(W ) = (∇W )Tf +1

4(∇W )T

(1

γ2g1g

T1 − g2g

T2

)∇W (4.8)

Pour la démonstration , il sut d'utiliser (4.7) et (4.1).

Les auteurs dans Wu. and Luo (2012) démontrent, dans le théorème qui suit, que l'al-

gorithme de la gure (4.1) peut être considéré comme une méthode itérative de Newton

pour résoudre G(V ) = 0.

Thèoreme 2.1. (Wu. and Luo, 2012) Soit T : V→ V une application dénie par (4.6),

alors l'équation (4.5) peut être écrite sous la forme itérative de Newton suivante

V (i+1) = TV (i)

= V (i) − (G′(V i))−1G(V (i)), i = 0, 1, · · · (4.9)

151


Démonstration. Nous donnons seulement quelques éléments de démonstrations, plus de

détails sont donnés dans Wu. and Luo (2012)

L'équation (4.9) devienne facilement

G′(V i)V (i+1) = G′(V i)V (i) −G(V (i)) (4.10)

Tout calcul donne

G′(V (i))V (i+1) = (∇V (i+1))T(f + g1ω

(i) + g2u(i)

)(4.11)

G′(V (i))V (i) = (∇V (i))Tf − 2||u(i)||2 + 2γ2||ω(i)||2 (4.12)

G(V (i)) = (∇V (i))Tf + ||h||2 + ||u(i)||2 − γ2||ω(i)||2 (4.13)

En substituant dans (4.10), l'équation (4.14) découle

(∇V (i+1))T(f + g1ω

(i) + g2u(i)

)+ ||h||2 + ||u(i)||2 − γ2||ω(i)||2 = 0 (4.14)

En remarquent que (∇V (i+1))T(f+g1ω

(i) +g2u(i))

=d

dtV (i+1)(x(t)) et en intégrant l'équa-

tion (4.14) entre t et t+ dt nous obtiendrons

V (i+1)(x(t)) =

t+dt∫t

(||h(x)||2 + ||u(i)(x)||2 − γ2||ω(i)(x)||2

)dτ + V (i+1)(x(t+ dt)) (4.15)

ce qui termine la démonstration.

2.3 Architecture Acteur-Critique et RN pour la résolution en-

ligne des HJI

Dans cette section, nous donnons la structure acteur-critique de l'algorithme de la

gure 4.1. Elle comporte trois unités d'apprentissage ; deux acteurs (commande et pertur-

bation) et un critique (fonction coût). Les trois interagissent entre eux et avec le système

durant l'apprentissage en-ligne. Le schéma détaillé est celui de la gure 4.2. A chaque

étape, (ici, étape coïncide avec le temps réel), les paramètres de la commande et pertur-

bation sont mis-à-jour à partir de l'observation du système et de l'information fournie par

le critique. Le critique réactualise la fonction coût à partir des nouvelles actions (com-

mande et perturbation).

L'équation 4.4 reste toujours dicile à résoudre, les auteurs dans Wu. and Luo (2012)

propose un seul réseau de neurone (RN) pour réactualiser les paramètres du critique au

lieu d'en utiliser trois pour chaque unité d'apprentissage.

152


Acteur 1

Politique de Commandeu(x)

Acteur 2

Politique de Perturbationω(x)

Système

Critique

Fonction coûtV (x)Coût

États

Figure 4.2 Structure Acteur-Critique de l'algorithme d'apprentissage simultané on-line

L'idée de base est présentée dans ce qui suit :

Soit VN(x(t)) = cTΦ(x(t)) une approximation de V (x(t)), tel que c et Φ sont respective-

ment le vecteur des poids du RA et celui des fonctions de base (voir chapitres précédents).

En remplaçant dans l'équation itérative de V (x(t)) nous obtenons

ΦT (x(t))c(i+1) =

t+dt∫t

(||h(x)||2+||u(i)(x)||2−γ2||ω(i)(x)||2

)dτ+ΦT (x(t+dt))c(i+1) (4.16)

L'adaptation de la commande de la perturbation donne

u(i+1) = −1

2gT2∇ΦTc(i+1) (4.17)

ω(i+1) =1

2γ2gT1∇ΦTc(i+1) (4.18)

où ∇Φ = [∂φ1/∂x ∂φ2/∂x · · · ∂φN/∂x]T est la matrice jacobienne de Φ.

Le déroulement de l'algorithme Acteur-Critique hybridé avec le RN VN(x) du critique,

est comme suit : une fois le vecteur des poids c est calculé par (4.16) (le critique), les

acteurs sont réactualisés par (4.17) et (4.18) et sont réinjectés dans le système donnant

une nouvelle valeur du critique, et ainsi de suite.

153


2.4 Implémentation

Le vecteur c(i+1) possède N inconnus, donc nous avons besoin de N équations pour

pouvoir le calculer. Plusieurs auteurs, Wu. and Luo (2012), Vrabie et al. (2009), Jiang

and Jiang (2013a), ont proposé de décomposer l'intervalle [t, t+ dt] en N ≥ N points et

de résoudre (4.16) dans chaque sous-intervalle. En eet, après discrétisation, la solution

(4.16) devient

c(i+1) =

(XXT

)−1

·XY (4.19)

avec

X =[Φ(x(t)

)− Φ

(x(t+ δt)

)· · · Φ

(x(t+ (N − 1)δt)

)− Φ

(x(t+ Nδt)

)](4.20)

Y =

y(x(t), u(i)(t), ω(i)(t)

)...

y(x(t+ (N − 1)δt), u(i)(t+ (N − 1)δt), ω(i)(t+ (N − 1)δt)

) (4.21)

où δt = dt/N et

y(x(t+ kδt), u(i)(t+ kδt), ω(i)(t+ kδt)

)=∫ t+(k+1)δt

t+kδt

(||h(x)||2 + ||u(i)(x)||2 − γ2||ω(i)(x)||2

)dτ, k = 0, 1, · · · , N − 1

L'algorithme 4.1 est donc remplacé par celui donnée par la gure 4.3.

1 Étape 1 : Soit N fonctions de base Φ et c(0) un vecteur initial des coecients. Soitu(0) = −1

2gT2 (x)∇ΦTc(0), ω(0) = 1

2γ2gT1 (x)∇ΦTc(0) et i = 0

2 Étape 2 : avec u(i) et ω(i) , échantillonné N point le long de la trajectoire dusystème dans l'intervalle [idt, (i+ 1)dt]. Calcul de c(i+1) par (4.19) à l'instant(i+ 1)dt.

3 Étape 3 : Mis-à-jour de la commande et de la perturbations via (4.17) et (4.18) àl'instant (i+ 1)dt.

4 Étape 4 : Prendre i = i+ 1, si ||c(i+1) − c(i)|| ≤ ε stop et considérer c(i) commesolution, sinon aller à l'étape 2 et continuer.

Figure 4.3 Implémentation de l'algorithme d'apprentissage simultané on-line

Remarque 2.4. L'inversion matricielle dans (4.19) peut provoquer une singularité. Pour

contrecarrer ce phénomène, nous pouvons toujours calculer le vecteur des coecients c en

utilisant le lemme d'inversion matricielle qui nous ramène à un algorithme des moindres

carrés récursives (MCR). En eet l'équation (4.19) est remplacée par l'algorithme MCR

de la gure 4.4.

154


1 c = 02 S = δI, avec δ susament grand3 for i = 1 to N − 1 do

4 S = S − SX(i, :)X(i, :)TS

(1 +X(i, :)TSX(i, :))5 c = c + SX(i, :)(B(i, :)−X(i, :)Tc)

6 end

Figure 4.4 Algorithme MCR pour l'apprentissage simultané en-ligne

3 Exemples illustratifs

3.1 Système Linéaire 3D

Pour valider l'algorithme d'aprentissage en-ligne de la gure 4.3, nous proposons de

l'appliquer à l'exemple 4.3.1 du chapitre 2 (système MIMO-3D). Étant le système linéaire,

les fonctions de base sont choisies comme suit : Φ(x) =[x2

1 x1x2 x1x3 x22 x2x3 x2

3

]T.

La valeur γ = 4 est sélectionnée. Les paramètres de l'algorithme d'apprentissage en-ligne

sont décrites dans la Table 4.1

Table 4.1 Paramètres de l'algorithme en-ligne : MIMO-3D

Paramètre ValeurPas de simulation : ∆t 0.05

Nombre de point entre [t, t+ ∆t] : N 10Tolérance : ε 10−15

Coecients initiaux : c0

[10 10 10 0 0 0

]TNous prenons, x0 =

[1 1 1

]Tet ω12(t) = 5 cos te−t. Les résultats de l'application de

l'algorithme de la gure 4.3 sont illustrés dans les gures 4.5 à 4.7.

La gure 4.5 indique la convergence des coecients vers les valeurs

c∗ =[32.8555 18.0395 17.4773 2.8265 4.8224 4.9177

]Taprès seulement 5 itérations (à t = 0.25s). Nous avons obtenu les mêmes valeurs données

par la fonction CARE du Matlab en résolvant l'équation de Riccati (1.52). Ce qui donne

ccare =[32.782018.1760 17.6332 2.8904 4.8718 4.9499

]T, qui est très proche de c∗.

La gure 4.6 illustre les états x(t) et les commandes u(t). Nous remarquons la stabi-

lité asymptotiquement du point d'équilibre x = 0 et ceci malgré l'introduction au début

de simulation de la perturbation. L'évolution de l'atténuation r dénie par l'équation 2.46

est illustrée par la gure 4.7. L'atténuation converge vers r = 2.316 qui est largement in-

155


0 5 · 10−2 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

5

10

15

20

25

30

35

temps [sec]

c ic1c2c3c4c5c6

Figure 4.5 Évolution temporelle des coecients ci pour le système MIMO-3D

férieur à la valeur de γ2 = 16. Donc la propriété du L2 est vériée.

0 1 2 3 4 5−2

−1.5

−1

−0.5

0

0.5

1

1.5

temps [sec]

États

x1x2x3

0 1 2 3 4 5−12

−10

−8

−6

−4

−2

0

2

4

temps [sec]

Com

mandes

u1u2

Figure 4.6 Convergence asymptotique des états vers x = 0, Commande et perturbation pourle système MIMO-3D

156


0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 51

1.2

1.4

1.6

1.8

2

2.2

2.4

temps [sec]

Atténuation

r

Figure 4.7 Évolution de r(t) pour le système MIMO-3D

3.2 Système non linéaire 2D

Nous reprenons l'exemple 4.3.2 du chapitre 2 (système SISO-2D) avec comme fonction

de base Φ(x) =[x2

1 x1x2 x22

]Tet γ = 3. Les paramètres de l'algorithme d'apprentissage

en-ligne sont décrites dans la Table 4.2 Nous prenons, x0 =[1 1

]Tet ω(t) = 5 sin te−t.

Table 4.2 Paramètres de l'algorithme en-ligne : Exemple SISO-2D



Coecients initiaux : c0 0

Les résultats de l'application de l'algorithme de gure 4.7 sont illustrés dans les gures

4.8 à 4.11.

La gure 4.8 indique la convergence des coecients vers les valeurs

c∗ =[1.4701 1.5185 2.1771

]Taprès seulement 6 itérations (à t = 0.6s).

La gure 4.9 illustre l'évolution des états x(t), la commande u(t) et la perturbation ω(t).

Nous remarquons la stabilité asymptotiquement du point d'équilibre x = 0 et ceci malgré

l'introduction au début de simulation de la perturbation (Nous n'avons pas attendu la n

de la phase d'apprentissage pour appliquer la perturbation). L'évolution de l'atténuation

r est illustré par la gure 4.10. L'atténuation converge vers r = 1.55 qui est largement

157


0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

temps [sec]

c i

c1c2c3

Figure 4.8 Évolution temporelle des coecients ci pour le système SISO-2D

inférieur à la valeur de γ2 = 9. Donc la propriété du L2 est vériée.

0 5 10 15 20−1

−0.5

0

0.5

1

temps [sec]

États

x1x2

0 5 10 15 20

−2

−1

0

1

2

temps [sec]

Com

mande

uet

Perturbationω u

ω

Figure 4.9 Convergence asymptotique des états vers x = 0, Commande et perturbation pourle système SISO-2D

Dans la gure 4.11 nous illustrons la norme du vecteur des coecients en fonction du

pas de simulation ∆t et du nombre de points N = ∆t/δt. Nous avons fait varier N de

3 à 27 et ∆t de 0.01 à 0.5. Nous constatons que le nombre d'échantillons N a un léger

eet sur ||c|| pour diérentes valeurs de ∆t. Par contre en augmentant ∆t la valeur de

||c|| augmente. Au delà de ∆t = 0.2s le système devient instable.

158


2 4 6 8 10 12 14 16 18 200

2

4

6

temps [sec]

Atténuation

r

Figure 4.10 Évolution de r(t) pour le système SISO-2D

05

1015

2025

30

05 · 10−2

0.10.15

0.22

2.5

3

3.5

N∆ t

||c||

Figure 4.11 norme de c en fonction de ∆t et N pour le système SISO-2D

3.3 Système TORA

Dans cette section nous nous intéressons à l'application de l'algorithme simultané en-

ligne au système décrit dans l'exemple 4.3.5 de la section 4.3. Nous rappelons que c'est

un système mécanique instable en boucle ouverte et qui peut être modélisé sous la forme

standard (2.1).

Les fonctions de base utilisées sont choisies sous la forme suivante :

Φ =[x2

1 x1x2 x1x3 x1x4 x22 x2x3 x2x4 x2

3 x3x4 x24

]T159


La valeur de γ = 10 est sélectionnée. Les paramètres de l'algorithme d'apprentissage sont

décrites dans la Table 4.3.

Table 4.3 Paramètres de l'algorithme on-line pour le système TORA



Coecients initiaux : c0 0

Les résultats de l'application de l'algorithme de la gure 4.3 sont données par les gures

4.12 à 4.14. Dans 4.12 est illustré l'évolution temporelle de la norme du vecteur c. Nous

constatons la convergence des coecients après 0.1s, c.à.d., après seulement 2 itérations.

Les coecients ainsi obtenus sont présentés dans la Table 4.4.

Table 4.4 Vecteur c -RNA Cas discret (TORA)

c∗ = [0.8283 1.1702 0.5087 0.0368 0.01920.9420 1.0293 1.1800 0.8992 1.0569]

La gure 4.13 schématise la convergence asymptotique du point d'équilibre x = 0 ainsi

que la commande u. Nous avons exposé le système, au début de simulation, à une per-

turbation ω(t) = cos te−t. Le vecteur d'état initial est x(0) =[1.5 −0.6 1.5 0.6

]T. La

gure 4.14 montre l'atténuation r(t). La valeur atteinte de r vaut 32.47 qui est largement

inférieur à γ2 = 100. Nous concluons, ainsi que l'atténuation des perturbations est donc

vériée.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

1

2

3

temps [sec]

||c||

Figure 4.12 Évolution temporelle de la norme de c pour le système TORA

160


0 20 40 60 80 100−2

−1

0

1

2

temps [sec]

x 1(ζ),x 2(θ)

x1x2

0 20 40 60 80 100

−1

−0.5

0

0.5

temps [sec]

Com

mande

uFigure 4.13 Convergence asymptotique des états vers x = 0 et commande pour le système

TORA

0 10 20 30 40 50 60 70 80 90 1000

5

10

15

20

25

30

35

temps [sec]

Atténuation

r

Figure 4.14 Évolution de r(t) pour le système TORA

161


4 Conclusion

Dans ce chapitre, nous avons présenté une méthode en-ligne de synthèse de la com-

mande H∞ non linéaire par retour d'état. La méthode ramène la résolution de l'équation

HJI résultante à un problème d'apprentissage en-ligne simultané basé sur le concept du

renforcement (Acteur/Critique). Le travail est basé sur les travaux de Vrabie et al. (2009)

pour le cas de la commande optimale linéaire, et celui de Wu. and Luo (2012) pour

la commande H∞ non linéaire. L'utilisation des dérivées de Gateaux et de Fréchet ont

permis de démontrer que l'algorithme d'apprentissage en-ligne peut se ramené à un algo-

rithme itératif de Newton pour l'équation G(V ) = 0. La convergence est donc directement

démontrée.

Nous avons validé l'algorithme sur un système linéaire MIMO. Les résultats montrent

que les poids du RN convergent en-ligne vers la solution exacte obtenue par l'équation

algébrique de Riccati. Nous avons aussi montré la capacité d'un tel algorithme à résoudre

le problème H∞ pour les systèmes non linéaires.

162

Chapitre 5

Application d'une méthode

d'optimisation à la synthèse de la

commande H∞ non linéaire

1 Introduction

La demande sans cesse croissante du milieu industriel pour accroitre la production tout

en réduisant les coûts, a contribué largement à l'émergence d'une branche très importante

des mathématiques, à savoir l'optimisation. Cette dernière est devenue omniprésente dans

des domaines très larges tels que l'engineering, la théorie de la décision, l'économie et même

les sciences sociales.

Les méthodes utilisées pour résoudre un problème d'optimisation sont fonction de la

nature du problème lui même, de sa complexité et des outils mathématiques et numériques

mises en disposition. Les méthodes dites classiques sont restreintes aux cas où le problème

à résoudre peut être modélisé analytiquement et/ou convexe, ce qui n'est pas le cas pour

de nombreuses situations.

Les méthodes stochastiques dites méta-heuristiques semblent être le remède à ces

situations. Parmi eux nous pouvons citer le recuit simulé (SA), (Kirkpatrick et al., 1983),

les algorithmes génétiques (GA), (Goldberg, 1989), les essaims de particules (PS), (Clerc

and Kennedy, 2002) et bien d'autres.

L'optimisation par essaims de particules (PSO) a connu un très grand succès des

dernières années, dans diérents domaines. Dans l'automatique, la méthode a été large-

ment utilisée pour l'optimisation des gains des contrôleurs tels que le PID, (Gaing, 2004),

(Mehdi et al., 2007), (GirirajKumar et al., 2010). Dans le domaine de la commande H∞linéaire, nous pouvons trouver plusieurs travaux de recherches impliquant la PSO, (Ma-

ruta et al., 2009), (Kim et al., 2008). Dans Cruz et al. (2013), les auteurs ont utilisé la

PSO pour trouver la solution de l'équation de Riccati déduite de la commande optimale.

163

Chapitre 5. Application d'une méthode d'optimisation à la synthèse de la commandeH∞ non linéaire

Dans ce chapitre, nous allons appliquer la PSO pour résoudre l'équation HJI déduite de

la commande H∞ non linéaire. Nous allons utilisé deux fonctions objectives à minimiser.

L'une découle de l'objectif à avoir un résidu, sur l'équation HJI, nulle et l'autre sur

l'objectif d'avoir un L2 gain inférieur à un niveau d'atténuation donnée.

Ce chapitre est organisé de la façon suivante : Dans la section suivante, nous allons

donner un aperçu sur l'optimisation (avec et sans contraintes) et les méta-heuristiques.

Dans la section 3, l'optimisation par essaim de particules sera détaillée. La section 4

traitera l'application de la PSO à la résolution des équations HJI dans le cas du retour

d'état. Dans la section 5, deux exemples illustratifs (système non linéaire 2D et TORA)

vont clarier l'ecacité d'une telle approche.

2 Optimisation et méthodes méta-heuristiques

2.1 Dénition de l'optimisation

L'optimisation est le fait d'obtenir le meilleur résultat dans des circonstances données.

Dans tout domaine d'ingénierie, les ingénieurs doivent prendre beaucoup de décisions

technologiques et de gestion. Le but ultime de toutes ces décisions est soit minimiser

l'eort requis ou maximiser le bénéce souhaité. Cependant, l'eort et le bénéce dans

toute situation concrète peut se modéliser en une fonction coût de certaines variables de

décision. L'optimisation peut être dénie comme le processus de trouver les variables qui

donnent le maximum ou minimum de cette fonction, sans ou avec contraintes.

2.2 Problème d'optimisation

D'un point de vue mathématique, le problème se formule de la façon suivante :

• problème sans contraintes :

minx∈<nx

J(x) (5.1)

• problème avec contraintes :

minx∈C

J(x) (5.2)

où x =[x1 x2 · · · xnx

]Test le vecteur des nx variables de décision.

J(x) =[J1(x) J2(x) · · · JM(x)

]Test le vecteur des M fonctions coût. Quand M > 1,

le problème est dit d'optimisation multi-objective.

La recherche d'un minimum de J(x) est équivalent à la recherche d'un maximum de −J ,et vis-versa.

L'optimisation est souvent modélisée sous la forme (5.2). Les contraintes sont :

164


• soit de type inégalités avec

C = x ∈ < tels que :hl(x) ≤ 0, i = 1, · · · ,mi (5.3)

• soit de type égalité avec

C = x ∈ < tels que :gl(x) = 0, i = 1, · · · ,me (5.4)

avec mi est le nombre des contraintes de type inégalité et me est le nombre de contraintes

de type égalité.

L'optimisation avec contraintes (5.2) peut se ramener à un problème d'optimisation sans

contraintes (5.1) en introduisant une nouvelle fonction coût qui inclue les contraintes de

la manière suivante

L(x,λ) = J(x) +

mi∑l=1

λlgl(x) +

me+mi∑l=me+1

λl max(hl−me(x), 0) (5.5)

Le terme ajouté à J(x) est appelé fonction de pénalité, L(x, λ) le lagrangien et λl les

multiplicateurs de Lagrange. Le choix des λl n'est pas critique pour l'optimisation, en

eet, ces derniers pénalisent plus ou moins la violation des contraintes. Si x satisfait les

contraintes, nous aurons L(x,λ) = J(x) et le problème d'optimisation devient

minx∈<nx

L(x,λ)

2.3 Méthodes classiques v.s. Méthodes métaheuristiques

L'existence des méthodes d'optimisation peut être attribuée à l'époque de Newton,

Lagrange, et Cauchy. L'utilisation du calcul diérentiel dans l'optimisation est devenue

possible grâce aux contributions de Newton et Leibnitz. Les pionniers qui ont traité la

minimisation des fonctionnelles, étaient Bernoulli, Euler, Lagrange, et Weirstrass.

L'optimisation avec contraintes qui implique l'ajout de multiplicateurs inconnus, est

devenu connu par le nom de son inventeur, Lagrange. Cauchy était le premier à utiliser

la méthode de descente du gradient pour résoudre les problèmes de minimisation sans

contrainte. Malgré ces premières contributions, très peu de progrès ont été réalisés.

Il fallait attendre le milieu du vingtième siècle, lorsque les ordinateurs numériques

à haute vitesse faisaient la mise en ÷uvre des procédures d'optimisation et stimulaient

les recherches sur de nouvelles méthodes. Les progrès spectaculaires suivis, produisant

une littérature considérable sur les techniques d'optimisation. Mais d'un autre coté, les

problèmes à optimiser deviennent plus complexes, et les obstacles pour les résoudre plus

émergents. Le principal obstacle est que la plupart des problèmes d'optimisation sont

NP-diciles (Garey Johnson, 1979). Par conséquent, les méthodes théoriques connues

165


ne peuvent pas être appliquées sauf peut-être pour certains problèmes de petite taille.

D'autres dicultés paraissent quand la fonction coût n'est pas diérentiable et/ou mul-

timodale. Par conséquent, l'ensemble des méthodes utilisant les dérivées de la fonction

coût ne peut pas être utilisé. Un autre obstacle est quand la fonction coût ne peut être

modélisée sous forme analytique mais évaluée que par des simulations.

Dans ces situations, les approches métaheuristiques semblent être le seul moyen pour ré-

soudre les problèmes d'optimisation.

Le terme métaheuristique vient des mots grecs meta (au delà) et heuriskein (trouver). Il

n'y a pas clairement de consensus sur la dénition exacte des heuristiques et des méta-

heuristiques. Nous allons adopter celles-ci :

• Une heuristique est une technique de résolution spécialisée à un problème. Elle ne

garantit pas la qualité de la solution obtenue.

• Une métaheuristique est une heuristique générique qu'il faut adapter à chaque pro-

blème

La dénition de la littérature du terme métaheuristique (Wikipédia) est :

Une métaheuristique est un algorithme d'optimisation visant à résoudre des problèmes

d'optimisation dicile (souvent issus des domaines de la recherche opérationnelle, de

l'ingénierie ou de l'intelligence articielle) pour lesquels on ne connaît pas de méthode

classique plus ecace. Les métaheuristiques sont généralement des algorithmes stochas-

tiques itératifs, qui progressent vers un optimum global, c'est-à-dire l'extremum global

d'une fonction, par échantillonnage d'une fonction objective. Elles se comportent comme

des algorithmes de recherche, tentant d'apprendre les caractéristiques d'un problème an

d'en trouver une approximation de la meilleure solution (d'une manière proche des algo-

rithmes d'approximation).

2.3.1 Caractéristiques des métaheuristiques

Nous citons ici quelques caractéristiques des métaheuristiques (Digabel, 2014)

B Le but visé par les métaheuristiques est d'explorer l'espace de recherche ecacement

an de déterminer des solutions (presque) optimales.

B Les techniques qui constituent des algorithmes de type métaheuristique vont de la

simple procédure de recherche locale à des processus d'apprentissage complexes.

B Les métaheuristiques sont en général non-déterministes et ne donnent aucune ga-

rantie d'optimalité.

B Les métaheuristiques peuvent être hybridés avec d'autres métaheuristiques ou avec

des méthodes classiques.

166


B Les métaheuristiques peuvent contenir des mécanismes qui évitent le blocage dans

un minimum local.

2.3.2 Classication des métaheuristiques

Les métaheuristiques sont généralement classés en deux grandes familles de méthodes,

à savoir, celles dites de trajectoire et celles basées sur les populations

2.3.2.1 Méthodes de trajectoires elles manipulent une seule solution à la fois et

tentent itérativement d'améliorer cette solution. Elles construisent une trajectoire dans

l'espace des solutions en tentant de se diriger vers des solutions optimales. Parmi les

exemples, nous citons : Le recuit simulé (Kirkpatrick et al. (1983)) et la recherche tabou

(Glover (1986)).

2.3.2.2 Méthodes basées sur une population En tout temps on dispose d'une

base de plusieurs solutions, appelée population. Ces métaheuristiques s'inspirent de phé-

nomènes naturels ou biologiques. Nous citons comme exemples les algorithmes génétiques

(Goldberg (1989)) et les algorithmes des fourmis (Dorigo and Stutzle (2004)) s'inspirent

respectivement de la théorie de l'évolution et du comportement de fourmis à la recherche

de nourriture.

Dans ce qui suit, nous nous intéressons particulièrement à une métaheuristique basée

sur la population et qui a trouvé un large domaine d'application dans le domaine de

l'ingénierie. Cette méthode est dite "essaim de particules" (PS) pour "Particule Swarm".

3 Optimisation par Essaim de Particules

3.1 Principe de base

L'optimisation par essaim de particules, ou Particle Swarm Optimisation (PSO) est

une métaheuristique stochastique originalement développée par deux chercheurs améri-

cains, l'un ingénieur en électricité, Rusel Eberhart, et l'autre socio-psychologue, James

Kennedy, en 1995. La méthode s'articule sur le comportement en essaim des animaux,

telque les bancs de poisons, les vols d'oiseaux, ou tout mouvement en essaim des insectes.

Les deux chercheurs, ont remarqué que les essaims des particules (oiseaux, poissons,...)

développent deux types d'intelligence lors de leurs déplacement. L'une complexe, lorsqu'il

s'agit du comportement du groupe, et l'autre limitée, lorsqu'il s'agit du comportement in-

dividuel. Il ont remarqué aussi que des règles simples, telles que "rester proche des autres

individus", "aller dans une même direction" ou "aller à la même vitesse" maintiennent le

groupe d'individus en cohésion.

167


Lors du déplacement d'une particule (un individu dans l'essaim), trois comportements

socio-psychologiques se manifestent. Le premier est un dit d'inertie, où la particule a ten-

dance de ne pas modier sa vitesse et sa direction. Le deuxième, est un comportement

cognitif, où la particule tend à se diriger vers le meilleur site déjà visité. Finalement, le

troisième, qualié de sociale, où la particule se déplace vers le meilleur site visité par l'es-

saim où d'autres particules voisines. Le modèle formel du comportement d'une particule

au sein de l'essaim est modélisé par les deux chercheurs dans la section qui suit.

3.2 Formulation

Une particule i est caractérisée par son vecteur de position

xi =[xi1 xi2 · · · xinx

].

Le vecteur vitesse est noté par

vi =[vi1 vi2 · · · vinx

]La particule mémorise la meilleure position qu'elle a occupée lors de l'exploration du

domaine de recherche. Cette meilleure position est relative à la minimisation d'une certaine

fonction coût, et est notée par

Pbesti =[Pbesti1 Pbesti2 · · · Pbestinx

]La meilleure position obtenue par l'ensemble de l'essaim, relative au minimum global

atteint, est notée par

Gbest =[Gbest1 Gbest2 · · · Gbestnx

]3.2.1 Déroulement de la PSO

L'algorithme PSO commence par une initialisation des positions de Np particules dans

un hypercube cube dans <nx . Cette initialisation doit être aléatoire et régulière. A chaque

itération notée k, les particules se déplacent selon les comportements socio-psychologiques

cités auparavant en améliorant leurs positions et vitesses selon les équations (5.7) et (5.6)

vi,j(k+1) = wvi,j(k)+c1r1i,j(k)(Pbesti,j(k)−xi,j(k)

)+c2r2i,j(k)

(Gbestj(k)−xi,j(k)

)(5.6)

xi,j(k + 1) = xi,j(k) + vi,j(k), i ∈ 1, · · · , Np, j ∈ 1, · · · , nx (5.7)

où w est la constante d'inertie ; c1, c2 sont deux constantes positives déterminées de

façon empirique et suivant la relation c1 + c2 ≤ 4. Ces constantes sont dites coecients

168


d'accélération. r1, r2 sont deux nombres aléatoires suivant une loi uniforme sur [0, 1].

Pour maintenir la stabilité en mouvement, c.à.d, assurer que le déplacement des particules

est restreint dans un espace de recherche, la vitesse doit être limitée par vmax, en d'autre

termes ∣∣∣vi,j(k + 1)∣∣∣ ≤ vmax

L'équation (5.6) possède trois termes suivant le comportement de déplacement déjà dé-

taillé :

1. wvi,j(k) est la composante d'inertie dans la vitesse. La constante w sert à modier

la vitesse de déplacement en se basant sur la vitesse actuelle.

2. c1r1i,j(k)(Pbesti,j(k) − xi,j(k)

)correspond à la composante cognitive de la vitesse,

c1 est un paramètre de contrôle et r1 donne l'aspect aléatoire au comportement

cognitif de la particule.

3. c2r2i,j(k)(Gbestj(k) − xi,j(k)

)correspond à la composante sociale de la vitesse. c2

est un paramètre de contrôle et r2 donne l'aspect aléatoire au comportement social

de la particule.

La meilleure position de la particule i ainsi que la meilleure position de tout l'essaim sont

respectivement données par (5.8) et (5.9)

Pbesti(k + 1) =

Pbesti(k) si J(xi(k + 1)) ≥ Pbesti(k);

xi(k + 1) sinon.(5.8)

Gbest(k + 1) = arg minPbesti

J(Pbesti(k + 1)), i ∈ 1, · · · , Np (5.9)

L'interprétation géométrique de la méthode PSO est illustrée par la gure 5.1. Les étapes

de l'algorithme PSO sont détaillées dans la gure 5.2

3.3 Les variantes de la PSO

Durant ces dernières années la PSO a connu une explosion en ce qui concerne l'émer-

gence de plusieurs variantes. En eet, de nombreux chercheurs ont élaboré des modi-

cations sur l'algorithme de base. Parmi ces améliorations, nous citons, l'introduction

d'un coecient d'inertie variable, w(k), qui décroit de 1.4 à 0 (Shi and Eberhart (1998)).

D'autres chercheurs ont proposé des coecients d'accélération c1(k) et c2(k) variantes

dans le temps . Pour ne pas citer d'autres, Ratnaweera (Ratnaweera et al. (2004)) montre

par des testes empiriques que le fait de choisir c1(k) linéairement décroisant et c2(k)

linéairement croisant donne des résultats plus performants.

La diérence entre les particules au sein de l'essaim a conduit à l'automatisation des

coecients d'inertie et d'accélération pour chaque particule. En eet, dans des essaims

169


xi(k)

Gbest(k)

Pbesti(k)

vi(k)

Sa meilleure position

Meilleure position de l'essaim

Position avec la vitesse courante

Position actuelle

Nouvelle position

xi(k + 1)

Figure 5.1 Déplacement d'une particule dans PSO

Input : Np le nombre de particulesInput : kmax le nombre maximal d'itération, ε la toléranceInput : w, c1, c2 paramètres de contrôle du PSO

1 Initialiser aléatoirement les positions xi et vitesses vi2 Calculer la fonction objective pour chaque position3 for k = 0 to kmax do4 Mettre à jour les vitesses et positions selon (5.6) et (5.7)5 Calculer la fonction objective pour chaque nouvelle position6 Mettre à jour Pbest et Gbest selon (5.8) et (5.9)7 if ∆Gbest < ε then8 Stop9 La solution est Gbest10 else11 Aller à 4 et continuer12 end

13 end

Figure 5.2 Algorithme du PSO

réels, les individus (oiseaux ou poissons, par exemple) ont des caractéristiques diérentes

les uns aux autres (diérences d'âge, expériences de vol, étirement des muscles, etc.), ce

qui a conduit à élaborer des coecients variantes dans le temps et pour chaque individu

(Xingjuan et al. (2009)).

Nous désignons par la suite µi = wi, c1i, c2i comme coecient généralisé. Dans (Xing-

juan et al. (2009)), les auteurs proposent un µi(k) qui varie selon la stratégie suivante : Si

la valeur de la fonction objective de la particule i est nettement meilleure que celle de la

particule j, alors la probabilité que l'optimum global se trouve au voisinage de i est plus

grande qu'il se trouve au voisinage de j. Ceci à ramener, à dénir une sorte d'information

170


appelée Score pour chaque particule. Cette nouvelle information est donnée par

Scorei(k) =J(xwrost(k))− J(xi(k))

J(xwrost(k))− J(xbest(k))

avec

xwrost(k) = arg maxxJ(xi(k)), i = 1, · · · , Np

xbest(k) = arg minxJ(xi(k)), i = 1, · · · , Np

Le coecient généralisé µi(k) est donné par

µi(k) = wl(k) +(µh − µl

)(1− Scorei(k)

)avec µl et µh sont respectivement les bornes inférieures et supérieures de µi(k).

Nous attribuons, donc, à la particule qui ne contribue pas à l'exploration de l'espace

de recherche, un coecient plus grand µh et un coecient plus petit µl à la meilleure

particule. Des formes non linéaires du Scorei(k), plus au moins complexes, ont été utilisées

et donnaient des performances plus élevées.

Au lieu de régler trois paramètres indépendamment w, c1 et c2, Clerc et Kennedy (Clerc

and Kennedy (2002)) ont démontré qu'en combinant ces paramètres dans un seul, appelé,

coecient de constriction, et noté χ, une bonne convergence du PSO peut être obtenue.

L'équation de mis-à-jour de la vitesse (5.6) devienne

vi,j(k + 1) = χ

(vi,j(k) + φ1r1(k)

(Pbesti,j(k)− xi,j(k)

)+ φ2r2(k)

(Gbestj(k)− xi,j(k)

))(5.10)

avec

χ =2

φ− 2 +√φ2 − 4φ

où φ = φ1 + φ2 > 4. Selon Clerc and Kennedy (2002), prendre φ = 4.1, avec φ1 = φ2,

donne un meilleur taux de convergence.

3.4 PSO avec contraintes

Dans cette section, nous présentons deux algorithmes d'optimisation avec contraintes

dédiés à la méthode des essaims de particules (PS). Le premier est inspiré de la méthode

augmentée des multiplicateurs de Lagrange (ALM) (Rao (2009)) et la deuxième est basée

sur la dénition d'une fonction ctive dans le problème d'optimisation.

171


3.4.1 Algorithme ALPSO

Cet algorithme est originalement développé dans (Sedlaczek and Eberhard (2006)).

Kim dans (Kim et al. (2008)) a utilisé l'algorithme pour la synthèse optimale des para-

mètres d'un contrôleur H∞-PID. Les contraintes sont supposées être sous la forme mixte,

(égalité et inégalité), suivante

g(x) = 0, g : <nx → <me

h(x) ≤ 0, h : <nx → <mi

où me et mi sont respectivement le nombre des contraintes d'égalité et d'inégalité.

L'algorithme est basé sur la méthode dite de lagrangien augmenté qui permet de rendre le

problème d'optimisation avec contraintes et un problème d'optimisation sans contraintes

en introduisant une nouvelle fonction objective augmentée donnée par : (Rao (2009))

A(x,λ,β(t)) = J(x) +

me+mi∑l=1

λlθl(x) +

me+mi∑l=1

β(t)l θ

2l (x) (5.11)

avec

θl(x) =

gl(x) 1 ≤ l ≤ me

max[hl−me(x), −λl

2βl

]me + 1 ≤ l ≤ mi

(5.12)

et λ = [λ1, λ2, · · · , λme+ml]T , β(t) = [β

(t)1 , β

(t)2 , · · · , β(t)

me+ml]T , dénotent respectivement le

vecteur des multiplicateurs de Lagrange et le vecteur des facteurs de pénalité. Le troisième

terme est ajouté pour garantir que la solution x∗ n'est pas seulement stationnaire mais

aussi un minimum de A(x,λ,β) pour la valeur "optimale" λ∗. Puisque la valeur de λ∗

n'est pas connue, une méthode itérative est utilisée pour trouver la solution au problème :

A la première itération (t = 1), les valeurs de λ(t)l sont choisies nulles, β(t)

l constantes

quelconques et L est minimisée pour trouver la solution x∗(t). Les facteurs λ(t)l , β(t)

l sont

mis-à-jour par

λ(t+1)l = λ

(t)l + 2β

(t)l θl(x

(t)) (5.13)

β(t+1)l =

2β

(t)l si |fl(x(t))| > |fl(x(t−1))|et|fl(x(t))| > εl

0.5β(t)l si |fl(x(t))| ≤ εl

β(t)l sinon

(5.14)

où fl(x) = gl(x) pour l = 1, · · · ,me et fl(x) = hl(x) pour l = me + 1, · · · ,me +mi.

La valeur x(t) est mis-à-jour par l'algorithme PSO standard ((5.7), (5.6)). L'hybridation

de l'algorithme PSO avec la méthode AL est schématisée par la gure 5.3

172


Input : Np le nombre de particulesInput : kmax le nombre maximal d'itération de la PSO, εPSO la tolérance pour PSOInput : tmax le nombre maximal d'itération de la ALMInput : w, c1, c2 paramètres de contrôle du PSO

1 Initialiser aléatoirement les positions x(0)i (0) et vitesses v(0)

i (0)

2 Initialiser λ(0) = 0 et β(0) = β0

3 Prendre k = 0, t = 0

4 Prendre Pbest(0)i (0) = x

(0)i (0), Gbest(0)(0) = arg min

x(0)i (0)

(L(x(0)i (0),λ(0),β(0)))

5 for t = 0 to tmax do6 for k = 0 to kmax do7 Mettre à jour les vitesses et positions selon (5.6) et (5.7)8 Calculer la fonction objective L pour chaque nouvelle position9 Mettre à jour Pbest(t) et Gbest(t) pour la fonction objective L selon (5.8) et

(5.9)10 if ∆Gbest(t) < ε(PSO) then11 Stop12 La solution est x(t) = Gbest(t)

13 else14 Aller à 4 et continuer15 end

16 Mettre-à-jour λ(t) et β(t) par (5.13) et (5.14)17 end

18 end

Figure 5.3 Algorithme du ALPSO

3.4.2 Méthode de la fonction ctive

Cette méthode développée par Ichiro Maruta (Maruta et al., 2009) ne nécessite aucun

paramètre de synthèse et au contraire à ALPSO est moins complexe. Elle est développée

dans un contexte PSO et suppose des contraintes de type inégalités (5.2), (5.3). En eet

Maruta (Maruta et al. (2009)) a démontré que ces derniers peuvent êtres prises en charge

dans une optimisation sans contraintes en utilisant une fonction ctive Jv(x) qui possède

les propriétés suivantes :

1. Jv(x) < 0 ∀x ∈ C

2. Jv(xa) < Jv(xb) si J(xa) < J(xb)

Le choix de Jv(x) n'est pas tellement critique. Il sut de choisir Jv(x) = J(x) si J(x)

satisfait (1). Nous pouvons choisir Jv(x) = arctan(J(x))− π/2 ou Jv(x) = −1/J(x).

L'optimisation avec contraintes (5.2)-(5.3) se ramène à une optimisation sans contraintes

suivante

minx∈<nx

Jm(x) (5.15)

173


avec

fm(x) =

hmax si hmax ≥ 0

Jv(x) sinon(5.16)

où hmax = max[h1(x), h2(x), · · · , hme(x)]. Nous pouvons maintenant appliquer l'algo-

rithme du PSO au problème d'optimisation (5.15).

Cette nouvelle technique est applicable pour la PSO pour la raison suivante : sup-

posant, initialement que xi(k) se trouve dans une région de l'espace de recherche où

hmax(xi(k)) < 0 (région faisable), alors Pbesti(k) et Gbest(k) sont calculées à la base de

Jv(xi(k)). Maintenant, si xi(k) se déplace, à l'étape (k + 1), selon (5.6) et (5.7) vers une

autre région où hmax(xi(k+1)) devienne la fonction objective, chaque particule se voit être

obligée de revenir vers la région faisable puisque Jm(xi(k)) = Jv(xi(k)) < Jm(xi(k+ 1)) =

hmax(xi(k + 1)). Ainsi, Pbesti(k + 1) et Gbest(k + 1) restent toujours dans la région fai-

sable. La méthode de la fonction ctive semble être pour le moment la meilleure méthode

qui traite l'optimisation avec contraintes dans le contexte de la PSO. Contrairement à la

ALPSO, elle ne nécessite aucunes variables supplémentaires (multiplicateurs de Lagrange,

facteurs de pénalités) et ne se limite pas à des fonctions objectives continues et dérivables

en x.

4 Résolution de l'équation HJI par PSO

4.1 Approximation par réseau de neurones

Dans cette section, un réseau de neurones à une couche cachée est utilisé pour ap-

proximer V (x) solution de l'équation HJI dans le cas de la commande H∞ contrainte par

retour d'état. Nous rappelons qu'une telle équation, dans le cas où la contrainte sur la

commande |u(x)| < A est remplacée par une fonction A tanh(u(x)/A), est donnée par

H(x,∂V

∂x, u∗, ω∗) =

∂V

∂x(f(x) + g1(x)ω∗ + g2(x)u∗) + ‖h1‖2 +W (u∗)− γ2‖ω∗‖2 = 0 (5.17)

avec

W (u∗) = 2A

∫ u∗

0

tanh−T (ν/A)dν

= 2Au tanh−1(u∗/A) + A2 ln

(1− uT∗ u∗/A2

)(5.18)

174


est la quasi-norme de u∗, et

u∗(x) = −A tanh

(1

2gT2 (x)

∂V T

∂x

)(5.19)

ω∗(x) =1

2γ2gT1 (x)

∂V T

∂x(5.20)

sont, respectivement, la commande optimale contrainte et la pire perturbation.

Nous avons vu dans les chapitres précédents, que cette équation ne peut être résolue

analytiquement, d'où l'existence de méthodes approximatives tels que, la méthode des

réseaux de neurones.

La solution V (x) est approximée par VN(x), la sortie d'un RN à une seule couche cachée

(voir gure 5.48)

V (x) ≈ VN(x) =N∑k=1

ckφk(x) = cTΦ(x) (5.21)

où c = [c1, c2, · · · , cN ]T est le vecteur des coecients à ajustés,

et Φ(x) = [φ1(x), φ2(x), · · · , φN(x)]T est le vecteur des N fonctions de base (fonctions

d'activation).

Le gradient de VN(x) est facilement donné par

∂VN∂x

= cT∇Φ(x) (5.22)

où ∇Φ(x) = [∂φ1∂x, ∂φ2

∂x, · · · , ∂φN

∂x]T .

L'équation HJI (5.17) devienne

H(x, c) = cTΦ(x)(f(x) + g1(x)ω∗ + g2(x)u∗) + ‖h1‖2 +W (u∗)− γ2‖ω∗‖2 = 0 (5.23)

avec W (u∗) donnée par (5.18) et

u∗(x, c) = −A tanh

(1

2gT2∇TΦ(x)c

)(5.24)

ω∗(x, c) =1

2γ2gT1∇TΦ(x)c (5.25)

Le problème de la résolution de l'équation HJI est transformé en un problème de recherche

du vecteur des coecients c. Dans la section suivante, nous allons utilisés une approche

métaheuristique pour la résolution de (5.23). La méthode PSO est utilisée pour trouver

le vecteur optimal des coecients c∗ en minimisant une fonction objective appropriée.

175


4.2 Fonctions objectives

4.2.1 Fonction objevtive basée sur l'Hamiltonien

Dans le cas où l'objectif à atteindre est d'avoir un hamiltonien H(x, c) nul, la fonction

à minimiser peut être choisie sous forme quadratique en H(x, c). Ceci est dû, au faite que,

pour f(x) une fonction quelconque, l'équation suivante

argx(f(x) = 0

)= arg min

x

(fT (x)f(x)

)peut être facilement obtenue (voir gure 5.4 pour l'interprétation géométrique).

D'où, nous choisissons comme fonction objective, la forme quadratique suivante

x

f, fTff

fTf

Figure 5.4 Fonction objective quadratique

J1(c) = H(x, c)TH(x, c)

Les variables de décision sont, donc les éléments du vecteur des coecients c, avec nx = N .

Pour traiter seulement le cas de l'optimisation mono-objective (M = 1), la fonction J(c)

doit être calculée en un seul point. Ceci dit, il sut de prendre les états du système, x(t),

à l'instant tf , temps du régime permanent où le point d'équilibre x = 0 est atteint et

limt→tf

u∗ = 0, limt→tf

ω∗ = 0. Nous obtiendrons, donc limt→tf

H(x(t), c∗) = 0. Ainsi, la fonction

objective devienne

J1(c) = H(x(tf ), c)TH(x(tf ), c) (5.26)

avec x(t) est la trajectoire du système en boucle fermée, x = f(x) + g1(x)ω∗ + g2(x)u∗.

Nous pouvons associer à cette fonction objective une contrainte de type inégalité donnée

176


par

h(c) =

tf∫0

||z(x, c)||2dτ

tf∫0

||ω∗(x, c)||2dτ− γ2 ≤ 0 (5.27)

avec ||z(x, c)||2 = ||h(x)||2 + ||u∗(x, c)||2, et u∗(x, c) et ω∗(x, c) sont données respective-

ment par (5.24) et (5.25).

Pour transformer l'optimisation avec contraintes en une sans contraintes, nous avons uti-

lisé la méthode de la fonction ctive, avec

Jv(c) = −1/J1(c) (5.28)

4.2.2 Fonction objective basée sur le L2-gain

L'objectif de la commande H∞ non linéaire, est double : assurer une stabilité asympto-

tique du point d'équilibre x = 0 et assurer un L2-gain inférieur à un niveau d'atténuation

γ. Donc, la fonction objective à optimiser (à minimiser) peut être choisie comme suit

J2(c) ==

tf∫0

||z(x, c)||2dτ

tf∫0

||ω∗(x, c)||2dτ(5.29)

La contrainte associée peut être choisie de type égalité, donnée par

g(c) = H(x, c) = 0 (5.30)

Ce choix nous permet de trouver le vecteur des variables de décision c qui nous garantissent

un niveau d'atténuation minimale, tout en résolvant l'équation HJI, H(x, c) = 0.

Nous avons utilisé la méthode ALPSO pour prendre en charge ces contraintes de type

égalité, et rendre l'optimisation sans contraintes.

4.3 Résultats de simulation

Pour démontrer l'ecacité de la PSO à approximer la solution des équations HJI dans

le contexte H∞ non linéaire, nous allons l'appliquer pour optimiser le vecteur c de la loi de

commande (5.24) dans le cas de deux systèmes non linéaires déjà vus. Il s'agit du système

2-D et du système TORA. L'optimisation sera faite sur les deux fonctions objectives (5.26)

avec la contrainte (5.27) et (5.29) avec la contrainte (5.30). Des comparaisons, avec les

algorithmes génétiques et la méthode des réseaux de neurones, vont êtres aussi eectuées.

177


4.3.1 Système non linéaire 2D

Nous reprenons le problème de la synthèse d'un contrôleurH∞ non linéaire du système

décrit dans le deuxième chapitre. Nous avons utilisé l'algorithme d'optimisation PSO pour

trouver la solution à l'équation HJI (5.23).

Les paramètres du PSO sont assignés dans la Table 5.1. Une comparaison a été réalisée

avec les algorithmes génétiques (AG), dont les paramètres sont assignées dans la même

Table.

Les deux algorithmes ont été exécutés 10 fois. Les résultats de la comparaison, pour la

Table 5.1 Paramètres de PSO et GA

PSO GA

Paramètre Valeur Paramètre Valeur

Nombre maximale de générations 150 Nombre maximale de générations 200

Nombre de Particule 20 Chromosome 20

Coecient d'inertie 0.9 Probabilité de Croisement 0.8

Coecient cognitif 2 Probabilité de Mutation 0.02

Coecient social 2

minimisation des fonctions objectives J1(c) et J2(c), sont portés sur la Table 5.2.

Table 5.2 Minimas des fonctions objectives J1(c) et J2(c) pour les algorithmes PSO et GA

J1(c) J2(c)

Exécution AG PSO AG PSO

1 1.94× 10−27 1.93× 10−139 1.3533 1.3247

2 5.57× 10−49 2.90× 10−141 1.3498 1.3560

3 4.53× 10−45 6.24× 10−140 1.3500 1.3752

4 2.59× 10−54 1.29× 10−139 1.3555 1.3461

5 4.31× 10−29 7.44× 10−141 1.3539 1.3468

6 2.68× 10−46 1.51× 10−143 1.3539 1.3504

7 2.88× 10−38 4.62× 10−142 1.3527 1.3378

8 2.28× 10−50 9.59× 10−143 1.3470 1.3560

9 1.57× 10−36 2.11× 10−1.34 1.3468 1.3475

10 1.78× 10−44 6.76× 10−136 1.3515 1.3565

178


Nous avons constaté que l'algorithme PSO minimise au mieux la fonction objective J1(c)

que les AG (la moyenne de J1(c) sur les 10 exécutions est de l'ordre de 10−140 pour la PSO

et 10−40 pour les AG). Toute fois, dans les deux cas, la contrainte L2 ≤ γ2 est vériée. Donc

l'objectif d'avoir une solution approximative de l'équation HJI avec une atténuation des

perturbations est atteint. Pour la deuxième fonction objective, il est dicile de comparer

entre les deux méthodes (nous avons obtenu des valeurs de J2(c) avec des uctuations,

mais qui restent très proches et garantissent un L2 ≤ γ2). Nous avons aussi remarqué que

la PSO donne un valeur du Hamiltonien plus proche de zéro que les AG.

Pour voir les performances de la commande H∞ basée sur la PSO et les AG, le vecteur

optimal c∗ obtenu pour la meilleure exécution et pour la fonction J1(c) est utilisé pour

la synthèse de la loi de commande (5.24). Les même conditions de simulation que celles

des chapitres précédents (conditions initiales, perturbation,· · · ) sont maintenues. Nous

constatons (voir gure 5.5) que l'algorithme PSO a donné une meilleur performance au

régime permanent. Le temps d'établissement (à ±2%) pour le PSO vaut 5sec, par contre,

il vaut 10sec pour les AG. Nous remarquons, également une atténuation meilleure dans

le cas de la PSO (voir gure 5.6).

0 5 10 15 20

−0.5

0

0.5

1

temps [sec]

x 1

GAPSO

0 5 10 15 20

0

0.2

0.4

0.6

temps [sec]

x 2

GAPSO

Figure 5.5 Évolution des états x pour l'algorithme PSO et les AG (système non linéaire 2-D)

4.3.2 Système TORA

Dans cette section nous nous intéressons à l'optimisation par PSO appliquée à la

synthèse d'une commande H∞ du système TORA. Le système en question est déjà décrit

dans les chapitres précédents.

Le nombre de fonctions de base est choisi égale à N = 10. les paramètres de la PSO

sont celles données dans la Table 5.4. La fonction objective à minimiser est J1(c) avec

comme contrainte h(c) donnée par (5.27). La méthode de la fonction ctive (5.28) est

179


0 5 10 15 20

−1

−0.5

0

temps [sec]

Com

mande

GAPSO

5 10 15 20

0.5

1

1.5

temps [sec]

Atténutionr

GAPSO

Figure 5.6 Évolution de la commande et l'atténuation r pour l'algorithme PSO et les AG(système non linéaire 2-D)

utilisée dans ce cas.

Le vecteur optimal des coecients c∗, obtenu par PSO, est assigné dans la Table 5.4.

Une comparaison avec la méthode des réseaux de neurones hybridée avec les moindres

carrés (NN-LS) est faite. Les valeurs de c∗ associées sont aussi données dans la même

Table.

Table 5.3 Vecteur optimale des coecients obtenue par PSO et NN-LS

c1 c2 c3 c4 c5

PSO 0.0631 5.2973 4.2689 −4.5243 1.5995

NN-LS 1.8158 −0.6560 −0.0323 −0.2661 0.4959

c6 c7 c8 c9 c10

PSO 4.6150 8.3257 −9.7144 0.3716 8.6936

NN-LS 0.0503 1.1048 1.7812 0.0412 1.2132

Les résultats de simulations du système TORA en boucle fermée, c.à.d., avec la loi de

commande (5.24) pour les deux algorithmes sont donnés dans les gures 5.7 et 5.8. La

commande H∞ basée sur la PSO montre des performances meilleures que celles basées sur

la méthode NN-LS. Le temps d'établissement (à 2%) ainsi que le dépassement maximal

(par rapport à l'état d'équilibre x = 0) sont présentés dans la Table 5.4. Nous y présen-

tons aussi, la valeur de l'atténuation r. D'après cette Table, nous constatons que le temps

établissement est double, et l'atténuation est moins importante quand nous appliquons la

méthode NN-LS par rapport à la PSO.

180


Table 5.4 Performance du système TORA pour la PSO et NN-LS

Ts(x1) Omax(x1) Ts(x2) Omax(x2) r

PSO 26 1.9448 25.2 1.1048 2.15

NN-LS 69.9 1.7978 67 1.1728 3.9757

0 20 40 60 80 100

−1

0

1

2

temps [sec]

x 1(ζ)

NN-LSPSO

0 20 40 60 80 100−1

−0.5

0

0.5

1

1.5

temps [sec]

x 2(θ)

NN-LSPSO

Figure 5.7 Évolution des états x1(ζ) et x2(θ) pour l'algorithme PSO et la méthode NN-LS(système TORA)

5 Synthèse de la Commande H∞ non linéaire par PSO

5.1 Commande H∞ des systèmes variants dans le temps

Le système non linéaire (1.40) dans le cas d'une dynamique variante dans le temps

peut s'écrire par l'équation d'état suivante

x = f(x, t) + g1(x, t)ω + g2(x, t)u (5.31)

où les fonctions f(x, t), g1(x, t) et g2(x, t) sont supposées lisses au voisinage du point

d'équilibre (l'origine de <n). Les signaux à contrôler sont supposés sous la forme

z = W

(x

u

)(5.32)

181


0 20 40 60 80 100

−1

0

1

temps [sec]

Com

mande

uNN-LSPSO

0 20 40 60 80 1000

1

2

3

4

temps [sec]

Atténuation

r

NN-LSPSO

Figure 5.8 Évolution de la commande et atténuation r pour l'algorithme PSO et la méthodeNN-LS (système TORA)

avec W ∈ <s×s est une matrice de poids.

La matrice symétrique dénie positiveW TW peut être partitionnée de la manière suivante

W TW =

(Q 0

0T R

)(5.33)

où Q et R sont aussi SDP.

La commande H∞ non linéaire sous-optimale assurant la stabilité asymptotique du point

d'équilibre x = 0, ainsi qu'un L2 gain ≤ γ est donnée par

u∗ = −1

2R−1gT2 (x, t)V T

x (5.34)

où V (x, t) est la solution de l'équation HJI suivante

Vt + Vxf(x, t) +1

4Vx

(1

γ2g1(x, t)gT1 (x, t)− g2(x, t)R−1gT2 (x, t)

)V Tx + xTQx = 0

Nous notons Vt = ∂V∂t

et Vx = ∂V∂x.

Une telle solution existe pour tout γ >√σmax(R) ≥ 0, où σmax(R) est la plus grande

valeur singulière de R.

La pire perturbation est donnée par

ω∗ =1

2γ2gT1 (x, t)V T

x (5.35)

Pour plus de détails concernant l'équation HJI (5.35) ainsi que la commande optimale

veuillez vous référer aux chapitres précédents.

182


Dans la section qui suit, nous allons traiter la commande H∞ des systèmes lagrangiens.

5.2 Application de la PSO à la commande des systèmes lagran-

giens

5.2.1 Commande H∞ non linéaire des systèmes lagrangiens

Les équations de mouvement d'un système lagrangien possédant n degré de liberté

peuvent être obtenues en utilisant le formalisme d'Euler-Lagrange. Ils sont données par

M(q)q + C(q, q)q + F (q) +G(q) = τ(t) + τd(t) (5.36)

où q(t), q(t) and q(t) sont, respectivement, le vecteur des positions, vitesses et accélérations

généralisées des n liaisons. τ(t) est le vecteur des n forces généralisées (forces ou couples)

s'exerçant sur les liaisons. M(q) est la matrice d'inertie SDP et C(q, q) est la matrice des

forces de Coriolis et centrifuges de dimension n. G(q) et F (q) sont, respectivement, les

forces dues à la gravité et les forces de frottements. τd est le vecteurs des perturbations.

En plus, les systèmes lagrangiens possèdent la propriété d'antisymétrique suivante

M(q, q)− (C(q, q) + CT (q, q)) = 0 (5.37)

L'objectif de la commande est d'assurer une poursuite d'une trajectoire de référence notée

qr(t) malgré la présence des incertitudes paramétriques et des forces de perturbations,

assurant ainsi un L2 gain inférieur à un certain niveau d'atténuation γ.

Pour écrire le système sous la forme d'état, nous utiliserons le vecteur d'état suivant

x(t) =[eT (t) eT (t)

∫eT (t)dt

]T(5.38)

avec e(t) = q − qr, e(t) = q − qr,∫e(t)dt =

∫(q − qr)dt et qr est le vecteur des vitesses

désirées.

Le terme d'intégration est introduit dans le vecteur d'état dans le but d'avoir une erreur

nulle au régime permanent en dépit des incertitudes et des perturbations.

D'après l'équation (5.36), nous avons

q = −M−1(q)C(q, q)q + F (q) +G(q)− τ(t)− τd(t) (5.39)

Cette équation peut être récrite sous la forme d'état suivante

x = f(x, t) + g0(q, q, qr, qr) + g(x, t)τ + k(x, t)τd (5.40)

183


où

f(x, t) =

−M−1C 0 0

I 0 0

0 I 0

x, g0(q, q, qr, qr) =

−M−1(Mqr + Cqr + F +G)

0

0

g(x, t) = k(x, t) =

−M−1

0

0

Nous avons omis des variables dans M(q), C(q, q), F (q) et G(q). Les matrices I et O sont

respectivement, les matrices identité et zeros de dimensions appropriées.

Pour pouvoir appliquer la commande H∞, le système (5.40) doit être mis sous la forme

standard (1.40). Les auteurs dans (Rao et al., 2008) ont introduit le changement de

variables suivant

x = T0x =

T1 T2 T3

0 I I

0 0 I

x avec T1 = ρI, et ρ est un paramètre de synthèse.

Après quelques manipulations, l'équation (5.40) devienne

x = f(x, t) + g1(x, t)ω + g2(x, t)ρ(−Γ(x) + τ) (5.41)

avec

f(x, t) = T−10

−M−1C 0 0

ρ−1 I − ρ−1T2 I − ρ−1(T3 − T2)

0 I −I

T0x

g1(x, t) = g2(x, t) = T−10

M−1

0

0

où

Γ(x) = M(qr − ρ−1T2x1 − ρ−1T3x2)

+ C(qr − ρ−1T2x1 − ρ−1T3x2) + F +G

ω = ρτd

Finalement, la forme standard s'obtienne en choisissant comme loi de commande u =

ρ(−Γ(x) + τ). Le vecteur des forces généralisées appliquées au système lagrangien (5.36)

184


sera, donc, donné par τ = Γ(x) + ρ−1u, c.à.d.

τ = Mq + Cq + F +G− ρ−1(MTx+ CTx) + ρ−1u (5.42)

avec T =[T1 T2 T3

].

La loi de commande (5.42) est composée de trois termes :

1. un compensateur des non linéarités du système lagrangien.

2. une composante qui est fonction du vecteur d'état et sa dérivée.

3. une commande auxiliaire qui va être la commande H∞ sous optimale à synthétisée.

Une solution à l'équation HJI (5.35) a été proposée dans Ortega et al. (2005), donnée par

(5.43)

V (x, t) =1

2xTT T0

M 0 0

0 Y X − Y0 X − Y Z + Y

T0x (5.43)

où X, Y et Z ∈ <n×n sont des matrices constantes DP, tel que Z −XY −1X + 2X > 0.

En les substituant dans (5.35) nous obtenons le système d'équation algébriques de Riccati

suivant 0 Y X

Y 2X Z + 2X

X Z + 2X 0

+Q+1

γ2T TT − T TR−1T = 0 (5.44)

Après calcul des éléments de T par le système (5.44), V (x, t) sera complètement dénie.

La commande sous optimale sera donc donnée par

u∗ = −R−1Tx (5.45)

Pour plus de détails, veuillez vous référez ux références (Lopez-Martinez et al., 2007),

(Ortega et al., 2005) et (Rao et al., 2008).

En substituant T , u∗ et x dans l'équation (5.42), le vecteur des forces généralisées sera

réécrit, facilement, sous la forme suivante

τ = Mqr + Cq + F +G− 1

ρM([T2 T3 0

]+M−1CT +R−1T )x (5.46)

ou sous la forme d'une commande couple calculée-PID suivante

τ = Mqr + Cq + F +G−M(KDe+KP e+KI

∫edt) (5.47)

185


où

KD = 1ρ(T2 +M−1CT1 +M−1R−1T1) ;

KP = 1ρ(T3 +M−1CT2 +M−1R−1T2) ;

KI = 1ρ(M−1CT3 +M−1R−1T3).

Une simplication des termes du régulateur PID non linéaire s'obtienne en choisissant les

matrices Q et R comme suit

Q =

w21I 0 0

0 w22I 0

0 0 w23I

, R = w2uI (5.48)

En eet, nous obtenons, après quelques manipulations, les gains donnés par

KD =

√w2

2+2w1w3

w1I +M−1(C + 1

wuI) ;

KP = w3

w1I +

√w2

2+2w1w3

w1M−1(C + 1

wuI) ;

KI = w3

w1M−1(C + 1

wuI).

(5.49)

Ces gains dépendent non seulement des matrices M et C mais aussi des coecients

[w1, w2, w3, wu].

Dans la section suivante, nous nous intéressons à l'ajustement des paramètres du régula-

teur H∞-PID non linéaire en utilisant l'optimisation par essaim de particules.

5.2.2 Méthode d'ajustement par PSO

Nous rappelons que la nalité de la commande H∞ est d'avoir un système en boucle

fermée asymptotiquement stable avec un L2 gain ≤ γ, donc il est judicieux de choisir

comme fonction objective à minimiser celle donnée par

J(y) =

∫∞0‖z‖2dt∫∞

0‖ω‖2dt

. (5.50)

où le vecteur des variables de décision est donnée par : y = [w1, w2, w3, wu].

Il est facile de constater que l fonction objective (5.50) est non linéaire et complexe par

rapport au vecteur y (voir équations (5.32), (5.33), (5.35), (5.48) et (5.49)).

186


Les contraintes sont choisies de type inégalité avec

h(y) =

wu − γ∫∞

0 ‖z‖2dt∫∞

0 ‖ω‖2dt− γ2∫∞

0t‖e‖2

2dt− ε

≤ 0 (5.51)

La première contrainte est facilement obtenue par la condition γ >√σmax(R) ≥ 0 et

(5.48). La deuxième est déduite directement de la dénition du L2 gain. Finalement, la

troisième contrainte est ajoutée dans le but d'imposer un critère de type ITSE (Integral

Time Square Error) inférieur à une valeur ε, avec ITSE =∫∞

0t‖e‖2

2dt ≤. La valeur de ε

est choisie égale à 10−4.

Le problème d'optimisation avec contraintes revient à trouver le vecteur y∗, tel que

miny∈F

∫∞0‖z‖2dt∫∞

0‖ω‖2dt

, F = y ∈ Rny |h(y) < 0. (5.52)

Nous allons utilisé la méthode de la fonction ctive pour transformer (5.52) en un problème

d'optimisation sans contraintes avec

fv(y) =−1∫∞

0‖z‖2dt∫∞

0‖ω‖2dt

. (5.53)

L'organigramme de la gure 5.9 décrit la procédure d'optimisation des paramètres du

contrôleur H∞-PID NL

5.3 Application à la commande d'un robot SCARA à 4 d.d.l.

Les performances de la commande optimisée par PSO vont êtres démontrées dans le

cas de l commande d'un robot manipulateur de type SCARA à 4 d.d.l. L'objectif est

d'assurer une poursuite des trajectoires de références tout en assurant une atténuation de

l'eet des forces de perturbations et des incertitudes paramétriques. La valeur de γ est

choisie égale à 2. Nous notons que notre contrôleur n'en dépend pas, sa valeur est juste

utilisée comme contrainte.

5.3.1 Dynamique du SCARA à 4 d.d.l

En utilisant le formalisme d'Euler-Lagrange, les équations de mouvement du système

(Figure 5.10) sont décrites par (5.54) (Lewis et al. (2004) et Voglewede et al. (2009))

187


Initialisation aléatoire des positionset vitesses de Np particule dansle domaine de recherche. k = 0

Appliquer la loi de commande(5.47) avec les gains (5.49)

pour w1 = y(1, i), w2 = y(2, i), w3 =y(3, i), wu = y(4, i), i = 1, · · · , N

Évaluer les fonctions J(y), fv(y) etfm(y) selon (5.50), (5.53) et (5.16)

Calculater Pbesti(k) etGbest(k) par (5.8) et (5.9)

Mise à jour des vitesses etpositions selon (5.6), (5.7)

k < kmax k = k + 1

y∗ = P best,kswarm

non

oui

Figure 5.9 Organigramme PSO pour H∞-PID NL

M11 M12 0 M14

M12 M22 0 M24

0 0 M33 0

M14 M24 0 M44

θ1

θ2

d3

θ4

+

C11 C12 0 0

C21 0 0 0

0 0 0 0

0 0 0 0

θ1

θ2

d3

θ4

+

0

0

−p4g

0

=

τ1

τ2

τ3

τ4

(5.54)

où les éléments de la matrice d'inertie M(q), les forces de Coriolis/centrifuge C(q, q) et

les forces dues à la gravitation g(q) sont donnés par

M11 = p1 + p2 cos θ2, M12 = p3 + 0.5p2 cos θ2,

M14 = −p5, M22 = p3, M24 = −p5, M33 = p4, M44 = p5,

C11 = −p2 sin θ2θ2, C12 = −0.5p2 sin θ2θ2, C21 = 0.5p2θ2θ1

et

p1 = I1 + I2 + I3 + I4 +m1l21 +m2(l22 + a2

1) + (m3 +m4)(a21 + a2

2);

p2 = 2(a1l2m2 + a1a2(m3 +m4));

p3 = I2 + I3 + I4 +m2l22 + (m3 +m4)a2

2;

188


Joint 1

z0

a1

x0

θ1

Joint 2

z1

a2

x1

θ2

Joint 3

x2

z2 d3

Joint 4 x3

z3

θ4

Figure 5.10 Robot SCARA à 4 d.d.l.

p4 = m3 +m4, p5 = I4;

I1 = 0.02087m1, I2 = 0.08m2, I3 = 0.05, I4 = 0.02m4

Les paramètres du robot sont assignés dans la Table 5.5.

Les positions généralisées sont notées par θi, pour i = 1, 2, 4 et d3.

Table 5.5 Paramètres du SCARA.

link1 link2 link3 link4

Masses (Kg) 15± 3 12± 2 3 3± 1distances ai (m) 0.5 0.4 distances li (m) 0.25 0.2

g (m/s2) 9.8

Les trajectoires de référence à poursuivre sont tel que :

qri =π

4sin 2t, i = 1, 2, 4, qr3 =

1

5sin 2t, (5.55)

In order to check the performance of the PSO-based controller, some uncertainty has been

included in the robot parameters. Abrupt change of masses, as indicated in Table 5.5, is

added for each link at time simulation 4 seconds. In addition, in order to introduce some

disturbances into the system, persistent torques were applied.

5.3.2 Paramètres du PSO

Les paramètres du PSO w, c1, c2 sont choisis comme suit : le coecient cognitive c1

décroit linéairement de 0.8 à 0.7 le long du processus d'optimisation. Le coecient social

c2 croit linéairement de 0.7 à 0.8. Le coecient d'inertie w décroit linéairement de 0.9 à

0.4 durant l'optimisation. Les bornes limites inférieurs et supérieurs sont respectivement

189


y = [0, 0, 0, 0] et y = [1, 1, 2, 1]. L'algorithme PSO a été exécuté 30 fois avec Np = 30 et

kmax = 300.

5.3.3 Résultats et discussions

Pour vérier la convergence de l'algorithme PSO, l'évolution de la meilleure (mini-

male) et moyenne valeur de la fonction objective pour les 30 particules est illustrée sur la

Figure 5.11. Nous constatons que toutes les particules ont atteint la valeur minimale de

la fonction. Sa valeur vaut 3.96055 · 10−4 après 100 itérations. L'évolution des paramètres

de la commande pour la meilleure fonction objective est donnée dans la Figure 5.12. Les

paramètres optimaux sont y∗ = [0.11893; 0.10039; 1.861; 0.27366].

Une fois le vecteur des paramètres est obtenue, la commande obtenue est appliquée au

robot SCARA. Les trajectoires de référence ainsi que celles obtenues avec les meilleure et

moyenne exécution du PSO parmi les 30 expériences sont assignées dans la Figure 5.13.

Les positions initiales du robot sont [0rad, 0rad, 0m, 0rad]. A l'instant t = 5sec les

masses sont brusquement changées de 15kg à 18Kg pour la première liaison, de 12kg à

14Kg pour la seconde liaison et de 3kg à 4Kg pour la quatrième liaison. En plus, des

couples de perturbations de 5N.m, 10N.m, 15N et 20N.m sont ajoutés brusquement à

l'instant t = 8sec.

L'eet des incertitudes paramétriques et des perturbations est plus important dans le cas

où nous prenant la moyenne expérience. Il est réduit de façon considérable dans le cas de

la meilleure expérience.

Les couples sont schématisés par la Figure 5.14. Nous notons le rejet des perturbations

dans le cas de la meilleure expérience. Les mêmes résultats montrent la capacité du contrô-

leur à réduire l'eet des incertitudes.

190


0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300

4

4.5

5

5.5

6

6.5·10−4

Génération k

J

MeilleureMoyenne

Figure 5.11 Évolution de la meilleur et moyenne fonction objective

6 Conclusion

Dans ce chapitre, nous avons présenté une méthode de résolution des équations HJI,

dans le cas de la commande H∞ non linéaire, basée sur l'optimisation par les essaims de

particules. Nous avons donné deux algorithmes d'optimisation avec contraintes, l'un basée

sur la méthode du lagrangien augmenté hybridée avec PSO (ALPSO) et l'autre basé sur

la méthode de la fonction ctive. Cette dernière est plus facile à implémenter puisqu'elle

n'utilise qu'un nombre limité de paramètres. Nous avons choisi comme fonctions objectives

à minimiser, deux fonctions. Une fonction du carré du résidu sur l'équation HJI et une

autre qui n'est que le L2 gain du système. L'application a été faite sur deux systèmes

non linéaires et une comparaison avec les AG et la méthode RNA-MMC (chapitre 3) a

été réalisée. Nous avons constaté que dans les deux cas la PSO a donné une meilleure

performance quant à la réponse des systèmes et l'atténuation des perturbations.

191


0 100 200 3000.1

0.2

0.3

0.4

0.5

Génération k

w1

0 100 200 3000

0.2

0.4

0.6

0.8

1

Génération k

w2

0 100 200 3000.25

0.26

0.27

0.28

0.29

0.3

Génération k

wu

0 100 200 300

2

4

6

8

Génération k

w3

Figure 5.12 Évolution des paramètres de la commande

192


0 1 2 3 4 5 6 7 8 9 10−1

−0.5

0

0.5

1

temps[sec]

θ 1(rad)

RéférenceMeilleureMoyenne

0 1 2 3 4 5 6 7 8 9 10−1

−0.5

0

0.5

1

temps [sec]

θ 2(rad)


0 1 2 3 4 5 6 7 8 9 10

−0.2

0

0.2

temps [sec]

d 3(m

)


0 1 2 3 4 5 6 7 8 9 10−1

−0.5

0

0.5

temps [sec]

θ 3(rad)


Figure 5.13 trajectoires désirées et réelles du robot SCARA

193


0 1 2 3 4 5 6 7 8 9 10

0

200

400

600

temps [sec]

τ1(N

.m)

MeilleureMoyenne

0 1 2 3 4 5 6 7 8 9 10

0

100

200

temps [sec]

τ2(N

.m)

MeilleureMoyenne

0 1 2 3 4 5 6 7 8 9 10−80

−60

−40

−20

0

temps [sec]

τ3(N

)

MeilleureMoyenne

0 1 2 3 4 5 6 7 8 9 10

0

20

40

temps [sec]

τ4(N

.m)

MeilleureMoyenne

Figure 5.14 Évolution des couples du robot SCARA

194

Conclusion générale

Dans cette thèse, nous nous sommes intéressés à la commande robuste non linéaire de

systèmes dynamiques par l'approche H∞. Plusieurs cas ont été traités, selon la nature du

système à commander (continu, discret) et la disponibilité des mesures au niveau de la

commande (par retour d'état, par retour de sorties).

La commandeH∞ non linéaire conduit toujours à des équations non linéaires à dérivées

partielles dites équations HJI. Ces équations sourent de ne pas avoir un cadre général de

résolution. Elles sont souvent diciles, voir même impossible à résoudre analytiquement,

contrairement au cas linéaire. En eet, la solution du problème H∞ linéaire est réduite

à une solution d'équations algébriques dites de Riccati. Ces dernières s'obtiennent par

imposer une forme quadratique aux solutions d'équations HJI.

La présente thèse est dédiée à la résolution approximative des équations HJI par

l'utilisation, en premier lieu, de deux techniques issues de la méthode des résidus pondérés

(MWR). Il s'agit de la méthode de Galerkin et de la méthode des réseaux de neurones.

La méthode des résidus pondérés, utilisée initialement dans le domaine de la physique,

tend à résoudre les équations intégro-diérentielles en approximant la solution dans un

sous espace ni engendré par un ensemble de fonctions de base. Ensuite, de faire une pro-

jection de la solution sur des fonctions de projections dites de pondérations. La diversité

dans le choix de ces fonctions donnent plusieurs méthodes à base de MWR.

Avant de pouvoir appliquer les résidus pondérés (Galerkin, réseaux de neurones), nous

avons présenté l'algorithme des approximations successives (AS). Cet algorithme, de na-

ture itérative, transforme l'équation HJI non linéaire en une équation linéaire dite HJI

généralisé (GHJI). L'algorithme des AS débute par application d'une commande initiale

(pas forcement robuste) sur le système sans perturbation. Une mise à jour de cette der-

nière se fait jusqu'à l'obtention de sa valeur optimale. Ensuite, une mise à jour de la

commande (avec la perturbation optimale) est faite jusqu'à l'obtention de la commande

H∞ optimale.

L'implémentation de l'algorithme des AS reste un challenge et l'introduction d'une

méthode numérique approximative (Galerkin, réseaux de neurones) est cruciale.

Hybridée avec l'algorithme des approximations successives, la méthode de Galerkin

consiste à annuler une le résidus sur l'équation GHJI. Ce dernier est l'écart entre l'équation

GHJI avec solution approximative et celle avec solution exacte. Dans cette méthode les

195


fonctions de pondérations ne sont que les fonctions de base.

Nous avons appliqué la méthode de Galerkin pour résoudre le problème de la com-

mande par retour d'état continue sans et avec contraintes sur les signaux de commande.

Nos contributions résident, en premier lieu, dans l'application de la méthode pour la syn-

thèse de la commande H∞ non linéaire discrète, puis dans la synthèse de la commande

H∞ non linéaire à horizon ni (à temps nal xe). Nous avons présenté aussi l'utilisation

de la méthode pour l synthèse d'une commande par retour de sortie (avec observateur

non linéaire). Les résultats de simulations sur divers systèmes non linéaires choisis dans

la littérature montrent l'ecacité d'une telle méthode de synthèse quand à stabilité du

système en boucle fermée et la robustesse vis à vis des perturbations.

La méthode des réseaux de neurones considère la solution approchée de l'équation

HJI comme étant un réseau à une seule couche cachée. Les fonctions de pondération sont

choisies comme étant la dérivée du résidu par rapport aux poids du réseau de neurones.

Les poids sont donc, ajustés par la méthode des moindres carrés (le carrée du résidu).

La méthode des réseaux de neurones hybridée avec l'algorithme des approximations

successives a été appliquée pour résoudre les problèmes de la commande H∞ par retour

d'état continu et discret. Notre contribution dans ce volet réside dans son application

dans le contexte de la commande par retour de sorties. Les simulations faites sur des

systèmes non linéaires continus et discrets illustrent la capacité de la méthode à atteindre

les objectifs de stabilité et robustesse.

Les méthodes présentées sourent des limitations suivantes :

1. Elles nécessitent une commande initiale pour lancer l'algorithme des approximations

successives. L'obtention de cette loi de commande n'est pas toujours une tache facile.

2. La solution approximative donnée n'est valide que dans un domaine de faisabilité de

la commande initiale. En d'autre termes, plus nous nous éloignons du domaine où

la commande initiale stabilise le système plus nous risquons d'échouer dans notre

synthèse.

3. Les méthodes de synthèse présentées sont qualiées de hors ligne. La commande

H∞ non linéaire n'est pas appliquée qu'après convergence de l'algorithme des AS.

4. Finalement, Les mises à jour des perturbations et de la commande H∞ ne se font

pas de manière simultanée (voir en détails l'algorithme des AS).

L'utilisation d'un apprentissage en ligne semble être un remède parfait à ces limita-

tions. Dans ce contexte, nous avons présenté l'algorithme d'apprentissage en ligne par

renforcement. Il est basé sur le concept d'Acteur-Critique. L'algorithme d'apprentissage

par renforcement est utilisé pour approximée directement la solution de l'équation HJI.

Il est basé sur une architecture composée de deux acteurs (pour la mise à jour simultanée

de la perturbation et de la commande) et un critique pour évaluer la fonction coût (la

196


solution de l'équation HJI). La convergence de l'algorithme est fondée mathématiquement

en utilisant la dérivée fonctionnelle au sens de Fréchet et la gâteaux-dérivée. En eet il est

démontré que l'algorithme est similaire à la méthode itérative de Newton. L'ecacité de la

méthode en terme de stabilité asymptotique et robustesse est montrée via des simulations

faites sur plusieurs systèmes dynamiques.

Un autre volet concernant la synthèse de la commande H∞ par retour d'état non li-

néaire est exposé. Nous avons présenté l'optimisation par métaheuristiques comme outil

de résolution des équations HJI. Nous avons appliqué les essaims de particules(PSO) pour

trouver les poids optimaux de la solution approximative. Deux problèmes d'optimisation

avec contraintes, ainsi que deux méthodes de relaxation de ces derniers, ont été étudiés.

Des simulations ainsi que des comparaisons avec d'autres méthodes (AG, RNA) ont mon-

tré la puissance de la PSO à résoudre le problème de la commande H∞ par retour d'état

non linéaire.

Les essaims de particules ont été aussi utilisé pour l'ajustement des gains d'un contrô-

leur H∞-PID non linéaire synthétisé pour une classe restreinte de systèmes, à savoir les

systèmes lagrangiens. Le problème de poursuite de trajectoires d'un robot SCARA traité

par cette technique illustre l'ecacité de la méthode proposée.

197

Bibliographie

Abu-Khalaf, M. (2004). Nearly optimal state feedback contol of constrained nonlinear

systems using a neural network hjb approch. Annual Review in Control, 28 :239251.

Abu-Khalaf, M. (2005a). Nearly optimal control laws for nonlinear systems with satura-

ting aactuator using a neural network hjb approach. Automatica, 41 :779797.

Abu-Khalaf, M. (2005b). Nonlinear H2/H∞ Constrained Feedback Control : A Pratical

Design Approach Using Neural Networks. Phd thesis, University of Texas.

Abu-Khalaf, M., Lewis, F. L., and Huang, J. (2006). Policy iterations on the hamilton-

jacobi-isaacs equation for state feedback control with input saturation. IEEE Trans.

Automat. Contr., 51(12) :19891995.

Bachir-Bouiadjra, R. and Khel, M. F. (2013). H∞ - PID controller optimization using

heuristic kalman algorithm. In In 3rd IEEE International Conference on Systems and

Control ICSC13, Algiers, Algeria.

Bachir-Bouiadjra, R. and Khel, M. F. (2014). Nonlinear H∞ control via measurement

feedback using neural network. In International Symposium on Industrial Electronics

ISTANBUL, 1 - 4 June 2014.

Bachir-Bouiadjra, R. and Khel, M. F. (2015a). Nonlinear H∞ control via measurement

feedback using neural network. Journal of Control Enginneing and Applied Informtaics

(In Reveiw).

Bachir-Bouiadjra, R. and Khel, M. F. (2015b). Particle swarm optimisation and re-

y algorithm for solving H∞ sub-optimal control of nonlinear systems. International

Journal of Automation and Control ( In Review).

Bachir-Bouiadjra, R. and Khel, M. F. (2015c). H∞ nonlinear PID controller tuning

based on simple constrained particle swarm optimization. International Journal of

Industrial and Systems Engineering (In Production).

Ball, J. A. and Helton, J. W. (1989). H∞ optimal control for nonlinear plants : connection

wiih dieiential games. In In Proc. 2&h Conf on Decision and Control. Tamna. FL.

DD., pages 956962.

198

Bibliographie

Ball, J. A., Helton, J. W., and Walker (1993). H∞ control for nonlinear systems via with

output feedback. IEEE Transaction on Automatic Control, 38 :546559.

Barie, W. and Chiasson, J. (1996). Linear and nonlinear state-space controllers for ma-

gnetic levitation. International Journal of Systems Science.

Beard, R. W. and McLain, T. W. (1998). Successive galerkin approximation algorithms for

nonlinear optimal and robust control. International Journal of Control, 71(5) :717743.

Beard, R. W., Sardis, G., and Wen, J. T. (1997). Galerkin approximations of the genera-

lized hamilton-jacobi-bellman equation. Automatica, 33(12) :21592177.

Chen, Z. and Jagannathan, S. (2008). Generalized hamilton jacobi bellman formulation

based neural network control of ane nonlinear discrete time systems. IEEE Trans.

Neural Network, 19(1) :90106.

Christen, U. and Cirillo, R. (1997). Nonlinear H∞ control derivation and implementation.

Technical report, IMRT Report No. 31. Ecole polytechnique fédérale de Zurich.

Clerc, M. and Kennedy, J. (2002). The particle swarm : explosion, stability, and conver-

gence in multi-dimensional complex space. IEEE Transactions on Evolutionary Com-

putation, 6 :5873.

Coulom, M. R. (2002). Apprentissage par renforcement utilisant des réseaux de neurones,

avec des applications au contrôle moteur. PhD thesis, INSTITUT NATIONAL POLY-

TECHNIQUE DE GRENOBLE.

Cruz, R. R., Sanchez, E. N., Tellez, F. O., Loukianov, A. G., and Harley, R. G. (2013).

Particle swarm optimization for discrete-time inverse optimal control of a doubly fed

induction generator. IEEE TRANSACTIONS ON CYBERNETICS, 43(6) :16981709.

Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathe-

matics of Control, Signals, and Systems, 2 :303314.

Digabel, S. L. (2014). Introduction aux métaheuristiques. Technical report, Ecole Poly-

technique de Montreal.

Dorigo, M. and Stutzle, T. (2004). Ant Colony Optimization. MIT Press, Cambridge,

MA.

Doyle, J., Primbs, J. A., Shapiro, B., and Nevisti, V. (1996). Nonlinear games : examples

and counterexamples. In Proceedings of the 35th Conference on Decision and Control

Kobe, Japan.

199

Bibliographie

Doyle, J. C., Glover, K., Khargonekar, P. P., and Francis, B. (1989). State-space solutions

to standard h2 and h∞ control problems. IEEE Transactions on Automatic Control,

34(8) :831847.

Evans, M. and Swartz, T. (2000). Approximating Integrals Via Monte Carlo and Deter-

ministic Methods. Oxford University Press.

Finlayson, B. A. (1972). The Method of Weighted Residuals and Variational Principles

With Application In Fluid Mechanics, Heat and Mass Transfer. Elsevier.

Finlayson, B. A. and Scriven, L. E. (1966). The method of weighted residuals- a review.

Applied Mechanics Reviews, 19(9) :735748.

Francis, B. (1987). A course in h∞ control theory. Lecture notes in control and information

sciences, 88.

Gaing, Z.-L. (2004). A particle swarm optimization approach for optimum design of pid

controller in avr system. IEEE Transactions on Energy Conversion, 19(2) :384391.

GirirajKumar, S. M., Jayaraj, D., and Kishan, A. R. (2010). Pso based tuning of a pid

controller for a high performance drilling machine. International Journal of Computer

Applications, 1(19) :1218.

Glover, F. (1986). Future paths for integer programming and links to articial intelligence.

Computers and Operations Research, 13 :533549.

Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization and Machine Lear-

ning. Addison-Wesley, Reading, MA.

Hammersley, J. M. and Handscomb, D. C. (1975). Monte Carlo Methods. Oxford Univer-

sity Institute of Economics and Statistics.

Hornik, K., Stinchcombe, M., and White, H. (1990). Universal approximation of an

unknown mapping and its derivatives using multilayer feedforward networks. Neural

Networks, 3(5) :551560.

Isidori, A. and Kang, W. (1995). H∞ control via measurement feedback for general

nonlinear systems. IEEE Trans. Automat. Contr., 40(3) :466472.

Isodori, A. and Astol, A. (1992). Disturbance attenuation and H∞-control via measure-

ment feedback in nonlinear systems. IEEE Trans. Automat. Contr., 37(9) :12831293.

Jagannathan, S. J. (2009). Optimal tracking control of ane nonlinear discrete-time

systems with unknown internal dynamics. In Joint 48th IEEE Conference on Decision

and Control and 28th Chinese Control Conference, pages 67506755, Shanghai.

200

Bibliographie

James, M. R. and Baras, J. S. (1995). Robust H∞ output feedback control for nonlinear

systems. IEEE Trans. Automat. Contr., 40(6) :10071017.

Jiang, Z.-P. and Jiang, Y. (2013a). Robust adaptive dynamic programming for linear and

non linear systems : An overview. European Journal of Control, 19 :417425.

Jiang, Z.-P. and Jiang, Y. (2013b). Robust adaptive dynamic programming for linear

andn onlinear systems : An overview. European Journal of Control, 19 :417425.

Kalman, R. E. and Bucy, R. S. (1960). New results in linear ltering and prediction

theory. ASME Trans. Series D : J. Basic Engineering, 83 :95108.

Khalil, H. K. (1996). Nonlinear Systems. Prentice-Hall, Upper Saddle River.

Kim, T.-H., Maruta, I., and Sugie, T. (2008). Robust pid controller tuning based on the

constrained particle swarm optimization. Automatica, 44(4) :11041110.

Kirkpatrick, S., Gelatt, C. D., and Vecchi, M. P. (1983). Optimization by simulated

annealing. Science, 220(4598) :671680.

Lewis, F. L., Abdallah, C. T., and Dawson, D. M. (1993). Control of robot manipulators.

MACMILLAN Publishing company.

Lewis, F. L., Dawson, D. M., and Abdallah, C. T. (2004). Robot Manipulator Control :

Theory and Practice. Marcel Dekker, Inc., New York.

Lin, W. and Byrnes, C. I. (1995). Discrete-time nonlinear H∞-control feedback. Automa-

tica, 31(3) :419434.

Lin, W. and Byrnes, C. I. (1996). H∞-control of discrete time nonlinear system. IEEE

Trans. Automat. Contr., 41(4) :494510.

Lindgren, L.-E. (2009). From weighted residual methods to nite element methods. Tech-

nical report.

Liu, D., Li, H., and Wang, D. (2013). Neural-network-based zero-sum game for discrete-

time nonlinear systems via iterative adaptive dynamic programming algorithm. Neu-

rocomputing, 110 :92100.

Lopez-Martinez, M., Ortega, M. G., Vivas, C., and Rubio, F. R. (2007). Nonlinear L2

control of a laboratory helicopter with variable speed rotors. Automatica, 43(4) :655

661.

Lyshevski, S. E. (2001). Control Systems Theory with Engineering Applications. Springer

Science+Business Media New York.

201

Bibliographie

Maruta, I., Kim, T., and Sugie, T. (2009). Fixed-structure H∞ controller synthesis : a

meta-heuristic approach using simple constrained particle swarm optimization. Auto-

matica, 45(4) :553559.

Mehdi, N., Nezamabadi-Pour, H., and Malihe, M. (2007). A pso-based optimum design

of pid controller for a linear brushless dc motor. International Journal of Electrical,

Electronic Science and Engineering, World Academy of Science, Engineering and Tech-

nology, 1(2) :97101.

Mehraeen, S., Dierks, T., Jagannathan, S., and Crow, M. L. (2009). Zero-sum two-player

game theoretic formulation of ane nonlinear discrete-time systems using neural net-

works. IEEE Trans. Cyber.

Ortega, M. G., Vargas, M., Vivas, C., and Rubio, F. R. (2005). Robustness improvement

of a nonlinear H∞ controller for robot manipulators via saturation functions. Journal

of Robotic Systems, 22(8) :421437.

Peyre, R. (2012). Méthodes probabilistes pour la simulation. Technical report, École des

Mines de Nancy.

Prasad, L. B., Gupta, H. O., and Tyagi, B. (2014). Application of policy iteration tech-

nique based adaptive optimal control design for automatic voltage regulator of power

system. Electrical Power and Energy Systems, 63 :940949.

Rao, G. V., Ortega, M. G., Vargas, M., and Rubio, F. R. (2008). Backstepping nonlinear

H∞ control for path tracking of a quadrotor unmmaned areal vehicle. In American

Control Conference, pages 33563361.

Rao, S. S. (2009). Engineering Optimization Theory and Practice. JOHN WILEY and

SONS.

Ratnaweera, A., Halgamuge, S. K., and Watson, H. C. (2004). Self-organizing hierarchical

particle swarm opitmizer with time-varying acceleration coecients. IEEE Transactions

on Evolutionary Computation, 8(3) :240255.

Rodriguez, H., Siguerdidjane, H., and Ortega, R. (2000). Experimental comparison of

linear and nonlinear controllers for a magnetic suspension. In Proceedings of the 2000

IEEE International Conference on Control Applications, Anchorage, Alaska, USA.

Saridis, G. N. and Lee, C. S. G. (1979). An approximation theory of optimal control

for trainable manipulators. IEEE Transaction on Systems, Man, and Cybernetics,

9(3) :152159.

202

Bibliographie

Sedlaczek, K. and Eberhard, P. (2006). Using augmented lagrangian particle swarm

optimization for constrained problems in engineering. Structural and Multidisciplinary

Optimization, 32(4) :277286.

Shi, Y. and Eberhart, R. C. (1998). A modied particle swarm optimizer. In Proceedings of

the IEEE International Conference on Evolutionary Computation, Anchorage, Alaska,

USA, pages 6973.

Slotine, J. J. and Weiping, L. (1991). Applied Nonlinear Control. Prentice Hall,.

Tavakoli, M., Taghirad, H. D., and Abrishamchian, M. (2003). Parametric and nonpara-

metric identication and robust control of a rotational/translational actuator. In The

Fourth International Conference on Control and Automation (ICCA03), pages 765769.

Van der Shaft, A. J. (1992). l2 gain analysis of nonlinear systems and nonlinear state

feedback H∞ control. IEEE Transaction on Automatic Control, 37(6) :770782.

Van der Shaft, A. J. (2000). L2-Gain and Passivity Techniques in Nonlinear Control.

Springer-Verlag London Limited.

Voglewede, P., Anton, H., Smith, C., and Monti, A. (2009). Dynamic performance of a

scara robot manipulator with uncertainty using polynomial chaos theory. IEEE Tran-

sactions on Robotics, 25(1) :206210.

Vrabie, D., Pastravanu, O., Abu-Khalaf, M., and Lewis, F. L. (2009). Adaptive opti-

mal control for continuous-time linear systems based on policy iteration. Automatica,

45 :4747484.

Wang, D., Liu, D., Li, H., and Ma, H. (2014). Neural-network-based robust optimal control

design for a class of uncertain nonlinear systems via adaptive dynamic programming.

Information Sciences, 282 :167179.

Wu., H. N. and Luo, B. (2012). Neural network based online simultaneous policy update

algorithm for solving the hji equation in nonlinear H∞ control. IEEE Trans. Neural

Networks, 23(12) :18841895.

Wu, H. N. and Luo, B. (2013). Simultaneous policy update algorithms for learning the

solution of linear continuous-time H∞ state feedback control. Information Sciences,

222 :472485.

Xingjuan, C., Zhihua, C., Jianchao, Z., and Ying, T. (2009). Individual Parameter Selec-

tion Strategy for Particle Swarm Optimization, chapter 5, pages 89112. In-Tech.

203

Bibliographie

Zames, G. (1981). Feedback and optimal sensitivity : Model reference transforma-

tions, multiplicative seminorms, and approximations. IEEE Transactions on Automatic

Control, 26(4).

Zhang, H., Luo, Y., and Liu, D. (2009). Neural-network-based near-optimal control for

a class of discrete-time ane nonlinear systems with control constraints. IEEE Trans.

Neural Networks, 90(9) :14901503.

Zhang, H., Weib, Q., and Liu, D. (2011). An iterative adaptive dynamic programming

method for solving a class of nonlinear zero-sum dierential games. Automatica, 47 :207

2014.

Zhoo, K. (1999). Essentials of Robust Control. Prentice Hall.

Zhou, K., Doyle, J., and Glover, K. (1995). Robust and optimal control . Prentice Hall,

Upper Saddle River, New Jersey.

204

Annexe A

Démonstration des théorèmes

1 Equation (1.28)

En dévellopant en série de Taylor l'équation (1.27) autour de (x, p, ω, y) = (0, 0, 0, 0) ≡0 et en prenant seulement le premier terme on obtient

∂K(·)∂ω

= xT(∂

∂x

∂

∂ωK(·)

)∣∣∣∣0

+ pT(∂

∂p

∂

∂ωK(·)

)∣∣∣∣0

+ ωT(∂2

∂ω2K(·)

)∣∣∣∣0

+ yT(∂

∂y

∂

∂ωK(·)

)∣∣∣∣0

= 0 (A.1)

donc

ωT (x, p, y) = −(xT(∂

∂x

∂

∂ωK(·)

)∣∣∣∣0

+ pT(∂

∂p

∂

∂ωK(·)

)∣∣∣∣0

+

yT(∂

∂y

∂

∂ωK(·)

)∣∣∣∣0

)(∂2

∂ω2K(·)

)−1∣∣∣∣0

(A.2)

Finalement, d'après (1.26) et les dénitions de C1 et B1 on obtient

ω(x, p, y) = −(2(DT11D11 − γ2Ir))

−1(2DT11C1x+BT

1 p−DT21y) (A.3)

2 Equation (1.31)

De la même manière, le dévellopant en série de Taylor l'équation (1.30) autour de

(x, p, y) = (0, 0, 0) ≡ 0 en prenant seulement le premier terme, donne

∂K(x, p, ω(x, p, y))

∂y= xT

(∂

∂x

∂

∂yK(·)

)∣∣∣∣0

+ pT(∂

∂p

∂

∂yK(·)

)∣∣∣∣0

+ yT(∂2

∂y2K(·)

)∣∣∣∣0

= 0 (A.4)

205

Annexe A. Démonstration des théorèmes

Si on pose C2 = ∂Y∂x|0 et après quelques calculs, on trouve

∂

∂x

∂

∂yK(x, p, ω(x, p, y))|0 = −CT

2 + CT1 D11(DT

11D11 − γ2Ir)−1DT21

∂

∂p

∂

∂yK(x, p, ω(x, p, y))|0 =

1

2B1(DT

11D11 − γ2Ir)−1DT21 (A.5)

En utilisant (1.29) l'équation (1.31) s'obtient facilement.

3 Démonstration du théorème 3.2

Soit Q(x) = W (x)− V (x) et dénissant

S(x, ω) = Qx(F (x, ω, 0)−G(x)Y (x, ω)) +H(x, V Tx (x), ω, 0)−H∗(x, V T

x (x))

alors il est facile de vérier

S(x, ω) = WxF (x, ω, 0)− yT∗ (x,W Tx )Y (x, ω)

− VxF (x, ω, 0) +H(x, V Tx (x), ω, 0)−H∗(x, V T

x (x))

= WxF (x, ω, 0)− yT∗ (x,W Tx )Y (x, ω)

+ ‖Z(x, ω, 0)‖2 − γ2‖ω‖2 −H∗(x, V Tx (x))

= K(x,W Tx , ω, y∗(x,W

Tx ))−H∗(x, V T

x (x))

≤ K(x,W Tx , ω∗∗(x,W

Tx ), y∗(x,W

Tx ))−H∗(x, V T

x (x))

= xTMx

où M est une matrice dénie négative au voisinage de x = 0.

Soit encore la dénition de la variable d'état augmentée xe = [x ξ]T et la nouvelle

fonction lisse U(x) = Q(x−ξ)+V (x). Avec cette fonction on peut prouver que le système

en boucle fermée

xe = F e(x, ω) =

[F (x, ω, u∗(ξ, V

Tξ (ξ)))

F (ξ, ω∗(ξ, VTξ (ξ)), u∗(ξ, V

Tξ (ξ))) +G(ξ)(Y (x, ω)− Y (ξ, ω∗(ξ, V

Tξ (ξ))))

]z = Ze(xe, ω) = Z(x, ω, u∗(ξ, V

Tξ (ξ))) (A.6)

possède les deux propriètés suivantes

a) il satisfait à la condition de dissipativité

Uxe(xe)F e(x, ω) + ‖Ze(xe, ω)‖2 − γ2‖ω‖2 < 0 (A.7)

b) il possède un point d'équilibre localement asymptotiquement stable à xe = 0.

206


Pour démontrer la propriété a) il sut de considérer ce qui suit. On a

Uxe(xe)F e(x, ω) + ‖Ze(xe, ω)‖2 − γ2‖ω‖2

= Qx(x− ξ)[F (x, ω, u∗(ξ, VTξ (ξ)))− F (ξ, ω∗(ξ, V

Tξ (ξ)), u∗(ξ, V

Tξ (ξ)))

−G(ξ)(Y (x, ω)− Y (ξ, ω∗(ξ, VTξ (ξ))))] + Vx(x)F (x, ω, u∗(ξ, V

Tξ (ξ)))

+ ‖Z(x, ω, u∗(ξ, VTξ (ξ)))‖2 − γ2‖ω‖2

= Qx(x− ξ)[F (x, ω, u∗(ξ, VTξ (ξ)))− F (ξ, ω∗(ξ, V

Tξ (ξ)), u∗(ξ, V

Tξ (ξ)))

−G(ξ)(Y (x, ω)− Y (ξ, ω∗(ξ, VTξ (ξ))))] +H(x, V T

x (x), ω, u∗(ξ, VTξ (ξ)))

≤ Qx(x− ξ)[F (x, ω, u∗(ξ, VTξ (ξ)))− F (ξ, ω∗(ξ, V

Tξ (ξ)), u∗(ξ, V

Tξ (ξ)))

−G(ξ)(Y (x, ω)− Y (ξ, ω∗(ξ, VTξ (ξ))))] +H(x, V T

x (x), ω, u∗(ξ, VTξ (ξ)))

−H∗(x, V Tx (x)) (A.8)

Soit L(x, ξ, ω) toute l'expression à droite de l'inégalité (A.8), et soit ω(x, ξ) la solution au

voisinage de (x, ξ) = (0, 0) de

∂L(x, ξ, ω)

∂ω

∣∣∣∣ω=ω(x,ξ)

= 0, ω(0, 0) = 0 (A.9)

puisque Lωω(x, ξ, ω) = 2(DT11D11 − γ2Ir) < 0, alors on a au voisinage de (0, 0, 0)

L(x, ξ, ω) ≤ L(x, ξ, ω(x, ξ)) (A.10)

Donc

Uxe(xe)F e(x, ω) + ‖Ze(xe, ω)‖2 − γ2‖ω‖2 ≤ L(x, ξ, ω(x, ξ)) (A.11)

En plus, nous pouvons vérier l'existence d'une matrice R(x, ξ) tel que

L(x, ξ, ω(x, ξ)) = (x− ξ)TR(x, ξ)(x− ξ) (A.12)

avec R(0, 0) = M(0). Donc, au voisinage de (0, 0) la matrice R(x, ξ) est une matrice

dénie négative, par conséquence la propriété a) est démontrée.

Pour démontrér la propriété b) il sut de prendre ω = 0 dans (A.7) pour avoir

dU(xe(t))

dt≤ −‖Ze(x, 0)‖2 ≤ 0

cela dit le point d'équilibre est stable. Pour démontrer sa stabilité asymptotique on consi-

dère la trajectoire xe(t) tel que

Ze(xe, 0) = Z(x, 0, u∗(ξ, VTξ (ξ))) = 0 ∀t ≥ 0 (A.13)

207


D'après l'hypothèse H5, on a

limt→∞

x(t) = 0

et d'après H3, la solution, u = u(x), de Z(x, 0, u(x)) = 0 est unique. Donc (A.13) implique

que

limt→∞

u∗(ξ(t), VTξ (ξ(t))) = 0

Maintenant il sut de voir que

x = F (x, ω∗(x, VTx (x)), 0)−G(x)Y (x, ω∗(x, V

Tx (x))) (A.14)

est asymptotiquement stable. Pour cela, il sut de voir que

0 > S(x, ω∗(x, VTx (x))) ≥ Qx(x)(F (x, ω∗(x, V

Tx (x)), 0)−G(x)Y (x, ω∗(x, V

Tx (x))))

implique que Q(x) est une fonction de Lypunov pour le système (A.14).

208

Documents

Département d'Informatique BACHIR BOUIADJRA Rochdi · L'optimisation par les essaims de particules (PSO) est utilisée en premier lieu, pour la résolution approximative des équations