84

Propriétés probabilistes dans les algorithmes d

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Propriétés probabilistes dans les algorithmes d

Propriétés probabilistes dans les algorithmesd'optimisation sans et avec dérivées

Clément Royer - University of Wisconsin-Madison

Séminaire SPOC

Institut de Mathématiques de Bourgogne

12 avril 2017

Propriétés probabilistes en optimisation sans et avec dérivées 1

Page 2: Propriétés probabilistes dans les algorithmes d

Introduction: Aléatoire et optimisation

L'aléatoire est de plus en plus présent en optimisation numérique.

Pour de multiples raisons :

Problèmes de grande taille : Méthodes classiques trop coûteuses.

Calcul distribué : Données stockées sur plusieursmachines/processeurs.

Applications : Problèmes d'apprentissage.

Questions sur l'aléatoire

Comment l'analyse des méthodes est-elle a�ectée ?

Améliore-t-on les variantes déterministes ?

Aléatoire en optimisation sans dérivées ?

Propriétés probabilistes en optimisation sans et avec dérivées 2

Page 3: Propriétés probabilistes dans les algorithmes d

Introduction: Aléatoire et optimisation

L'aléatoire est de plus en plus présent en optimisation numérique.

Pour de multiples raisons :

Problèmes de grande taille : Méthodes classiques trop coûteuses.

Calcul distribué : Données stockées sur plusieursmachines/processeurs.

Applications : Problèmes d'apprentissage.

Questions sur l'aléatoire

Comment l'analyse des méthodes est-elle a�ectée ?

Améliore-t-on les variantes déterministes ?

Aléatoire en optimisation sans dérivées ?

Propriétés probabilistes en optimisation sans et avec dérivées 2

Page 4: Propriétés probabilistes dans les algorithmes d

Complexité des algorithmes d'optimisation

Analyse de Complexité

Etudier le taux de convergence d'un critère donné.

Borner le comportement d'une méthode au pire cas.

Avec aléatoire : résultats en espérance/probabilité.

Utilité de la complexité

Quelles indications données par la complexité ?

Quel lien avec la pratique ?

Importance pour les méthodes sans dérivées ?

Propriétés probabilistes en optimisation sans et avec dérivées 3

Page 5: Propriétés probabilistes dans les algorithmes d

Objectifs du séminaire

Trame

1 Introduire des aspects aléatoires dans des algorithmes sans dérivées.

2 Fournir des garanties théoriques (ex : complexité).

3 Comparer la complexité et le comportement numérique.

Dans cet exposé : méthodes de recherche directe;

Les résultats s'appliquent à d'autre méthodes, comme les régions decon�ance.

Propriétés probabilistes en optimisation sans et avec dérivées 4

Page 6: Propriétés probabilistes dans les algorithmes d

Objectifs du séminaire

Trame

1 Introduire des aspects aléatoires dans des algorithmes sans dérivées.

2 Fournir des garanties théoriques (ex : complexité).

3 Comparer la complexité et le comportement numérique.

Dans cet exposé : méthodes de recherche directe;

Les résultats s'appliquent à d'autre méthodes, comme les régions decon�ance.

Propriétés probabilistes en optimisation sans et avec dérivées 4

Page 7: Propriétés probabilistes dans les algorithmes d

Outline

1 Recherche directe déterministe

2 Recherche directe à base de descente probabiliste

3 Extension aux problèmes avec contraintes linéaires

4 Propriétés probabilistes en optimisation avec dérivées

Propriétés probabilistes en optimisation sans et avec dérivées 5

Page 8: Propriétés probabilistes dans les algorithmes d

Outline

1 Recherche directe déterministeOptimisation sans dérivéesRecherche directe

2 Recherche directe à base de descente probabiliste

3 Extension aux problèmes avec contraintes linéaires

4 Propriétés probabilistes en optimisation avec dérivées

Propriétés probabilistes en optimisation sans et avec dérivées 6

Page 9: Propriétés probabilistes dans les algorithmes d

Problème et hypothèses

Soit le problème suivant :minx∈Rn

f (x).

Hypothèses sur f

f minorée, a priori non convexe.

f de classe C1, ∇f fonction lipschitzienne.

Optimisation di�érentiable

Depuis x ∈ Rn, on peut décroître f dans la direction de −∇f (x) !Principe de base des méthodes de premier ordre/gradient.

Objectif : converger vers un point stationnaire d'ordre 1:

lim infk→∞

‖∇f (xk)‖ = 0.

Propriétés probabilistes en optimisation sans et avec dérivées 7

Page 10: Propriétés probabilistes dans les algorithmes d

Problème et hypothèses

Soit le problème suivant :minx∈Rn

f (x).

Hypothèses sur f

f minorée, a priori non convexe.

f de classe C1, ∇f fonction lipschitzienne.

Optimisation di�érentiable

Depuis x ∈ Rn, on peut décroître f dans la direction de −∇f (x) !Principe de base des méthodes de premier ordre/gradient.

Objectif : converger vers un point stationnaire d'ordre 1:

lim infk→∞

‖∇f (xk)‖ = 0.

Propriétés probabilistes en optimisation sans et avec dérivées 7

Page 11: Propriétés probabilistes dans les algorithmes d

Le contexte sans dérivées

Le gradient de f existe mais ne peut pas être utilisé en pratique.

Code de simulation : le gradient est trop coûteux.

Fonction f disponible sous forme de boîte noire : pas de code pour ladérivée.

Di�érentiation automatique inapplicable.

Examples : météorologie, industrie pétrolière, médecine...

Mesure de performance : Nombre d'évaluations de l'objectif.

Propriétés probabilistes en optimisation sans et avec dérivées 8

Page 12: Propriétés probabilistes dans les algorithmes d

Le contexte sans dérivées

Le gradient de f existe mais ne peut pas être utilisé en pratique.

Code de simulation : le gradient est trop coûteux.

Fonction f disponible sous forme de boîte noire : pas de code pour ladérivée.

Di�érentiation automatique inapplicable.

Examples : météorologie, industrie pétrolière, médecine...

Mesure de performance : Nombre d'évaluations de l'objectif.

Propriétés probabilistes en optimisation sans et avec dérivées 8

Page 13: Propriétés probabilistes dans les algorithmes d

Algorithmes d'Optimisation sans Dérivées (DFO)

Méthodes sans dérivées déterministes

Méthodes à modèles, comme les régions de con�ance.

Méthodes directionnelles, comme la recherche directe.

Introduction to Derivative-Free Optimization

A.R. Conn, K. Scheinberg, L.N. Vicente. (2009)

Théorie de convergence (vers des optima locaux).

Bornes de complexité/Vitesses de convergence activement étudiées.

Propriétés probabilistes en optimisation sans et avec dérivées 9

Page 14: Propriétés probabilistes dans les algorithmes d

Algorithmes d'Optimisation Sans Dérivées (2)

Méthodes �DFO" stochastiques

Ont pour but de trouver des optima globaux:

Ex) Stratégies Evolutionnaires, Algorithmes Génétiques.

Souvent sans analogues déterministes.

Cet exposé ne concerne pas les méthodes stochastiques;

Nos algorithmes sont basés sur des éléments probabilistes.

Méthodes �DFO" avec propriétés probabilistes

Développées à partir d'algorithmes déterministes.

Béné�cient de garanties théoriques grâce à cela.

Le côté aléatoire améliore la performance.

Propriétés probabilistes en optimisation sans et avec dérivées 10

Page 15: Propriétés probabilistes dans les algorithmes d

Outline

1 Recherche directe déterministeOptimisation sans dérivéesRecherche directe

2 Recherche directe à base de descente probabiliste

3 Extension aux problèmes avec contraintes linéaires

4 Propriétés probabilistes en optimisation avec dérivées

Propriétés probabilistes en optimisation sans et avec dérivées 11

Page 16: Propriétés probabilistes dans les algorithmes d

Algorithmes de recherche directe

Variantes sans dérivées des méthodes de gradient.

Introduites vers 1960, théorie de convergence vers 1990.

Simples à implémenter, fort potentiel de parallélisme.

Optimization by direct search: new perspectives on some

classical and modern methods.

Kolda, Lewis and Torczon (SIAM Review, 2003).

Propriétés probabilistes en optimisation sans et avec dérivées 12

Page 17: Propriétés probabilistes dans les algorithmes d

Un algorithme basique de recherche directe

1 Initialisation: x0 ∈ Rn, α0 > 0, 0 < θ < 1 ≤ γ.2 Pour k = 0, 1, 2, ...

Choisir un ensemble Dk de r vecteurs.Si il existe dk ∈ Dk tel que

f (xk + αk dk) < f (xk)− α2k ,

alors (k réussie) poser xk+1 := xk + αk dk et αk+1 := γ αk .Sinon (k non réussie) poser xk+1 := xk et αk+1 := θ αk .

Propriétés probabilistes en optimisation sans et avec dérivées 13

Page 18: Propriétés probabilistes dans les algorithmes d

Un algorithme basique de recherche directe

1 Initialisation: x0 ∈ Rn, α0 > 0, 0 < θ < 1 ≤ γ.2 Pour k = 0, 1, 2, ...

Choisir un ensemble Dk de r vecteurs.Si il existe dk ∈ Dk tel que

f (xk + αk dk) < f (xk)− α2k ,

alors (k réussie) poser xk+1 := xk + αk dk et αk+1 := γ αk .Sinon (k non réussie) poser xk+1 := xk et αk+1 := θ αk .

Propriétés probabilistes en optimisation sans et avec dérivées 13

Page 19: Propriétés probabilistes dans les algorithmes d

Choisir les directions de sondage

On cherche à choisir les ensembles des directions/de sondage Dk pourgarantir la convergene de l'algorithme.

Une mesure de qualité

Pour un ensemble de vecteurs D, la mesure cosinus de D est donnée par

cm(D) = minv∈Rn\{0}

maxd∈D

d> v

‖d‖ ‖v‖.

Si cm(D) > 0, pour tout v il existe d ∈ D tel que (d , v) est un angleaigu.

Avec v = −∇f (x) 6= 0, D contient une direction de descente pour fen x .

Propriétés probabilistes en optimisation sans et avec dérivées 14

Page 20: Propriétés probabilistes dans les algorithmes d

Choisir les directions de sondage

On cherche à choisir les ensembles des directions/de sondage Dk pourgarantir la convergene de l'algorithme.

Une mesure de qualité

Pour un ensemble de vecteurs D, la mesure cosinus de D est donnée par

cm(D) = minv∈Rn\{0}

maxd∈D

d> v

‖d‖ ‖v‖.

Si cm(D) > 0, pour tout v il existe d ∈ D tel que (d , v) est un angleaigu.

Avec v = −∇f (x) 6= 0, D contient une direction de descente pour fen x .

Propriétés probabilistes en optimisation sans et avec dérivées 14

Page 21: Propriétés probabilistes dans les algorithmes d

Choisir les directions de sondage

On cherche à choisir les ensembles des directions/de sondage Dk pourgarantir la convergene de l'algorithme.

Une mesure de qualité

Pour un ensemble de vecteurs D, la mesure cosinus de D est donnée par

cm(D) = minv∈Rn\{0}

maxd∈D

d> v

‖d‖ ‖v‖.

Si cm(D) > 0, pour tout v il existe d ∈ D tel que (d , v) est un angleaigu.

Avec v = −∇f (x) 6= 0, D contient une direction de descente pour fen x .

Propriétés probabilistes en optimisation sans et avec dérivées 14

Page 22: Propriétés probabilistes dans les algorithmes d

Génération positive

Comment garantir cm(D) > 0 ?

Ensemble de générateurs positifs (PSS)

D est un PSS s'il génère Rn par combinaisons linéaires à coe�cientspositifs ou nuls.

D est un PSS ⇔ cm(D) > 0.

Un PSS contient au moins n + 1 vecteurs.

Exemple

D⊕ = {e1, . . . , en, -e1, . . . , -en} est un PSS avec

cm (D⊕) =1√n.

Propriétés probabilistes en optimisation sans et avec dérivées 15

Page 23: Propriétés probabilistes dans les algorithmes d

Génération positive

Comment garantir cm(D) > 0 ?

Ensemble de générateurs positifs (PSS)

D est un PSS s'il génère Rn par combinaisons linéaires à coe�cientspositifs ou nuls.

D est un PSS ⇔ cm(D) > 0.

Un PSS contient au moins n + 1 vecteurs.

Exemple

D⊕ = {e1, . . . , en, -e1, . . . , -en} est un PSS avec

cm (D⊕) =1√n.

Propriétés probabilistes en optimisation sans et avec dérivées 15

Page 24: Propriétés probabilistes dans les algorithmes d

Convergence de la recherche directe déterministe

Lemma

Si l'itération k n'est pas réussie et cm(Dk) ≥ κ > 0,

κ ‖∇f (xk)‖ ≤ O (αk) .

Lemma

Indépendamment de {Dk},

limk→∞

αk = 0.

Théorème de convergence

Si ∀k , cm(Dk) ≥ κ,lim infk→∞

‖∇f (xk)‖ = 0.

Propriétés probabilistes en optimisation sans et avec dérivées 16

Page 25: Propriétés probabilistes dans les algorithmes d

Convergence de la recherche directe déterministe

Lemma

Si l'itération k n'est pas réussie et cm(Dk) ≥ κ > 0,

κ ‖∇f (xk)‖ ≤ O (αk) .

Lemma

Indépendamment de {Dk},

limk→∞

αk = 0.

Théorème de convergence

Si ∀k , cm(Dk) ≥ κ,lim infk→∞

‖∇f (xk)‖ = 0.

Propriétés probabilistes en optimisation sans et avec dérivées 16

Page 26: Propriétés probabilistes dans les algorithmes d

Worst-case complexity in deterministic direct search

Théorème de complexité

Soient ε ∈ (0, 1) et Nε le nombre d'appels à f nécessaires pour satisfaireinf0≤l≤k ‖∇f (xl )‖ < ε. On a

Nε ≤ O(r (κ ε)−2

).

En choisissant Dk = D⊕, on a κ = 1/√n, r = 2n, la borne devient

Nε ≤ O(n2 ε−2

).

Propriétés probabilistes en optimisation sans et avec dérivées 17

Page 27: Propriétés probabilistes dans les algorithmes d

Outline

1 Recherche directe déterministe

2 Recherche directe à base de descente probabilisteDescente probabilisteConvergence et complexitéDescente probabiliste en pratique

3 Extension aux problèmes avec contraintes linéaires

4 Propriétés probabilistes en optimisation avec dérivées

Propriétés probabilistes en optimisation sans et avec dérivées 18

Page 28: Propriétés probabilistes dans les algorithmes d

Introduction d'aléatoire

Idée (Gratton et Vicente, 2013)

Utiliser des vecteurs tirés aléatoirement et indépendamment, typiquementmoins que n + 1 !

From PSS...

...to random sets

Propriétés probabilistes en optimisation sans et avec dérivées 19

Page 29: Propriétés probabilistes dans les algorithmes d

Introduction d'aléatoire

Idée (Gratton et Vicente, 2013)

Utiliser des vecteurs tirés aléatoirement et indépendamment, typiquementmoins que n + 1 !

From PSS...

...to random sets

Propriétés probabilistes en optimisation sans et avec dérivées 19

Page 30: Propriétés probabilistes dans les algorithmes d

Introduction d'aléatoire

Idée (Gratton et Vicente, 2013)

Utiliser des vecteurs tirés aléatoirement et indépendamment, typiquementmoins que n + 1 !

From PSS...

...to random sets

Propriétés probabilistes en optimisation sans et avec dérivées 19

Page 31: Propriétés probabilistes dans les algorithmes d

Motivation numérique

Test de convergence: f (xk) < flow + 10−3 (f (x0)− flow);

Budget: 2000 n appels à f max.

Problème D⊕ Q D⊕ 2 n n + 1 n/2 2 1

Déterministe Probabiliste

arglina 3.42 16.67 10.30 6.01 3.21 1.00 �

arglinb 20.50 11.38 7.38 2.81 2.35 1.00 2.04

broydn3d 4.33 11.22 6.54 3.59 2.04 1.00 �

dqrtic 7.16 19.50 9.10 4.56 2.77 1.00 �

engval1 10.53 23.96 11.90 6.48 3.55 1.00 2.08

freuroth 56.00 1.33 1.00 1.67 1.33 1.00 4.00

integreq 16.04 18.85 12.44 6.76 3.52 1.00 �

nondquar 6.90 17.36 7.56 4.23 2.76 1.00 �

sinquad � 2.12 1.31 1.00 1.60 1.23 �

vardim 1.00 3.30 1.80 2.40 2.30 1.80 4.30

Table: Ratio du nombre d'appels à f (moyenne sur 10 réalisations, taille n = 40)

Propriétés probabilistes en optimisation sans et avec dérivées 20

Page 32: Propriétés probabilistes dans les algorithmes d

Algorithme de recherche directe probabiliste

Notations probabilistes

Ensembles/Directions de sondage : Dk = Dk(ω), dk = dk(ω);

Itérés : xk = Xk(ω);

Longueurs de pas : αk = Ak(ω).

1 Initialisation: x0 ∈ Rn, α0 > 0, 0 < θ < 1 ≤ γ.2 Pour k = 0, 1, 2, ...

Choisir un ensemble Dk de r vecteurs tirés indépendamment au

hasard.

Si il existe dk ∈ Dk tel que

f (Xk +_k dk) < f (Xk)− A2

k,

alors (k réussie) poser Xk+1 := Xk + Ak dk et Ak+1 := γ Ak .Sinon (k non réussie) poser Xk+1 := Xk et Ak+1 := θAk .

Propriétés probabilistes en optimisation sans et avec dérivées 21

Page 33: Propriétés probabilistes dans les algorithmes d

Outline

1 Recherche directe déterministe

2 Recherche directe à base de descente probabilisteDescente probabilisteConvergence et complexitéDescente probabiliste en pratique

3 Extension aux problèmes avec contraintes linéaires

4 Propriétés probabilistes en optimisation avec dérivées

Propriétés probabilistes en optimisation sans et avec dérivées 22

Page 34: Propriétés probabilistes dans les algorithmes d

Qu'est-ce qu'un bon ensemble de sondage ?

D

D n'est pas un PSS...

...D⊕ si...

D⊕

-∇f (x)

...-∇f (x) plus proche de D !

Etre proche de l'opposé du gradient : un gage de qualité ?

Propriétés probabilistes en optimisation sans et avec dérivées 23

Page 35: Propriétés probabilistes dans les algorithmes d

Qu'est-ce qu'un bon ensemble de sondage ?

D

D n'est pas un PSS... ...D⊕ si...

D⊕

-∇f (x)

...-∇f (x) plus proche de D !

Etre proche de l'opposé du gradient : un gage de qualité ?

Propriétés probabilistes en optimisation sans et avec dérivées 23

Page 36: Propriétés probabilistes dans les algorithmes d

Qu'est-ce qu'un bon ensemble de sondage ?

D

D n'est pas un PSS... ...D⊕ si...

D⊕

-∇f (x)

...-∇f (x) plus proche de D !

Etre proche de l'opposé du gradient : un gage de qualité ?

Propriétés probabilistes en optimisation sans et avec dérivées 23

Page 37: Propriétés probabilistes dans les algorithmes d

Une nouvelle mesure de qualité

Propriétés dans le cas déterministe

On a requis

cm(Dk) = minv 6=0

maxd∈Dk

d> v

‖d‖ ‖v‖≥ κ.

Il su�rait d'avoir

cm (Dk ,−∇f (xk)) = maxd∈Dk

d>[−∇f (xk)]‖d‖‖∇f (xk)‖

≥ κ.

Avec de l'aléatoire, la seconde propriété peut être vraie en probabilité.

Quels sont les bons outils probabilistes pour exprimer cela ?

Propriétés probabilistes en optimisation sans et avec dérivées 24

Page 38: Propriétés probabilistes dans les algorithmes d

Analyse probabiliste

Plusieurs types de résultats

Déterministe/Pour toute réalisation⇓

Avec probabilité 1/Presque sûr⇓

Avec une certaine probabilité

Sous-martingale

Une sous-martingale est une suite de variables aléatoires {Vk} telle queE [|Vk |] <∞ et

E (Vk |V0,V1, . . . ,Vk−1) ≥ Vk−1.

Propriétés probabilistes en optimisation sans et avec dérivées 25

Page 39: Propriétés probabilistes dans les algorithmes d

Ensembles de directions et descente (p, κ)

On cherche à étudier

P (cm (Dk ,−∇f (Xk)) ≥ κ) .

où Xk dépend de D0, . . . ,Dk−1 mais pas de Dk .

On va utiliser les probabilités conditionnelles/le conditionnement aupassé.

Propriété de descente probabiliste

Une suite d'ensembles aléatoires {Dk} est dite à descente (p, κ) si:

P (cm (D0,−∇f (x0)) ≥ κ) ≥ p

∀k ≥ 1, P (cm (Dk ,−∇f (Xk)) ≥ κ | D0, . . . ,Dk−1) ≥ p,

Propriétés probabilistes en optimisation sans et avec dérivées 26

Page 40: Propriétés probabilistes dans les algorithmes d

Ensembles de directions et descente (p, κ)

On cherche à étudier

P (cm (Dk ,−∇f (Xk)) ≥ κ) .

où Xk dépend de D0, . . . ,Dk−1 mais pas de Dk .

On va utiliser les probabilités conditionnelles/le conditionnement aupassé.

Propriété de descente probabiliste

Une suite d'ensembles aléatoires {Dk} est dite à descente (p, κ) si:

P (cm (D0,−∇f (x0)) ≥ κ) ≥ p

∀k ≥ 1, P (cm (Dk ,−∇f (Xk)) ≥ κ | D0, . . . ,Dk−1) ≥ p,

Propriétés probabilistes en optimisation sans et avec dérivées 26

Page 41: Propriétés probabilistes dans les algorithmes d

Résultats de convergence

Lemma

Pour toute réalisation {αk} de {Ak}, indépendamment de {Dk},

limk→∞

αk = 0.

Lemma

Si l'itération k n'est pas réussie,

{cm (Dk ,−∇f (Xk)) ≥ κ} ⊂ {κ ‖∇f (Xk)‖ ≤ O (Ak)} .

Il s'agit de prouver que {cm (Dk ,−∇f (Xk)) ≥ κ} se produit su�sammentsouvent.

Propriétés probabilistes en optimisation sans et avec dérivées 27

Page 42: Propriétés probabilistes dans les algorithmes d

Résultats de convergence (2)

Soit {Dk} à descente (p, κ) et Zk = 1 (cm (Dk ,−∇f (Xk)) ≥ κ).

Proposition

Soit

Sk =k−1∑i=0

[Zi − p0] , p0 =ln θ

ln(θ/γ).

1 {lim infk ‖∇f (Xk)‖ > 0} ⊂ {Sk → −∞}.2 Si p > p0, {Sk} est une sous-martingale avec P (lim sup Sk =∞) = 1.

Théorème : convergence presque sûre

Si {Dk} est à descente (p, κ) avec p > p0, on a

P(

lim infk→∞

‖∇f (Xk)‖ = 0

)= 1.

Propriétés probabilistes en optimisation sans et avec dérivées 28

Page 43: Propriétés probabilistes dans les algorithmes d

Résultats de convergence (2)

Soit {Dk} à descente (p, κ) et Zk = 1 (cm (Dk ,−∇f (Xk)) ≥ κ).

Proposition

Soit

Sk =k−1∑i=0

[Zi − p0] , p0 =ln θ

ln(θ/γ).

1 {lim infk ‖∇f (Xk)‖ > 0} ⊂ {Sk → −∞}.2 Si p > p0, {Sk} est une sous-martingale avec P (lim sup Sk =∞) = 1.

Théorème : convergence presque sûre

Si {Dk} est à descente (p, κ) avec p > p0, on a

P(

lim infk→∞

‖∇f (Xk)‖ = 0

)= 1.

Propriétés probabilistes en optimisation sans et avec dérivées 28

Page 44: Propriétés probabilistes dans les algorithmes d

Complexité et descente probabiliste

Idée intuitive

Soient Gk = ∇f (Xk) et Zk = 1 (cm(Dk ,−Gk) ≥ κ).Si Zk = 1 et k réussie, on a κ ‖Gk‖ < O(Ak)...

...Ak tend vers 0...

...donc si inf0≤l≤k ‖Gl‖ est grand,∑

k

l=0 Zl doit être faible.

Une borne utile

Pour chaque réalisation de l'algorithme,

k∑l=0

zl ≤ O(

1

κ2 ‖g̃k‖2

)+ p0 k ,

où ‖g̃k‖ = inf0≤l≤k ‖gl‖.

Propriétés probabilistes en optimisation sans et avec dérivées 29

Page 45: Propriétés probabilistes dans les algorithmes d

Complexité et descente probabiliste

Idée intuitive

Soient Gk = ∇f (Xk) et Zk = 1 (cm(Dk ,−Gk) ≥ κ).Si Zk = 1 et k réussie, on a κ ‖Gk‖ < O(Ak)...

...Ak tend vers 0...

...donc si inf0≤l≤k ‖Gl‖ est grand,∑

k

l=0 Zl doit être faible.

Une borne utile

Pour chaque réalisation de l'algorithme,

k∑l=0

zl ≤ O(

1

κ2 ‖g̃k‖2

)+ p0 k ,

où ‖g̃k‖ = inf0≤l≤k ‖gl‖.

Propriétés probabilistes en optimisation sans et avec dérivées 29

Page 46: Propriétés probabilistes dans les algorithmes d

Complexité et descente probabiliste

Idée intuitive

Soient Gk = ∇f (Xk) et Zk = 1 (cm(Dk ,−Gk) ≥ κ).Si Zk = 1 et k réussie, on a κ ‖Gk‖ < O(Ak)...

...Ak tend vers 0...

...donc si inf0≤l≤k ‖Gl‖ est grand,∑

k

l=0 Zl doit être faible.

Une borne utile

Pour chaque réalisation de l'algorithme,

k∑l=0

zl ≤ O(

1

κ2 ‖g̃k‖2

)+ p0 k ,

où ‖g̃k‖ = inf0≤l≤k ‖gl‖.

Propriétés probabilistes en optimisation sans et avec dérivées 29

Page 47: Propriétés probabilistes dans les algorithmes d

Complexité et descente probabiliste (2)

Rappel : Zl = 1 (cm(Dl ,−∇f (Xl ) ≥ κ).

Argument d'inclusion{inf

0≤l≤k‖∇f (Xk)‖ ≥ ε

}⊂

{k∑

l=0

Zl ≤ λ k

}avec λ = O

(1

k κ2 ε−2

)+ p0.

Borne de type Cherno�

Pour tout λ ∈ (0, p),

P

(k−1∑l=0

Zl ≤ λ k

)≤ exp

[−(p − λ)2

2 pk

].

Propriétés probabilistes en optimisation sans et avec dérivées 30

Page 48: Propriétés probabilistes dans les algorithmes d

Complexité et descent probabiliste (3)

Théorème : Complexité probabiliste

Soient {Dk} à descente (p, κ), ε ∈ (0, 1) et Nε le nombre d'appels à fnécessaires pour obtenir inf0≤l≤k ‖∇f (Xl )‖ ≤ ε. Alors

P(Nε ≤ O

(r (κε)−2

p − p0

))≥ 1− exp

(−O

(p − p0

p(κ ε)−2

)).

Déterministe : O(n2 ε−2).Probabiliste : O(r n ε−2) en probabilité⇒ O(n ε−2) lorsque r = 2 !

Serait-on meilleur (en probabilité) avec moins de directions ?

Propriétés probabilistes en optimisation sans et avec dérivées 31

Page 49: Propriétés probabilistes dans les algorithmes d

Complexité et descent probabiliste (3)

Théorème : Complexité probabiliste

Soient {Dk} à descente (p, κ), ε ∈ (0, 1) et Nε le nombre d'appels à fnécessaires pour obtenir inf0≤l≤k ‖∇f (Xl )‖ ≤ ε. Alors

P(Nε ≤ O

(r (κε)−2

p − p0

))≥ 1− exp

(−O

(p − p0

p(κ ε)−2

)).

Déterministe : O(n2 ε−2).Probabiliste : O(r n ε−2) en probabilité⇒ O(n ε−2) lorsque r = 2 !

Serait-on meilleur (en probabilité) avec moins de directions ?

Propriétés probabilistes en optimisation sans et avec dérivées 31

Page 50: Propriétés probabilistes dans les algorithmes d

Outline

1 Recherche directe déterministe

2 Recherche directe à base de descente probabilisteDescente probabilisteConvergence et complexitéDescente probabiliste en pratique

3 Extension aux problèmes avec contraintes linéaires

4 Propriétés probabilistes en optimisation avec dérivées

Propriétés probabilistes en optimisation sans et avec dérivées 32

Page 51: Propriétés probabilistes dans les algorithmes d

Construire une suite à descente (p, κ)

On cherche à avoir

p > p0 =ln(θ)

ln(θ/γ)

avec le plus petit r = |Dk | possible.

Une technique : génération uniforme sur la sphère unité

Si

r > log2

(1− ln θ

ln γ

),

il existe (p, τ) indépendants de n tels que la suite Dk est à descente(p, τ/

√n) et p > p0.

Si γ = θ−1 = 2, choisir r ≥ 2 su�t à garantir p > 12.

Propriétés probabilistes en optimisation sans et avec dérivées 33

Page 52: Propriétés probabilistes dans les algorithmes d

Deux directions uniformes su�sent, pas une

g

g

d1 d2

d1 ∼ U(S1)⇒ ∀κ ∈ (0, 1), P(cm (d1, g) = d>1 g ≥ κ

)< 1/2.

d1, d2 ∼ U(S1)⇒ ∃κ∗ ∈ (0, 1), P (cm ({d1, d2} , g) ≥ κ∗) > 1/2.

Propriétés probabilistes en optimisation sans et avec dérivées 34

Page 53: Propriétés probabilistes dans les algorithmes d

Deux directions uniformes su�sent, pas une

g

d1

g

d1 d2

d1 ∼ U(S1)⇒ ∀κ ∈ (0, 1), P(cm (d1, g) = d>1 g ≥ κ

)< 1/2.

d1, d2 ∼ U(S1)⇒ ∃κ∗ ∈ (0, 1), P (cm ({d1, d2} , g) ≥ κ∗) > 1/2.

Propriétés probabilistes en optimisation sans et avec dérivées 34

Page 54: Propriétés probabilistes dans les algorithmes d

Deux directions uniformes su�sent, pas une

g d1

g

d1 d2

d1 ∼ U(S1)⇒ ∀κ ∈ (0, 1), P(cm (d1, g) = d>1 g ≥ κ

)< 1/2.

d1, d2 ∼ U(S1)⇒ ∃κ∗ ∈ (0, 1), P (cm ({d1, d2} , g) ≥ κ∗) > 1/2.

Propriétés probabilistes en optimisation sans et avec dérivées 34

Page 55: Propriétés probabilistes dans les algorithmes d

Deux directions uniformes su�sent, pas une

g d1 g

d1 d2

d1 ∼ U(S1)⇒ ∀κ ∈ (0, 1), P(cm (d1, g) = d>1 g ≥ κ

)< 1/2.

d1, d2 ∼ U(S1)⇒ ∃κ∗ ∈ (0, 1), P (cm ({d1, d2} , g) ≥ κ∗) > 1/2.

Propriétés probabilistes en optimisation sans et avec dérivées 34

Page 56: Propriétés probabilistes dans les algorithmes d

Outline

1 Recherche directe déterministe

2 Recherche directe à base de descente probabiliste

3 Extension aux problèmes avec contraintes linéaires

4 Propriétés probabilistes en optimisation avec dérivées

Propriétés probabilistes en optimisation sans et avec dérivées 35

Page 57: Propriétés probabilistes dans les algorithmes d

Deux problèmes d'optimisation avec contraintes linéaires

Contraintes linéaires d'égalité{minx∈Rn f (x)s.t. Ax = b.

Equivalent au problème sans contraintes minx̃∈Rn−m f (x0 +Wx̃) oùW ∈ Rn×(n−m) est une base pour null(A) et Ax0 = b.

Les résultats déterministes et probabilistes restent valables !

Contraintes d'intervalle {minx∈Rn f (x)s.t. l ≤ x ≤ u.

En pratique (déterministe) : Utiliser D⊕ = {e1, . . . , en,−e1, . . . ,−en}permet de converger et de se déplacer parallèlement aux contraintes.

Propriétés probabilistes en optimisation sans et avec dérivées 36

Page 58: Propriétés probabilistes dans les algorithmes d

Deux problèmes d'optimisation avec contraintes linéaires

Contraintes linéaires d'égalité{minx∈Rn f (x)s.t. Ax = b.

Equivalent au problème sans contraintes minx̃∈Rn−m f (x0 +Wx̃) oùW ∈ Rn×(n−m) est une base pour null(A) et Ax0 = b.

Les résultats déterministes et probabilistes restent valables !

Contraintes d'intervalle {minx∈Rn f (x)s.t. l ≤ x ≤ u.

En pratique (déterministe) : Utiliser D⊕ = {e1, . . . , en,−e1, . . . ,−en}permet de converger et de se déplacer parallèlement aux contraintes.

Propriétés probabilistes en optimisation sans et avec dérivées 36

Page 59: Propriétés probabilistes dans les algorithmes d

Algorithme (version déterministe)

1 Initialisation: x0 ∈ Rn, α0 > 0, 0 < θ < 1 ≤ γ.2 Pour k = 0, 1, 2, ...

Choisir un ensemble Dk d'au plus r vecteurs.Si il existe dk ∈ Dk tel que xk + αkdk est admissible and

f (xk + αk dk) < f (xk)− α2k ,

alors (k réussie) poser xk+1 := xk + αk dk et αk+1 := γ αk .Sinon (k non réussie) poser xk+1 := xk et αk+1 := θ αk .

Propriétés probabilistes en optimisation sans et avec dérivées 37

Page 60: Propriétés probabilistes dans les algorithmes d

Contraintes d'intervalle

Domaine admissible : F = {l ≤ x ≤ u}.

Contraintes proches

Les ensemblesIu(x , α) = {i : |ui − [x ]i | ≤ α}Il (x , α) = {i : |li − [x ]i | ≤ α}

dé�nissent les contraintes proches en x ∈ F pour α > 0.

αx α x

Propriétés probabilistes en optimisation sans et avec dérivées 38

Page 61: Propriétés probabilistes dans les algorithmes d

Contraintes d'intervalle (2)

Cône normal approché N(x , α) : généré positivement par

{ei}i∈Iu(x ,α) ∪ {−ei}i∈Il (x ,α) .

Cône tangent T (x , α) : cône polaire de N(x , α).

x

N(x , α)

T (x , α)

T (x , α)

N(x , α)

x

Propriétés probabilistes en optimisation sans et avec dérivées 39

Page 62: Propriétés probabilistes dans les algorithmes d

Propriété de descente réalisable

Rappel : la mesure cosinus permet d'identi�er les directions dedescente

cm(D,−∇f (x)) = maxd∈D

d>[−∇f (x)]‖d‖‖ − ∇f (x)‖

.

Descente réalisable

D est un ensemble à descente κ-admissible pour T (x , α) si D ⊂ T (x , α) et

cmT (x ,α)(D,−∇f (x)) = maxd∈D

d>[−∇f (x)]‖d‖‖PT (x ,α)[−∇f (x)]‖

≥ κ.

Avec des ensembles à descente κ-admissible : convergence + bornessur la complexité (analyse similaire au cas sans contraintes).

D⊕ ∩ T (x , α) est toujours à descente 1√n-admissible.

Propriétés probabilistes en optimisation sans et avec dérivées 40

Page 63: Propriétés probabilistes dans les algorithmes d

Propriété de descente réalisable

Rappel : la mesure cosinus permet d'identi�er les directions dedescente

cm(D,−∇f (x)) = maxd∈D

d>[−∇f (x)]‖d‖‖ − ∇f (x)‖

.

Descente réalisable

D est un ensemble à descente κ-admissible pour T (x , α) si D ⊂ T (x , α) et

cmT (x ,α)(D,−∇f (x)) = maxd∈D

d>[−∇f (x)]‖d‖‖PT (x ,α)[−∇f (x)]‖

≥ κ.

Avec des ensembles à descente κ-admissible : convergence + bornessur la complexité (analyse similaire au cas sans contraintes).

D⊕ ∩ T (x , α) est toujours à descente 1√n-admissible.

Propriétés probabilistes en optimisation sans et avec dérivées 40

Page 64: Propriétés probabilistes dans les algorithmes d

Descente admissible probabiliste

Dé�nition

Une suite {Dk} est à descente (probabiliste) (p, κ)-admissible si

P (cmT0(D0,−∇f (x0)) ≥ κ) ≥ p

∀k ≥ 1, P(cmTk

(Dk ,−∇f (Xk)) ≥ κ∣∣ D0, . . . ,Dk−1

)≥ p.

avec Tk = T (Xk ,Ak).

Garanties théoriques

Su {Dk} est à descente (p, κ)-admissible avec p > p0,

Convergence presque sûre vers un point stationnaire;

Borne de complexité en probabilité :

P(Nε ≤ O

(r(κ ε)−2

p − p0

))≥ 1− exp

(−O

(p − p0

p(κε)−2

)).

Propriétés probabilistes en optimisation sans et avec dérivées 41

Page 65: Propriétés probabilistes dans les algorithmes d

Directions aléatoires

Principales di�cultés

Dé�nir des ensembles à descente probabiliste admissible.

Estimer r et κ.

Utiliser moins de directions que dans le cas déterministe ?

Nos techniques

Basées sur les générateurs du cône tangent (le choix déterministe);

Directions aléatoires mais admissibles;

Au pire aussi coûteuses que la stratégie déterministe.

Propriétés probabilistes en optimisation sans et avec dérivées 42

Page 66: Propriétés probabilistes dans les algorithmes d

Directions aléatoires

Principales di�cultés

Dé�nir des ensembles à descente probabiliste admissible.

Estimer r et κ.

Utiliser moins de directions que dans le cas déterministe ?

Nos techniques

Basées sur les générateurs du cône tangent (le choix déterministe);

Directions aléatoires mais admissibles;

Au pire aussi coûteuses que la stratégie déterministe.

Propriétés probabilistes en optimisation sans et avec dérivées 42

Page 67: Propriétés probabilistes dans les algorithmes d

Premier choix de directions

Echantillonnage aléatoire parmi les générateurs

1 Calcul d'un ensemble déterministe Vk générant Tk ;

2 Tirer au hasard Dk ⊂ Vk de taille > |Vk |p0;3 {Dk} est à descente (p, κ)-admissible avec p > p0.

Propriétés probabilistes en optimisation sans et avec dérivées 43

Page 68: Propriétés probabilistes dans les algorithmes d

Premier choix de directions

Echantillonnage aléatoire parmi les générateurs

1 Calcul d'un ensemble déterministe Vk générant Tk ;

2 Tirer au hasard Dk ⊂ Vk de taille > |Vk |p0;3 {Dk} est à descente (p, κ)-admissible avec p > p0.

p0 = 1/2

Propriétés probabilistes en optimisation sans et avec dérivées 43

Page 69: Propriétés probabilistes dans les algorithmes d

Utiliser des sous-espaces et (donc) moins de directions

Principe

Cas sans contraintes : besoin de peu de directions;

Idem avec contraintes d'égalité : problème sans contraintes dans lenoyau de A;

Béné�que d'exploiter les sous-espaces non contraints ?

Lemme

Soit Sk un sous-espace inclus dans un cône Tk . Alors on a Tk = Sk + T c

k,

où T c

kest un cône inclus dans S⊥

k.

Propriétés probabilistes en optimisation sans et avec dérivées 44

Page 70: Propriétés probabilistes dans les algorithmes d

Second choix de directions

Deux types de vecteurs

Sous-espace Sk : Directions aléatoires;

Complément T c

k: Sous-ensemble aléatoire des générateurs.

xkSk = ∅

T c

k p0 = 1/2

Propriétés probabilistes en optimisation sans et avec dérivées 45

Page 71: Propriétés probabilistes dans les algorithmes d

Second choix de directions

Deux types de vecteurs

Sous-espace Sk : Directions aléatoires;

Complément T c

k: Sous-ensemble aléatoire des générateurs.

xk

Sk

T c

k

p0 = 1/2

Propriétés probabilistes en optimisation sans et avec dérivées 45

Page 72: Propriétés probabilistes dans les algorithmes d

Second choix de directions

Deux types de vecteurs

Sous-espace Sk : Directions aléatoires;

Complément T c

k: Sous-ensemble aléatoire des générateurs.

xk

Sk

T c

k= ∅

p0 = 1/2

Propriétés probabilistes en optimisation sans et avec dérivées 45

Page 73: Propriétés probabilistes dans les algorithmes d

Impact sur la complexité

Borne générale : O(rκ−2ε−2

).

Comparaison - Egalités linéaires

Méthode r κ Borne

Déterm. 2(n −m) 1√n−m O

((n −m)2ε−2

)Proba. 1 O(2(n −m)p0)

1√n−m O

((n −m)2ε−2

)Proba. 2 (subspace) O(1) τ√

n−m O((n −m)ε−2

)Comparaison - Contraintes d'intervalle sur nb < n variables seulement

Méthode r κ Borne

Déterm. 2n 1√n

O(n2ε−2

)Proba. 1 O(2np0) 1√

nO(n2ε−2

)Proba. 2 (subspace) O(1) +O (nb p0)

1√nO(n nbε

−2)Propriétés probabilistes en optimisation sans et avec dérivées 46

Page 74: Propriétés probabilistes dans les algorithmes d

Résultats numériques - contraintes d'intervalle

Comparaison avec le solveur patternsearch de MATLAB.

Quatre méthodes

Nom Directions dans T (xk , αk) = Tk = Sk + T c

kGaranties

dspfd-0 D⊕ ∩ Tk , ordre aléatoire Déterm.dspfd-1 Tirage aléatoire dans D⊕ ∩ Tk Proba.dspfd-2 Vecteurs dans Sk/tirage dans D⊕ ∩ T c

kProba.

matlab D⊕ ∩ T (xk , tαk), t ∈ (0, 1) Déterm.

Pro�ls de performance

Critère : # d'appels à f (budget de 2000n) pour satisfaire

f (xk)− fbest < 10−3(f (x0)− fbest).

Problèmes de la bibliothèque CUTEst.

Propriétés probabilistes en optimisation sans et avec dérivées 47

Page 75: Propriétés probabilistes dans les algorithmes d

Pro�ls avec contraintes d'intervalles

63 problèmes avec contraintes d'intervalles, de petites tailles :2 ≤ n ≤ 20.

0 1 2 3 4 5 6 7 8 90

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

dspfd-0

dspfd-1

dspfd-2

matlab

Propriétés probabilistes en optimisation sans et avec dérivées 48

Page 76: Propriétés probabilistes dans les algorithmes d

Pro�ls avec contraintes d'intervalles (2)

31 problèmes avec contraintes d'intervalles, de tailles plus grandes :

20 ≤ n ≤ 52.

0 1 2 3 4 50

0.2

0.4

0.6

0.8

1

dspfd-0

dspfd-1

dspfd-2

matlab

Propriétés probabilistes en optimisation sans et avec dérivées 49

Page 77: Propriétés probabilistes dans les algorithmes d

Outline

1 Recherche directe déterministe

2 Recherche directe à base de descente probabiliste

3 Extension aux problèmes avec contraintes linéaires

4 Propriétés probabilistes en optimisation avec dérivées

Propriétés probabilistes en optimisation sans et avec dérivées 50

Page 78: Propriétés probabilistes dans les algorithmes d

Contexte

minx∈Rn

f (x)

f de classe C2,f en général non convexe.

Du premier ordre au second dans les algorithmes

L'accès à la matrice Hessienne est coûteux...

...tout comme l'algèbre linéaire associée:

Vecteurs propres;Systèmes linéaires.

Peut-on s'aider de propriétés probabilistes ?

Propriétés probabilistes en optimisation sans et avec dérivées 51

Page 79: Propriétés probabilistes dans les algorithmes d

Un thème de recherche actif

Analyse probabiliste de méthodes d'algèbre linéaire

Avec un point initial aléatoire...

La puissance itérée trouve un vecteur propre à ε près en O(ε−1)

itérations;

La méthode de Lanczos trouve un vecteur propre à ε près enO(ε−1/2

)itérations.

...avec une forte probabilité.

Utilité

En lien avec les méthodes de premier ordre;

Pour problèmes convexes et non convexes.

Propriétés probabilistes en optimisation sans et avec dérivées 52

Page 80: Propriétés probabilistes dans les algorithmes d

Convergence d'ordre deux

Points clés

Echapper aux points selles;

Détecter les valeur propres négatives de la matrice Hessienne;

Utiliser des directions de courbure négative;

Les meilleures méthodes en terme de complexité garantissent laconvergence à l'ordre deux !

Propriétés probabilistes en optimisation sans et avec dérivées 53

Page 81: Propriétés probabilistes dans les algorithmes d

Notre approche

Revisiter les méthodes e�caces en pratique;

Via leur analyse de complexité;

Incorporer des progrès récents.

Blocs de base

Méthodes de Newton-Krylov (ex : gradient conjugué):Basées sur des produits matrice/vecteur.

Recherches linéaires;

Analyse probabiliste.

Propriétés probabilistes en optimisation sans et avec dérivées 54

Page 82: Propriétés probabilistes dans les algorithmes d

Conclusions

Problèmes sans contraintes

Convergence via propriétés probabilistes.

Moins d'évaluations en théorie et en pratique.

Direct search based on probabilistic descent. Gratton, Royer,Vicente and Zhang, SIAM J. Optim., 2015.

Problèmes avec contraintes linéaires

Descente probabiliste admissible.

Se ramener à des sous-espaces �non contraints".

Méthode e�cace en pratique.

Direct search based on probabilistic feasible descent for bound

and linearly constrained problems. Gratton, Royer, Vicente andZhang, Submitted, 2017.

Propriétés probabilistes en optimisation sans et avec dérivées 55

Page 83: Propriétés probabilistes dans les algorithmes d

A suivre

Cas sans dérivées

Contraintes non linéaires;Parallélisation.

Contexte général

Etude de complexité;Courbure négative.

Merci de votre attention !

[email protected]

Propriétés probabilistes en optimisation sans et avec dérivées 56

Page 84: Propriétés probabilistes dans les algorithmes d

A suivre

Cas sans dérivées

Contraintes non linéaires;Parallélisation.

Contexte général

Etude de complexité;Courbure négative.

Merci de votre attention !

[email protected]

Propriétés probabilistes en optimisation sans et avec dérivées 56