La Programmation dynamique de Richard Bellman · 1949 : rejoint RAND, un think tank des US Army Air...

La Programmation dynamiquede Richard Bellman

Jill-Jênn Vie

8 mai 2015

Nombres de Fibonacci

Approche naïvedef fibo(n):

if n <= 1:return n

else :return fibo(n - 1)

+ fibo(n - 2)

Programmation dynamiquedef fibo2(n):

f = [0] * (n + 1)f[1] = 1for i in range(2, n + 1):

f[i] = f[i - 2]+ f[i - 1]

return f[n]

Jill-Jênn Vie Programmation dynamique

Problème du sac à dos

ÉnoncéOn dispose de n objets de capacités c1, . . . , cn et valeursv1, . . . , vn. Étant donné un sac de capacité C, quel choix d’objetspermet d’obtenir une valeur maximale ?

Résolution du sac à dosSoit plusGrandeValeur[i][c] la plus grande valeur atteignableavec les i premiers objets et une capacité c (1 ≤ i ≤ n, 1 ≤ c ≤ C).

Pour le i-ième objet on a deux options :soit on le prend : vi + plusGrandeValeur[i − 1][c − ci]soit on ne le prend pas : plusGrandeValeur[i − 1][c].

nombre d’objets

capacité

Définition

DéfinitionLa programmation dynamique consiste à résoudre un problèmed’optimisation en combinant des solutions à des sous-problèmesstockées au préalable (approche bottom-up)

ConditionsSous-structure optimale : une solution optimale peut êtreobtenue à partir des solutions optimales de certainssous-problèmes.Il existe un ordre sur les sous-problèmes compatible avec lasous-structure optimale.

Mais…

PLOT TWIST

Non,c’est la discrétisation de l’équation d’Hamilton-Jacobi-Bellman !

−∂S(x, t)∂t = min

u∈Ω[G(x, u, t) +∇S(x, t) · f(x, u, t)] .

Applications de la programmation dynamique

AlgorithmiqueMathématiques : calcul des variations (EDP)Automatique : théorie du contrôle optimalMachine learning : apprentissage par renforcementCroissance économiqueProblèmes principal-agentFinances publiquesPolitique monétaire et budgétaireThéorie de la recherche d’emploiRéchauffement climatiqueFaim dans le monde

Richard Bellman

1920 – 19841946 : thèse à Princeton1949 : rejoint RAND, unthink tank des US Army AirForces39 livres619 articles de recherchepubliésdont Dynamic Programmingand Lagrange Multiplierscité 16 268 fois

Quelques dates

1953 : premier langage de programmation (Autocode)1953 : An Introduction to the Theory of DynamicProgramming1954 : The Theory of Dynamic Programming1957 : Dynamic Programming1957 : FORTRAN1958 : LISP1968 : The Art of Computer Programming tome 1

Politique optimale

Une politique optimale est telle que, quels que soient l’état initialet les décisions initiales, les décisions suivantes doivent constituerune politique optimale par rapport à l’état résultant des premièresdécisions.

Problème des mines d’or

ÉnoncéDeux mines d’or, l’une en Anaconda (quantité de minerai x),l’autre en Bonanza (quantité y).

Anaconda : probabilité p1 de récolter r1x 1− p1 de FAIL.Bonanza : probabilité q1 de récolter r2y 1− q1 de FAIL.

Quelle est l’action qui maximise la quantité espérée d’or ?

Soit f(x, y) l’espérance de la quantité d’or extraite avant FAIL.Si on choisit A : gain espéré → p1(r1x + f(x − r1x, y ))Si on choisit B : gain espéré → q1(r2y + f( x , y − r2y))

Il faut donc résoudre l’équation :

f(x, y) = max

p1(r1x + f((1− r1)x, y)q1(r2y + f(x, (1− r2)y)

Solution

Si p1r11− p1

x >q1r21− q1

y,Choisir A

SinonChoisir B.

L : p1r11−p1

x = q1r21−q1

f(x, y)

f(x, (1− r2)y)

f((1− r1)x, y)

Un autre problème

ÉnoncéOn dispose de k candidats Prologin et d’un immeuble à n étages.Pour déterminer l’étage critique, on jette des candidats par lafenêtre. (Si le candidat survit, on peut s’en resservir, sinon on ne peut pas.)En combien de sauts peut-on être sûr de connaître l’étage critique ?

Un algorithme pour k = 2

On répartit les étages en√

n paquets de√

n.On envoie un candidat aux étages :

√n, 2

√n, …

Puis l’autre aux étages : ℓ√

n + 1, ℓ√

n + 2, …Complexité : ⌊n/

√n⌋+

√n − 1 = O(

√n).

Résolution

Soit nbMinSauts[k][n] le nombre minimal de sauts à effectuer aveck candidats pour un bâtiment de n étages.

vous êtes ici

× → il reste k − 1 candidats, ℓ− 1 étages

→ il reste k candidats, n − ℓ étages

Il faut donc résoudre l’équation fonctionnelle :

nbMinSauts[k][n] = min1≤ℓ≤n

nbMinSauts[k][n − ℓ]nbMinSauts[k − 1][ℓ− 1]

Une dernière question

… D’où vient le nom « programmation dynamique » ?

Merci de votre attention !

Exercices laissés au spectateurMax le Texan (2007)Urgence réseau (2008)

À résoudre sur prologin.org.

La Programmation dynamique de Richard Bellman · 1949 : rejoint RAND, un think tank des US Army Air...

Documents

Being a Soldier in the Roman Imperial Army

Notre Histoire - Army Run

PREAVIS MUNICIPAL n° 619/19 - Grandson

11 Analyse Deffaillance Compresseur INGERSOLL RAND SSR ML 15

ARMY RULES - Accueil

At 43 Army Book Therian

L'éducation en milieu correctionnel aux États-Unis · Source : « How Effective Is Correctional Education and Where Do We Go from Here? », RAND Corporation, janvier 2014. RAND

“The Army Origin of the Royal Canadian Navy”: Canada’s

Walter Rand Transportation Center - njtransit.com · Walter Rand Transportation Center River LINE Station PATCO Platform (Below Ground) WAITING ... Woodbury, West Deptford, Paulsboro,

Tarifs - Delli.dell.com/sites/doccontent/business/smb/... · 619-AEOG Windows 8.1 (64Bit) Italian 115 619-AEOH Windows 8.1 (64Bit) Hebrew 115 295-10061 Software: No OS - Free DOS

Il Tema. La Rivolta Di Atlante - Ayn Rand

LRA (Lord’s Resistance Army) - Quaerius Analytics · 2016-11-14 · FICHE ADN S LRA (Lord’s Resistance Army) Emploi de la violence La LRA s’attaque surtout aux civils : enlèvements,

Étude de cas˜: Groupe Rand - mecaluxfr.cdnwm.com · Étude de cas˜: Groupe Rand Une ... Les rayonnages à palettes sont situés sur l’un des côtés de l’installation,

H ôtel R estaurant L e G rand T urc

Army Directive 2007-02 26 March 2007 · 2012-09-28 · Army Directive 2007-02 26 March 2007 3. Army Directive 2007-02 26 March 2007 4. Army Directive 2007-02 26 March 2007 5

RAND 111/211 T50 - cdn.pim.fittinq.com · RAND 111/211 T50 Rand 111/211 T50 L.LI.B.A3 Installeer het armatuur enkel in ruimten waar direct contact met water onmogelijk is. Cet êquipement

Conflict - Nelson Rand

Army Directive 2007-02 26 March 2007...Army Directive 2007-02 26 March 2007 33 Army Directive 2007-02 26 March 2007 34 Created Date 5/24/2007 10:39:45 AM

Marketing Plan Nup 2010 - Sun Tzu Army - iTi

ARMY BOOKY B - dynatmos.com€¦ · ARMY BOOKY B « Nul n’échappe à la guerre ! » « On est pas des putains de veinards, on est juste les meilleurs !