SlideShare une entreprise Scribd logo
1  sur  35
Télécharger pour lire hors ligne
Apprentissage par renforcement
Stéphane Airiau
Université Paris Dauphine
– (Stéphane Airiau) Reinforcement Learning 1
Un type d’apprentissage : apprentissage par renforcement
apprentissage supervisé :
les données contiennent des observations dont la réponse
pour les arbres de décision une classification
pour les réseaux de neurones on nous donne la valeur de la fonction
objective
apprentissage non-supervisé
On nous donne des données, on cherche à trouver des similitudes
ex : clustering
apprentissage par renforcement Un type d’apprentissage qui est
basé sur l’interaction avec son environnement.
Après chaque action exécutée dans un environnement, on reçoit un
signal dont l’intensité indique si on agit bien ou non
si on reçoit un encouragement, on fait quelque chose de bien et on
persevère
si on reçoit une punition, on a fait quelque chose de mal, et se doit de
changer quelque chose
initialement, on ne sait pas forcément dicerner un encouragement
d’une punition! 0.7, est-ce ou non bien?
– (Stéphane Airiau) Reinforcement Learning 2
Apprentissage par renforcement
Etat du monde st
At : ensemble
d’actions possibles
Exécution de
l’action at ∈ At
Le monde change
st → st+1
obtient récompense rt
Mise à jour de la politique
pour st
en utilisant st, at, st+1 et rt
But : accumuler le plus de récompenses
Apprentissage par renforcement : comment spécifier la fonction de
mise à jour?
– (Stéphane Airiau) Reinforcement Learning 3
Apprentissage par renforcement
ë dans ce cours, on va étudier une approche computationnelle pour ap-
prendre de son interaction.
Le but de l’apprentissage par renforcement est de savoir quoi faire dans
un contexte donné pour maximiser un signal récompense.
l’apprenti doit découvrir par lui-même les actions qui donnent les
plus hautes récompenses en les essayant!
ces choix peuvent avoir des conséquences sur la récompense
directement obtenue, mais aussi sur la situation suivante.
– (Stéphane Airiau) Reinforcement Learning 4
Récompenses
But choisir une action qui maximise la récompense future
les actions peuvent avoir des conséquences à long terme
l’obtention de la récompense peut avoir un délais
ë il peut être bon de sacrifier une bonne récompense immédiate
pour obtenir une meilleure récompense sur le long terme!
– (Stéphane Airiau) Reinforcement Learning 5
Un type d’apprentissage : apprentissage par renforcement
la récompense n’est pas donnée de manière instantanée (délais)
ë peut être il est difficile de savoir exactement ce qu’on a bien fait!)
ë en accumulant de l’expérience, on va apprendre à modifier le
comportement pour optimiser a récompense
le temps est donc important (les données ne sont pas i.i.d!)
L’apprentissage par renforcement travaille dans un monde incertain
le résulat d’une action ne peut pas être entièrement prédit
ë un agent doit surveiller son environnement et réagir à tout
changement
– (Stéphane Airiau) Reinforcement Learning 6
Exemple d’application
On peut utiliser l’apprentissage par renforcement pour résoudre des pro-
blèmes ou l’objectif est d’optimiser une fonction cumulative.
optimisation dans des usines, régulation du traffic aérien
(simulations)
ordonnancement (ex : quel taxi choisir pour une course)
jouer à des jeux (ex. les vieux jeux Atari, mieux que les meilleurs
humains)
en 1995 Tesauro (IBM Watson) à utilisé l’apprentissage par
renforcement pour son programme TD-Gammon qui joue au
backgammon au niveau des meilleurs mondiaux
avec les réseaux de neurones, l’apprentissage par renforcement est
utilisé par AlphaGo pour jouer au jeu de Go et gagner contre le
meilleur joueur humain
faire marcher un robot humanoid
publicité en ligne, campagne essais cliniques
– (Stéphane Airiau) Reinforcement Learning 7
Plan du cours
1. Introduction et bandits manchots.
2. Processus de décision Markovien (PDM) et modélisation.
3. Différents algorithmes pour résoudre un PDM :
programmation dynamique, méthodes de Monte Carlo, méthodes de
différences temporelles
4. Apprentissage par renforcement utilisant approximation
(ë utiliser des méthodes d’apprentissage supervisé)
Deep Q-learning, policy gradient
– (Stéphane Airiau) Reinforcement Learning 8
Evaluation du cours
(tentative)
20% CC – tester les algorithmes avec implémentation.
80% examen
– (Stéphane Airiau) Reinforcement Learning 9
Mise en bouche : le problème des k-bandits manchots
k bandits manchots ⇔ k machines à sous (en anglais k-armed bandit pro-
blem)
Supposons qu’on ait à notre disposition un saut de 1000 jetons pour jouer
aux machines à sous.
Supposons qu’il y a k machines à sous, et qu’elles ont des propriétés dif-
férentes sur les gains.
On suppose que chaque le fonctionnement machine est indépendente de
chacunde des autres.
Quelle est notre politique pour utiliser nos 1000 jetons?
– (Stéphane Airiau) Reinforcement Learning 10
Autres applications des bandits
Essais cliniques :
on a k molécules pour un symptôme et l’efficacité est incertaine.
ë étant donnée la réponse sur les précédents patients ayant le
même symptôme, quel traitement est à proposer?
Publicité en ligne (eee) k publicités peuvent être affichées
Laquelle doit-on afficher pour un utilisateur, basé sur le
comportement d’autres utilisateurs (similaires)?
dans des jeux (ex Go), on a k coups possibles, lequel choisir pour
nous mener à la victoire?
– (Stéphane Airiau) Reinforcement Learning 11
problème des k-bandits manchots
On note At la machine choisie pour jouer le tième jeton et Rt la récompense
obtenue.
On suppose que chaque machine a utilise une distribution de probabilité
de moyenne q?(a) = E[Rt | At = a]
Si on connaissait q?(a) pour chaque machine, le problème serait trivial
ë on passe notre temps à jouer argmax
a
q?(a)!
– (Stéphane Airiau) Reinforcement Learning 12
problème des k-bandits manchots
Mais on peut former une estimation.
Supposons qu’on ait une estimation pour chaque machine
vous jouez la machine qui a la meilleure estimation
ë "action gloutonne"
ë on exploite sa connaissance actuelle.
Vous ne jouez pas pas l’action gloutonne ë exploration.
Durant l’exploration, la récompense est moins bonne à court terme.
Mais elle peut permettre de plus grands gains à long terme!
ë il faut trouver un équilibre entre l’exploitation et l’exploration.
ce problème a été étudié en mathématique, et on peut construire des
méthodes sophistiquées pour trouver le meilleur équilibre, mais cela
nécessite des hypothèses précises sur les machines.
– (Stéphane Airiau) Reinforcement Learning 13
Une estimation simple
On va utiliser la moyenne des gains obtenus jusqu’au moment présent.
Qt(a) =
Somme des récompenses obtenues en jouant a
nombre de fois où on a joué a
=
t−1
X
i=1
Ri1Ai=a
t−1
X
i=1
1Ai=a
, où 1cond
1 si cond est vraie
0 sinon
en utilisant la loi des grands nombres, Qt(a) va converger vers q?(a).
lim
t→+∞
Qt(a) = q?(a)
– (Stéphane Airiau) Reinforcement Learning 14
Action gloutonne et exploration -gloutonne
Une action gloutonne est donc
argmax
a
Qt(a)
-glouton : une variante est d’être glouton presque tout le temps, et de
temps en temps, d’explorer aléatoirement
avec une probabilité , on choisit une action au hasard (en utilisant
une probabilité uniforme sur les machines)
avec une probabilité 1−, on choisit l’action gloutonne
– (Stéphane Airiau) Reinforcement Learning 15
Evaluation empirique
On utilise une simulation avec 10 machines à sous.
Pour chaque machine a, on génère q?(a) en tirant un échantillon
d’une distribution normale de moyenne 0 et de variance 1 (N(0,1)).
à chaque fois qu’on joue à la machine a, on tire un échantillon en
suivant une loi normale de moyenne q?(a) et de variance 1.
on utilise un algorithme en choisissant 1000 fois une machine.
ë un run
pour obtenir des informations plus fiables, on répète 2000 runs
(on tire au sort les valeurs q?, puis on choisit 1000 fois une machine)
– (Stéphane Airiau) Reinforcement Learning 16
Simulation
Exemple d’une expérience avec seulement 5 machines
Ici, la meilleure machine est 3, la moins bonne est 2.
– (Stéphane Airiau) Reinforcement Learning 17
Evaluation empirique : Glouton, -glouton
récompenses en moyenne
– (Stéphane Airiau) Reinforcement Learning 18
Evaluation empirique : Glouton, -glouton
fréquence du choix de la meilleure machine
– (Stéphane Airiau) Reinforcement Learning 19
Evaluation empirique : Glouton, -glouton
la méthode glouton se bloque trop vite sur une machine non
optimale.
0.1-glouton explore assez rapidement, mais va plafonner à la limite
(en théorie, devrait atteindre 91% de bon choix)
0.01-glouton explore plus lentement au début, mais avec plus
d’itérations, devrait atteindre un meilleur résultat.
en regardant ce graphe, et si vous avez 1000 jetons, quelle stratégie
utilisez vous?
– (Stéphane Airiau) Reinforcement Learning 20
Implémentation efficace
On tient à calculer l’estimation de la valeur des machines de manière com-
putationnellement efficace!
on veut éviter de stocker toutes les données
on veut éviter de faire une boucle pour calculer la moyenne
C’est trivial, mais c’est une préoccupation à avoir!
– (Stéphane Airiau) Reinforcement Learning 21
Implémentation efficace
Qn+1 =
1
n
n
X
i=1
Ri
=
1
n
Rn +
n−1
X
i=1
Ri
!
=
1
n
Rn +(n−1)
1
n−1
n−1
X
i=1
Ri
!
=
1
n
(Rn +(n−1)Qn)
=
1
n
(Rn +nQn −Qn)
= Qn +
1
n
(Rn +−Qn)
Dans ce cours, on va beaucoup utiliser une règle de mise à jour
estimatenew ← estimateold +α·(observation−estimateold)
– (Stéphane Airiau) Reinforcement Learning 22
Mise à jour
estimationnew ← estimationold +α·(observation−estimationold)
Etant donnée la nouvelle observation
s’il semble que notre estimation est surestimée
ë on baisse notre estimation
s’il sembe que notre estimation est sousestimée
ë on augmente notre estimation
(observation−estimateold) : estimation de l’erreur
la réduction ou l’augmentation se fait proportionnellement à
l’erreur, avec un coéfficient α (généralement petit).
α peut dépendre du nombre de mises à jour effectuées
dans notre exemple α = 1
n où n est le nombre de fois qu’on a choisi une
machine en particulier.
– (Stéphane Airiau) Reinforcement Learning 23
Et si le réglage des machines à sous varie au cours du temps?
Le problème est non-stationnaire et dépend donc du temps.
Idée : on peut donner un poids plus lourd aux récompenses récentes par
rapport aux récompenses obtenues il y a longtemps.
Par exemple :
Qn+1 = Qn +α[Rn −Qn]
où le paramètre α ∈]0,1].
Qn+1 = Qn +α[Rn −Qn]
= αRn +(1−α)Qn
= αRn +(1−α)[αRn−1 +(1−α)Qn−1]
= αRn +α(1−α)Rn−1 +(1−α)2
Qn−1
= αRn +α(1−α)Rn−1 +(1−α)2
[αRn−2 +(1−α)Qn−2]
= ...
= (1−α)n
Q1 +
n
X
i=1
α(1−α)n−i
Ri
– (Stéphane Airiau) Reinforcement Learning 24
Et si le réglage des machines à sous varie au cours du temps?
Qn+1 = (1−α)n
Q1 +
n
X
i=1
α(1−α)n−i
Ri
c’est une moyenne pondérée
on peut vérifier que la somme des poids est égale à 1
0  α 6 1 donc on a une chute exponentielle du poids en fonction de
l’ancienneté.
– (Stéphane Airiau) Reinforcement Learning 25
Initialisation de l’estimation
Quelle valeur pour Q1(a)?
le choix de Q1(a) peut introduire un biais
pas un problème en soi, et peut même être utile ë on peut forcer
l’exploration
idée : initialisation optimiste des valeurs initiales.
ëavec nos méthodes gloutonnes, on va explorer ces actions qui
apparaissent prometteuses
si ce ne sont pas de bonnes actions ë l’estimation va vite baisser
on va forcer que chaque action soit explorée un certains nombre de
fois, ce qui va aider la convergence!
– (Stéphane Airiau) Reinforcement Learning 26
Evaluation empirique
C’est une ruse qui fonctionne généralement bien pour les problèmes sta-
tionnaires.
– (Stéphane Airiau) Reinforcement Learning 27
Utiliser un intervalle de confiance
On a besoin d’explorer
-glouton traite les actions non-gloutonne de la même manière.
Cependant :
Certaines actions ont peut-être été utilisées plus souvent.
On n’a peut être pas intérêt à tester plusieurs fois une action
vraiment mauvaise.
Il faut peut être tester plus vite des actions qui paraissent plus
prometteuses.
ë confiance de l’estimation
ë Méthode des intervalles de confiance
– (Stéphane Airiau) Reinforcement Learning 28
Utiliser un intervalle de confiance
idée : essayer de mesurer l’incertitude sur la valeur Q(a) qu’on
estime
but : on calcule une borne supérieure probable de la valeur Q(a)
qu’on estime
La borne supérieure est calculée par l’expression
Qt(a)+c
s
logt
Nt(a)
plus la borne est élevée, plus a est prometteuse!
On va donc choisir l’action argmax
a

Qt(a)+c
s
logt
Nt(a)
#
ë On explore les actions les plus prometteuses
ë meilleure utilisation des échantillons.
– (Stéphane Airiau) Reinforcement Learning 29
Utiliser un intervalle de confiance
Qt(a)+c
s
logt
Nt(a)
N(a) est le nombre de fois où l’action a a été choisie
c est une constante qui détermine la mesure de confiance
t est le nombre total d’itérations
ë si a est choisie ë l’incertitude baisse (donc la borne aussi)
ë si a n’est pas choisie, t croît, et l’incertitude croît.
avec le log, l’accroissement devient de plus en plus petit.
Peter Auer, Nicolò Cesa-Bianchi, Paul Fischer. (2002). Finite-time Analysis of the
Multiarmed Bandit Problem, Machine Learning, 47, 235—256
– (Stéphane Airiau) Reinforcement Learning 30
Evaluation empirique
fréquence du choix de la meilleure machine
– (Stéphane Airiau) Reinforcement Learning 31
Utiliser un intervalle de confiance
Marche avec des problèmes de bandits stationnaires.
Personne n’a encore réussi à adapter ce type d’idée pour les modèles plus
compliqués d’apprentissage par renforcement que l’on va voir dans le
cours.
certains d’entre vous on peut-être vu son utilisation dans les jeux à deux
joueurs (Monte Carlo et UCB ont donné de bons résultats).
– (Stéphane Airiau) Reinforcement Learning 32
Montée de gradient stochastique
jusqu’ici : on apprend une estimation, puis on utilise cette
estimation pour choisir une action
maintenant, on veut apprendre une fonction de préférences : plus
on préfère une action, plus souvent on va la prendre.
On note Ht(a) la préférence pour l’action a au pas de temps t.
ë idée de distribution de Boltzmann
Pr{At = a} =
eHt(a)
10
X
b=1
eHt(b)
= πt(a)
On peut utiliser l’idée de la montée de gradient stochastique.
Ht+1(a) =
Ht(a)+α(Rt −R̄t)(1−πt(a)) if a = At
Ht(a)−α(Rt −R̄t)πt(a) otherwise
où R̄t est la moyenne des récompenses jusqu’au pas de temps t,
comme calculé avant.
– (Stéphane Airiau) Reinforcement Learning 33
Montée de gradient stochastique
– (Stéphane Airiau) Reinforcement Learning 34
Conclusion
On a vu une tâche dégénérée d’apprentissage par renforcement :
on doit choisir, grâce à notre expérience, un bandit manchot parmi n.
On a vu certains algorithmes plus ou moins simples qui peuvent
nous aider.
Evidemment, avec plus d’information, on pourrait avoir une
stratégie encore meilleure, voir optimale (ex : si on connait la
distribution pour choisir q?, si on exploitait le fait qu’ensuite chaque
machine suit une loi normale, etc...).
Dans la suite du cours, on va généraliser ces idées : l’outil de base
sera un processus décisionnel markovien (PDM) dans lequel on
aura des états, et on passera d’un état à un autre en choisissant une
action. L’état d’arrivée est stochastique et dépend de l’action et de
l’état précédent.
Dans le problème des bandits, on peut considérer que c’est un PDM
avec un seul état.
– (Stéphane Airiau) Reinforcement Learning 35

Contenu connexe

Dernier

analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxHadJer61
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 

Dernier (6)

analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptx
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

rl-01.pdf

  • 1. Apprentissage par renforcement Stéphane Airiau Université Paris Dauphine – (Stéphane Airiau) Reinforcement Learning 1
  • 2. Un type d’apprentissage : apprentissage par renforcement apprentissage supervisé : les données contiennent des observations dont la réponse pour les arbres de décision une classification pour les réseaux de neurones on nous donne la valeur de la fonction objective apprentissage non-supervisé On nous donne des données, on cherche à trouver des similitudes ex : clustering apprentissage par renforcement Un type d’apprentissage qui est basé sur l’interaction avec son environnement. Après chaque action exécutée dans un environnement, on reçoit un signal dont l’intensité indique si on agit bien ou non si on reçoit un encouragement, on fait quelque chose de bien et on persevère si on reçoit une punition, on a fait quelque chose de mal, et se doit de changer quelque chose initialement, on ne sait pas forcément dicerner un encouragement d’une punition! 0.7, est-ce ou non bien? – (Stéphane Airiau) Reinforcement Learning 2
  • 3. Apprentissage par renforcement Etat du monde st At : ensemble d’actions possibles Exécution de l’action at ∈ At Le monde change st → st+1 obtient récompense rt Mise à jour de la politique pour st en utilisant st, at, st+1 et rt But : accumuler le plus de récompenses Apprentissage par renforcement : comment spécifier la fonction de mise à jour? – (Stéphane Airiau) Reinforcement Learning 3
  • 4. Apprentissage par renforcement ë dans ce cours, on va étudier une approche computationnelle pour ap- prendre de son interaction. Le but de l’apprentissage par renforcement est de savoir quoi faire dans un contexte donné pour maximiser un signal récompense. l’apprenti doit découvrir par lui-même les actions qui donnent les plus hautes récompenses en les essayant! ces choix peuvent avoir des conséquences sur la récompense directement obtenue, mais aussi sur la situation suivante. – (Stéphane Airiau) Reinforcement Learning 4
  • 5. Récompenses But choisir une action qui maximise la récompense future les actions peuvent avoir des conséquences à long terme l’obtention de la récompense peut avoir un délais ë il peut être bon de sacrifier une bonne récompense immédiate pour obtenir une meilleure récompense sur le long terme! – (Stéphane Airiau) Reinforcement Learning 5
  • 6. Un type d’apprentissage : apprentissage par renforcement la récompense n’est pas donnée de manière instantanée (délais) ë peut être il est difficile de savoir exactement ce qu’on a bien fait!) ë en accumulant de l’expérience, on va apprendre à modifier le comportement pour optimiser a récompense le temps est donc important (les données ne sont pas i.i.d!) L’apprentissage par renforcement travaille dans un monde incertain le résulat d’une action ne peut pas être entièrement prédit ë un agent doit surveiller son environnement et réagir à tout changement – (Stéphane Airiau) Reinforcement Learning 6
  • 7. Exemple d’application On peut utiliser l’apprentissage par renforcement pour résoudre des pro- blèmes ou l’objectif est d’optimiser une fonction cumulative. optimisation dans des usines, régulation du traffic aérien (simulations) ordonnancement (ex : quel taxi choisir pour une course) jouer à des jeux (ex. les vieux jeux Atari, mieux que les meilleurs humains) en 1995 Tesauro (IBM Watson) à utilisé l’apprentissage par renforcement pour son programme TD-Gammon qui joue au backgammon au niveau des meilleurs mondiaux avec les réseaux de neurones, l’apprentissage par renforcement est utilisé par AlphaGo pour jouer au jeu de Go et gagner contre le meilleur joueur humain faire marcher un robot humanoid publicité en ligne, campagne essais cliniques – (Stéphane Airiau) Reinforcement Learning 7
  • 8. Plan du cours 1. Introduction et bandits manchots. 2. Processus de décision Markovien (PDM) et modélisation. 3. Différents algorithmes pour résoudre un PDM : programmation dynamique, méthodes de Monte Carlo, méthodes de différences temporelles 4. Apprentissage par renforcement utilisant approximation (ë utiliser des méthodes d’apprentissage supervisé) Deep Q-learning, policy gradient – (Stéphane Airiau) Reinforcement Learning 8
  • 9. Evaluation du cours (tentative) 20% CC – tester les algorithmes avec implémentation. 80% examen – (Stéphane Airiau) Reinforcement Learning 9
  • 10. Mise en bouche : le problème des k-bandits manchots k bandits manchots ⇔ k machines à sous (en anglais k-armed bandit pro- blem) Supposons qu’on ait à notre disposition un saut de 1000 jetons pour jouer aux machines à sous. Supposons qu’il y a k machines à sous, et qu’elles ont des propriétés dif- férentes sur les gains. On suppose que chaque le fonctionnement machine est indépendente de chacunde des autres. Quelle est notre politique pour utiliser nos 1000 jetons? – (Stéphane Airiau) Reinforcement Learning 10
  • 11. Autres applications des bandits Essais cliniques : on a k molécules pour un symptôme et l’efficacité est incertaine. ë étant donnée la réponse sur les précédents patients ayant le même symptôme, quel traitement est à proposer? Publicité en ligne (eee) k publicités peuvent être affichées Laquelle doit-on afficher pour un utilisateur, basé sur le comportement d’autres utilisateurs (similaires)? dans des jeux (ex Go), on a k coups possibles, lequel choisir pour nous mener à la victoire? – (Stéphane Airiau) Reinforcement Learning 11
  • 12. problème des k-bandits manchots On note At la machine choisie pour jouer le tième jeton et Rt la récompense obtenue. On suppose que chaque machine a utilise une distribution de probabilité de moyenne q?(a) = E[Rt | At = a] Si on connaissait q?(a) pour chaque machine, le problème serait trivial ë on passe notre temps à jouer argmax a q?(a)! – (Stéphane Airiau) Reinforcement Learning 12
  • 13. problème des k-bandits manchots Mais on peut former une estimation. Supposons qu’on ait une estimation pour chaque machine vous jouez la machine qui a la meilleure estimation ë "action gloutonne" ë on exploite sa connaissance actuelle. Vous ne jouez pas pas l’action gloutonne ë exploration. Durant l’exploration, la récompense est moins bonne à court terme. Mais elle peut permettre de plus grands gains à long terme! ë il faut trouver un équilibre entre l’exploitation et l’exploration. ce problème a été étudié en mathématique, et on peut construire des méthodes sophistiquées pour trouver le meilleur équilibre, mais cela nécessite des hypothèses précises sur les machines. – (Stéphane Airiau) Reinforcement Learning 13
  • 14. Une estimation simple On va utiliser la moyenne des gains obtenus jusqu’au moment présent. Qt(a) = Somme des récompenses obtenues en jouant a nombre de fois où on a joué a = t−1 X i=1 Ri1Ai=a t−1 X i=1 1Ai=a , où 1cond 1 si cond est vraie 0 sinon en utilisant la loi des grands nombres, Qt(a) va converger vers q?(a). lim t→+∞ Qt(a) = q?(a) – (Stéphane Airiau) Reinforcement Learning 14
  • 15. Action gloutonne et exploration -gloutonne Une action gloutonne est donc argmax a Qt(a) -glouton : une variante est d’être glouton presque tout le temps, et de temps en temps, d’explorer aléatoirement avec une probabilité , on choisit une action au hasard (en utilisant une probabilité uniforme sur les machines) avec une probabilité 1−, on choisit l’action gloutonne – (Stéphane Airiau) Reinforcement Learning 15
  • 16. Evaluation empirique On utilise une simulation avec 10 machines à sous. Pour chaque machine a, on génère q?(a) en tirant un échantillon d’une distribution normale de moyenne 0 et de variance 1 (N(0,1)). à chaque fois qu’on joue à la machine a, on tire un échantillon en suivant une loi normale de moyenne q?(a) et de variance 1. on utilise un algorithme en choisissant 1000 fois une machine. ë un run pour obtenir des informations plus fiables, on répète 2000 runs (on tire au sort les valeurs q?, puis on choisit 1000 fois une machine) – (Stéphane Airiau) Reinforcement Learning 16
  • 17. Simulation Exemple d’une expérience avec seulement 5 machines Ici, la meilleure machine est 3, la moins bonne est 2. – (Stéphane Airiau) Reinforcement Learning 17
  • 18. Evaluation empirique : Glouton, -glouton récompenses en moyenne – (Stéphane Airiau) Reinforcement Learning 18
  • 19. Evaluation empirique : Glouton, -glouton fréquence du choix de la meilleure machine – (Stéphane Airiau) Reinforcement Learning 19
  • 20. Evaluation empirique : Glouton, -glouton la méthode glouton se bloque trop vite sur une machine non optimale. 0.1-glouton explore assez rapidement, mais va plafonner à la limite (en théorie, devrait atteindre 91% de bon choix) 0.01-glouton explore plus lentement au début, mais avec plus d’itérations, devrait atteindre un meilleur résultat. en regardant ce graphe, et si vous avez 1000 jetons, quelle stratégie utilisez vous? – (Stéphane Airiau) Reinforcement Learning 20
  • 21. Implémentation efficace On tient à calculer l’estimation de la valeur des machines de manière com- putationnellement efficace! on veut éviter de stocker toutes les données on veut éviter de faire une boucle pour calculer la moyenne C’est trivial, mais c’est une préoccupation à avoir! – (Stéphane Airiau) Reinforcement Learning 21
  • 22. Implémentation efficace Qn+1 = 1 n n X i=1 Ri = 1 n Rn + n−1 X i=1 Ri ! = 1 n Rn +(n−1) 1 n−1 n−1 X i=1 Ri ! = 1 n (Rn +(n−1)Qn) = 1 n (Rn +nQn −Qn) = Qn + 1 n (Rn +−Qn) Dans ce cours, on va beaucoup utiliser une règle de mise à jour estimatenew ← estimateold +α·(observation−estimateold) – (Stéphane Airiau) Reinforcement Learning 22
  • 23. Mise à jour estimationnew ← estimationold +α·(observation−estimationold) Etant donnée la nouvelle observation s’il semble que notre estimation est surestimée ë on baisse notre estimation s’il sembe que notre estimation est sousestimée ë on augmente notre estimation (observation−estimateold) : estimation de l’erreur la réduction ou l’augmentation se fait proportionnellement à l’erreur, avec un coéfficient α (généralement petit). α peut dépendre du nombre de mises à jour effectuées dans notre exemple α = 1 n où n est le nombre de fois qu’on a choisi une machine en particulier. – (Stéphane Airiau) Reinforcement Learning 23
  • 24. Et si le réglage des machines à sous varie au cours du temps? Le problème est non-stationnaire et dépend donc du temps. Idée : on peut donner un poids plus lourd aux récompenses récentes par rapport aux récompenses obtenues il y a longtemps. Par exemple : Qn+1 = Qn +α[Rn −Qn] où le paramètre α ∈]0,1]. Qn+1 = Qn +α[Rn −Qn] = αRn +(1−α)Qn = αRn +(1−α)[αRn−1 +(1−α)Qn−1] = αRn +α(1−α)Rn−1 +(1−α)2 Qn−1 = αRn +α(1−α)Rn−1 +(1−α)2 [αRn−2 +(1−α)Qn−2] = ... = (1−α)n Q1 + n X i=1 α(1−α)n−i Ri – (Stéphane Airiau) Reinforcement Learning 24
  • 25. Et si le réglage des machines à sous varie au cours du temps? Qn+1 = (1−α)n Q1 + n X i=1 α(1−α)n−i Ri c’est une moyenne pondérée on peut vérifier que la somme des poids est égale à 1 0 α 6 1 donc on a une chute exponentielle du poids en fonction de l’ancienneté. – (Stéphane Airiau) Reinforcement Learning 25
  • 26. Initialisation de l’estimation Quelle valeur pour Q1(a)? le choix de Q1(a) peut introduire un biais pas un problème en soi, et peut même être utile ë on peut forcer l’exploration idée : initialisation optimiste des valeurs initiales. ëavec nos méthodes gloutonnes, on va explorer ces actions qui apparaissent prometteuses si ce ne sont pas de bonnes actions ë l’estimation va vite baisser on va forcer que chaque action soit explorée un certains nombre de fois, ce qui va aider la convergence! – (Stéphane Airiau) Reinforcement Learning 26
  • 27. Evaluation empirique C’est une ruse qui fonctionne généralement bien pour les problèmes sta- tionnaires. – (Stéphane Airiau) Reinforcement Learning 27
  • 28. Utiliser un intervalle de confiance On a besoin d’explorer -glouton traite les actions non-gloutonne de la même manière. Cependant : Certaines actions ont peut-être été utilisées plus souvent. On n’a peut être pas intérêt à tester plusieurs fois une action vraiment mauvaise. Il faut peut être tester plus vite des actions qui paraissent plus prometteuses. ë confiance de l’estimation ë Méthode des intervalles de confiance – (Stéphane Airiau) Reinforcement Learning 28
  • 29. Utiliser un intervalle de confiance idée : essayer de mesurer l’incertitude sur la valeur Q(a) qu’on estime but : on calcule une borne supérieure probable de la valeur Q(a) qu’on estime La borne supérieure est calculée par l’expression Qt(a)+c s logt Nt(a) plus la borne est élevée, plus a est prometteuse! On va donc choisir l’action argmax a Qt(a)+c s logt Nt(a) # ë On explore les actions les plus prometteuses ë meilleure utilisation des échantillons. – (Stéphane Airiau) Reinforcement Learning 29
  • 30. Utiliser un intervalle de confiance Qt(a)+c s logt Nt(a) N(a) est le nombre de fois où l’action a a été choisie c est une constante qui détermine la mesure de confiance t est le nombre total d’itérations ë si a est choisie ë l’incertitude baisse (donc la borne aussi) ë si a n’est pas choisie, t croît, et l’incertitude croît. avec le log, l’accroissement devient de plus en plus petit. Peter Auer, Nicolò Cesa-Bianchi, Paul Fischer. (2002). Finite-time Analysis of the Multiarmed Bandit Problem, Machine Learning, 47, 235—256 – (Stéphane Airiau) Reinforcement Learning 30
  • 31. Evaluation empirique fréquence du choix de la meilleure machine – (Stéphane Airiau) Reinforcement Learning 31
  • 32. Utiliser un intervalle de confiance Marche avec des problèmes de bandits stationnaires. Personne n’a encore réussi à adapter ce type d’idée pour les modèles plus compliqués d’apprentissage par renforcement que l’on va voir dans le cours. certains d’entre vous on peut-être vu son utilisation dans les jeux à deux joueurs (Monte Carlo et UCB ont donné de bons résultats). – (Stéphane Airiau) Reinforcement Learning 32
  • 33. Montée de gradient stochastique jusqu’ici : on apprend une estimation, puis on utilise cette estimation pour choisir une action maintenant, on veut apprendre une fonction de préférences : plus on préfère une action, plus souvent on va la prendre. On note Ht(a) la préférence pour l’action a au pas de temps t. ë idée de distribution de Boltzmann Pr{At = a} = eHt(a) 10 X b=1 eHt(b) = πt(a) On peut utiliser l’idée de la montée de gradient stochastique. Ht+1(a) = Ht(a)+α(Rt −R̄t)(1−πt(a)) if a = At Ht(a)−α(Rt −R̄t)πt(a) otherwise où R̄t est la moyenne des récompenses jusqu’au pas de temps t, comme calculé avant. – (Stéphane Airiau) Reinforcement Learning 33
  • 34. Montée de gradient stochastique – (Stéphane Airiau) Reinforcement Learning 34
  • 35. Conclusion On a vu une tâche dégénérée d’apprentissage par renforcement : on doit choisir, grâce à notre expérience, un bandit manchot parmi n. On a vu certains algorithmes plus ou moins simples qui peuvent nous aider. Evidemment, avec plus d’information, on pourrait avoir une stratégie encore meilleure, voir optimale (ex : si on connait la distribution pour choisir q?, si on exploitait le fait qu’ensuite chaque machine suit une loi normale, etc...). Dans la suite du cours, on va généraliser ces idées : l’outil de base sera un processus décisionnel markovien (PDM) dans lequel on aura des états, et on passera d’un état à un autre en choisissant une action. L’état d’arrivée est stochastique et dépend de l’action et de l’état précédent. Dans le problème des bandits, on peut considérer que c’est un PDM avec un seul état. – (Stéphane Airiau) Reinforcement Learning 35