Bandits Algo KL-UCB par Garivier
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Bandits Algo KL-UCB par Garivier

on

  • 1,930 views

Aurélien Garivier, ENST, Bandits, Algorithme KL-UCB

Aurélien Garivier, ENST, Bandits, Algorithme KL-UCB

Statistics

Views

Total Views
1,930
Views on SlideShare
1,132
Embed Views
798

Actions

Likes
0
Downloads
5
Comments
0

11 Embeds 798

http://previsions.blogspot.com 578
http://previsions.blogspot.fr 160
http://www.previsions.blogspot.com 41
http://previsions.blogspot.ca 5
http://previsions.blogspot.de 3
http://previsions.blogspot.com.au 2
http://previsions.blogspot.co.uk 2
http://previsions.blogspot.jp 2
http://previsions.blogspot.ch 2
http://www.directrss.co.il 2
http://www.previsions.blogspot.fr 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Bandits Algo KL-UCB par Garivier Presentation Transcript

  • 1. L’algorithme KL-UCB pour les bandits born´s, et e au del` [arXiv:1102.2490] a Aur´lien Garivier et Olivier Capp´ e e CNRS & Telecom ParisTech 10 juin 2011
  • 2. Le mod`le ePlan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 3. Le mod`le eApprentissage par renforcement Etat St dilemme exploration Agent Envir. Action At exploitation R´compense Xt e RL = apprentissage classique (notion de r´compense) e RL = th´orie des jeux (environnement indiff´rent) e e
  • 4. Le mod`le eExemple : essais cliniques s´quentiels e Pour fixer les id´es, on consid`re le cas de figure suivant : e e probl`me : des patients atteints d’une certaine maladies sont e diagnostiqu´s au fil du temps e outils : on dispose de plusieurs traitements mal dont l’efficacit´ est a priori inconnue e d´roulement : on traite chaque patient avec un traitement, et on e observe le r´sultat (binaire) e objectif : soigner un maximum de patients (et pas connaˆıtre pr´cis´ment l’efficacit´ de chaque traitement) e e e
  • 5. Le mod`le eLe probl`me des bandits stochastiques e Environment K bras, param`tre θ = (θ1 , . . . , θK ) ∈ [0, 1]K e L’allocation de bras at ∈ {1, . . . , K} conduit `a r´compense e Yt = Xat ,t o` Xi,s = 1{Us ≤ θi }, pour 1 ≤ i ≤ K, s ≥ 1, et u iid (Us )s ∼ U[0, 1]. Strat´gie r`gle d’allocation dynamique : π = (π1 , π2 , . . . ) tq e e At = πt (Y1 , . . . , Yt−1 ) Nombre de tirages du bras b ∈ {1, . . . , K} : Ntπ (b) = 1{As = b} s≤t
  • 6. Le mod`le ePerformance, regret R´compense cumul´e : Sn = Y1 + · · · + Yn , e e n≥1 Notre objectif : choisir π de mani`re ` maximiser e a n K E [Sn ] = E E [Yt 1{At = b}|Y1 , . . . , Yt−1 ] t=1 b=1 K π = θb E [Nn (b)] b=1 Objectif ´quivalent : minimiser le regret e Rn (θ) = nθ∗ − E [Sn ] = (θ∗ − θb )E [Nn (b)] π b:θb <θ∗ o` θ∗ = max{θb : 1 ≤ b ≤ K}. u
  • 7. Une borne inf´rieure pour le regret ePlan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 8. Une borne inf´rieure pour le regret eStrat´gie consistante e une strat´gie π est dite consistante si, pour tout θ ∈ [0, 1]K , e 1 E[Sn ] → θ∗ n c’est-`-dire si elle finit par se concentrer sur le meilleur a traitement elle est efficace si pour tout θ ∈ [0, 1]K et pour tout a > 0, Rn (θ) = o(na ) c’est-`-dire si le nombre de mauvais traitements adminsitr´s a e est sous-polynˆmial o on construit assez ais´ment des strat´gies efficaces, mais e e moins facilement des strat´gies optimales e
  • 9. Une borne inf´rieure pour le regret eLa borne de Lai et Robbins Th´or`me [Lai&Robbins, ’85] e e Si π est une strat´gie efficace, alors pour tout θ ∈ [0, 1]K e Rn (θ) θ ∗ − θb lim inf ≥ n→∞ log(n) kl(θb , θ∗ ) b:θb <θ∗ o` u p 1−p kl(p, q) = p log + (1 − p) log q 1−q d´signe la divergence de Kullback-Leibler entre la loi B(p) et la loi e B(q), 0 ≤ p, q ≤ 1.
  • 10. KL-UCB : un algorithme optimistePlan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 11. KL-UCB : un algorithme optimistePrincipe d’optimisme Algorithmes optimistes : [Lai&Robins ’85 ; Agrawal ’95] Fais comme si tu te trouvais dans l’environnement qui t’est le plus favorable parmi tous ceux qui rendent les observations suffisamment vraisemblables De fa¸on plutˆt inattendue, les m´thodes optimistes se r´v`lent c o e e e pertinentes dans des cadres tr`s diff´rents, efficaces, robustes et e e simples ` mettre en oeuvre a
  • 12. KL-UCB : un algorithme optimisteStrat´gies ”Upper Confidence Bound” e UCB [Lai&Robins ’85 ; Auer&al ’02 ; Audibert&al ’07] Construit une UCB pour chaque bras : St (a) log(t) + Nt (a) 2Nt (a) r´compense moyenne estim´e e e bonus d’exploration Choisis le bras qui la plus grande UCB Avantage : comportement facilement interpr´table et “acceptable” e Borne sur le regret : 1 E[Rn ] ∗−θ ) log(n) ∗ 2(θ a a:θa <θ Politique d’indice : on calcule un indice par bras et on choisit celui qui est le plus ´lev´, cf. [Gittins ’79] e e
  • 13. KL-UCB : un algorithme optimisteUCB en action D´but e
  • 14. KL-UCB : un algorithme optimisteUCB en action D´but e
  • 15. KL-UCB : un algorithme optimisteKL-UCB Require: n (horizon), K (nb de bras), REWARD (r´compenses) e 1: for t = 1 to K do 2: N [t] ← 1 3: S[t] ← REWARD(arm = t) 4: end for 5: for t = K + 1 to n do 6: S[a] a ← arg max max q ∈ Θ : N [a] kl ,q ≤ log(t) 1≤a≤K N [a] 7: r ← REWARD(arm = a) 8: N [a] ← N [a] + 1 9: S[a] ← S[a] + r 10: end for
  • 16. KL-UCB : un algorithme optimisteR´gion de confiance KL e iid Si Z1 , . . . , Zs ∼ B(θ0 ), et si kl(⋅,θ) ps = (Z1 + · · · + Zs )/s, alors ˆ −log(α)/s P (ˆs < x) ≤ exp (−s kl(x, θ0 )) p 0 x θ0 Autrement dit, si α = exp (−s kl(x, θ0 )) : log(α) P (ˆs < x) = P kl(ˆs , θ0 ) > − p p , ps < θ ˆ ≤α s D’o` une borne de confiance sup´rieure pour p au risque α : u e log(α) us = sup θ > ps : kl(ˆs , θ) ≤ − ˆ p s
  • 17. KL-UCB : un algorithme optimisteR´gion de confiance KL e iid kl(ps,⋅) Si Z1 , . . . , Zs ∼ B(θ0 ), et si kl(⋅,θ) ps = (Z1 + · · · + Zs )/s, alors ˆ −log(α)/s P (ˆs < x) ≤ exp (−s kl(x, θ0 )) p 0 ps us Autrement dit, si α = exp (−s kl(x, θ0 )) : log(α) P (ˆs < x) = P kl(ˆs , θ0 ) > − p p , ps < θ ˆ ≤α s D’o` une borne de confiance sup´rieure pour p au risque α : u e log(α) us = sup θ > ps : kl(ˆs , θ) ≤ − ˆ p s
  • 18. KL-UCB : un algorithme optimisteBorne de regret Th´or`me[G., Capp´ ’11] : e e e Soit θ ∈ [0, 1]K , et soit b ∈ {1, . . . , K} tel que θb < θ∗ . Pour tout > 0 il existe C1 , C2 ( ) et β( ) tels que KL−U CB log(n) C2 ( ) E[Nn (b)] ≤ ∗) (1 + ) + C1 log(log(n)) + β( ) . kl(θb , θ n Corollaire : θ ∗ − θb Rn (θ) log(n) kl(θb , θ∗ ) b:θb <θ∗ =⇒ KL-UCB est asymptotiquement optimal, et on dispose d’une borne pour son regret en temps fini.
  • 19. KL-UCB : un algorithme optimisteIngr´dient essentiel : d´viations auto-normalis´es e e e Pour l’analyse, il faut contrˆler les d´viations auto-normalis´es, o e e mesur´es dans la bonne m´trique, de la moyenne empirique : e e Th´or`me e e Soit (Xt )t ≥ 1 une suite de v.a. ind´pendantes de loi B(θ) sur e (Ω, F, P). Soit Ft be une suite croissante de tribus de F tq ∀t, σ(X1 . . . , Xt ) ⊂ Ft et pour s > t, Xs est ind´pendante de Ft . e Soit( t )t≥1 une suite pr´visible de variables de Bernoulli. On e d´finit, pour tout δ > 0 : e n n ˆ S(n) S(n) = s Xs , N (n) = s , θ(n) = , N (n) s=1 s=1 ˆ ˆ u(n) = max q > θn : N (n)d θ(n), q ≤ δ . Alors P (u(n) < θ) ≤ e δ log(n) exp(−δ) P N (n)d(ˆ(n), θ) > δ ≤ 2e δ log(n) exp(−δ) µ
  • 20. KL-UCB : un algorithme optimisteSimulations : sc´nario ` deux bras e a 500 4000 450 UCB 3500 MOSS 400 UCB−Tuned 3000 UCB−V 350 DMED KL−UCB 2500 300 bound N (n) N (n) 2000 2 250 2 200 1500 150 1000 100 500 50 0 0 UCB MOSS UCB−Tuned UCB−V DMED KL−UCB 2 3 4 10 10 10 n (log scale) Fig.: Performance de diff´rents algorithmes dans le sc´nario ` deux bras e e a o` θ = (0.9, 0.8). A gauche : nombre moyen de tirages du bras u sous-optimal en fonction du temps. A droite : distribution du nombre de tirages du bras 2 au temps n = 5000. R´sultats bas´s sur 50000 e e exp´riences ind´pendantes. e e
  • 21. KL-UCB : un algorithme optimisteSimulations : sc´nario ` r´compenses faibles e a e UCB MOSS UCB−V 500 500 500 400 400 400 300 300 300 Rn 200 200 200 100 100 100 0 2 3 4 0 2 3 4 0 2 3 4 10 10 10 10 10 10 10 10 10 UCB−Tuned DMED KL−UCB 500 500 500 400 400 400 300 300 300 Rn 200 200 200 100 100 100 0 2 0 2 0 2 10 103 104 10 103 104 10 103 104 CP−UCB DMED+ KL−UCB+ 500 500 500 400 400 400 300 300 300 Rn 200 200 200 100 100 100 0 2 0 2 0 2 10 103 104 10 103 104 10 103 104 n (log scale) n (log scale) n (log scale) Fig.: Regrets de diff´rents algorithmes en fonction du temps pour un e sc´nario ` dix bras o` e a u θ = (0.1, 0.05, 0.05, 0.05, 0.02, 0.02, 0.02, 0.01, 0.01, 0.01). Ligne rouge pointill´e : borne inf´rieure de Lai&Robbins. Ligne ´paisse : regret moyen. e e e R´gions gris´es : r´gion centrale ` 99% et le quantile ` 99, 95%. e e e a a
  • 22. Et au del`... aPlan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 23. Et au del`... aR´compenses born´es e e Il suffit de ramener les r´compenses dans [0, 1], et on peut utiliser e le mˆme algorithme KL-UCB et obtenir les mˆmes bornes de regret e e grˆce au a Lemme : soit X une variable al´atoire ` valeur dans [0, 1], et soit µ = E[X]. e a Alors, pour tout λ ∈ R, E [exp(λX)] ≤ 1 − µ + µ exp(λ) . KL-UCB fait toujours mieux que UCB : In´galit´ de Pinsker e e kl(µ1 , µ2 ) ≥ 2(µ1 − µ2 )2 Toutefois, il peut y avoir mieux ` faire si les distributions des a r´compenses ont une faible variance par rapport ` la loi de e a Bernoulli correspondante.
  • 24. Et au del`... aComparaison UCB vs KL-UCB 1 0.9 kl(0.7, q) 0.8 2(0.7−q)2 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 1.2 q
  • 25. Et au del`... aSimulations : exponentielles born´es e 1200 UCB MOSS UCB−Tuned 1000 UCB−V KL−UCB KL−UCB−exp 800 n R 600 400 200 0 2 3 4 10 10 10 n (log scale) Fig.: Regret de diff´rentes politiques en fonction du temps, sur le e sc´nario des exponentielles born´es. e e
  • 26. Et au del`... aR´compenses dans la famille exponentielle e La mˆme preuve se g´n´ralise directement ` des r´compenses e e e a e dont les distributions admettent par rapport ` une mesure a dominante une densit´ pouvant s’´crire e e pθa (x) = exp xθi − b(θa ) + c(x) , 1≤a≤K pour un certain param`tre θ ∈ RK e L’algorithme reste le mˆme, seule la d´finition de la fonction e e kl est modifi´e - par exemple, pour des r´compenses de loi e e exponentielle : x kl(x, y) = y − x + x log y Une in´galit´ de d´viation analogue se prouve alors de la e e e mˆme fa¸on, et conduit aux mˆme bornes de regret e c e
  • 27. Et au del`... aBandits non stationnaires On autorise les distributions des r´compenses ` varier e a brutalement au cours du temps L’objectif est alors de faire poursuivre le meilleur bras Application : dans un scanner ` effet tunel, la qualit´ de a e l’image d´pend d’un r´glage mais les distributions peuvent e e brutalement changer en cas de d´placement inopin´ de la e e pointe On ´tudie alors D-UCB et SW-UCB [G. Moulines ’08], e variantes qui incluent un oubli (progressif) du pass´ e √ On montre des bornes de regret en O( n log n), qui sont (presque) optimales
  • 28. Et au del`... aBandits lin´aires / lin´aires g´n´ralis´s e e e e e Mod`le de bandit avec information contextuelle : e E[Xt |At ] = µ(mAt θ∗ ) o` θ∗ ∈ Rd d´signe un param`tre inconnu et o` µ : R → R u e e u est la fonction de lien dans un mod`le lin´aire g´n´ralis´ e e e e e Exemple : pour des r´compenses binaires e exp(x) µ(x) = 1 + exp(x) Application : publicit´ cibl´e sur internet e e GLM-UCB [Filippi, Capp´, G. ’10], borne de regret d´pendant e e de d et pas du nombre d’actions possibles
  • 29. Et au del`... aOptimisation stochastique Objectif : trouver le maximum (ou les quantiles) d’une fonction f : C ⊂ Rd → R observ´e dans du bruit (ou pas) e Application : exposition aux ondes ´lectro-magn´tiques (indice e e DAS = SAR) Mod´lisation : f est la r´alisation d’un processus Gaussien, ou e e alors fonction de faible norme dans le RKHS associ´ au noyau e de ce processus GP-UCB : jouer le point x ∈ C pour lequel l’intervalle de confiance est le plus haut
  • 30. Et au del`... aProcessus de D´cision Markoviens e Le syst`me est dans un ´tat St qui ´volue de fa¸on markovienne : e e e c St+1 ∼ P (·; St , At ) et Rt = r(St , At ) + t Exemple / Benchmark : RiverSwim [Strehl&Littman’08] 0.4 0.6 0.6 0.6 0.6 0.6 Action 1 0.6 0.35 0.35 0.35 0.35 R=5 1 2 3 4 5 6 R=10000 0.05 0.05 0.05 0.05 0.4 Action 2 courant
  • 31. Et au del`... aOptimisme pour les MDP Le paradigme optimiste conduit ` la recherche d’une matrice de a transition ”la plus avantageuse” dans un voisinage de son estimateur de maximum de vraisemblance. L’utilisation de voisinages de Kullback-Leibler, autoris´e par des e in´galit´s de d´viations semblables ` celles montr´es plus haut, e e e a e conduisent ` des algorithmes plus efficaces ayant de meilleures a propri´t´s ee