Bandits Algo KL-UCB par Garivier

  • 1,587 views
Uploaded on

Aurélien Garivier, ENST, Bandits, Algorithme KL-UCB

Aurélien Garivier, ENST, Bandits, Algorithme KL-UCB

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,587
On Slideshare
0
From Embeds
0
Number of Embeds
6

Actions

Shares
Downloads
5
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. L’algorithme KL-UCB pour les bandits born´s, et e au del` [arXiv:1102.2490] a Aur´lien Garivier et Olivier Capp´ e e CNRS & Telecom ParisTech 10 juin 2011
  • 2. Le mod`le ePlan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 3. Le mod`le eApprentissage par renforcement Etat St dilemme exploration Agent Envir. Action At exploitation R´compense Xt e RL = apprentissage classique (notion de r´compense) e RL = th´orie des jeux (environnement indiff´rent) e e
  • 4. Le mod`le eExemple : essais cliniques s´quentiels e Pour fixer les id´es, on consid`re le cas de figure suivant : e e probl`me : des patients atteints d’une certaine maladies sont e diagnostiqu´s au fil du temps e outils : on dispose de plusieurs traitements mal dont l’efficacit´ est a priori inconnue e d´roulement : on traite chaque patient avec un traitement, et on e observe le r´sultat (binaire) e objectif : soigner un maximum de patients (et pas connaˆıtre pr´cis´ment l’efficacit´ de chaque traitement) e e e
  • 5. Le mod`le eLe probl`me des bandits stochastiques e Environment K bras, param`tre θ = (θ1 , . . . , θK ) ∈ [0, 1]K e L’allocation de bras at ∈ {1, . . . , K} conduit `a r´compense e Yt = Xat ,t o` Xi,s = 1{Us ≤ θi }, pour 1 ≤ i ≤ K, s ≥ 1, et u iid (Us )s ∼ U[0, 1]. Strat´gie r`gle d’allocation dynamique : π = (π1 , π2 , . . . ) tq e e At = πt (Y1 , . . . , Yt−1 ) Nombre de tirages du bras b ∈ {1, . . . , K} : Ntπ (b) = 1{As = b} s≤t
  • 6. Le mod`le ePerformance, regret R´compense cumul´e : Sn = Y1 + · · · + Yn , e e n≥1 Notre objectif : choisir π de mani`re ` maximiser e a n K E [Sn ] = E E [Yt 1{At = b}|Y1 , . . . , Yt−1 ] t=1 b=1 K π = θb E [Nn (b)] b=1 Objectif ´quivalent : minimiser le regret e Rn (θ) = nθ∗ − E [Sn ] = (θ∗ − θb )E [Nn (b)] π b:θb <θ∗ o` θ∗ = max{θb : 1 ≤ b ≤ K}. u
  • 7. Une borne inf´rieure pour le regret ePlan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 8. Une borne inf´rieure pour le regret eStrat´gie consistante e une strat´gie π est dite consistante si, pour tout θ ∈ [0, 1]K , e 1 E[Sn ] → θ∗ n c’est-`-dire si elle finit par se concentrer sur le meilleur a traitement elle est efficace si pour tout θ ∈ [0, 1]K et pour tout a > 0, Rn (θ) = o(na ) c’est-`-dire si le nombre de mauvais traitements adminsitr´s a e est sous-polynˆmial o on construit assez ais´ment des strat´gies efficaces, mais e e moins facilement des strat´gies optimales e
  • 9. Une borne inf´rieure pour le regret eLa borne de Lai et Robbins Th´or`me [Lai&Robbins, ’85] e e Si π est une strat´gie efficace, alors pour tout θ ∈ [0, 1]K e Rn (θ) θ ∗ − θb lim inf ≥ n→∞ log(n) kl(θb , θ∗ ) b:θb <θ∗ o` u p 1−p kl(p, q) = p log + (1 − p) log q 1−q d´signe la divergence de Kullback-Leibler entre la loi B(p) et la loi e B(q), 0 ≤ p, q ≤ 1.
  • 10. KL-UCB : un algorithme optimistePlan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 11. KL-UCB : un algorithme optimistePrincipe d’optimisme Algorithmes optimistes : [Lai&Robins ’85 ; Agrawal ’95] Fais comme si tu te trouvais dans l’environnement qui t’est le plus favorable parmi tous ceux qui rendent les observations suffisamment vraisemblables De fa¸on plutˆt inattendue, les m´thodes optimistes se r´v`lent c o e e e pertinentes dans des cadres tr`s diff´rents, efficaces, robustes et e e simples ` mettre en oeuvre a
  • 12. KL-UCB : un algorithme optimisteStrat´gies ”Upper Confidence Bound” e UCB [Lai&Robins ’85 ; Auer&al ’02 ; Audibert&al ’07] Construit une UCB pour chaque bras : St (a) log(t) + Nt (a) 2Nt (a) r´compense moyenne estim´e e e bonus d’exploration Choisis le bras qui la plus grande UCB Avantage : comportement facilement interpr´table et “acceptable” e Borne sur le regret : 1 E[Rn ] ∗−θ ) log(n) ∗ 2(θ a a:θa <θ Politique d’indice : on calcule un indice par bras et on choisit celui qui est le plus ´lev´, cf. [Gittins ’79] e e
  • 13. KL-UCB : un algorithme optimisteUCB en action D´but e
  • 14. KL-UCB : un algorithme optimisteUCB en action D´but e
  • 15. KL-UCB : un algorithme optimisteKL-UCB Require: n (horizon), K (nb de bras), REWARD (r´compenses) e 1: for t = 1 to K do 2: N [t] ← 1 3: S[t] ← REWARD(arm = t) 4: end for 5: for t = K + 1 to n do 6: S[a] a ← arg max max q ∈ Θ : N [a] kl ,q ≤ log(t) 1≤a≤K N [a] 7: r ← REWARD(arm = a) 8: N [a] ← N [a] + 1 9: S[a] ← S[a] + r 10: end for
  • 16. KL-UCB : un algorithme optimisteR´gion de confiance KL e iid Si Z1 , . . . , Zs ∼ B(θ0 ), et si kl(⋅,θ) ps = (Z1 + · · · + Zs )/s, alors ˆ −log(α)/s P (ˆs < x) ≤ exp (−s kl(x, θ0 )) p 0 x θ0 Autrement dit, si α = exp (−s kl(x, θ0 )) : log(α) P (ˆs < x) = P kl(ˆs , θ0 ) > − p p , ps < θ ˆ ≤α s D’o` une borne de confiance sup´rieure pour p au risque α : u e log(α) us = sup θ > ps : kl(ˆs , θ) ≤ − ˆ p s
  • 17. KL-UCB : un algorithme optimisteR´gion de confiance KL e iid kl(ps,⋅) Si Z1 , . . . , Zs ∼ B(θ0 ), et si kl(⋅,θ) ps = (Z1 + · · · + Zs )/s, alors ˆ −log(α)/s P (ˆs < x) ≤ exp (−s kl(x, θ0 )) p 0 ps us Autrement dit, si α = exp (−s kl(x, θ0 )) : log(α) P (ˆs < x) = P kl(ˆs , θ0 ) > − p p , ps < θ ˆ ≤α s D’o` une borne de confiance sup´rieure pour p au risque α : u e log(α) us = sup θ > ps : kl(ˆs , θ) ≤ − ˆ p s
  • 18. KL-UCB : un algorithme optimisteBorne de regret Th´or`me[G., Capp´ ’11] : e e e Soit θ ∈ [0, 1]K , et soit b ∈ {1, . . . , K} tel que θb < θ∗ . Pour tout > 0 il existe C1 , C2 ( ) et β( ) tels que KL−U CB log(n) C2 ( ) E[Nn (b)] ≤ ∗) (1 + ) + C1 log(log(n)) + β( ) . kl(θb , θ n Corollaire : θ ∗ − θb Rn (θ) log(n) kl(θb , θ∗ ) b:θb <θ∗ =⇒ KL-UCB est asymptotiquement optimal, et on dispose d’une borne pour son regret en temps fini.
  • 19. KL-UCB : un algorithme optimisteIngr´dient essentiel : d´viations auto-normalis´es e e e Pour l’analyse, il faut contrˆler les d´viations auto-normalis´es, o e e mesur´es dans la bonne m´trique, de la moyenne empirique : e e Th´or`me e e Soit (Xt )t ≥ 1 une suite de v.a. ind´pendantes de loi B(θ) sur e (Ω, F, P). Soit Ft be une suite croissante de tribus de F tq ∀t, σ(X1 . . . , Xt ) ⊂ Ft et pour s > t, Xs est ind´pendante de Ft . e Soit( t )t≥1 une suite pr´visible de variables de Bernoulli. On e d´finit, pour tout δ > 0 : e n n ˆ S(n) S(n) = s Xs , N (n) = s , θ(n) = , N (n) s=1 s=1 ˆ ˆ u(n) = max q > θn : N (n)d θ(n), q ≤ δ . Alors P (u(n) < θ) ≤ e δ log(n) exp(−δ) P N (n)d(ˆ(n), θ) > δ ≤ 2e δ log(n) exp(−δ) µ
  • 20. KL-UCB : un algorithme optimisteSimulations : sc´nario ` deux bras e a 500 4000 450 UCB 3500 MOSS 400 UCB−Tuned 3000 UCB−V 350 DMED KL−UCB 2500 300 bound N (n) N (n) 2000 2 250 2 200 1500 150 1000 100 500 50 0 0 UCB MOSS UCB−Tuned UCB−V DMED KL−UCB 2 3 4 10 10 10 n (log scale) Fig.: Performance de diff´rents algorithmes dans le sc´nario ` deux bras e e a o` θ = (0.9, 0.8). A gauche : nombre moyen de tirages du bras u sous-optimal en fonction du temps. A droite : distribution du nombre de tirages du bras 2 au temps n = 5000. R´sultats bas´s sur 50000 e e exp´riences ind´pendantes. e e
  • 21. KL-UCB : un algorithme optimisteSimulations : sc´nario ` r´compenses faibles e a e UCB MOSS UCB−V 500 500 500 400 400 400 300 300 300 Rn 200 200 200 100 100 100 0 2 3 4 0 2 3 4 0 2 3 4 10 10 10 10 10 10 10 10 10 UCB−Tuned DMED KL−UCB 500 500 500 400 400 400 300 300 300 Rn 200 200 200 100 100 100 0 2 0 2 0 2 10 103 104 10 103 104 10 103 104 CP−UCB DMED+ KL−UCB+ 500 500 500 400 400 400 300 300 300 Rn 200 200 200 100 100 100 0 2 0 2 0 2 10 103 104 10 103 104 10 103 104 n (log scale) n (log scale) n (log scale) Fig.: Regrets de diff´rents algorithmes en fonction du temps pour un e sc´nario ` dix bras o` e a u θ = (0.1, 0.05, 0.05, 0.05, 0.02, 0.02, 0.02, 0.01, 0.01, 0.01). Ligne rouge pointill´e : borne inf´rieure de Lai&Robbins. Ligne ´paisse : regret moyen. e e e R´gions gris´es : r´gion centrale ` 99% et le quantile ` 99, 95%. e e e a a
  • 22. Et au del`... aPlan de l’expos´ e 1 Le mod`le e 2 Une borne inf´rieure pour le regret e 3 KL-UCB : un algorithme optimiste 4 Et au del`... a
  • 23. Et au del`... aR´compenses born´es e e Il suffit de ramener les r´compenses dans [0, 1], et on peut utiliser e le mˆme algorithme KL-UCB et obtenir les mˆmes bornes de regret e e grˆce au a Lemme : soit X une variable al´atoire ` valeur dans [0, 1], et soit µ = E[X]. e a Alors, pour tout λ ∈ R, E [exp(λX)] ≤ 1 − µ + µ exp(λ) . KL-UCB fait toujours mieux que UCB : In´galit´ de Pinsker e e kl(µ1 , µ2 ) ≥ 2(µ1 − µ2 )2 Toutefois, il peut y avoir mieux ` faire si les distributions des a r´compenses ont une faible variance par rapport ` la loi de e a Bernoulli correspondante.
  • 24. Et au del`... aComparaison UCB vs KL-UCB 1 0.9 kl(0.7, q) 0.8 2(0.7−q)2 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 1.2 q
  • 25. Et au del`... aSimulations : exponentielles born´es e 1200 UCB MOSS UCB−Tuned 1000 UCB−V KL−UCB KL−UCB−exp 800 n R 600 400 200 0 2 3 4 10 10 10 n (log scale) Fig.: Regret de diff´rentes politiques en fonction du temps, sur le e sc´nario des exponentielles born´es. e e
  • 26. Et au del`... aR´compenses dans la famille exponentielle e La mˆme preuve se g´n´ralise directement ` des r´compenses e e e a e dont les distributions admettent par rapport ` une mesure a dominante une densit´ pouvant s’´crire e e pθa (x) = exp xθi − b(θa ) + c(x) , 1≤a≤K pour un certain param`tre θ ∈ RK e L’algorithme reste le mˆme, seule la d´finition de la fonction e e kl est modifi´e - par exemple, pour des r´compenses de loi e e exponentielle : x kl(x, y) = y − x + x log y Une in´galit´ de d´viation analogue se prouve alors de la e e e mˆme fa¸on, et conduit aux mˆme bornes de regret e c e
  • 27. Et au del`... aBandits non stationnaires On autorise les distributions des r´compenses ` varier e a brutalement au cours du temps L’objectif est alors de faire poursuivre le meilleur bras Application : dans un scanner ` effet tunel, la qualit´ de a e l’image d´pend d’un r´glage mais les distributions peuvent e e brutalement changer en cas de d´placement inopin´ de la e e pointe On ´tudie alors D-UCB et SW-UCB [G. Moulines ’08], e variantes qui incluent un oubli (progressif) du pass´ e √ On montre des bornes de regret en O( n log n), qui sont (presque) optimales
  • 28. Et au del`... aBandits lin´aires / lin´aires g´n´ralis´s e e e e e Mod`le de bandit avec information contextuelle : e E[Xt |At ] = µ(mAt θ∗ ) o` θ∗ ∈ Rd d´signe un param`tre inconnu et o` µ : R → R u e e u est la fonction de lien dans un mod`le lin´aire g´n´ralis´ e e e e e Exemple : pour des r´compenses binaires e exp(x) µ(x) = 1 + exp(x) Application : publicit´ cibl´e sur internet e e GLM-UCB [Filippi, Capp´, G. ’10], borne de regret d´pendant e e de d et pas du nombre d’actions possibles
  • 29. Et au del`... aOptimisation stochastique Objectif : trouver le maximum (ou les quantiles) d’une fonction f : C ⊂ Rd → R observ´e dans du bruit (ou pas) e Application : exposition aux ondes ´lectro-magn´tiques (indice e e DAS = SAR) Mod´lisation : f est la r´alisation d’un processus Gaussien, ou e e alors fonction de faible norme dans le RKHS associ´ au noyau e de ce processus GP-UCB : jouer le point x ∈ C pour lequel l’intervalle de confiance est le plus haut
  • 30. Et au del`... aProcessus de D´cision Markoviens e Le syst`me est dans un ´tat St qui ´volue de fa¸on markovienne : e e e c St+1 ∼ P (·; St , At ) et Rt = r(St , At ) + t Exemple / Benchmark : RiverSwim [Strehl&Littman’08] 0.4 0.6 0.6 0.6 0.6 0.6 Action 1 0.6 0.35 0.35 0.35 0.35 R=5 1 2 3 4 5 6 R=10000 0.05 0.05 0.05 0.05 0.4 Action 2 courant
  • 31. Et au del`... aOptimisme pour les MDP Le paradigme optimiste conduit ` la recherche d’une matrice de a transition ”la plus avantageuse” dans un voisinage de son estimateur de maximum de vraisemblance. L’utilisation de voisinages de Kullback-Leibler, autoris´e par des e in´galit´s de d´viations semblables ` celles montr´es plus haut, e e e a e conduisent ` des algorithmes plus efficaces ayant de meilleures a propri´t´s ee