Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

全脳アーキテクチャ若手の会 強化学習

21,960 views

Published on

全脳アーキテクチャ若手の会 強化学習

Published in: Technology
  • Be the first to comment

全脳アーキテクチャ若手の会 強化学習

  1. 1. 全脳アーキテクチャ 若手の会 勉強会 後援:ドワンゴ人工知能研究所 強化学習 =脳へのアプローチ= 法政大学 理工学部 応用情報工学科 川崎 雄介 yusuke.kawasaki.hosei@gmail.com
  2. 2. 自己紹介 川崎 雄介 – 所属:法政大学 理工学部 – 出身:東京都 八丈島 – 研究:植物病自動診断 – 特技:少林寺拳法 2
  3. 3. 身近になった人工知能 • Pepper (Aldebaran Robotics,Softbank 社 ) – 人間の声のトーンなどから感情認識 • 将棋電王戦 (niconico) – 人間 vs コンピュータでの将棋 – 人間1勝、コンピュータ4勝 (2014第3回) 3
  4. 4. 身近になった人工知能 • 総務省 2015年2月 – インテリジェント化が加速する ICTの未来像に関する研究会 – 2045年問題に関する議論 人工知能が人間並みの知能を持つようになる?地点 – 政府機関によるこういった会議は異例 4
  5. 5. 最近、こんなことが話題に • グーグル開発の人工知能DQN ネットでは「命名事故?」「奇跡的」 (2015年 2月26日 withnews , 抜粋 ) 米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情 報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN (ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネッ トスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの 間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社 「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多く ありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから 対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題に ゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手 くなっていくそうです。 5
  6. 6. 最近、こんなことが話題に • グーグル開発の人工知能DQN ネットでは「命名事故?」「奇跡的」 (2015年 2月26日 withnews , 抜粋 ) 米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情 報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN (ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネッ トスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの 間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社 「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多く ありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから 対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題に ゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手 くなっていくそうです。 6
  7. 7. 最近、こんなことが話題に • グーグル開発の人工知能DQN ネットでは「命名事故?」「奇跡的」 (2015年 2月26日 withnews , 抜粋 ) 米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情 報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN (ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネッ トスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの 間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社 「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多く ありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから 対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題に ゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手 くなっていくそうです。 7 このメカニズムを探る
  8. 8. 話題にのぼることの多くなった人工知能。 今回は「強化学習」という枠組みから 発表させて頂きます。 8 ろぼみ
  9. 9. 今回の講演につきまして • 第1部 – この分野に馴染みのない方向け – ざっくりとしたお話になります(数式なし) • 第2部 – この分野(情報系)の方向け – 数式を使って、可能な限り詳説します 何度か質問コーナー挟んでいきます! 9
  10. 10. 第1部 10
  11. 11. 脳ってどんな構造なの? • 各部位ごとの神経のネットワーク 11 前頭葉 側頭葉 頭頂葉 後頭葉
  12. 12. ネットワークの構成要素 • ニューロン(Neuron) – 脳内の神経細胞 – 入力ー処理ー出力の機構 – 強い電気信号のみに発火 12 銅谷 賢治, “計算神経科学への招待” より 細胞体 (soma) 樹状突起 (dendrite) 軸索 (axon)
  13. 13. 脳を模してみよう • McCulloch-Pitts モデル [Mcculloch,Pitts , 1943] – ニューロンを真似た構造の実現 13 出力
  14. 14. 脳を模してみよう • パーセプトロン [Rosenblatt, 1958] – 脳のネットワークのような構造 – 任意の識別面も表現できるように[Rumenhert,1986] 14 多層パーセプトロン
  15. 15. じゃあ、何故 今になって 再注目されてきたのか 15
  16. 16. しかし • 計算リソースが足りなかった! – ここにきてハードウェアの発展 • 人間の表現力が高すぎた! – 大域的な最適解を出せない 16
  17. 17. しかし • 計算リソースが足りなかった! – ここにきてハードウェアの発展 • 人間の表現力が高すぎた! – 大域的な最適解を出せない 17 ここに来てそれを打ち破る技術が誕生 Deep Learning
  18. 18. 機械学習の春 • 一般物体認識コンテスト [Krizhevsky et al , 2012] 大量の画像を読み込ませ 1,000種類のクラス識別問題 error率 15.3% 視覚野のような特徴を確認 18 Krizhevsky et al, “Imagenet Classification with Deep Convolutional Neural Network,” 2012
  19. 19. 機械学習の春 • Googleの猫認識 [Quoc et al,2011] これが猫だと 教えずに 猫の概念を獲得 19 Quoc et al, “Building High-level Features Using Large Scale Unsupervised Learning,” 2011
  20. 20. 機械学習の春 • Deep Q-Network [Volodymyr et al,2015] コンピュータに「行動則」を学ばせる 20 Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
  21. 21. 本日のメイントピック 21 教師有り学習 教師なし学習 強化学習
  22. 22. スロットマシン(k-armed bandit) 4本の腕がある無料スロットマシンがあります。 それぞれの腕毎に出てくる賞金が違います。 限られた回数で多くの賞金を得るためには、 どのように腕を選ぶのが良いでしょう? 22
  23. 23. スロットマシン(k-armed bandit) 4本の腕がある無料スロットマシンがあります。 それぞれの腕毎に出てくる賞金が違います。 限られた回数で多くの賞金を得るためには、 どのように腕を選ぶのが良いでしょう? 23 強化学習における目標
  24. 24. スロットマシン(k-armed bandit) • とりあえず一本ずつ引いてみる 24 A: 100 B: 50 C: 10 D: 1
  25. 25. スロットマシン(k-armed bandit) • とりあえず一本ずつ引いてみる 25 A: 100 B: 50 C: 10 D: 1
  26. 26. スロットマシン(k-armed bandit) • とりあえず一本ずつ引いてみる 26 A: 100 B: 50 C: 10 D: 1 もらえるご褒美は 多い方がいい (欲張り方策)
  27. 27. スロットマシン(k-armed bandit) • もし次に出る額を知っていたら? 27 A: 100 (1) B: 50 (10) C: 10 (100) D: 1 (500)
  28. 28. スロットマシン(k-armed bandit) • 1回引くたびに出る額が変わったら? 28 A: ??? B: ??? C: ??? D: ???
  29. 29. 探索と知識利用 • 探索 (exploration) – 最終的に多くの報酬を貰いたい – あえて別の行動をとる 29 B
  30. 30. 探索と知識利用 • 知識利用 (exploitation) – 今も貰えた ならば 次も貰える – 大きな報酬が期待できる行動をとる 30 A
  31. 31. 探索と知識利用 • 探索 vs. 知識利用 – 相反する性質 – ずっと欲張らず違う腕も引いてみる – 最初は適当に、時間が経つにつれて欲張りに – レバーを引く、という行動をどう選ぶのが最適? 31
  32. 32. 強化学習と脳? • 大脳基底核 – 大脳皮質の内側の器官 – ここが強化学習に 関わっているのでは? 2部の後半で 紐解いていきます 32
  33. 33. 強化学習で何ができそうか? • 被災地の復興支援ロボット – 自ら危険なところを回避し人を探す、情報を送る • 介護ロボット – 介護の現場での運用 • 病気の解析 – コンピュータでシミュレート出来るか? – パーキンソン病などの治療への足掛かり? 33
  34. 34. 第1部のまとめ • 人工知能分野の春 – 計算資源確立、ヒトの表現力の突破 • 脳と似た振舞いを持つ? – コンピュータも脳のような振舞いを見せた • 強化学習の導入 – 多くのご褒美を得ることが目標 – k-armed bandit問題 34
  35. 35. 宣伝 ★ 全脳アーキテクチャ若手の会 全脳アーキテクチャ達成に貢献することが本会の目的です。 研究者のみならず、専門外の方でも積極的に ご参加いただき、多くの方が自分なりに力を 発揮していただける環境を作っていきたいと思っています。 ホームページ:http://wbawakate.jp/ facebook:https://www.facebook.com/groups/713921892010595/ 35
  36. 36. 第2部 36
  37. 37. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 37
  38. 38. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 38
  39. 39. 強化学習の位置づけ • 教師あり学習 – 正解付のデータから規則を算出 – ILSVRC2012 (一般物体認識) • 教師なし学習 – 膨大なデータから規則を算出 – Googleの猫認識 • 強化学習 – ある行動に対する「ご褒美」から規則を算出 – Deep Q Network 39
  40. 40. 用語の定義 • エージェント(agent) – 動作する主体のこと – 人間、ロボット、etc 40
  41. 41. 用語の定義 • 環境(environment) – エージェントが動作する空間のこと 41 環 境
  42. 42. 用語の定義 • 状態(states) – 現在エージェントが置かれている状態 – :時刻tでの状態 42 環 境
  43. 43. 用語の定義 • 行動(action) – エージェントが環境に対して働きかける動作 – :時刻tでのエージェントの行動 43 環 境
  44. 44. 用語の定義 • 報酬 (rewards) – 取ったその行動がどの程度良かったか 44 環 境
  45. 45. 用語の定義 再び状態が与えられ、行動選択に戻る このループ 45 環 境
  46. 46. 用語の定義 • 方策(policy) – ある状態においてのエージェントの行動規則 – :状態sで行動aをとる確率 46 環 境
  47. 47. • 以下本発表においては – s:任意の状態 – a:任意の行動 – π :任意の方策 – t:ステップ数 – Pr:確率 – P:確率の集合 – R:報酬の集合 – A:行動の集合 47
  48. 48. 具体的に 状態s:A~F 行動a:{down,right} 方策 π :(A, down ) (C, right ) 報酬r: Cが持つ価値 (後述) 49環境 B DC E F A START GOAL
  49. 49. タスクの種類 • 連続タスク (continuing tasks) – 有限時間内でタスクの終了が保障されない – ロボットの実問題への適用など • エピソード的タスク(episode tasks) – 有限時間内で1つのタスクが終了 – 迷路の解の算出など – 今回はこちらメイン 50
  50. 50. マルコフ性(Markov property) • 以前までに得た情報を保持できるような過程 – 1段階前の状態からの判断で、後続の状態を 判断しても遜色がない 51
  51. 51. マルコフ決定過程(Markov Decision Process) • MDP • マルコフ過程に「意思決定=行動aの選択」を 付与したもの • 強化学習全般がこの理論をベースにしている 52
  52. 52. 強化学習の目標 • 累積報酬の最大化 エージェントの報酬をタスク終了時に最大にする 53
  53. 53. 強化学習の目標 • 累積報酬の最大化 エージェントの報酬をタスク終了時に最大にする エージェントの 「今おかれた立場の価値」= 状態価値 「そこでの各振舞の価値」= 行動価値 を評価する 54
  54. 54. 状態に価値を設定する 55 • 状態の価値? – ある状態の期待報酬 – その状態でどの程度最終的にご褒美が期待できるか
  55. 55. 状態に価値を設定する 56 • 状態の価値? – ある状態の期待報酬 – その状態でどの程度最終的にご褒美が期待できるか • 状態価値関数(state-value function for policy π) 期待値
  56. 56. 行動に価値を設定する 57 • 行動の価値? – ある状態である行動をすることの期待報酬 – ここでこれするとどの程度ご褒美が期待できるか
  57. 57. 行動に価値を設定する 58 • 行動の価値? – ある状態である行動をすることの期待報酬 – ここでこれするとどの程度ご褒美が期待できるか • 行動価値関数(action-value function for policy π) 期待値
  58. 58. 状態と行動の価値の関連性 • VとQの関係性 状態価値関数は、行動価値関数の方策固定版 「その場の状況のみで」判断するのか? 「そこでの行動も同時に」判断するのか? 59
  59. 59. γ? 60
  60. 60. 割引率 • 割引率(discount rate)γ – 遠い先の報酬を割引くための定数 (0 <= γ <= 1) – 0なら即時報酬のみ – 1なら先々の報酬も同様に考慮 • イメージ – 10,000円を今貰うか? 11,000円を一年後貰うか? 61
  61. 61. 強化学習の目標(再掲) • 累積報酬の最大化 エージェントの報酬をタスク終了時に最大にする 62
  62. 62. 強化学習の目標(再掲) • 累積報酬の最大化 エージェントの報酬をタスク終了時に最大にする 63 価値関数を最大にする方策の発見
  63. 63. Bellman方程式 64 • 累積報酬= 即時報酬+その先の期待報酬 と解釈したもの つまり以下で定式化できる
  64. 64. Bellman方程式の再帰性 65 s: 現在の状態 s’ : 次の状態 a: 行動 P : 状態sで行動aを取ってs‘に遷移する確率集合 R : 〃 報酬集合 π(s,a): 状態sで行動aを取る確率
  65. 65. Bellman方程式の再帰性 66 即時報酬 期待報酬 即時報酬 期待報酬 V、Qの再帰的表現
  66. 66. 1節まとめ • 強化学習の目標 – 累積報酬の最大化 価値関数の設定 • マルコフ性 – 得られるものは全て以前までの情報の集大成 67
  67. 67. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 68
  68. 68. 動的計画法とは? 69 • 動的計画法(Dynamic Programming) – 環境の完全なモデルを持つ(モデルベース) – 後続の価値を現在の価値に従って更新 – 厳密な最適解 が求まる (理論的には) – ベルマン方程式を厳密に解く方法
  69. 69. モデルベース 70 • イメージ:地図を持っている! そこへ至る経路や報酬は既知 あとは最適経路を計算するだけ! B DC E F A
  70. 70. 動的計画法の流れ ① 各状態、その状態で取りうる方策の初期化 ② ある方策を選ぶ ③ 各状態においての状態価値を ひたすら 計算 ④ 方策が最適か確かめる 71
  71. 71. 動的計画法の流れ ③ 各状態においての状態価値を ひたすら 計算 ④ 方策が最適か確かめる (よりよい方策が無いか?) 72
  72. 72. 方策改善定理 • ある方策と価値関数を考える – よりよい価値が得られるように更新 73 greedy方策 ④の更新式と同値 改善後方策
  73. 73. greedy方策 • より多くの報酬を得ようとする行動選択法 74 s0 s1 s2 10 20 20 10 緑 緑
  74. 74. greedy方策 • より多くの報酬を得ようとする行動選択法 75 s0 s1 s2 10 20 20 10 赤 緑
  75. 75. 方策改善定理 • ある方策と価値関数を考える – よりよい価値が得られるように更新 – 必ず最適解に収束すると知られている 76
  76. 76. 動的計画法の流れ ① 初期化 A~Fの価値を 任意の値で初期化 77 B DC E F A
  77. 77. 動的計画法の流れ ② 方策選択 どのようにFに 辿り着くかを選ぶ (赤が最適とします) 78 B DC E F A
  78. 78. 動的計画法の流れ ② 方策選択 方策緑を選ぶ (A,right) (B,down) (D,down) 79 B DC E F A
  79. 79. 動的計画法の流れ ③ 計算 ②の方策に従い、 全ての状態価値を計算 (方策上ありえない 箇所も計算する) 80 B DC E F A
  80. 80. 動的計画法の流れ ④ 確認 選んだ方策は本当に greedyな方策か 否! 81 B DC E F A
  81. 81. 動的計画法の流れ ② 方策選択 方策赤を選ぶ (A,down) (C,right) (D,down) 82 B DC E F A
  82. 82. 動的計画法の流れ ③ 計算 同様に全て計算 この際、方策 緑 の 計算結果を利用する 状態CではDの状態価値が 利用できる 83 B DC E F A
  83. 83. 動的計画法の流れ ④ 確認 選んだ方策は本当に greedyな方策か 是! 84 B DC E F A
  84. 84. 動的計画法の流れ ようやく移動。 85 B DC E F A
  85. 85. バックアップ線図(Backup Diagram) 更新時に関わる情報を 図式化したもの :状態s :行動a :各sの更新時 必要な情報の 範囲 86 A B C D F D F E F
  86. 86. 動的計画法のバックアップ線図 87 A B C D F D F E F :状態s :行動a :各sの更新時 必要な情報の 範囲
  87. 87. 動的計画法のバックアップ線図 88 A B C D F D F E F :状態s :行動a :各sの更新時 必要な情報の 範囲
  88. 88. 動的計画法の難点 • 必ず最適解に辿り着くけど・・・ • 計算量が多い! – 状態数が増えると現実的には計算不可 • モデルを持たないと使えない! – 実際はそれがふつう – モデルなしで知的な エージェントを実現したい 89
  89. 89. モンテカルロ法とは? 90 • モンテカルロ法(Monte Carlo method) – 環境のモデルを一切持たない(モデルフリー) – 「エピソード」を多数生成し、試行錯誤する – 方策オン/オフ
  90. 90. モデルフリー 91 • イメージ:情報なにもなし! 何もわからない ので とりあえず行ってみるしかない 判断基準は「ゴールにいるか」 ただひとつ B DC E F A
  91. 91. エピソード • エピソード(episode) – 始点から終点までの状態s、行動a、報酬rの列 92 B DC E F A A→r→b→B→d→d→D→d→f→F
  92. 92. 動的計画法 vs モンテカルロ法 • 動的計画法 – 「先読み」が可能 – 次に貰える報酬と、次の状態が利用可能! – 「今の状態価値」だけで十分 • モンテカルロ法 – 「先読み」が不可 – 「今の状態価値」+「そこでとる行動」セット評価 93
  93. 93. モンテカルロ法の流れ 94 以下を繰り返す ① エピソードを生成 ② エピソード中の「ある状態のある行動」 についての報酬を積算、平均 ③ 各状態で が最大となる方策を選ぶ
  94. 94. モンテカルロ法の流れ ① エピソード生成 95 B DC E F A A→r→b→B→d→d→D→d→f→F
  95. 95. モンテカルロ法の流れ ② 報酬の積算、平均 96 B DC E F A (b+d+f)/3 (b+d+f)/3 (b+d+f)/3
  96. 96. モンテカルロ法の流れ ③ 最大の行動価値に 従って方策の更新 97 B DC E F A (b+d+f)/3 (b+d+f)/3 (b+d+f)/3
  97. 97. モンテカルロ法の流れ ① エピソード生成 98 B DC E F A (b+d+f)/3 (b+d+f)/3 (b+d+f)/3 A→d→c→B→r→d→D→d→f→F
  98. 98. モンテカルロ法の流れ ② 報酬の積算、平均 99 B DC E F A (b+d+f)/3 (b+d+f)/3 (b+d+f)/3(c+d+f)/3 (c+d+f)/3 (c+d+f)/3
  99. 99. モンテカルロ法の流れ ③ 最大の行動価値に 従って方策の更新 緑より赤の方が 良い報酬! 100 B DC E F A (b+d+f)/3 (b+d+f)/3 (b+d+f)/3(c+d+f)/3 (c+d+f)/3 (c+d+f)/3
  100. 100. モンテカルロ法のバックアップ線図 101 A B C D F D F E F :状態s :行動a :各sの更新時 必要な情報の 範囲
  101. 101. モンテカルロ法のバックアップ線図 102 A B C D F D F E F :状態s :行動a :各sの更新時 必要な情報の 範囲
  102. 102. 103 A B C D F D F E F A B C D F D F E F 動的計画法 モンテカルロ法
  103. 103. ホントにいいのか? • 実はとんでもない仮定 「全ての状態-行動が無限回訪問される」 こんなの絶対おかしい 104
  104. 104. ホントにいいのか? 105
  105. 105. ホントにいいのか? • 実はとんでもない仮定 「全ての状態-行動が無限回訪問される」 106 エピソードはランダムに生成し、各回greedyな行動 実際は「もっといい行動がある」可能性があるのに 訪問しない(十分な「探索」が行われない)
  106. 106. モンテカルロ法の種類 • モンテカルロES法 – 全ての状態、行動が確認されると仮定 • 方策オン型 モンテカルロ法 – 少し危ない橋を渡らせる • 方策オフ型 モンテカルロ法 – 挙動方策と推定方策 107
  107. 107. モンテカルロ法の種類 • モンテカルロES法 – 全ての状態、行動が確認されると仮定 • 方策オン型 モンテカルロ法 – 少し危ない橋を渡らせる • 方策オフ型 モンテカルロ法 – 挙動方策と推定方策 108
  108. 108. 方策オンと方策オフ • 方策オン型 – 行動を選ぶ方策 そのものを評価、改善 • 方策オフ型 – 行動を選ぶ方策とは別に、評価用の方策を用意 109
  109. 109. モンテカルロ法の種類 • モンテカルロES法 – 全ての状態、行動が確認されると仮定 • 方策オン型 モンテカルロ法 – 少し危ない橋を渡らせる • 方策オフ型 モンテカルロ法 – 挙動方策と推定方策 110
  110. 110. 方策オン型モンテカルロ • 危ない橋を渡らせる? 問題点: 更新ごと、報酬を良くしようとする為 訪問されない状態ー行動が出てくること わずかな確率でも、そのルートを選ばせたい! 111
  111. 111. 方策オン型モンテカルロ • ε-greedy手法 – ある確率 ε で 非greedy方策を選ぶ – それ以外の場合にはgreedy方策を選ぶ 112
  112. 112. 方策オン型モンテカルロ • ε-greedy手法 – ある確率 ε で 非greedy方策を選ぶ – それ以外の場合にはgreedy方策を選ぶ 113
  113. 113. 方策オン型モンテカルロ • ε-greedy手法 – ある確率 ε で 非greedy方策を選ぶ – それ以外の場合にはgreedy方策を選ぶ 114
  114. 114. 方策オン型モンテカルロ 115 非greedy greedy
  115. 115. モンテカルロ法の種類 • モンテカルロES法 – 全ての状態、行動が確認されると仮定 • 方策オン型 モンテカルロ法 – 少し危ない橋を渡らせる • 方策オフ型 モンテカルロ法 – 挙動方策と推定方策 116
  116. 116. 方策オフ型モンテカルロ法 • 2つの方策を考える – 挙動方策(behavior policy) π’ エージェントが可能な行動の観測を行う – 推定方策(estimation policy) π 実際にエージェントを行動させる 色々な状態ー行動を見つつ、greedyな探索が出来る! 117
  117. 117. 方策オフ型モンテカルロ法 各方策を与える(状態、行動、報酬) 118 A→r→b→B→r→d→D→d→f A→d→c→C→r→d→D→d→f π π’ B DC E F A
  118. 118. 方策オフ型モンテカルロ法 各方策を与える(状態、行動、報酬) 119 [ A,r,b,B,d,d,D,d,f ] この時の行動価値を両者計算 > なら方策変更 π π’ B DC E F A π’ π A→r→b→B→r→d→D→d→f A→d→c→C→r→d→D→d→f
  119. 119. 2節まとめ 120 • 動的計画法(DP) – モデルベース – 各状態価値をあらかじめ全て計算 – 必ず最適解に辿り着くが 現実的ではない • モンテカルロ法 – モデルフリー – 様々な経験則から最適行動価値関数を見積もる – 方策オン型/方策オフ型
  120. 120. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 121
  121. 121. TD学習とは 122 • 現在の源流となる強化学習手法の 祖 – Bellman方程式の近似 – 動的計画法のように「以前の結果を利用」 – モンテカルロ法のように「環境のモデルが不要」
  122. 122. TD学習とは • TD学習(Temporal Difference Learning) – その場更新型のモンテカルロ法 – 今の状態と次の状態の報酬を最大化 • α:更新率(0<α<=1) 「今を大事にするか」 α≈ 0 「次を大事にするか」 α≈ 1 123
  123. 123. モンテカルロ法との違い • モンテカルロ法 – 各エピソードの報酬の和だけ見る – エピソード終端まで更新が不可 • TD学習 – 1回1回そこで得られる報酬を使う – 最短、次の状態の予測までで更新可 124 ・・・ !
  124. 124. 一体何がすごいのか • 報酬と次の状態のモデルを必要としない – モデルフリー – 「次の状態」はエピソード毎に記憶する • モンテカルロ法より早い! – 問題が複雑になればなるほど、モンテカルロ法は 更新に時間がかかる (短ければ良い) 125
  125. 125. TD学習の流れ ① 各状態価値 V(s) を任意に初期化 評価するπを設定 以下各エピソード毎にループ ② エピソードの各ステップ毎に ・πで与えられる行動aをとってr,s’を観測 ・s(行動前)の状態価値V(s)を更新 ・次状態 s ’へ移行 s’が終端状態なら次のエピソードへ移行 126
  126. 126. TD学習の流れ ① 初期化 各状態価値を初期化 方策緑を評価 γ=1 127 B DC E F A
  127. 127. TD学習の流れ ② 行動 方策π=緑に従い 行動a=rightをとる 報酬 b と次状態Bを 観測 128 B DC E F A b
  128. 128. TD学習の流れ ② V(s)更新 状態価値を設定 エージェントが移動 129 B DC E F A α*b
  129. 129. TD学習の流れ ② 終端まで確認 続いて方策赤を評価 130 B DC E F A α*b α*d α*f
  130. 130. TD学習の流れ ② 行動 方策π=赤に従い 行動a=downをとる 報酬 c と次状態Cを 観測 131 B DC E F A α*b α*d α*f c
  131. 131. TD学習の流れ 132 B DC E F A new α*d α*f ② V(s)更新 状態価値を設定 先ほどの状態価値利用 エージェントが移動
  132. 132. TD学習の流れ 133 B DC E F A new α*d new ② 終端まで確認 以上繰り返して、 最適な方策を探すα*d
  133. 133. DQN の Q ! • Q学習(Q-learning) – ある行動をとったら、その時の自分はどうなるか? – 方策オフ型のTD学習と考えられる – 現代の強化学習のメイン 134
  134. 134. Q学習を数式で見る 135 • 行動価値関数の最適化を目指す – 1ステップごとに現在の方策を改善する – α:学習率 「今を大事に」ー「次を大事に」のTrade-off 次状態が最適な行動の選択
  135. 135. TD学習とQ学習の違い • TD学習 – 状態価値に従って更新 – 方策に従って遷移した先の評価値のみ見る • Q学習 – 行動価値に従って更新 – 方策とは関係なしに、複数の評価値を見る 136
  136. 136. Q学習の流れ ① 各行動価値 Q(s,a) を任意に初期化 評価するπを設定 以下各エピソード毎にループ ② エピソードの各ステップ毎に ・Qで与えられる行動aをとってr,s’を観測 ・s(行動前)の状態価値V(s)を更新 ・次状態 s ’へ移行 s’が終端状態なら次のエピソードへ移行 137
  137. 137. Q学習の流れ ① 初期化 各状態価値を初期化 方策緑を評価 γ=1 138 B DC E F A
  138. 138. Q学習の流れ ② 行動価値から選択 b とc どちらが良いか? 効率よく試行錯誤する 139 B DC E F A b dc e f d
  139. 139. Q学習の流れ ② 行動価値から選択 方策赤におけるdとeは どちらが良いか? 効率よく試行錯誤する 140 B DC E F A b dc e f d
  140. 140. 141 動的計画法 モンテカルロ法 TD学習 Q学習 モデル 必要 不要 不要 不要 主な 更新対象 状態価値関数 V(s) 行動価値関数 Q(s,a) 状態価値関数 V(s) 行動価値関数 Q(s,a) 概要 全ての状態を 総当たり計算 計算量が多い エピソードから 価値関数推測 行動選択の方法 エピソードの 1ステップ毎に 状態価値更新 次の行動報酬が 最も良くなるよ う選択 Backup Diagram
  141. 141. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 142
  142. 142. 強化学習と脳 • 強化学習を脳がしている? 143
  143. 143. 注目箇所 • 大脳基底核(Basal Ganglia) 144
  144. 144. 注目箇所 • 大脳基底核(Basal Ganglia) 145 尾状核 淡蒼球 被殻 線条体 黒質 視床下核
  145. 145. 各部位の働き • 線条体 – 運動機能、意思決定 • 淡蒼球 – 報酬予測 • 黒質 – ドーパミンの放出 • 視床下核 – 運動の調整 146
  146. 146. ループ構造 147 大脳皮質 ストリオゾーム マトリックス 淡蒼球外節 黒質緻密部 腹側被蓋野 淡蒼球内節 黒質網様部 視床下核 銅谷 賢治, “計算神経科学への招待” より 視床 線条体
  147. 147. ループ構造 148 大脳皮質 淡蒼球外節 黒質緻密部 腹側被蓋野 淡蒼球内節 黒質網様部 視床下核 銅谷 賢治, “計算神経科学への招待” より 視床 大脳皮質~基底核ループ ストリオゾーム マトリックス 線条体 大脳皮質~基底核ループ
  148. 148. ループ構造 149 大脳皮質 ストリオゾーム マトリックス 淡蒼球外節 黒質緻密部 腹側被蓋野 淡蒼球内節 黒質網様部 視床下核 銅谷 賢治, “計算神経科学への招待” より 視床 線条体
  149. 149. ドーパミンニューロンの観測 • 予測と報酬の神経回路 [Schultz et al, 1997] ランプの点灯に従って レバーを操作すると ジュース(報酬)が貰える この時のサルの線条体 ドーパミンニューロンを計測 150 http://www.wakosozai.com/
  150. 150. ドーパミンニューロンの観測 • 予測と報酬の神経回路 [Schultz et al, 1997] ランプの点灯に従って レバーを操作すると ジュース(報酬)が貰える この時のサルの線条体 ドーパミンニューロンを計測 151 http://www.wakosozai.com/
  151. 151. ドーパミンニューロンの観測 • 報酬あり – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 152 http://www.wakosozai.com/ 学習後 学習前
  152. 152. ドーパミンニューロンの観測 • 報酬あり – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 153 http://www.wakosozai.com/ 報酬の「予測」に 対して応答
  153. 153. ドーパミンニューロンの観測 • 報酬なし – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 154 http://www.wakosozai.com/ 学習前 学習後
  154. 154. ドーパミンニューロンの観測 • 報酬なし – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 155 http://www.wakosozai.com/ ニューロン抑制
  155. 155. この実験で分かったこと • 線条体ではTD誤差のような振舞いがある? 156 実際にもらえた報酬 もらえるであろう報酬
  156. 156. どのように行動選択しているのか • 行動価値の観測 [Samejima et al , 2005] サルの線条体ニューロンの観測 倒す方向によって貰える確率が変化 157 Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
  157. 157. どのように行動選択しているのか • 最初はランダムに選んでいた • 次第に報酬が貰えそうな方に レバーを倒し始めた 158 Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
  158. 158. どのように行動選択しているのか • 最初はランダムに選んでいた • 次第に報酬が貰えそうな方に レバーを倒し始めた 159 Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005 状態に応じて最適な行動を選んでいる?
  159. 159. ループ構造 160 大脳皮質 ストリオゾーム マトリックス 淡蒼球外節 黒質緻密部 腹側被蓋野 淡蒼球内節 黒質網様部 視床下核 銅谷 賢治, “計算神経科学への招待” より 視床 線条体
  160. 160. 大脳基底核のモデル化 161 鮫島和行,銅谷賢治, “強化学習と大脳基底核” 参考 大脳皮質 線条体 淡蒼球外節 黒質網様部 視床 黒質 input output
  161. 161. 大脳基底核のモデル化 162 鮫島和行,銅谷賢治, “強化学習と大脳基底核” 参考 大脳皮質 線条体 淡蒼球外節 黒質網様部 視床 黒質 input output TD誤差 Q(s,a)算出
  162. 162. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 163
  163. 163. 強化学習の応用研究 • ヘルプから適切な操作の遂行 [Branavan et al,2009] Windowsのヘルプを解釈し 見合った操作を自律的に行う 164 Click run, and press OK.
  164. 164. 強化学習の応用研究 • ゲームへの応用(DQN) [Volodymyr et al,2015] ゲーム画面4フレーム分を入力 出力は動作 最初2層はCNN 最適行動価値関数Q*への近似 165 Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
  165. 165. 強化学習の応用研究 • 未学習データの検出および強化学習への応用 [Osawa,Hagiwara,2015] RBM,Deep Belief Networkを用い 長期スパンでの “戦略” の立案を 可能にするようなモデルを提唱 166 状態、行動 価値判定
  166. 166. まだ見えてない部分 • 脳モデルについて – マルコフ性と仮定することは適切か – モデルフリーから経験でモデルベースにしている? • 強化学習が「最も効率的」なのか? 167
  167. 167. まとめ • 強化学習のアルゴリズムを紹介 – 動的計画法、モンテカルロ法 – TD学習、Q学習 – モデルベース、モデルフリー – 行動の選択(greedy, ε-greedy) • 脳との関連性を紹介 – 線条体にTD学習やQ学習のような振舞い 168
  168. 168. 主な参考文献 [1] Richard S.Sutton , Andrew G.Barto , “Reinforcement Learning” , 1998 [2] 三上 貞芳, 皆川 雅章 共訳 , “強化学習”, ([1]の日本語版) [3] 銅谷 賢治, “計算神経科学への招待” , 2007 [4] 牧野 貴樹, “強化学習をベイズで理解する”, 2014 (スライド) [5] Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015 その他 多くのWeb上のスライド、記述、論文、書籍など 使用した脳の画像: 3D-brain(free) 169
  169. 169. ありがとうございました! 170

×