SlideShare a Scribd company logo
1 of 34
Download to read offline
人工知能 第6回
強化学習入門
2018年5月25日 八谷 大岳
1
講義内容
7
機械学習のアルゴリズム
内容
8
 教師あり学習
 教師あり学習の例と問題点
 強化学習
 強化学習の目的と成功例
 動物の行動学習
 強化学習の定式化
 動的計画法による最適化
機械学習手法の種類
9
 問題(データの条件など)と目的に合わせて適切な
機械学習方法を選択する必要がある
問題 定義 代表的な方法 応用例
教師あり学習 入力と出力のデータに基づき、
入力を出力に変換する関数を
学習
SVM, 最小二乗法、
決定木、ランダム
フォーレストなど
スパム分類、顔検出、一
般物体認識、将棋局面
の評価など
教師なし学習 入力のみの事例に基づき、
入力の特性 (パターン、構造)
を学習
PCA, LDA、HMMなど データの可視化
(クラスタリング、次元圧
縮)
半教師学習 入力のうち部分的に付与された
出力の事例に基づき
入力を出力に変換する関数を
学習
transductiveSVM,
Laplacian SVMなど
画像、音声、Webログな
どの大量データで、コス
トの問題で一部のデータ
のみしか出力(答え)が
付与されていない場合
強化学習 入力と、出力に対する報酬
(評価)のデータに基づき、
入力を出力に変換する関数を
学習
Q-learning、policy
iteration, policy
gradient
ロボット制御、Web広告
選択、マーケティング
ロボット制御での教師あり学習
10
 方策関数(policy):状態𝑥𝑥を行動𝑦𝑦に変換する関数
 教師あり学習:各状態𝑥𝑥で取るべき正しい行動𝑦𝑦のデータを用意
 目標:各状態で取るべき正しい行動を再現する方策𝜋𝜋 𝑥𝑥 を獲得
出力:行動𝑦𝑦入力:状態𝑥𝑥
𝑦𝑦 = 𝜋𝜋 𝑥𝑥
センサ アクチュエータ
𝑥𝑥0
, 𝑦𝑦0
, 𝑥𝑥1
, 𝑦𝑦1
, … , 𝑥𝑥 𝑁𝑁
, 𝑦𝑦 𝑁𝑁
= (𝑥𝑥𝑡𝑡
, 𝑦𝑦𝑡𝑡
) 𝑡𝑡=0
𝑁𝑁
制御の例:Ball in a cup(けん玉)
11
 目標:ロボットにボールをカップの中に入れる方策𝜋𝜋 𝑠𝑠 を獲得
ボール
カップ
ロボットアーム
教師データの収集
12
 状態と行動の組のデータ: (𝑥𝑥𝑡𝑡, 𝑦𝑦𝑡𝑡) 𝑡𝑡=0
𝑁𝑁
を収集
 状態𝑥𝑥 :各関節の角度・角速度、 行動𝑦𝑦 :各関節に加えるトルク量
ドイツ・マックスプランク研究所
教師あり学習(回帰)
13
 学習データを用いて二乗誤差和を最小化する
方策関数�𝜋𝜋(𝑠𝑠)を学習
人の教示による方策関数
状態𝑥𝑥
行動𝑦𝑦
学習する方策関数
�𝜋𝜋(𝑥𝑥)
min �
𝑡𝑡=1
𝑁𝑁
𝑦𝑦𝑡𝑡 − �𝜋𝜋(𝑥𝑥𝑡𝑡) 2
𝜋𝜋(𝑥𝑥)
誤差
 𝑥𝑥𝑡𝑡
𝑥𝑥1
𝑥𝑥2
𝑦𝑦1
𝑦𝑦2
𝑦𝑦𝑡𝑡
𝑥𝑥𝑡𝑡, 𝑥𝑥𝑡𝑡
𝑡𝑡=1
𝑁𝑁
学習データ:
教師あり学習の結果の例
14
 動作は似ているが、ボールをカップに入れることができない
教師あり学習の問題点
15
 学習に十分な教師データを収集するのは困難
 教師データ数は最低でも学習パラメータの十数倍は必要
 教師データを用意するのは人なので、時間および人件費が大
 教師データが不正確(特にロボットでは)
 人間とロボットでは、骨格、筋肉配置が異なるため、ロボットにとって
最適なダイナミックな行動(関節のトルク)を教えるのが困難
 人間の知識の限界
 人間が必ずしも最適な方法を知っているとは限らない
学習した方策関数:
良くて人間の模倣、コンピュータにとって最適とは限らない
内容
16
 教師あり学習
 教師あり学習の例と問題点
 強化学習
 強化学習の目的と成功例
 動物の行動学習
 強化学習の定式化
 動的計画法による最適化
機械学習手法の種類
17
 問題(データの条件など)と目的に合わせて適切な
機械学習方法を選択する必要がある
問題 定義 代表的な方法 応用例
教師あり学習 入力と出力のデータに基づき、
入力を出力に変換する関数を
学習
SVM, 最小二乗法、
決定木、ランダム
フォーレストなど
スパム分類、顔検出、一
般物体認識、将棋局面
の評価など
教師なし学習 入力のみの事例に基づき、
入力の特性 (パターン、構造)
を学習
PCA, LDA、HMMなど データの可視化
(クラスタリング、次元圧
縮)
半教師学習 入力のうち部分的に付与された
出力の事例に基づき
入力を出力に変換する関数を
学習
transductiveSVM,
Laplacian SVMなど
画像、音声、Webログな
どの大量データで、コス
トの問題で一部のデータ
のみしか出力(答え)が
付与されていない場合
強化学習 入力と、出力に対する報酬
(評価)のデータに基づき、
入力を出力に変換する関数を
学習
Q-learning、policy
iteration, policy
gradient
ロボット制御、Web広告
選択、マーケティング
強化学習の目標
18
 人間が十分なデータを用意できない問題を解決
 ロボット制御
 Web広告の選択
 人間を超える新しい戦略の発見
 商品の販売戦略
 新薬の開発
 機械学習アルゴリズムの開発
 将棋、囲碁、ゲームの戦略
強化学習のゲームにおける成功例
19
 将棋:2013年の電王戦(現役プロとコンピュータとの対局)にて
コンピュータが3勝1敗1分けで勝ち越し
 囲碁:2016年3月、Google DeepMind社の「Alpha Go」が世界
No.2の韓国の李セドル氏に4勝1敗の大差で勝利
 強化学習アルゴリズム同士の対戦を繰り返すことにより、人間が数千年
かけても見つけられなかった「定石」を発見
動画:https://newswebeasy.github.io/ja201710/news/web/movie/2017/10/19/k10011182291_201710190529_201710190530.mp4
内容
20
 教師あり学習
 教師あり学習の例と問題点
 強化学習
 強化学習の目的と成功例
 動物の行動学習
 強化学習の定式化
 動的計画法による最適化
動物の行動学習:試行錯誤学習
21
 心理学の行動主義者の学習の定義
 行動や反応の変化として表れ、外部から観察できる現象
 試行錯誤学習
Edward Thorndike(1874年‒1949年)
迷路のような箱の中で,猫は試行錯誤的に様々な行動を取る。
偶然にでも外に出る行動を取り,それを何度か繰り返すと,
やがて同じ行動が出現する頻度が高くなることを実験的に確認
猫が様々な行動をとる 偶然に外に出られた
強くなるロボティック・ゲームプレイヤーの作り方 八谷、杉山 2016
また箱にいれる
試行錯誤の過程を経て何度か繰り返すと、やがて同じ行動が出現する頻度が高くなる
【猫の問題箱実験】
行動後の「満足」または「不快」の度合いに応じて、
行動の出現頻度が学習の過程を経て変化
動物の行動学習:報酬学習
22
 報酬学習 【スキナーの箱実験】
何度か繰り返すと、レバーを押す頻度が高くなる
Burrhus Frederic Skinner(1904年‒1990年)
レバーを押すと餌が出る仕組みになっている箱の中で,ラット
が偶然にでもレバーを押し,餌を得ることを何度か繰り返すと,
ラットはレバーの近くにいることが多くなり,やがてレバーを押
す行動を取る頻度が高くなるのを実験的に確認
ラットが様々な行動をとる レバーを押す 餌が出る
満足を「餌」という「報酬」で明示的に与えた「試行錯誤学習」。
報酬に応じて行動の自発頻度が変化していく:報酬学習
強くなるロボティック・ゲームプレイヤーの作り方 八谷、杉山 2016
ロボット制御での強化学習
23
 試行錯誤学習の要素:方策関数を条件付き確率分布関数に拡張
 報酬学習の要素:報酬𝑟𝑟の総和を最大化する方策を獲得
 報酬関数𝑅𝑅 𝑥𝑥, 𝑦𝑦, 𝑥𝑥𝑥 は人間が設計:教師データを集めるより断然簡単
出力:行動𝑦𝑦入力:状態𝑥𝑥
𝑦𝑦 = 𝜋𝜋 𝑥𝑥
センサ
アクチュエータ
𝜋𝜋 𝑌𝑌 = 𝑦𝑦|𝑋𝑋 = 𝑥𝑥
条件付き確率に従いランダムに行動を選択
報酬 𝑟𝑟
環境
𝑟𝑟 = 𝑅𝑅 𝑥𝑥, 𝑦𝑦, 𝑥𝑥𝑥 𝑥𝑥𝑥:次の状態
強化学習の結果の例
24
 方策は報酬に基づき試行錯誤的に改善され、ボールをカップに
入れることができるようになる。
カップ
ボール
l
l :ボールとカップの距離
報酬の例:
𝑟𝑟 = exp(−𝑙𝑙)
内容
25
 教師あり学習
 教師あり学習の例と問題点
 強化学習
 強化学習の目的と成功例
 動物の行動学習
 強化学習の定式化
 動的計画法による最適化
強化学習の定式化
26
 𝜋𝜋, 𝑅𝑅, 𝑃𝑃𝑇𝑇 に従う確率過程(マルコフ決定過程)を考える
 価値関数:ステップ𝜏𝜏から始まる報酬和の期待値
 目的:価値関数を最大化する方策𝜋𝜋∗
を獲得
𝑃𝑃𝑇𝑇 𝑋𝑋1
|𝑋𝑋0
, 𝑌𝑌0
状態𝑋𝑋0
で行動𝑌𝑌0
をとったとき状態𝑋𝑋1
に遷移する状態遷移確率
状態𝑋𝑋1
𝑥𝑥1
𝑥𝑥2
𝑥𝑥3
𝜋𝜋 𝑌𝑌0|𝑋𝑋0
状態𝑋𝑋0
で行動𝑌𝑌0
を
選択する方策関数
𝑦𝑦1
行動𝑌𝑌0
𝑦𝑦2
𝑦𝑦3
𝜋𝜋 𝑌𝑌1|𝑋𝑋1
状態𝑋𝑋1
に遷移したときの報酬
𝑉𝑉𝜋𝜋
𝜏𝜏
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌𝑡𝑡|𝑋𝑋𝑡𝑡
𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡)
��
𝑡𝑡=𝜏𝜏
𝑁𝑁
𝛾𝛾𝑡𝑡−𝜏𝜏 𝑅𝑅 𝑋𝑋𝑡𝑡, 𝑌𝑌𝑡𝑡, 𝑋𝑋𝑡𝑡+1 𝑋𝑋𝜏𝜏 = 𝑥𝑥
𝛾𝛾 ∈ (0,1] :割引率
遠い先の報酬ほど割り引く
𝑥𝑥1
𝑥𝑥2
𝑥𝑥3
初期状態𝑋𝑋0
𝑟𝑟1
= 𝑅𝑅 𝑋𝑋1
, 𝑌𝑌1
, 𝑋𝑋2
状態𝑋𝑋 𝑁𝑁+1
𝑥𝑥1
𝑥𝑥2
𝑥𝑥3
𝑟𝑟0
= 𝑅𝑅 𝑋𝑋0
, 𝑌𝑌0
, 𝑋𝑋1
状態𝑋𝑋2
に遷移したときの報酬
𝜋𝜋∗ = argmax
𝜋𝜋
𝑉𝑉𝜋𝜋
0
(𝑥𝑥)
期待値の定義
27
 1変数𝑋𝑋の場合:
 2変数𝑋𝑋と𝑌𝑌の和の場合:
 変数𝑌𝑌が𝑦𝑦と観測された場合:
E
𝑃𝑃 𝑋𝑋|𝑌𝑌(𝑋𝑋|𝑌𝑌)
|𝑌𝑌 + 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 = ∑𝑗𝑗 𝑦𝑦 + 𝑥𝑥𝑗𝑗 𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗|𝑦𝑦
E
𝑃𝑃 𝑋𝑋(𝑋𝑋)
𝑋𝑋 = �
𝑗𝑗
𝑥𝑥𝑗𝑗 𝑃𝑃𝑋𝑋 𝑋𝑋 = 𝑥𝑥𝑗𝑗
E
𝑃𝑃 𝑋𝑋(𝑋𝑋)
𝑋𝑋
確率変数
確率分布関数
期待値の記号
(Expectation)
E
𝑃𝑃 𝑋𝑋(𝑌𝑌)
𝑃𝑃 𝑋𝑋|𝑌𝑌(𝑋𝑋|𝑌𝑌)
𝑌𝑌 + 𝑋𝑋 = ∑𝑖𝑖 ∑𝑗𝑗 𝑦𝑦𝑖𝑖 + 𝑥𝑥𝑗𝑗 𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗|𝑦𝑦𝑖𝑖 𝑃𝑃𝑌𝑌 𝑦𝑦𝑖𝑖
価値関数の例
28
 各ステップの価値関数
 開始ステップが異なるが関数の形は同じ
𝑉𝑉𝜋𝜋
0
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌 𝑡𝑡|𝑋𝑋𝑡𝑡
𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡)
��
𝑡𝑡=0
𝑁𝑁
𝛾𝛾𝑡𝑡−0
𝑅𝑅 𝑋𝑋𝑡𝑡
, 𝑌𝑌𝑡𝑡
, 𝑋𝑋𝑡𝑡+1
𝑋𝑋0
= 𝑥𝑥
𝑉𝑉𝜋𝜋
1
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌 𝑡𝑡|𝑋𝑋𝑡𝑡
𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡)
��
𝑡𝑡=1
𝑁𝑁
𝛾𝛾𝑡𝑡−1 𝑅𝑅 𝑋𝑋𝑡𝑡, 𝑌𝑌𝑡𝑡, 𝑋𝑋𝑡𝑡+1 𝑋𝑋1 = 𝑥𝑥
𝑉𝑉𝜋𝜋
2
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌 𝑡𝑡|𝑋𝑋𝑡𝑡
𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡)
��
𝑡𝑡=2
𝑁𝑁
𝛾𝛾𝑡𝑡−2 𝑅𝑅 𝑋𝑋𝑡𝑡, 𝑌𝑌𝑡𝑡, 𝑋𝑋𝑡𝑡+1 𝑋𝑋2 = 𝑥𝑥
ステップ0:
ステップ1:
ステップ2:
価値関数の漸化式表現
29
 価値関数は漸化式で表現可能
𝑉𝑉0
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌𝑡𝑡|𝑋𝑋𝑡𝑡
𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡)
��
𝑡𝑡=0
𝑁𝑁
𝛾𝛾𝑡𝑡
𝑅𝑅 𝑋𝑋𝑡𝑡
, 𝑌𝑌𝑡𝑡
, 𝑋𝑋𝑡𝑡+1
𝑋𝑋0
= 𝑥𝑥
= Ε
𝜋𝜋 𝑌𝑌0|𝑋𝑋0
𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0)
�𝑅𝑅 𝑋𝑋0
, 𝑌𝑌0
, 𝑋𝑋1
+ Ε
𝜋𝜋 𝑌𝑌𝑡𝑡|𝑋𝑋𝑡𝑡
𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡)
�
𝑡𝑡=1
𝑁𝑁
𝛾𝛾𝑡𝑡
𝑅𝑅 𝑋𝑋𝑡𝑡
, 𝑌𝑌𝑡𝑡
, 𝑋𝑋𝑡𝑡+1
𝑋𝑋0
= 𝑥𝑥
= Ε
𝜋𝜋 𝑌𝑌0|𝑋𝑋0
𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0)
�𝑅𝑅 𝑋𝑋0
, 𝑌𝑌0
, 𝑋𝑋1
+ 𝛾𝛾 Ε
𝜋𝜋 𝑌𝑌𝑡𝑡|𝑋𝑋𝑡𝑡
𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡)
��
𝑡𝑡=1
𝑁𝑁
𝛾𝛾𝑡𝑡−1
𝑅𝑅 𝑋𝑋𝑡𝑡
, 𝑌𝑌𝑡𝑡
, 𝑋𝑋𝑡𝑡+1
𝑋𝑋1
𝑋𝑋0
= 𝑥𝑥
= Ε
𝜋𝜋 𝑌𝑌0|𝑋𝑋0
𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0)
|𝑅𝑅 𝑋𝑋0
, 𝑌𝑌0
, 𝑋𝑋1
+ 𝛾𝛾𝑉𝑉1
(𝑋𝑋1
) 𝑋𝑋0
= 𝑥𝑥
𝑉𝑉1(𝑋𝑋1)
各ステップの価値関数
30
ステップ
0
𝑉𝑉𝜋𝜋
0
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌0|𝑋𝑋0
𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0)
|𝑅𝑅 𝑋𝑋0
, 𝑌𝑌0
, 𝑋𝑋1
+ 𝛾𝛾𝑉𝑉𝜋𝜋
1
(𝑋𝑋1
) 𝑋𝑋0
= 𝑥𝑥
ステップ
N
𝑉𝑉𝜋𝜋
𝑁𝑁
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌 𝑁𝑁|𝑋𝑋 𝑁𝑁
𝑃𝑃𝑇𝑇(𝑋𝑋 𝑁𝑁+1|𝑋𝑋 𝑁𝑁,𝑌𝑌 𝑁𝑁)
|𝑅𝑅 𝑋𝑋 𝑁𝑁
, 𝑌𝑌 𝑁𝑁
, 𝑋𝑋 𝑁𝑁+1
𝑋𝑋 𝑁𝑁
= 𝑥𝑥
ステップ
1
𝑉𝑉𝜋𝜋
1
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌1|𝑋𝑋1
𝑃𝑃𝑇𝑇(𝑋𝑋2|𝑋𝑋1,𝑌𝑌1)
|𝑅𝑅 𝑋𝑋1
, 𝑌𝑌1
, 𝑋𝑋2
+ 𝛾𝛾𝑉𝑉𝜋𝜋
2
(𝑋𝑋2
) 𝑋𝑋1
= 𝑥𝑥
𝑉𝑉𝜋𝜋
𝑁𝑁−1
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌 𝑁𝑁−1|𝑋𝑋 𝑁𝑁−1
𝑃𝑃𝑇𝑇(𝑋𝑋 𝑁𝑁|𝑋𝑋 𝑁𝑁−1,𝑌𝑌 𝑁𝑁−1)
|𝑅𝑅 𝑋𝑋 𝑁𝑁−1
, 𝑌𝑌 𝑁𝑁−1
, 𝑋𝑋 𝑁𝑁
+ 𝛾𝛾𝑉𝑉𝜋𝜋
𝑁𝑁
(𝑋𝑋 𝑁𝑁
) 𝑋𝑋 𝑁𝑁−1
= 𝑥𝑥ステップ
N-1
次のステップの
価値関数を参照
状態𝑋𝑋1
𝑥𝑥1
𝑥𝑥2
𝑥𝑥3
𝜋𝜋 𝑌𝑌1
|𝑋𝑋1
𝑅𝑅 𝑋𝑋1, 𝑌𝑌1, 𝑋𝑋2
𝑃𝑃𝑇𝑇 𝑋𝑋1
|𝑋𝑋0
, 𝑌𝑌0𝑦𝑦1𝜋𝜋 𝑌𝑌0
|𝑋𝑋0
行動𝑌𝑌0
𝑦𝑦2
𝑥𝑥3
𝑥𝑥1
𝑥𝑥2
𝑥𝑥3
初期状態𝑋𝑋0
𝑅𝑅 𝑋𝑋0
, 𝑌𝑌0
, 𝑋𝑋1
𝑉𝑉𝜋𝜋
0
(𝑥𝑥) 𝑉𝑉𝜋𝜋
1
(𝑥𝑥) 𝑉𝑉𝜋𝜋
𝑁𝑁
(𝑥𝑥)
状態𝑋𝑋 𝑁𝑁+1
𝑥𝑥1
𝑥𝑥2
𝑥𝑥3
𝑅𝑅 𝑋𝑋 𝑁𝑁
, 𝑌𝑌 𝑁𝑁
, 𝑋𝑋 𝑁𝑁+1
状態𝑋𝑋 𝑁𝑁
𝑥𝑥1
𝑥𝑥2
𝑥𝑥3
𝜋𝜋 𝑌𝑌 𝑁𝑁
|𝑋𝑋 𝑁𝑁 𝑃𝑃𝑇𝑇 𝑋𝑋 𝑁𝑁+1|𝑋𝑋 𝑁𝑁, 𝑌𝑌 𝑁𝑁𝑦𝑦1
行動𝑌𝑌 𝑁𝑁
𝑦𝑦2
𝑥𝑥3
2状態チェーンウォーク問題
31
 決定的な方策関数
 確率「1」でどちらかの行動(𝐿𝐿または𝑅𝑅)を選択
 各状態に行動が2種類あるので、方策は以下の4種類
状態:𝑋𝑋 ∈ 𝐴𝐴, 𝐵𝐵 行動:𝑌𝑌 ∈ 𝐿𝐿, 𝑅𝑅
𝐴𝐴 𝐵𝐵
𝐿𝐿 𝑅𝑅:右に移動
𝑅𝑅
𝐿𝐿:左に移動
報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, 𝐵𝐵 = 1
それ以外は0
状態遷移確率
割引率:γ = 0.9
次の状態
ステップ数:𝑁𝑁 =2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1
𝜋𝜋1 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋1 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐵𝐵 = 1
𝜋𝜋2 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋2 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐵𝐵 = 1
𝜋𝜋3 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋3 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐵𝐵 = 1
𝜋𝜋4 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋4 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐵𝐵 = 1
決定的な遷移:行動を取った方向に移動
部屋 部屋
A B
𝑃𝑃𝑇𝑇 � |A, L 1 0
𝑃𝑃𝑇𝑇 � |A, R 0 1
𝑃𝑃𝑇𝑇 � |B , L 1 0
𝑃𝑃𝑇𝑇 � |B, R 0 1
価値関数の計算
32
 方策𝜋𝜋1の場合:𝜋𝜋 𝐿𝐿 𝐴𝐴 = 1、𝜋𝜋 𝑅𝑅 𝐵𝐵 = 1
A B
𝑃𝑃𝑇𝑇 A, L,� 1 0
𝑃𝑃𝑇𝑇 A , R,� 0 1
𝑃𝑃𝑇𝑇 B , L,� 1 0
𝑃𝑃𝑇𝑇 B , R,� 0 1
状態:𝑋𝑋 ∈ A,B 行動:𝑌𝑌 ∈ L, R
𝐴𝐴 B
L R
RL
報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, B = 1
それ以外は0
状態遷移確率
割引率:γ = 0.9
次の状態
ステップ数:𝑁𝑁 = 2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1
𝑉𝑉𝜋𝜋1
2
𝐵𝐵 = Ε
𝜋𝜋1 𝑌𝑌2|𝑋𝑋2
𝑃𝑃𝑇𝑇(𝑋𝑋3|𝑋𝑋2,𝑌𝑌2)
|𝑅𝑅 𝑋𝑋2
, 𝑌𝑌2
, 𝑋𝑋3
𝑋𝑋2
= 𝐵𝐵
ステップ
2
𝑉𝑉𝜋𝜋1
2
𝐴𝐴 = Ε
𝜋𝜋1 𝑌𝑌2|𝑋𝑋2
𝑃𝑃𝑇𝑇(𝑋𝑋3|𝑋𝑋2,𝑌𝑌2)
|𝑅𝑅 𝑋𝑋2, 𝑌𝑌2, 𝑋𝑋3 𝑋𝑋2 = 𝐴𝐴
= 𝜋𝜋1 𝑅𝑅|A 𝑅𝑅 𝐴𝐴, 𝑅𝑅, 𝐵𝐵 𝑃𝑃𝑇𝑇 𝐵𝐵|𝐴𝐴, 𝑅𝑅 + 𝜋𝜋1 𝐿𝐿|𝐴𝐴 𝑅𝑅 𝐴𝐴, 𝐿𝐿, A 𝑃𝑃𝑇𝑇 𝐴𝐴|𝐴𝐴, 𝐿𝐿
=0 =1 =1=0 =0 =0
= 0
= 𝜋𝜋1 𝑅𝑅|𝐵𝐵 𝑅𝑅 𝐵𝐵, 𝑅𝑅, 𝐵𝐵 𝑃𝑃𝑇𝑇 𝐵𝐵|𝐵𝐵, 𝑅𝑅 + 𝜋𝜋1 𝐿𝐿|𝐵𝐵 𝑅𝑅 𝐵𝐵, 𝐿𝐿, 𝐵𝐵 𝑃𝑃𝑇𝑇 𝐵𝐵|𝐵𝐵, 𝐿𝐿
=1 =0 =1=1 =1 =0
= 1
行動Rをとる場合 行動Lをとる場合
行動Rをとる場合 行動Lをとる場合
価値関数の計算 2
33
 方策𝜋𝜋1の場合:𝜋𝜋 𝐿𝐿 𝐴𝐴 = 1、𝜋𝜋 𝑅𝑅 𝐵𝐵 = 1
状態:𝑋𝑋 ∈ A,B 行動:𝑌𝑌 ∈ L, R
𝐴𝐴 B
L R
RL
状態遷移確率
割引率:γ = 0.9
次の状態
ステップ数:𝑁𝑁 = 2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1
𝑉𝑉𝜋𝜋1
1
𝐴𝐴 = Ε
𝜋𝜋1 𝑌𝑌1|𝑋𝑋1
𝑃𝑃𝑇𝑇(𝑋𝑋2|𝑋𝑋1,𝑌𝑌1)
�𝑅𝑅 𝑋𝑋1
, 𝑌𝑌1
, 𝑋𝑋2
+ 𝛾𝛾𝑉𝑉𝜋𝜋1
2
(𝑋𝑋2
) 𝑋𝑋1
= 𝐴𝐴
ステップ
1
𝑉𝑉𝜋𝜋1
1
𝐵𝐵 = Ε
𝜋𝜋1 𝑌𝑌1|𝑋𝑋1
𝑃𝑃𝑇𝑇(𝑋𝑋2|𝑋𝑋1,𝑌𝑌1)
�𝑅𝑅 𝑋𝑋1
, 𝑌𝑌1
, 𝑋𝑋2
+ 𝛾𝛾𝑉𝑉𝜋𝜋1
2
(𝑋𝑋2
) 𝑋𝑋1
= 𝐵𝐵
= 𝜋𝜋1 𝐿𝐿|𝐴𝐴 𝑅𝑅 𝐴𝐴, 𝐿𝐿, A + 𝛾𝛾𝑉𝑉𝜋𝜋1
2
𝐴𝐴 𝑃𝑃𝑇𝑇 𝐴𝐴|𝐴𝐴, 𝐿𝐿 = 1 ∗ 0 + 0.9 ∗ 0 ∗ 0 = 0
行動Lをとる場合
= 𝜋𝜋1 R|B 𝑅𝑅 𝐵𝐵, 𝑅𝑅, 𝐵𝐵 + 𝛾𝛾𝑉𝑉𝜋𝜋1
2
𝐵𝐵 ∗ 𝑃𝑃𝑇𝑇 𝐵𝐵|𝐵𝐵, 𝑅𝑅 = 1 ∗ 1 + 0.9 ∗ 1 ∗ 1 = 1.9
行動Rをとる場合
A B
𝑃𝑃𝑇𝑇 � |A, L 1 0
𝑃𝑃𝑇𝑇 � |A, R 0 1
𝑃𝑃𝑇𝑇 � |B , L 1 0
𝑃𝑃𝑇𝑇 � |B, R 0 1
報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, B = 1
それ以外は0
課題1
34
 方策𝜋𝜋1のステップ0の価値関数を求め、方策𝜋𝜋1について
考察しなさい。
 𝜋𝜋 𝐿𝐿 𝐴𝐴 = 1、𝜋𝜋 𝑅𝑅 𝐵𝐵 = 1
状態:𝑋𝑋 ∈ A,B 行動:𝑌𝑌 ∈ L, R
𝐴𝐴 B
L R
RL
状態遷移確率
割引率:γ = 0.9
次の状態
ステップ数:𝑁𝑁 = 2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1
ステップ0
𝑉𝑉𝜋𝜋
0
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌0|𝑋𝑋0
𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0)
|𝑅𝑅 𝑋𝑋0, 𝑌𝑌0, 𝑋𝑋1 + 𝛾𝛾𝑉𝑉𝜋𝜋
1
(𝑋𝑋1) 𝑋𝑋0 = 𝑥𝑥
𝑉𝑉𝜋𝜋1
1
𝐴𝐴 = 0 𝑉𝑉𝜋𝜋1
1
𝐵𝐵 = 1.9
ステップ1の価値関数:
A B
𝑃𝑃𝑇𝑇 � |A, L 1 0
𝑃𝑃𝑇𝑇 � |A, R 0 1
𝑃𝑃𝑇𝑇 � |B , L 1 0
𝑃𝑃𝑇𝑇 � |B, R 0 1
報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, B = 1
それ以外は0
価値の列挙法
36
 決定的な方策と、価値を列挙し、最大価値の方策を選択
 必要な演算数(価値関数の計算回数)
 3ステップ2状態チェインウォークの場合:(2×2)×2×3=24回
 実問題では状態数が膨大
(状態数×行動数) × 状態数 × ステップ数
方策の数 各方策で計算する価値の数
ゲーム 局面の数
将棋 10の226乗
囲碁 10の360乗
方策 価値
𝜋𝜋1 𝑉𝑉𝜋𝜋1
0
𝐴𝐴 = 0, 𝑉𝑉𝜋𝜋1
0
𝐵𝐵 = 2.71
𝜋𝜋2 𝑉𝑉𝜋𝜋2
0
𝐴𝐴 = 0, 𝑉𝑉𝜋𝜋2
0
𝐵𝐵 = 0
𝜋𝜋3 𝑉𝑉𝜋𝜋3
0
𝐴𝐴 = 0, 𝑉𝑉𝜋𝜋3
0
𝐵𝐵 = 0
𝜋𝜋4 𝑉𝑉𝜋𝜋4
0
𝑥𝑥 = 1.71, 𝑉𝑉𝜋𝜋4
0
𝑥𝑥 = 2.71
最大の価値
状態:𝑋𝑋 ∈ A,B 行動:𝑌𝑌 ∈ L, R
𝐴𝐴 B
L R
RL
割引率:γ = 0.9
ステップ数:𝑁𝑁 = 2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1
𝜋𝜋1 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋1 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐵𝐵 = 1
𝜋𝜋2 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋2 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐵𝐵 = 1
𝜋𝜋3 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋3 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐵𝐵 = 1
𝜋𝜋4 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋4 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐵𝐵 = 1
報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, B = 1
それ以外は0
内容
37
 教師あり学習
 教師あり学習の例と問題点
 強化学習
 強化学習の目的と成功例
 動物の行動学習
 強化学習の定式化
 動的計画法による最適化
動的計画法
38
 価値関数の最大化を2ステップずつ解く
 𝑁𝑁ステップ目の価値を計算し、最大の価値𝑉𝑉𝜋𝜋∗
𝑁𝑁
𝑥𝑥 を選択
 次の1と2を𝑡𝑡 = 𝑁𝑁 − 1, 𝑁𝑁 − 2, … , 2,1,0と繰り返す
1. 𝑡𝑡ステップの価値𝑉𝑉𝜋𝜋
𝑡𝑡
(𝑥𝑥)を、 𝑡𝑡+1ステップの最大価値𝑉𝑉𝜋𝜋∗
𝑡𝑡+1
𝑥𝑥 を用いて計算
2. 最大の価値𝑉𝑉𝜋𝜋∗
𝑡𝑡
𝑥𝑥 を選択
𝑉𝑉𝜋𝜋
𝑡𝑡
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌 𝑡𝑡|𝑋𝑋𝑡𝑡
𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡)
|𝑅𝑅 𝑋𝑋𝑡𝑡, 𝑌𝑌𝑡𝑡, 𝑋𝑋𝑡𝑡+1 + 𝛾𝛾𝑉𝑉𝜋𝜋∗
𝑡𝑡+1
(𝑋𝑋𝑡𝑡+1) 𝑋𝑋𝑡𝑡+1 = 𝑥𝑥
𝑉𝑉𝜋𝜋
𝑁𝑁
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌 𝑁𝑁|𝑋𝑋 𝑁𝑁
𝑃𝑃𝑇𝑇(𝑋𝑋 𝑁𝑁+1|𝑋𝑋 𝑁𝑁,𝑌𝑌 𝑁𝑁)
|𝑅𝑅 𝑋𝑋 𝑁𝑁, 𝑌𝑌 𝑁𝑁, 𝑋𝑋 𝑁𝑁+1 𝑋𝑋 𝑁𝑁 = 𝑥𝑥
動的計画法の例
39
 価値の計算回数は12回、最適な方策は𝜋𝜋 R 𝐴𝐴 = 1、𝜋𝜋 𝑅𝑅 𝐵𝐵 = 1
𝑉𝑉𝜋𝜋
2
𝐴𝐴 = 0
𝑉𝑉𝜋𝜋′
2
𝐴𝐴 = 0
𝐴𝐴
ステップ2
𝐵𝐵 𝑉𝑉𝜋𝜋′
2
𝐵𝐵 = 1
𝑉𝑉𝜋𝜋
2
𝐵𝐵 = 0
𝑉𝑉𝜋𝜋∗
2
𝐴𝐴 = 0
𝑉𝑉𝜋𝜋
1
𝐴𝐴 = 0
𝑉𝑉𝜋𝜋′
1
𝑥𝑥 = 0.9
𝑉𝑉𝜋𝜋′
1
𝑥𝑥 = 1.9
𝑉𝑉𝜋𝜋
1
𝑥𝑥 = 0
𝑉𝑉𝜋𝜋∗
1
𝐵𝐵 = 1.9
𝑉𝑉𝜋𝜋∗
1
𝐴𝐴 = 0.9
𝑉𝑉𝜋𝜋∗
2
𝐵𝐵 = 1
𝐴𝐴
𝐵𝐵
ステップ3
𝐴𝐴
𝐵𝐵
ステップ1
𝑉𝑉𝜋𝜋
0
𝐴𝐴 = 0.81
𝑉𝑉𝜋𝜋′
0
𝑥𝑥 = 1.71
𝑉𝑉𝜋𝜋′
0
𝑥𝑥 = 2.71
𝑉𝑉𝜋𝜋
0
𝑥𝑥 = 0.81
𝑉𝑉𝜋𝜋∗
1
𝐵𝐵 = 2.71
𝑉𝑉𝜋𝜋∗
1
𝐴𝐴 = 1.71
𝐴𝐴
𝐵𝐵
ステップ0
状態:𝑋𝑋 ∈ A,B 行動:𝑌𝑌 ∈ L, R
𝐴𝐴 B
L R
RL
報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, B = 1
それ以外は0
状態遷移確率
割引率:γ = 0.9
次の状態
ステップ数:𝑁𝑁 = 2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1
𝑉𝑉𝜋𝜋
𝑡𝑡
(𝑥𝑥) = Ε
𝜋𝜋 𝑌𝑌0|𝑋𝑋0
𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0)
|𝑅𝑅 𝑋𝑋0
, 𝑌𝑌0
, 𝑋𝑋1
+ 𝛾𝛾𝑉𝑉𝜋𝜋
𝑡𝑡+1
(𝑋𝑋𝑡𝑡+1
) 𝑋𝑋𝑡𝑡
= 𝑥𝑥
A B
𝑃𝑃𝑇𝑇 � |A, L 1 0
𝑃𝑃𝑇𝑇 � |A, R 0 1
𝑃𝑃𝑇𝑇 � |B , L 1 0
𝑃𝑃𝑇𝑇 � |B, R 0 1
レポートの提出方法
44
 演習レポート:
 タイトル「演習レポート」、日付・学生番号・氏名を用紙の一番上に記載
 課題レポート :
 タイトル「課題レポート」、出題日・学生番号・氏名を用紙の一番上に記載
 2ページ以上になる場合は、ホッチキス留め
 A4サイズの用紙を使用
 一度に複数の課題レポートを提出する場合出題日ごとに別々に綴じる

More Related Content

What's hot

階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギーHiroshi Shimizu
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章Shuyo Nakatani
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4matsuolab
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5matsuolab
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
データ解析3 最適化の復習
データ解析3 最適化の復習データ解析3 最適化の復習
データ解析3 最適化の復習Hirotaka Hachiya
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)Akihiro Nitta
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫るKen'ichi Matsui
 
基底変換、固有値・固有ベクトル、そしてその先
基底変換、固有値・固有ベクトル、そしてその先基底変換、固有値・固有ベクトル、そしてその先
基底変換、固有値・固有ベクトル、そしてその先Taketo Sano
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven explorationTakuya Minagawa
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10matsuolab
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsTakao Yamanaka
 

What's hot (20)

階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
主成分分析
主成分分析主成分分析
主成分分析
 
データ解析3 最適化の復習
データ解析3 最適化の復習データ解析3 最適化の復習
データ解析3 最適化の復習
 
PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫る
 
基底変換、固有値・固有ベクトル、そしてその先
基底変換、固有値・固有ベクトル、そしてその先基底変換、固有値・固有ベクトル、そしてその先
基底変換、固有値・固有ベクトル、そしてその先
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
劣微分
劣微分劣微分
劣微分
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 

Similar to 人工知能2018 6 強化学習の基礎

[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法kenyanonaka
 
コンピュータビジョン最先端ガイド6 第2章:4~4.2節
コンピュータビジョン最先端ガイド6 第2章:4~4.2節コンピュータビジョン最先端ガイド6 第2章:4~4.2節
コンピュータビジョン最先端ガイド6 第2章:4~4.2節nonane
 
人生を豊かにする線形代数学
人生を豊かにする線形代数学人生を豊かにする線形代数学
人生を豊かにする線形代数学Fumiya Watanabe
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」Keisuke Sugawara
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image AnalysisYuki Shimada
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector MachineYuma Nakamura
 
Positive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk EstimatorPositive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk EstimatorKiryo Ryuichi
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析Hirotaka Hachiya
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムMiyoshi Yuya
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseL0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseFujimoto Keisuke
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1hirokazutanaka
 
第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5sleepy_yoshi
 
場の量子論
場の量子論場の量子論
場の量子論M M
 

Similar to 人工知能2018 6 強化学習の基礎 (20)

[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
コンピュータビジョン最先端ガイド6 第2章:4~4.2節
コンピュータビジョン最先端ガイド6 第2章:4~4.2節コンピュータビジョン最先端ガイド6 第2章:4~4.2節
コンピュータビジョン最先端ガイド6 第2章:4~4.2節
 
人生を豊かにする線形代数学
人生を豊かにする線形代数学人生を豊かにする線形代数学
人生を豊かにする線形代数学
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
 
Positive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk EstimatorPositive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk Estimator
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseL0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
 
場の量子論
場の量子論場の量子論
場の量子論
 

More from Hirotaka Hachiya

人工知能2018 5 機械学習の基礎
人工知能2018 5 機械学習の基礎人工知能2018 5 機械学習の基礎
人工知能2018 5 機械学習の基礎Hirotaka Hachiya
 
AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎Hirotaka Hachiya
 
データ解析14 ナイーブベイズ
データ解析14 ナイーブベイズデータ解析14 ナイーブベイズ
データ解析14 ナイーブベイズHirotaka Hachiya
 
データ解析13 線形判別分析
データ解析13 線形判別分析データ解析13 線形判別分析
データ解析13 線形判別分析Hirotaka Hachiya
 
データ解析12 k平均法
データ解析12 k平均法データ解析12 k平均法
データ解析12 k平均法Hirotaka Hachiya
 
データ解析11 因子分析の応用
データ解析11 因子分析の応用データ解析11 因子分析の応用
データ解析11 因子分析の応用Hirotaka Hachiya
 
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎データ解析10 因子分析の基礎
データ解析10 因子分析の基礎Hirotaka Hachiya
 
データ解析8 主成分分析の応用
データ解析8 主成分分析の応用データ解析8 主成分分析の応用
データ解析8 主成分分析の応用Hirotaka Hachiya
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎Hirotaka Hachiya
 
データ解析5 単回帰分析
データ解析5 単回帰分析データ解析5 単回帰分析
データ解析5 単回帰分析Hirotaka Hachiya
 
データ解析2 線形代数の復習
データ解析2 線形代数の復習データ解析2 線形代数の復習
データ解析2 線形代数の復習Hirotaka Hachiya
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習Hirotaka Hachiya
 
人工知能12 確率モデル
人工知能12 確率モデル人工知能12 確率モデル
人工知能12 確率モデルHirotaka Hachiya
 
人工知能13 deep learning
人工知能13 deep learning人工知能13 deep learning
人工知能13 deep learningHirotaka Hachiya
 
人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシンHirotaka Hachiya
 
人工知能11 カーネルモデル
人工知能11 カーネルモデル人工知能11 カーネルモデル
人工知能11 カーネルモデルHirotaka Hachiya
 

More from Hirotaka Hachiya (16)

人工知能2018 5 機械学習の基礎
人工知能2018 5 機械学習の基礎人工知能2018 5 機械学習の基礎
人工知能2018 5 機械学習の基礎
 
AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎
 
データ解析14 ナイーブベイズ
データ解析14 ナイーブベイズデータ解析14 ナイーブベイズ
データ解析14 ナイーブベイズ
 
データ解析13 線形判別分析
データ解析13 線形判別分析データ解析13 線形判別分析
データ解析13 線形判別分析
 
データ解析12 k平均法
データ解析12 k平均法データ解析12 k平均法
データ解析12 k平均法
 
データ解析11 因子分析の応用
データ解析11 因子分析の応用データ解析11 因子分析の応用
データ解析11 因子分析の応用
 
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎データ解析10 因子分析の基礎
データ解析10 因子分析の基礎
 
データ解析8 主成分分析の応用
データ解析8 主成分分析の応用データ解析8 主成分分析の応用
データ解析8 主成分分析の応用
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
 
データ解析5 単回帰分析
データ解析5 単回帰分析データ解析5 単回帰分析
データ解析5 単回帰分析
 
データ解析2 線形代数の復習
データ解析2 線形代数の復習データ解析2 線形代数の復習
データ解析2 線形代数の復習
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習
 
人工知能12 確率モデル
人工知能12 確率モデル人工知能12 確率モデル
人工知能12 確率モデル
 
人工知能13 deep learning
人工知能13 deep learning人工知能13 deep learning
人工知能13 deep learning
 
人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン
 
人工知能11 カーネルモデル
人工知能11 カーネルモデル人工知能11 カーネルモデル
人工知能11 カーネルモデル
 

人工知能2018 6 強化学習の基礎

  • 3. 内容 8  教師あり学習  教師あり学習の例と問題点  強化学習  強化学習の目的と成功例  動物の行動学習  強化学習の定式化  動的計画法による最適化
  • 4. 機械学習手法の種類 9  問題(データの条件など)と目的に合わせて適切な 機械学習方法を選択する必要がある 問題 定義 代表的な方法 応用例 教師あり学習 入力と出力のデータに基づき、 入力を出力に変換する関数を 学習 SVM, 最小二乗法、 決定木、ランダム フォーレストなど スパム分類、顔検出、一 般物体認識、将棋局面 の評価など 教師なし学習 入力のみの事例に基づき、 入力の特性 (パターン、構造) を学習 PCA, LDA、HMMなど データの可視化 (クラスタリング、次元圧 縮) 半教師学習 入力のうち部分的に付与された 出力の事例に基づき 入力を出力に変換する関数を 学習 transductiveSVM, Laplacian SVMなど 画像、音声、Webログな どの大量データで、コス トの問題で一部のデータ のみしか出力(答え)が 付与されていない場合 強化学習 入力と、出力に対する報酬 (評価)のデータに基づき、 入力を出力に変換する関数を 学習 Q-learning、policy iteration, policy gradient ロボット制御、Web広告 選択、マーケティング
  • 5. ロボット制御での教師あり学習 10  方策関数(policy):状態𝑥𝑥を行動𝑦𝑦に変換する関数  教師あり学習:各状態𝑥𝑥で取るべき正しい行動𝑦𝑦のデータを用意  目標:各状態で取るべき正しい行動を再現する方策𝜋𝜋 𝑥𝑥 を獲得 出力:行動𝑦𝑦入力:状態𝑥𝑥 𝑦𝑦 = 𝜋𝜋 𝑥𝑥 センサ アクチュエータ 𝑥𝑥0 , 𝑦𝑦0 , 𝑥𝑥1 , 𝑦𝑦1 , … , 𝑥𝑥 𝑁𝑁 , 𝑦𝑦 𝑁𝑁 = (𝑥𝑥𝑡𝑡 , 𝑦𝑦𝑡𝑡 ) 𝑡𝑡=0 𝑁𝑁
  • 6. 制御の例:Ball in a cup(けん玉) 11  目標:ロボットにボールをカップの中に入れる方策𝜋𝜋 𝑠𝑠 を獲得 ボール カップ ロボットアーム
  • 7. 教師データの収集 12  状態と行動の組のデータ: (𝑥𝑥𝑡𝑡, 𝑦𝑦𝑡𝑡) 𝑡𝑡=0 𝑁𝑁 を収集  状態𝑥𝑥 :各関節の角度・角速度、 行動𝑦𝑦 :各関節に加えるトルク量 ドイツ・マックスプランク研究所
  • 8. 教師あり学習(回帰) 13  学習データを用いて二乗誤差和を最小化する 方策関数�𝜋𝜋(𝑠𝑠)を学習 人の教示による方策関数 状態𝑥𝑥 行動𝑦𝑦 学習する方策関数 �𝜋𝜋(𝑥𝑥) min � 𝑡𝑡=1 𝑁𝑁 𝑦𝑦𝑡𝑡 − �𝜋𝜋(𝑥𝑥𝑡𝑡) 2 𝜋𝜋(𝑥𝑥) 誤差  𝑥𝑥𝑡𝑡 𝑥𝑥1 𝑥𝑥2 𝑦𝑦1 𝑦𝑦2 𝑦𝑦𝑡𝑡 𝑥𝑥𝑡𝑡, 𝑥𝑥𝑡𝑡 𝑡𝑡=1 𝑁𝑁 学習データ:
  • 10. 教師あり学習の問題点 15  学習に十分な教師データを収集するのは困難  教師データ数は最低でも学習パラメータの十数倍は必要  教師データを用意するのは人なので、時間および人件費が大  教師データが不正確(特にロボットでは)  人間とロボットでは、骨格、筋肉配置が異なるため、ロボットにとって 最適なダイナミックな行動(関節のトルク)を教えるのが困難  人間の知識の限界  人間が必ずしも最適な方法を知っているとは限らない 学習した方策関数: 良くて人間の模倣、コンピュータにとって最適とは限らない
  • 11. 内容 16  教師あり学習  教師あり学習の例と問題点  強化学習  強化学習の目的と成功例  動物の行動学習  強化学習の定式化  動的計画法による最適化
  • 12. 機械学習手法の種類 17  問題(データの条件など)と目的に合わせて適切な 機械学習方法を選択する必要がある 問題 定義 代表的な方法 応用例 教師あり学習 入力と出力のデータに基づき、 入力を出力に変換する関数を 学習 SVM, 最小二乗法、 決定木、ランダム フォーレストなど スパム分類、顔検出、一 般物体認識、将棋局面 の評価など 教師なし学習 入力のみの事例に基づき、 入力の特性 (パターン、構造) を学習 PCA, LDA、HMMなど データの可視化 (クラスタリング、次元圧 縮) 半教師学習 入力のうち部分的に付与された 出力の事例に基づき 入力を出力に変換する関数を 学習 transductiveSVM, Laplacian SVMなど 画像、音声、Webログな どの大量データで、コス トの問題で一部のデータ のみしか出力(答え)が 付与されていない場合 強化学習 入力と、出力に対する報酬 (評価)のデータに基づき、 入力を出力に変換する関数を 学習 Q-learning、policy iteration, policy gradient ロボット制御、Web広告 選択、マーケティング
  • 13. 強化学習の目標 18  人間が十分なデータを用意できない問題を解決  ロボット制御  Web広告の選択  人間を超える新しい戦略の発見  商品の販売戦略  新薬の開発  機械学習アルゴリズムの開発  将棋、囲碁、ゲームの戦略
  • 14. 強化学習のゲームにおける成功例 19  将棋:2013年の電王戦(現役プロとコンピュータとの対局)にて コンピュータが3勝1敗1分けで勝ち越し  囲碁:2016年3月、Google DeepMind社の「Alpha Go」が世界 No.2の韓国の李セドル氏に4勝1敗の大差で勝利  強化学習アルゴリズム同士の対戦を繰り返すことにより、人間が数千年 かけても見つけられなかった「定石」を発見 動画:https://newswebeasy.github.io/ja201710/news/web/movie/2017/10/19/k10011182291_201710190529_201710190530.mp4
  • 15. 内容 20  教師あり学習  教師あり学習の例と問題点  強化学習  強化学習の目的と成功例  動物の行動学習  強化学習の定式化  動的計画法による最適化
  • 16. 動物の行動学習:試行錯誤学習 21  心理学の行動主義者の学習の定義  行動や反応の変化として表れ、外部から観察できる現象  試行錯誤学習 Edward Thorndike(1874年‒1949年) 迷路のような箱の中で,猫は試行錯誤的に様々な行動を取る。 偶然にでも外に出る行動を取り,それを何度か繰り返すと, やがて同じ行動が出現する頻度が高くなることを実験的に確認 猫が様々な行動をとる 偶然に外に出られた 強くなるロボティック・ゲームプレイヤーの作り方 八谷、杉山 2016 また箱にいれる 試行錯誤の過程を経て何度か繰り返すと、やがて同じ行動が出現する頻度が高くなる 【猫の問題箱実験】 行動後の「満足」または「不快」の度合いに応じて、 行動の出現頻度が学習の過程を経て変化
  • 17. 動物の行動学習:報酬学習 22  報酬学習 【スキナーの箱実験】 何度か繰り返すと、レバーを押す頻度が高くなる Burrhus Frederic Skinner(1904年‒1990年) レバーを押すと餌が出る仕組みになっている箱の中で,ラット が偶然にでもレバーを押し,餌を得ることを何度か繰り返すと, ラットはレバーの近くにいることが多くなり,やがてレバーを押 す行動を取る頻度が高くなるのを実験的に確認 ラットが様々な行動をとる レバーを押す 餌が出る 満足を「餌」という「報酬」で明示的に与えた「試行錯誤学習」。 報酬に応じて行動の自発頻度が変化していく:報酬学習 強くなるロボティック・ゲームプレイヤーの作り方 八谷、杉山 2016
  • 18. ロボット制御での強化学習 23  試行錯誤学習の要素:方策関数を条件付き確率分布関数に拡張  報酬学習の要素:報酬𝑟𝑟の総和を最大化する方策を獲得  報酬関数𝑅𝑅 𝑥𝑥, 𝑦𝑦, 𝑥𝑥𝑥 は人間が設計:教師データを集めるより断然簡単 出力:行動𝑦𝑦入力:状態𝑥𝑥 𝑦𝑦 = 𝜋𝜋 𝑥𝑥 センサ アクチュエータ 𝜋𝜋 𝑌𝑌 = 𝑦𝑦|𝑋𝑋 = 𝑥𝑥 条件付き確率に従いランダムに行動を選択 報酬 𝑟𝑟 環境 𝑟𝑟 = 𝑅𝑅 𝑥𝑥, 𝑦𝑦, 𝑥𝑥𝑥 𝑥𝑥𝑥:次の状態
  • 20. 内容 25  教師あり学習  教師あり学習の例と問題点  強化学習  強化学習の目的と成功例  動物の行動学習  強化学習の定式化  動的計画法による最適化
  • 21. 強化学習の定式化 26  𝜋𝜋, 𝑅𝑅, 𝑃𝑃𝑇𝑇 に従う確率過程(マルコフ決定過程)を考える  価値関数:ステップ𝜏𝜏から始まる報酬和の期待値  目的:価値関数を最大化する方策𝜋𝜋∗ を獲得 𝑃𝑃𝑇𝑇 𝑋𝑋1 |𝑋𝑋0 , 𝑌𝑌0 状態𝑋𝑋0 で行動𝑌𝑌0 をとったとき状態𝑋𝑋1 に遷移する状態遷移確率 状態𝑋𝑋1 𝑥𝑥1 𝑥𝑥2 𝑥𝑥3 𝜋𝜋 𝑌𝑌0|𝑋𝑋0 状態𝑋𝑋0 で行動𝑌𝑌0 を 選択する方策関数 𝑦𝑦1 行動𝑌𝑌0 𝑦𝑦2 𝑦𝑦3 𝜋𝜋 𝑌𝑌1|𝑋𝑋1 状態𝑋𝑋1 に遷移したときの報酬 𝑉𝑉𝜋𝜋 𝜏𝜏 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌𝑡𝑡|𝑋𝑋𝑡𝑡 𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡) �� 𝑡𝑡=𝜏𝜏 𝑁𝑁 𝛾𝛾𝑡𝑡−𝜏𝜏 𝑅𝑅 𝑋𝑋𝑡𝑡, 𝑌𝑌𝑡𝑡, 𝑋𝑋𝑡𝑡+1 𝑋𝑋𝜏𝜏 = 𝑥𝑥 𝛾𝛾 ∈ (0,1] :割引率 遠い先の報酬ほど割り引く 𝑥𝑥1 𝑥𝑥2 𝑥𝑥3 初期状態𝑋𝑋0 𝑟𝑟1 = 𝑅𝑅 𝑋𝑋1 , 𝑌𝑌1 , 𝑋𝑋2 状態𝑋𝑋 𝑁𝑁+1 𝑥𝑥1 𝑥𝑥2 𝑥𝑥3 𝑟𝑟0 = 𝑅𝑅 𝑋𝑋0 , 𝑌𝑌0 , 𝑋𝑋1 状態𝑋𝑋2 に遷移したときの報酬 𝜋𝜋∗ = argmax 𝜋𝜋 𝑉𝑉𝜋𝜋 0 (𝑥𝑥)
  • 22. 期待値の定義 27  1変数𝑋𝑋の場合:  2変数𝑋𝑋と𝑌𝑌の和の場合:  変数𝑌𝑌が𝑦𝑦と観測された場合: E 𝑃𝑃 𝑋𝑋|𝑌𝑌(𝑋𝑋|𝑌𝑌) |𝑌𝑌 + 𝑋𝑋 𝑌𝑌 = 𝑦𝑦 = ∑𝑗𝑗 𝑦𝑦 + 𝑥𝑥𝑗𝑗 𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗|𝑦𝑦 E 𝑃𝑃 𝑋𝑋(𝑋𝑋) 𝑋𝑋 = � 𝑗𝑗 𝑥𝑥𝑗𝑗 𝑃𝑃𝑋𝑋 𝑋𝑋 = 𝑥𝑥𝑗𝑗 E 𝑃𝑃 𝑋𝑋(𝑋𝑋) 𝑋𝑋 確率変数 確率分布関数 期待値の記号 (Expectation) E 𝑃𝑃 𝑋𝑋(𝑌𝑌) 𝑃𝑃 𝑋𝑋|𝑌𝑌(𝑋𝑋|𝑌𝑌) 𝑌𝑌 + 𝑋𝑋 = ∑𝑖𝑖 ∑𝑗𝑗 𝑦𝑦𝑖𝑖 + 𝑥𝑥𝑗𝑗 𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗|𝑦𝑦𝑖𝑖 𝑃𝑃𝑌𝑌 𝑦𝑦𝑖𝑖
  • 23. 価値関数の例 28  各ステップの価値関数  開始ステップが異なるが関数の形は同じ 𝑉𝑉𝜋𝜋 0 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌 𝑡𝑡|𝑋𝑋𝑡𝑡 𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡) �� 𝑡𝑡=0 𝑁𝑁 𝛾𝛾𝑡𝑡−0 𝑅𝑅 𝑋𝑋𝑡𝑡 , 𝑌𝑌𝑡𝑡 , 𝑋𝑋𝑡𝑡+1 𝑋𝑋0 = 𝑥𝑥 𝑉𝑉𝜋𝜋 1 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌 𝑡𝑡|𝑋𝑋𝑡𝑡 𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡) �� 𝑡𝑡=1 𝑁𝑁 𝛾𝛾𝑡𝑡−1 𝑅𝑅 𝑋𝑋𝑡𝑡, 𝑌𝑌𝑡𝑡, 𝑋𝑋𝑡𝑡+1 𝑋𝑋1 = 𝑥𝑥 𝑉𝑉𝜋𝜋 2 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌 𝑡𝑡|𝑋𝑋𝑡𝑡 𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡) �� 𝑡𝑡=2 𝑁𝑁 𝛾𝛾𝑡𝑡−2 𝑅𝑅 𝑋𝑋𝑡𝑡, 𝑌𝑌𝑡𝑡, 𝑋𝑋𝑡𝑡+1 𝑋𝑋2 = 𝑥𝑥 ステップ0: ステップ1: ステップ2:
  • 24. 価値関数の漸化式表現 29  価値関数は漸化式で表現可能 𝑉𝑉0 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌𝑡𝑡|𝑋𝑋𝑡𝑡 𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡) �� 𝑡𝑡=0 𝑁𝑁 𝛾𝛾𝑡𝑡 𝑅𝑅 𝑋𝑋𝑡𝑡 , 𝑌𝑌𝑡𝑡 , 𝑋𝑋𝑡𝑡+1 𝑋𝑋0 = 𝑥𝑥 = Ε 𝜋𝜋 𝑌𝑌0|𝑋𝑋0 𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0) �𝑅𝑅 𝑋𝑋0 , 𝑌𝑌0 , 𝑋𝑋1 + Ε 𝜋𝜋 𝑌𝑌𝑡𝑡|𝑋𝑋𝑡𝑡 𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡) � 𝑡𝑡=1 𝑁𝑁 𝛾𝛾𝑡𝑡 𝑅𝑅 𝑋𝑋𝑡𝑡 , 𝑌𝑌𝑡𝑡 , 𝑋𝑋𝑡𝑡+1 𝑋𝑋0 = 𝑥𝑥 = Ε 𝜋𝜋 𝑌𝑌0|𝑋𝑋0 𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0) �𝑅𝑅 𝑋𝑋0 , 𝑌𝑌0 , 𝑋𝑋1 + 𝛾𝛾 Ε 𝜋𝜋 𝑌𝑌𝑡𝑡|𝑋𝑋𝑡𝑡 𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡) �� 𝑡𝑡=1 𝑁𝑁 𝛾𝛾𝑡𝑡−1 𝑅𝑅 𝑋𝑋𝑡𝑡 , 𝑌𝑌𝑡𝑡 , 𝑋𝑋𝑡𝑡+1 𝑋𝑋1 𝑋𝑋0 = 𝑥𝑥 = Ε 𝜋𝜋 𝑌𝑌0|𝑋𝑋0 𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0) |𝑅𝑅 𝑋𝑋0 , 𝑌𝑌0 , 𝑋𝑋1 + 𝛾𝛾𝑉𝑉1 (𝑋𝑋1 ) 𝑋𝑋0 = 𝑥𝑥 𝑉𝑉1(𝑋𝑋1)
  • 25. 各ステップの価値関数 30 ステップ 0 𝑉𝑉𝜋𝜋 0 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌0|𝑋𝑋0 𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0) |𝑅𝑅 𝑋𝑋0 , 𝑌𝑌0 , 𝑋𝑋1 + 𝛾𝛾𝑉𝑉𝜋𝜋 1 (𝑋𝑋1 ) 𝑋𝑋0 = 𝑥𝑥 ステップ N 𝑉𝑉𝜋𝜋 𝑁𝑁 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌 𝑁𝑁|𝑋𝑋 𝑁𝑁 𝑃𝑃𝑇𝑇(𝑋𝑋 𝑁𝑁+1|𝑋𝑋 𝑁𝑁,𝑌𝑌 𝑁𝑁) |𝑅𝑅 𝑋𝑋 𝑁𝑁 , 𝑌𝑌 𝑁𝑁 , 𝑋𝑋 𝑁𝑁+1 𝑋𝑋 𝑁𝑁 = 𝑥𝑥 ステップ 1 𝑉𝑉𝜋𝜋 1 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌1|𝑋𝑋1 𝑃𝑃𝑇𝑇(𝑋𝑋2|𝑋𝑋1,𝑌𝑌1) |𝑅𝑅 𝑋𝑋1 , 𝑌𝑌1 , 𝑋𝑋2 + 𝛾𝛾𝑉𝑉𝜋𝜋 2 (𝑋𝑋2 ) 𝑋𝑋1 = 𝑥𝑥 𝑉𝑉𝜋𝜋 𝑁𝑁−1 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌 𝑁𝑁−1|𝑋𝑋 𝑁𝑁−1 𝑃𝑃𝑇𝑇(𝑋𝑋 𝑁𝑁|𝑋𝑋 𝑁𝑁−1,𝑌𝑌 𝑁𝑁−1) |𝑅𝑅 𝑋𝑋 𝑁𝑁−1 , 𝑌𝑌 𝑁𝑁−1 , 𝑋𝑋 𝑁𝑁 + 𝛾𝛾𝑉𝑉𝜋𝜋 𝑁𝑁 (𝑋𝑋 𝑁𝑁 ) 𝑋𝑋 𝑁𝑁−1 = 𝑥𝑥ステップ N-1 次のステップの 価値関数を参照 状態𝑋𝑋1 𝑥𝑥1 𝑥𝑥2 𝑥𝑥3 𝜋𝜋 𝑌𝑌1 |𝑋𝑋1 𝑅𝑅 𝑋𝑋1, 𝑌𝑌1, 𝑋𝑋2 𝑃𝑃𝑇𝑇 𝑋𝑋1 |𝑋𝑋0 , 𝑌𝑌0𝑦𝑦1𝜋𝜋 𝑌𝑌0 |𝑋𝑋0 行動𝑌𝑌0 𝑦𝑦2 𝑥𝑥3 𝑥𝑥1 𝑥𝑥2 𝑥𝑥3 初期状態𝑋𝑋0 𝑅𝑅 𝑋𝑋0 , 𝑌𝑌0 , 𝑋𝑋1 𝑉𝑉𝜋𝜋 0 (𝑥𝑥) 𝑉𝑉𝜋𝜋 1 (𝑥𝑥) 𝑉𝑉𝜋𝜋 𝑁𝑁 (𝑥𝑥) 状態𝑋𝑋 𝑁𝑁+1 𝑥𝑥1 𝑥𝑥2 𝑥𝑥3 𝑅𝑅 𝑋𝑋 𝑁𝑁 , 𝑌𝑌 𝑁𝑁 , 𝑋𝑋 𝑁𝑁+1 状態𝑋𝑋 𝑁𝑁 𝑥𝑥1 𝑥𝑥2 𝑥𝑥3 𝜋𝜋 𝑌𝑌 𝑁𝑁 |𝑋𝑋 𝑁𝑁 𝑃𝑃𝑇𝑇 𝑋𝑋 𝑁𝑁+1|𝑋𝑋 𝑁𝑁, 𝑌𝑌 𝑁𝑁𝑦𝑦1 行動𝑌𝑌 𝑁𝑁 𝑦𝑦2 𝑥𝑥3
  • 26. 2状態チェーンウォーク問題 31  決定的な方策関数  確率「1」でどちらかの行動(𝐿𝐿または𝑅𝑅)を選択  各状態に行動が2種類あるので、方策は以下の4種類 状態:𝑋𝑋 ∈ 𝐴𝐴, 𝐵𝐵 行動:𝑌𝑌 ∈ 𝐿𝐿, 𝑅𝑅 𝐴𝐴 𝐵𝐵 𝐿𝐿 𝑅𝑅:右に移動 𝑅𝑅 𝐿𝐿:左に移動 報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, 𝐵𝐵 = 1 それ以外は0 状態遷移確率 割引率:γ = 0.9 次の状態 ステップ数:𝑁𝑁 =2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1 𝜋𝜋1 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋1 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐵𝐵 = 1 𝜋𝜋2 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋2 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐵𝐵 = 1 𝜋𝜋3 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋3 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐵𝐵 = 1 𝜋𝜋4 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋4 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐵𝐵 = 1 決定的な遷移:行動を取った方向に移動 部屋 部屋 A B 𝑃𝑃𝑇𝑇 � |A, L 1 0 𝑃𝑃𝑇𝑇 � |A, R 0 1 𝑃𝑃𝑇𝑇 � |B , L 1 0 𝑃𝑃𝑇𝑇 � |B, R 0 1
  • 27. 価値関数の計算 32  方策𝜋𝜋1の場合:𝜋𝜋 𝐿𝐿 𝐴𝐴 = 1、𝜋𝜋 𝑅𝑅 𝐵𝐵 = 1 A B 𝑃𝑃𝑇𝑇 A, L,� 1 0 𝑃𝑃𝑇𝑇 A , R,� 0 1 𝑃𝑃𝑇𝑇 B , L,� 1 0 𝑃𝑃𝑇𝑇 B , R,� 0 1 状態:𝑋𝑋 ∈ A,B 行動:𝑌𝑌 ∈ L, R 𝐴𝐴 B L R RL 報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, B = 1 それ以外は0 状態遷移確率 割引率:γ = 0.9 次の状態 ステップ数:𝑁𝑁 = 2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1 𝑉𝑉𝜋𝜋1 2 𝐵𝐵 = Ε 𝜋𝜋1 𝑌𝑌2|𝑋𝑋2 𝑃𝑃𝑇𝑇(𝑋𝑋3|𝑋𝑋2,𝑌𝑌2) |𝑅𝑅 𝑋𝑋2 , 𝑌𝑌2 , 𝑋𝑋3 𝑋𝑋2 = 𝐵𝐵 ステップ 2 𝑉𝑉𝜋𝜋1 2 𝐴𝐴 = Ε 𝜋𝜋1 𝑌𝑌2|𝑋𝑋2 𝑃𝑃𝑇𝑇(𝑋𝑋3|𝑋𝑋2,𝑌𝑌2) |𝑅𝑅 𝑋𝑋2, 𝑌𝑌2, 𝑋𝑋3 𝑋𝑋2 = 𝐴𝐴 = 𝜋𝜋1 𝑅𝑅|A 𝑅𝑅 𝐴𝐴, 𝑅𝑅, 𝐵𝐵 𝑃𝑃𝑇𝑇 𝐵𝐵|𝐴𝐴, 𝑅𝑅 + 𝜋𝜋1 𝐿𝐿|𝐴𝐴 𝑅𝑅 𝐴𝐴, 𝐿𝐿, A 𝑃𝑃𝑇𝑇 𝐴𝐴|𝐴𝐴, 𝐿𝐿 =0 =1 =1=0 =0 =0 = 0 = 𝜋𝜋1 𝑅𝑅|𝐵𝐵 𝑅𝑅 𝐵𝐵, 𝑅𝑅, 𝐵𝐵 𝑃𝑃𝑇𝑇 𝐵𝐵|𝐵𝐵, 𝑅𝑅 + 𝜋𝜋1 𝐿𝐿|𝐵𝐵 𝑅𝑅 𝐵𝐵, 𝐿𝐿, 𝐵𝐵 𝑃𝑃𝑇𝑇 𝐵𝐵|𝐵𝐵, 𝐿𝐿 =1 =0 =1=1 =1 =0 = 1 行動Rをとる場合 行動Lをとる場合 行動Rをとる場合 行動Lをとる場合
  • 28. 価値関数の計算 2 33  方策𝜋𝜋1の場合:𝜋𝜋 𝐿𝐿 𝐴𝐴 = 1、𝜋𝜋 𝑅𝑅 𝐵𝐵 = 1 状態:𝑋𝑋 ∈ A,B 行動:𝑌𝑌 ∈ L, R 𝐴𝐴 B L R RL 状態遷移確率 割引率:γ = 0.9 次の状態 ステップ数:𝑁𝑁 = 2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1 𝑉𝑉𝜋𝜋1 1 𝐴𝐴 = Ε 𝜋𝜋1 𝑌𝑌1|𝑋𝑋1 𝑃𝑃𝑇𝑇(𝑋𝑋2|𝑋𝑋1,𝑌𝑌1) �𝑅𝑅 𝑋𝑋1 , 𝑌𝑌1 , 𝑋𝑋2 + 𝛾𝛾𝑉𝑉𝜋𝜋1 2 (𝑋𝑋2 ) 𝑋𝑋1 = 𝐴𝐴 ステップ 1 𝑉𝑉𝜋𝜋1 1 𝐵𝐵 = Ε 𝜋𝜋1 𝑌𝑌1|𝑋𝑋1 𝑃𝑃𝑇𝑇(𝑋𝑋2|𝑋𝑋1,𝑌𝑌1) �𝑅𝑅 𝑋𝑋1 , 𝑌𝑌1 , 𝑋𝑋2 + 𝛾𝛾𝑉𝑉𝜋𝜋1 2 (𝑋𝑋2 ) 𝑋𝑋1 = 𝐵𝐵 = 𝜋𝜋1 𝐿𝐿|𝐴𝐴 𝑅𝑅 𝐴𝐴, 𝐿𝐿, A + 𝛾𝛾𝑉𝑉𝜋𝜋1 2 𝐴𝐴 𝑃𝑃𝑇𝑇 𝐴𝐴|𝐴𝐴, 𝐿𝐿 = 1 ∗ 0 + 0.9 ∗ 0 ∗ 0 = 0 行動Lをとる場合 = 𝜋𝜋1 R|B 𝑅𝑅 𝐵𝐵, 𝑅𝑅, 𝐵𝐵 + 𝛾𝛾𝑉𝑉𝜋𝜋1 2 𝐵𝐵 ∗ 𝑃𝑃𝑇𝑇 𝐵𝐵|𝐵𝐵, 𝑅𝑅 = 1 ∗ 1 + 0.9 ∗ 1 ∗ 1 = 1.9 行動Rをとる場合 A B 𝑃𝑃𝑇𝑇 � |A, L 1 0 𝑃𝑃𝑇𝑇 � |A, R 0 1 𝑃𝑃𝑇𝑇 � |B , L 1 0 𝑃𝑃𝑇𝑇 � |B, R 0 1 報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, B = 1 それ以外は0
  • 29. 課題1 34  方策𝜋𝜋1のステップ0の価値関数を求め、方策𝜋𝜋1について 考察しなさい。  𝜋𝜋 𝐿𝐿 𝐴𝐴 = 1、𝜋𝜋 𝑅𝑅 𝐵𝐵 = 1 状態:𝑋𝑋 ∈ A,B 行動:𝑌𝑌 ∈ L, R 𝐴𝐴 B L R RL 状態遷移確率 割引率:γ = 0.9 次の状態 ステップ数:𝑁𝑁 = 2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1 ステップ0 𝑉𝑉𝜋𝜋 0 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌0|𝑋𝑋0 𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0) |𝑅𝑅 𝑋𝑋0, 𝑌𝑌0, 𝑋𝑋1 + 𝛾𝛾𝑉𝑉𝜋𝜋 1 (𝑋𝑋1) 𝑋𝑋0 = 𝑥𝑥 𝑉𝑉𝜋𝜋1 1 𝐴𝐴 = 0 𝑉𝑉𝜋𝜋1 1 𝐵𝐵 = 1.9 ステップ1の価値関数: A B 𝑃𝑃𝑇𝑇 � |A, L 1 0 𝑃𝑃𝑇𝑇 � |A, R 0 1 𝑃𝑃𝑇𝑇 � |B , L 1 0 𝑃𝑃𝑇𝑇 � |B, R 0 1 報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, B = 1 それ以外は0
  • 30. 価値の列挙法 36  決定的な方策と、価値を列挙し、最大価値の方策を選択  必要な演算数(価値関数の計算回数)  3ステップ2状態チェインウォークの場合:(2×2)×2×3=24回  実問題では状態数が膨大 (状態数×行動数) × 状態数 × ステップ数 方策の数 各方策で計算する価値の数 ゲーム 局面の数 将棋 10の226乗 囲碁 10の360乗 方策 価値 𝜋𝜋1 𝑉𝑉𝜋𝜋1 0 𝐴𝐴 = 0, 𝑉𝑉𝜋𝜋1 0 𝐵𝐵 = 2.71 𝜋𝜋2 𝑉𝑉𝜋𝜋2 0 𝐴𝐴 = 0, 𝑉𝑉𝜋𝜋2 0 𝐵𝐵 = 0 𝜋𝜋3 𝑉𝑉𝜋𝜋3 0 𝐴𝐴 = 0, 𝑉𝑉𝜋𝜋3 0 𝐵𝐵 = 0 𝜋𝜋4 𝑉𝑉𝜋𝜋4 0 𝑥𝑥 = 1.71, 𝑉𝑉𝜋𝜋4 0 𝑥𝑥 = 2.71 最大の価値 状態:𝑋𝑋 ∈ A,B 行動:𝑌𝑌 ∈ L, R 𝐴𝐴 B L R RL 割引率:γ = 0.9 ステップ数:𝑁𝑁 = 2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1 𝜋𝜋1 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋1 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐵𝐵 = 1 𝜋𝜋2 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋2 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐵𝐵 = 1 𝜋𝜋3 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋3 𝑌𝑌 = 𝐿𝐿 𝑋𝑋 = 𝐵𝐵 = 1 𝜋𝜋4 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐴𝐴 = 1 𝜋𝜋4 𝑌𝑌 = 𝑅𝑅 𝑋𝑋 = 𝐵𝐵 = 1 報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, B = 1 それ以外は0
  • 31. 内容 37  教師あり学習  教師あり学習の例と問題点  強化学習  強化学習の目的と成功例  動物の行動学習  強化学習の定式化  動的計画法による最適化
  • 32. 動的計画法 38  価値関数の最大化を2ステップずつ解く  𝑁𝑁ステップ目の価値を計算し、最大の価値𝑉𝑉𝜋𝜋∗ 𝑁𝑁 𝑥𝑥 を選択  次の1と2を𝑡𝑡 = 𝑁𝑁 − 1, 𝑁𝑁 − 2, … , 2,1,0と繰り返す 1. 𝑡𝑡ステップの価値𝑉𝑉𝜋𝜋 𝑡𝑡 (𝑥𝑥)を、 𝑡𝑡+1ステップの最大価値𝑉𝑉𝜋𝜋∗ 𝑡𝑡+1 𝑥𝑥 を用いて計算 2. 最大の価値𝑉𝑉𝜋𝜋∗ 𝑡𝑡 𝑥𝑥 を選択 𝑉𝑉𝜋𝜋 𝑡𝑡 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌 𝑡𝑡|𝑋𝑋𝑡𝑡 𝑃𝑃𝑇𝑇(𝑋𝑋𝑡𝑡+1|𝑋𝑋𝑡𝑡,𝑌𝑌𝑡𝑡) |𝑅𝑅 𝑋𝑋𝑡𝑡, 𝑌𝑌𝑡𝑡, 𝑋𝑋𝑡𝑡+1 + 𝛾𝛾𝑉𝑉𝜋𝜋∗ 𝑡𝑡+1 (𝑋𝑋𝑡𝑡+1) 𝑋𝑋𝑡𝑡+1 = 𝑥𝑥 𝑉𝑉𝜋𝜋 𝑁𝑁 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌 𝑁𝑁|𝑋𝑋 𝑁𝑁 𝑃𝑃𝑇𝑇(𝑋𝑋 𝑁𝑁+1|𝑋𝑋 𝑁𝑁,𝑌𝑌 𝑁𝑁) |𝑅𝑅 𝑋𝑋 𝑁𝑁, 𝑌𝑌 𝑁𝑁, 𝑋𝑋 𝑁𝑁+1 𝑋𝑋 𝑁𝑁 = 𝑥𝑥
  • 33. 動的計画法の例 39  価値の計算回数は12回、最適な方策は𝜋𝜋 R 𝐴𝐴 = 1、𝜋𝜋 𝑅𝑅 𝐵𝐵 = 1 𝑉𝑉𝜋𝜋 2 𝐴𝐴 = 0 𝑉𝑉𝜋𝜋′ 2 𝐴𝐴 = 0 𝐴𝐴 ステップ2 𝐵𝐵 𝑉𝑉𝜋𝜋′ 2 𝐵𝐵 = 1 𝑉𝑉𝜋𝜋 2 𝐵𝐵 = 0 𝑉𝑉𝜋𝜋∗ 2 𝐴𝐴 = 0 𝑉𝑉𝜋𝜋 1 𝐴𝐴 = 0 𝑉𝑉𝜋𝜋′ 1 𝑥𝑥 = 0.9 𝑉𝑉𝜋𝜋′ 1 𝑥𝑥 = 1.9 𝑉𝑉𝜋𝜋 1 𝑥𝑥 = 0 𝑉𝑉𝜋𝜋∗ 1 𝐵𝐵 = 1.9 𝑉𝑉𝜋𝜋∗ 1 𝐴𝐴 = 0.9 𝑉𝑉𝜋𝜋∗ 2 𝐵𝐵 = 1 𝐴𝐴 𝐵𝐵 ステップ3 𝐴𝐴 𝐵𝐵 ステップ1 𝑉𝑉𝜋𝜋 0 𝐴𝐴 = 0.81 𝑉𝑉𝜋𝜋′ 0 𝑥𝑥 = 1.71 𝑉𝑉𝜋𝜋′ 0 𝑥𝑥 = 2.71 𝑉𝑉𝜋𝜋 0 𝑥𝑥 = 0.81 𝑉𝑉𝜋𝜋∗ 1 𝐵𝐵 = 2.71 𝑉𝑉𝜋𝜋∗ 1 𝐴𝐴 = 1.71 𝐴𝐴 𝐵𝐵 ステップ0 状態:𝑋𝑋 ∈ A,B 行動:𝑌𝑌 ∈ L, R 𝐴𝐴 B L R RL 報酬関数:𝑅𝑅 𝐵𝐵, 𝑅𝑅, B = 1 それ以外は0 状態遷移確率 割引率:γ = 0.9 次の状態 ステップ数:𝑁𝑁 = 2 初期状態確率:𝑃𝑃𝐼𝐼 A = 1 𝑉𝑉𝜋𝜋 𝑡𝑡 (𝑥𝑥) = Ε 𝜋𝜋 𝑌𝑌0|𝑋𝑋0 𝑃𝑃𝑇𝑇(𝑋𝑋1|𝑋𝑋0,𝑌𝑌0) |𝑅𝑅 𝑋𝑋0 , 𝑌𝑌0 , 𝑋𝑋1 + 𝛾𝛾𝑉𝑉𝜋𝜋 𝑡𝑡+1 (𝑋𝑋𝑡𝑡+1 ) 𝑋𝑋𝑡𝑡 = 𝑥𝑥 A B 𝑃𝑃𝑇𝑇 � |A, L 1 0 𝑃𝑃𝑇𝑇 � |A, R 0 1 𝑃𝑃𝑇𝑇 � |B , L 1 0 𝑃𝑃𝑇𝑇 � |B, R 0 1
  • 34. レポートの提出方法 44  演習レポート:  タイトル「演習レポート」、日付・学生番号・氏名を用紙の一番上に記載  課題レポート :  タイトル「課題レポート」、出題日・学生番号・氏名を用紙の一番上に記載  2ページ以上になる場合は、ホッチキス留め  A4サイズの用紙を使用  一度に複数の課題レポートを提出する場合出題日ごとに別々に綴じる