Casual learning-machinelearningwithexcelno8

カジュアル勉強会 @仙台
Excelで機械学習入門第8回
株式会社エクテック
データサイエンティスト

第10回までの流れ
1回~3回 4回~10回
AI周辺の
基本知識
最適化の基本
推論の基本
重回帰分析
機械学習
サポートベクタマシン
ナイーブベイズ
ニューラルネットワーク
RNN/BPTT
強化学習/Q学習

勉強会に参加する以上...

『なにか』を
持って帰って欲しい

『すべて』は難しいけれど
気になった、興味をもった
キーワードでも良いので
⼿元に持って帰って
いただけると幸いです

環境について
(Surroundings)

Excel 2013, 2016
Google Spreadsheets

本日のアジェンダ
1. 強化学習とQ学習
2. Q学習のアルゴリズム
3. Q学習をExcelで体験

これはニューラルネットと同じ

より⼤きな価値のある⾏動を
模索して最適な解を得ようとする

『強化学習』
機械学習を⽤いるロボットは
主要な学習アルゴリズムとして
強化学習を採⽤している

その代表例が
Q学習(Q Learning)

様々なパターンを挑戦させて
より⼤きな価値のある⾏動を
探す⽅法を、機械が⾃ら学習する

⾃⾝の「⾏動」から「状態」を把握
⽬標を達成できたら『報酬』を与える

この⾏動と報酬を繰り返すことで
組み合わせることで
機械⾃らが学んでいく

機械⾃らが学んでいく

巣
餌何度もたどることで
道が濃くなる

AI(⼈⼯知能)
強化学習
機械学習
深層学習
Q学習

アリの具体例から
Q学習を理解する

正⽅形の壁の中に仕切られた8個の部屋が
あります。部屋と部屋とをつなぐ通路が
あり、アリは⾃由に⾏き来でき、
報酬となる飴があります。
この飴にたどり着く最短経路の探索に
Q学習を利⽤します。

エージェント
環境
⾏動
報酬

(1,1) (1,2) (1,3)
(2,2)(2,1)
(3,1) (3,2) (3,3)
(2,3)には
⼊れない

(1,1) (1,2) (1,3)
(2,2)(2,1)
(3,1) (3,2) (3,3)
i⾏j列に
ある部屋を
部屋(i,j)
と表現
(2,3)

(1,1) (1,2) (1,3)
(2,2)(2,1)
(3,1) (3,2) (3,3)
i⾏j列に
ある部屋を
部屋(i,j)
と表現
(2,3)
i⾏j列にある部屋(i,j)と状態番号s
s = 3(i-1)+j

状態1から
状態9まで
左図のよう
に進む

状態1から
状態9まで
左図のよう
に進む
部屋(1,1)から飴のある部屋までを
最短で探しにいきます

状態1から
状態9まで
左図のよう
に進む
部屋(1,1)の状態を最初の
“ステップ”と呼ぶことにします

部屋(3,3)
状態9
部屋(1,1)から部屋(3,3)までに
５ステップで到着できます

部屋(3,3)
状態9
到着の可否は別として、学習が１区切り
ついたときを “エピソード”といいます

Q学習を語る上で、
必要不可⽋な”Q値”

Q値 = Q(s, a)
s: state(状態) a: action(⾏動)

アリの例で⾔えば、
アリは飴までの道のりで
“フェロモン”を利⽤しています

“フェロモン”(⾹り)の
強さに当たる “Q値”

Q値は『⾏動の価値』
と表現されます

『価値』は、ある状態から次の⾏動を
おこしたときに期待される
『魅⼒度』『報酬』を指します

Q値=匂いの強さ
この匂いの強弱を頼りに
道を選択、探索していきます

状態s
Q(s, 下)
Q(s, 上)
Q(s, 右)Q(s, 左)
ある状態では最⼤で
四つの選択ができます

状態s
Q(s, 下)
Q(s, 上)
Q(s, 右)Q(s, 左)
ある状態では最⼤で
四つの選択ができます
原則として匂いの強い⽅へ移動します
(Q値の⼤きい⽅へ移動する)

Q(s, 下)=7
Q(s, 右)=4
Q(s, 左)=3
Q値の⼤きい⽅を
選択します
部屋(1,2)

Q値の表とアリとの対応

Q(s, a)
状態
s
⾏動a
Q(s, a)は
離散的な値を
とるので、
表(テーブル)
で表現する

状態
⾏動
上下左右
…
… … … … …
… … … …
2 Na 7 3 4

⽬的の部屋へと最短ルートを探索する
とき、今いる部屋の隣に飴があるかも

「隣の部屋に移動する」という
１⾏動で飴が⼿に⼊る

即時報酬

即時報酬
(負の即時報酬も可能)

とはいえ、即時報酬のみに囚われている
と⽬的のゴールにはたどり着けません

即時報酬のみに囚われると
延々とループしてしまう

t: ステップ番号を表す変数
st: ステップtにおける状態を表す変数
at: ステップtで選択する⾏動を表す変数
rt: ステップtに、その場で受け取る
即時報酬

その部屋の出⼝から出るとき
Q値の更新をする必要がある

匂いの情報を更新して
再訪時に最短の道を
選択しやすくするため

部屋X 部屋Y
部屋Yへ進んだとき
『魅⼒度』を記⼊

部屋X 部屋Y
b
d
ac r
x
部屋Yに通じる部屋Xの出⼝に
記された匂いの強さ(Q値)を x

部屋X 部屋Y
b
d
ac r
x
これから進む部屋Yの４つの出⼝の
匂いの強さ(Q値)を a, b, c, d

部屋X 部屋Y
b
d
ac r
x
xに設定する部屋Yの「魅⼒度」
= max(a,b,c,d)

部屋X 部屋Y
b
d
ac r
x
この「魅⼒度」を鵜呑みにする
と危険な場合も...

部屋X 部屋Y
b
d
ac r
x
この「魅⼒度」は減衰することも
考慮に⼊れる必要がある

部屋X 部屋Y
b
d
ac r
x
減衰率, 割引率 γ(がんま)

部屋X 部屋Y
b
d
ac r
x
= γmax(a,b,c,d) (0<γ<1)

部屋X 部屋Y
b
d
ac r
x
= r + γmax(a,b,c,d) (0<γ<1)

『次の部屋』の匂いの強さ
= r + γmax(a,b,c,d)

この『匂いの強さ』を『元の部屋』
の出⼝情報xの更新情報として
そのまま採⽤はしない

理由は簡単で、
元の部屋の情報量であって
部屋Yに正しい情報が記録されている
ことの保証はされていないから

もっというと、アリが学習を
完了したかどうかの保証がない
ということになります

このとき、
『学習率』を導⼊します
※仮に、α(あるふぁ)とします

以前の情報 xと、新たに求めた
匂いの強さの情報 r+γmax(a,b,c,d)
から計算される更新量 xは
x ← (1-α)x + {r+γmax(a,b,c,d)}

以前の情報 xと、新たに求めた
匂いの強さの情報 r+γmax(a,b,c,d)
から計算される更新量 xは
x ← (1-α)x + {r+γmax(a,b,c,d)}
新情報旧情報

部屋X 部屋Y
b
d
ac r
旧情報 x
部屋X 部屋Y
b
d
ac r
新情報 x

状態1 状態2
7
43 4
x=5
部屋X 部屋Y
7
43 4
x=(1-α)*5+α(4+γ*7)

Q学習の記号で改めて表現すると

Q(st, a)←Q(st, at)+
α(γt+1+γ maxQ(st+1, at+1)-Q(st, at))
at+1 ∈ A(St+1)

先ほどの式の左辺の値
→ アリの再訪したときに観測できる値

この値を、『遅延報酬』
といいます(Q学習の原理)

部屋X 部屋Y
状態st 状態st+1
Q(st+1,4)
Q(st+1,1)
Q(st+1,2)
Q(st+1,3)
Q(st,1)
期待報酬=γt+1+γmaxQ(st+1, at+1)
γt+1
at+1 ∈ A(St+1)

匂いの強さのみで学習していると
あるとき、迷路にハマり永遠と
ループしてしまう可能性が
潜在的にある

匂いの強さだけでなく
新しい道を探すという
『冒険⼼』もまた必要となる

匂いの強さだけでなく
新しい道を探すという
『冒険⼼』もまた必要となる
ε(いぷしろん)という確率的な
気まぐれさを導⼊する

ε
(アリの冒険⼼の割合)
匂いの強さで
⽅向を決める
気ままに
進む

exploit explore
2
2
51
2
2
51
exploit: Q値をもとに選択
explore: 気ままに選択

exploit explore
2
2
51
2
2
51
勝⼿気ままに
greedy(欲張りな)⾏動をする

exploit explore
2
2
51
2
2
51
最初はεを⼤きく
学習終盤はεを⼩さく

exploit explore
2
2
51
2
2
51
修正ε-greedy法

γt+1+γ maxQ(st+1, at+1)-Q(st, at) → 0
at+1 ∈ A(St+1)

γt+1+γ maxQ(st+1, at+1)-Q(st, at) → 0
at+1 ∈ A(St+1)
0に収束すれば、学習完了。

γt+1+γ maxQ(st+1, at+1) → Q(st, at)
at+1 ∈ A(St+1)

at+1 ∈ A(St+1)
期待報酬とQ値が⼀緒になれば
飽和状態となっている

at+1 ∈ A(St+1)
εも⼗分⼩さいため、最終的に
exploitな⾏動をすれば⽬的にたどり着く

パラメータ設定
エピソード
結果

Q値は、最初のステップは
ランダムに設定される
初期位置
部屋(1,1)

エピソード1が完了
次にエピソード２へ
コピペ
初期位置へ戻す

乱数がεより
⼩さければ
“explore”乱数設定
選択された⾏動エージェントの
次の位置

次のステップの
最⼤のQ値を探す

選択した⾏動に
対応する
Q値を更新

いかがでしたでしょうか。

次回は
Deep Q Learning
DQNに⼊ります

Casual learning-machinelearningwithexcelno8

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Casual learning-machinelearningwithexcelno8

Similar to Casual learning-machinelearningwithexcelno8 (20)

More from KazuhiroSato8

More from KazuhiroSato8 (12)

Recently uploaded

Recently uploaded (6)

Casual learning-machinelearningwithexcelno8