Machine Learning 15 minutes
発表資料
2017/3/18
株式会社ウェブファーマー
大政 孝充
● 名前:大政孝充(おおまさ たかみつ)
● 株式会社ウェブファーマー 代表
http://web-farmer.net
● ディープラーニングのコンサルタント
● 深層強化学習システムの開発
自己紹介
本日のテーマ
深層強化生成モデル!
・・・・って何!?
本日のテーマ
深層強化生成モデル!
深層強化生成モデル!
(4)Alpha Go(3)産業機械(1)ゲーム
深層学習 強化学習
(2)自動運転
・DQN
・A3C
・・・etc
深層強化生成モデル!
(3)文章(1)画像
生成モデル
(2)音楽
・VAE
・GANs
・・・etc
深層強化生成モデル・・・
生成モデル
?
? ?
深層学習
強化学習
例えば・・・
深層強化生成モデル
学習で何かを
する
具体的には・・・
深層強化生成モデル
学習で農作物を
する
動画
https://youtu.be/713SFAJUKGQ
ゲームの全体図
収穫ロボット ピーマン
カボチャ
レタス
花 草
野菜 雑草
ゲームの設定
モデルの全体図
・・・・
DRL
observation
reward
action
Deep Learning+強化学習
TD-error
これは
深層強化生成モデル
学習で農作物を
する
シミュレーション
深層強化生成モデル
学習で農作物を
する
実世界
協力:(株)マイティ
動画
https://youtu.be/rF2i5zp2dVQ
モデルの全体図
・・・・
DRL
observation
reward
action
TD-error
協力:(株)マイティ
構成
Raspberry pi 学習用パソコン
アーム
カメラ
obs, reward
action
action
obs
reward
協力:(株)マイティ
あるいは・・・
深層強化生成モデル
学習で金を
する
深層強化学習で金を生成するモデル
売り数量 価格 買い数量
133,000 660
24,000 659
31,000 658
62,000 657
17,000 656
44,000 655
51,000 654
26,000 653
652 40,000
651 39,000
650 154,000
649 38,000
648 32,000
647 18,000
646 657,000
645 41,000
644 28,000
深層強化学習
• DQN
• DRQN
• FRMQN
入力データ
• 注文数量
• 約定履歴
• 他の情報
報酬
前処理
DNN
・・・・
買う 何も
しない
売る
前処理
価格の上昇値
下落値
Q(s, a)
深層強化生成モデル
かつ
深層強化生成モデル
かつ
生成
強化学習
参考資料:
Connecting Generative Adversarial
Networks and Actor-Critic Methods
Devid Pfau, Oriol Vinyals(Google DeepMind)
arXiv:1610.01945v3 18 Jan 2017
GANs(生成モデル)
生成器
(generator)
実際のdata
識別器
(discriminator)
本物?
偽物?
ノイズ
z » pz z( )
D G z( )( )
G z( )
Actor-critic法(深層強化モデル)
Value
Function
Policy
Critic
Environment
state
reward
Actor
TD
error action
GANsとActor-Criticの類似点
min
G
max
D
Ew»pdata x( ) logD w( )éë ùû+ Ez»N 0,1( ) log 1- D G z( )( )( )é
ë
ù
û
= min
G
max
D
Ew,y ylogD w( )+ 1- y( )log 1- D w( )( )é
ë
ù
û
F D,G( )= -Ew»pdata x( ) logD w( )éë ùû- Ez»N 0,1( ) log 1- D G z( )( )( )é
ë
ù
û
f D,G( )= -Ez»N 0,1( ) logD G z( )( )é
ë
ù
û
X*
= argmin
xÎÀ
F X,Y*
X( )( )
Y*
X( )= argmin
YΡ
f X,Y( )
F Q,p( )= Est ,at »p D Est+1,rt,at+1»p rt +gQ st+1,at+1( )éë ùû||Q st,at( )( )é
ë
ù
û
f Q,p( )= -Es0»p0,a0»p Qp
s0,a0( )éë ùû
Qp
s,a( )= Est+k»R,rt+k »R,at+k »p gk
rt+k
k=1
¥
å st = s,at = a
é
ë
ê
ù
û
ú
p*
= argmax
p
Es0 »R0,a0»p Qp
s0,a0( )éë ùû
Qp
= argmin
Q
Est,at »p D Est+1,rt,at+1
rt +gQ st+1,at+1( )éë ùû||Q st,at( )( )é
ë
ù
û
GANs Actor-critic法
GANsとActor-Criticの類似点
min
G
max
D
Ew»pdata x( ) logD w( )éë ùû+ Ez»N 0,1( ) log 1- D G z( )( )( )é
ë
ù
û
= min
G
max
D
Ew,y ylogD w( )+ 1- y( )log 1- D w( )( )é
ë
ù
û
F D,G( )= -Ew»pdata x( ) logD w( )éë ùû- Ez»N 0,1( ) log 1- D G z( )( )( )é
ë
ù
û
f D,G( )= -Ez»N 0,1( ) logD G z( )( )é
ë
ù
û
X*
= argmin
xÎÀ
F X,Y*
X( )( )
Y*
X( )= argmin
YΡ
f X,Y( )
F Q,p( )= Est ,at »p D Est+1,rt,at+1»p rt +gQ st+1,at+1( )éë ùû||Q st,at( )( )é
ë
ù
û
f Q,p( )= -Es0»p0,a0»p Qp
s0,a0( )éë ùû
Qp
s,a( )= Est+k»R,rt+k »R,at+k »p gk
rt+k
k=1
¥
å st = s,at = a
é
ë
ê
ù
û
ú
p*
= argmax
p
Es0 »R0,a0»p Qp
s0,a0( )éë ùû
Qp
= argmin
Q
Est,at »p D Est+1,rt,at+1
rt +gQ st+1,at+1( )éë ùû||Q st,at( )( )é
ë
ù
û
GANs Actor-critic法
行動を生成し
ている
深層強化生成モデル
モデルはそもそも行動
と言えるのでは?
結論
おわり

Ml15min発表資料(提出用)