Ml15min発表資料（提出用）

Machine Learning 15 minutes
発表資料
2017/3/18
株式会社ウェブファーマー
大政孝充

● 名前：大政孝充（おおまさたかみつ）
● 株式会社ウェブファーマー代表
http://web-farmer.net
● ディープラーニングのコンサルタント
● 深層強化学習システムの開発
自己紹介

本日のテーマ
深層強化生成モデル！

・・・・って何！？
本日のテーマ

（４）Alpha Go（３）産業機械（１）ゲーム
深層学習強化学習
（２）自動運転
・DQN
・A3C
・・・etc

（３）文章（１）画像
生成モデル
（２）音楽
・VAE
・GANs
・・・etc

深層強化生成モデル・・・
生成モデル
？
？？
深層学習
強化学習

例えば・・・
深層強化生成モデル
学習で何かを
する

具体的には・・・
学習で農作物を
する

動画
https://youtu.be/713SFAJUKGQ

ゲームの全体図
収穫ロボットピーマン
カボチャ
レタス
花草
野菜雑草
ゲームの設定

モデルの全体図
・・・・
DRL
observation
reward
action
Deep Learning＋強化学習
TD-error

これは
する
シミュレーション

する
実世界

協力：（株）マイティ
動画
https://youtu.be/rF2i5zp2dVQ

モデルの全体図
・・・・
DRL
observation
reward
action
TD-error

構成
Raspberry pi 学習用パソコン
アーム
カメラ
obs, reward
action
action
obs
reward

あるいは・・・
学習で金を
する

深層強化学習で金を生成するモデル
売り数量価格買い数量
133,000 660
24,000 659
31,000 658
62,000 657
17,000 656
44,000 655
51,000 654
26,000 653
652 40,000
651 39,000
650 154,000
649 38,000
648 32,000
647 18,000
646 657,000
645 41,000
644 28,000
深層強化学習
• DQN
• DRQN
• FRMQN
入力データ
• 注文数量
• 約定履歴
• 他の情報
報酬
前処理
DNN
・・・・
買う何も
しない
売る
前処理
価格の上昇値
下落値
Q(s, a)

かつ

かつ
生成
強化学習

参考資料：
Connecting Generative Adversarial
Networks and Actor-Critic Methods
Devid Pfau, Oriol Vinyals(Google DeepMind)
arXiv:1610.01945v3 18 Jan 2017

GANs（生成モデル）
生成器
（generator）
実際のdata
識別器
（discriminator）
本物？
偽物？
ノイズ
z » pz z( )
D G z( )( )
G z( )

Actor-critic法（深層強化モデル）
Value
Function
Policy
Critic
Environment
state
reward
Actor
TD
error action

GANsとActor-Criticの類似点
min
G
max
D
Ew»pdata x( ) logD w( )éë ùû+ Ez»N 0,1( ) log 1- D G z( )( )( )é
ë
ù
û
= min
G
max
D
Ew,y ylogD w( )+ 1- y( )log 1- D w( )( )é
ë
ù
û
F D,G( )= -Ew»pdata x( ) logD w( )éë ùû- Ez»N 0,1( ) log 1- D G z( )( )( )é
ë
ù
û
f D,G( )= -Ez»N 0,1( ) logD G z( )( )é
ë
ù
û
X*
= argmin
xÎÀ
F X,Y*
X( )( )
Y*
X( )= argmin
YÎ¡
f X,Y( )
F Q,p( )= Est ,at »p D Est+1,rt,at+1»p rt +gQ st+1,at+1( )éë ùû||Q st,at( )( )é
ë
ù
û
f Q,p( )= -Es0»p0,a0»p Qp
s0,a0( )éë ùû
Qp
s,a( )= Est+k»R,rt+k »R,at+k »p gk
rt+k
k=1
¥
å st = s,at = a
é
ë
ê
ù
û
ú
p*
= argmax
p
Es0 »R0,a0»p Qp
s0,a0( )éë ùû
Qp
= argmin
Q
Est,at »p D Est+1,rt,at+1
rt +gQ st+1,at+1( )éë ùû||Q st,at( )( )é
ë
ù
û
GANs Actor-critic法

GANsとActor-Criticの類似点
min
G
max
D
Ew»pdata x( ) logD w( )éë ùû+ Ez»N 0,1( ) log 1- D G z( )( )( )é
ë
ù
û
= min
G
max
D
Ew,y ylogD w( )+ 1- y( )log 1- D w( )( )é
ë
ù
û
F D,G( )= -Ew»pdata x( ) logD w( )éë ùû- Ez»N 0,1( ) log 1- D G z( )( )( )é
ë
ù
û
f D,G( )= -Ez»N 0,1( ) logD G z( )( )é
ë
ù
û
X*
= argmin
xÎÀ
F X,Y*
X( )( )
Y*
X( )= argmin
YÎ¡
f X,Y( )
F Q,p( )= Est ,at »p D Est+1,rt,at+1»p rt +gQ st+1,at+1( )éë ùû||Q st,at( )( )é
ë
ù
û
f Q,p( )= -Es0»p0,a0»p Qp
s0,a0( )éë ùû
Qp
s,a( )= Est+k»R,rt+k »R,at+k »p gk
rt+k
k=1
¥
å st = s,at = a
é
ë
ê
ù
û
ú
p*
= argmax
p
Es0 »R0,a0»p Qp
s0,a0( )éë ùû
Qp
= argmin
Q
Est,at »p D Est+1,rt,at+1
rt +gQ st+1,at+1( )éë ùû||Q st,at( )( )é
ë
ù
û
GANs Actor-critic法
行動を生成し
ている

モデルはそもそも行動
と言えるのでは？
結論

Ml15min発表資料（提出用）

More Related Content

Similar to Ml15min発表資料（提出用）

More from WEBFARMER. ltd.

Ml15min発表資料（提出用）