INFRASTRUCTURE + LIFE + INNOVATION
12017/10/5
RNUG 02
分散投資を強化学習でマネジメントしてみる
Agenda
22017/10/5
uポートフォリオマネジメント
u色々なアプローチ
u強化学習の枠組み
u参考論文紹介
u実装してみました
uまとめ
ポートフォリオマネジメント
32017/10/5
投資商品全体(ポートフォリオ)のバランスを考慮し
商品の分析・検討を行い、最適な投資配分の意思決定をすること
株式
58%
日本国債
23%
外国債
10%
リート
9%
ポートフォリオマネジメントの例
l 価値が上昇しそうな商品を多めに保有
l リスクの少ない商品を多めに保有
l 多数の商品を平等に分散して保有
為替、株、証券…
色々なアプローチ:例1
42017/10/5
ポートフォリオマネジメント
時々の市場価格に基づくアプローチ
● Follow the Winner アルゴリズム
● Follow the Loser アルゴリズム など
市場の移動平均などを見て、
決められた数式に従って
一定量の資産を買う(売る)
色々なアプローチ:例2
52017/10/5
ポートフォリオマネジメント
価格予測に基づくアプローチ
● Deep Learning in Finance
J. B. Heaton, N. G. Polson, J. H. Witte
価格予測
モデル
売買コスト評価
モデル
意思決定
モデル
注文
市場
データ
将来の価格を過去のデータから
予測し、その商品を買う(売る)
価格予測モデル + 売買コスト評価モデル + 意思決定を行うモデルが必要
色々なアプローチ:例3
62017/10/5
ポートフォリオマネジメント
強化学習に基くアルゴリズム
● A Deep Reinforcement Learning Framework for
the Financial Portfolio Management Problem
Zhengyao Jiang, Dixing Xu, Jinjun Liang
データ評価 売買コスト評価
意思決定
注文
市場
データ
売買コスト評価と意思決定の全てがエージェントによって行われる
問題を強化学習の枠組みで扱う
72017/10/5
● 強化学習の枠組み
State(状態)
株を
買うか?
買わないか?
Action(行動)
Agent
(エージェント)
問題を強化学習の枠組みで扱う
82017/10/5
この相場は
良さそうだし、
お金もあるから
10万円分
買っとこう!
状態を認識
行動(意思)
決定
問題を強化学習の枠組みで扱う
92017/10/5
財産が増えた!
さらに上がりそう!
状態を認識
行動(意思)
決定
次状態を
認識
問題を強化学習の枠組みで扱う
102017/10/5
状態を認識
行動(意思)
決定
次状態を
認識
さっきみたいな相場で
10万投資すると
こんなに かるのか…
問題を強化学習の枠組みで扱う
112017/10/5
状態を認識
行動(意思)
決定
次状態を
認識
さっきみたいな相場で
10万投資すると
こんなに かるのか…
報酬(脳汁)によって、ある状態において
ある行動をとるという意思が強化される
深層強化学習において
ニューラルネットワークが果たす役割
122017/10/5
状態を認識
行動(意思)
決定
状態
行動
状態sを受け、行動aを出力するポリシーネットワーク
NNで置き換え
深層強化学習において
ニューラルネットワークが果たす役割
132017/10/5
状態 行動
価値
状態sと行動aを受け、その価値を出力する
評価ネットワークとしての役割
NNで置き換え
参考論文の紹介
142017/10/5
● A Deep Reinforcement Learning Framework for
the Financial Portfolio Management Problem
Zhengyao Jiang, Dixing Xu, Jinjun Liang
⇒ フィナンシャル ポートフォリオ マネジメントのための
深層強化学習フレームワーク
ビットコイン市場で30分ごとに保有資産の割合を
変更し、資産の最大化を目指す。
電子通貨市場
152017/10/5
現状最も普及している電子通貨がビットコイン
ビットコインを基準通貨として他の電子通貨へ分散投資
外国為替取引と同じように、
変動前後の価格差で利益を出せる
参考論文の紹介
BITCOIN
Ethereum
DASH
論文では11種類の投資商品に
対して分散投資をする
状態を定義
162017/10/5
参考論文の紹介
市場のトレンド と 自分の保有資産 を状態として扱う。
時刻ごとの各商品の価格比を並べ、行列データとする。
一つの状態は50時刻分のトレンドデータと保有資産ベクトルからなる。
EUR t1 t2 … t50
USD t1 t2 … t50
JPN t1 t2 … t50
時系列
エージェントは “市場を見て売買割合を決める” ので、
状態を以下のように定義する
商
品
行動を定義
172017/10/5
参考論文の紹介
一定時刻ごとに資産の保有割合を変える。その保有割合を行動とする。
株式
45%
日本国債
30%
外国債
16%
リート
9%
…論文では11種類の商品+基準通貨の割合を出力するので、
行動は要素の和が1の12次元のベクトルで表される。
論文の実験結果
182017/10/5
参考論文の紹介
初
期
資
産
と
各
時
刻
の
資
産
比
時間[30min]
論文で提案された
方法によるもの
(29.69倍 !?)
最も高い利益を出した
商品を保有し続けたもの
(1.29倍)
1倍
10倍
実装してみました
192017/10/5
2年分(30分 30000ステップ)の取引データを用いて学習
約20日(30分 1000ステップ)の取引データを用いてテスト
学習データ テスト
2017/9/222015~ 2017/8~
※いくつか分からない点が残っていますが、無理やり実装しました。
● 電子通貨市場で11種類の商品に対して分散投資を行った
実装してみました(テスト結果 総資産の変動)
202017/10/5
資産5倍ライン
ここを拡大
資産3倍ライン
初
期
資
産
と
各
時
刻
の
資
産
比 時間 [30min]
資産変動図を拡大
212017/10/5
実装結果
1.08倍
1.02倍
1.05倍
初
期
資
産
と
各
時
刻
の
資
産
比
時間 [30min]
まとめ
222017/10/5
実装結果
● 強化学習によるポートフォリオマネジメントアルゴリズムを実装した
● Backテスト(過去のデータに基づくテスト)では非常にハイパフォーマンス
● 全ての資産を一つの商品に割り当てる傾向がある(リスク管理が足りない)
※実験の仮定として…
1. 自分の売買が市場に影響を与えないぐらい市場が大きい
2. 自分の注文は直ちに売り買いが行われる
という条件がある。特に2番の仮定により、実取引はパフォーマンスが出ないかもしれない。
参考資料
232017/10/5
実装結果
● A Deep Reinforcement Learning Framework for the
Financial Portfolio Management Problem
Zhengyao Jiang, Dixing Xu, Jinjun Liang
● Online Portfolio Selection: Principles and Algorithms[p.23~p.29]
Bin Li、Steven Chu Hong Hoi
● Deep Learning in Finance
J. B. Heaton, N. G. Polson, J. H. Witte

強化学習を用いたポートフォリオマネジメントの試み