SlideShare a Scribd company logo
1 of 49
論文紹介ゼミ
AlphaStock: A Buying-Winners-and-Selling-Losers
Investment Strategy using Interpretable Deep
Reinforcement Attention Networks
北海道大学大学院情報科学研究科
調和系工学研究室
修士2年 吉田拓海
2019年11月1日(金) 論文紹介ゼミ
論文情報
• タイトル
– AlphaStock: A Buying-Winners-and-Selling-Losers Investment
Strategy using Interpretable Deep Reinforcement Attention Networks
• 学会
– KDD2019(Applied Data Science Track Papers)
• https://www.kdd.org/kdd2019/accepted-papers/view/alphastock-buying-
winners-and-selling-losers-in-deep
• 著者
– Jingyuan Wang1,4, Yang Zhang1, Ke Tang2, Junjie Wu3,4,*, Zhang
Xiong1
• 概要
– attentionネットワークを用いた強化学習ベースの投資戦略(AlphaStock)
– 論文の貢献
• attentionとシャープレシオ指向の強化学習の統合
• 資産間の相互関係をモデル化するattentionメカニズムを提案
• 深層強化学習による解釈可能な投資戦略を提供する最初のモノ
1
著者所属
1.MOE Engineering Research Center of Advanced Computer Application Technology,School of Computer Science Engineering, Beihang
University, Beijing, China
2.Institute of Economics, School of Social Sciences, Tsinghua University, Beijing China
3.Beijing Key Laboratory of Emergency Support Simulation Technologies for City Operations,School of Economics and Management,
Beihang University, Beijing, China
4.Beijing Advanced Innovation Center for BDBC, Beihang University, Beijing, China.
* Corresponding author
Portfolioの生成
Winner scoreの計算
self-attention:相互関係をモデル化
株の表現𝑟の抽出
LSTM:時系列的な特徴
Attention:大域的な特徴
概要
• Attentionネットワークを用いた投資戦略
2
• 強化学習によるシャープレシオの最大化
– 𝑆ℎ𝑎𝑟𝑝𝑒 𝑅𝑎𝑡𝑖𝑜 =
𝑅 𝑝−𝑅 𝑓
𝑉𝑝
Return(利益)
Volatility(リスク)
• 感度分析法によるモデルの解釈
従来研究(古典的な投資戦略)
• 古典的な投資戦略
– Momentum
• 上り調子のものはそのまま上がっていくという考え(逆もそう)
– Mean Reversion
• 価格が平均に戻ってくるという考え
– Multi-factors
• 複数の要素によって資産の評価をする
• 評価値の上/下で購入/販売を決める
3
金融理論を備えているが、市場の特定の特徴のみを活用するため
様々な種類の複雑な市場には弱い
資産
価格
0
時間𝑡
このまま上がっていく
Momentum
資産
価格
0
時間𝑡
戻ってくる
Mean Reversion
平均的水準
従来研究(DL関連)
• Deep Learning in Finance
– 様々な要因を使用して資産価格を予測
• 経済ニュース
• ソーシャルメディア
• 金融イベント
– End-to-Endの投資戦略学習ではなく価格予測にフォーカス
• Reinforcement Learning in Finance
– RRL(Reccurent Reinforcement Learning)
– FDDR
• (実験で比較)
• RRLをDL技術で拡張、RNNによって時系列的特徴を抽出
4
数多く研究されているが、実際の金融市場に適用するには課題がある
DL適用の課題
• リスクとリターンのバランス
– 既存の教師有り深層学習はリスクを意識しない価格予測
• 基本的な投資原則と一致しない
• 資産間の相互関係のモデリング
– 資産間の相互関係はリスクを考慮した資産運用に使用可能
– 既存のDL/RLベースの投資戦略はこの重要な情報に
殆ど注意を払っていない
• 投資戦略の解釈
– DLベースのシステムは説明できないブラックボックス
5
AlphaStockはこれらの課題を克服
AlphaStock
• 基本的には、株式資産のBWSL戦略
• シャープレシオを目的関数とした強化学習
• 3要素
– LSTM-HA, CAAN, Portfolio Generator
6
AlphaStockの概略図
問題設定
• 資産として株式(stock)を想定
– 資産の特性と取引きルールを考慮すればほかの資産に拡張可能
• 順次投資(sequential investment)を行う
– 時刻𝑡で資本を全て投資→時刻𝑡 + 1で利益を得る
– 時刻𝑡の資本にその利益を加えたもの時刻𝑡 + 1の資本となる
7
時間𝑡
資本
0
…
1 𝑡2 𝑡 + 1
Holding period
実験では1か月
𝑀𝑡
𝑀𝑡+1
利益率:𝑅𝑡 =
𝑀𝑡+1− 𝑀𝑡
𝑀𝑡
問題設定 取引操作:ロングポジション
• ロングポジション
– 時刻𝑡1で資産を買って、時刻𝑡2で売る
8
時間𝑡
資産
価格
𝑝𝑡
𝑖
0
𝑡1 𝑡2
利益
𝑢𝑖 𝑝𝑡2
𝑖
− 𝑝𝑡1
𝑖
𝑢𝑖 :資産𝑖の購入量
ここで買う
ここで売る
問題設定 取引操作:ショートポジション
• ショートポジション
– 時刻𝑡1で資産を売って、時刻𝑡2で買い戻す
– ロングポジションの逆
– 株式市場では、ブローカーから株式を借りて、時刻t1でそれを販売
時刻t2で売った株を買い戻して、ブローカーに返す
9
時間𝑡
資産
価格
𝑝𝑡
𝑖
0
𝑡1 𝑡2
利益
𝑢𝑖 (𝑝𝑡1
𝑖
− 𝑝𝑡2
(𝑖)
)
𝑢𝑖 :資産𝑖の販売量
ここで買うここで売る
問題設定 ポートフォリオ
• ポートフォリオ
– 𝒃 = (𝑏 1 , 𝑏 2 , … , 𝑏 𝑖 , … , 𝑏 𝐼 ) 𝑻
• 𝑏 𝑖
:資産𝑖の投資割合
• 𝑖=1
𝐼
𝑏(𝑖) = 1
10
株𝑎
株𝑏
株𝑐
𝒃 = (𝑏 𝑎
, 𝑏 𝑏
, 𝑏 𝑐
)
=(0.5, 0.3, 0.2)
資本:10万
分散投資によってリスクを減らす
また、所望の利益分布を設計可能
問題設定 ポートフォリオ
• ゼロ投資ポートフォリオ
– ポートフォリオの組み立て時に純総投資がゼロになる
• 𝑗=1
𝐽
𝑀(𝑗)
= 0
– ポートフォリオの系 {𝒃 1 , 𝒃 2 , … , 𝒃 𝑗 , … , 𝒃 𝐽 }があると想定
• ポートフォリオ𝒃(𝑗)
への投資金を𝑀(𝑗)
– 𝒃(𝑗)
でロングポジションをとる時𝑀(𝑗)
≥ 0
– 𝒃(𝑗)
でショートポジションをとる時𝑀(𝑗)
≤ 0
– 例えば・・・
• 投資家は、ある会社のセットで1000ドル相当の株式を借りてショート
ポジションとして売却し、空売りの利益を別の会社のセットでロングポ
ジションとして1000ドルの株式を購入するのに使用できる
– ロングポジションとショートポジションの組み立てはゼロ投資ポー
トフォリオ
• 名前はゼロ投資だけど、予算制約が存在することに注意
11
問題設定 その他
• 簡単のため、取引コストは無視
• Buy-winners-and-sell-losers (BWSL)
– 価格上昇率の高い資産(winners)を買って
– 価格上昇率の低い資産(losers)を売る
• 2つのポートフォリオから成るzero-investment portfolio
– 𝒃 𝑡
+
:ロングポジションのポートフォリオ(winnersを買う)
– 𝒃 𝑡
−
:ショートポジションのポートフォリオ(losersを売る)
12
AlphaStock (最適化 目的関数)
• 基本的には、株式資産のBWSL戦略
• シャープレシオを目的関数とした強化学習
• 3要素
– LSTM-HA, CAAN, Portfolio Generator
13
AlphaStockの概略図
AlphaStock (最適化 目的関数)
• シャープレシオ
– リスクとリターンを考慮した指標
– 𝐻 𝑇 =
𝐴 𝑇−Θ
𝑉 𝑇
• 𝐴 𝑇:期間ごとの平均収益率(リターン)
• 𝑉𝑇:ボラティリティ(リスク)
• Θ:risk-freeなリターン
– シャープレシオを最大化するポートフォリオを生成する(T期間)
14
𝑇𝐶𝑡:取引コスト
利益率:𝑅𝑡 =
𝑀𝑡+1− 𝑀𝑡
𝑀𝑡
AlphaStock (Raw Stock Feature)
• 基本的には、株式資産のBWSL戦略
• シャープレシオを目的関数とした強化学習
• 3要素
– LSTM-HA, CAAN, Portfolio Generator
15
AlphaStockの概略図
AlphaStock (Raw Stock Feature)
• trading features
– Price Rising Rate (PR)
• 株価の上昇率
𝑝 𝑡
𝑖
𝑝 𝑡−1
𝑖
– Fine-grained Volatility (VOL)
• 株価の標準偏差
– Trade Volume (TV)
• 取引き量
• company features
– Market Capitalization (MC)
• 時価総額 株価×発行済み株式数
– Price-earnings Ratio (PE)
• 株価収益率 時価総額÷年間収益
– Book-to-market Ratio (BM)
• 簿価対時価比率 企業の会計上の価値(簿価)÷市場価値
– Dividend (Div)
• 株主に対する配当
16
取引に関わる特徴
企業価値に関わる特徴
AlphaStock (Stock Representations Extraction)
• 基本的には、株式資産のBWSL戦略
• シャープレシオを目的関数とした強化学習
• 3要素
– LSTM-HA, CAAN, Portfolio Generator
17
AlphaStockの概略図
Stockの表現𝑟を抽出
AlphaStock (Stock Representations Extraction)
• Long Short-Term Memory with History state Attention
– LSTMの最終層ℎ 𝐾だけでは不十分
– Attentionでℎ 𝐾を強化
18
LSTM
時系列的な特徴を抽出
Attention
大域的な特徴を抽出
LSTM-HAの概略図
AlphaStock (Stock Representations Extraction)
• Long Short-Term Memory with History state Attention
– history featuresからstockの表現を学習
– ℎ 𝐾だけでは不十分
– history state attentionによって全隠れ状態ℎ 𝑘を用いてℎ 𝐾を強化
– 標準的なAttentionによってrepresentation 𝒓を得る
– 同じLSTM-HAで全てのstockの表現を抽出
19
先行研究にあるRNNやMLPによる表現抽出よりも優れているらしい
AlphaStock (Stock Representations Extraction)
• 基本的には、株式資産のBWSL戦略
• シャープレシオを目的関数とした強化学習
• 3要素
– LSTM-HA, CAAN, Portfolio Generator
20
AlphaStockの概略図
抽出した表現𝑟をもとにwinner scoreを計算
AlphaStock (Stock Representations Extraction)
• CAAN (Cross-Asset Attention Network)
– self-attentionを用いて株価間の相互関係を記述
21
事前知識を導入可能(price rising rank prior)
CAANの概略図
AlphaStock (Winners and Losers Selection)
• 従来のRLベースのモデルだとstock representationから直接
ポートフォリオを作ってた
– BWSL戦略において重要な株価間の相互関係を十分に活用できない
• CAAN (Cross-Asset Attention Network)
– self-attentionを用いて株価間の相互関係を記述
– LSTM-HAで得られた表現𝒓から以下の式で𝑠を計算
22
𝑠 : winner score
株価が上がる度合い
高いほど上がる可能性が高い
AlphaStock (Winners and Losers Selection)
• Incorporating price rising rank prior
– 株の相互関係の学習の手助けに事前知識を使用可能
– Price rising rateのランクの相対位置を使用
• NLPの位置情報をモデリングする手法に触発
– 株𝑖と𝑗の離散相対距離
– 事前関係係数(prior relation cofficient)
– Attentionに組み込み
23
𝑐𝑡−1
𝑖
:株𝑖のprice rising rateの順位
𝑄:事前に設定する量子化係数
𝐿 = (𝑙1, … , 𝑙 𝐿):𝑑𝑖𝑗のルックアップ行列
𝑙 𝑑 𝑖𝑗
:𝑑𝑖𝑗のembedding vector
attention係数(𝛽𝑖𝑗)を強める/弱める 重みとして
価格上昇率の相対的順位を導入
AlphaStock (Stock Representations Extraction)
• 基本的には、株式資産のBWSL戦略
• シャープレシオを目的関数とした強化学習
• 3要素
– LSTM-HA, CAAN, Portfolio Generator
24
AlphaStockの概略図
winner scoreからポートフォリオを生成
AlphaStock (Portfolios Generator)
• winner scoreからportfolioを生成
– スコアが高いものを上からG購入(ロングポジション)
– スコアが低いものを下からG売却(ショートポジション)
25
G:ポートフォリオのサイズ
AlphaStock (Optimization via Reinforcement Learning)
• AlphaStock戦略を離散的な行動を使用したRLゲームに組み込む
– T期間の投資は、state-action-rewardの系列𝜋でモデル化
• state: 観測される市場の状態(raw features)
• action: I次元のbinaryベクトル (I:株式の総数)
– 問題を解くのための近似
» 確率
1
2
𝑏で株𝑖に投資する
» 実際の投資では、𝑏に従って資産を割り当てる
• reward: シャープレシオ𝐻 𝜋の行動の貢献
– 実際には各ステップでrewardは与えられない
全ステップ終わってから𝐻が決定
26
action(行動)
action=1 -> 株𝑖に投資
action=0 -> 投資しない
G : AlphaStock
(ポートフォリオ𝑏を生成)
AlphaStock (Optimization via Reinforcement Learning)
• 可能な全𝜋についてのエージェントの平均報酬
• RLの目的 gradient ascent approach
• N系列の訓練データセットから学習
• シャープレシオに閾値𝐻0を導入
– 閾値以上を保証(𝐻0:市場全体のシャープレシオ)
27
Model Interpretation
• 感度分析法により各特徴のwinner scoreに対する影響度を測る
– 後述する実験ではFine-grained volatilityの低いstockをwinnerとし
て選択することが分かった
• リスクの低い資産を選択
28
s:winner score, F(X): LSTM-HA & CAAN
ある特徴𝑥 𝑞の𝑠(winner score)に対する影響度(influence)
平均影響度(influence)
平均影響度(influence)
データセットから計算
Experiment (Data and Experimental Setup)
• Data(U.S. stock market)
– Wharton Research Data Servicesから取得
• https://wrds-www.wharton.upenn.edu/
– 1970年1月~2016年12月
• 有名なイベントが含まれており、多様な市場状態の評価が可能
– インターネットバブル dot-com bubble (1995~2000)
– サブプライム住宅ローン危機 (2007~2009)
– stockは4つのmarketから
• NYSE, NYSE American, NASDAQ, NYSE Arca
– stockの数
• 1000 [per year] 以上
– 訓練/検証セット
• 1970年1月~1989年12月
– テストセット
• 1990年1月~2016年12月
29
Experiment (Data and Experimental Setup)
• Experimental Setup
– holding period:1か月
– number of holding periods:T = 12
• RLのシャープレシオ(報酬)の計算は12か月ごと
– look-back window size:K = 12
• 過去12か月の特徴を使用
– portfolio size:G = stockの数×
1
4
30
Experiment (Baseline Methods)
• AlphaStockとの比較
– Market
• 統一されたBuy-And-Hold(詳細不明)
• 市場の状態を示すために使用
– Cross Sectional Momentum (CSM)
– Time Series Momentum (TSM)
– Robust Median Reversion (RMR)
– Fuzzy Deep Direct Reinforcement (FDDR)
– AlphaStock-NC (ASNC)
• without CAAN
– AlphaStock-NP
• without price rising rank prior
31
RL-BWSL戦略の
state-of-the-art
古典的な戦略
Momentum
Reversion
Experiment (Evaluation Measures)
• Cumulative Wealth
– 実験では𝑇𝐶を0.1%に設定
– (意味:資本が何倍になったか的な)
• 投資家の好みは様々なので、以下のような評価尺度も使用
(後で説明)
– Annualized Percentage Rate (APR)
– Annualized Volatility (AVOL)
– Annualized Sharpe Ratio (ASR)
– Maximum DrawDown (MDD)
– Calmar Ratio (CR)
– Downside Deviation Ratio (DDR)
32
𝑅𝑡:利益率
𝑇𝐶:取引コスト
利益率:𝑅𝑡 =
𝑀𝑡+1− 𝑀𝑡
𝑀𝑡
Experiment (Performance in U.S. Markets)
• Cumulative Wealthの比較
– AlphaStock > AlphaStock-NP > AlphaStock-NC
• NP:CAAN無し
• NC:CAAN有り、事前知識(price rising rank prior)無し
33
CAANはBWSL戦略において有効
Experiment (Performance in U.S. Markets)
• Cumulative Wealthの比較
– FDDR(deep RLの先行研究)
• RNNによってstockのfuzzy representatinos を抽出
– AlphaStock-NC > FDDR
34
Attention(LSTM-HA)による表現抽出が優れている
Experiment (Performance in U.S. Markets)
• Cumulative Wealthの比較
– TSMは強気相場に強いが、弱気相場(金融恐慌:2003~2008)に弱い
– RMRはその逆
• 伝統的な金融戦略は特定の市場の状態にしか適用できない
35
RL戦略(AS, FDDR)は異なる市場状態でも安定
2003~2008
Experiment (Evaluation Measures)
• その他の評価尺度
– Annualized Percentage Rate (APR)
• 年換算の利益率
• 𝐴𝑃𝑅 𝑇 = 𝐴 𝑇 × 𝑁 𝑌
– Annualized Volatility (AVOL)
• 年換算のボラティリティ
• 𝐴𝑉𝑂𝐿 𝑇 = 𝑉𝑇 × 𝑁𝑌
– Annualized Sharpe Ratio (ASR)
• 年換算のシャープレシオ
• 𝐴𝑆𝑅 𝑇 = 𝐴𝑃𝑅 𝑇/𝐴𝑉𝑂𝐿 𝑇
36
𝑁𝑌:1年当たりの保有期間数(=12)
利益率:𝑅𝑡 =
𝑀𝑡+1− 𝑀𝑡
𝑀𝑡
Experiment (Evaluation Measures)
• その他の評価尺度
– Maximum DrawDown (MDD)
• 最大ドローダウン
– ドローダウン:最大資産からの下落率
• リスクを測るのに用いられる
– Calmar Ratio (CR)
• MDDによるリスクを考慮したAPR
• 𝐶𝑅 𝑇 = 𝐴𝑃𝑅 𝑇/𝑀𝐷𝐷 𝑇
– Downside Deviation Ratio (DDR)
• ダウンサイド偏差によるリスクを考慮したAPR
– ダウンサイド:保有資産が最小許容値(MAR)を下回るリスク
– 実験ではMAR=0
37
𝑁𝑌:1年当たりの保有期間数(=12)
利益率:𝑅𝑡 =
𝑀𝑡+1− 𝑀𝑡
𝑀𝑡
Experiment (Performance in U.S. Markets)
• その他指標の比較
– AS系はASRが近い
• シャープレシオを最適化してるから
– ASとAS-NPのAPR(利益)は高いが
AVOL(ボラティリティ)が少し高い
38
アンダーライン
がついてるのは
低いほど良い
それ以外は高い
ほど良い
AlphaStockは全指標で他手法より良い性能
多種多様な趣向をもつ投資家にとって良い戦略
Experiment (Performance in U.S. Markets)
• その他指標の比較
– MDD, CR, DDRはAS >> AS-NP >> AS-NC
– この3つの指標は極度の損失(extreme loss)を示す
• 資産総額の減少の最大値、最小許容値以下のリターン
39
アンダーライン
がついてるのは
低いほど良い
それ以外は高い
ほど良い
CAANが極度の損失に対する貢献度が高い
Stock間の 相互関係をモデル化することで
“Losersを買ってWinnersを売る”というエラーから守る
Experiment (Performance in Chinese Markets)
• Data(Chinese Markets)
– 2つのexchange(取引所)を含む
• Shanghai Stock Exchange (SSE)
• Shenzhen Stock Exchange (SZSE)
– WIND databaseから取得
• http://www.wind.com.cn/en/Default.html
– 株はRMB priced ordinary shares(A株)
• 銘柄数 1131
– 期間
• 2005年6月~2018年12月
– Train/validation : 2005年6月~2011年12月
– test:残り
– ショートポジションができないためポートフォリオは𝒃+
のみ
40
Experiment (Performance in Chinese Markets)
• U.S.と比べてrisk(AVOL, MDD)が高い
– 新興市場(emerging markets)の不備
– ショートポジションがない
41
CR列にミス?
U.S. Marketsと同様にAlphaStockは良い性能(ロバスト性)
Investment strategies interpretation
• AlphaStockの投資戦略を解釈する
– 前述した感度分析法で特徴量のwinner選択への影響度を測る
42
(縦軸)
Winner
scoreに対す
る影響度
(横軸)
t: tか月前
Investment strategies interpretation
• Price Rising Rate(PR)
– 長期的なPRは正の影響
– 短期的なPRは負の影響
– 長期的に価格が上昇している株、
短期的に価格がリトレースメントしている株を買う傾向がある
• リトレースメント(綾戻し):長期的な傾向と逆の方向への変動
– 長期的にはmomentum, 短期的にはreversionの混合戦略
43
Investment strategies interpretation
• Price Rising Rate(PR)とTrading volumes(TV)
– 株価の上昇は頻繁な株取引を伴う
– Trading volumesも同じような影響度となっている
44
Investment strategies interpretation
• Volatility
– Volatilityは常に負の影響
– AlphaStockは低ボラティリティな株をwinnerとして選択する傾向
– 多様な市場状態に適用できる理由の説明
45
Investment strategies interpretation
• Company Feature 全t(-1~-12)の平均
– Market Capitalization(MC), Price-earnings Ratio(PE),
Book-to-market Ratio(BM)は重要な企業の評価要因
• 健全な基本的価値のある企業を選択する傾向がある
– DIV(配当)は企業価値の一部が株主に還元されるため
株式の価値を下げる可能性があることを意味してる
• AlphaStockでは負の影響度
46
まとめ
• AlphaStockの提案
– BWSL戦略を設計する強化学習ベースのAttentionネットワーク
– 感度分析によって投資のロジックを解釈
– U.S.とChineの株式市場を対象とした実験によって
既存手法より良い性能を示した
– 買いの傾向
• 長期的な成長率が高い
• ボラティリティが低い
• 本質的な価値が高い
• 最近過小評価されている
47
論文本体以外からの図表の引用
• AlphaStock: Buying Winners and Selling Losers in Deep –
YouTube
– https://www.youtube.com/embed/istJ-puCE-E
– Access 2019-11-01
48

More Related Content

More from harmonylab

A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 

More from harmonylab (20)

A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 

AlphaStock: A Buying-Winners-and-Selling-Losers Investment Strategy using Interpretable Deep Reinforcement Attention Networks

  • 1. 論文紹介ゼミ AlphaStock: A Buying-Winners-and-Selling-Losers Investment Strategy using Interpretable Deep Reinforcement Attention Networks 北海道大学大学院情報科学研究科 調和系工学研究室 修士2年 吉田拓海 2019年11月1日(金) 論文紹介ゼミ
  • 2. 論文情報 • タイトル – AlphaStock: A Buying-Winners-and-Selling-Losers Investment Strategy using Interpretable Deep Reinforcement Attention Networks • 学会 – KDD2019(Applied Data Science Track Papers) • https://www.kdd.org/kdd2019/accepted-papers/view/alphastock-buying- winners-and-selling-losers-in-deep • 著者 – Jingyuan Wang1,4, Yang Zhang1, Ke Tang2, Junjie Wu3,4,*, Zhang Xiong1 • 概要 – attentionネットワークを用いた強化学習ベースの投資戦略(AlphaStock) – 論文の貢献 • attentionとシャープレシオ指向の強化学習の統合 • 資産間の相互関係をモデル化するattentionメカニズムを提案 • 深層強化学習による解釈可能な投資戦略を提供する最初のモノ 1 著者所属 1.MOE Engineering Research Center of Advanced Computer Application Technology,School of Computer Science Engineering, Beihang University, Beijing, China 2.Institute of Economics, School of Social Sciences, Tsinghua University, Beijing China 3.Beijing Key Laboratory of Emergency Support Simulation Technologies for City Operations,School of Economics and Management, Beihang University, Beijing, China 4.Beijing Advanced Innovation Center for BDBC, Beihang University, Beijing, China. * Corresponding author
  • 3. Portfolioの生成 Winner scoreの計算 self-attention:相互関係をモデル化 株の表現𝑟の抽出 LSTM:時系列的な特徴 Attention:大域的な特徴 概要 • Attentionネットワークを用いた投資戦略 2 • 強化学習によるシャープレシオの最大化 – 𝑆ℎ𝑎𝑟𝑝𝑒 𝑅𝑎𝑡𝑖𝑜 = 𝑅 𝑝−𝑅 𝑓 𝑉𝑝 Return(利益) Volatility(リスク) • 感度分析法によるモデルの解釈
  • 4. 従来研究(古典的な投資戦略) • 古典的な投資戦略 – Momentum • 上り調子のものはそのまま上がっていくという考え(逆もそう) – Mean Reversion • 価格が平均に戻ってくるという考え – Multi-factors • 複数の要素によって資産の評価をする • 評価値の上/下で購入/販売を決める 3 金融理論を備えているが、市場の特定の特徴のみを活用するため 様々な種類の複雑な市場には弱い 資産 価格 0 時間𝑡 このまま上がっていく Momentum 資産 価格 0 時間𝑡 戻ってくる Mean Reversion 平均的水準
  • 5. 従来研究(DL関連) • Deep Learning in Finance – 様々な要因を使用して資産価格を予測 • 経済ニュース • ソーシャルメディア • 金融イベント – End-to-Endの投資戦略学習ではなく価格予測にフォーカス • Reinforcement Learning in Finance – RRL(Reccurent Reinforcement Learning) – FDDR • (実験で比較) • RRLをDL技術で拡張、RNNによって時系列的特徴を抽出 4 数多く研究されているが、実際の金融市場に適用するには課題がある
  • 6. DL適用の課題 • リスクとリターンのバランス – 既存の教師有り深層学習はリスクを意識しない価格予測 • 基本的な投資原則と一致しない • 資産間の相互関係のモデリング – 資産間の相互関係はリスクを考慮した資産運用に使用可能 – 既存のDL/RLベースの投資戦略はこの重要な情報に 殆ど注意を払っていない • 投資戦略の解釈 – DLベースのシステムは説明できないブラックボックス 5 AlphaStockはこれらの課題を克服
  • 8. 問題設定 • 資産として株式(stock)を想定 – 資産の特性と取引きルールを考慮すればほかの資産に拡張可能 • 順次投資(sequential investment)を行う – 時刻𝑡で資本を全て投資→時刻𝑡 + 1で利益を得る – 時刻𝑡の資本にその利益を加えたもの時刻𝑡 + 1の資本となる 7 時間𝑡 資本 0 … 1 𝑡2 𝑡 + 1 Holding period 実験では1か月 𝑀𝑡 𝑀𝑡+1 利益率:𝑅𝑡 = 𝑀𝑡+1− 𝑀𝑡 𝑀𝑡
  • 9. 問題設定 取引操作:ロングポジション • ロングポジション – 時刻𝑡1で資産を買って、時刻𝑡2で売る 8 時間𝑡 資産 価格 𝑝𝑡 𝑖 0 𝑡1 𝑡2 利益 𝑢𝑖 𝑝𝑡2 𝑖 − 𝑝𝑡1 𝑖 𝑢𝑖 :資産𝑖の購入量 ここで買う ここで売る
  • 10. 問題設定 取引操作:ショートポジション • ショートポジション – 時刻𝑡1で資産を売って、時刻𝑡2で買い戻す – ロングポジションの逆 – 株式市場では、ブローカーから株式を借りて、時刻t1でそれを販売 時刻t2で売った株を買い戻して、ブローカーに返す 9 時間𝑡 資産 価格 𝑝𝑡 𝑖 0 𝑡1 𝑡2 利益 𝑢𝑖 (𝑝𝑡1 𝑖 − 𝑝𝑡2 (𝑖) ) 𝑢𝑖 :資産𝑖の販売量 ここで買うここで売る
  • 11. 問題設定 ポートフォリオ • ポートフォリオ – 𝒃 = (𝑏 1 , 𝑏 2 , … , 𝑏 𝑖 , … , 𝑏 𝐼 ) 𝑻 • 𝑏 𝑖 :資産𝑖の投資割合 • 𝑖=1 𝐼 𝑏(𝑖) = 1 10 株𝑎 株𝑏 株𝑐 𝒃 = (𝑏 𝑎 , 𝑏 𝑏 , 𝑏 𝑐 ) =(0.5, 0.3, 0.2) 資本:10万 分散投資によってリスクを減らす また、所望の利益分布を設計可能
  • 12. 問題設定 ポートフォリオ • ゼロ投資ポートフォリオ – ポートフォリオの組み立て時に純総投資がゼロになる • 𝑗=1 𝐽 𝑀(𝑗) = 0 – ポートフォリオの系 {𝒃 1 , 𝒃 2 , … , 𝒃 𝑗 , … , 𝒃 𝐽 }があると想定 • ポートフォリオ𝒃(𝑗) への投資金を𝑀(𝑗) – 𝒃(𝑗) でロングポジションをとる時𝑀(𝑗) ≥ 0 – 𝒃(𝑗) でショートポジションをとる時𝑀(𝑗) ≤ 0 – 例えば・・・ • 投資家は、ある会社のセットで1000ドル相当の株式を借りてショート ポジションとして売却し、空売りの利益を別の会社のセットでロングポ ジションとして1000ドルの株式を購入するのに使用できる – ロングポジションとショートポジションの組み立てはゼロ投資ポー トフォリオ • 名前はゼロ投資だけど、予算制約が存在することに注意 11
  • 13. 問題設定 その他 • 簡単のため、取引コストは無視 • Buy-winners-and-sell-losers (BWSL) – 価格上昇率の高い資産(winners)を買って – 価格上昇率の低い資産(losers)を売る • 2つのポートフォリオから成るzero-investment portfolio – 𝒃 𝑡 + :ロングポジションのポートフォリオ(winnersを買う) – 𝒃 𝑡 − :ショートポジションのポートフォリオ(losersを売る) 12
  • 14. AlphaStock (最適化 目的関数) • 基本的には、株式資産のBWSL戦略 • シャープレシオを目的関数とした強化学習 • 3要素 – LSTM-HA, CAAN, Portfolio Generator 13 AlphaStockの概略図
  • 15. AlphaStock (最適化 目的関数) • シャープレシオ – リスクとリターンを考慮した指標 – 𝐻 𝑇 = 𝐴 𝑇−Θ 𝑉 𝑇 • 𝐴 𝑇:期間ごとの平均収益率(リターン) • 𝑉𝑇:ボラティリティ(リスク) • Θ:risk-freeなリターン – シャープレシオを最大化するポートフォリオを生成する(T期間) 14 𝑇𝐶𝑡:取引コスト 利益率:𝑅𝑡 = 𝑀𝑡+1− 𝑀𝑡 𝑀𝑡
  • 16. AlphaStock (Raw Stock Feature) • 基本的には、株式資産のBWSL戦略 • シャープレシオを目的関数とした強化学習 • 3要素 – LSTM-HA, CAAN, Portfolio Generator 15 AlphaStockの概略図
  • 17. AlphaStock (Raw Stock Feature) • trading features – Price Rising Rate (PR) • 株価の上昇率 𝑝 𝑡 𝑖 𝑝 𝑡−1 𝑖 – Fine-grained Volatility (VOL) • 株価の標準偏差 – Trade Volume (TV) • 取引き量 • company features – Market Capitalization (MC) • 時価総額 株価×発行済み株式数 – Price-earnings Ratio (PE) • 株価収益率 時価総額÷年間収益 – Book-to-market Ratio (BM) • 簿価対時価比率 企業の会計上の価値(簿価)÷市場価値 – Dividend (Div) • 株主に対する配当 16 取引に関わる特徴 企業価値に関わる特徴
  • 18. AlphaStock (Stock Representations Extraction) • 基本的には、株式資産のBWSL戦略 • シャープレシオを目的関数とした強化学習 • 3要素 – LSTM-HA, CAAN, Portfolio Generator 17 AlphaStockの概略図 Stockの表現𝑟を抽出
  • 19. AlphaStock (Stock Representations Extraction) • Long Short-Term Memory with History state Attention – LSTMの最終層ℎ 𝐾だけでは不十分 – Attentionでℎ 𝐾を強化 18 LSTM 時系列的な特徴を抽出 Attention 大域的な特徴を抽出 LSTM-HAの概略図
  • 20. AlphaStock (Stock Representations Extraction) • Long Short-Term Memory with History state Attention – history featuresからstockの表現を学習 – ℎ 𝐾だけでは不十分 – history state attentionによって全隠れ状態ℎ 𝑘を用いてℎ 𝐾を強化 – 標準的なAttentionによってrepresentation 𝒓を得る – 同じLSTM-HAで全てのstockの表現を抽出 19 先行研究にあるRNNやMLPによる表現抽出よりも優れているらしい
  • 21. AlphaStock (Stock Representations Extraction) • 基本的には、株式資産のBWSL戦略 • シャープレシオを目的関数とした強化学習 • 3要素 – LSTM-HA, CAAN, Portfolio Generator 20 AlphaStockの概略図 抽出した表現𝑟をもとにwinner scoreを計算
  • 22. AlphaStock (Stock Representations Extraction) • CAAN (Cross-Asset Attention Network) – self-attentionを用いて株価間の相互関係を記述 21 事前知識を導入可能(price rising rank prior) CAANの概略図
  • 23. AlphaStock (Winners and Losers Selection) • 従来のRLベースのモデルだとstock representationから直接 ポートフォリオを作ってた – BWSL戦略において重要な株価間の相互関係を十分に活用できない • CAAN (Cross-Asset Attention Network) – self-attentionを用いて株価間の相互関係を記述 – LSTM-HAで得られた表現𝒓から以下の式で𝑠を計算 22 𝑠 : winner score 株価が上がる度合い 高いほど上がる可能性が高い
  • 24. AlphaStock (Winners and Losers Selection) • Incorporating price rising rank prior – 株の相互関係の学習の手助けに事前知識を使用可能 – Price rising rateのランクの相対位置を使用 • NLPの位置情報をモデリングする手法に触発 – 株𝑖と𝑗の離散相対距離 – 事前関係係数(prior relation cofficient) – Attentionに組み込み 23 𝑐𝑡−1 𝑖 :株𝑖のprice rising rateの順位 𝑄:事前に設定する量子化係数 𝐿 = (𝑙1, … , 𝑙 𝐿):𝑑𝑖𝑗のルックアップ行列 𝑙 𝑑 𝑖𝑗 :𝑑𝑖𝑗のembedding vector attention係数(𝛽𝑖𝑗)を強める/弱める 重みとして 価格上昇率の相対的順位を導入
  • 25. AlphaStock (Stock Representations Extraction) • 基本的には、株式資産のBWSL戦略 • シャープレシオを目的関数とした強化学習 • 3要素 – LSTM-HA, CAAN, Portfolio Generator 24 AlphaStockの概略図 winner scoreからポートフォリオを生成
  • 26. AlphaStock (Portfolios Generator) • winner scoreからportfolioを生成 – スコアが高いものを上からG購入(ロングポジション) – スコアが低いものを下からG売却(ショートポジション) 25 G:ポートフォリオのサイズ
  • 27. AlphaStock (Optimization via Reinforcement Learning) • AlphaStock戦略を離散的な行動を使用したRLゲームに組み込む – T期間の投資は、state-action-rewardの系列𝜋でモデル化 • state: 観測される市場の状態(raw features) • action: I次元のbinaryベクトル (I:株式の総数) – 問題を解くのための近似 » 確率 1 2 𝑏で株𝑖に投資する » 実際の投資では、𝑏に従って資産を割り当てる • reward: シャープレシオ𝐻 𝜋の行動の貢献 – 実際には各ステップでrewardは与えられない 全ステップ終わってから𝐻が決定 26 action(行動) action=1 -> 株𝑖に投資 action=0 -> 投資しない G : AlphaStock (ポートフォリオ𝑏を生成)
  • 28. AlphaStock (Optimization via Reinforcement Learning) • 可能な全𝜋についてのエージェントの平均報酬 • RLの目的 gradient ascent approach • N系列の訓練データセットから学習 • シャープレシオに閾値𝐻0を導入 – 閾値以上を保証(𝐻0:市場全体のシャープレシオ) 27
  • 29. Model Interpretation • 感度分析法により各特徴のwinner scoreに対する影響度を測る – 後述する実験ではFine-grained volatilityの低いstockをwinnerとし て選択することが分かった • リスクの低い資産を選択 28 s:winner score, F(X): LSTM-HA & CAAN ある特徴𝑥 𝑞の𝑠(winner score)に対する影響度(influence) 平均影響度(influence) 平均影響度(influence) データセットから計算
  • 30. Experiment (Data and Experimental Setup) • Data(U.S. stock market) – Wharton Research Data Servicesから取得 • https://wrds-www.wharton.upenn.edu/ – 1970年1月~2016年12月 • 有名なイベントが含まれており、多様な市場状態の評価が可能 – インターネットバブル dot-com bubble (1995~2000) – サブプライム住宅ローン危機 (2007~2009) – stockは4つのmarketから • NYSE, NYSE American, NASDAQ, NYSE Arca – stockの数 • 1000 [per year] 以上 – 訓練/検証セット • 1970年1月~1989年12月 – テストセット • 1990年1月~2016年12月 29
  • 31. Experiment (Data and Experimental Setup) • Experimental Setup – holding period:1か月 – number of holding periods:T = 12 • RLのシャープレシオ(報酬)の計算は12か月ごと – look-back window size:K = 12 • 過去12か月の特徴を使用 – portfolio size:G = stockの数× 1 4 30
  • 32. Experiment (Baseline Methods) • AlphaStockとの比較 – Market • 統一されたBuy-And-Hold(詳細不明) • 市場の状態を示すために使用 – Cross Sectional Momentum (CSM) – Time Series Momentum (TSM) – Robust Median Reversion (RMR) – Fuzzy Deep Direct Reinforcement (FDDR) – AlphaStock-NC (ASNC) • without CAAN – AlphaStock-NP • without price rising rank prior 31 RL-BWSL戦略の state-of-the-art 古典的な戦略 Momentum Reversion
  • 33. Experiment (Evaluation Measures) • Cumulative Wealth – 実験では𝑇𝐶を0.1%に設定 – (意味:資本が何倍になったか的な) • 投資家の好みは様々なので、以下のような評価尺度も使用 (後で説明) – Annualized Percentage Rate (APR) – Annualized Volatility (AVOL) – Annualized Sharpe Ratio (ASR) – Maximum DrawDown (MDD) – Calmar Ratio (CR) – Downside Deviation Ratio (DDR) 32 𝑅𝑡:利益率 𝑇𝐶:取引コスト 利益率:𝑅𝑡 = 𝑀𝑡+1− 𝑀𝑡 𝑀𝑡
  • 34. Experiment (Performance in U.S. Markets) • Cumulative Wealthの比較 – AlphaStock > AlphaStock-NP > AlphaStock-NC • NP:CAAN無し • NC:CAAN有り、事前知識(price rising rank prior)無し 33 CAANはBWSL戦略において有効
  • 35. Experiment (Performance in U.S. Markets) • Cumulative Wealthの比較 – FDDR(deep RLの先行研究) • RNNによってstockのfuzzy representatinos を抽出 – AlphaStock-NC > FDDR 34 Attention(LSTM-HA)による表現抽出が優れている
  • 36. Experiment (Performance in U.S. Markets) • Cumulative Wealthの比較 – TSMは強気相場に強いが、弱気相場(金融恐慌:2003~2008)に弱い – RMRはその逆 • 伝統的な金融戦略は特定の市場の状態にしか適用できない 35 RL戦略(AS, FDDR)は異なる市場状態でも安定 2003~2008
  • 37. Experiment (Evaluation Measures) • その他の評価尺度 – Annualized Percentage Rate (APR) • 年換算の利益率 • 𝐴𝑃𝑅 𝑇 = 𝐴 𝑇 × 𝑁 𝑌 – Annualized Volatility (AVOL) • 年換算のボラティリティ • 𝐴𝑉𝑂𝐿 𝑇 = 𝑉𝑇 × 𝑁𝑌 – Annualized Sharpe Ratio (ASR) • 年換算のシャープレシオ • 𝐴𝑆𝑅 𝑇 = 𝐴𝑃𝑅 𝑇/𝐴𝑉𝑂𝐿 𝑇 36 𝑁𝑌:1年当たりの保有期間数(=12) 利益率:𝑅𝑡 = 𝑀𝑡+1− 𝑀𝑡 𝑀𝑡
  • 38. Experiment (Evaluation Measures) • その他の評価尺度 – Maximum DrawDown (MDD) • 最大ドローダウン – ドローダウン:最大資産からの下落率 • リスクを測るのに用いられる – Calmar Ratio (CR) • MDDによるリスクを考慮したAPR • 𝐶𝑅 𝑇 = 𝐴𝑃𝑅 𝑇/𝑀𝐷𝐷 𝑇 – Downside Deviation Ratio (DDR) • ダウンサイド偏差によるリスクを考慮したAPR – ダウンサイド:保有資産が最小許容値(MAR)を下回るリスク – 実験ではMAR=0 37 𝑁𝑌:1年当たりの保有期間数(=12) 利益率:𝑅𝑡 = 𝑀𝑡+1− 𝑀𝑡 𝑀𝑡
  • 39. Experiment (Performance in U.S. Markets) • その他指標の比較 – AS系はASRが近い • シャープレシオを最適化してるから – ASとAS-NPのAPR(利益)は高いが AVOL(ボラティリティ)が少し高い 38 アンダーライン がついてるのは 低いほど良い それ以外は高い ほど良い AlphaStockは全指標で他手法より良い性能 多種多様な趣向をもつ投資家にとって良い戦略
  • 40. Experiment (Performance in U.S. Markets) • その他指標の比較 – MDD, CR, DDRはAS >> AS-NP >> AS-NC – この3つの指標は極度の損失(extreme loss)を示す • 資産総額の減少の最大値、最小許容値以下のリターン 39 アンダーライン がついてるのは 低いほど良い それ以外は高い ほど良い CAANが極度の損失に対する貢献度が高い Stock間の 相互関係をモデル化することで “Losersを買ってWinnersを売る”というエラーから守る
  • 41. Experiment (Performance in Chinese Markets) • Data(Chinese Markets) – 2つのexchange(取引所)を含む • Shanghai Stock Exchange (SSE) • Shenzhen Stock Exchange (SZSE) – WIND databaseから取得 • http://www.wind.com.cn/en/Default.html – 株はRMB priced ordinary shares(A株) • 銘柄数 1131 – 期間 • 2005年6月~2018年12月 – Train/validation : 2005年6月~2011年12月 – test:残り – ショートポジションができないためポートフォリオは𝒃+ のみ 40
  • 42. Experiment (Performance in Chinese Markets) • U.S.と比べてrisk(AVOL, MDD)が高い – 新興市場(emerging markets)の不備 – ショートポジションがない 41 CR列にミス? U.S. Marketsと同様にAlphaStockは良い性能(ロバスト性)
  • 43. Investment strategies interpretation • AlphaStockの投資戦略を解釈する – 前述した感度分析法で特徴量のwinner選択への影響度を測る 42 (縦軸) Winner scoreに対す る影響度 (横軸) t: tか月前
  • 44. Investment strategies interpretation • Price Rising Rate(PR) – 長期的なPRは正の影響 – 短期的なPRは負の影響 – 長期的に価格が上昇している株、 短期的に価格がリトレースメントしている株を買う傾向がある • リトレースメント(綾戻し):長期的な傾向と逆の方向への変動 – 長期的にはmomentum, 短期的にはreversionの混合戦略 43
  • 45. Investment strategies interpretation • Price Rising Rate(PR)とTrading volumes(TV) – 株価の上昇は頻繁な株取引を伴う – Trading volumesも同じような影響度となっている 44
  • 46. Investment strategies interpretation • Volatility – Volatilityは常に負の影響 – AlphaStockは低ボラティリティな株をwinnerとして選択する傾向 – 多様な市場状態に適用できる理由の説明 45
  • 47. Investment strategies interpretation • Company Feature 全t(-1~-12)の平均 – Market Capitalization(MC), Price-earnings Ratio(PE), Book-to-market Ratio(BM)は重要な企業の評価要因 • 健全な基本的価値のある企業を選択する傾向がある – DIV(配当)は企業価値の一部が株主に還元されるため 株式の価値を下げる可能性があることを意味してる • AlphaStockでは負の影響度 46
  • 48. まとめ • AlphaStockの提案 – BWSL戦略を設計する強化学習ベースのAttentionネットワーク – 感度分析によって投資のロジックを解釈 – U.S.とChineの株式市場を対象とした実験によって 既存手法より良い性能を示した – 買いの傾向 • 長期的な成長率が高い • ボラティリティが低い • 本質的な価値が高い • 最近過小評価されている 47
  • 49. 論文本体以外からの図表の引用 • AlphaStock: Buying Winners and Selling Losers in Deep – YouTube – https://www.youtube.com/embed/istJ-puCE-E – Access 2019-11-01 48