2021.01.26
Naoya Taguchi
株式会社ディー・エヌ・エー + 株式会社 Mobility Technologies
DS 輪講
https://arxiv.org/abs/2012.10215
2
▪ せっかく PFN から論文が出てたので読みたかった
▪ 金融 × ML のノリがわかりそう
▪ 最近シストレに興味があるので
3
▪ 直前の時刻との価格比の対数をとったもの
▪ 値自体は一次近似により直前値からの増減分と解釈可能
4
▪ 期間 u から v の indexing
▪ 銘柄 i から j の indexing
5
▪ one-period-ahead prediction
▪ 時刻 t において、過去の全銘柄の logarithmic return から
t + 1 の logarithmic return を予測
6
▪ 予測 logarithmic return の正負が正しいか否かで判定
▪ 実際の logarithmic return を weight として和をとる
sign 使うと 0 付近が不安定そう...。予測が結構正確なら、
マージンとっても良いと思うけどどれくらい正確なんだろう...
7
▪ Trader:過去情報を入力とする弱学習器
▪ Company:Trader を教育・取捨・統合
8
9
10
▪ Trader の定式化
11
▪ Trader の学習
▪ weight w_i を最小二乗法で学習
▪ w_i 以外のパラメータ (A_j, O_j, ...) は直接最適化できない...
▪ cum return 下位 Q% の Trader のみ学習対象
▪ 学習を行うのは、 return が低くても良い特徴 (alpha factor)
を保持している場合があるため
学習を Q% に絞るのはoverfit を防ぐため?計算量の制限?
12
13
▪ Trader の除外
▪ cum return 下位 Q% を除外
▪ Trader の採用
▪ 各種パラメータ Θ を生成し、新たな Traders を作成
▪ Θ の各パラメータは現状のパラメータに対し Gaussian Mixture
Distribution を fit させ、得られた分布から生成
▪ A_j の j とかから分布を作る感じ
▪ 連続値を整数に丸める
除外は本当に return 下位 Q% で良いの?Feature Selection
とかだとそうも行かない場合もある気がする
14
15
▪ 何かしらの手段を使ってアンサンブル
▪ average / stacking / etc…
▪ アンサンブル手法が学習可能な場合、その学習も行う
▪ 実験では linear regression を使用 (→ 学習する)
16
▪ US の S&P 500 のデータ
▪ daily data
▪ 2000.05.19~2020.05.19
▪ UK の LSE (London Stock Exchange) のデータ
▪ hourly data
▪ 2016.09.07~2019.09.07
17
▪ time windows and execution lags
▪ time window : w
▪ 実際の予測システムは過去全てのデータを使うわけではなく、直近
w のデータを使用する。実験では w = 10 を使用。
▪ execution lag : l
▪ 実際は時刻 t にデータを受け取ると同時に購入処理はできず、
l だけ予測やその他処理に使用する。実験では l = 1 を使用。
18
▪ Metrics (全て大きい方が良い)
▪ Accuracy (ACC)
▪ +- の二値で計算
▪ Annualized Return (AR)
▪ 年間 cum return を全銘柄について平均したもの
▪ Sharpe Ratio (SR)
▪ 平均 cum return を cum return の標準偏差で割ったもの。変動係数?
▪ Calmar Ratio (CR)
▪ AR_i / MDD_i を全銘柄について平均したもの
19
▪ Market
▪ a uniform Buy-And-Hold strategy
▪ Vector Auto Regression (VAR)
▪ 過去の各銘柄の値の線形結合 (+誤差)
▪ Random Forest (RF)
▪ Multi Head Attention (MHA)
▪ Long-and Short-Term Networks (LSTNet)
▪ CNN + RNN の DNN
20
▪ State-Frequency Memory Recurrent Neural Network
(SFM)
▪ LSTM + フーリエ変換の DNN
▪ Symbolic Regression by Genetic Programming (GP)
▪ 遺伝的アルゴリズムベースの予測アルゴリズム
21
▪ US dataset
▪ 提案手法は ACC・AR が良く return が大きそう
▪ 提案手法は SR・CR が良く return/risk 観点でも良さそう
22
▪ US dataset
▪ non-linear activation は効果あり
23
▪ US dataset
▪ 教育・選別は効果あり
24
▪ US dataset
▪ Gaussian Mixture Distribution にした効果あり
25
▪ UK dataset
▪ US より ACC は低いが AR は非常に大きい
26
27
28
▪ Interpretability
▪ こんな感じで可視化することも可能
29
▪ ML 応用の勉強になった
▪ 金融 × ML のノリがちょっとわかった

Trader-Company Method: A Metaheuristic for Interpretable Stock Price Prediction を読んだ