Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

A dual stage attention-based recurrent neural network for time series prediction

767 views

Published on

複数波形を入力とした際の時系列予測手法

Published in: Science
  • Be the first to comment

  • Be the first to like this

A dual stage attention-based recurrent neural network for time series prediction

  1. 1. A Dual-Stage Attention-Based Recurrent Neural Network for Time Series Prediction
  2. 2. Table of Contents 1. 現状の手法の問題 2. 手法 3. 実験条件 4. 結果 5. 考察 2
  3. 3. 現状の手法の問題点 3
  4. 4. Attention Model ▸ 複数データを入力とした時系列データの予 測にはAttention modelが向いていない ▹ 複数の入力がある場合にどの入力が良いか明示 的に選ぶことができない 4 : Attention Attention??
  5. 5. 手法 5
  6. 6. A Dual-Stage Attention-Based RNN 6 ▸ データ構造 ▹ Window幅Tで区切ったデータ ▹ n個の波形を用意 1 k n : : 1 t T
  7. 7. A Dual-Stage Attention-Based RNN 7 ▸ 1st Stage ▹ どの入力に着目するかのAttention 1 k n : : 1 t T
  8. 8. A Dual-Stage Attention-Based RNN 8 ▸ 1st Stage ▹ どの入力に着目するかのAttention LSTMで学習するパラメータ ‘;’はconcatの意味 hの導出はLSTMと同一
  9. 9. A Dual-Stage Attention-Based RNN 9 ▸ 2nd Stage ▹ 時系列全体を考慮したAttention 1 k n : : 1 t T 畳み込みによって 重視すべきところ が強調されて統合 された波形
  10. 10. A Dual-Stage Attention-Based RNN 10 ▸ 2nd Stage ▹ 時系列全体を考慮したAttention ▸ LSTMで学習するパラメータ エンコーダーの隠れ層を考慮し たコンテキストベクトル dの導出はLSTMと同一
  11. 11. A Dual-Stage Attention-Based RNN 11 ▸ 2nd Stage ▹ 時系列全体を考慮したAttention ▸
  12. 12. 実験条件 12
  13. 13. Data set 13 ▸ データセット ▹ SML 2010(室内の温度) ▹ 40日間計測し15分ごとに平均化 ▹ 16の関連するデータ ▹ NASDAQ 100 Stock ▹ 81企業 ▹ 2016年7月26日から2016年12月22日
  14. 14. Experiments Condition 14 ▸ 実験条件 ▹ SGD, Adam ▹ ミニバッチ:128 ▹ 学習率: 0.001 ▹ 10000イテレーション ▹ MSE(目的関数) ▹ Windowサイズ ▹ 3,5,10,15,25 ▹ 10をバリデーションデータから採用
  15. 15. Experiments Condition 15 ▸ 実験条件 ▹ Encoderの隠れ状態の数 ▹ {16, 32, 64, 128, 256} ▹ 64, 128をバリデーションデータから採用 ▹ Decoder の隠れ状態の数 ▹ {16, 32, 64, 128, 256} ▹ 64, 128をバリデーションデータから採用
  16. 16. 結果 16
  17. 17. Result 17 ▸ 各データとモデルの実験結果
  18. 18. Result 18 ▸ 結果に対する考察 ▹ ARIMAはRNNベースよりRMSEが悪い ▹ ターゲットのみを考慮しているため ▹ AttentionはEncoderDecoderベースより性能が良 い ▹ 全ての時系列を入力とするEncoderから関連す る隠れ層を選択できているため ▹ 本手法 ▹ 時系列と入力のAttentionにより精度が向上す る入力特徴を選択できているため
  19. 19. Result 19 ▸ 各データとモデルの実験結果
  20. 20. Result 20 ▸ ノイズに対するロバスト性 ▹ 縦軸が重み ▹ 81ポイントからノイズ有り ▹ 左:学習データ ▹ 右:テストデータ
  21. 21. Result 21 ▸ タイムステップに対する依存性 ▹ Window幅が変わってもRMSEに変化が少ない ▹ 長い依存性を考慮できる ▹ 隠れ層は128で固定
  22. 22. Result 22 ▸ パラメータに対する頑健性 ▹ 隠れ層が少くてもRMSEが高い ▹ Window幅はT=10で固定
  23. 23. 参考 23
  24. 24. References 24 ▸ https://arxiv.org/abs/1704.02971 ▸ https://github.com/YitongCU/Duel-stage d-Attention-for-NYC-Weather-prediction

×