A Time Series is Worth 64 Words: Long-term Forecasting with
Transformers
岡田 領 / Ryo Okada
書誌情報
• ICML2023 Boarerline
• 多変量時系列予測と自己教師あり学習のための効果的なTransformer(パッチ分割とチャネ
ル独立)
• (タイトルはVITの”An Image is Worth 16x16 Words: Transformers for Image Recognition
at Scale”より)
• 時系列長期予測.評価は高くないが,性能が出ている.
背景と関連研究
• 時系列でのTransformer
• Informer, Autoformer, FEDFormer..
• Attentionの複雑性を軽減し,長期予測で性能向上,有効性が示されてきた
• Are Transformers Effective for Time Series Forecasting?, 2022.5 Arxiv
• 非常に単純な線形モデルがTransformerモデルを超える性能
• 時系列予測におけるTransformerの有用性に疑問を投げかけている
• Accepted to AAAI 2023
Are Transformers Effective for Time Series
Forecasting?
• Itelated multi-step予測(IMS)
• 1ステップ毎の予測器を学習し,反復してマルチステップの予測に適用
• 長期予測において誤差が蓄積していく欠点
• Direct multi-step 予測(DMS)
• 一度にマルチステップ分予測するように学習
• 今までTransformerベースモデルと比較されていた非Transformerベースライ
ンは自己回帰,IMS予測のもの
• 単純な線形のDMSモデルを用意して,Transformerベースと比較.
Are Transformers Effective for Time Series
Forecasting?
• Linear
• 単純な1線形層
• NLinear
• 分布シフトに対応するため正規化
• DLinear
• トレンドや季節性を扱う分解機構
を組み合わせたもの
• 線形モデルがTransformerを凌ぐ予測性能
今回紹介する論文の概要
• 本論文ではパッチ分割とチャネル独立によってTransformerの有効性を再度示す
• PatchTSTの提案
• 時系列のTransformerで用いられてこなかったパッチ分割
• パッチの塊に分割することで計算量が分割分削減される
• 入力系列が短くなるので長期の履歴も参照しやすくなる
• パッチをマスクすることで自己教師あり学習にも効果
• (多変量時系列を分割して)単時系列でTransformerに入力する
• 単時系列にすることでアテンションマップの柔軟性が上がる(系列ごと個別に
パターン化できる)
• 複雑性が落ちるので,学習が容易になる(少ないデータで収束)
提案手法
モデル構造・教師あり設定
• 多変量時系列の次元(チャネル)を
分割
• チャネル毎独立にTransformer(バ
ニラ)に入力.
• パッチの長さP,ストライドSでパッ
チN個に分割
• MSE lossで訓練
提案手法
表現学習(自己教師あり学習)設定
• 教師あり設定と同じTransformerエ
ンコーダ(予測ヘッドだけ変更)
• パッチをランダムでマスク
• 非重複にパッチ分割(マスク箇所の
情報が他で含まれないように)
• マスクされたパッチを再構成するた
めにMSE lossで訓練
実験
• 多変量の時系列予測の評価
• ベースライン
• SOTAトランスフォーマーベースモデル
• FEDformer, Autoformer, Informer, Pyraformer, LogTrans
• 非トランスフォーマー
• DLinear
• MSEとMAEで評価
実験結果
多変量長期予測
• 多変量の長期予測
• 提案手法は全てのtransfomer
ベースモデルのベースライン
を凌駕
• 大規模データセット(
Weather、Traffic、Electricity
)やILIデータセットにおいて
DLinearモデルより優れた性能
実験
• 表現学習の設定
• 自己教師あり事前学習を100エポック学習
• その後,2つのパターンで教師あり学習(それぞれ評価)
• Linear Probing:モデルヘッドのみ20エポック学習
• End2end fine tuning:
• モデルヘッドを10エポック更新
• ネットワーク全体を20エポック学習
実験結果
教師あり学習との比較
• Linear Probingだけで教師ありと同等
• End2Endでのファインチューニングでは全てで最も良い結果
• Open ReviewでS4との比較も追加されている(S4よりも優れた性能)
実験結果
転移学習
• Electricityデータセットで事前学習→別データセットでfine tuning
• 教師ありには勝てないケースもあるが,他のベースラインよりは優れている
実験結果
自己教師あり学習手法との比較
• 他の自己教師あり学習手法との比較
• Transferred列:Trafficデータセットで事前学習
• Self supervised列:ETTh1で事前学習
Ablation Study
• パッチとチャネル独立性の有効性
Ablation Study
• Windowサイズを大きくすると性能が向上する
まとめ
• 多変量時系列予測と自己教師あり学習のための効果的なTransformer(Patch
TST)
• 時系列のパッチ分割
• チャネル独立に予測
• 表現学習の時はパッチをマスクして予測
• 長期予測で既存のベースラインより優れた性能
• 表現学習,転移学習の有効性も示した.
• シンプル.結果はよい.チャネル独立がデータセットの性質によって本当に
汎用性があるのかが気になる.
Appendix(Open Reviewの指摘)
チャネル独立の有用性
• 適応性
• チャネル混合型は多くの学習データを必要とする
• チャネル独立はオーバーフィットしづらい
• チャネル混合型の場合は全ての系列に対
して共通のアテンションを持つことにな
るが,チャネル独立の場合は各時系列に
対して異なるアテンションマップを持つ
• 共通なものもあれば,異なるものもある
(適応性が高い)
• チャネル独立の方が早く収束
• チャネルミキシングはオーバーフィッティングしている

【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers