Multivariate Time series analysis via interpretable RNNs

RNNによる多変量時系列データ分析の解釈性
2020/08/29
1

⼀般的な「解釈性」の⼿法
Post-analyzing
学習済みのブラックボックスなモデルの出⼒が⼊⼒の変化に対してどのように変
化するか
Ancola, et al. ICLR'18 に詳しい
Perturbation-based (マスクなど)
計算量がデータの次元に対して⼤きくなるのが難点
解釈性も安定して良いとは⾔えない
Gradient-based
Gradient*Input, LRP, Saliency mapなど
「RNNではDeepLIFTを使うべきでない」
Attention
モデル⾃体に組み込む。解釈⾃体を学習。
2

多変量時系列データ分析モデルに対する解釈性
LIME, SHAPなど有名どころの⼿法は使いにくい︖
今回紹介:
RNNの解釈性向上⼿法
Attention系: IMV-RNN (Guo, et al. ICML'19)
Saliency系: Input-Cell Attention (Ismail, et al. NeurIPS'19)
※ attentionを使うが解釈性を⾒るのはsaliencyを通す
3

Exploring Interpretable LSTM Neural Networks over Multi-Variable Data
Tian Guo, Tao Lin, Nino Antolov-Fantulin
(ETH Zurich, EPFL)
多変量データにおいて、変数毎に隠れ状態を計算し、それをsoft attentionで混合
させることで予測を出すモデルを提案
変数毎のattentionと時間⽅向のattentionを同時に学習する⽅法
精度を向上させながら解釈もできる
4

問題設定
Given : N-1-次元の外⽣変数と1次元のターゲット変数の組の系列
Goal : 時刻のターゲット変数を予測
更に副産物として変数/時刻に対する重要度
I ∈ R , I =≥0
N
n=1
∑
N
n 1
T ∈n
R , T =≥0
T
k=1
∑
T
k
n
1, n = 1, ⋯ , N
を得たい。
X =T (x , ⋯ , x ), x =1 T t [x , ⋯ , x , y ] ∈t
1
t
N−1
t RN
T + 1 =y^T+1 F(X )T
5

変数ごとのLSTM
各時刻の状態を⾏列で保持 ( :⼊⼒の変数の数)
=h
~
t [h , ⋯ , h ], h ∈t
1
t
N
t
n
Rd
状態更新は、テンソルとの積を⽤いて計算
N
Wj
6

⼆種類のゲートの計算
後者の⽅がずっとパラメータ数が⼩さくなる(通常のLSTMに対して倍)1/N
7

Mixture Attention
時間⽅向にアテンションをとったのち、変数に対するアテンションをとる
は正規分布とし、平均/分散をNN で計算p(y ∣z =T+1 T+1 n, h ⊕T
n
g )n
ϕ (h ⊕n T
n
g )n
8

Attentionと解釈性
attentionの値⾃体から重要度を解釈するのは難しい
なので重要度ベクトルを別の形で計算する
9

EMによってモデルのパラメータと重要度ベクトルを推定する
特に、の上界となる次の式を最⼩化する
( は訓練データのindexを表す)
最初の⼆項は通常最⼩化するもの。第三項は重要度に関する正則化とみなせる。
Θ I ∈ RN
− log Π p(y ∣X ; Θ)m T+1,m T,m
m
10

訓練アルゴリズム
以下を繰り返す。
を固定し、バッチデータに対しての事後分布を計算:
を勾配法で更新
重要度を計算:
Θ zT+1,m
Θ
I
11

時刻の重要度については、EMしても良いが階層的になってしまうので
attentionの値を⽤いて
で決めてしまう。
{T ∈n
R }T
12

⽐較⼿法1︓RETAIN (Choi, et al. NIPS'16)
REverse Time AttentIoN
患者の診断・治療経過のデータから今後の経過を予測
attention部をRNNにすることで解釈可能にする
13

⽐較⼿法2︓RETAIN (Choi, et al. NIPS'16)
※ RNNを逆順に⽤いる。IMV-RNNと⽐較する系列予測タスクには合わない気が︖
14

⽐較⼿法2︓Dual-stage Attention-based RNN (Qin, et al. IJCAI'17)
系列予測に使える
(time window Tで切ってはいるが、新しい時刻の⼊⼒に対してd_tを全て計算し直さね
ばならない…︖)
15

実験
データセット
PM2.5
外⽣変数︓気温、気圧、⾵向き、露点など
ターゲット︓PM2.5の量
PLANT
外⽣変数︓気温や雲の範囲など9次元
ターゲット︓太陽光発電量
SML
外⽣変数︓16次元
ターゲット︓室内の気温
16

実験
ベースライン
統計的⼿法︓STRX, ARIMAX
機械学習⼿法︓Random Forests, eXtreme Gradient Boosting, Elastic-Net
RNN⼿法︓RETAIN, DUAL
17

解釈性
だいたいドメイン知識と適合するらしい
19

さらに各変数の中でいつ頃の値が重要かがわかる(左がfull, 右がtensor)
20

Input-Cell Attention Reduces Vanishing Saliency of Recurrent Neural
Networks
Aya Abdelsalam Ismail, Mohamed Gunady, Luiz Pessoa, Hector Corrada Bravo, Soheil
Feizi
(Univ. of Maryland)
単にLSTMを使うと勾配消失によってSaliencyが消えてしまう
⼊⼒を時刻に対する重み付き和で取り直すことで有効なSaliencyを得られる
LSTMの内部はいじらない
21

RNNにおける解釈性⼿法
多くの解釈性⼿法は画像・⾔語のタスクに注⽬。時系列データでの研究は少ない
例︓fMRI (脳の活動を信号化)
「どの部位の変化が重要か」が知りたい
⾔語モデルでは「どの単語(=時刻)」が重要かしか考えない
22

問題設定
Input :
Output :
outputの各成分に対する各⼊⼒の「寄与度」を計算
する
Saliency map (cf. Simonyan, et al. '14)
他の勾配ベースの⼿法も考えられるが簡単のため今回はsaliencyを⽤いる
X = (x , ⋯ , x ), x ∈1 T t RN
S(X) = [S (X), ⋯ , S (X)]1 C
Sc R =c
[R ] ∈t,n
c
RT×N
23

提案⼿法︓Input-Cell Attention
24

提案⼿法︓Input-Cell Attention
LSTMへの⼊⼒を重み付き和に置き換える︓
A =t softmax(W tanh(W X ) ∈2 1 t
T
Rr×t
M =t A X ∈t t Rr×N
は「いくつの時刻に注意するか」
新しい⼊⼒のサイズが⼤きいので⾏ベクトルの平均をとって次元に落としてもよ
い
xt Mt
r
Mt N
25

実験︓⼈⼯データ
⻑さ100、各点は標準正規分布、⼆値分類、「重要な」点は1を⾜す/引く
Saliency の評価
正解の重要度マップに対するEuclid距離
Weighted Jaccard similarity : J(∣X∣, R(X)) = max(∣x ∣,R(x ))∑i=1
n
i i
min(∣x ∣,R(x ))∑i=1
n
i i
26

実験︓sequential MNIST
縦軸を時刻とみなして数字を判別
通常のLSTMでも⼗分⾼い精度がだせるが、saliencyは正しく出ない。
28

実験︓fMRI
fMRIデータから、何をしているかを識別するタスク(⼆値分類)
Thomas, et al.'18 でLRPを⽤いた活性部位の同定
↑では⼀部分の活性しか⾒られなかったが、活性部位の変化が⾒えるように
On-task data / On-task Off-task data
後者は被験者が休んでいる間のデータも込み
先の図がOn-task dataでの結果
29

On-task Off-taskでの実験結果
右図の横軸は「真に重要な特徴量の割合」 (LSTMは重要でないものに注⽬してる) 30

今年出てるやつ(全く読めてない)
Interpretable Sequence Classification Via Prototype Trajectory (NeurIPS'20投稿?)
Counterfactual Explanations for Machine Learning on Multivariate Time Series Data
RNNではない。
Attention Mechanism for Multivariate Time Series Recurrent Model Interpretability
Applied to the Ironmaking Industry
31

Multivariate Time series analysis via interpretable RNNs

Recommended

Recommended

More Related Content

Featured

Featured (20)

Multivariate Time series analysis via interpretable RNNs