論文輪読資料「A review of unsupervised feature learning and deep learning for time-series modeling」

那須野薫
2015年4月16日
東京大学松尾研究室

紹介する論文について
•  タイトル：
–  A review of unsupervised feature learning and deep
learning for time-series modeling
–  時系列モデリングのための教師なし表現学習とディープラー
ニングに関する調査
•  著者：
–  Martin L., Lars K., Amy L.
–  Örebro University in Sweden
•  被引用回数：12
•  引用件数：135
•  公開年：2014
2015年4月16日東京大学松尾研究室那須野薫 2

アジェンダ
1.  イントロダクション
2.  時系列データの特徴
3.  教師なし表現学習と深層学習
4.  時系列問題の典型的な事例
5.  まとめ

アジェンダ
5.  まとめ

東京大学松尾研究室那須野薫 2015年4月16日 6
1. イントロダクション
•  これまで時系列データについて多くの研究がなされてきた
ものの更なる改善が必要である。
–  従来手法は時間の扱いが浅い。
•  従来のFeature Engineerngの代替手法として教師なし表
現学習が利用され始めた。
–  Feature Engineringはコストが高い。
–  ラベルなしデータは大量に存在。
–  多層にすることで、より複雑なデータのモデリングが可能に。
•  時系列データからの表現学習に関する研究は多くない。
•  本論文の目的
–  時間関係を捉える為に開発された表現学習アルゴリズムの整理
–  それらが適用される様々な時系列問題の事例の整理

アジェンダ
5.  まとめ

2. 時系列データの5つの特徴
•  ノイズが多く高次元であること。
•  データにパタン全体が含まれているとは限らないこと。
•  時間変数に明示的な依存関係が存在すること
•  非定常性がある(平均、分散、頻度が常に変化する)こと
•  時間方向の移動に対する普遍性があること
–  画像データでは回転普遍性や移動普遍性がある

アジェンダ
5.  まとめ

3. サマリー
•  特定の問題へのモデル選択の要点
–  生成モデル or 識別モデル？
•  t+1のデータを復元するなどの予測やデータの統合を行う場合は生成モデルを利用する。
分類問題を行う場合は識別モデルで十分。
•  生成モデルはロバストで異常値に強いが、計算量が大きい。
–  データの特徴はなにか？
•  データが時系列の構造を持つ場合、本質的に時間の関係をモデリングしたり、時間の一貫
性を組み込んだりするモデルを利用する。単純に特徴ベクトル化すべきではない。
–  入力の大きさは？
•  画像処理等の多次元問題には、convolutionやpoolingを利用することで次元を減らした
り、時間方向に対して多少の移動普遍性を獲得することができる。

3. 教師なし表現学習と深層学習の要素技術
1.  Restricted Boltzman Machine
2.  Conditional RBM
3.  Gated RBM
4.  Auto-encoder
5.  Recurrent neural network
6.  Deep Learning
7.  Convolution and pooling
8.  Temporal coherence
9.  Hidden Markov Model

3-2. Conditional RBM

3-2. Gated RBM
•  2入力ベクトルの遷移をモデリングするRBM。

3-4. Auto-encoder

3-8. Temporal Coherence
•  時間の関係性を捉えるための構造を変える以外の方法。
•  隠れ層への活性化の変化を最小化する制約
–  min(¦h(t) ‒ h(t-1)¦)

アジェンダ
5.  まとめ

4. サマリー
•  Multi-variate：
–  多変量か、単変量か。
•  Raw data：
–  生データからの学習か。TDNN, cRBM, convRBMが適している。
•  Frequency rich：
–  周波領域帯が重要か否か。
•  Common features：
–  一般的に利用される素性。
•  Common method：
–  一般的に利用される手法。
•  Benchmark set：
–  ベンチマークに利用されるデータセット。

4. 典型的な事例
1.  動画
2.  株式市場予測
3.  音声認識
4.  音楽認識
5.  モーションキャプチャデータ
6.  eノーズデータ
7.  生理学的データ

4-1. 動画
•  多次元時系列データ
•  伝統的な研究
–  フレームを静的データとして処理し、特徴点を検知する方法
•  最近な研究
–  Gated RBM
•  フレーム(t)の全体画像を入力とし、フレーム(t+1)の全体画像を出力するモデ
ル。全結合のため大きなサイズの画像への適用は難しい。
–  Convolutional GRBM with probabilistic max-pooling
–  Convolutional Stacked ISA
•  大きな入力へうまくスケールしない独立部分空間分析(Independent Spacial
Analysis)をConvolutionalに積み上げる手法。ハイパーパラメタが少ない。
–  Space-Time Deep Belif Network(ST-DBN)
•  ConvRBMの構造に対して、まずSpacial poolingし、spaciel pooling units
にtemporal poolingを行うモデル。convRBMより精度がかなり良いらしい。
–  Auto-Encoder on the temporal diﬀerence on the pooling units
•  今後の方向性
–  より長い時間方向の依存関係を学習できるモデルの開発。

4-1. 時系列データ
a person running at frame 100, 105, 110, and 115

4-2. 株式市場予測
•  外部要因の大きい一次元データ
–  non-linear, uncertain, non-stationary。
–  ニュース、ソーシャルメディア、チャットの情報より予測
–  ANN、
–  recurrent versions of TDNN
–  wavelet transformed fetures with RNN
–  echo state network
–  情報源を増やし結合し利用する。
–  モデル開発をがんばる。
–  (改善の余地がかなりある)

Dow Jones Industrial Average (DJOI) over a period of 10 years

4-3. 音声認識
•  音声認識の問題
–  音源判定、性別判定、文字起こし, 音響モデリング
–  DLで大きく進展した領域。
–  MFCCsというpre-madeな素性を用いることが主流。
–  Gaussian mixture models(GMM)で離散化し、Hidden Markov Models(HMMs)
を用いる手法が従来では最も優れていた。(features-GMM-HMM)
–  features-RBM-HMMs
–  convDBN、cRBMなどなどが試された。
–  features-DeepLSTMRNN
•  state-of-the-art。系列化処理がない。HMMs使わない。
–  MFCCs(features)を置換する
•  RBM-HMMに生データを入れる。
–  動画と音声を利用する
•  動画とそれに映る数字を読み上げた音声を利用する研究。
–  生データよりよい素性を作成するアルゴリズムでpre-madeな素性を置換すること。

The quick brown fox jumps over the lazy dog

4-4. 音楽認識
•  音楽認識
–  音声認識と似ているが、多変量データという点で異なる。
–  問題：アノテーション(清月、和音、楽器、ムード)、検索(テキストベースコンテン
ツ検索、コンテンツベース類似検索、)、テンポ特定
–  一般的な素性：MFCCs, chroma、constant-Qなど。
–  音楽ジャンルの特定にsparse codingを利用する事例。
–  自己教示学習を利用して、音楽ジャンルを分類する事例。
•  整理と今後の方向性
–  教師なし表現学習はよく利用されている。
–  深層ネットワークを利用するモチベーションとして、音楽自体がモチーブ、フレー
ズ、セクションと全体を形成する和音、メロディー、リズムの階層構造からなるこ
とが挙げられる。
–  生データからの表現学習は今後の課題。
–  Convolutional networkがいい精度出しているが改善の余地はある。

4-5. モーションキャプチャデータ
•  ヒューマンモデリング
–  応用：トラッキング、活動認識、スタイル-コンテンツ分割、人物特定、アニメー
ション等。
–  データ取得方法
•  マーカーの利用 or 画像からアルゴリズムで抽出。
–  データの特徴：多次元。ノイズ多い。多変量。音楽や音声データ比べると振動数は
低い。
–  人間の動作のスタイルとコンテンツをHMMsや線形力学系でモデリングする事例。
•  HMMsや線形力学以外の手法
–  ガウス仮定を用いて、「歩く、走る、おおまたに歩く」をモデリング。
–  動作の最初の数フレームをTRBMやcRBMにかけてモーションキャプチャ。
–  cRBMの多層化やrecurrent TRBM、factored cRBMを利用することで、動作の
つなぎ目をスムーズにする事例。
–  Dynamic Factor Graphを利用したモーションキャプチャデータの欠損補完。
•  整理と今後の方向性
–  深層学習は、教師なしで、生データから動作のテンプレートを学習し、それらに基
づいて複雑な人間の動作を形成できるはず。
–  今後の課題は生データからの表現学習。

A sequence of human motion

4-6. eノーズデータ
•  機会嗅覚
–  eノーズを用いた匂いの質の分析。
–  eノーズ：ガスセンサーを並べたものからなる。
–  データの特徴：多変量、非直感的、専門的知識の少ないデータ。
–  応用：飲食物や空気の質、ガス判別、ガスの出所判定、バクテリア判定、診断など。
–  静的データのパタン分析手法(PCA, clusteringなど)を利用する。
–  よく利用される素性：static sensor response, transient drivatives, AUCなど。
–  TDNN：スパイスの匂い、3成分混合物、黒茶最適発酵時間、ビンテージワイン
–  RNN：匂いの発生源の特定。
–  ガス識別&発生源特定問題に於いて、1) 生データにSVMを適用、2) Auto-
Regressiveと線形力学系より抽出された素性にSVMを適用、3) 構造化データに特
化したkernelを利用するSVM の3つのうち3) が最も性能がよく、2) よりもいい結
果となった。
–  Auto-encoder, RBM, cRBMがバクテリアの判定や肉の腐敗度の分類に利用された。
•  課題の整理と今後の方向性
–  各ガス単体や混合されたガスに適したセンサーをつくるのは難しい。
–  素性を考えるのも現実的ではない。
–  今後も動的モデリングを利用するトレンドに沿ってやるべき？

Normalized data from an array of electronic nose sensors

4-7. 生理学的データ
•  生理学的データ
–  脳波検査(EEG)、脳磁気図検査(MEG)、心電図検査(ECG)、健康管理のためのウェ
アラブルセンサ
–  単一経路も複数経路もありうる。専門家が要るためラベリングが高コスト。
–  頭蓋内の脳波検査データからの手作り素性を用いてConvolutional network、ロジ
スティック回帰、SVMなどでてんかん性発作の予測する研究など。
–  RBMベースの手法により表現学習を行い、睡眠段階を分類する事例。
–  脳波検査や脳磁気図検査信号データの前処理の手法として、短時間フーリエ変換に
かけた後にICAに突っ込む事例がある。時間相関がよく考慮された結果になったら
しい。
–  自己教示学習を利用する事例もある。
•  整理
–  生理学的データは大規模で、多くの多様な手法が利用されている。
–  生データからの表現獲得が可能であるため、特にディープラーニングコミュニティ
にとっては興味深い領域のはずである。

EEG (top two signals), EOG (third and fourth signal), EMG(bottom signal),

アジェンダ
5.  まとめ

5. まとめ
•  教師なし表現学習では、単純に特徴ベクトル化するのでは
なく時系列の構造を保持できるモデルを利用すべきである。
•  モデル選択に加えて選択すべき要素が多く、時系列データ
への適用は多くの課題がある。また、有用な素性を構築し
た多くの研究は入力データから表現を学習する際に、その
データを前処理しているということも重要である。
–  選択すべき要素：結合、構造、ハイパーパラメータ
•  今後の方針
–  多変量入力データのシグナル選択
–  学習時に内部の構造を変えるモデルの開発
–  短期と長期の依存を捉える為のモデル平均化の利用?

論文輪読資料「A review of unsupervised feature learning and deep learning for time-series modeling」

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to 論文輪読資料「A review of unsupervised feature learning and deep learning for time-series modeling」

Similar to 論文輪読資料「A review of unsupervised feature learning and deep learning for time-series modeling」 (20)

論文輪読資料「A review of unsupervised feature learning and deep learning for time-series modeling」