On-line Deep Learning Method
for Action Recognition
北海道大学大学院 情報科学研究科 情報理工学専攻
複雑系工学講座 調和系工学研究室
修士1年 小山望海
2017年1月27日(金)
- 行動認識のためのオンライン深層学習法-
Charalampous, Konstantinos, and Antonios Gasteratos.
Pattern Analysis and Applications 19.2 (2016)
概要
1. 本論文について
2. 本論文の研究目的・背景
3. 学習・分類の流れ
4. 使われているアルゴリズムについて
5. 評価実験
6. 結果
7. まとめ
2
論文について
 掲載されている論文誌
Pattern Analysis and Applications(2016)
パターン解析とアプリケーション
 新規パターン分析技術、ならびに産業および医療用途を
記述する元の研究を提示
 画像処理、音声分析、文書分析、文字認識、パターン認
識など、パターン認識と解析のための新しい技術
 統計的手法、ニューラルネットワーク、機械学習など、
高度な手法の使用も検討されてる。
3
目的・背景
 目的
動画の中の人物がどのような動きをしているか
を分類する
 背景
画像認識などで使われる方法
特徴抽出 → 分類 の2段階
ノイズなどが入りやすく、特徴抽出がとても難しい
実世界の環境で連続して学習でき、
素早くアップデートできるオンライン学習を用いる
4
実世界のデータの場合
オンライン学習とは
 オフライン学習(バッチ学習)
 複数のデータが一括されて与えられ、そこからパ
ラメータの決定などの学習を行う
 オンライン学習(逐次学習)
 データが逐次的に与えられ、データが与えられる
たびにパラメータを更新する
 長所
 全てのデータを蓄積する必要がないので少ないメモリで
大規模なデータを扱える
 データが増加したときに増加した分だけ学習すれば良い
→全部計算し直す必要が無いため時間がかからない
5
全体の流れ
1. 動画をフレームごとの画像にする
2. 画像を連続してネットワークに入力
3. ネットワーク
1. 画像それぞれを分割し、分割した画像を既存のアルゴリズムを
用いて分類
2. 分類された結果から遷移行列を作成
3. 遷移行列から別の既存アルゴリズムを用いて画像を分類し、画
像ごとの分類結果を出力
4. 次の層に入力し、同様に分類
2~4を繰り返す
5. 最後の層から1フレームの分類結果(特徴量)を出力
4. フレーム数分連続した分類結果からどの行動に当てはまる
か分類する
6
ネットワーク内の流れ
1フレームを9×9に分割し、Level-1の各ノードにベクトル化して入力
Level-1の全ノード(9×9)からの出力3×3区画(9ノード)分をLevel-2への1つの
ノードへの入力とする
Level-2の全ノード(3×3)の出力をLevel-3に入力し、1つの分類結果を出力
7
Level-1の3×3
区画を入力と
して受け取る 1区画を
1ノードとする
使用しているアルゴリズム
 ART-2アルゴリズム(Adaptive Resonance Theory)
 1987年に作られたアルゴリズム
 入力されたベクトルを既存のクラスタまたは新しい
クラスタに分類する
 Viterbi アルゴリズム
 1967年に作られたアルゴリズム
 入力された事象系列から最も最適と考えられる経路
を出力する
8
ノードの働き
9
ベ
ク
ト
ル
ART‐2 クラスタ
Spatial Procedure
表現行列の更新
Temporal Procedure
行列(CMT)の更新
行
列
行
列
Viterbi
Algorithm
Viterbi
Path
9次元
×フレーム数分
行列の更新
 表現行列
 各クラスタに分類された入力ベクトルの平均ベクト
ルを並べた行列
 CTM(Cluster Transition Matrix)
 クラスタからクラスタへの遷移を表す行列
10
既存クラスタへの遷移 新しいクラスタへの遷移
クラスタ𝐶𝑖, 𝐶𝑙に対応する𝑇𝑖𝑙
を増加させることで𝑇を更新する
行と列に新しいクラスタを追加し、対応
する要素を1,それ以外の要素を0とする
評価実験
 他の手法との組み合わせ
最終的にLevel-3から出力されたViterbi Pathをどの行動
に分類するかを決定する(パラメータを数回変えて、最
も精度が高かったものを採用)
 K近傍法
 ベクトル空間上のデータから距離が近い任意のK個を取得し、
多数決で分類するクラスタを決める
 Support Vector Machine(SVM)
 2クラスのパターン識別器として最も優秀と言われる、教師
あり学習を用いるパターン認識モデル
 3種類のデータセット
 Weizmann action dataset
 KTH human action dataset
 UCF sports action dataset
11
評価実験
 他の手法との比較
 HMAX
 4層の物体認識に適したディープラーニングアルゴリズム
 HTM(Hierarchical Temporal Memory)
 時空間特徴量を求めることを目的としたディープラーニ
ング
 HOG特徴量(Histograms of Oriented Gradients)
 局所領域 (セル) の輝度の勾配方向をヒストグラム化した
もの
 3D-CNN
 画像認識で広く使われているCNN(Convolutional neural
Network)を三次元に拡張することで、動作認識も可能に
したもの
 5回実験して精度の平均を求める
12
①Weizmann Action Dataset
13
多くの研究でよくベンチマークとして用いられる
188 × 144 pixels
9種類
A) 歩く
B) 前に跳ぶ
C) 走る
D) 手を振る(片手)
E) 手を振る(両手)
F) 横向きのステップ
G) その場でジャンプ
H) 手足を開いたり閉
じたりしながら
ジャンプ
I) スキップ
①実験結果
 元のデータとシルエットのみのデータを使用
 他のディープラーニングと比べても最も良い性能
 シルエットのみの場合、SVMと組み合わせることで分類
精度が100%となった
14
②KTH Human Action Dataset
15
25人が4つの異なるシチュエーションで6つの動きを撮影
160×120pixels
outdoors
outdoors with
scale variation
outdoors in
different clothes
lighting diversity
②実験結果(1/2)
ジョギングとランニングの様に似ている動きの誤認識が比
較的多かった
16
②実験結果(2/2)
 オンライン学習の
中では最も高い精
度
 様々な分野で驚異
的な精度を出して
いるCNNよりも良
い精度が出ている
17
③UCF Sports Action Dataset
18
basketball shooting volleyball spiking
tennis swing soccer juggling
メジャーなスポーツの動画約200本
720×480 pixels
9種類
• diving
• golf
swinging
• kicking
• lifting
• horseback
riding
• running
• skating
• swimming
• walking
③実験結果
ART-2のパラメータが全てのノードで同一なため、クラスタの数がパラ
メータに左右されたので、データセットによってバラつきが見られた
が平均精度は比較手法の中で最も高くなった
19
まとめ
 ツリー状のネットワーク構造をもとにViterbiア
ルゴリズムとART-2アルゴリズムを用いて時空間
の特徴量を抽出
 K近傍法とSupport Vector Machineを用いて特徴
量を分類
 ノイズが多いと言われる現実のデータでも高い
精度で特徴を抽出することに成功
 提案手法が様々な環境に適用可能であることが
分かった
 事前学習などの必要が無いため、未知の環境に
も適用可能である。
20

Ai勉強会20170127