動作認識におけるディープラーニングの
最新動向① 3D-CNN	
2016/3/14
株式会社ウェブファーマー
大政 孝充
今回取り上げるのは3D-CNN	
[1]Shuiwang Ji, Wei Xu, Ming Yang, Kai Yu. “3D
Convolutional neural networks for human action recognition.
PAMI, 35(1):221-231, 2013.
画像の一般物体認識で広く使われるCNNを三次元(x, y, t)
に拡張することで、動作認識へ応用した!
ここがポイント!	
[1]のFigure 1, Figure2より
2DのCNN
3D-CNN
vij
wy
= tanh bij + wijm
pq
v(i−1)m
(x+p)(y+q)
q=0
Qi−1
∑
p=0
Pi−1
∑
m
∑
⎛
⎝
⎜⎜
⎞
⎠
⎟⎟ vij
wyz
= tanh bij + wijm
pq
v(i−1)m
(x+p)(y+q)(z+r)
r=0
Ri−1
∑
q=0
Qi−1
∑
p=0
Pi−1
∑
m
∑
⎛
⎝
⎜⎜
⎞
⎠
⎟⎟
時間軸方向
に展開
これが全体の構造!	
[1]のFigure 3より
詳細の構造(1)	
input画像からH1層へ
⑤
④
③
①
②
入力画像に対して
①グレー画像
②x方向の勾配
③y方向の勾配
④x方向のoptical flow
⑤y方向のoptical flow
を生成する。
連続する7シーン
詳細の構造(2)	
H1層からC2層へ
7x7のフィルタで連続する
3シーンをまとめて畳み
込む
詳細の構造(3)	
2x2ピクセルを1ピクセル
にsubscaleingする
C2層からS3層へ
詳細の構造(4)	
S3層からC4層へ
7x6のフィルタで連
続する3シーンをま
とめて畳み込む
詳細の構造(5)	
3x3ピクセルを1ピク
セルにsubscaleing
する
C4層からS5層へ
詳細の構造(6)	
S5層からC6層へ
それぞれの画像を1ピク
セルに畳み込む
C6の各ノードは78枚の
全ての画像と結合する
詳細の構造(7)	
C6層から出力層
へ全結合する
出力層のノードは分類
する各クラスに一致

動作認識におけるディープラーニングの最新動向1 3D-CNN