Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

Can Spatiotemporal 3D CNNs Retrace
the History of 2D CNNs and ImageNet?
CVPR 2018
Kensho Hara, Hirokatsu Kataoka, Yutaka Satoh
National Institute of Advanced Industrial Science and Technology (AIST)
Tsukuba, Ibaraki, Japan
{kensho.hara, hirokatsu.kataoka, yu.satou}@aist.go.jp

なぜこれを読んだか
・研究テーマを動画処理にしたので分野全体を把握したいと思ったから。
・2018のCVPRでacceptedされており、網羅的に既存の手法から最新手法まで実験検
証されているから。

Abstract
・目的
現在の動画データセットが深い層を持つ3DCNNを訓練するのに十分なのかを定義
する。
現在の3D CNNの分野においては比較的浅い層を持った構造しか使用されていな
い。実験の結果次のような結論を得た。

Abstract
(ⅰ)ResNet18で訓練した場合、Kineticsでは問題ないが、UCF-101,HMDB-
51,ActivityNetでは大幅なoverfittingが起こる。
(ⅱ)Kineticsデータセットの大きさは、深い3D CNNを訓練するのに十分であり、
最大ResNet152で十分な訓練ができる。2DのResNetのImagenetと結果が似てい
る。ResNeXt-101ではtest data で平均精度78.4%を達成した。
(ⅲ)Kineticsでpre-trainされた単純な3D CNN構造は複雑な2D CNN構造の精度を超
える。pretrained のResNeXt-101で94.5%の精度、UCF-101とHMDB-101で70.2%
を達成した。

1.Introduction
大規模データセットと使うことは膨大なパラメータを持つCNNを訓練するのに重要。
⇒ImageNetは100万以上の画像を含んでいる。
大量データセットに加え、ResNetなどの
アルゴリズムによる深い層での学習が認識精度
を上げる要因になっている。
⇒object detection, semantic segmentation,
image captioning 等の精度も上昇

1.Introduction
行動認識に必要な動画データセットはImageNetに比べて小さい。
⇒UCF-101[21],HMD-51[17]（10Kくらい）
⇒数年後、ActivityNet[5]登場、アクションのインスタンス数は限られている。
⇒最近、Kinetics dataset[16]が作られる。
事実上の標準データセットを目指した。
300Kを超えるデータ量。ポストImageNet。

1.Introduction
近年の行動認識においては、3D CNN[14]が2D[2]よりも効果的である。
数年前まで3D CNNは最適化されたモデル[23,25]であっても2D-based CNNs
（two-stream convolutional networks[20]）に精度で負けている。
⇒なぜ？
・膨大なパラメータを最適化するのにはデータセットが小さすぎた。
・3Dは動画でしか訓練できないが、2DはImageNetでpretrainできる。

1.Introduction
近年ではKineticsのPretrainによ
って精度が良くなった。
2Dの辿ってきた進歩を3Dも辿
っている。
行動認識のために深い3D CNN
をゼロから訓練することに注目
した最初の論文である。

1.Introduction
実験では（詳細は4章）3D-
Resnet-152をゼロから訓練し
たとき、ImageNet上で2D
ResNetを訓練したときと同じ
くらいのレベルで訓練できるこ
とを示す。

2.1 Related work -Video datasets
・HMDB-51 [17]、UCF-101 [21] :
学習に成功している一般タスク、十分な大きさとは言えない。
・ActivityNet [5] :
849時間の動画、28,000のanction instances．
・Kinetics dataset[16]:
400のカテゴリをカバー。30万以上のトリミングされた動画を含む
最新のデータセットを用いて多数の実験を行った。

2.1 Related work -Video datasets
更に大きなデータセットについて
Sports-1M [15]
YouTube-8M [1]
アノテーションノイズが比較的大きく、ビデオレベルのみのラベルがつけられて
いるため良い訓練ができない。
10TBを超えるので大きすぎて簡単に利用できない。
⇒本論文では議論を控える。

2.2 Related work -Action Recognition approaches
一般的なアプローチ
・Two-stream convolutional networks[20]
2Dの畳み込みカーネルを使用。RGBとoptical flow特徴量を別々のstreamで扱い、
結合する。⇒他の手法に比べて大幅に精度向上。
上記手法を基にした手法がいくつも考案される。[6,7,8,27,28,29]

3D CNN:動画から時空間特徴を抽出するために3D畳み込みを適用。
C3D: Sports-1M dataset[15]を使っている。⇒3DCNNのde facto standard
・C3Dを拡張してRGBとoptical flowを入力としたものが3D CNNで最高精度を
出す。
・Kineticsを用いて3DCNNを訓練したものがImageNetでPretrainした2DCNNと
同じくらいの精度を出す。（UCF101,HMDB51では2Dに負けていた。）

I3D[22]: inceptionを基にした3D CNNモデル。
⇒State of the art performanceを達成
最近の研究ではResNet構造を取り込んだ3D CNNが多く提案[9,24]
⇒しかし
比較的浅い層のものしか調べられていない。

3.1 Experimental Configuration -Summary
・UCF-101、HMDB-51、ActivityNet、Kineticsゼロから比較的浅い層で3D CNNを
学習
一番浅いResNet-18で実験。overfitするか検証。
・Kineticsがより深いNetworkを学習できるかを調べる。
18層から200層まで調査、ImageNetではResNet152でbest performanceなので
それくらいまで良い結果が出ると予想。
・Kineticsで3D CNNをpretrainし、UCF-101とHMDB-51をtrain
3DCNNに於いて、あるドメインから別のドメインへの視覚表現の転送が可能か
検証。

3.2 Experimental Configuration -Network Architecuture

3.3 Implementation -Training
・Momentum SGDを使用
・weight decay of 0.001 ~0.9 for momentum
・cross-entropy loss使用
・ゼロから学習する場合：学習率0.1からスタート、検証後1/10していく。
・fine tuningのとき：学習率0.001,weight decay of 1e-5。

3.3 Implementation -Training
・データの水増しのために動画からランダムにトレーニングサンプル生成
＊一様分布のランダムサンプリングで時間的位置を選択し、周辺16フレームの
クリップ生成。16フレームより短いときは、必要回数ループ。
＊ 4隅または中心から空間的位置をランダム選択し、切り取る大きさをランダ
ムに変えてトリミング[27]。トリミングのスケールは{1,1/21/4,1/√2,1/23/4,1/2}(1/2
はサンプルの短辺の1/2の大きさを表す)。
＊縦横比は1:1。＊112×112にリサイズ。＊各サンプルは50％の確率で水平方向反
転。＊mean subtraction 実行。
＊生成されたすべてのサンプルに基の動画と同じクラスラベルを保持。

3.3 Implementation -Recognition
・sliding window 方式で入力クリップを生成。(overlapされていない16フレームの
クリップに分割)
・各クリップはスケール1の中心位置を中心に空間的にトリミングされる。
・各クリップをネットワークに入力し、動画の全てで平均化されたクリップクラ
スのスコアを推定。最大のスコアを持つクラスが認識クラスラベルとして扱われ
る。

3.4 Datasets
UCF-101：
・101 human action classes
・13,320 action instances
・動画は時間でトリミングされ、無動作フレームは削除。
・各ビデオの平均所要時間は約7秒。
・データセットには3つのtrain/test分割(train:70％, test:30％)。

3.4 Datasets
HMDB-51：
・51 human action classes
・6,766の動画セット。
・UCF-101と同様に、ビデオは時間でトリミング。
・各動画の平均再生時間は約3秒。
・3つのtrain/test分割セット（train:70％, test:30％）。

3.4 Datasets
ActivityNet（v1.3）：
・200個のhuman action classesを含み、1クラスあたり平均137個
・1ビデオあたり1.41個のactivity instancesを含む
・他のデータセットとは異なり、トリミングされていない。
・動画の合計長は849時間。action instancesの総数は28,108。
・トレーニング、検証、テストの3つのサブセットにランダムに分割。
（train:50％, validation:25％, test:25％）

3.4 Datasets
Kinetics dataset：
・400 human action classes.
・各クラスの400以上のビデオで構成。
・約10秒でトリミングされている。
・動画総数は30万を超える。
・train, validation, testの数はそれぞれ約240,000、20,000、および40,000。

3.4 Datasets
UCF-101, ActivityNet, Kinetics dataset ：YouTubeから抽出されている。
HMDB-51 ：映画から抽出したビデオが含まれる。
・ビデオには動的な背景やカメラの動きが含まれており、主な違いはaction class
とinstanceの数。
・全てアスペクト比を変えずにビデオの高さを240ピクセルに変更してから保存。

4.1 Results and discussion
-Analyses of training on each dataset

-Analyses of deeper networks
・層を深くすると精度が上昇
・ResNet-200になるとoverfitし始めている。
・Kinetics datasetが3D CNNを訓練するのに十分
であることを示す。
・ImageNetでの2D CNNの結果と似てる。

・preactivationのResNet-200は普通の
ResNet-200より精度が若干低い。
・WRN-50はResNet152より精度高い。
ImageNetの結果[31]と似ている。
・ResNeXt-101が最高精度。ImageNetの結果
[30]と似ている。
・DenseNetの結果は他のものより低かった。
Kineticsにはパラメータ効率で過学習防ぐ必要
ない。

・ResNeXt-101の精度は、10層のバッチ正則化
使用のC3D[16]やCNN+LSTM、Two-stream[16]
よりも高い。
・ゼロからKineticsで学習されたI3Dは層が
ResNeXt-101より浅いのに優れている。
⇒原因？
Networkの入力サイズ。I3DはResNeXtの64倍
(ResNeXt: 3×16×112×112, I3D:3×64×224×224)

・ResNeXt-101(64f)は入力サイズがI3Dの4分の1
にも関わらずRGB-I3Dよりも優れている。
⇒より深い3D構造が優れていると結論づける
・Two-streamをResNeXt-101と組み合わせるこ
とで更に精度が改善すると考えられる。

4.3 Results and discussion -Analyses of fine-tuning
Kineticsでpretrain。UCF-101,HMDB-51を fine-
tuning。
Conv_5xと全結合層をfine-tuningしているので訓
練されたパラメータ数はResNet50~200まで同じ
ことに注意。
・ResNet-18を最初から訓練したものよりも
Kineticsで事前学習した方が優れている。
・UCF-101,HMDB-51にも有効。

・HMDB-51ではResNet-200の精度も向上。
つまり⇒200層でKineticsにoverfitし始めていても
ResNet-200の特徴表現はHMDB-51に適している。
・ResNeXtが両方のデータセットで最高精度。
・DenseNet-121はResNet-50より低い精度。
つまり⇒Denseはパラメータ効率の高いモデルだ
が、3D CNNのfine-tuningには影響しなかった。

・ResNeXt-101がC3D [23]、P3D [19]、two-stream
CNN [20]、およびTDD[27]と比較して高い精度を達
成。
・より大きな入力を使用するResNeXt-101(64f)が、
ST Multiplier Net [7]およびTSN [29]をわずかに上回
っている。
・Two-stream I3D[20]が最高精度。
⇒これらの結果より
Kineticsで事前学習された単純な3D CNNは2D CNN
より優れていると結論付けることができる。

5． Conclusion
・ResNet-18 の訓練の結果、UCF-101、HMDB-51、ActivityNetでは大幅な
overfittingが発生したが、Kineticsでは発生しなかった。
・Kineticsは深い層を持つ3D CNNを訓練するのに十分なデータ量で、ImageNet
での2D ResNetと同様に最大で152層のResNetの訓練を可能にする。
・UCF-101,HMDB-51では、Kineticsによる単純な3D CNNの事前学習によって複
雑な2D CNNよりも優れた精度を出した。pretrainのResNeXt-101はUCF-101と
HMDB-51でそれぞれ94.5%と70.2%を達成した。
3D CNNとKineticsは2D CNNとImageNetと同じように様々なvideo taskに関連す
る分野で将来の大きな進歩に貢献する可能性がある。

感想
・動画を深層学習で扱うのが初めてなので、全体的な流れを把握できて良かった。
・とりあえずtwo-streamや3D CNNを実装できるようにしたい。
・datasetは重要。Kineticsであっても、行動にラベルをつけるのは主観が入って
いてあまり正確ではないと思うので時間的トリミングには課題がありそう。

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

Similar to Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? (20)

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?