SlideShare a Scribd company logo
Can Spatiotemporal 3D CNNs Retrace
the History of 2D CNNs and ImageNet?
CVPR 2018
Kensho Hara, Hirokatsu Kataoka, Yutaka Satoh
National Institute of Advanced Industrial Science and Technology (AIST)
Tsukuba, Ibaraki, Japan
{kensho.hara, hirokatsu.kataoka, yu.satou}@aist.go.jp
なぜこれを読んだか
・研究テーマを動画処理にしたので分野全体を把握したいと思ったから。
・2018のCVPRでacceptedされており、網羅的に既存の手法から最新手法まで実験検
証されているから。
Abstract
・目的
現在の動画データセットが深い層を持つ3DCNNを訓練するのに十分なのかを定義
する。
現在の3D CNNの分野においては比較的浅い層を持った構造しか使用されていな
い。実験の結果次のような結論を得た。
Abstract
(ⅰ)ResNet18で訓練した場合、Kineticsでは問題ないが、UCF-101,HMDB-
51,ActivityNetでは大幅なoverfittingが起こる。
(ⅱ)Kineticsデータセットの大きさは、深い3D CNNを訓練するのに十分であり、
最大ResNet152で十分な訓練ができる。2DのResNetのImagenetと結果が似てい
る。ResNeXt-101ではtest data で平均精度78.4%を達成した。
(ⅲ)Kineticsでpre-trainされた単純な3D CNN構造は複雑な2D CNN構造の精度を超
える。pretrained のResNeXt-101で94.5%の精度、UCF-101とHMDB-101で70.2%
を達成した。
1.Introduction
大規模データセットと使うことは膨大なパラメータを持つCNNを訓練するのに重要。
⇒ImageNetは100万以上の画像を含んでいる。
大量データセットに加え、ResNetなどの
アルゴリズムによる深い層での学習が認識精度
を上げる要因になっている。
⇒object detection, semantic segmentation,
image captioning 等の精度も上昇
1.Introduction
行動認識に必要な動画データセットはImageNetに比べて小さい。
⇒UCF-101[21],HMD-51[17](10Kくらい)
⇒数年後、ActivityNet[5]登場、アクションのインスタンス数は限られている。
⇒最近、Kinetics dataset[16]が作られる。
事実上の標準データセットを目指した。
300Kを超えるデータ量。ポストImageNet。
1.Introduction
近年の行動認識においては、3D CNN[14]が2D[2]よりも効果的である。
数年前まで3D CNNは最適化されたモデル[23,25]であっても2D-based CNNs
(two-stream convolutional networks[20])に精度で負けている。
⇒なぜ?
・膨大なパラメータを最適化するのにはデータセットが小さすぎた。
・3Dは動画でしか訓練できないが、2DはImageNetでpretrainできる。
1.Introduction
近年ではKineticsのPretrainによ
って精度が良くなった。
2Dの辿ってきた進歩を3Dも辿
っている。
行動認識のために深い3D CNN
をゼロから訓練することに注目
した最初の論文である。
1.Introduction
実験では(詳細は4章)3D-
Resnet-152をゼロから訓練し
たとき、ImageNet上で2D
ResNetを訓練したときと同じ
くらいのレベルで訓練できるこ
とを示す。
2.1 Related work -Video datasets
・HMDB-51 [17]、UCF-101 [21] :
学習に成功している一般タスク、十分な大きさとは言えない。
・ActivityNet [5] :
849時間の動画、28,000のanction instances.
・Kinetics dataset[16]:
400のカテゴリをカバー。30万以上のトリミングされた動画を含む
最新のデータセットを用いて多数の実験を行った。
2.1 Related work -Video datasets
更に大きなデータセットについて
Sports-1M [15]
YouTube-8M [1]
アノテーションノイズが比較的大きく、ビデオレベルのみのラベルがつけられて
いるため良い訓練ができない。
10TBを超えるので大きすぎて簡単に利用できない。
⇒本論文では議論を控える。
2.2 Related work -Action Recognition approaches
一般的なアプローチ
・Two-stream convolutional networks[20]
2Dの畳み込みカーネルを使用。RGBとoptical flow特徴量を別々のstreamで扱い、
結合する。⇒他の手法に比べて大幅に精度向上。
上記手法を基にした手法がいくつも考案される。[6,7,8,27,28,29]
2.2 Related work -Action Recognition approaches
3D CNN:動画から時空間特徴を抽出するために3D畳み込みを適用。
C3D: Sports-1M dataset[15]を使っている。⇒3DCNNのde facto standard
・C3Dを拡張してRGBとoptical flowを入力としたものが3D CNNで最高精度を
出す。
・Kineticsを用いて3DCNNを訓練したものがImageNetでPretrainした2DCNNと
同じくらいの精度を出す。(UCF101,HMDB51では2Dに負けていた。)
2.2 Related work -Action Recognition approaches
I3D[22]: inceptionを基にした3D CNNモデル。
⇒State of the art performanceを達成
最近の研究ではResNet構造を取り込んだ3D CNNが多く提案[9,24]
⇒しかし
比較的浅い層のものしか調べられていない。
3.1 Experimental Configuration -Summary
・UCF-101、HMDB-51、ActivityNet、Kineticsゼロから比較的浅い層で3D CNNを
学習
一番浅いResNet-18で実験。overfitするか検証。
・Kineticsがより深いNetworkを学習できるかを調べる。
18層から200層まで調査、ImageNetではResNet152でbest performanceなので
それくらいまで良い結果が出ると予想。
・Kineticsで3D CNNをpretrainし、UCF-101とHMDB-51をtrain
3DCNNに於いて、あるドメインから別のドメインへの視覚表現の転送が可能か
検証。
3.2 Experimental Configuration -Network Architecuture
3.2 Experimental Configuration -Network Architecuture
3.3 Implementation -Training
・Momentum SGDを使用
・weight decay of 0.001 ~0.9 for momentum
・cross-entropy loss使用
・ゼロから学習する場合:学習率0.1からスタート、検証後1/10していく。
・fine tuningのとき:学習率0.001,weight decay of 1e-5。
3.3 Implementation -Training
・データの水増しのために動画からランダムにトレーニングサンプル生成
* 一様分布のランダムサンプリングで時間的位置を選択し、周辺16フレームの
クリップ生成。16フレームより短いときは、必要回数ループ。
* 4隅または中心から空間的位置をランダム選択し、切り取る大きさをランダ
ムに変えてトリミング[27]。トリミングのスケールは{1,1/21/4,1/√2,1/23/4,1/2}(1/2
はサンプルの短辺の1/2の大きさを表す)。
*縦横比は1:1。*112×112にリサイズ。*各サンプルは50%の確率で水平方向反
転。*mean subtraction 実行。
*生成されたすべてのサンプルに基の動画と同じクラスラベルを保持。
3.3 Implementation -Recognition
・sliding window 方式で入力クリップを生成。(overlapされていない16フレームの
クリップに分割)
・各クリップはスケール1の中心位置を中心に空間的にトリミングされる。
・各クリップをネットワークに入力し、動画の全てで平均化されたクリップクラ
スのスコアを推定。最大のスコアを持つクラスが認識クラスラベルとして扱われ
る。
3.4 Datasets
UCF-101:
・101 human action classes
・13,320 action instances
・動画は時間でトリミングされ、無動作フレームは削除。
・各ビデオの平均所要時間は約7秒。
・データセットには3つのtrain/test分割(train:70%, test:30%)。
3.4 Datasets
HMDB-51:
・51 human action classes
・6,766の動画セット。
・UCF-101と同様に、ビデオは時間でトリミング。
・各動画の平均再生時間は約3秒。
・3つのtrain/test分割セット(train:70%, test:30%)。
3.4 Datasets
ActivityNet(v1.3):
・200個のhuman action classesを含み、1クラスあたり平均137個
・1ビデオあたり1.41個のactivity instancesを含む
・他のデータセットとは異なり、トリミングされていない。
・動画の合計長は849時間。action instancesの総数は28,108。
・トレーニング、検証、テストの3つのサブセットにランダムに分割。
(train:50%, validation:25%, test:25%)
3.4 Datasets
Kinetics dataset:
・400 human action classes.
・各クラスの400以上のビデオで構成。
・約10秒でトリミングされている。
・動画総数は30万を超える。
・train, validation, testの数はそれぞれ約240,000、20,000、および40,000。
3.4 Datasets
UCF-101, ActivityNet, Kinetics dataset :YouTubeから抽出されている。
HMDB-51 :映画から抽出したビデオが含まれる。
・ビデオには動的な背景やカメラの動きが含まれており、主な違いはaction class
とinstanceの数。
・全てアスペクト比を変えずにビデオの高さを240ピクセルに変更してから保存。
4.1 Results and discussion
-Analyses of training on each dataset
4.2 Results and discussion
-Analyses of deeper networks
・層を深くすると精度が上昇
・ResNet-200になるとoverfitし始めている。
・Kinetics datasetが3D CNNを訓練するのに十分
であることを示す。
・ImageNetでの2D CNNの結果と似てる。
4.3 Results and discussion
-Analyses of deeper networks
・preactivationのResNet-200は普通の
ResNet-200より精度が若干低い。
・WRN-50はResNet152より精度高い。
ImageNetの結果[31]と似ている。
・ResNeXt-101が最高精度。ImageNetの結果
[30]と似ている。
・DenseNetの結果は他のものより低かった。
Kineticsにはパラメータ効率で過学習防ぐ必要
ない。
4.3 Results and discussion
-Analyses of deeper networks
・ResNeXt-101の精度は、10層のバッチ正則化
使用のC3D[16]やCNN+LSTM、Two-stream[16]
よりも高い。
・ゼロからKineticsで学習されたI3Dは層が
ResNeXt-101より浅いのに優れている。
⇒原因?
Networkの入力サイズ。I3DはResNeXtの64倍
(ResNeXt: 3×16×112×112, I3D:3×64×224×224)
4.3 Results and discussion
-Analyses of deeper networks
・ResNeXt-101(64f)は入力サイズがI3Dの4分の1
にも関わらずRGB-I3Dよりも優れている。
⇒より深い3D構造が優れていると結論づける
・Two-streamをResNeXt-101と組み合わせるこ
とで更に精度が改善すると考えられる。
4.3 Results and discussion -Analyses of fine-tuning
Kineticsでpretrain。UCF-101,HMDB-51を fine-
tuning。
Conv_5xと全結合層をfine-tuningしているので訓
練されたパラメータ数はResNet50~200まで同じ
ことに注意。
・ResNet-18を最初から訓練したものよりも
Kineticsで事前学習した方が優れている。
・UCF-101,HMDB-51にも有効。
4.3 Results and discussion -Analyses of fine-tuning
・HMDB-51ではResNet-200の精度も向上。
つまり⇒200層でKineticsにoverfitし始めていても
ResNet-200の特徴表現はHMDB-51に適している。
・ResNeXtが両方のデータセットで最高精度。
・DenseNet-121はResNet-50より低い精度。
つまり⇒Denseはパラメータ効率の高いモデルだ
が、3D CNNのfine-tuningには影響しなかった。
4.3 Results and discussion -Analyses of fine-tuning
・ResNeXt-101がC3D [23]、P3D [19]、two-stream
CNN [20]、およびTDD[27]と比較して高い精度を達
成。
・より大きな入力を使用するResNeXt-101(64f)が、
ST Multiplier Net [7]およびTSN [29]をわずかに上回
っている。
・Two-stream I3D[20]が最高精度。
⇒これらの結果より
Kineticsで事前学習された単純な3D CNNは2D CNN
より優れていると結論付けることができる。
5. Conclusion
・ResNet-18 の訓練の結果、UCF-101、HMDB-51、ActivityNetでは大幅な
overfittingが発生したが、Kineticsでは発生しなかった。
・Kineticsは深い層を持つ3D CNNを訓練するのに十分なデータ量で、ImageNet
での2D ResNetと同様に最大で152層のResNetの訓練を可能にする。
・UCF-101,HMDB-51では、Kineticsによる単純な3D CNNの事前学習によって複
雑な2D CNNよりも優れた精度を出した。pretrainのResNeXt-101はUCF-101と
HMDB-51でそれぞれ94.5%と70.2%を達成した。
3D CNNとKineticsは2D CNNとImageNetと同じように様々なvideo taskに関連す
る分野で将来の大きな進歩に貢献する可能性がある。
感想
・動画を深層学習で扱うのが初めてなので、全体的な流れを把握できて良かった。
・とりあえずtwo-streamや3D CNNを実装できるようにしたい。
・datasetは重要。Kineticsであっても、行動にラベルをつけるのは主観が入って
いてあまり正確ではないと思うので時間的トリミングには課題がありそう。
References

More Related Content

What's hot

画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
Deep Learning JP
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
tak9029
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Kazuki Motohashi
 
サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識
Yasutomo Kawanishi
 
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーションCycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
奈良先端大 情報科学研究科
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
Deep Learning JP
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 

What's hot (20)

画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識
 
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーションCycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 

Similar to Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
Deep Learning JP
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介
masataka nishimori
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
atsushi061452
 
Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognition
cvpaper. challenge
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
Hideki Okada
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介
nlab_utokyo
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
Toru Tamaki
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
MasanoriSuganuma
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
nlab_utokyo
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
 
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」
PC Cluster Consortium
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
RCCSRENKEI
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
de:code 2017
 
EuroPython 2017 外部向け報告会
EuroPython 2017 外部向け報告会EuroPython 2017 外部向け報告会
EuroPython 2017 外部向け報告会
Ogushi Masaya
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
 
Batch Reinforcement Learning
Batch Reinforcement LearningBatch Reinforcement Learning
Batch Reinforcement Learning
Takuma Oda
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
nlab_utokyo
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
Preferred Networks
 

Similar to Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? (20)

[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognition
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
EuroPython 2017 外部向け報告会
EuroPython 2017 外部向け報告会EuroPython 2017 外部向け報告会
EuroPython 2017 外部向け報告会
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
Batch Reinforcement Learning
Batch Reinforcement LearningBatch Reinforcement Learning
Batch Reinforcement Learning
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
 

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?