SlideShare a Scribd company logo
1 of 33
Download to read offline
Deep Residual Learning for
Image Recognition
2018/11/12
1
[1] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition.
In Proceedings of the IEEE conference on computer vision and pattern recognition
(pp. 770-778).
ResNet の成果
ResNet の発表前と比べて,非常に深いネットワークを実現
2
[2] http://image-net.org/challenges/talks/ilsvrc2015_deep_residual_learning_kaiminghe.pdf
22層 ⇒ 152層
図1. ImageNet の分類タスクの発展[2]
背景
深層学習(CNN)は
ImageNet のような画像分類タスクで多大な効果を発揮
自然に低レベルから高レベルの特徴を接続可能
3
[3] LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the
IEEE, 86(11), 2278-2324.
[4] http://scs.ryerson.ca/~aharley/vis/conv/flat.html
高レベルな特徴
図2. LeNet の構造(下)[3]と LeNet の特徴マップ(上)[3]
層の増加で精度は上がるか
層を増やすことで,より高いレベルの特徴量を使用可能
⇒ しかし同時に,勾配消失と勾配爆発の可能性が増大
4
20層 > 56層で,層を深くすると性能が劣化(≠過学習)
目的
2014年における“深い”ネットワーク ⇒ 20層前後
2015年における“深い”ネットワーク ⇒ 100層以上?!
5
劣化せず,より“深い”ネットワーク構造の実現
図3. plain network (左) と residual learning (右) [1]
式変形
shortcut
関連研究
勾配消失や残差を扱った研究をいくつか紹介
勾配消失に対する対策
➢一般的な画像以外にも使用可能な手法
➢Shortcut を利用した手法
残差を利用した手法
特徴量の抽出による精度の向上
6
残差や shortcut を用いることで,精度が向上可能?
勾配消失問題
一般的な勾配消失/発散問題に対する対策として
Normalized initialization
隠れ層の数から分散を決定した分布を初期値に使用[4]
Batch Normalization
バッチ内での正規化
Construction
浅い層で学習した初期値をより深い層の初期値に使用
7
[4] He, K., Zhang, X., Ren, S., & Sun, J. (2015). Delving deep into rectifiers: Surpassing human-level performance on
imagenet classification. In Proceedings of the IEEE international conference on computer vision (pp. 1026-1034).
Deeper
Shallower
network
Input
Output
Shallower
Input
Output
New layer重みを転用
⇐ copied
⇐ added
Shortcut Ⅰ
GoogLeNet [6]では
Shortcut Connections を使用
中間層から出力層へ
直接接続
Inception 内の
1 × 1 CNNによる
次元削減
8
[6] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., ... & Rabinovich, A. (2015). Going deeper
with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1-9).
図4. GoogleNetのモデル図[6]
出力層
計3つの shortcut
を用いることで,
勾配消失を回避
inception
Shortcut Ⅱ
Highway network[7]
LSTM のように,gating function を用いて学習
𝒚 = 𝐻 𝐱, 𝐖 𝐇 ∙ 𝐺 𝐱, 𝐖 𝐆 + 𝐱 ∙ 1 − 𝐺 𝐱, 𝐖 𝐆
𝒚:出力層,𝐱:入力層
𝐖 𝐇:隠れ層の重み,𝐖 𝐆:ゲート層の重み
𝐻 𝐱, 𝐖 :非線形関数, 𝐺 𝐱, 𝐖 :ゲート関数
gating function の問題点として
ゲートが閉じているとき,𝐺 𝐱, 𝐖 𝐆 = 0 となり,残差なし
100層以上ではモデルが劣化
9
[7] Srivastava, R. K., Greff, K., & Schmidhuber, J. (2015). Highway networks. arXiv preprint arXiv:1505.00387.
残差表現Ⅰ
Bag of Visual Words (BoVW) による情報抽出/次元削減
10
画像から特徴を抽出
(ex. 色,エッジなど)
各特徴点をクラスタリング
(クラスタ数に確証なし)
各クラスタをベクトルの要素とし
各画像をベクトルで表現
[8] Yang, J., Jiang, Y. G., Hauptmann, A. G., & Ngo, C. W. (2007, September). Evaluating bag-of-visual-words representations in scene
classification. In Proceedings of the international workshop on Workshop on multimedia information retrieval(pp. 197-206). ACM.
図5. BoVW の流れ[8]
残差表現Ⅱ
フィルター間の差により,画像から特徴量を抽出(SIFT)
11
[9] Lowe, D. G. (2004). Distinctive image features from scale-invariant
keypoints. International journal of computer vision, 60(2), 91-110.
元画像
DoG フィルタを
画像に使用
局所的極値を
探索
特徴量を抽出
※図6. 元画像,Difference of Gausiann (DoG)の適用,
各スケール間の比較,特徴量抽出結果(左から)[9]
差分が最大となる点
残差表現Ⅲ(おまけ)
BoVW における問題点
kmeans 法では,平均・分散が未考慮
次元数がクラスタ数(visual word の数)で少数になりがち
混合ガウス分布を用いた kmeans 法の近似式を考える
𝑝 𝐱 = σ 𝑘=1
𝐾
𝜋 𝑘 𝒩(𝐱|𝝁 𝑘, 𝚺 𝑘)
𝜋 𝑘:クラスタに属する確率
𝒩(𝐱|𝝁 𝑘, 𝚺 𝑘):平均 𝝁 𝑘 分散 𝚺 𝑘 のガウス分布
12
残差表現Ⅳ (おまけ)
先ほどの近似式を取り入れた BoVW の改良として
平均,分散を考慮した Fisher Vector
⇒ 次元数は[クラスタ数] × [平均と分散の次元数]
平均のみを考慮した VLAD
⇒ 次元数は[クラスタ数] × [平均の次元数]
13
図7. クラスタ数16,次元数16の VLAD の特徴量[10]
[10] Jegou, H., Perronnin, F., Douze, M., Sánchez, J., Perez, P., & Schmid, C. (2012). Aggregating local image descriptors
into compact codes. IEEE transactions on pattern analysis and machine intelligence, 34(9), 1704-1716.
本研究の概要
残差を考慮した residual learning
Shortcut による Identity Mapping
残差と shortcut を用いて,“深い”ネットワーク構造を実現
14
図3. plain network (左) と residual learning (右) [1]
式変形
shortcut
Residual Learning
多重非線形関数が漸近的に複雑な関数を近似できる時
ℱ x ∶= ℋ x − x (1)
ℱ x : residual function, x: ブロックへの入力層
ℋ x : 2層以上の非線形関数,元々の関数
ℋ x について解くと,
ℋ x = ℱ x + x (2)
(2)について学習しても,パラメータは変わらず計算も容易
15
Residual Learning では ℋ x = ℱ x + x について学習
Residual Learning の解釈
Residual Learning は元々の学習関数が学ぶべき関数に
近似可能だが,学習のしやすさが異なるかもしれない
Construction において,深いモデルがなぜ劣化するのか
⇒ 新たに加えられた層が恒等写像するのは難しい?
16
Deeper
Shallower
network
Input
Output
Shallower
Input
Output
New layer重みを転用
Shallower の出力
が最適解なら
Shortcut 可能?
恒等写像(identity mapping)できれば,深いモデルは性能劣化しない
Residual Learning の一般化
ℱ x と x が同次元の時
𝒚 = ℱ 𝐱, {𝑊𝑖} + 𝐱 (res. 1)
同次元でないとき
𝒚 = ℱ 𝐱, {𝑊𝑖} + 𝑊𝑠 𝐱 (res. 2)
𝐱: 入力層 𝐲: 出力層 ℱ 𝐱, {𝑊𝑖} : residual mapping
𝑊𝑖: 𝑖番目の重み 𝑊𝑠: 形状を合わせるための変換
Ex. ℱ 𝐱, {𝑊𝑖} = 𝑊2 𝑟𝑒𝑙𝑢(𝑊1 𝐱), 𝑊𝑠 = 1 × 1 の CNN
ℱ 𝐱, {𝑊𝑖} が1層の時は,通常のネットワークとほぼ同じ
17
18
ネットワーク
構造Ⅰ
 VGG-19 を参考に
plain/residual nets
を構築[11]
 画像サイズを縮小
するために
ダウンサンプリング
[11] Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image
recognition. arXiv preprint arXiv:1409.1556.
ダウン
サンプリング
(𝑟𝑒𝑠. 2)
(𝑟𝑒𝑠. 1)
CNN 内で
ダウン
サンプリング
19
ネットワーク
構造Ⅱ
 3 × 3 の CNN を
極力使用
 プーリング層と
全結合層を削減
 フィルターの総数
が少ないため
計算量も削減
計算量 19.6 3.6 3.6(𝑏𝑖𝑙𝑙𝑖𝑜𝑛 𝐹𝑙𝑜𝑝𝑠)
全結合層
プーリング層
ネットワークの種類
ImageNet 用に 18, 34, 50, 101, 152層のネットワークを提案
34層とそれ以降では,計算量の削減のため異なるブロック
20
34層 50層
VGG より少ない
計算量
実験対象
Object Classification
➢ImageNet
画像数: 1400万以上,synsets 数: 2万以上,pixcel 数: 256 × 256
※実験に用いた ImageNet-2012 では
画像数: 128万,synsets 数: 1000
➢Cifar-10
画像数: 6万,synsets 数: 10,pixcel 数: 32 × 32
Object Detection
Microsoft COCO データセット
画像数: 6万,カテゴリ数: 80
21
図8. COCOデータセット[12]
[12] Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., ... & Zitnick, C. L. (2014, September). Microsoft
coco: Common objects in context. In European conference on computer vision (pp. 740-755). Springer, Cham.
ImageNet の例
花の中でも,非常に細かな分類(4000以上)
22[13] http://image-net.org/explore
図9. ImageNet の synset 例[13]
Cifar-10 の例
ImageNet と比べると,非常に大まかな分類
23[14] https://www.cs.toronto.edu/~kriz/cifar.html
図10. Cifar-10 のカテゴリ[14]
実験
前処理として
画像に対して,標準的な data augmentation
➢スケールの拡大・縮小
➢端の切り落とし
➢横方向反転 … 𝑒𝑡𝑐
モデル内部
➢CNN 毎に,Batch Normalization
➢SGD を使用(learning rate は学習が停滞する度,0.1倍)
➢Mini batch size は256
24
ImageNet の結果Ⅰ
ResNet では,性能劣化が起きず,精度が向上
Plain net では,層を深くした事で,性能が劣化
25
※太い線が validation error (50k images), 細い線が training error
Batch Normalization は分散を必ず持ち,identity mapping は困難
ImageNet の結果Ⅱ
予測した上位1件,5件とのエラー率を比較
ResNet-152 が最も高精度
(test, validation 共に)
Plain net と比較しても
精度の向上を確認
ショートカットの方法も評価
C > B > A であるが,今後は
計算量の少ない B を使用
➢A:次元数が増えたとき
zero-padding
➢B:次元数が増えたとき
1 × 1 の CNN
➢C:次元数に関係なく
1 × 1 の CNN
26
model top-1 err
(validation)
top-5 err
(validation)
VGG-16 28.07 9.33
GoogLeNet - 9.15
Plain-34 28.54 7.38
ResNet-34 A 25.03 7.76
ResNet-34 B 24.52 7.46
ResNet-34 C 24.19 7.40
ResNet-50 22.85 6.71
ResNet-101 21.75 6.05
ResNet-152 21.43 5.71
Cifar-10 の結果Ⅰ
より深いモデルにおける ResNet の挙動を調査
Cifar-10 の pixcel 数(32 × 32)に合わせて,モデルを変化
CNN はすべて 3 × 3 を使用
次元の増加は 𝑛 で管理,すなわち 2𝑛 回ごとに次元が増加
最後の層はクラス数に合わせて出力が10次元の全結合層
Ex. ResNet-20 の場合,𝑛 は 3
27
Output size 32 × 32 16 × 16 8 × 8 1 × 𝟏𝟎
#layers 1 + 2𝑛 2𝑛 2𝑛 1
#filters 16 32 64 -
Cifar-10 の結果Ⅱ
予測した上位1件とのエラー率を比較
ResNet-110 が最も高精度
ResNet-1202 も Highway Networdk より高精度
28
model #layers #params error(%)
Highway 19 2.3M 7.54
Highway 32 1.25M 8.80
ResNet-20 20 0.27M 7.51
ResNet-32 32 0.46M 7.51
ResNet-56 56 0.85M 7.17
ResNet-110 110 1.7M 6.43(6.61±0.16)
ResNet-1202 1202 1.94M 7.93
Cifar-10 の結果Ⅲ
ImageNet との時と同様に
ResNet では,性能劣化が起きず,精度が向上
Plain net では,層を深くした事で,性能が劣化
右図から,深いモデルは勾配消失ではなく,過学習?
29
Cifar-10 の結果Ⅳ
層ごとの出力の標準偏差をソートした結果
ResNet は Plain Net より小さい標準偏差
深いモデルほど標準偏差が小さい傾向
30
COCO の結果
Faster R-CNN に VGG-16 と ResNet-101 を組み込んで学習
VGG に比べて高精度
31
図11. faster R-CNN[2]
物体の候補を
検出
VGG-16
or
ResNet-101
metric mAP@5 mAP@[.5, .95]
VGG-16 41.5 21.2
ResNet-101 48.4 27.2
※mAP(平均適合率)
まとめ
Residual Learning によって,深い層での学習に成功
152層のモデルを構築し,他手法よりも高い精度を達成
Object Classification だけてなく
Object Detection でも効果を示し
他のタスクでの有効性も確認
32
劣化せず,より“深い”ネットワーク構造の実現
図12. COCO に対する結果[2]
沢山あるから,注意深く見てね!!だそう
その他の参考資料
ResNet
https://qiita.com/ikeyasu/items/ea9ced2b8e0fcb3da2be
BoVW
特に,fisher vector は難しく,助かった・・・
https://www.slideshare.net/nlab_utokyo/20150930-53741757
http://www.isi.imi.i.u-
tokyo.ac.jp/~harada/pdf/LargeScaleGenericImageRecognition_ImageRe
presentation_prmu20110217_harada.pdf
画像処理の変遷
https://qiita.com/yu4u/items/7e93c454c9410c4b5427
Batch Normalization
https://qiita.com/t-tkd3a/items/14950dbf55f7a3095600
33

More Related Content

What's hot

[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video RecognitionDeep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time SeriesDeep Learning JP
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric
[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric
[DL Hacks]Simple Online Realtime Tracking with a Deep Association MetricDeep Learning JP
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れKazuki Motohashi
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだYusuke Uchida
 
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Hirokatsu Kataoka
 

What's hot (20)

[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric
[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric
[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
 
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)
 

Similar to Deep residual learning for image recognition

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展Takumi Ohkuma
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会S_aiueo32
 
[DL輪読会]Adversarial Learning for Zero-shot Domain Adaptation
[DL輪読会]Adversarial Learning for Zero-shot Domain Adaptation[DL輪読会]Adversarial Learning for Zero-shot Domain Adaptation
[DL輪読会]Adversarial Learning for Zero-shot Domain AdaptationDeep Learning JP
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual LocalizationHajime Taira
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)Shintaro Yoshida
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
DIGITSによるディープラーニング画像分類
DIGITSによるディープラーニング画像分類DIGITSによるディープラーニング画像分類
DIGITSによるディープラーニング画像分類NVIDIA Japan
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)Akisato Kimura
 
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data ObjectsMitsuo Yamamoto
 

Similar to Deep residual learning for image recognition (20)

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
[DL輪読会]Adversarial Learning for Zero-shot Domain Adaptation
[DL輪読会]Adversarial Learning for Zero-shot Domain Adaptation[DL輪読会]Adversarial Learning for Zero-shot Domain Adaptation
[DL輪読会]Adversarial Learning for Zero-shot Domain Adaptation
 
20190804_icml_kyoto
20190804_icml_kyoto20190804_icml_kyoto
20190804_icml_kyoto
 
Semantic segmentation2
Semantic segmentation2Semantic segmentation2
Semantic segmentation2
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
DIGITSによるディープラーニング画像分類
DIGITSによるディープラーニング画像分類DIGITSによるディープラーニング画像分類
DIGITSによるディープラーニング画像分類
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data Objects
 

More from 禎晃 山崎

Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing禎晃 山崎
 
Dataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamicsDataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamics禎晃 山崎
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
 
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...禎晃 山崎
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6禎晃 山崎
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2禎晃 山崎
 

More from 禎晃 山崎 (9)

Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing
 
Dataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamicsDataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamics
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
 
PRML_from5.1to5.3.1
PRML_from5.1to5.3.1PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
 
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
 

Deep residual learning for image recognition