SlideShare a Scribd company logo
1 of 30
Download to read offline
IBIS2020 1
11
発表番号
⾦沢⼤学 ⾃然科学研究科
修⼠1年 鈴⽊悠太
発表者の⽒名・所属
U-Net++とSE-Netを統合した画像セグメンテーションのための転移学習モデル
発表タイトル
U-Net++を拡張した転移学習モデルを提案した. 画像分類タスクでは局所特徴を学習すれ
ば良いがセグメンテーションタスクはそれに加えて位置情報も学習する必要がある. 故
にタスク間の学習すべき特徴に差異が⽣じる. そこでSEブロックを組み込むことで局所特
徴と位置情報の両⽅を効率よく学習するSE-U-Net++と畳み込み層のパラメータを⽐較す
ることでタスクの差異を埋める転移学習アルゴリズムを提案した.
発表の概要
U-Net++とSE-Netを統合した
画像セグメンテーションのため
の転移学習モデル
IBIS2020 2
2nd ⼭根 智
⾦沢⼤学 ⾃然科学研究科 電⼦情報科学専攻 教授
1st 鈴⽊ 悠太
⾦沢⼤学 ⾃然科学研究科 電⼦情報科学専攻 博⼠前期課程1年
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 3
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 4
セグメン
テーション
研究背景
深層学習技術の発展
画像分類 物体検出
IBIS2020 5
さまざまな画像認識タスクに適⽤されている
・・・
例
画像分類
Rabbit 98%
IBIS2020 6
•画像に写っている物体(クラス)を予測するタスク
予測
物体検出
IBIS2020 7
•画像に写っている物体(クラス)とその位置の矩形
(バウンディング ボックス)を予測するタスク
予測
Rabbit 93%
セグメンテーション
IBIS2020 8
•画像に写っている物体(クラス)をピクセル単位で予測するタスク
予測
ImageNet
• 14,00万枚もの画像
• それぞれの画像に物体名(クラスラベル) を付与
• 2万ものクラスラベル数
IBIS2020 9
ImageNetは⾮常に⼤規模な画像分類⽤のデータセット
ImageNetで学習済みのモデル
転移学習
新しいタスクに適⽤
転移学習
IBIS2020 10
新しいタスクで学習
•あるタスクで学習済みのモデルを新しいタスクに適⽤する⼿法
効果的
•事前学習タスクが⼤規模なもの
•⽬的タスクの学習⽤データが少ない
シチュエーション
転移学習
ファインチューニング
IBIS2020 11
新しいタスクで学習
学習を凍結
•ファインチューニングは転移学習の⼿法の⼀つ
•CNNの下層(⼊⼒側の層)は汎⽤的な特徴を学習している
•CNNの上層(出⼒側の層)は具体的な特徴を学習している
仮説
ファイン
チューニング
下層は⽬的タスク
での学習を凍結
Qiang Yang, Yu Zhang, Wenyuan Dai, Sinno Jialin Pan, Cambridge University Press, Transfer Learning, pp. 54-55, 2020.
課題
セグメンテーションの学習⽤データの作成には多くのコストがかかる
IBIS2020 12
ImageNet(画像分類)で学習済みのモデルを転移学習に使⽤する
画像分類とセグメンテーションの間には
学習する特徴にギャップがある
課題
IBIS2020 13
Rabbit 98%
予測
予測
画像分類
セグメンテーション
局所特徴
局所特徴
+
位置情報
学習特徴
学習特徴
このギャップを埋める
学習が必要
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 14
U-Net
IBIS2020 15
U-Netはセグメンテーションタスク⽤の代表的なモデル
•局所特徴は畳み込み層で抽出し学習する
•位置情報はスキップコネクションによって学習する
O. Ronneberger, P. Fischer and T. Brox, U-Net: Convolutional Networks for Biomedical Image Segmentation, arXiv:1505.04597, 2015.
エンコーダ
デコーダ
U-Netの転移学習(TernausNet)
•(ImageNetで)事前学習済みのモデルをU-Netのエンコーダとして
使⽤する
IBIS2020 16
Vladimir Iglovikov, Alexey Shvets, TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation, arXiv:1801.05746, 2018.
ImageNetで学習済みの
モデル
U-Net++
U-Net++はU-Netを改良したモデル
IBIS2020 17
Zongwei Zhou, Md Mahfuzur Rahman Siddiquee, Nima Tajbakhsh, Jianming Liang, UNet++: A Nested U-Net Architecture for Medical Image Segmentation, arXiv:1807.10165, 2018.
• 各スケールのエンコーダ部分からデコードを⾏いそれらをスキップコネクションによって連結
エンコーダとデコーダ間の特徴マップのギャップを⼩さくできる
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 18
SE-U-Net++
IBIS2020 19
•U-Net++のエンコーダ部分にSEブロックを取り付けたモデル
局所特徴と位置情報を効率よく学習する
SEブロック
IBIS2020 20
Jie Hu, Li Shen,Samuel Albanie, Gang Sun,Enhua Wu, Squeeze-and-Excitation Networks, arXiv:1709.01507v3, 2018.
•CNNの特徴マップ⾃体に
重み付けを⾏う
情報価値が⾼い特徴マップを強調する
位置情報の強調
局所特徴の強調
転移学習アルゴリズム
IBIS2020 21
Cosine similarity
各層における事前学習タスクと⽬的タスクの学習
特徴のギャップを可視化
ギャップが⼩さい層は⽬的タスクでの学習を凍結
U-Net系のモデルにもファインチューニング
を適⽤する
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 22
実験に使⽤したデータセット
IBIS2020 23
Kaggleの2018 Data Science Bowl
•細胞の核を検出するセグメンテーションタスク
•670枚の学習⽤データ
予測
https://www.kaggle.com/c/data-science-bowl-2018/data
実験モデル
IBIS2020 24
使⽤するモデルはVGG16をエンコーダにもつU-Net, U-Net++, SE-U-Net++
VGG16
実験結果(SE-U-Net++の評価)
IBIS2020 25
事前学習なし 事前学習あり
(TernausNet)
U-Net 0.9246 0.9336
U-Net++ 0.9302 0.9443
SE-U-Net++(提案) 0.9363 0.9445
RESULT OF 200 EPOCHs (Mean IoU)
RESULT OF 1000 EPOCHs (Mean IoU)
事前学習なし 事前学習あり
(TernausNet)
U-Net 0.9735 0.9756
U-Net++ 0.9754 0.9788
SE-U-Net++(提案) 0.9769 0.9786
SE-U-Net++の
⽅が効率よく
学習できる
実験結果(学習特徴の可視化)
IBIS2020 26
U-Net系のモデルにおいてエンコーダの前半部分ではImageNetと⽬的タスクの間のギャップが⼤きい
VGG16
VGG16
( ) ( )
VGG16
(2018Data
Science Bowl)
(2018Data
Science Bowl)
(2018Data
Science Bowl)
ギャップが⼤きい部分を凍結すると性能が悪くなっている
実験結果(凍結層の決定)
IBIS2020 27
t
凍結
実験結果(転移学習アルゴリズムの評価)
IBIS2020 28
事前学習あり
(TernausNet)
事前学習あり
(提案)
U-Net 0.9336 0.9341
U-Net++ 0.9443 0.9453
SE-U-Net++(提案) 0.9445 0.9454
RESULT OF 200 EPOCHs (Mean IoU)
事前学習あり
(TernausNet)
事前学習あり
(提案)
U-Net 0.9756 0.9757
U-Net++ 0.9788 0.9789
SE-U-Net++(提案) 0.9786 0.9787
RESULT OF 1000 EPOCHs (Mean IoU)
U-Net系の
モデルにも
ファイン
チューニング
を適⽤できた
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 29
結論
• U-Net++にSE-Blockを取り付けたSE-U-Net++を提案
• 事前学習タスクと⽬的タスクのギャップをもとに凍結層を決め
る転移学習アルゴリズムの提案
IBIS2020 30
局所特徴と位置情報を効率よく学習
エンコーダの後半部分の学習を凍結することで
U-Net系のモデルにファインチューニングを適⽤

More Related Content

What's hot

【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A SurveyDeep Learning JP
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...Deep Learning JP
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)Deep Learning JP
 
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Yusuke Uchida
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 

What's hot (20)

実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
 
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 

【学会発表】U-Net++とSE-Netを統合した画像セグメンテーションのための転移学習モデル【IBIS2020】