SlideShare a Scribd company logo
IBIS2020 1
11
発表番号
⾦沢⼤学 ⾃然科学研究科
修⼠1年 鈴⽊悠太
発表者の⽒名・所属
U-Net++とSE-Netを統合した画像セグメンテーションのための転移学習モデル
発表タイトル
U-Net++を拡張した転移学習モデルを提案した. 画像分類タスクでは局所特徴を学習すれ
ば良いがセグメンテーションタスクはそれに加えて位置情報も学習する必要がある. 故
にタスク間の学習すべき特徴に差異が⽣じる. そこでSEブロックを組み込むことで局所特
徴と位置情報の両⽅を効率よく学習するSE-U-Net++と畳み込み層のパラメータを⽐較す
ることでタスクの差異を埋める転移学習アルゴリズムを提案した.
発表の概要
U-Net++とSE-Netを統合した
画像セグメンテーションのため
の転移学習モデル
IBIS2020 2
2nd ⼭根 智
⾦沢⼤学 ⾃然科学研究科 電⼦情報科学専攻 教授
1st 鈴⽊ 悠太
⾦沢⼤学 ⾃然科学研究科 電⼦情報科学専攻 博⼠前期課程1年
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 3
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 4
セグメン
テーション
研究背景
深層学習技術の発展
画像分類 物体検出
IBIS2020 5
さまざまな画像認識タスクに適⽤されている
・・・
例
画像分類
Rabbit 98%
IBIS2020 6
•画像に写っている物体(クラス)を予測するタスク
予測
物体検出
IBIS2020 7
•画像に写っている物体(クラス)とその位置の矩形
(バウンディング ボックス)を予測するタスク
予測
Rabbit 93%
セグメンテーション
IBIS2020 8
•画像に写っている物体(クラス)をピクセル単位で予測するタスク
予測
ImageNet
• 14,00万枚もの画像
• それぞれの画像に物体名(クラスラベル) を付与
• 2万ものクラスラベル数
IBIS2020 9
ImageNetは⾮常に⼤規模な画像分類⽤のデータセット
ImageNetで学習済みのモデル
転移学習
新しいタスクに適⽤
転移学習
IBIS2020 10
新しいタスクで学習
•あるタスクで学習済みのモデルを新しいタスクに適⽤する⼿法
効果的
•事前学習タスクが⼤規模なもの
•⽬的タスクの学習⽤データが少ない
シチュエーション
転移学習
ファインチューニング
IBIS2020 11
新しいタスクで学習
学習を凍結
•ファインチューニングは転移学習の⼿法の⼀つ
•CNNの下層(⼊⼒側の層)は汎⽤的な特徴を学習している
•CNNの上層(出⼒側の層)は具体的な特徴を学習している
仮説
ファイン
チューニング
下層は⽬的タスク
での学習を凍結
Qiang Yang, Yu Zhang, Wenyuan Dai, Sinno Jialin Pan, Cambridge University Press, Transfer Learning, pp. 54-55, 2020.
課題
セグメンテーションの学習⽤データの作成には多くのコストがかかる
IBIS2020 12
ImageNet(画像分類)で学習済みのモデルを転移学習に使⽤する
画像分類とセグメンテーションの間には
学習する特徴にギャップがある
課題
IBIS2020 13
Rabbit 98%
予測
予測
画像分類
セグメンテーション
局所特徴
局所特徴
+
位置情報
学習特徴
学習特徴
このギャップを埋める
学習が必要
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 14
U-Net
IBIS2020 15
U-Netはセグメンテーションタスク⽤の代表的なモデル
•局所特徴は畳み込み層で抽出し学習する
•位置情報はスキップコネクションによって学習する
O. Ronneberger, P. Fischer and T. Brox, U-Net: Convolutional Networks for Biomedical Image Segmentation, arXiv:1505.04597, 2015.
エンコーダ
デコーダ
U-Netの転移学習(TernausNet)
•(ImageNetで)事前学習済みのモデルをU-Netのエンコーダとして
使⽤する
IBIS2020 16
Vladimir Iglovikov, Alexey Shvets, TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation, arXiv:1801.05746, 2018.
ImageNetで学習済みの
モデル
U-Net++
U-Net++はU-Netを改良したモデル
IBIS2020 17
Zongwei Zhou, Md Mahfuzur Rahman Siddiquee, Nima Tajbakhsh, Jianming Liang, UNet++: A Nested U-Net Architecture for Medical Image Segmentation, arXiv:1807.10165, 2018.
• 各スケールのエンコーダ部分からデコードを⾏いそれらをスキップコネクションによって連結
エンコーダとデコーダ間の特徴マップのギャップを⼩さくできる
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 18
SE-U-Net++
IBIS2020 19
•U-Net++のエンコーダ部分にSEブロックを取り付けたモデル
局所特徴と位置情報を効率よく学習する
SEブロック
IBIS2020 20
Jie Hu, Li Shen,Samuel Albanie, Gang Sun,Enhua Wu, Squeeze-and-Excitation Networks, arXiv:1709.01507v3, 2018.
•CNNの特徴マップ⾃体に
重み付けを⾏う
情報価値が⾼い特徴マップを強調する
位置情報の強調
局所特徴の強調
転移学習アルゴリズム
IBIS2020 21
Cosine similarity
各層における事前学習タスクと⽬的タスクの学習
特徴のギャップを可視化
ギャップが⼩さい層は⽬的タスクでの学習を凍結
U-Net系のモデルにもファインチューニング
を適⽤する
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 22
実験に使⽤したデータセット
IBIS2020 23
Kaggleの2018 Data Science Bowl
•細胞の核を検出するセグメンテーションタスク
•670枚の学習⽤データ
予測
https://www.kaggle.com/c/data-science-bowl-2018/data
実験モデル
IBIS2020 24
使⽤するモデルはVGG16をエンコーダにもつU-Net, U-Net++, SE-U-Net++
VGG16
実験結果(SE-U-Net++の評価)
IBIS2020 25
事前学習なし 事前学習あり
(TernausNet)
U-Net 0.9246 0.9336
U-Net++ 0.9302 0.9443
SE-U-Net++(提案) 0.9363 0.9445
RESULT OF 200 EPOCHs (Mean IoU)
RESULT OF 1000 EPOCHs (Mean IoU)
事前学習なし 事前学習あり
(TernausNet)
U-Net 0.9735 0.9756
U-Net++ 0.9754 0.9788
SE-U-Net++(提案) 0.9769 0.9786
SE-U-Net++の
⽅が効率よく
学習できる
実験結果(学習特徴の可視化)
IBIS2020 26
U-Net系のモデルにおいてエンコーダの前半部分ではImageNetと⽬的タスクの間のギャップが⼤きい
VGG16
VGG16
( ) ( )
VGG16
(2018Data
Science Bowl)
(2018Data
Science Bowl)
(2018Data
Science Bowl)
ギャップが⼤きい部分を凍結すると性能が悪くなっている
実験結果(凍結層の決定)
IBIS2020 27
t
凍結
実験結果(転移学習アルゴリズムの評価)
IBIS2020 28
事前学習あり
(TernausNet)
事前学習あり
(提案)
U-Net 0.9336 0.9341
U-Net++ 0.9443 0.9453
SE-U-Net++(提案) 0.9445 0.9454
RESULT OF 200 EPOCHs (Mean IoU)
事前学習あり
(TernausNet)
事前学習あり
(提案)
U-Net 0.9756 0.9757
U-Net++ 0.9788 0.9789
SE-U-Net++(提案) 0.9786 0.9787
RESULT OF 1000 EPOCHs (Mean IoU)
U-Net系の
モデルにも
ファイン
チューニング
を適⽤できた
⽬次
1. 研究背景
2. 関連研究
3. 提案⼿法
4. 実験と結果
5. 結論
IBIS2020 29
結論
• U-Net++にSE-Blockを取り付けたSE-U-Net++を提案
• 事前学習タスクと⽬的タスクのギャップをもとに凍結層を決め
る転移学習アルゴリズムの提案
IBIS2020 30
局所特徴と位置情報を効率よく学習
エンコーダの後半部分の学習を凍結することで
U-Net系のモデルにファインチューニングを適⽤

More Related Content

What's hot

NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding ModelNIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
Seiya Tokui
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
Kensho Hara
 
[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking
[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking
[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking
Deep Learning JP
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
Deep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
Takumi Ohkuma
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
MixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised LearningMixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised Learning
harmonylab
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
 

What's hot (20)

NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding ModelNIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking
[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking
[DL輪読会]Autonomous Reinforcement Learning: Formalism and Benchmarking
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
MixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised LearningMixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised Learning
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 

【学会発表】U-Net++とSE-Netを統合した画像セグメンテーションのための転移学習モデル【IBIS2020】