SlideShare a Scribd company logo
1 of 40
논문 구현 및 Attention Map 관찰
목차
• Pixel-wise contextual attention network 논문 설명
• PiCANet Architecture
• PiCANet을 활용한 Saliency Detection Network 구조 설명
• Encoder
• Decoder
• Decoder Cell
• 실제 구현
• 결과 해석
• 한계점 및 보완할 점
Pixel-wise contextual attention network
• 각각의 픽셀이 가지고 있는 contextual 정보를 Attention Map으로
표현하는 Network
Pixel-wise contextual attention network
• Intuition: 어떤 한 픽셀의 정보에 미치는 영향은
픽셀마다 다를 것이다.
• Goal : 각 픽셀 간의 Context 정보를 학습한다.
• Soft Attention에 기반하여 구현.
• Global Attention 과 Local Attention
각 픽셀의 AttentionH*W의 채널 수를 가진
Attended Contextual Feature Map
기존의 Feature Map
(a)
(b)-softmax
Global PiCANet Architecture
D = H * W
𝛼 𝑤 ℎ= reshape(𝛼[w, h]: (1, D)  (H, W) 2D array)
𝛼 𝑤 ℎF
C
(C, 1, 1) : Attended pixel at (w, h)
각 픽셀의 Attention
(Channel # : 1)
기존의 Feature Map
(Channel # : C)
Weighted
Sum
Channel = C인
Single Pixel
(H * W) 개
reshape
각 픽셀의 Attention_h*_w의 채널 수를 가진
Attended Contextual Feature Map
기존의 Feature Map
中 일부
(a)
(b)-softmax
(a) (b)
Local PiCANet Architecture
각 픽셀의 Attention
(Channel # : 1)
기존의 Feature Map
中 일부
(Channel # : C)
Weighted
Sum
Channel = C인
Single Pixel
(_h * _w) 개
reshape
(a) (b)
Overall Architecture
Encoder Decoder
Decoder Cell
Encoder
• VGG16 Backbone
• 2 Convolution Layer
• 기존 fc-classifier 부분
Encoder Decoder
Decoder & Decoder Cell
• 6개의 Decoder Cell로 구성
• 각 Cell 마다 Cross Entropy Loss 연산
• Target은 Max-pooling을 이용해 Resize
Decoder & Decoder Cell
Deci+1
Eni
Deci
Result
• -R
• Resnet Backbone
Instead of VGG16
• -C
• CRF Postprocessing
Result
• -R
• Resnet Backbone
Instead of VGG16
• -C
• CRF Postprocessing
실제 구현
• Data Augmentation
• Dilated Filter
Data Augmentation
• Crop Image into 224*224
• Horizontal Mirror Flip
Dilated Convolution
• Global PiCANet에서 실제 H,W = 28,28  D = 28 * 28
• 계산량 감소를 위해 10*10의 채널 수를 가진 ACF Map 생성
• Dilation = 3 를 줌으로 1028로 확장
• (10 - 1) * (3 - 1) + 10 = 28
Dilated Convolution
• Local PiCANet에서 실제 _h,_w = 13,13, _d = 13*13
• 계산량 감소를 위해 7*7의 채널 수를 가진 ACF Map 생성
• Dilation = 2 를 줌으로 713로 확장
• (7 - 1) * (2 – 1) + 7 = 28
My Implementation & Result
Implementation
• Pytorch로 구현 논문  Caffe 로 구현
• Batchsize = 1 로 학습 논문  Batchsize = 10
• (더 크게 할 시 Out of Memory 문제 발생)
• HyperParameter :
• learning_rate, beta, momentum 등등 : 논문과 동일 (lr : 0.001, m : 0.9,)
• Network:
• Global/Local PiCANet : 논문과 동일하게 구현
• Decoder Cell 中 Convolution layer :
• Kernel Size와 관련하여 논문에 적힌 내용이 없어 임의로 구현
• Optimize:
• Gradient가 튀는 현상을 막고자 Gradient Clipping 적용함.
Result
• Training Loss
• PR_Curve
• F_Measure Score (beta_square = 0.3)
• MAE Score
• Attention Map Viewing Application
Training Loss
Training Result
• 1000 iteration
• 123000 iteration
PR_Curve
TensorBoard로 출력한 PR_Curve를
위에 겹쳐 놓은 모양이라 부정확할 수
있습니다.
주황색 굵은 곡선이
직접 구현한 모델입니다.
F_Measure Score
Step Value Threshold
55000 0.827128 0.754009
123000 0.837655 0.787505
130000 0.825695 0.830526
139000 0.823819 0.728928
159000 0.824045 0.7839
180000 0.833425 0.827174
194000 0.829462 0.786741
218000 0.823438 0.676048
227000 0.823538 0.718029
243000 0.825455 0.728044
MAE
Step Value
55000 0.040421
70000 0.040555
86000 0.039739
90000 0.041903
96000 0.041098
106000 0.041002
227000 0.041843
243000 0.041748
247000 0.040996
289000 0.041671
Attention Map Viewing App
Attention Map (Good Case)
Attention Map (Good Case)
Attention Map (Good Case)
Attention Map (Bad Case)
Attention Map 결과 해석
• 이미지마다 다른 Attention Map이 생성됨
• 각 픽셀마다 다른 Attention Map이 생성됨
• Attention Map이 불균일하므로, Pixel간의 위치가 갖는
Contextual 정보가 있음을 알 수 있다.
현재 한계점
1. Network를 학습 or 검증할 때의 GPU 사용률이 현저히 낮다.
2. 논문에서 BatchSize 10으로 학습을 했다고 하는데, BatchSize를 1 이상으
로 학습시킬 수 없다.
3. Attention Map이 구체적으로 어떤 의미를 갖는지 파악하기 힘들다.
(Saliency Detection 문제 및 이미지 처리에 어떤 도움을 주는지 확인이 어려움)
4. DUTS Dataset 에서만 모델을 검증해 보았다.
향후 보완점
1. Network를 학습 or 검증할 때의 GPU 사용률이 현저히 낮다.
1. Pytorch 불안정성으로 인한 문제일 가능성 있음.
2. Tensorboard로 구현해 본다.
2. 논문에서 BatchSize 10으로 학습을 했다고 하는데, BatchSize를 1 이상으
로 학습시킬 수 없다.
1. 1. 과 같은 문제일 가능성
향후 보완점
3. Attention Map이 구체적으로 어떤 의미를 갖는지 파악하기 힘들다.
(Saliency Detection 문제 및 이미지 처리에 어떤 도움을 주는지 확인이 어려움)
1. PiCANet을 활용하여 Classification, Semantic Detection과 같은 다른 문제들을 해
결해 본다.
2. PiCANet을 이용하는 AutoEncoder를 설계하여 Context 정보로 기존 정보를 복원할
수 있는지 검증해본다.
4. DUTS Dataset 에서만 모델을 검증해 보았다.
1. 다른 Dataset에서도 검증해본다.

More Related Content

Similar to PiCANet, Pytorch Implementation (Korean)

[NDC2016] 신경망은컨텐츠자동생성의꿈을꾸는가
[NDC2016] 신경망은컨텐츠자동생성의꿈을꾸는가[NDC2016] 신경망은컨텐츠자동생성의꿈을꾸는가
[NDC2016] 신경망은컨텐츠자동생성의꿈을꾸는가Hwanhee Kim
 
[IGC 2017] 에픽게임즈 최용훈 - 밤낮으로 부수고 짓고 액션 빌딩 게임 만들기 - 포트나이트
[IGC 2017] 에픽게임즈 최용훈 - 밤낮으로 부수고 짓고 액션 빌딩 게임 만들기 - 포트나이트[IGC 2017] 에픽게임즈 최용훈 - 밤낮으로 부수고 짓고 액션 빌딩 게임 만들기 - 포트나이트
[IGC 2017] 에픽게임즈 최용훈 - 밤낮으로 부수고 짓고 액션 빌딩 게임 만들기 - 포트나이트강 민우
 
이정근_project_로봇비전시스템.pdf
이정근_project_로봇비전시스템.pdf이정근_project_로봇비전시스템.pdf
이정근_project_로봇비전시스템.pdftangtang1026
 
빠른 렌더링을 위한 오브젝트 제외 기술
빠른 렌더링을 위한 오브젝트 제외 기술빠른 렌더링을 위한 오브젝트 제외 기술
빠른 렌더링을 위한 오브젝트 제외 기술YEONG-CHEON YOU
 
텐서플로우 2.0 튜토리얼 - CNN
텐서플로우 2.0 튜토리얼 - CNN텐서플로우 2.0 튜토리얼 - CNN
텐서플로우 2.0 튜토리얼 - CNNHwanhee Kim
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...Chanjin Park
 
[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기
[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기
[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기현철 조
 
Deep Learning Into Advance - 1. Image, ConvNet
Deep Learning Into Advance - 1. Image, ConvNetDeep Learning Into Advance - 1. Image, ConvNet
Deep Learning Into Advance - 1. Image, ConvNetHyojun Kim
 
위성이미지 객체 검출 대회 - 1등
위성이미지 객체 검출 대회 - 1등위성이미지 객체 검출 대회 - 1등
위성이미지 객체 검출 대회 - 1등DACON AI 데이콘
 
전자해도 표준과 뷰어 (최규성)
전자해도 표준과 뷰어 (최규성)전자해도 표준과 뷰어 (최규성)
전자해도 표준과 뷰어 (최규성)Kyu-sung Choi
 
[Ndc11 박민근] deferred shading
[Ndc11 박민근] deferred shading[Ndc11 박민근] deferred shading
[Ndc11 박민근] deferred shadingMinGeun Park
 
July report in korean
July report in koreanJuly report in korean
July report in koreannao takatoshi
 
Business Plan - SmartPlug
Business Plan - SmartPlugBusiness Plan - SmartPlug
Business Plan - SmartPlugHyunsang Jeon
 
June report in korean
June report in koreanJune report in korean
June report in koreannao takatoshi
 
Modern gpu optimize blog
Modern gpu optimize blogModern gpu optimize blog
Modern gpu optimize blogozlael ozlael
 
200819 NAVER TECH CONCERT 01_100만 달러짜리 빠른 앱을 만드는 비법 전수
200819 NAVER TECH CONCERT 01_100만 달러짜리 빠른 앱을 만드는 비법 전수200819 NAVER TECH CONCERT 01_100만 달러짜리 빠른 앱을 만드는 비법 전수
200819 NAVER TECH CONCERT 01_100만 달러짜리 빠른 앱을 만드는 비법 전수NAVER Engineering
 
100만 달러짜리 빠른앱 만드는 비법
100만 달러짜리 빠른앱 만드는 비법100만 달러짜리 빠른앱 만드는 비법
100만 달러짜리 빠른앱 만드는 비법SooHwan Ok
 

Similar to PiCANet, Pytorch Implementation (Korean) (20)

Open gl
Open glOpen gl
Open gl
 
LeNet & GoogLeNet
LeNet & GoogLeNetLeNet & GoogLeNet
LeNet & GoogLeNet
 
[NDC2016] 신경망은컨텐츠자동생성의꿈을꾸는가
[NDC2016] 신경망은컨텐츠자동생성의꿈을꾸는가[NDC2016] 신경망은컨텐츠자동생성의꿈을꾸는가
[NDC2016] 신경망은컨텐츠자동생성의꿈을꾸는가
 
[IGC 2017] 에픽게임즈 최용훈 - 밤낮으로 부수고 짓고 액션 빌딩 게임 만들기 - 포트나이트
[IGC 2017] 에픽게임즈 최용훈 - 밤낮으로 부수고 짓고 액션 빌딩 게임 만들기 - 포트나이트[IGC 2017] 에픽게임즈 최용훈 - 밤낮으로 부수고 짓고 액션 빌딩 게임 만들기 - 포트나이트
[IGC 2017] 에픽게임즈 최용훈 - 밤낮으로 부수고 짓고 액션 빌딩 게임 만들기 - 포트나이트
 
이정근_project_로봇비전시스템.pdf
이정근_project_로봇비전시스템.pdf이정근_project_로봇비전시스템.pdf
이정근_project_로봇비전시스템.pdf
 
빠른 렌더링을 위한 오브젝트 제외 기술
빠른 렌더링을 위한 오브젝트 제외 기술빠른 렌더링을 위한 오브젝트 제외 기술
빠른 렌더링을 위한 오브젝트 제외 기술
 
텐서플로우 2.0 튜토리얼 - CNN
텐서플로우 2.0 튜토리얼 - CNN텐서플로우 2.0 튜토리얼 - CNN
텐서플로우 2.0 튜토리얼 - CNN
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
 
[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기
[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기
[NDC17] Unreal.js - 자바스크립트로 쉽고 빠른 UE4 개발하기
 
Deep Learning Into Advance - 1. Image, ConvNet
Deep Learning Into Advance - 1. Image, ConvNetDeep Learning Into Advance - 1. Image, ConvNet
Deep Learning Into Advance - 1. Image, ConvNet
 
위성이미지 객체 검출 대회 - 1등
위성이미지 객체 검출 대회 - 1등위성이미지 객체 검출 대회 - 1등
위성이미지 객체 검출 대회 - 1등
 
전자해도 표준과 뷰어 (최규성)
전자해도 표준과 뷰어 (최규성)전자해도 표준과 뷰어 (최규성)
전자해도 표준과 뷰어 (최규성)
 
[Ndc11 박민근] deferred shading
[Ndc11 박민근] deferred shading[Ndc11 박민근] deferred shading
[Ndc11 박민근] deferred shading
 
July report in korean
July report in koreanJuly report in korean
July report in korean
 
Business Plan - SmartPlug
Business Plan - SmartPlugBusiness Plan - SmartPlug
Business Plan - SmartPlug
 
June report in korean
June report in koreanJune report in korean
June report in korean
 
Modern gpu optimize blog
Modern gpu optimize blogModern gpu optimize blog
Modern gpu optimize blog
 
Modern gpu optimize
Modern gpu optimizeModern gpu optimize
Modern gpu optimize
 
200819 NAVER TECH CONCERT 01_100만 달러짜리 빠른 앱을 만드는 비법 전수
200819 NAVER TECH CONCERT 01_100만 달러짜리 빠른 앱을 만드는 비법 전수200819 NAVER TECH CONCERT 01_100만 달러짜리 빠른 앱을 만드는 비법 전수
200819 NAVER TECH CONCERT 01_100만 달러짜리 빠른 앱을 만드는 비법 전수
 
100만 달러짜리 빠른앱 만드는 비법
100만 달러짜리 빠른앱 만드는 비법100만 달러짜리 빠른앱 만드는 비법
100만 달러짜리 빠른앱 만드는 비법
 

Recently uploaded

Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Wonjun Hwang
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Kim Daeun
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Wonjun Hwang
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionKim Daeun
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)Tae Young Lee
 

Recently uploaded (6)

Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 

PiCANet, Pytorch Implementation (Korean)

  • 1. 논문 구현 및 Attention Map 관찰
  • 2. 목차 • Pixel-wise contextual attention network 논문 설명 • PiCANet Architecture • PiCANet을 활용한 Saliency Detection Network 구조 설명 • Encoder • Decoder • Decoder Cell • 실제 구현 • 결과 해석 • 한계점 및 보완할 점
  • 3. Pixel-wise contextual attention network • 각각의 픽셀이 가지고 있는 contextual 정보를 Attention Map으로 표현하는 Network
  • 4. Pixel-wise contextual attention network • Intuition: 어떤 한 픽셀의 정보에 미치는 영향은 픽셀마다 다를 것이다. • Goal : 각 픽셀 간의 Context 정보를 학습한다. • Soft Attention에 기반하여 구현.
  • 5. • Global Attention 과 Local Attention
  • 6. 각 픽셀의 AttentionH*W의 채널 수를 가진 Attended Contextual Feature Map 기존의 Feature Map (a) (b)-softmax Global PiCANet Architecture
  • 7. D = H * W 𝛼 𝑤 ℎ= reshape(𝛼[w, h]: (1, D)  (H, W) 2D array) 𝛼 𝑤 ℎF C (C, 1, 1) : Attended pixel at (w, h)
  • 8. 각 픽셀의 Attention (Channel # : 1) 기존의 Feature Map (Channel # : C) Weighted Sum Channel = C인 Single Pixel (H * W) 개 reshape
  • 9. 각 픽셀의 Attention_h*_w의 채널 수를 가진 Attended Contextual Feature Map 기존의 Feature Map 中 일부 (a) (b)-softmax (a) (b) Local PiCANet Architecture
  • 10. 각 픽셀의 Attention (Channel # : 1) 기존의 Feature Map 中 일부 (Channel # : C) Weighted Sum Channel = C인 Single Pixel (_h * _w) 개 reshape (a) (b)
  • 12. Encoder • VGG16 Backbone • 2 Convolution Layer • 기존 fc-classifier 부분
  • 14. Decoder & Decoder Cell • 6개의 Decoder Cell로 구성 • 각 Cell 마다 Cross Entropy Loss 연산 • Target은 Max-pooling을 이용해 Resize
  • 15. Decoder & Decoder Cell Deci+1 Eni Deci
  • 16.
  • 17. Result • -R • Resnet Backbone Instead of VGG16 • -C • CRF Postprocessing
  • 18. Result • -R • Resnet Backbone Instead of VGG16 • -C • CRF Postprocessing
  • 19. 실제 구현 • Data Augmentation • Dilated Filter
  • 20. Data Augmentation • Crop Image into 224*224 • Horizontal Mirror Flip
  • 21. Dilated Convolution • Global PiCANet에서 실제 H,W = 28,28  D = 28 * 28 • 계산량 감소를 위해 10*10의 채널 수를 가진 ACF Map 생성 • Dilation = 3 를 줌으로 1028로 확장 • (10 - 1) * (3 - 1) + 10 = 28
  • 22. Dilated Convolution • Local PiCANet에서 실제 _h,_w = 13,13, _d = 13*13 • 계산량 감소를 위해 7*7의 채널 수를 가진 ACF Map 생성 • Dilation = 2 를 줌으로 713로 확장 • (7 - 1) * (2 – 1) + 7 = 28
  • 24. Implementation • Pytorch로 구현 논문  Caffe 로 구현 • Batchsize = 1 로 학습 논문  Batchsize = 10 • (더 크게 할 시 Out of Memory 문제 발생) • HyperParameter : • learning_rate, beta, momentum 등등 : 논문과 동일 (lr : 0.001, m : 0.9,) • Network: • Global/Local PiCANet : 논문과 동일하게 구현 • Decoder Cell 中 Convolution layer : • Kernel Size와 관련하여 논문에 적힌 내용이 없어 임의로 구현 • Optimize: • Gradient가 튀는 현상을 막고자 Gradient Clipping 적용함.
  • 25.
  • 26. Result • Training Loss • PR_Curve • F_Measure Score (beta_square = 0.3) • MAE Score • Attention Map Viewing Application
  • 28. Training Result • 1000 iteration • 123000 iteration
  • 29. PR_Curve TensorBoard로 출력한 PR_Curve를 위에 겹쳐 놓은 모양이라 부정확할 수 있습니다. 주황색 굵은 곡선이 직접 구현한 모델입니다.
  • 30. F_Measure Score Step Value Threshold 55000 0.827128 0.754009 123000 0.837655 0.787505 130000 0.825695 0.830526 139000 0.823819 0.728928 159000 0.824045 0.7839 180000 0.833425 0.827174 194000 0.829462 0.786741 218000 0.823438 0.676048 227000 0.823538 0.718029 243000 0.825455 0.728044
  • 31. MAE Step Value 55000 0.040421 70000 0.040555 86000 0.039739 90000 0.041903 96000 0.041098 106000 0.041002 227000 0.041843 243000 0.041748 247000 0.040996 289000 0.041671
  • 37. Attention Map 결과 해석 • 이미지마다 다른 Attention Map이 생성됨 • 각 픽셀마다 다른 Attention Map이 생성됨 • Attention Map이 불균일하므로, Pixel간의 위치가 갖는 Contextual 정보가 있음을 알 수 있다.
  • 38. 현재 한계점 1. Network를 학습 or 검증할 때의 GPU 사용률이 현저히 낮다. 2. 논문에서 BatchSize 10으로 학습을 했다고 하는데, BatchSize를 1 이상으 로 학습시킬 수 없다. 3. Attention Map이 구체적으로 어떤 의미를 갖는지 파악하기 힘들다. (Saliency Detection 문제 및 이미지 처리에 어떤 도움을 주는지 확인이 어려움) 4. DUTS Dataset 에서만 모델을 검증해 보았다.
  • 39. 향후 보완점 1. Network를 학습 or 검증할 때의 GPU 사용률이 현저히 낮다. 1. Pytorch 불안정성으로 인한 문제일 가능성 있음. 2. Tensorboard로 구현해 본다. 2. 논문에서 BatchSize 10으로 학습을 했다고 하는데, BatchSize를 1 이상으 로 학습시킬 수 없다. 1. 1. 과 같은 문제일 가능성
  • 40. 향후 보완점 3. Attention Map이 구체적으로 어떤 의미를 갖는지 파악하기 힘들다. (Saliency Detection 문제 및 이미지 처리에 어떤 도움을 주는지 확인이 어려움) 1. PiCANet을 활용하여 Classification, Semantic Detection과 같은 다른 문제들을 해 결해 본다. 2. PiCANet을 이용하는 AutoEncoder를 설계하여 Context 정보로 기존 정보를 복원할 수 있는지 검증해본다. 4. DUTS Dataset 에서만 모델을 검증해 보았다. 1. 다른 Dataset에서도 검증해본다.