4. Pixel-wise contextual attention network
• Intuition: 어떤 한 픽셀의 정보에 미치는 영향은
픽셀마다 다를 것이다.
• Goal : 각 픽셀 간의 Context 정보를 학습한다.
• Soft Attention에 기반하여 구현.
21. Dilated Convolution
• Global PiCANet에서 실제 H,W = 28,28 D = 28 * 28
• 계산량 감소를 위해 10*10의 채널 수를 가진 ACF Map 생성
• Dilation = 3 를 줌으로 1028로 확장
• (10 - 1) * (3 - 1) + 10 = 28
22. Dilated Convolution
• Local PiCANet에서 실제 _h,_w = 13,13, _d = 13*13
• 계산량 감소를 위해 7*7의 채널 수를 가진 ACF Map 생성
• Dilation = 2 를 줌으로 713로 확장
• (7 - 1) * (2 – 1) + 7 = 28
24. Implementation
• Pytorch로 구현 논문 Caffe 로 구현
• Batchsize = 1 로 학습 논문 Batchsize = 10
• (더 크게 할 시 Out of Memory 문제 발생)
• HyperParameter :
• learning_rate, beta, momentum 등등 : 논문과 동일 (lr : 0.001, m : 0.9,)
• Network:
• Global/Local PiCANet : 논문과 동일하게 구현
• Decoder Cell 中 Convolution layer :
• Kernel Size와 관련하여 논문에 적힌 내용이 없어 임의로 구현
• Optimize:
• Gradient가 튀는 현상을 막고자 Gradient Clipping 적용함.
25.
26. Result
• Training Loss
• PR_Curve
• F_Measure Score (beta_square = 0.3)
• MAE Score
• Attention Map Viewing Application
37. Attention Map 결과 해석
• 이미지마다 다른 Attention Map이 생성됨
• 각 픽셀마다 다른 Attention Map이 생성됨
• Attention Map이 불균일하므로, Pixel간의 위치가 갖는
Contextual 정보가 있음을 알 수 있다.
38. 현재 한계점
1. Network를 학습 or 검증할 때의 GPU 사용률이 현저히 낮다.
2. 논문에서 BatchSize 10으로 학습을 했다고 하는데, BatchSize를 1 이상으
로 학습시킬 수 없다.
3. Attention Map이 구체적으로 어떤 의미를 갖는지 파악하기 힘들다.
(Saliency Detection 문제 및 이미지 처리에 어떤 도움을 주는지 확인이 어려움)
4. DUTS Dataset 에서만 모델을 검증해 보았다.
39. 향후 보완점
1. Network를 학습 or 검증할 때의 GPU 사용률이 현저히 낮다.
1. Pytorch 불안정성으로 인한 문제일 가능성 있음.
2. Tensorboard로 구현해 본다.
2. 논문에서 BatchSize 10으로 학습을 했다고 하는데, BatchSize를 1 이상으
로 학습시킬 수 없다.
1. 1. 과 같은 문제일 가능성
40. 향후 보완점
3. Attention Map이 구체적으로 어떤 의미를 갖는지 파악하기 힘들다.
(Saliency Detection 문제 및 이미지 처리에 어떤 도움을 주는지 확인이 어려움)
1. PiCANet을 활용하여 Classification, Semantic Detection과 같은 다른 문제들을 해
결해 본다.
2. PiCANet을 이용하는 AutoEncoder를 설계하여 Context 정보로 기존 정보를 복원할
수 있는지 검증해본다.
4. DUTS Dataset 에서만 모델을 검증해 보았다.
1. 다른 Dataset에서도 검증해본다.