SlideShare a Scribd company logo
Image Captioning with
Semantic Attention
연세대학교 영상 및 비디오 패턴 인식 연구실
이형민
2018.1.16
Image Captioning???
I know…
Too easy..
Image Captioning
Top – Down Approach Bottom – Up Approach
Top – Down Approach
Bottom – Up Approach
“A man riding a motorcycle on
the desert”
man
motorcycle
desert
Top – Down Approach
Bottom – Up Approach
 End-to-End 구현이 가능하다.
 Recurrent Neural Network를 이용하기 때문에 성능이 좋다.
 이미지의 디테일한 부분을 놓치지 않을 수 있다.
Top – Down Approach
Bottom – Up Approach
Attention Model
Overall Framework
 이미지의 전체적인 Feature  사람도 세세한 부분보다 그림의 전반적인 부분을 먼저 관
찰한다.
 Pre-Trained 된 CNN의 Feature를 사용한다.
 t=0에서만 input으로 들어가고, 그 이후로는 들어가지 않는다.
[Google Net]
 이미지로부터 Bottom-Up 방식을 통해 얻어진 특징(Attribute)
들의 집합
 각 특징들에 대해서는 이에 해당하는 단어가 존재하게 된다.
 즉, Attribute는 모든 단어들의 집합인 (dictionary)의 한 원소
와 대응된다.
 Attribute를 어떻게 뽑아내는 지는 뒤에서 설명
 Input:
 Output: (Softmax 확률 벡터)  t번째 단어인 추측
 t=0: 를 input으로 받아서 전체적인 특징을 얻는다
 t>0: 이전 단어 를 통해 현재 하고 있는 말의 맥락을 파악
를 통해 이미지의 세세한 부분들의 특징을 파악
 는 모든 t에 대해 똑같이 입력되는 것이 아니라, Attention
Model에 의해 매번 다른 방식으로 입력된다.
 는 Attention Model(뒤에서 설명)
Input Attention Model
Output Attention Model
Input Attention Model
Input Attention Model
Output Attention Model
{𝑨𝒊}
𝑨 𝟏
𝑨 𝟐
𝑨 𝟑
𝑨 𝟒
𝑨 𝟓
𝑨 𝟔
× 𝜶 𝟐
× 𝜶 𝟏
× 𝜶 𝟑
× 𝜶 𝟒
× 𝜶 𝟓
× 𝜶 𝟔
Attention Weights
t=0: No Input Attention Model
One Hot Vector
대응하는 단어  One Hot Vector
To be trained
= 이 세상의 모든 단어의 개수  너무 많다ㅠ
<Word2Vec Algorithm>
• One-Hot Vector는 모든 벡터가 서로 독립이 되도록 가능한 한 큰 차원을 사용
• But, 실제 단어들은 서로 독립이 아니다  단어들 간의 연관성을 이용하여 차원을 줄일 수 있다.
• 연구실 세미나 페이지의 NLP for Computer Vision 참조
• Word2Vec 변환 행렬 를 얻을 수 있고, 식은 다음과 같이 수정된다.
To be trained
 Attribute의 Weighted Sum과 Word Vector는 서로 다른 domain이기 때문에 를 곱해 준다.
 마찬가지로, 계산 결과와 는 서로 dimension이 다른 domain이기 때문에 를 곱해 준다.
Output Attention Model
To be trained
 Attribute Vector에 Sigmoid를 해주는 이유는 도 Sigmoid를 거친 결과이기 때문
Vec2Word
Model Learning
Parameters to be trained
Loss Function
Regularization Factor
 특정 Attribute에 Attention이 집중되는 현상을 막기 위해 Regularization 이용
How do we get Attribute??
Non-Parametric Method(KNN)
1. Caption이 이미 존재하는 Large-Scale Dataset 확보
2. GoogleNet Feature를 이용하여 Input 이미지와 Large-Scale Data들 간의 거리를 구한다.
3. 거리가 가장 가까운 K개의 이미지들을 뽑는다.
4. 위의 K개의 이미지들의 캡션에서 가장 많이 등장하는 단어 N개를 뽑는다.
5. 이 N개의 단어들을 Attribute로 활용한다.
Non-Parametric Method(Classification)
1. Train Data에 가장 많이 등장하는 K개의 단어들을 골라서 K개의 Class를 형성한다.
2. 위의 K개의 단어 중 N개를 뽑는다.(2 가지 방법 존재)
① Multi-Label Classifier를 이용하여 K개의 class 중 한 개가 아닌 N 개의 class를 한 번에 뽑는다.
② FCN(Fully Convolutional Network)을 이용하여 각 Patch마다 K-Class Classification을 진행한다.
3. 이렇게 얻은 N개의 단어를 Attribute로 이용한다.
Thank You!!
More Information: https://hyeongminlee.github.io/post/pr002_image_captioning/

More Related Content

What's hot

InfoGAN Paper Review
InfoGAN Paper ReviewInfoGAN Paper Review
InfoGAN Paper Review
태엽 김
 
A Beginner's guide to understanding Autoencoder
A Beginner's guide to understanding AutoencoderA Beginner's guide to understanding Autoencoder
A Beginner's guide to understanding Autoencoder
Lee Seungeun
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
deepseaswjh
 
딥러닝 논문읽기 efficient netv2 논문리뷰
딥러닝 논문읽기 efficient netv2  논문리뷰딥러닝 논문읽기 efficient netv2  논문리뷰
딥러닝 논문읽기 efficient netv2 논문리뷰
taeseon ryu
 
Deep Learning Into Advance - 1. Image, ConvNet
Deep Learning Into Advance - 1. Image, ConvNetDeep Learning Into Advance - 1. Image, ConvNet
Deep Learning Into Advance - 1. Image, ConvNet
Hyojun Kim
 
Convolutional Neural Networks
Convolutional Neural NetworksConvolutional Neural Networks
Convolutional Neural Networks
Sanghoon Yoon
 
밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장
Sunggon Song
 
딥러닝의 기본
딥러닝의 기본딥러닝의 기본
딥러닝의 기본
deepseaswjh
 
03.12 cnn backpropagation
03.12 cnn backpropagation03.12 cnn backpropagation
03.12 cnn backpropagation
Dea-hwan Ki
 
인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명
Woonghee Lee
 
연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning
hkh
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해
Hee Won Park
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝
찬웅 주
 
스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝
NAVER Engineering
 
Encoding in Style: a Style Encoder for Image-to-Image Translation
Encoding in Style: a Style Encoder for Image-to-Image TranslationEncoding in Style: a Style Encoder for Image-to-Image Translation
Encoding in Style: a Style Encoder for Image-to-Image Translation
taeseon ryu
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Haezoom Inc.
 
Paper Reading : Learning from simulated and unsupervised images through adver...
Paper Reading : Learning from simulated and unsupervised images through adver...Paper Reading : Learning from simulated and unsupervised images through adver...
Paper Reading : Learning from simulated and unsupervised images through adver...
정훈 서
 
Designing more efficient convolution neural network
Designing more efficient convolution neural networkDesigning more efficient convolution neural network
Designing more efficient convolution neural network
Dongyi Kim
 
I3D and Kinetics datasets (Action Recognition)
I3D and Kinetics datasets (Action Recognition)I3D and Kinetics datasets (Action Recognition)
I3D and Kinetics datasets (Action Recognition)
Susang Kim
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder
홍배 김
 

What's hot (20)

InfoGAN Paper Review
InfoGAN Paper ReviewInfoGAN Paper Review
InfoGAN Paper Review
 
A Beginner's guide to understanding Autoencoder
A Beginner's guide to understanding AutoencoderA Beginner's guide to understanding Autoencoder
A Beginner's guide to understanding Autoencoder
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
 
딥러닝 논문읽기 efficient netv2 논문리뷰
딥러닝 논문읽기 efficient netv2  논문리뷰딥러닝 논문읽기 efficient netv2  논문리뷰
딥러닝 논문읽기 efficient netv2 논문리뷰
 
Deep Learning Into Advance - 1. Image, ConvNet
Deep Learning Into Advance - 1. Image, ConvNetDeep Learning Into Advance - 1. Image, ConvNet
Deep Learning Into Advance - 1. Image, ConvNet
 
Convolutional Neural Networks
Convolutional Neural NetworksConvolutional Neural Networks
Convolutional Neural Networks
 
밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장
 
딥러닝의 기본
딥러닝의 기본딥러닝의 기본
딥러닝의 기본
 
03.12 cnn backpropagation
03.12 cnn backpropagation03.12 cnn backpropagation
03.12 cnn backpropagation
 
인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명
 
연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝
 
스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝
 
Encoding in Style: a Style Encoder for Image-to-Image Translation
Encoding in Style: a Style Encoder for Image-to-Image TranslationEncoding in Style: a Style Encoder for Image-to-Image Translation
Encoding in Style: a Style Encoder for Image-to-Image Translation
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
 
Paper Reading : Learning from simulated and unsupervised images through adver...
Paper Reading : Learning from simulated and unsupervised images through adver...Paper Reading : Learning from simulated and unsupervised images through adver...
Paper Reading : Learning from simulated and unsupervised images through adver...
 
Designing more efficient convolution neural network
Designing more efficient convolution neural networkDesigning more efficient convolution neural network
Designing more efficient convolution neural network
 
I3D and Kinetics datasets (Action Recognition)
I3D and Kinetics datasets (Action Recognition)I3D and Kinetics datasets (Action Recognition)
I3D and Kinetics datasets (Action Recognition)
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder
 

Similar to [Paper Review] Image captioning with semantic attention

Deep learning overview
Deep learning overviewDeep learning overview
Deep learning overview
강민국 강민국
 
2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative model2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative model
strutive07
 
History of Vision AI
History of Vision AIHistory of Vision AI
History of Vision AI
Tae Young Lee
 
Automl
AutomlAutoml
Automl
승우 이
 
AUTOML
AUTOMLAUTOML
AUTOML
승우 이
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
SK(주) C&C - 강병호
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투
Ubuntu Korea Community
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usage
Tae Young Lee
 
Face recognition
Face recognitionFace recognition
Face recognition
soul8085
 
July report in korean
July report in koreanJuly report in korean
July report in koreannao takatoshi
 
Image classification
Image classificationImage classification
Image classification
종현 김
 
KGC2010 김주복, 김충효 - M2 프로젝트의 절차적 리깅 시스템
KGC2010   김주복, 김충효 - M2 프로젝트의 절차적 리깅 시스템KGC2010   김주복, 김충효 - M2 프로젝트의 절차적 리깅 시스템
KGC2010 김주복, 김충효 - M2 프로젝트의 절차적 리깅 시스템Jubok Kim
 
Bidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehensionBidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehension
Woodam Lim
 
VLFeat SIFT MATLAB application 테크니컬 리포트
VLFeat SIFT MATLAB application 테크니컬 리포트VLFeat SIFT MATLAB application 테크니컬 리포트
VLFeat SIFT MATLAB application 테크니컬 리포트
Hyunwoong_Jang
 
Cnn project
Cnn projectCnn project
Cnn project
ssuserc610a9
 
NDC2011 - 카메라 시스템을 통해 살펴보는 인터랙티브 시스템 개발의 문제점
NDC2011 - 카메라 시스템을 통해 살펴보는 인터랙티브 시스템 개발의 문제점NDC2011 - 카메라 시스템을 통해 살펴보는 인터랙티브 시스템 개발의 문제점
NDC2011 - 카메라 시스템을 통해 살펴보는 인터랙티브 시스템 개발의 문제점Jubok Kim
 
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
gohyunwoong
 
딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기
Myeongju Kim
 
Mt
MtMt
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
Taekyung Han
 

Similar to [Paper Review] Image captioning with semantic attention (20)

Deep learning overview
Deep learning overviewDeep learning overview
Deep learning overview
 
2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative model2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative model
 
History of Vision AI
History of Vision AIHistory of Vision AI
History of Vision AI
 
Automl
AutomlAutoml
Automl
 
AUTOML
AUTOMLAUTOML
AUTOML
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usage
 
Face recognition
Face recognitionFace recognition
Face recognition
 
July report in korean
July report in koreanJuly report in korean
July report in korean
 
Image classification
Image classificationImage classification
Image classification
 
KGC2010 김주복, 김충효 - M2 프로젝트의 절차적 리깅 시스템
KGC2010   김주복, 김충효 - M2 프로젝트의 절차적 리깅 시스템KGC2010   김주복, 김충효 - M2 프로젝트의 절차적 리깅 시스템
KGC2010 김주복, 김충효 - M2 프로젝트의 절차적 리깅 시스템
 
Bidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehensionBidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehension
 
VLFeat SIFT MATLAB application 테크니컬 리포트
VLFeat SIFT MATLAB application 테크니컬 리포트VLFeat SIFT MATLAB application 테크니컬 리포트
VLFeat SIFT MATLAB application 테크니컬 리포트
 
Cnn project
Cnn projectCnn project
Cnn project
 
NDC2011 - 카메라 시스템을 통해 살펴보는 인터랙티브 시스템 개발의 문제점
NDC2011 - 카메라 시스템을 통해 살펴보는 인터랙티브 시스템 개발의 문제점NDC2011 - 카메라 시스템을 통해 살펴보는 인터랙티브 시스템 개발의 문제점
NDC2011 - 카메라 시스템을 통해 살펴보는 인터랙티브 시스템 개발의 문제점
 
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
 
딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기
 
Mt
MtMt
Mt
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
 

More from Hyeongmin Lee

PR-455: CoTracker: It is Better to Track Together
PR-455: CoTracker: It is Better to Track TogetherPR-455: CoTracker: It is Better to Track Together
PR-455: CoTracker: It is Better to Track Together
Hyeongmin Lee
 
PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...
PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...
PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...
Hyeongmin Lee
 
PR-420: Scalable Model Compression by Entropy Penalized Reparameterization
PR-420: Scalable Model Compression by Entropy Penalized ReparameterizationPR-420: Scalable Model Compression by Entropy Penalized Reparameterization
PR-420: Scalable Model Compression by Entropy Penalized Reparameterization
Hyeongmin Lee
 
PR-409: Denoising Diffusion Probabilistic Models
PR-409: Denoising Diffusion Probabilistic ModelsPR-409: Denoising Diffusion Probabilistic Models
PR-409: Denoising Diffusion Probabilistic Models
Hyeongmin Lee
 
PR-395: Variational Image Compression with a Scale Hyperprior
PR-395: Variational Image Compression with a Scale HyperpriorPR-395: Variational Image Compression with a Scale Hyperprior
PR-395: Variational Image Compression with a Scale Hyperprior
Hyeongmin Lee
 
PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...
PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...
PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...
Hyeongmin Lee
 
PR-376: Softmax Splatting for Video Frame Interpolation
PR-376: Softmax Splatting for Video Frame InterpolationPR-376: Softmax Splatting for Video Frame Interpolation
PR-376: Softmax Splatting for Video Frame Interpolation
Hyeongmin Lee
 
PR-365: Fast object detection in compressed video
PR-365: Fast object detection in compressed videoPR-365: Fast object detection in compressed video
PR-365: Fast object detection in compressed video
Hyeongmin Lee
 
PR-340: DVC: An End-to-end Deep Video Compression Framework
PR-340: DVC: An End-to-end Deep Video Compression FrameworkPR-340: DVC: An End-to-end Deep Video Compression Framework
PR-340: DVC: An End-to-end Deep Video Compression Framework
Hyeongmin Lee
 
PR-328: End-to-End Optimized Image Compression
PR-328: End-to-End OptimizedImage CompressionPR-328: End-to-End OptimizedImage Compression
PR-328: End-to-End Optimized Image Compression
Hyeongmin Lee
 
PR-315: Taming Transformers for High-Resolution Image Synthesis
PR-315: Taming Transformers for High-Resolution Image SynthesisPR-315: Taming Transformers for High-Resolution Image Synthesis
PR-315: Taming Transformers for High-Resolution Image Synthesis
Hyeongmin Lee
 
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisPR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Hyeongmin Lee
 
PR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
PR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical FlowPR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
PR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
Hyeongmin Lee
 
Pr266
Pr266Pr266
PR-252: Making Convolutional Networks Shift-Invariant Again
PR-252: Making Convolutional Networks Shift-Invariant AgainPR-252: Making Convolutional Networks Shift-Invariant Again
PR-252: Making Convolutional Networks Shift-Invariant Again
Hyeongmin Lee
 
PR-240: Modulating Image Restoration with Continual Levels via Adaptive Featu...
PR-240: Modulating Image Restoration with Continual Levels viaAdaptive Featu...PR-240: Modulating Image Restoration with Continual Levels viaAdaptive Featu...
PR-240: Modulating Image Restoration with Continual Levels via Adaptive Featu...
Hyeongmin Lee
 
PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...
PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...
PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...
Hyeongmin Lee
 
PR-214: FlowNet: Learning Optical Flow with Convolutional Networks
PR-214: FlowNet: Learning Optical Flow with Convolutional NetworksPR-214: FlowNet: Learning Optical Flow with Convolutional Networks
PR-214: FlowNet: Learning Optical Flow with Convolutional Networks
Hyeongmin Lee
 
[PR12] Making Convolutional Networks Shift-Invariant Again
[PR12] Making Convolutional Networks Shift-Invariant Again[PR12] Making Convolutional Networks Shift-Invariant Again
[PR12] Making Convolutional Networks Shift-Invariant Again
Hyeongmin Lee
 
Latest Frame interpolation Algorithms
Latest Frame interpolation AlgorithmsLatest Frame interpolation Algorithms
Latest Frame interpolation Algorithms
Hyeongmin Lee
 

More from Hyeongmin Lee (20)

PR-455: CoTracker: It is Better to Track Together
PR-455: CoTracker: It is Better to Track TogetherPR-455: CoTracker: It is Better to Track Together
PR-455: CoTracker: It is Better to Track Together
 
PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...
PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...
PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...
 
PR-420: Scalable Model Compression by Entropy Penalized Reparameterization
PR-420: Scalable Model Compression by Entropy Penalized ReparameterizationPR-420: Scalable Model Compression by Entropy Penalized Reparameterization
PR-420: Scalable Model Compression by Entropy Penalized Reparameterization
 
PR-409: Denoising Diffusion Probabilistic Models
PR-409: Denoising Diffusion Probabilistic ModelsPR-409: Denoising Diffusion Probabilistic Models
PR-409: Denoising Diffusion Probabilistic Models
 
PR-395: Variational Image Compression with a Scale Hyperprior
PR-395: Variational Image Compression with a Scale HyperpriorPR-395: Variational Image Compression with a Scale Hyperprior
PR-395: Variational Image Compression with a Scale Hyperprior
 
PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...
PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...
PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...
 
PR-376: Softmax Splatting for Video Frame Interpolation
PR-376: Softmax Splatting for Video Frame InterpolationPR-376: Softmax Splatting for Video Frame Interpolation
PR-376: Softmax Splatting for Video Frame Interpolation
 
PR-365: Fast object detection in compressed video
PR-365: Fast object detection in compressed videoPR-365: Fast object detection in compressed video
PR-365: Fast object detection in compressed video
 
PR-340: DVC: An End-to-end Deep Video Compression Framework
PR-340: DVC: An End-to-end Deep Video Compression FrameworkPR-340: DVC: An End-to-end Deep Video Compression Framework
PR-340: DVC: An End-to-end Deep Video Compression Framework
 
PR-328: End-to-End Optimized Image Compression
PR-328: End-to-End OptimizedImage CompressionPR-328: End-to-End OptimizedImage Compression
PR-328: End-to-End Optimized Image Compression
 
PR-315: Taming Transformers for High-Resolution Image Synthesis
PR-315: Taming Transformers for High-Resolution Image SynthesisPR-315: Taming Transformers for High-Resolution Image Synthesis
PR-315: Taming Transformers for High-Resolution Image Synthesis
 
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisPR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
PR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
PR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical FlowPR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
PR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
 
Pr266
Pr266Pr266
Pr266
 
PR-252: Making Convolutional Networks Shift-Invariant Again
PR-252: Making Convolutional Networks Shift-Invariant AgainPR-252: Making Convolutional Networks Shift-Invariant Again
PR-252: Making Convolutional Networks Shift-Invariant Again
 
PR-240: Modulating Image Restoration with Continual Levels via Adaptive Featu...
PR-240: Modulating Image Restoration with Continual Levels viaAdaptive Featu...PR-240: Modulating Image Restoration with Continual Levels viaAdaptive Featu...
PR-240: Modulating Image Restoration with Continual Levels via Adaptive Featu...
 
PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...
PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...
PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...
 
PR-214: FlowNet: Learning Optical Flow with Convolutional Networks
PR-214: FlowNet: Learning Optical Flow with Convolutional NetworksPR-214: FlowNet: Learning Optical Flow with Convolutional Networks
PR-214: FlowNet: Learning Optical Flow with Convolutional Networks
 
[PR12] Making Convolutional Networks Shift-Invariant Again
[PR12] Making Convolutional Networks Shift-Invariant Again[PR12] Making Convolutional Networks Shift-Invariant Again
[PR12] Making Convolutional Networks Shift-Invariant Again
 
Latest Frame interpolation Algorithms
Latest Frame interpolation AlgorithmsLatest Frame interpolation Algorithms
Latest Frame interpolation Algorithms
 

[Paper Review] Image captioning with semantic attention

  • 1. Image Captioning with Semantic Attention 연세대학교 영상 및 비디오 패턴 인식 연구실 이형민 2018.1.16
  • 2.
  • 4.
  • 5. Image Captioning Top – Down Approach Bottom – Up Approach
  • 6. Top – Down Approach Bottom – Up Approach “A man riding a motorcycle on the desert” man motorcycle desert
  • 7. Top – Down Approach Bottom – Up Approach  End-to-End 구현이 가능하다.  Recurrent Neural Network를 이용하기 때문에 성능이 좋다.  이미지의 디테일한 부분을 놓치지 않을 수 있다.
  • 8. Top – Down Approach Bottom – Up Approach Attention Model
  • 10.
  • 11.
  • 12.  이미지의 전체적인 Feature  사람도 세세한 부분보다 그림의 전반적인 부분을 먼저 관 찰한다.  Pre-Trained 된 CNN의 Feature를 사용한다.  t=0에서만 input으로 들어가고, 그 이후로는 들어가지 않는다.
  • 14.
  • 15.
  • 16.  이미지로부터 Bottom-Up 방식을 통해 얻어진 특징(Attribute) 들의 집합  각 특징들에 대해서는 이에 해당하는 단어가 존재하게 된다.  즉, Attribute는 모든 단어들의 집합인 (dictionary)의 한 원소 와 대응된다.  Attribute를 어떻게 뽑아내는 지는 뒤에서 설명
  • 17.
  • 18.
  • 19.  Input:  Output: (Softmax 확률 벡터)  t번째 단어인 추측  t=0: 를 input으로 받아서 전체적인 특징을 얻는다  t>0: 이전 단어 를 통해 현재 하고 있는 말의 맥락을 파악 를 통해 이미지의 세세한 부분들의 특징을 파악  는 모든 t에 대해 똑같이 입력되는 것이 아니라, Attention Model에 의해 매번 다른 방식으로 입력된다.  는 Attention Model(뒤에서 설명)
  • 20. Input Attention Model Output Attention Model
  • 22. Input Attention Model Output Attention Model
  • 23. {𝑨𝒊} 𝑨 𝟏 𝑨 𝟐 𝑨 𝟑 𝑨 𝟒 𝑨 𝟓 𝑨 𝟔 × 𝜶 𝟐 × 𝜶 𝟏 × 𝜶 𝟑 × 𝜶 𝟒 × 𝜶 𝟓 × 𝜶 𝟔 Attention Weights
  • 24. t=0: No Input Attention Model One Hot Vector 대응하는 단어  One Hot Vector To be trained
  • 25. = 이 세상의 모든 단어의 개수  너무 많다ㅠ <Word2Vec Algorithm> • One-Hot Vector는 모든 벡터가 서로 독립이 되도록 가능한 한 큰 차원을 사용 • But, 실제 단어들은 서로 독립이 아니다  단어들 간의 연관성을 이용하여 차원을 줄일 수 있다. • 연구실 세미나 페이지의 NLP for Computer Vision 참조 • Word2Vec 변환 행렬 를 얻을 수 있고, 식은 다음과 같이 수정된다. To be trained
  • 26.  Attribute의 Weighted Sum과 Word Vector는 서로 다른 domain이기 때문에 를 곱해 준다.  마찬가지로, 계산 결과와 는 서로 dimension이 다른 domain이기 때문에 를 곱해 준다.
  • 28. To be trained  Attribute Vector에 Sigmoid를 해주는 이유는 도 Sigmoid를 거친 결과이기 때문 Vec2Word
  • 30. Parameters to be trained Loss Function Regularization Factor  특정 Attribute에 Attention이 집중되는 현상을 막기 위해 Regularization 이용
  • 31. How do we get Attribute??
  • 32. Non-Parametric Method(KNN) 1. Caption이 이미 존재하는 Large-Scale Dataset 확보 2. GoogleNet Feature를 이용하여 Input 이미지와 Large-Scale Data들 간의 거리를 구한다. 3. 거리가 가장 가까운 K개의 이미지들을 뽑는다. 4. 위의 K개의 이미지들의 캡션에서 가장 많이 등장하는 단어 N개를 뽑는다. 5. 이 N개의 단어들을 Attribute로 활용한다.
  • 33. Non-Parametric Method(Classification) 1. Train Data에 가장 많이 등장하는 K개의 단어들을 골라서 K개의 Class를 형성한다. 2. 위의 K개의 단어 중 N개를 뽑는다.(2 가지 방법 존재) ① Multi-Label Classifier를 이용하여 K개의 class 중 한 개가 아닌 N 개의 class를 한 번에 뽑는다. ② FCN(Fully Convolutional Network)을 이용하여 각 Patch마다 K-Class Classification을 진행한다. 3. 이렇게 얻은 N개의 단어를 Attribute로 이용한다.
  • 34.
  • 35. Thank You!! More Information: https://hyeongminlee.github.io/post/pr002_image_captioning/