[Paper Review] Image captioning with semantic attention

Image Captioning with
Semantic Attention
연세대학교 영상 및 비디오 패턴 인식 연구실
이형민
2018.1.16

Image Captioning???
I know…
Too easy..

Image Captioning
Top – Down Approach Bottom – Up Approach

Top – Down Approach
Bottom – Up Approach
“A man riding a motorcycle on
the desert”
man
motorcycle
desert

 End-to-End 구현이 가능하다.
 Recurrent Neural Network를 이용하기 때문에 성능이 좋다.
 이미지의 디테일한 부분을 놓치지 않을 수 있다.

Attention Model

 이미지의 전체적인 Feature  사람도 세세한 부분보다 그림의 전반적인 부분을 먼저 관
찰한다.
 Pre-Trained 된 CNN의 Feature를 사용한다.
 t=0에서만 input으로 들어가고, 그 이후로는 들어가지 않는다.

 이미지로부터 Bottom-Up 방식을 통해 얻어진 특징(Attribute)
들의 집합
 각 특징들에 대해서는 이에 해당하는 단어가 존재하게 된다.
 즉, Attribute는 모든 단어들의 집합인 (dictionary)의 한 원소
와 대응된다.
 Attribute를 어떻게 뽑아내는 지는 뒤에서 설명

 Input:
 Output: (Softmax 확률 벡터)  t번째 단어인 추측
 t=0: 를 input으로 받아서 전체적인 특징을 얻는다
 t>0: 이전 단어 를 통해 현재 하고 있는 말의 맥락을 파악
를 통해 이미지의 세세한 부분들의 특징을 파악
 는 모든 t에 대해 똑같이 입력되는 것이 아니라, Attention
Model에 의해 매번 다른 방식으로 입력된다.
 는 Attention Model(뒤에서 설명)

Input Attention Model
Output Attention Model

{𝑨𝒊}
𝑨 𝟏
𝑨 𝟐
𝑨 𝟑
𝑨 𝟒
𝑨 𝟓
𝑨 𝟔
× 𝜶 𝟐
× 𝜶 𝟏
× 𝜶 𝟑
× 𝜶 𝟒
× 𝜶 𝟓
× 𝜶 𝟔
Attention Weights

t=0: No Input Attention Model
One Hot Vector
대응하는 단어  One Hot Vector
To be trained

= 이 세상의 모든 단어의 개수  너무 많다ㅠ
<Word2Vec Algorithm>
• One-Hot Vector는 모든 벡터가 서로 독립이 되도록 가능한 한 큰 차원을 사용
• But, 실제 단어들은 서로 독립이 아니다  단어들 간의 연관성을 이용하여 차원을 줄일 수 있다.
• 연구실 세미나 페이지의 NLP for Computer Vision 참조
• Word2Vec 변환 행렬 를 얻을 수 있고, 식은 다음과 같이 수정된다.
To be trained

 Attribute의 Weighted Sum과 Word Vector는 서로 다른 domain이기 때문에 를 곱해 준다.
 마찬가지로, 계산 결과와 는 서로 dimension이 다른 domain이기 때문에 를 곱해 준다.

To be trained
 Attribute Vector에 Sigmoid를 해주는 이유는 도 Sigmoid를 거친 결과이기 때문
Vec2Word

Parameters to be trained
Loss Function
Regularization Factor
 특정 Attribute에 Attention이 집중되는 현상을 막기 위해 Regularization 이용

Non-Parametric Method(KNN)
1. Caption이 이미 존재하는 Large-Scale Dataset 확보
2. GoogleNet Feature를 이용하여 Input 이미지와 Large-Scale Data들 간의 거리를 구한다.
3. 거리가 가장 가까운 K개의 이미지들을 뽑는다.
4. 위의 K개의 이미지들의 캡션에서 가장 많이 등장하는 단어 N개를 뽑는다.
5. 이 N개의 단어들을 Attribute로 활용한다.

Non-Parametric Method(Classification)
1. Train Data에 가장 많이 등장하는 K개의 단어들을 골라서 K개의 Class를 형성한다.
2. 위의 K개의 단어 중 N개를 뽑는다.(2 가지 방법 존재)
① Multi-Label Classifier를 이용하여 K개의 class 중 한 개가 아닌 N 개의 class를 한 번에 뽑는다.
② FCN(Fully Convolutional Network)을 이용하여 각 Patch마다 K-Class Classification을 진행한다.
3. 이렇게 얻은 N개의 단어를 Attribute로 이용한다.

Thank You!!
More Information: https://hyeongminlee.github.io/post/pr002_image_captioning/

[Paper Review] Image captioning with semantic attention

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [Paper Review] Image captioning with semantic attention

Similar to [Paper Review] Image captioning with semantic attention (20)

More from Hyeongmin Lee

More from Hyeongmin Lee (20)

[Paper Review] Image captioning with semantic attention