(Paper Review)Few-Shot Adversarial Learning of Realistic Neural Talking Head Models
1. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (1/29) Presented by CGLAB 이명규
2019/08/23
Few-Shot Adversarial Learning of
Realistic Neural Talking Head Models
2. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (2/29)
I N D E X
01
02
03
Introduction
Proposed Method
Conclusion
3. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (3/29)
Introduction
Part 01
1. 논문소개
2. 관련 연구 요약
3. Meta Learning
4. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (4/29)
↳
논문소개1-1
• 발표 : arXiv (Submitted on 20 May 2019)
• 저자 : Egor Zakharov et al. (Samsung AI Center, Moscow)
• 타겟 이미지의 랜드마크 정보로 소스 이미지의 talking head를 실시간으로
생성함으로서 소스 이미지의 사람이 말하는 것처럼 보이게 하는 연구
저널정보 및 논문소개
5. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (5/29)
↳
관련 연구 요약1-2
• 사람 머리 모델링은 외곽뿐만 아니라 머리카락, 입 등을 모두 모델링해야 하므로
매우 어려운 작업
• 또한 언캐니 밸리 효과를 피하기 위해 높은 리얼리티가 요구됨
Modeling Human Face
6. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (6/29)
↳
관련 연구 요약1-2
Previous Works
Face2Face (Justus Thies et al., CVPR2016)
7. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (7/29)
↳
관련 연구 요약1-2
Previous Works
Video-to-Video Synthesis
(Wang et al., CVPR2017)
ObamaNet
(Supasorn Suwajanakorn et al.,
SIGGRAPH2017)
“17H of Obama voice data!”
8. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (8/29)
↳
Meta Learning1-3
Overview of Meta-Learning
Wikipedia, https://www.youtube.com/watch?v=EkAqYbpCYAc
Meta is a prefix used in English to indicate a
concept that is an abstraction behind another
concept, used to complete or add to the latter.
메타는 영어의 접두사로, 다른 개념으로부터의
추상화를 가리키며 후자를 완성하거나 추가하는 데에
쓰인다. 인식론에서 접두사 meta는 "~에 대해서"라는
뜻으로 쓰인다. 이를테면 메타데이터는 데이터에 대한
데이터이다.
9. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (9/29)
↳
Overview of Meta-Learning
https://www.dreamworks.com/ , https://if-blog.tistory.com/8342
*Meta Learning :
“Learning
how to learn”
?
Meta Learning1-3
+
Meta Learner
(Task1)
Meta Learner
(Task2)
Base Learner
(Future Task)
← …
10. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (10/29)
↳
Overview of Meta-Learning
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks (https://arxiv.org/abs/1703.03400)
Meta-Learning with adaptation is better than Pretrain+finetuning the network
Meta Learning1-3
11. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (11/29)
Proposed Method
Part 02
1. Architecture Overview
2. Meta-Learning Stage
3. Few-Shot Learning
4. Implementation Details
12. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (12/29)
↳
Architecture Overview2-1
Model & Notations
https://www.slideshare.net/TaesuKim3/pr12165-fewshot-adversarial-learning-of-realistic-neural-talking-head-models
Input as
Conditional Vector
𝒕𝒕 : Frame Index,
𝒊𝒊 : Video Index
Projection
Matrix
Parameter of G
Parameter of
Embedder
Parameter of D
• 𝒙𝒙𝒊𝒊 : 𝒊𝒊번째 비디오
• 𝒙𝒙𝒊𝒊(𝒕𝒕) : 𝒊𝒊번째 비디오의 𝒕𝒕번째 프레임
• 𝒚𝒚𝒊𝒊(𝒕𝒕) : 𝒙𝒙𝒊𝒊(𝒕𝒕)로부터 추출한 얼굴 랜드마크 이미지
13. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (13/29)
↳
Architecture Overview2-1
Model - 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬
• 비디오 프레임 𝒙𝒙𝒊𝒊(𝒔𝒔)와 얼굴 랜드마크 이미지 𝒚𝒚𝒊𝒊(𝒔𝒔)를 N차원 벡터 �𝒆𝒆𝒊𝒊(𝒔𝒔)로 임베딩
• 𝝓𝝓 : 메타 러닝 단계에서의 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬 파라미터
• Frame들의 평균을 내므로 샷들을 대표하는 vector representation을 학습하게 됨
• 얼굴 포즈에 따른 프레임들의 비디오 정보(person’s identity)를 학습
𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬 𝑬𝑬(𝒙𝒙𝒊𝒊 𝒔𝒔 , 𝒚𝒚𝒊𝒊 𝒔𝒔 ; 𝝓𝝓)
https://taecheon.blogspot.com/2019/07/001-few-shot-adversarial-learning-of.html
Multiple FCNs
14. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (14/29)
↳
Architecture Overview2-1
Model – 𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮
• 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬가 보지 못한 랜드마크 𝒚𝒚𝒊𝒊 𝒕𝒕 와 임베딩된 벡터 �𝒆𝒆𝒊𝒊를 받아 �𝒙𝒙𝒊𝒊(𝒕𝒕)프레임을 생성
• 생성된 이미지와 정답의 Similarity가 최대이도록 학습
• 메타러닝 단계에서 𝝍𝝍는 직접 학습되고, �𝝍𝝍𝒊𝒊는 프로젝션 행렬 𝑃𝑃와 �𝒆𝒆𝒊𝒊로부터 계산됨(�𝝍𝝍𝒊𝒊 = 𝑷𝑷�𝒆𝒆𝒊𝒊)
• 𝝍𝝍 : Person-Generic Parameter (global)
• �𝝍𝝍𝒊𝒊 : Person-Specific Parameter
𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮 𝑮𝑮(𝒚𝒚𝒊𝒊 𝒕𝒕 , �𝒆𝒆𝒊𝒊; 𝝍𝝍, 𝑷𝑷)
https://taecheon.blogspot.com/2019/07/001-few-shot-adversarial-learning-of.html
15. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (15/29)
↳
Architecture Overview2-1
Model – 𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫
• 정답 비디오 프레임 𝒙𝒙𝒊𝒊 𝒕𝒕 와 이에 대한 랜드마크 이미지 𝒚𝒚𝒊𝒊 𝒕𝒕 , 비디오 인덱스 𝑖𝑖를 입력으로 받음
• 입력 프레임과 랜드마크 이미지를 임베딩하는 𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪 𝑽𝑽(𝒙𝒙𝒊𝒊 𝒕𝒕 , 𝒚𝒚𝒊𝒊 𝒕𝒕 ; 𝜽𝜽)를 포함
• 최종적으로 D는 ①입력 프레임이 실제 이미지인지, ②랜드마크에 부합하는지를 스코어 𝑟𝑟로 출력
𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫 𝑫𝑫(𝒙𝒙𝒊𝒊 𝒕𝒕 , 𝒚𝒚𝒊𝒊 𝒕𝒕 , 𝒊𝒊; 𝜽𝜽, 𝑾𝑾, 𝒘𝒘𝟎𝟎, 𝒃𝒃)
https://taecheon.blogspot.com/2019/07/001-few-shot-adversarial-learning-of.html
16. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (16/29)
↳
Meta-Learning Stage2-2
Training Overview: Meta Learning Stage
1. 메타러닝 단계의 각 에피소드에서 하나의 비디오 𝒊𝒊와 해당 비디오의 프레임 𝒕𝒕 하나 선택
2. 𝒕𝒕 외에 추가로 𝑲𝑲개의 프레임 추출 (𝒔𝒔𝟏𝟏, 𝒔𝒔𝟐𝟐, … , 𝒔𝒔𝑲𝑲)
3. 𝒊𝒊번째 비디오에 대한 대표 임베딩 �𝒆𝒆𝒊𝒊는 K개 임베딩 벡터들(�𝒆𝒆𝒊𝒊(𝒔𝒔𝑲𝑲))의 평균으로 구함
�𝒆𝒆𝒊𝒊 =
𝟏𝟏
𝑲𝑲
�
𝒌𝒌=𝟏𝟏
𝑲𝑲
𝑬𝑬(𝒙𝒙𝒊𝒊 𝒔𝒔𝒌𝒌 , 𝒚𝒚𝒊𝒊 𝒔𝒔𝒌𝒌 ; 𝝓𝝓)
4. 𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮를 통해 이미지 생성 (�𝒙𝒙𝒊𝒊 𝒕𝒕 = 𝑮𝑮(𝒚𝒚𝒊𝒊 𝒕𝒕 , �𝒆𝒆𝒊𝒊; 𝝍𝝍, 𝑷𝑷))
5. 아래 Loss 함수를 최소화하도록 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬과 𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮의 파라미터 최적화
𝓛𝓛 𝝓𝝓, 𝝍𝝍, 𝑷𝑷, 𝜽𝜽, 𝑾𝑾, 𝑾𝑾𝟎𝟎, 𝒃𝒃 = 𝓛𝓛𝑪𝑪𝑪𝑪𝑪𝑪 𝝓𝝓, 𝝍𝝍, 𝑷𝑷 + 𝓛𝓛𝑨𝑨𝑨𝑨𝑨𝑨 𝝓𝝓, 𝝍𝝍, 𝑷𝑷, 𝜽𝜽, 𝑾𝑾, 𝑾𝑾𝟎𝟎, 𝒃𝒃 + 𝓛𝓛 𝑴𝑴𝑴𝑴𝑴𝑴(𝝓𝝓, 𝑾𝑾)
https://taecheon.blogspot.com/2019/07/001-few-shot-adversarial-learning-of.html
17. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (17/29)
↳
Meta-Learning Stage2-2
Loss Functions of 𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮
• 𝓛𝓛𝑪𝑪𝑪𝑪𝑪𝑪 𝝓𝝓, 𝝍𝝍, 𝑷𝑷 : content loss term으로, 정답 이미지 𝒙𝒙𝒊𝒊(𝒕𝒕)와 𝑮𝑮(�𝒙𝒙𝒊𝒊(𝒕𝒕))사이의 거리 측정
• Perceptual similarity measures from VGG19 and VGGFace
• Conceptual ~ : 여자, 남자 등 추상적 측면의 정보
• Perceptual ~ : 근처 픽셀과의 관계 등 좀더 현실적 정보
𝓛𝓛 𝝓𝝓, 𝝍𝝍, 𝑷𝑷, 𝜽𝜽, 𝑾𝑾, 𝑾𝑾𝟎𝟎, 𝒃𝒃 =
𝓛𝓛𝑪𝑪𝑪𝑪𝑪𝑪 𝝓𝝓, 𝝍𝝍, 𝑷𝑷 +
𝓛𝓛𝑨𝑨𝑨𝑨𝑨𝑨 𝝓𝝓, 𝝍𝝍, 𝑷𝑷, 𝜽𝜽, 𝑾𝑾, 𝑾𝑾𝟎𝟎, 𝒃𝒃 +
𝓛𝓛 𝑴𝑴𝑴𝑴𝑴𝑴(𝝓𝝓, 𝑾𝑾)
VGG19 Network VGGFace Network
https://taecheon.blogspot.com/2019/07/001-few-shot-adversarial-learning-of.html
18. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (18/29)
↳
Meta-Learning Stage2-2
Loss Functions of 𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮
• 𝓛𝓛𝑨𝑨𝑨𝑨𝑨𝑨 𝝓𝝓, 𝝍𝝍, 𝑷𝑷, 𝜽𝜽, 𝑾𝑾, 𝑾𝑾𝟎𝟎, 𝒃𝒃 = −𝑫𝑫 �𝒙𝒙𝒊𝒊 𝒕𝒕 , 𝒚𝒚𝒊𝒊 𝒕𝒕 , 𝒊𝒊; 𝜽𝜽, 𝑾𝑾, 𝒘𝒘𝟎𝟎, 𝒃𝒃 + 𝓛𝓛𝑭𝑭𝑭𝑭
• 첫번째 항 : 실제와 얼마나 같은지 나타내는 스코어 (높을수록 실제와 유사)
• D는 입력을 먼저 𝑵𝑵차원 벡터 𝑽𝑽(𝒙𝒙𝒊𝒊 𝒕𝒕 , 𝒚𝒚𝒊𝒊 𝒕𝒕 ; 𝜽𝜽)로 임베딩 후 Realism Score 계산
𝐃𝐃 �𝒙𝒙𝒊𝒊 𝒕𝒕 , 𝒚𝒚𝒊𝒊 𝒕𝒕 , 𝒊𝒊; 𝜽𝜽, 𝑾𝑾, 𝒘𝒘𝟎𝟎, 𝒃𝒃 = 𝑽𝑽 𝒙𝒙𝒊𝒊 𝒕𝒕 , 𝒚𝒚𝒊𝒊 𝒕𝒕 ; 𝜽𝜽 𝑻𝑻 𝑾𝑾𝒊𝒊 + 𝒘𝒘𝟎𝟎 + 𝒃𝒃
• 𝒘𝒘𝟎𝟎와 𝒃𝒃는 �𝒙𝒙𝒊𝒊 𝒕𝒕 의 realism과 랜드마크 이미지 𝒚𝒚𝒊𝒊 𝒕𝒕 사이의 일치 정도를 파악하는데 사용
• 두번째 항 : 각 D output에 대해 perceptual similarity를 측정 (‘As can be seen, adding feature matching
loss substantially improves the performance, while adding perceptual loss further enhances the results.’[38])
𝓛𝓛𝑭𝑭𝑭𝑭(𝑮𝑮, 𝑫𝑫𝒌𝒌) = 𝔼𝔼(𝒔𝒔, 𝐱𝐱) �
𝒊𝒊=𝟏𝟏
𝑻𝑻
𝟏𝟏
𝑵𝑵𝒊𝒊
𝑫𝑫𝒌𝒌
𝒊𝒊
𝒔𝒔, 𝐱𝐱 − 𝑫𝑫𝒌𝒌
𝒊𝒊
(𝒔𝒔, 𝑮𝑮(𝒔𝒔))
𝟏𝟏
𝓛𝓛 𝝓𝝓, 𝝍𝝍, 𝑷𝑷, 𝜽𝜽, 𝑾𝑾, 𝑾𝑾𝟎𝟎, 𝒃𝒃 =
𝓛𝓛𝑪𝑪𝑪𝑪𝑪𝑪 𝝓𝝓, 𝝍𝝍, 𝑷𝑷 +
𝓛𝓛𝑨𝑨𝑨𝑨𝑨𝑨 𝝓𝝓, 𝝍𝝍, 𝑷𝑷, 𝜽𝜽, 𝑾𝑾, 𝑾𝑾𝟎𝟎, 𝒃𝒃 +
𝓛𝓛 𝑴𝑴𝑴𝑴𝑴𝑴(𝝓𝝓, 𝑾𝑾)
https://taecheon.blogspot.com/2019/07/001-few-shot-adversarial-learning-of.html
19. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (19/29)
↳
Meta-Learning Stage2-2
Loss Functions of 𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮
• 𝓛𝓛 𝑴𝑴𝑴𝑴𝑴𝑴(𝝓𝝓, 𝑾𝑾) : embedding matching term으로,
�𝒆𝒆𝒊𝒊와 𝑾𝑾𝒊𝒊사이의 𝑳𝑳𝟏𝟏거리에 패널티를 부여해 두 임베딩이
비슷해지도록 함
𝓛𝓛 𝝓𝝓, 𝝍𝝍, 𝑷𝑷, 𝜽𝜽, 𝑾𝑾, 𝑾𝑾𝟎𝟎, 𝒃𝒃 =
𝓛𝓛𝑪𝑪𝑪𝑪𝑪𝑪 𝝓𝝓, 𝝍𝝍, 𝑷𝑷 +
𝓛𝓛𝑨𝑨𝑨𝑨𝑨𝑨 𝝓𝝓, 𝝍𝝍, 𝑷𝑷, 𝜽𝜽, 𝑾𝑾, 𝑾𝑾𝟎𝟎, 𝒃𝒃 +
𝓛𝓛 𝑴𝑴𝑴𝑴𝑴𝑴(𝝓𝝓, 𝑾𝑾)
𝑾𝑾𝒊𝒊는 각 비디오들의
대표 임베딩들을
갖고 있는 row
https://taecheon.blogspot.com/2019/07/001-few-shot-adversarial-learning-of.html
20. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (20/29)
↳
Meta-Learning Stage2-2
Loss Functions of 𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫
𝓛𝓛𝑫𝑫𝑫𝑫𝑫𝑫 𝝓𝝓, 𝝍𝝍, 𝑷𝑷, 𝜽𝜽, 𝑾𝑾, 𝒘𝒘𝟎𝟎, 𝒃𝒃 =
𝒎𝒎𝒎𝒎𝒎𝒎 𝟎𝟎, 𝟏𝟏 + 𝑫𝑫 �𝒙𝒙𝒊𝒊 𝒕𝒕 , 𝒚𝒚𝒊𝒊 𝒕𝒕 , 𝒊𝒊; 𝝓𝝓, 𝝍𝝍, 𝜽𝜽, 𝑾𝑾, 𝒘𝒘𝟎𝟎, 𝒃𝒃 +
𝒎𝒎𝒎𝒎𝒎𝒎(𝟎𝟎, 𝟏𝟏 − 𝑫𝑫(𝒙𝒙𝒊𝒊 𝒕𝒕 , 𝒚𝒚𝒊𝒊 𝒕𝒕 , 𝒊𝒊; 𝜽𝜽, 𝑾𝑾, 𝒘𝒘𝟎𝟎, 𝒃𝒃))
• 실제 이미지가 높은 𝒓𝒓스코어를 갖고 가짜는 낮은 스코어를 갖도록 hinge loss 최소화
• 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬과 𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮 파라미터 업데이트 후 𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫가 업데이트됨
가짜 이미지의 경우 Realism score가 -1보다 작아야
이 term의 전체가 0이 됨.
진짜 이미지의 경우 Realism score가 +1보다 커져야
이 term의 전체가 1이 됨.
https://www.slideshare.net/TaesuKim3/pr12165-fewshot-adversarial-learning-of-realistic-neural-talking-head-models
21. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (21/29)
↳
Few-Shot Learning2-3
Few-shot learning by Fine-tuning : 𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮𝑮
𝝍𝝍 : Person Generic Parameters(Global한 값)
𝝍𝝍′ : Person Specific Parameters(특정 사람에 대한 값)
1. 새로운 Talking Head에 대한 임베딩 생성 : 메타러닝 단계에서 학습이 끝난 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬 사용
�𝒆𝒆𝑵𝑵𝑵𝑵𝑵𝑵 =
𝟏𝟏
𝑻𝑻
�
𝒕𝒕=𝟏𝟏
𝑻𝑻
𝑬𝑬(𝒙𝒙 𝒕𝒕 , 𝒚𝒚 𝒕𝒕 ; 𝝓𝝓)
단, 이 단계에서는 기존 G의 파라미터 𝝍𝝍와 𝑷𝑷를 그대로 사용하므로 Identity Gap 발생
2. 그래서 Fine-Tuning : 기존 𝑮𝑮(𝒚𝒚 𝒕𝒕 , �𝒆𝒆𝑵𝑵𝑵𝑵𝑵𝑵; 𝝍𝝍, 𝑷𝑷)대신 𝑮𝑮′(𝒚𝒚 𝒕𝒕 ; 𝝍𝝍, 𝝍𝝍′) 사용
𝝍𝝍′는 메타러닝 때와 달리 직접 학습되는 파라미터 (Initialize 𝝍𝝍′ = 𝑷𝑷�𝒆𝒆𝑵𝑵𝑵𝑵𝑵𝑵)
따라서 메타러닝의 Prior로 새로운 사람에 대한 학습을 수행
https://taecheon.blogspot.com/2019/07/001-few-shot-adversarial-learning-of.html
메타러닝에서 학습된
𝑬𝑬 네트워크로 추출
임베딩 벡터를
Projection하는 데에만 사용
22. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (22/29)
↳
Few-Shot Learning2-3
Few-shot learning by Fine-tuning : 𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫𝑫
https://taecheon.blogspot.com/2019/07/001-few-shot-adversarial-learning-of.html
3. 𝑫𝑫(𝒙𝒙 𝒕𝒕 , 𝒚𝒚 𝒕𝒕 ; 𝜽𝜽, 𝒘𝒘′, 𝒃𝒃)를 통해 Realism score 계산 : 𝒘𝒘′는 𝒘𝒘𝟎𝟎과 �𝒆𝒆𝑵𝑵𝑵𝑵𝑵𝑵의 합으로 초기화 후 학습
𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪𝑪 𝑽𝑽(𝒙𝒙 𝒕𝒕 , 𝒚𝒚 𝒕𝒕 ; 𝜽𝜽)와 𝒃𝒃는 메타 러닝의 결과
Realism Score는 메타러닝 단계와 비슷하게 입력을 N차원 벡터로 임베딩한 후 계산
𝑫𝑫′ �𝒙𝒙 𝒕𝒕 , 𝒚𝒚 𝒕𝒕 ; 𝜽𝜽, 𝒘𝒘′, 𝒃𝒃 = 𝑽𝑽(�𝒙𝒙 𝒕𝒕 , 𝒚𝒚 𝒕𝒕 ; 𝜽𝜽)𝑻𝑻 𝒘𝒘′ + 𝒃𝒃
새로운 화자
24. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (24/29)
• Downsampling과 Upsampling 레이어들에 Batch Normalization 대신
Instance Normalization 적용
• Embedder, D는 모두 Residual Block 적용(D는 마지막 부분에 하나 더 추가)
• 두 네트워크 모두 벡터화된 결과를 얻기 위해 Global Sum Pooling 수행)
• 모든 네트워크의 각 레이어에 Spectral Normalizaiton과
Self-Attention block 구조 적용
• 학습 최적화에 Adam Optimizer 사용
• Learning Rate
• Embedder, Generator : 5 ∗ 𝟏𝟏𝟏𝟏−𝟓𝟓
• Discriminator : 𝟐𝟐 ∗ 𝟏𝟏𝟏𝟏−𝟒𝟒
Implementation Details2-4
https://taecheon.blogspot.com/2019/07/001-few-shot-adversarial-learning-of.html
25. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (25/29)
Conclusion
Part 03
1. Experiments
2. Puppeteering Results
3. Time Comparison Results
4. Conclusion
26. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (26/29)
↳
3-1 Experiments
• FID(Frechet-Inception Distance) : 인지적 사실성(Perceptual realism)을
측정하는 metric
• Structured Similarity(SSIM) : GT 이미지와의 Low-level image
유사도를 측정하는 metric
• Cosine Similarity(CSIM) : Identity mismatch 정도를 측정하기 위해
임베딩 벡터 사이의 코싸인 유사도를 재는 metric
• USER : 세 장의 같은 사람 사진을 보여준 후 가짜를 고르도록 사람에게
시키고 맞힌 비율을 계산 – 사진의 사실성과 Identity mismatch를
동시 측정 가능
https://taecheon.blogspot.com/2019/07/001-few-shot-adversarial-learning-of.html
28. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (28/29)
↳
3-2 Time Comparison Results
29. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (29/29)
↳
Conclusion3-2
• Conclusion
• 실제와 매우 유사한 Talking head를 메타 러닝과 GAN을 활용해 만드는
프레임워크 제안
• Few-shot learning을 통해 적은 수의 이미지로도 좋은 결과를 얻음
• Limitations
• 실제 사람의 표정에서 드러나는 감정이나 시선과 같은 부분은 잘 모사하지 못함
• 랜드마크의 차이로 인해 원하지 않는 사람으로 보일 수 있음.(Landmark adaption의 필요)
Conclusion & Limitations
30. CGLAB 이명규Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (30/29)
Thank you for Listening.
Email : brstar96@naver.com (or brstar96@soongsil.ac.kr)
Mobile : +82-10-8234-3179