optical flow를 통해생성하는 이유
비디오 신호는 전후에 많은 양의 redundant 정보가 있다.
-> 현 프레임과 다음 프레임 사이의 optical flow가 알려져 있으면,
현 프레임을 왜곡하여 다음 프레임을 추정할 수 있다.
23.
strong Foreground-background prior
(ref:Generating Videos with Scene Dynamics)
semantic segmentation masks 사용시에
foreground(차,행인)와 background(건물, 길) 지역을 나눌 수 있다.
Foreground-background
background는 전반적인 변환이있어서 optical flow가 꽤 정확히 추
정된다.
background hallucination function HB는 가려진 영역만 합성한다.
foreground 물체는 큰 모션을 가지고 작은 부분을 차지해서 optical
flow추청이 어렵다.
따라서 대부분의 foreground content를 합성해야 한다.
occlusion mask가 binary가아니고 0~1값
인 이유
“zoom in” 을 다루기 위해
물체가 카메라에 가까이 오는 상황에
이전 프레임을 warping 하는 방법만 쓰면
시간이 지날 수록 물체는 좀더 blurry해진다.
-> warped pixels와 newly synthesized pixels를 적절히 섞어서 해결
두 개의 tasks
1.future semantic segmentation masks 생성(sub-vid2vid)
2. 생성된 segmentation masks로 비디오 생성(vid2vid)
45.
Cityscapes dataset
2048 x1024 street scene videos (독일)
training set: 2975 videos(30 frames)
validation set: 500 videos(30 frames)
30프레임으로 학습했는데도 1200 프레임 생성 성공
46.
ground truth 문제해결
ground truth semantic segmentation masks 가 부족
->DeepLabV3(semantic segmentation network)사용해서 추가
ground truth flow 추출은 FlowNet2 사용
instance segmentation masks추출은 Mask R-CNN을 사용
Human preference score
AmazonMechanical Turk (AMT)
질문1 어느 쪽이 진짜 카메라로 찍은 비디오 같나요?
질문2 temporal coherence, image quality을 체크해주세요.
54.
Fréchet Inception Distance(FID)
이미지 품질과 temporal consistency 측정
ResNeXt, I3D(3D CNN 모델)로 feature 추출
mean, covariance matrix 을 가지고 계산
55.
Limitations and futurework
1. 방향 바꾸는 차 합성시 문제
->3D 단서를 추가(depth maps)
2. 차 색깔이 점점 변함
-> object tracking 정보를 활용
3. semantic manipulations (나무->건물) -> visible
artifacts
->모델이 label shapes에 덜 민감하도록 학습
training
같은 object에 속한모든 픽셀은 같은 feature vectors를 공유하기 위
해
feature map에 instance feature averaging을 적용
instance-averaged feature map zt와 semantic segmentation mask
st 으로 generator F을 학습한다.
학습이 끝나면,동일한 클래스에 속한 feature vectors를 mixture of
Gaussian distribution에 맞춥니다.