최근, Spoof trace disentanglement framework가 일반화 성능 측면에서 높은 잠재성을 보여주며 등장하고 있음.
하지만, single-modal input 시나리오에서 제약이 큼.
본 논문에선 다음과 같은 방법을 제안
1. Multi-modal disentanglement model
→robust generic attack detection
2. Two-stream disentangling network
→robust on RGB and depth inputs
3. Fusion module
→ spoof의 RGB, Depth로 부터 more informative feature을 각각 생성
3. 19
3
• 최근, Spoof trace disentanglement framework가 일반화 성능 측면에서 높은 잠
재성을 보여주며 등장하고 있음.
• 하지만, single-modal input 시나리오에서 제약이 큼.
• 본 논문에선 다음과 같은 방법을 제안
• 1. Multi-modal disentanglement model
→robust generic attack detection
• 2. Two-stream disentangling network
→robust on RGB and depth inputs
• 3. Fusion module
→ spoof의 RGB, Depth로 부터 more informative feature을 각각 생성
Abstruct
4. 19
4
Multi-model Face Anti-spoofing
최근에 Multi-model FAS가 제안되어왔지만, unseen spoofing attack에선 여전히 어려움.
실험 결과를 해석하기 어려움.
Generative Face Anti-spoofing
이전 메소드들은 RGB 이미지에 포커스를 맞추어 generative model을 제안함.
최근에 RGB-D 모두 활용한 generative method 또한 RGB에 주로 포커싱함. 이에 반해 해당 메소드는 다른 모델에도 적용가능함.
Related Works
18. 19
18
• Adversarial disentangled representation learning과 cross-modality feature fusion을 통해
서 복잡한 spof traces from RGB and Depth images 생성방법 제안함
• 복잡한 시나리오에서 unseen attack을 잡아낼 수 있는 일반화 방법을 제안
• fusion model을 사용한 Multi-modal 접근이 각각의 Single modal
Conclusions
화이팅
Why…?
중요한듯
특히,…
여태까지 사람들이 이런것을 생각했을텐데 왜 안했을거 같아? 뭐가 문제였는데
뭐가 가장 중점적이고, 다른 것들과 차별성을 가진 것 같아?
너가 앞으로 연구를 한다면, 어떤 부분을 많이 가져갈 것 같아?
Structured Fashion like FP due to the randomness inside the network WP(하나하나) 정해진 모양이 없는..! 기억해야하는수! (추가적인 함수 ㅇㅇ) sparse연산.. HW/lib 희귀
2. Architecture of network & filter itself is both important
3. 이게 정말 decent한 결과인지….???
4. 그 지그재그 그래프에서 x축, y축 정확히
5. It is worth noticing that when performing inference on the pruned network, we can not directly use the filter as a whole to perform convolution on the input feature map since the filter is broken
6. Threshold 값이 무엇일지… 이걸 어떻게 비교한다는 거지? 이게 초기 stripe 값이 1이고 이걸 점점 바꾼다는건데…!
7. 한 filter가 모두 pruning되면… 그냥 fmap이 0이 되버리는건지?
8. Floaps 란? 아마 FLOPS여서 float 연산수 인것 같은데.. 흠…….?
9. Related work가 너무 많을때 선정기준?
10. In Advances in Neural Information Processing Systems, pages 1043–1053, 2018. <- ….?? NeurIPS?
11. CVPR <> NIPS
12.
원하는 Contents를 담고 있는 이미지의 feature xx 에서, 이미지의 스타일을 빼주고, 내가 입히고 싶은 Style을 더해주는 방식
multiple modalitie 구조는 는 모델을 강화할수 있음. 인코더는 resnet50 pretrained on imagenetㅇ임
high level로 갈수록 spoof와 연관된 특징들을 점차적으로 학습시켜 주요 feature들을 얻음.
decoder은 일반 CNN모델이며, 학습해갈 수록 decoder의 residual blocks와 concat을 진행함.
중간에 존재하는 classification head는 encoder을 통해 추출된 feature가 spoof-relevant information에 좀더 focusing하여 학습할 수 있도록함
이때 저자들이 제안한 fusion모델을 적용하는데, 이 때, spoof relevent information에 더욱 집중시켜
1.intermediate feature distribution을 최적화시킴
face recognition에서 Intra class들을 밀집시키는 로스로 제안됨
2. head classification으로부터 나온 일반 크로스엔트로피
rgb and depth feature을 학습시킨다. 이때 두 피처는 concat되어 mlp에 들어가고, sigmoid를 적용한후에 다시 각각의 w_rgb, w_dep로 분리시킨다.
기존의 F_rgb와 W_rgb를 channel-wise multiplication을 적용
새로 생성된 f’_rgb와 f_dep를 더함
softmax가 적용된 1x1 convolution을 통해 생성된 M_rgb, M_dep과
1,2,3을통해 나온 f_rgb^rec과 f_rec^rgb를 concat하여 channel wise를 적용하여 최종적으로 새로운 features를 생성
1.only using adversarial learning은 오히려 decomposed live가 bias로 작용될 수 있다고함. 이를 방지하기 위해서 reconstructed과 origin imager간의 l1 loss 적용
2. intensity loss - 첫째항은, live data의 spoof trace는 결국 0으로 나오는데, spoof trace가 0이 되는걸 막기 위해 spoofing의 spoof trace로 정규화를 진행함
양방향 adversarial learning을 진행함 이때 저자들은 다음을 관찰함
live components와 live는 같아야함. 그래서 1항과 같이 적용. 두번째 항에선 더욱 강화된 disentanglement를 위해서, 새롭게 생성된 synthesized spoof image 를 학습시킴
disc는 7개의 conv와 3 down sampling layer로 구성됨. 즉 multi-resolution discriminator이 있고, spoof, live를 구분하기 위한 각각의 disc와 rgb image, depth image 모두 분류해야 하므로 총 네개의 disc가 있음. 결국 synthesized, reconstructed, live, spoof 모두 잘 구분하고자 하는것임
1,
양방향 adversarial learning을 진행함 이때 저자들은 다음을 관찰함
live components와 live는 같아야함. 그래서 1항과 같이 적용. 두번째 항에선 더욱 강화된 disentanglement를 위해서, 새롭게 생성된 synthesized spoof image 를 학습시킴
disc는 7개의 conv와 3 down sampling layer로 구성됨. 즉 multi-resolution discriminator이 있고, spoof, live를 구분하기 위한 각각의 disc와 rgb image, depth image 모두 분류해야 하므로 총 네개의 disc가 있음. 결국 synthesized, reconstructed, live, spoof 모두 잘 구분하고자 하는것임
1,
원하는 Contents를 담고 있는 이미지의 feature xx 에서, 이미지의 스타일을 빼주고, 내가 입히고 싶은 Style을 더해주는 방식