[DL輪読会]FaceForensics++: Learning to Detect Manipulated Facial Images

DEEP LEARNING JP
[DL Papers]
FaceForensics++: Learning to Detect Manipulated Facial
Images
Koichiro Tamura, Matsuo Lab
http://deeplearning.jp/

Paper Information
• [19.08] FaceForensics++: Learning to Detect Manipulated Facial Images
– Andreas Rössler, Davide Cozzolino, Luisa Verdoliva, Christian Riess, Justus Thies, Matthias
Nießner
– https://arxiv.org/abs/1901.08971
– ICCV2019
– 所謂対Deepfake⽤のデータセット(FaceForensics Benchmark)およびその検証実験の研究
• ドイツのミュンヘン⼯科⼤学と、イタリアのフェデリコ2世ナポリ⼤学が主導する研究
• 2019年9⽉24⽇、Googleが俳優28⼈が登場する3000本の改変動画を、 FaceForensics Benchmarkに提供
したことで話題に
– FaceForensics Benchmark
• GitHub: https://github.com/ondyari/FaceForensics/
– 顔認証/認識の導⼊が進み、実適⽤においても重要であるため、研究概要を整理
• オフラインだけでなく、オンラインでの顔認証のトレンドも(ex: 昨年の法改正に伴うデジタル本⼈認証)
• そもそもDeepFakeはテクノロジーで防げるのか︖
• 海外のデータセットは、GAFAが主導するが、⽇本は︖
2

facial manipulationの前提整理
1. facial expression manipulation(Facial Reenactment): 対象の顔画像の表情を、別の顔画
像の表情に変換する
- Face2Face
- NeuralTextures
2. facial identity manipulation(Identity Swap): 顔ごと変える
- DeepFakes
- FaceSwap
3

研究の貢献
1. ⽐較可能なベンチマークおよびその⾃動的な仕組み(2週間で更新されるな
ど)を作成したこと
2. 1000以上の動画から作られた180万画像ほどのデータセットを作成・提供
したこと
3. 様々な条件下での検証を⾏ったこと
4. SOTAの顔画像不正検知アルゴリズムの提案
4

周辺知識と関連研究
• Face Manipulation methods
– 3D特徴点モデリングと画像でのレンダリングを⽤いた⽣成
– Deep Learning(特にGANs)を⽤いた⽣成
• Multimedia Forensics
– 画像/動画の情報のみから、画像/動画の信頼性を確認する研究
– まばたきや⾊合いなど、特定の特徴量に着⽬した⼿法 -> 堅牢性(特に解像度に対して)が課題
– 異なる条件(特に解像度)をカバーした⼤規模データセットが必要
• Forensic Analysis Datasets
– 既存のデータセットは、x00~x0,000の画像数の規模
– (本論⽂のデータセットは、180万の画像数)
5

FaceForensics++
• 1000の動画、180万画像数のFakeデータセット
– Youtubeなどから、1000動画をダウンロード
– 顔が隠れている、正⾯を向いていないframeを排除
– 以下の4つのFace manipulationを実⾏
1. FaceSwap
2. DeepFakes
3. Face2Face
4. Neuraltextures
– 様々な画質に圧縮
6

FaceForensics++
1. FaceSwap
– 顔の特徴点を抽出し、3Dの型に適合。顔の特徴点位置のずれを最⼩化したのち、⾊補正などを加
えて⽣成
2. DeepFakes
– Encoderをシェアした2つのauto encoderを、それぞれ顔画像に対して学習させ、顔を切り抜い
た画像に対して(対の) decoderを適⽤
3. Face2Face
– Frameごとに特徴点座標、彩度、表情の情報をそれぞれ獲得し、レンダリング
– https://web.stanford.edu/~zollhoef/papers/CVPR2016_Face2Face/paper.pdf
4. NeuralTextures
– Photometric Reconstruction lossを含むGANを⽤いて、レンダリングを含む合成を⾏う
– https://arxiv.org/pdf/1904.12356.pdf
7

⼈による検証
• 204⼈の学⽣(闇を感じる)による、⼈による検知
• 本物:偽物 = 50:50のテスト
– => この⽐率でいいのか?実際のシーンでは、偽物が来るとは想定していないシーンでの精度が求め
られるはず
8

検出モデル
• まずは、顔検出のアルゴリズムを挟むことがポイント
• 実験では、以下を⽐較検証
1. Steg.Features+SVM: 4ピクセルの共起パターンを特徴量として、SVMのモデル。低解像度に弱
い
2. Cozzolino et al.: CNNの特徴量抽出を⽤いた、SVMのモデル
3. Bayer and Stamm: constrained CNN
4. Rahmouni et al.: global pooling layerを⽤いた CNN
5. MesoInception-4: InceptionNet
6. XceptionNet: ImageNetでpretrained済み
10

結果
11
注)解像度は、Raw > HQ > LQです
顔検出を挟まないと、精度は低い

結果
12
注)解像度は、Raw > HQ > LQです
• ひっくるめて学習すると、精度はやはり
落ちてしまう
• 実⽤ではアンサンブルするのが良いか︖

データセット規模について検証
13

ベンチマークの公開
• https://github.com/ondyari/FaceForensics/
• ベンチマークのシステムを公開
– 1000の追加の動画を収集し、1000画像をランダムにサンプリング
– 2週間ごとに更新して過学習したモデルの過⼤評価を防ぐ
14

ライセンス
• ScriptはMIT
• データセットは、研究⽬的のみ(商⽤不可)
– http://kaldir.vc.in.tum.de/faceforensics_tos.pdf
– ⽂⾔から、商⽤を絶対許さない意志を感じる。商⽤可能にしてくれ〜
15

所感・考察
• 50:50の実験環境では⾼いAccuracyの値であるが、Fake動画像は⼀般的には想定されない
シーンでは、どれくらい機能するのか︖Recallが⼤事になるはず
• データセット数を増やせば、特定の不正アルゴリズムには、実⽤レベルで対応できるように
なっている
• 論⽂の考察にもあったが、現状は新しい不正アルゴリズムが出てきた場合、対応する検知
データセットを作る必要がある(⼀部転移学習などで成功はしているよう)。不正アルゴリズ
ムが未知(⾮公開など)の場合も⼗分想定され、データセットなしで対応するロバストなアル
ゴリズムが将来必要になる
• ⽇本⼈のデータセットを作る必要性がある
• デジタル上での顔認証は、センサデバイスを指定/制限した上で、liveness detectionの技術
の重要度が増すはず
16

[DL輪読会]FaceForensics++: Learning to Detect Manipulated Facial Images

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]FaceForensics++: Learning to Detect Manipulated Facial Images

Similar to [DL輪読会]FaceForensics++: Learning to Detect Manipulated Facial Images (8)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (14)

[DL輪読会]FaceForensics++: Learning to Detect Manipulated Facial Images