自己教師あり学習を導入したWavelet Vision TransformerによるDeepfake検出の高精度化
- 1. 自己教師あり学習を導入したWavelet Vision Transformerによる
Deepfake検出の高精度化
IS1-17 高瀬 俊希,山内 悠嗣 (中部大学)
研究背景・目的
➢ Deepfakeによるなりすまし等が社会問題
・ Deepfakeの痕跡は高周波成分としても残留
➢ Vision Transformer(ViT)[1]のDeepfake検出精度
が低い
・ 高周波成分の特徴を抽出しにくい
➢ 提案手法:Wave-ViT[2]+SimCLR[3]
・ Wave-ViT:ウェーブレット変換を導入したViT
・ アテンション計算時に特徴量をウェーブレット変換
・ 高周波成分の特徴を抽出する機能が向上
・ SimCLR:対照学習による自己教師あり学習
・ Deepfakeの痕跡とData Augmentationの違いを区別
・ 拡張された画像から同じ特徴量を抽出するように
学習
提案手法
➢ 学習の流れ
1,Real画像からSBIsによりDeepfake画像を生成
2,生成したDeepfake画像とReal画像をデータ拡張
3,拡張した画像をモデルに入力し特徴量を抽出
4,2つの処理を実行
4-a,抽出した特徴量でDeepfakeとRealを分類
4-b,抽出した特徴量で対照学習を行い特徴抽出の機
能を向上
➢ データ生成:SBIs[4]
・ 1枚のReal画像からDeepfake画像を生成
・ Deepfakeの痕跡が微細な画像で学習すること
で高精度化
評価実験
➢ 実験条件
・ 比較手法
・ EfficientNet-B4(従来手法),ResNet-50,ViT,
Wave-ViT,提案手法
・ 学習データセット
・ FF++のReal画像とSBIsで生成したDeepfake画像
・ 評価データセット
・ FF++,CDF,DFDCP,FFIW
・ 評価指標
・ Area Under Curve(AUC)
1,FF++での比較
・ ViT以外の手法で同等の結果
・ Deepfakeの生成手法ごとで評価
2,4つのデータセットでの比較
・ AUCの平均で提案手法が従来手法より精度向上
今後の展望・参考文献
➢ クラスを考慮した自己教師あり学習への拡張
[1] A. Dosovitskiy et al, “An image is worth 16x16 words: Transformers for image
recognition at scale", ICLR, 2021.
[2] T. Yao et al, "Wave-vit: Unifying wavelet and transformers for visual representation
learning", ECCV, 2022.
[3] T. Chen et al, "A simple framework for contrastive learning of visual representations",
ICML, 2020.
[4] K. Shiohara et al, "Detecting deepfakes with self-blended images", Conference on
CVPR, 2022.
の流れ
提案手法のモデル
入力画像
ター ット画像
ース画像
ラン ーク スク
ッ
特徴量
・
・
➢ ViTによるDeepfake検出の高精度化
1, 周波数変換を導入したViTの採用
・ 高周波成分の特徴を抽出
2, 自己教師あり学習の導入
・ Deepfakeの痕跡とData Augmentationを区別
周波数変換と自己教師あり学習により特徴抽出
の機能を強化