SlideShare a Scribd company logo
自己教師あり学習を導入したWavelet Vision Transformerによる
Deepfake検出の高精度化
IS1-17 高瀬 俊希,山内 悠嗣 (中部大学)
研究背景・目的
➢ Deepfakeによるなりすまし等が社会問題
・ Deepfakeの痕跡は高周波成分としても残留
➢ Vision Transformer(ViT)[1]のDeepfake検出精度
が低い
・ 高周波成分の特徴を抽出しにくい
➢ 提案手法:Wave-ViT[2]+SimCLR[3]
・ Wave-ViT:ウェーブレット変換を導入したViT
・ アテンション計算時に特徴量をウェーブレット変換
・ 高周波成分の特徴を抽出する機能が向上
・ SimCLR:対照学習による自己教師あり学習
・ Deepfakeの痕跡とData Augmentationの違いを区別
・ 拡張された画像から同じ特徴量を抽出するように
学習
提案手法
➢ 学習の流れ
1,Real画像からSBIsによりDeepfake画像を生成
2,生成したDeepfake画像とReal画像をデータ拡張
3,拡張した画像をモデルに入力し特徴量を抽出
4,2つの処理を実行
4-a,抽出した特徴量でDeepfakeとRealを分類
4-b,抽出した特徴量で対照学習を行い特徴抽出の機
能を向上
➢ データ生成:SBIs[4]
・ 1枚のReal画像からDeepfake画像を生成
・ Deepfakeの痕跡が微細な画像で学習すること
で高精度化
評価実験
➢ 実験条件
・ 比較手法
・ EfficientNet-B4(従来手法),ResNet-50,ViT,
Wave-ViT,提案手法
・ 学習データセット
・ FF++のReal画像とSBIsで生成したDeepfake画像
・ 評価データセット
・ FF++,CDF,DFDCP,FFIW
・ 評価指標
・ Area Under Curve(AUC)
1,FF++での比較
・ ViT以外の手法で同等の結果
・ Deepfakeの生成手法ごとで評価
2,4つのデータセットでの比較
・ AUCの平均で提案手法が従来手法より精度向上
今後の展望・参考文献
➢ クラスを考慮した自己教師あり学習への拡張
[1] A. Dosovitskiy et al, “An image is worth 16x16 words: Transformers for image
recognition at scale", ICLR, 2021.
[2] T. Yao et al, "Wave-vit: Unifying wavelet and transformers for visual representation
learning", ECCV, 2022.
[3] T. Chen et al, "A simple framework for contrastive learning of visual representations",
ICML, 2020.
[4] K. Shiohara et al, "Detecting deepfakes with self-blended images", Conference on
CVPR, 2022.
の流れ
提案手法のモデル
入力画像
ター ット画像
ース画像
ラン ーク スク
ッ
特徴量
・
・
➢ ViTによるDeepfake検出の高精度化
1, 周波数変換を導入したViTの採用
・ 高周波成分の特徴を抽出
2, 自己教師あり学習の導入
・ Deepfakeの痕跡とData Augmentationを区別
周波数変換と自己教師あり学習により特徴抽出
の機能を強化

More Related Content

More from MILab

変形ARマーカの高速かつ高精度な姿勢推定
変形ARマーカの高速かつ高精度な姿勢推定変形ARマーカの高速かつ高精度な姿勢推定
変形ARマーカの高速かつ高精度な姿勢推定
MILab
 
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習 未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
MILab
 
動的環境における動作計画のための C-space の予測
動的環境における動作計画のための C-space の予測動的環境における動作計画のための C-space の予測
動的環境における動作計画のための C-space の予測
MILab
 
人の姿勢予測に基づいた協働ロボットの動作計画
人の姿勢予測に基づいた協働ロボットの動作計画人の姿勢予測に基づいた協働ロボットの動作計画
人の姿勢予測に基づいた協働ロボットの動作計画
MILab
 
時系列予測モデルを導入した価値関数に基づく強化学習
時系列予測モデルを導入した価値関数に基づく強化学習時系列予測モデルを導入した価値関数に基づく強化学習
時系列予測モデルを導入した価値関数に基づく強化学習
MILab
 
エッジコンピューティングのための圧縮画像認識
エッジコンピューティングのための圧縮画像認識エッジコンピューティングのための圧縮画像認識
エッジコンピューティングのための圧縮画像認識
MILab
 
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
MILab
 
機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022
機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022
機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022
MILab
 
機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021
機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021
機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021
MILab
 

More from MILab (9)

変形ARマーカの高速かつ高精度な姿勢推定
変形ARマーカの高速かつ高精度な姿勢推定変形ARマーカの高速かつ高精度な姿勢推定
変形ARマーカの高速かつ高精度な姿勢推定
 
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習 未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
 
動的環境における動作計画のための C-space の予測
動的環境における動作計画のための C-space の予測動的環境における動作計画のための C-space の予測
動的環境における動作計画のための C-space の予測
 
人の姿勢予測に基づいた協働ロボットの動作計画
人の姿勢予測に基づいた協働ロボットの動作計画人の姿勢予測に基づいた協働ロボットの動作計画
人の姿勢予測に基づいた協働ロボットの動作計画
 
時系列予測モデルを導入した価値関数に基づく強化学習
時系列予測モデルを導入した価値関数に基づく強化学習時系列予測モデルを導入した価値関数に基づく強化学習
時系列予測モデルを導入した価値関数に基づく強化学習
 
エッジコンピューティングのための圧縮画像認識
エッジコンピューティングのための圧縮画像認識エッジコンピューティングのための圧縮画像認識
エッジコンピューティングのための圧縮画像認識
 
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
Vox2C-space:動作計画のための機械学習に基づくC-spaceの生成
 
機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022
機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022
機械学習に基づく経路計画, 電子情報通信学会総合大会, 2022
 
機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021
機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021
機械学習による変形ARマーカの位置・姿勢推定, 電気・電子・情報関係学会東海支部連合大会, 2021
 

自己教師あり学習を導入したWavelet Vision TransformerによるDeepfake検出の高精度化

  • 1. 自己教師あり学習を導入したWavelet Vision Transformerによる Deepfake検出の高精度化 IS1-17 高瀬 俊希,山内 悠嗣 (中部大学) 研究背景・目的 ➢ Deepfakeによるなりすまし等が社会問題 ・ Deepfakeの痕跡は高周波成分としても残留 ➢ Vision Transformer(ViT)[1]のDeepfake検出精度 が低い ・ 高周波成分の特徴を抽出しにくい ➢ 提案手法:Wave-ViT[2]+SimCLR[3] ・ Wave-ViT:ウェーブレット変換を導入したViT ・ アテンション計算時に特徴量をウェーブレット変換 ・ 高周波成分の特徴を抽出する機能が向上 ・ SimCLR:対照学習による自己教師あり学習 ・ Deepfakeの痕跡とData Augmentationの違いを区別 ・ 拡張された画像から同じ特徴量を抽出するように 学習 提案手法 ➢ 学習の流れ 1,Real画像からSBIsによりDeepfake画像を生成 2,生成したDeepfake画像とReal画像をデータ拡張 3,拡張した画像をモデルに入力し特徴量を抽出 4,2つの処理を実行 4-a,抽出した特徴量でDeepfakeとRealを分類 4-b,抽出した特徴量で対照学習を行い特徴抽出の機 能を向上 ➢ データ生成:SBIs[4] ・ 1枚のReal画像からDeepfake画像を生成 ・ Deepfakeの痕跡が微細な画像で学習すること で高精度化 評価実験 ➢ 実験条件 ・ 比較手法 ・ EfficientNet-B4(従来手法),ResNet-50,ViT, Wave-ViT,提案手法 ・ 学習データセット ・ FF++のReal画像とSBIsで生成したDeepfake画像 ・ 評価データセット ・ FF++,CDF,DFDCP,FFIW ・ 評価指標 ・ Area Under Curve(AUC) 1,FF++での比較 ・ ViT以外の手法で同等の結果 ・ Deepfakeの生成手法ごとで評価 2,4つのデータセットでの比較 ・ AUCの平均で提案手法が従来手法より精度向上 今後の展望・参考文献 ➢ クラスを考慮した自己教師あり学習への拡張 [1] A. Dosovitskiy et al, “An image is worth 16x16 words: Transformers for image recognition at scale", ICLR, 2021. [2] T. Yao et al, "Wave-vit: Unifying wavelet and transformers for visual representation learning", ECCV, 2022. [3] T. Chen et al, "A simple framework for contrastive learning of visual representations", ICML, 2020. [4] K. Shiohara et al, "Detecting deepfakes with self-blended images", Conference on CVPR, 2022. の流れ 提案手法のモデル 入力画像 ター ット画像 ース画像 ラン ーク スク ッ 特徴量 ・ ・ ➢ ViTによるDeepfake検出の高精度化 1, 周波数変換を導入したViTの採用 ・ 高周波成分の特徴を抽出 2, 自己教師あり学習の導入 ・ Deepfakeの痕跡とData Augmentationを区別 周波数変換と自己教師あり学習により特徴抽出 の機能を強化