Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition

1,246 views

Published on

Attention-aware Deep Reinforcement Learning for Video Face Recognition, ICCV 2017

Published in: Technology
  • Be the first to comment

180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition

  1. 1. Attention-aware Deep Reinforcement Learning for Video Face Recognition Takanori Ogata
  2. 2. Self Introduction 緒方 貴紀 (@conta_) Co-Founder / Chief Research Officer @ABEJA, Inc. 基礎研究から、プロダクト開発、クラウドからGPUマシンの組み立てまで なんでもやります。
  3. 3. Videoに写った人の顔認証の精度を上げる論文 同一人物の1連の顔画像シーケンスから、顔認証 に使うと良さそうな画像をピックアップして異な る動画に写った同一人物の認証精度を上げる Attentionを見つける過程をMarkov decision processでモデリングすることで、 強化学習(Q- learning)の枠組みに入れ学習できる 提案手法では、人物ID以外の追加の教師データ なしに学習させることが可能 概要
  4. 4. ■静止画の顔認証 1枚の画像に写った1人の顔画像を比較して、同じかどうかを判定 ■動画の顔認証 1本の動画に写った1人の顔のシーケンス画像を、同じかどうかを判定 動画像の顔認証 Same or not Same or not
  5. 5. • 人の移動によりブラーがおこる • 画像の輝度が時系列で変わる • 顔の向きが変わる Þ1人の顔画像でも特徴に分散が出てしまう 見分けやすい顔だけ使っていきたい! クオリティーの低そうな顔画像だけを取り除けないか? 動画像の顔認証の難しさ
  6. 6. 顔認証に利用する顔画像をState、取り除く画像を選択することをAction として、取り除いた後の報酬を最大化するような報酬を学習させる (ざっくり) 提案手法
  7. 7. 前準備が多いです わかりにくいプレゼンになると思いますので適時質問 してください
  8. 8. 提案手法のフロー 顔認証の特徴抽出 時系列の特徴表現 強化学習で適切な画像をピックアップ
  9. 9. フレーム間の特徴の関係は顔認証する上で重要なヒントになりうる =>動画フレームから取り出した特徴をbi-directional LSTMを利用して時 系列に計算しtemporal-poolingを行う Temporal Representation Learning 動画AがN^Aフレームの顔画像 C_1: CNN(顔認証の特徴抽出機) bi-directional LSTM Temporal Representation (隣接するr個のみの特徴を計算)
  10. 10. (前置き) 2つの動画の顔を比較するときの距離の定義は下記の通り Attention-aware Deep Reinforcement Learning 𝑋" , 𝑋$ : シーケンス顔画像 a_i のことをこの論文ではAttention(hard attention)と呼んでいる
  11. 11. 多くの先行研究では、Attentionのweightを計算す る際にfeature vectorの関係を利用している しかしながら、一般的に顔認証の特徴抽出アルゴリ ズムはpose / illumination / expressionなどに不 変な特徴として学習させている => 顔の特徴空間だけでなく、顔画像から直接 Attentionを計算するようなアルゴリズムが良いの ではないか? Attention-aware Deep Reinforcement Learning [Yang+, CVPR2017]
  12. 12. 今回の提案手法として、特徴空間からだけでなく、画像から直接 Attentionを計算出来るようにしたいので、強化学習させる際に、報酬を出 力するネットワークC_2を考えたい Attention-aware Deep Reinforcement Learning I_i: 画像空間からくる情報 M_i: 特徴空間からくる情報 C_2(I, M)を追加の教師データ無しに学習させるために、 エキスパートとして顔認証CNNである、C_1(x)の認識精度を活用する
  13. 13. 画像シーケンスから適切な画像をピックアップするには、2つの戦略が考えら れる (1) frame情報からダイレクトにクオリティーを計測し、高いものを持ってくる (2) クオリティーの低いものをStep by Stepで取り除いていく Þ(1)の戦略は教師データがないと厳しい、、、 (2)では、認証精度の増減を見るだけで良いので、ラベルなしでも出来る! 今回の手法では(2)の方法を取る 顔認証にベストな画像を探すには?
  14. 14. 認証に利用する顔画像の組み合わせをStateとして、1枚ずつ画像を減ら していき、減らしたときの精度を計算 Þ精度が上がるような(落ちないような)組み合わせを求める 前の状態からの差分どうなったかの問題に落ちるので、Markov decision processに出来る -> 強化学習で解ける 基本的な戦略
  15. 15. 強化学習のフロー(expertの作り方) 2つの動画の認証に 使う画像リスト(State)
  16. 16. 強化学習のフロー 2つの動画の認証精度を計測 2つの動画の認証に 使う画像リスト(State)
  17. 17. 強化学習のフロー 2つの動画の認証に 使う画像リスト(State) 2つの動画の認証精度を計測 Actionを計算
  18. 18. 強化学習のフロー 2つの動画の認証に 使う画像リスト(State) 2つの動画の認証精度を計測 報酬の計算(精度がどう変わったか?)Actionを計算
  19. 19. 強化学習のフロー 2つの動画の認証に 使う画像リスト(State) 2つの動画の認証精度を計測 報酬の計算(精度がどう変わったか?)Actionを計算 報酬が終了条件を満たしたらend
  20. 20. 強化学習のフロー 2つの動画の認証に 使う画像リスト(State) 2つの動画の認証精度を計測 報酬の計算(精度がどう変わったか?)Actionを計算 報酬が終了条件を満たしたらend この情報を用いてStudent(C_2, Q-network)を学習させる
  21. 21. Q関数はどう設計するのか 今回の手法ではQ関数の実装にNNを用いるが、その際2パターンの設計が考えられる • (1)Stateをinputにしてすべての取りうるactionに対するQ-valueを出力(DQN的なもの) • (2)Stateとactionを入れて、単一のQ-valueを出力 今回の場合、Stateが変わるたびにAction(Dropする場所)が変わってしまうので、(1)のパ ターンは難しい => よって今回は(2)のパターンを利用する
  22. 22. 画像xと特徴空間から計算されたvを入力として、Qを出力 するようなネットワーク v_iは4つのpartsからなる(2つの統計量をA,Bの動画から それぞれ出力、合計4つ) Q関数の実装 Drop前後での特徴の変化 State tのときに、aによってDropしたfeature h_aを引いたもの (これ合ってるの? p^Aの定義と合わない気がするけど) そしてこれを最適化する Dropした後の特徴量の分散
  23. 23. アルゴリズム(学習)
  24. 24. 学習させたQ関数を用いて、逐次的に Dropさせ、A, Bそれぞれ含まれるフ レーム数がthreshold以下になるまで 繰り返す。 アルゴリズム(識別)
  25. 25. 下記のデータセットで実験 • YouTube Face dataset (YTF) • Point- and-Shoot Challenge (PaSC) • Youtube celebrities dataset (YTC) BaseとなるCNNは論文中[40](Center Loss)を利用 Experiments [Wen+, ECCV2016]
  26. 26. ■SOTAの比較 deep FR以外には勝ってる Results on YouTube Face Dataset (deep FRは正面画像をきれいに 選んだりTriplet Lossの学習の際 にデータ選択を工夫しまくってる から負けてるだけなんだからね! こっちの実装のほうが簡単なんだ からねっ! By 著者)
  27. 27. ■Attentionの効果の比較 NANというAttention baseの手 法と比較 Temporal Ansamble(TR)と ADRLは効果がある(と言ってい る) Results on YouTube Face Dataset NAN [Yang+, CVPR2017] (彼らは自分らよりパワフルな ネットワーク使ってるけどな!By 著者)
  28. 28. Analysis on temporal representation learning Temporal Representationの周 辺の値と、Drop時のしきい値を変 えたときの実験結果 (縦軸は多分正答率、positive 250 + negative 250 = 500)
  29. 29. その他実験
  30. 30. Qでソートした結果の定性評価 Analysis on deep reinforcement learning
  31. 31. 動画の顔認証の精度を上げるために最適な画像を選択する方法の提案 認証に利用する顔画像の選択方法をMarkov decision processに落とす ことで強化学習の枠組みを適用できた 顔画像の良し悪しを、顔認証精度の比較問題に落とすことでexpertを作り、 追加ラベル無しでQ学習の枠組みに落とした 大体SOTAの精度がでた まとめ
  32. 32. We are finding awesome researchers! Please contact us! Mail: recruit@abeja.asia https://www.wantedly.com/companies/abeja

×