Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向

1,229 views

Published on

2019年6月2日の「ICLR'19 読み会in京都」での発表資料です。
https://connpass.com/event/127970/

そもそもFeature Disentangleとは何か?
どんな課題を解決できるのか?
どんな研究が増えてるのか?
紹介します。

[紹介論文] Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer

Published in: Technology
  • Be the first to comment

ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向

  1. 1. ICLR 2019 読み会 in 京都 ICLRから読み取るFeature Disentangleの研究動向 [紹介論文] Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer 2019/06/02 Yamato OKAMOTO
  2. 2. 自己紹介 岡本大和(おかもとやまと)  京都大学でパターン認識を研究して修士課程修了  オムロンで技術起点のBusiness Developmentを担当  夢は京都をポスト・シリコンバレーにすること ⇒ 京都の学生と変人が持つパワーを世界に知らしめたい @ICDM’18 Banquet Twitter : RoadRoller_DESU
  3. 3. 本日の発表内容  Feature Disentangleってどんな技術?  なんで必要なの?  今までどんな手法が提案されたの?  ICLRでどんな論文が出たの? Disentangleという技術を 背景から正しく理解して頂くための スライド構成となっています
  4. 4. Paper about Disentangle is Increasing タイトルに『Disentangle』を含む論文数 CVPR’2018 1件 CVPR’2018 5件 CVPR’2019 8件 NIPS’2016 0件 NIPS’2017 4件 NIPS’2018 8件 ICLR’2016 1件 ICLR’2017 1件 ICLR’2018 2件
  5. 5. What is Feature Disentangle ?? 『entangle』と『disentangle』 引用元: https://ejje.weblio.jp/ 『Feature Disentangle』とは 機械学習における特徴量のもつれをほどく研究
  6. 6. 機械学習で画像識別器を構築 Why need Disentangle ?? 機械学習は与えられたデータに対してタスクを解けるよう特徴量設計する 人間にとって意味の分かる形(Semantic)に設計されるとは限らない 学習データは識別できても 現場では識別できないことが多い 外形や部品有無に注目すれば『Telephone』と類似する しかし、色味や背景や部品配置に注目すると完全一致はしていない ⇒ 注目してほしくない部分まで特徴量に含めて学習することがある AI PC AI Cup AI Telephone AI ??? 引用元: Amazon-Dataset、DSLR-Dataset
  7. 7. Problem Example (1) (例)Classification (*Unsupervised Domain Adaptation) • 外形の特徴にだけ注目すれば数字識別は可能 • 背景、配色、シャープネスに注目するとどれも異なって見えてしまう 引用元: http://ufldl.stanford.edu/housenumbers/ USPS Dataset SVHN Dataset どんな特徴量に注目して数字識別しているか不明。 USPS Datasetを完璧に識別できるモデルを構築しても SVHN Datasetは識別できないかもしれない
  8. 8. Problem Example (2) (例)Image Translation • 顔画像を『笑顔に変換しなさい』というタスクを実行するとき 『表情』に関する特徴量を 操作することで、笑顔への 画像変換に成功 笑顔に変換できたものの、 顔の構造まで変わって別人 になっている 引用元: Exploring Disentangled Feature Representation Beyond Face Identification https://arxiv.org/pdf/1804.03487.pdf 『顔構造』と『表情』の特徴量が ごちゃまぜのentangle状態になっている 画像変換
  9. 9. Traditional Method ドメインを識別できる特徴量と、それ以外の特徴量へと分離抽出する ドメインを識別できない特徴量 (ドメイン共通で存在する特徴量) によって、ドメインの相違に惑わ されないロバストな識別を実現。 2つに分離した特徴量のうち、 一方を変換(or合成)することで、 スタイル変換(or合成)を実現。 特徴量 (ドメイン識別不可) データ 特徴量 (ドメイン識別可能) 敵対学習やReconstructionが 広く用いられる 損失なく、かつ、重複なく、 分離できるかどうかがカギ
  10. 10. A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation(NIPS'18) ドメイン特徴量と、数字の特徴量をDisentangleする手法 ①数字識別できる、かつ、ドメイン識別できないような特徴量を抽出 ・数字識別 : 0 or 1 or ... or 9 ? ・ドメイン識別: USPS or SVHN ? ②元データを『特徴量+ドメイン情報』から復元できるよう制約する ・ドメイン情報以外は全て特徴量に抜け漏れなく含まれるようになる 引用元: https://papers.nips.cc/paper/7525-a-unified-feature-disentangler- for-multi-domain-image-translation-and-manipulation.pdf 特徴量 (ドメイン識別不可) データ X 特徴量 抽出器 ドメイン 識別不可 数字 識別可 ドメイン情報 (USPS or SVHN) データ 復元 X’ 復元器+
  11. 11. Exploring Disentangled Feature Representation Beyond Face Identification (CVPR’18) 特徴量の各成分を[male],[smile] など意味ある内容に対応させる手法 敵対学習により個人を識別できる特徴量とそうでない特徴量に分離 VAEで特徴量の各成分の独立性を大きくする 引用元: 関西CVPRML勉強会 CVPR2018読み会 - feature disentangling 橋本敦史 https://www.slideshare.net/atsushihasimoto/cvprml-cvpr2018-feature-disentangling ネットワーク構造 目的の成分だけを操作して 思い通りに画像を変換可能
  12. 12. Diverse Image-to-Image Translation via Disentangled Representations (ECCV'18) 分離抽出したドメイン特徴量を操作することでStyle変換する手法 猫と犬のStyle変換、冬と夏のStyle変換、画風のStyle変換、etc... 引用元: https://eccv2018.org/openaccess/content_ECCV_2018/papers/Hsin-Ying_Lee_Diverse_Image-to- Image_Translation_ECCV_2018_paper.pdf + = + = + = Photograph -> Portrait Winter -> Summer Moment -> van Gogh
  13. 13. Simple Question これってどんな関係性?? 『ドメインAのサンプルをaとする』 『ドメインBのサンプルをbとする』 『bはaに含まれる情報を全て含む』 『さらにbはaに含まれない情報も含む』
  14. 14. Simple Question これってどんな関係性?? ドメインA ドメインB 『ドメインAのサンプルをaとする』 『ドメインBのサンプルをbとする』 『bはaに含まれる情報を全て含む』 『さらにbはaに含まれない情報も含む』
  15. 15. Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer (ICLR’19) これから紹介する論文は、このような条件下で Content Additionする手法(※Style Transferではない) + = 『ドメインAのサンプルをaとする』 『ドメインBのサンプルをbとする』 『bはaに含まれる情報を全て含む』 『さらにbはaに含まれない情報も含む』 + = Style Transfer Content Addition
  16. 16. Their Contributions Q. 従来手法でContent Additionは実現できなかったのか? A. 難しいです 従来手法は『Content+Style』という構成を前提として、 低次元かつ独立性を高めることでStyleをうまく抽出した。 つまり『Content+Content』という構成は想定していない ※Content:高次元特徴量(顔の基本構造、風景) ※Style :低次元特徴量(表情、季節、配色) 提案手法 従来手法 B A 従来手法は、AとBがそれぞれ ドメイン特徴量を含む前提なので、 今回の条件は想定外。 ドメインを区別する特徴量として Bにだけ存在するメガネではなく、 色合いの情報を捉えてしまった。
  17. 17. Their Contributions Q. 従来手法でContent Additionは実現できなかったのか? A. 難しいです データ次第では『メガネ有り』というStyleを抽出できる場合もあるかもしれない。 しかし、従来のネットワーク構造では低次元のStyleとしての記述を前提とするため、 ある画像中の特定のメガネをAdditionすることは困難。 (一律で代表的なメガネをAdditionさせることなら可能かもしれない) 提案手法 従来手法 B A
  18. 18. Proposed Method E2 特徴量 z2 D E1 特徴量 z1 E2 0 D E1 特徴量 z1 D (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ドメインB ドメインA
  19. 19. Proposed Method E2 特徴量 z2 D E1 特徴量 z1 E2 0 D E1 特徴量 z1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss (3)Reconstruction Lossによって、 E1が顔の特徴量を捉えられるよう学習される ドメインB ドメインA
  20. 20. Proposed Method E2 特徴量 z2 D E1 特徴量 z1 E2 0 D E1 特徴量 z1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss (2)Reconstruction Lossによって、 E1とE2あわせて顔とメガネの特徴量を捉えられるよう学習される ドメインB ドメインA
  21. 21. Proposed Method E2 特徴量 z2 D E1 特徴量 z1 E2 0 D E1 特徴量 z1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ただし、これではz1とz2の役割分担が不明。 z1が全特徴量を捉えたり、特徴量がEntangleしている場合もある。 ??? ドメインB ドメインA
  22. 22. Proposed Method E2 特徴量 z2 D E1 特徴量 z1 E2 0 D E1 特徴量 z1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss そこで、(1)Domain Confusion Lossを導入。 Discriminatorを設けてz1からドメイン推測できないよう学習。 Which Domain ?? (推測不可にする) Which Domain ?? (推測不可にする) ドメインB ドメインA
  23. 23. Proposed Method E2 特徴量 z2 D E1 特徴量 z1 E2 0 D E1 特徴量 z1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss メガネの特徴量がz1に含まれてしまうと、 ドメインBにしか存在しない特徴量なので即ドメインがばれる。 ドメインB ドメインA メガネ特徴量を含むから ドメインBだ!! 顔の特徴量 メガネの特徴量
  24. 24. Proposed Method E2 特徴量 z2 D E1 特徴量 z1 E2 0 D E1 特徴量 z1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss 顔の特徴量がz2に流れてしまうと、 ドメインAで(3)Reconstructionが成立しない。 ドメインB ドメインA 一部の情報が欠損する 顔の特徴量 メガネの特徴量
  25. 25. Proposed Method E2 特徴量 z2 D E1 特徴量 z1 E2 0 D E1 特徴量 z1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss よって、顔の特徴量はz1に、メガネの特徴量はz2に 分離して流れるよう学習される。 ドメインB ドメインA 顔の特徴量 メガネの特徴量
  26. 26. Proposed Method E2 特徴量 z2 E1 特徴量 z1 E2 0 E1 特徴量 z1 D 最後は2つのドメインで特徴量を合成すれば、 Content Additionが成立!! ドメインB ドメインA 顔の特徴量 メガネの特徴量
  27. 27. Proposed Method E2 特徴量 z2 D E1 特徴量 z1 E2 0 D E1 特徴量 z1 D (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ドメインB ドメインA ※(再掲) 全体像※
  28. 28. Experiment 提案手法 従来手法 提案手法 従来手法提案手法 従来手法 メガネだけでなく、髭、口など、 ドメイン定義と応用は様々
  29. 29. まとめ Feature Disentangleにより合成画像を生成する手法を紹介 従来のStyle Transferではなく、Content Additionした点が新しい 着眼点や問題設定がうまい論文だと感じた 単純な手法だけにドメイン定義の工夫次第で様々な応用が考えられる 例)Content Removalにも応用可能

×