SlideShare a Scribd company logo
1 of 44
輪講 第2回
Learning from Simulated and
Unsupervised Images
through Adversarial Training
Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind,
Wenda Wang, Russ Webb Apple Inc
庄野研究室 1410142 森 元輝
目次
1/
論文の概要
背景
SimGAN
実験方法・結果
考察・展望
現実の目の画像はどっち?(1/2)
2/XX
グループA グループB
シミュレートした
人工画像
現実画像
現実の目の画像はどっち?(2/2)
3/XX
グループA グループB
SimGANでの
精製画像
現実画像
論文の概要
4/XX
シミュレータで作った人工画像をGANを利用して
現実感のある 洗練された画像にしよう!
CVPR2017におけるベストペーパー
目次
5/
論文の概要
背景
SimGAN
実験方法・結果
考察・展望
背景
6/XX
深層学習においては大規模なデータが必要
→シミュレータ(Unity等)による人工データ
利点
短点
実画像とのギャップ
学習器性能も高くない
アノテーション情報
大量作成
背景
7/XX
Kinectの姿勢推定
→弱学習器の学習に人工データを用いている
[ J. Shottonら,2011]
背景
8/XX
人工画像のみで学習させるのは非現実的
→実画像テストデータに対する性能の向上が難しい
人工 現実
目的:人工データの現実性の向上
背景
9/XX
現実性を付与するには?
→レンダリングアルゴリズムの利用
・ 計算コスト大
・ モデリングの労力
・ 現実画像の全特徴を捉えることの難しさ
背景
10/XX
GANのアプローチを利用したSimGANを提案
S+U学習(Simulated and Unsupervised)
→ラベル無し現実画像,シミュレートされた人工画像の利用
トレーニング
11/XX
現実データ
人工データ
精製データ
学
習
現実データでテスト
正解率
精製
Refine
目次
12/
論文の概要
背景
SimGAN
実験方法・結果
敵対的生成ネットワーク GAN
13/
・Generative Adversarial Network [Goodfellowら,2014]
生成器(generator)と識別器(discriminator)
2つのネットワークで構成
生成器
→識別器が見分けられな
い偽の画像データを作る
識別器
→入力された画像が偽物
か本物かどうか見極める
VS
GANによる画像生成例
14/10
Goodfellowら
黄色枠が訓練データ それ以外が生成データ
よく似たデータを生成可能
Sim-GAN
15/XX
敵対的損失を伝える
バッチに現実画像と精製画像でDへ入力
SimGANとGANの異なる点
16/XX
①Refinerへの入力はシミュレートされた人工画像
②自己正則化項の追加
③ピクセルを局所的に敵対的損失を求める
④過去のRefinerの精製画像をバッチに混ぜる
①Refinerへの入力
17/XX
GAN SimGAN
GANではinputはノイズベクトル
SimGANではinputは人工画像
Generator
ノ
イ
ズ
z
𝑧1
⋮
𝑧 𝑛
S+U学習
18/XX
Simulated + Unsupervised → シミュレートされた人工画像 + 教師無し
目的
ラベルが無い現実画像𝑦𝑖 ∈ を用いて
人工画像𝑥を精製する𝑅𝑒𝑓𝑖𝑛𝑒𝑟 𝑅 𝜃 𝑥 を学習する.
𝜃:パラメータ(重み)
シミュレータからの注釈情報を保存しつつ,見かけは現実画像に
(ex.視線方向)
SimGANの損失関数
19/XX
SimGANのLoss:
→この全体のLossを最小化, 𝜃を最適化する.
現実感を付与するロス 注釈を保存するロス
SimGANのトレーニング手順
20/XX
Discriminatorにおける損失関数
refineされた画像 現実画像
ピクセル単位で見た,クロスエントロピーの総和
Dのパラメータ𝜙は,ミニバッチごとにSGDで更新する.
(確率的勾配降下法)
②自己正則化項の追加
21/XX
Refinerにおける損失関数
𝜓: 特徴空間への写像 (ここでは恒等写像)
自己正則化項を導入(L1ノルム)
→注釈情報を保持するため.
ピクセル単位での違いを最小化する働き.
③局所的敵対的損失
22/XX
→学習時にDiscriminatorへ入力画像をすべて入れ
るのではなく,ある領域単位に分割する.
→各パッチで,現実データである確率を求め,
損失関数では全領域分のクロスエントロピーlossの和
④過去のRefinerの精製画像利用
23/XX
Discriminatorが過去のRefinerの出力も常に「偽物」
と分類出来るべき.
(1)バッファBの内のb/2枚
と,現在のR精製b/2枚で
バッチ作成
(2)イテレーション中にバッファ
B中のb/2枚を現在のR精製
b/2枚を交換.バッファが更新.
SimGANのトレーニング手順
24/XX
a
Refinerの重み更新
Discriminatorの
重み更新
片方の重みを更新するときは,もう片方を固定
目次
25/
論文の概要
背景
SimGAN
実験方法・結果
実験
26/XX
2つのデータセットに対してSimGANを使用し,評価
①視線推定
MPIIGaze dataset [Zhang (2015)]
UnityEyes[Wood (2016)]
②手の姿勢推定
NYUhand pose dataset
→72757枚のトレーニングデータ
+8251枚のテストデータ
視線推定の実験
27/XX
・人工画像をRefineするSimGANのネットワークと,
目の視線方向を出力する視線推定ネットワークで実験
・MPIIGazeデータセットのラベルは未使用
・Refiner 入力データサイズ (55 x 32)
視線推定の実験
28/XX
◆定性評価
・Refineしたとき視線方向が保持
・ノイズ,皮膚テクスチャ,虹彩がより現実画像に近い
視線推定の実験
29/XX
◆特徴空間の自己正則化
人工 精製 現実
・カラー画像におけるRefine
→人工画像と現実画像の分布に大きな差
・RGBチャンネルの平均値でL1ノルム
視線推定の実験
30/XX
◆ビジュアルチューリングテスト(1/2)
→画像を現実画像か精製画像か分類させる実験
被験者数10人 現実画像50枚 精製画像50枚
計100枚の画像セットを1枚ずつ{現実,人工}でラベル付け→1000回試行
Accuracy = 0.517 (p=0.148)
→人間は現実画像と精製画像を区別できない
視線推定の実験
31/XX
◆ビジュアルチューリングテスト(2/2)
それに対して,現実画像10枚 人工画像10枚
被験者数10人について実験→200回試行
→162回の正答
Accuracy = 0.81 (p≤ 108)
→人間は現実画像と人工画像を区別
視線推定の実験
32/XX
◆定量評価(1/3)
・学習させるネットワークはZhangらのCNNと似ている
→出力が,視線方向の3次元ベクトル
→変更点 L2ノルムを用いる
[Zhangら,2015]
視線推定の実験
33/XX
・Ground truth(正解)の保護
→100枚の人工画像と精製画像の対応づけ
手動で精製画像の瞳孔の部分に楕円をフィット
瞳孔の中心部分を近似
(精製画像と人工画像との瞳孔中心の絶対差
1.1 ± 0.8𝑝𝑖𝑥𝑒𝑙 目の画像の大きさ 55𝑝𝑖𝑥𝑒𝑙)
(参考,機械の目が見たセカイ -コンピュータビジョンがつくるミライ (19) 視線計測(3) - カメラのみを用いた視線計測
http://news.mynavi.jp/photo/series/cv_future/019/images/003l.jpg)
他のネットワークとの比較
34/XX
◆定量評価(2/3)
R/S: 訓練する画像データが{Real,Synthetic}のどちらであるか
Error: 視線推定に得られた角度の間違いの平均値
→提案手法が一番良い結果
視線推定の実験
35/XX
◆定量評価(3/3)
正解の視線方向から,d=7度以内の画像の割合
→22.3%の向上
→データセットを増やせば大きな改善
手の姿勢推定の実験
36/XX
◆定性評価
→ノイズ部分を良く再現
手の姿勢推定の実験
37/XX
◆定量評価
・NYU hand poseトレーニングセット
Stacked Hourglass Net[Yangら,2016]
と似たCNNを学習
→14の手関節を学習
↓
・NYU hand poseテストセットで評価
Hourglass Design
38/XX
→Human Pose Estimationに使用.[Yangら2016]
CNNが出力するスケルトン
39/XX
手の指定推定実験
40/XX
→データセットを大きくして学習に用いたら
Sotaな結果を記録 ( d = 5度)
手の姿勢推定の実験
41/XX
◆除去実験
→バッチに過去の精製画像を混ぜた効果を測る
→画像履歴を混ぜた方が現実性が増す
→視線推定方向の誤差が減少する
履歴使用 7.8度 履歴不使用 12.2度
手の姿勢推定の実験
42/XX
◆除去実験
→局所的な敵対的損失がどのように働いてるか
→人工的効果を除き,手の周りのノイズがより現実的
まとめ
43/XX
・ラベル無しの現実データを用いたGANを用いる
SimGANについて, State-of-the-artな結果を示した
・人工画像の注釈を保持しながら,現実性を付与す
るS+U学習の提案をした

More Related Content

What's hot

Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphingDeep Learning JP
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
 
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)Hiroharu Kato
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量takaya imai
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)Tenki Lee
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)HironoriKanazawa
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイNaoya Chiba
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術Takuya Minagawa
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 

What's hot (20)

Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 

Similar to SimGAN 輪講資料

サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)Toshihiko Yamakami
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2Kuniyuki Takahashi
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめDigital Nature Group
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太Preferred Networks
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)Akisato Kimura
 
複数ロボットシミュレーション環境・箱庭 STAMP:STPAでの活用.pptx
複数ロボットシミュレーション環境・箱庭 STAMP:STPAでの活用.pptx複数ロボットシミュレーション環境・箱庭 STAMP:STPAでの活用.pptx
複数ロボットシミュレーション環境・箱庭 STAMP:STPAでの活用.pptxtmori2
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーWEBFARMER. ltd.
 
[DL Hacks]AVID: Adversarial Visual Irregularity Detection
[DL Hacks]AVID: Adversarial Visual Irregularity Detection[DL Hacks]AVID: Adversarial Visual Irregularity Detection
[DL Hacks]AVID: Adversarial Visual Irregularity DetectionDeep Learning JP
 

Similar to SimGAN 輪講資料 (13)

ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
 
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
 
AttnGAN
AttnGANAttnGAN
AttnGAN
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
20130605-JSAI2013
20130605-JSAI201320130605-JSAI2013
20130605-JSAI2013
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 
複数ロボットシミュレーション環境・箱庭 STAMP:STPAでの活用.pptx
複数ロボットシミュレーション環境・箱庭 STAMP:STPAでの活用.pptx複数ロボットシミュレーション環境・箱庭 STAMP:STPAでの活用.pptx
複数ロボットシミュレーション環境・箱庭 STAMP:STPAでの活用.pptx
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマー
 
[DL Hacks]AVID: Adversarial Visual Irregularity Detection
[DL Hacks]AVID: Adversarial Visual Irregularity Detection[DL Hacks]AVID: Adversarial Visual Irregularity Detection
[DL Hacks]AVID: Adversarial Visual Irregularity Detection
 

SimGAN 輪講資料

Editor's Notes

  1. 敵対的生成ネットワークを用いた~の生成に関する研究と題しまして,庄野研究室の森が発表します。
  2. 姿勢推定とは、撮影した映像から、頭、手、腕、脚などの部位を検出し、それぞれがどのように動いているかによって、姿勢を推定する仕組み 蘭花無フォレスト
  3. 人工画像に対するか適合
  4. 現実 精製 似てる アノテーションが保持されないといけない 人工感をけす
  5. 生成モデル…訓練データの分布と生成データの分布が一致するように学習し,擬似的なデータをサンプリング出来るモデル. 確率分布のデータxに対するパラメタ集合thetaによって定まる確率分布(x;theta)に対しての最尤推定とかも生成モデル.(確率分布を過程して…分布のパラメータを推定しちゃうのが最尤推定) (ガウス分布などの簡単な分布を予測せずに)複雑な分布の形自体をニューラルネットで推定しようとすると正規化できない Ianら.画像を生成するニューラルネットワーク VS 画像の判別を行うニューラルネットワーク
  6. generatorとdiscriminatorの学習が進んでいきます。最終的には、generatorは訓練データと同じようなデータを生成できるようになることが期待されます。このような状態では、訓練データと生成データを見分けることができなくなるため、discriminatorの正答率は50%になります。 DDは訓練データと生成データに対して正しくラベル付けを行う確率を最大化しようとします。一方、GGはlog(1−D(G(z)))log⁡(1−D(G(z)))を最小化しようとします。これらをまとめて以下のように表現します。
  7. の式は,2 つのクラス分類問題に対する, クロスエントロピー誤差に相当する. こ
  8. 現実性を人工画像に付与するために,我々は人工画像と現実画像の分布の間の差を埋める必要がある.
  9. 確率分布図w*hを出力 Lossは和 w*H次元パッチ 画像を局所領域に分割したときの各領域ごとdiscriminatorに区別させた. 各局所領域においてもSimGANで変換した画像に現実感が付与されている状態では,現実の画像の局所領域と区別がつかないはず.
  10. Gaze→
  11. MPIIGazeデータセットのラベルは未使用
  12. 精製画像の例を示している.図示されている様に,人工画像の有意な質的改善を観察している.SimGANは,実際の画像における肌の質感,センサーノイズや虹彩領域の外観をとても良く捉えている.本手法では,注釈情報である視線方向を保持しながら,現実感を向上している点を特筆している.
  13. 視線推定は不変性を加えるためグレースケールで取り組まれるのがいいため定性ではグレースケールを用いる.
  14. P値 合わせて100枚ランダムに並び替えて,100枚すべてに対してラベル付けを行ってもらう.
  15. 元々シミュレートされた人工画像に視線方向情報有り 小さい 視線は連続値 Support Vector Regressionや、Random ForestによるRegression等を用いることができます。このアプローチの欠点は、学習用データとして、さまざまな人が、さまざまな方向を見た目画像が必要になることです。最近では、3次元計測が可能なKinect等のDepth Cameraを用いて3次元の目画像を撮影し、その3次元の目画像から大量の学習用データを生成することで、高精度な視線推定が可能になってきています。
  16. CNNの構造は同一である
  17. simGANの出力によるトレーニンgうは,人工デーたによるトレーニングよりも優れている. MPIIGaze datasetの現実画像における,外観に基づく視線推定の定量結果.プロットは,トレーニングのデータの例の数が異なる場合には,視線方向の正解方向と比較した度数誤差関数として,累積曲線を示している.
  18. エッジ部分で距離の差,ノイズ
  19. 多くの最先端の手の姿勢推定の方法は,いくつかのステップから構成されるカスタマイズされるパイプラインである.私たちは,他の要素から来るバイアスを避けるために人工画像を向上させる効果を解析するために,1つの深いニューラルネットワークを用いる.
  20. グローバル敵対的損失は, 全結合層を識別器に持ち, 画像全体を現 実画像か精製画像かを分類している.不自然な距離分布になっている