SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
HoloGAN: Unsupervised Learning of 3D Representations
from Natural Images (ICCV2019)
Kento Doi, Iwasaki Lab (aeronautics and astronautics department)
目次
• 書誌情報・論文概要
• 研究背景・目的
• 先行研究
• 提案手法
• 実験
• まとめ
書誌情報・論文概要
書誌情報
• 著者 : Thu Nguyen-Phuocさん
• PhD student at the University of Bath
• machine learning, 3D vision and computer graphics
• ICCV 2019 accepted
• 選んだ理由
• 物体の三次元的な形状を考慮した画像生成は重要な技術 (と思った)
• 結果の画像がすごい
• スライドの画像は断りがなければ本論文からの引用
論文概要
• 自然画像から教師なし学習で三次元表現 (3D representation)を獲得する
手法の提案
• 3Dモデリングの知識をモデルに組み込んだ
• ボクセルを生成→剛体変換→2D画像にレンダリング
• オブジェクトの姿勢と属性を分離することが可能
• つまり, 画像生成の際に姿勢のみを操作することができる
• 次ページの画像参照
※特に引用元の記載がない画像は, 本論文からの引用
研究背景・目的
研究背景① : GANs
• できること
• 高精細画像生成 (SAGAN, PGGAN, BigGAN, StyleGANなど)
• 画像変換, 画像編集, motion transfer など
• 苦手なこと
• (conditionalでない) GANで特定の属性を陽に制御すること
• cGANでも, ラベルつきのデータを集めるのは大変
T. Karras et al. “A Style-
Based Generator Architecture
for Generative Adversarial
Networks”, CVPR, 2019.
C. Chan, S. Ginosar, T. Zhou,
and A. A. Efros. Everybody
dance now. arXiv:1808.07371,
2018.
画像生成 motion transfer
研究背景② : 三次元構造を理解した画像生成
• ラベルを与えられても物体の三次元構造を理解した画像生成は難しい
• ex) 単一画像から新規視点の画像の生成
• out-of-plane rotation が苦手
• 最近の手法では大量のラベルデータがないと綺麗に生成ができない
• 3Dデータを用いる方法もあるが, データ収集のコストがさらに高い
画像
out of plane rotation画像+ラベル
A. Dosovitskiy, J. Springenberg, M. Tatarchenko, and T. Brox. Learning to
generate chairs, tables and cars with convolutional networks. IEEE
Transactions on Pattern Analysis andMachine Intelligence, 39(4):692–705, 2017.
三次元データを用いた学習
J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman.
“Visual object networks: Image generation with disentangled 3D
representations”. In NeurIPS, pages 118–129, 2018.
研究のモチベーション
• 教師なしで三次元表現を獲得するネットワーク構造の設計
• これにより, 視点・形状・外観を操作できる
• 三次元空間についての帰納バイアスを深層生成モデルに導入
本研究では, 下のような順で処理を行うことにより実現
1. 三次元空間でデータを生成
2. 剛体変換
3. 二次元平面に投影
4. 最終的な画像を生成
三次元データの表現方法
explicitな三次元表現
• ボクセル, メッシュなど
 剛体変換などの操作が容易
× メモリを効率悪い
× 離散化の方法が非自明
implicitな三次元表現
• 潜在表現ベクトルなど
 空間的にコンパクト
 表現力が高い
× 陽な変換が難しい
HoloGAN
• 提案手法
 明示的な変換ができる
 表現力も高い
 画像のみから学習可能
H. Kato et al. “Neural 3D Mesh Renderer“, CVPR, 2018. [YouTube] Generative Query Networks
先行研究
先行研究 : GANs
• GANsはノイズからrealisticなデータへの変換を学習する
• 近年のGANのネットワーク構造に関する研究は, 学習の安定性や高精細画
像の生成に注力している
• 教師なしで特徴量の分離を学習するための, ネットワーク構造の研究は限
られる
1. StyleGAN (2018)
2. On self modulation for generative adversarial networks (2019)
損失関数の設計よりもネットワーク構造の方が重要だということを示唆
先行研究 : GANs
• StyleGAN (arXiv 2018)
• ランダムノイズを特徴マップのスケール, バ
イアス項として入力
• Progressive GANを越えて, 超高精細な画像
の生成に成功
• 異なる深さのノイズが異なる特徴を担当
(disentangle)
T. Karras et al. “A Style-Based Generator Architecture for
Generative Adversarial Networks”, arXiv, 2018.
先行研究 : 3Dを考慮した画像生成
• 3Dから2Dへレンダリングする機構 (RenderNet T. H. Nguyen-Phuoc et al.
2019)
× 学習データに3Dデータが必要
• 新しい視点の画像を生成するための三次元の埋め込み表現を獲得する手法
(Rhodin et al. 2018, Sitzmann et al. 2018)
× 入力に複数視点の画像が必要 (Sitzmann et al.)
× 背景のマスクとオブジェクトの姿勢という教師データが必要 (Rhodin et al.)
• 幾何的な情報とテクスチャの情報を分離する手法 (J.-Y. Zhu et al. 2018)
• (1) 3Dオブジェクトを生成, (2) 法線, デプス, シルエットにレンダリング, (3) 画像変換
ネットワークにより, 2D画像に変換
× 学習に3Dデータが必要
× 単一オブジェクトかつ背景が白いデータしか扱えない
先行研究 : 3Dを考慮した画像生成
• HoloGANに近いのはRajeswarらの研究 (Pix2Scene)
• Pix2Scene
• 教師なしでimplicitな3D表現を学習
× 特徴表現がimplicit
• HoloGANはexplicitな表現を使っている
× 単純な人工データでしか学習できない
S. Rajeswar, F. Mannan, F. Golemo, D. Vazquez, D. Nowrouzezahrai, and A.
Courville. “Pix2Scene: Learning implicit 3D representations from images”. 2019.
先行研究 : 特徴表現のdisentangle
• 中間表現を生成画像の一つの要素に対応するように分離する
• 多くの手法は教師ありの枠組みで学習
• ex) GQNでは, 他視点の画像を教師としている
• 教師なしの方法はβ-VAEとInfoGANが代表的
• どちらも損失関数の設計がcontribution
× priorの選定に敏感
× どの要素を学習するか制御できない
× 分離された要素が意味を持つ保証もない
× 生成画像の質と分離具合にトレードオフ (β-VAE)
× 複雑なデータセットでは学習が難しい
提案手法
提案手法
• アーキテクチャは以下のような処理を行うように設計されている
1. 3D-CNNで三次元表現を生成
2. カメラ姿勢をもとに変換を行う
• カメラ姿勢は一様分布からランダムにサンプル
• 剛体変換 (平行移動&回転) を行う
3. 2Dに投影
4. 2D-CNNで画像を生成
提案手法: 三次元表現の獲得
• HoloGANにおいて,
• 三次元表現は定数テンソルから生成される
• “style”はノイズベクトルzによって担われる
• ノイズベクトルzの入力はStyleGANの知見を活用
• MLPに通した後, 特徴マップのスケール, バイアスとして入力
• 入力の深さにより異なるレベルのディティールを制御していることが実験的にわ
かっている
提案手法: 視点に依存した生成の学習
• 3D featureに3D convを適用
• 加えて, 2D画像に投影する前にカメラ姿勢 (ランダム) による変換を行う
• HoloGANが三次元表現表現を学習していることを保証する大事な操作
• DR-GANでも同様の操作をしているがexplicitな変換ではない (pose codeをベクトル
としてNNの入力としている)
この三次元表現は…
• styleと分離されている
• あらゆる視点からレンダリング可能
提案手法: 視点に依存した生成の学習 (Rigid-
body transformation)
• 仮想的なピンホールカメラを想定
• ランダムなパラメータで剛体変換
• ランダムなθで3D featureを回転
• 平行移動は今回はしなかった
• 詳細はsupplemental document…
ここ
提案手法: 視点に依存した生成の学習
(Projection Unit)
• HoloGANは微分可能な投影機構 (projection unit) を持つ
• 3Dから2Dへの投影 (4Dテンソルを3Dテンソルに変換する)
• 学習データは異なる透視画法でキャプチャされているので, 透視投影を学習する必要がある
• カメラパラメータは得られないので, 代わりに3D convを用いて三次元表現をperspective frustumに
変換 (projection unitの前の3D Convモジュール)
• projection unitは, reshaping layer, MLP, 活性化関数から構成される
• 詳細は補助資料参照…
ここ
提案手法: ロス関数
1. GANのロス
2. Identity regularizer
• 生成した画像からzが復元できるような制約を入れる
• zの違いが生成画像に現れるようにする
3. Style discriminator
• discriminatorの中間層のfeatureも判別不能にするロス
• それぞれの深さのfeatureが異なる因子を制御しているので全て揃える働き (本当か?)
• 学習が安定しそうな感じがある
実験
実験
• データセット
• 顔 (人間, 猫), 椅子, 車, ベッドルーム
• 椅子のデータセットはCGからレンダリングした画像を用いる
• 実装
• Generator : Adaptive Instance Normalization (AdaIN)
• Discriminator : instance normalization & spectral normalization
• 詳細は論文・補助資料参照
結果: 質的評価
• Identityを保ちながら滑らかに姿勢を変化させることができている
結果: 質的評価 (InfoGANとの比較)
• InfoGANは潜在表現と生成画像の相互情報量を最大化する手法
• HoloGANの方が上手に姿勢を変化させることができている (左)
• HoloGANはelevation方向の回転も再現できている (右)
結果: 量的評価
• KID scoreによる評価
• 画像の「質」に関する指標, 元のデータセットとの分布の近さを表す
• c.f.) FID score
• そこらのGANよりは綺麗な画像を生成する
• 特徴の分離と生成画像の質の両方を達成していてすごい!
結果: Deep 3D representation vs. 3D geometry
• visual object networks (VON) との比較
• 車画像の生成のsota
• 3D shape (voxel) を生成し, 2Dに投影 (depth, silhouette)
• その後テクスチャを与え画像に変換
• 3D変換はimplicit
J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman. “Visual object
networks: Image generation with disentangled 3D representations”. In NeurIPS, pages 118–129, 2018.
結果: Deep 3D representation vs. 3D geometry
• VON
• 背景がない画像を生成
• 苦手な角度がある
• HoloGAN
• 背景あり
• 滑らかな角度変化
• elevation方向の回転にも対応
結果:
shapeとappearanceの分離
• 入力に近いノイズと遠いノイズをそれぞれz1,
z2とする
• これらは画像の異なる要素を制御
• z1はshape
• z2はappearance
z1 z2
結果: ランダム3D変換をせずに学習
• 学習中に剛体変換をキャンセルするとどうなるか
姿勢の変換に関して滑らかな画像を生成できない
ここ
結果: ノイズの入れ方
• 提案手法はノイズを特徴マップのスケール, バイアスとして入力
古典的なGANと同じようにしたらどうなるか
生成に失敗する (disentangleがうまくいかない)
ここに
入れる
まとめ
まとめ
• 姿勢とidentityを分離して学習する手法の提案
• 三次元幾何を考慮したアーキテクチャの導入により実現
• 2DベースのGANと同等に高精細な画像を生成
• 実験においては, 意味のある三次元表現をちゃんと学習できた
• 感想
• 関連研究が参考になる
• 幾何的な知識を明示的に取り込む方法は発展しそう
参考文献
• T. Phuoc et al. “HoloGAN: Unsupervised learning of 3D representations from natural images”,
arXiv, 2019. (project page: https://www.monkeyoverflow.com/#/hologan-unsupervised-
learning-of-3d-representations-from-natural-images/)
• T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial Networks”,
CVPR, 2019.
• C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody dance now. arXiv:1808.07371, 2018.
• A. Dosovitskiy, J. Springenberg, M. Tatarchenko, and T. Brox. Learning to generate chairs,
tables and cars with convolutional networks. IEEE Transactions on Pattern Analysis
andMachine Intelligence, 39(4):692–705, 2017.
• J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman. “Visual object
networks: Image generation with disentangled 3D representations”. In NeurIPS, pages 118–129,
2018.
参考文献
• H. Kato et al. “Neural 3D Mesh Renderer“, CVPR, 2018.
• S. M. A. Eslami, D. Jimenez Rezende, F. Besse, F. Viola, A. S. Mor- cos,M. Garnelo, A. Ruderman,
A. A. Rusu, I. Danihelka, K. Gregor, D. P. Reichert, L. Buesing, T. Weber, O. Vinyals, D.
Rosenbaum, N. Rabinowitz, H. King, C. Hillier, M. Botvinick, D. Wierstra, K. Kavukcuoglu, and D.
Hassabis. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018.
• T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial Networks”,
CVPR, 2019.
• T. Chen et al. “On Self Modulation for Generative Adversarial Networks”, ICLR, 2019.
• T. Phuoc et al. “RenderNet: A deep convolutional network for differentiable rendering from 3D
shapes”, NeurIPS, 2018.
• H. Rhodin, M. Salzmann, and P. Fua. “Unsupervised geometry-aware representation for 3D
human pose estimation”. In ECCV, 2018
参考文献
• V. Sitzmann, J. Thies, F. Heide, M. Nießner, G. Wetzstein, and M. Zollhöfer. “DeepVoxels:
Learning persistent 3D feature embeddings”. arXiv:1812.01024, 2018.
• S. Rajeswar, F. Mannan, F. Golemo, D. Vazquez, D. Nowrouzezahrai, and A. Courville.
“Pix2Scene: Learning implicit 3D representations from images”. 2019.
• I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, and A. Lerchner.
β-VAE: Learning basic visual concepts with a constrained variational framework. In ICLR, 2017.
• X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever, and P. Abbeel. InfoGAN: Interpretable
representation learning by information maximizing generative adversarial nets. In NIPS, pages
2172–2180, 2016.
• L. Tran et al. Disentangled Representation Learning GAN for Pose-Invariant Face Recognition.
CVPR 2017.

More Related Content

What's hot

[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
Deep Learning JP
 
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
Yamato OKAMOTO
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
harmonylab
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
Deep Learning JP
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
SSII
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
Deep Learning JP
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
 
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
Deep Learning JP
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
 

What's hot (20)

[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 

Similar to [DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images

HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
Kento Doi
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
cvpaper. challenge
 
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
Hajime Mihara
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
Digital Nature Group
 
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...
Deep Learning JP
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
S_aiueo32
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
Deep Learning JP
 
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
YukiK2
 
Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )
cvpaper. challenge
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
Tatsuya Shirakawa
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
Hajime Taira
 
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Rei Takami
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤
 

Similar to [DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images (20)

HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
 
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...
[DL輪読会]DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face an...
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
 
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
 
Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
Study on Visual Analytics Framework for Formulating Evaluation Metrics of Mul...
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 

Recently uploaded (10)

遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 

[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ HoloGAN: Unsupervised Learning of 3D Representations from Natural Images (ICCV2019) Kento Doi, Iwasaki Lab (aeronautics and astronautics department)
  • 2. 目次 • 書誌情報・論文概要 • 研究背景・目的 • 先行研究 • 提案手法 • 実験 • まとめ
  • 4. 書誌情報 • 著者 : Thu Nguyen-Phuocさん • PhD student at the University of Bath • machine learning, 3D vision and computer graphics • ICCV 2019 accepted • 選んだ理由 • 物体の三次元的な形状を考慮した画像生成は重要な技術 (と思った) • 結果の画像がすごい • スライドの画像は断りがなければ本論文からの引用
  • 5. 論文概要 • 自然画像から教師なし学習で三次元表現 (3D representation)を獲得する 手法の提案 • 3Dモデリングの知識をモデルに組み込んだ • ボクセルを生成→剛体変換→2D画像にレンダリング • オブジェクトの姿勢と属性を分離することが可能 • つまり, 画像生成の際に姿勢のみを操作することができる • 次ページの画像参照 ※特に引用元の記載がない画像は, 本論文からの引用
  • 6.
  • 8. 研究背景① : GANs • できること • 高精細画像生成 (SAGAN, PGGAN, BigGAN, StyleGANなど) • 画像変換, 画像編集, motion transfer など • 苦手なこと • (conditionalでない) GANで特定の属性を陽に制御すること • cGANでも, ラベルつきのデータを集めるのは大変 T. Karras et al. “A Style- Based Generator Architecture for Generative Adversarial Networks”, CVPR, 2019. C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody dance now. arXiv:1808.07371, 2018. 画像生成 motion transfer
  • 9. 研究背景② : 三次元構造を理解した画像生成 • ラベルを与えられても物体の三次元構造を理解した画像生成は難しい • ex) 単一画像から新規視点の画像の生成 • out-of-plane rotation が苦手 • 最近の手法では大量のラベルデータがないと綺麗に生成ができない • 3Dデータを用いる方法もあるが, データ収集のコストがさらに高い 画像 out of plane rotation画像+ラベル A. Dosovitskiy, J. Springenberg, M. Tatarchenko, and T. Brox. Learning to generate chairs, tables and cars with convolutional networks. IEEE Transactions on Pattern Analysis andMachine Intelligence, 39(4):692–705, 2017. 三次元データを用いた学習 J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman. “Visual object networks: Image generation with disentangled 3D representations”. In NeurIPS, pages 118–129, 2018.
  • 10. 研究のモチベーション • 教師なしで三次元表現を獲得するネットワーク構造の設計 • これにより, 視点・形状・外観を操作できる • 三次元空間についての帰納バイアスを深層生成モデルに導入 本研究では, 下のような順で処理を行うことにより実現 1. 三次元空間でデータを生成 2. 剛体変換 3. 二次元平面に投影 4. 最終的な画像を生成
  • 11. 三次元データの表現方法 explicitな三次元表現 • ボクセル, メッシュなど  剛体変換などの操作が容易 × メモリを効率悪い × 離散化の方法が非自明 implicitな三次元表現 • 潜在表現ベクトルなど  空間的にコンパクト  表現力が高い × 陽な変換が難しい HoloGAN • 提案手法  明示的な変換ができる  表現力も高い  画像のみから学習可能 H. Kato et al. “Neural 3D Mesh Renderer“, CVPR, 2018. [YouTube] Generative Query Networks
  • 13. 先行研究 : GANs • GANsはノイズからrealisticなデータへの変換を学習する • 近年のGANのネットワーク構造に関する研究は, 学習の安定性や高精細画 像の生成に注力している • 教師なしで特徴量の分離を学習するための, ネットワーク構造の研究は限 られる 1. StyleGAN (2018) 2. On self modulation for generative adversarial networks (2019) 損失関数の設計よりもネットワーク構造の方が重要だということを示唆
  • 14. 先行研究 : GANs • StyleGAN (arXiv 2018) • ランダムノイズを特徴マップのスケール, バ イアス項として入力 • Progressive GANを越えて, 超高精細な画像 の生成に成功 • 異なる深さのノイズが異なる特徴を担当 (disentangle) T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial Networks”, arXiv, 2018.
  • 15. 先行研究 : 3Dを考慮した画像生成 • 3Dから2Dへレンダリングする機構 (RenderNet T. H. Nguyen-Phuoc et al. 2019) × 学習データに3Dデータが必要 • 新しい視点の画像を生成するための三次元の埋め込み表現を獲得する手法 (Rhodin et al. 2018, Sitzmann et al. 2018) × 入力に複数視点の画像が必要 (Sitzmann et al.) × 背景のマスクとオブジェクトの姿勢という教師データが必要 (Rhodin et al.) • 幾何的な情報とテクスチャの情報を分離する手法 (J.-Y. Zhu et al. 2018) • (1) 3Dオブジェクトを生成, (2) 法線, デプス, シルエットにレンダリング, (3) 画像変換 ネットワークにより, 2D画像に変換 × 学習に3Dデータが必要 × 単一オブジェクトかつ背景が白いデータしか扱えない
  • 16. 先行研究 : 3Dを考慮した画像生成 • HoloGANに近いのはRajeswarらの研究 (Pix2Scene) • Pix2Scene • 教師なしでimplicitな3D表現を学習 × 特徴表現がimplicit • HoloGANはexplicitな表現を使っている × 単純な人工データでしか学習できない S. Rajeswar, F. Mannan, F. Golemo, D. Vazquez, D. Nowrouzezahrai, and A. Courville. “Pix2Scene: Learning implicit 3D representations from images”. 2019.
  • 17. 先行研究 : 特徴表現のdisentangle • 中間表現を生成画像の一つの要素に対応するように分離する • 多くの手法は教師ありの枠組みで学習 • ex) GQNでは, 他視点の画像を教師としている • 教師なしの方法はβ-VAEとInfoGANが代表的 • どちらも損失関数の設計がcontribution × priorの選定に敏感 × どの要素を学習するか制御できない × 分離された要素が意味を持つ保証もない × 生成画像の質と分離具合にトレードオフ (β-VAE) × 複雑なデータセットでは学習が難しい
  • 19. 提案手法 • アーキテクチャは以下のような処理を行うように設計されている 1. 3D-CNNで三次元表現を生成 2. カメラ姿勢をもとに変換を行う • カメラ姿勢は一様分布からランダムにサンプル • 剛体変換 (平行移動&回転) を行う 3. 2Dに投影 4. 2D-CNNで画像を生成
  • 20. 提案手法: 三次元表現の獲得 • HoloGANにおいて, • 三次元表現は定数テンソルから生成される • “style”はノイズベクトルzによって担われる • ノイズベクトルzの入力はStyleGANの知見を活用 • MLPに通した後, 特徴マップのスケール, バイアスとして入力 • 入力の深さにより異なるレベルのディティールを制御していることが実験的にわ かっている
  • 21. 提案手法: 視点に依存した生成の学習 • 3D featureに3D convを適用 • 加えて, 2D画像に投影する前にカメラ姿勢 (ランダム) による変換を行う • HoloGANが三次元表現表現を学習していることを保証する大事な操作 • DR-GANでも同様の操作をしているがexplicitな変換ではない (pose codeをベクトル としてNNの入力としている) この三次元表現は… • styleと分離されている • あらゆる視点からレンダリング可能
  • 22. 提案手法: 視点に依存した生成の学習 (Rigid- body transformation) • 仮想的なピンホールカメラを想定 • ランダムなパラメータで剛体変換 • ランダムなθで3D featureを回転 • 平行移動は今回はしなかった • 詳細はsupplemental document… ここ
  • 23. 提案手法: 視点に依存した生成の学習 (Projection Unit) • HoloGANは微分可能な投影機構 (projection unit) を持つ • 3Dから2Dへの投影 (4Dテンソルを3Dテンソルに変換する) • 学習データは異なる透視画法でキャプチャされているので, 透視投影を学習する必要がある • カメラパラメータは得られないので, 代わりに3D convを用いて三次元表現をperspective frustumに 変換 (projection unitの前の3D Convモジュール) • projection unitは, reshaping layer, MLP, 活性化関数から構成される • 詳細は補助資料参照… ここ
  • 24. 提案手法: ロス関数 1. GANのロス 2. Identity regularizer • 生成した画像からzが復元できるような制約を入れる • zの違いが生成画像に現れるようにする 3. Style discriminator • discriminatorの中間層のfeatureも判別不能にするロス • それぞれの深さのfeatureが異なる因子を制御しているので全て揃える働き (本当か?) • 学習が安定しそうな感じがある
  • 26. 実験 • データセット • 顔 (人間, 猫), 椅子, 車, ベッドルーム • 椅子のデータセットはCGからレンダリングした画像を用いる • 実装 • Generator : Adaptive Instance Normalization (AdaIN) • Discriminator : instance normalization & spectral normalization • 詳細は論文・補助資料参照
  • 28. 結果: 質的評価 (InfoGANとの比較) • InfoGANは潜在表現と生成画像の相互情報量を最大化する手法 • HoloGANの方が上手に姿勢を変化させることができている (左) • HoloGANはelevation方向の回転も再現できている (右)
  • 29. 結果: 量的評価 • KID scoreによる評価 • 画像の「質」に関する指標, 元のデータセットとの分布の近さを表す • c.f.) FID score • そこらのGANよりは綺麗な画像を生成する • 特徴の分離と生成画像の質の両方を達成していてすごい!
  • 30. 結果: Deep 3D representation vs. 3D geometry • visual object networks (VON) との比較 • 車画像の生成のsota • 3D shape (voxel) を生成し, 2Dに投影 (depth, silhouette) • その後テクスチャを与え画像に変換 • 3D変換はimplicit J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman. “Visual object networks: Image generation with disentangled 3D representations”. In NeurIPS, pages 118–129, 2018.
  • 31. 結果: Deep 3D representation vs. 3D geometry • VON • 背景がない画像を生成 • 苦手な角度がある • HoloGAN • 背景あり • 滑らかな角度変化 • elevation方向の回転にも対応
  • 34. 結果: ノイズの入れ方 • 提案手法はノイズを特徴マップのスケール, バイアスとして入力 古典的なGANと同じようにしたらどうなるか 生成に失敗する (disentangleがうまくいかない) ここに 入れる
  • 36. まとめ • 姿勢とidentityを分離して学習する手法の提案 • 三次元幾何を考慮したアーキテクチャの導入により実現 • 2DベースのGANと同等に高精細な画像を生成 • 実験においては, 意味のある三次元表現をちゃんと学習できた • 感想 • 関連研究が参考になる • 幾何的な知識を明示的に取り込む方法は発展しそう
  • 37. 参考文献 • T. Phuoc et al. “HoloGAN: Unsupervised learning of 3D representations from natural images”, arXiv, 2019. (project page: https://www.monkeyoverflow.com/#/hologan-unsupervised- learning-of-3d-representations-from-natural-images/) • T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial Networks”, CVPR, 2019. • C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody dance now. arXiv:1808.07371, 2018. • A. Dosovitskiy, J. Springenberg, M. Tatarchenko, and T. Brox. Learning to generate chairs, tables and cars with convolutional networks. IEEE Transactions on Pattern Analysis andMachine Intelligence, 39(4):692–705, 2017. • J.-Y. Zhu, Z. Zhang, C. Zhang, J. Wu, A. Torralba, J. Tenenbaum, and B. Freeman. “Visual object networks: Image generation with disentangled 3D representations”. In NeurIPS, pages 118–129, 2018.
  • 38. 参考文献 • H. Kato et al. “Neural 3D Mesh Renderer“, CVPR, 2018. • S. M. A. Eslami, D. Jimenez Rezende, F. Besse, F. Viola, A. S. Mor- cos,M. Garnelo, A. Ruderman, A. A. Rusu, I. Danihelka, K. Gregor, D. P. Reichert, L. Buesing, T. Weber, O. Vinyals, D. Rosenbaum, N. Rabinowitz, H. King, C. Hillier, M. Botvinick, D. Wierstra, K. Kavukcuoglu, and D. Hassabis. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018. • T. Karras et al. “A Style-Based Generator Architecture for Generative Adversarial Networks”, CVPR, 2019. • T. Chen et al. “On Self Modulation for Generative Adversarial Networks”, ICLR, 2019. • T. Phuoc et al. “RenderNet: A deep convolutional network for differentiable rendering from 3D shapes”, NeurIPS, 2018. • H. Rhodin, M. Salzmann, and P. Fua. “Unsupervised geometry-aware representation for 3D human pose estimation”. In ECCV, 2018
  • 39. 参考文献 • V. Sitzmann, J. Thies, F. Heide, M. Nießner, G. Wetzstein, and M. Zollhöfer. “DeepVoxels: Learning persistent 3D feature embeddings”. arXiv:1812.01024, 2018. • S. Rajeswar, F. Mannan, F. Golemo, D. Vazquez, D. Nowrouzezahrai, and A. Courville. “Pix2Scene: Learning implicit 3D representations from images”. 2019. • I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, and A. Lerchner. β-VAE: Learning basic visual concepts with a constrained variational framework. In ICLR, 2017. • X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever, and P. Abbeel. InfoGAN: Interpretable representation learning by information maximizing generative adversarial nets. In NIPS, pages 2172–2180, 2016. • L. Tran et al. Disentangled Representation Learning GAN for Pose-Invariant Face Recognition. CVPR 2017.