SlideShare a Scribd company logo
1 of 46
Download to read offline
第10回全日本CV勉強会 生成モデル論文読み会
A Conditional Point Diffusion-Refinement
Paradigm for 3D Point Cloud Completion
2022/05/15 takmin
自己紹介
2
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
博士(工学)
「コンピュータビジョン勉強会@関東」主催
株式会社フューチャースタンダード 技術顧問
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化)
http://visitlab.jp
紹介する論文
3
 A Conditional Point Diffusion-Refinement Paradigm for
3D Point Cloud Completion
 Zhaoyang Lyu, Zhufeng Kong, Xudong Xu, Liang Pan, Dahua Lin
 ICLR2022
 選んだ理由:
 拡散モデル(Denoising Diffusion Probabilistic Model)を勉強し
たかった
 仕事でPoint Cloudに関わることが多いので、拡散モデルを使
用した論文の中でも点群を使用したものを船体
拡散モデル
(Denoising Diffusion Probabilistic Model)
4
Denoising Diffusion Probabilistic Model
5
 画像生成のモデル
 元画像に徐々にノイズを付与し、ランダムな画像を生成
 上記の逆過程をたどることでランダムな画像からなんらかの
それっぽい画像を自動生成
[Ho, J., Jain,A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 2020-
December(NeurIPS 2020), 1–12.]より引用
Denoising Diffusion Probabilistic Model
6
𝑞 𝐱𝑡 𝐱𝑡−1 ≔ 𝒩 𝐱𝑡; 1 − 𝛽𝑡𝐱𝑡−1, 𝛽𝑡𝐈
 Forward Diffusion Process
 画像の各画素にガウスノイズを追加
Step毎にガウスノイズを付与
最終的にただ
のガウスノイズ
になる
Denoising Diffusion Probabilistic Model
7
𝑞 𝐱𝑡 𝐱𝑡−1 ≔ 𝒩 𝐱𝑡; 1 − 𝛽𝑡𝐱𝑡−1, 𝛽𝑡𝐈
 Reverse Diffusion Process
ただのガウス
ノイズ Step毎にガウスノイズを除去
𝑝𝜃 𝐱𝑡−1 𝐱𝑡 ≔ 𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡
𝛽𝑡が小さいとき逆拡散
過程もガウス分布
Denoising Diffusion Probabilistic Model
8
𝑞 𝐱𝑡 𝐱𝑡−1 ≔ 𝒩 𝐱𝑡; 1 − 𝛽𝑡𝐱𝑡−1, 𝛽𝑡𝐈
 Reverse Diffusion Process
𝑝𝜃 𝐱𝑡−1 𝐱𝑡 ≔ 𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡
𝛽𝑡が小さいとき逆拡散
過程もガウス分布
・
・ ・
画像分布全体 顔画像分布
Denoising Diffusion Probabilistic Model
9
𝑞 𝐱𝑡 𝐱𝑡−1 ≔ 𝒩 𝐱𝑡; 1 − 𝛽𝑡𝐱𝑡−1, 𝛽𝑡𝐈
 Reverse Diffusion Process
𝑝𝜃 𝐱𝑡−1 𝐱𝑡 ≔ 𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡
𝛽𝑡が小さいとき逆拡散
過程もガウス分布
・ ・ ・
画像分布全体 顔画像分布
Denoising Diffusion Probabilistic Model
10
𝑞 𝐱𝑡 𝐱𝑡−1 ≔ 𝒩 𝐱𝑡; 1 − 𝛽𝑡𝐱𝑡−1, 𝛽𝑡𝐈
 Reverse Diffusion Process
𝑝𝜃 𝐱𝑡−1 𝐱𝑡 ≔ 𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡
𝛽𝑡が小さいとき逆拡散
過程もガウス分布
・ ・ ・
画像分布全体 顔画像分布
学習により求めたい
Denoising Diffusion Probabilistic Model
11
 学習
元画像
ノイズ
Neural
Network
ノイズ
画像
推定
ノイズ
二乗誤差
Back Prop
 推論
Neural
Network
入力画
像
推定
ノイズ
ー
ノイズ低
減画像
Step: t
Step: t
拡散モデルの導出
12
𝑞 𝐱0 : 元画像(ex.顔画像)の真の確率密度分布
𝑝𝜃 𝐱0 : 推定したい元画像の分布関数(𝜃:パラメータ)
・ ・ ・
𝑞 𝐱𝒕 𝑞 𝐱0
𝑞 𝐱𝑇
max
𝜃
෍
𝑖
log 𝑝𝜃 𝐱0
𝑖
学習画像
𝑝𝜃で𝑞をうまく表したい。
→対数尤度が最大となるパラメータ𝜃求めたい
(1)
拡散モデルの導出
13
・ ・ ・
𝑞 𝐱𝒕 𝑞 𝐱0
𝑞 𝐱𝑇
max
𝜃
෍
𝑖
log 𝑝𝜃 𝐱0
𝑖
= min
𝜃
−𝔼𝑞(𝐱0) log 𝑝𝜃 𝐱0
 学習画像の分布は𝑞 𝐱0 に従うので、
(2)
拡散モデルの導出
14
・ ・ ・
𝑞 𝐱𝒕 𝑞 𝐱0
𝑞 𝐱𝑇
 イェンセンの不等式を用いて下界が求まる
 途中計算は省略
𝐱0:𝑇 ≔ 𝐱0, 𝐱1, … , 𝐱𝑇
−𝔼𝑞(𝐱0) log 𝑝𝜃 𝐱0 ≤ 𝔼𝑞(𝐱0:𝑇) log
𝑞 𝐱1:𝑇|𝐱0
𝑝𝜃 𝐱0:𝑇
こっちを最小化する
(3)
拡散モデルの導出
15
 下界を式展開すると、3つの項に分解できる
 𝐷𝐾𝐿: KLダイバージェンス
(4)
log
𝑞 𝐱1:𝑇|𝐱0
𝑝𝜃 𝐱0:𝑇
= 𝐷𝐾𝐿 𝑞 𝐱𝑇|𝐱0 ∥ 𝑝𝜃 𝐱0 + ෍
𝑡=2
𝑇
𝐷𝐾𝐿 𝑞 𝐱𝑡−1|𝐱𝑡, 𝐱0 ∥ 𝑝𝜃 𝐱𝑡−1|𝐱𝑡 − log 𝑝𝜃 𝐱0|𝐱1
𝑳𝑇 :定数 𝑳0: 計算可能
𝑳𝑡−1: 最小化する
・ ・ ・
𝑞 𝐱𝒕 𝑞 𝐱0
𝑞 𝐱𝑇
拡散モデルの導出
16
 𝐿𝑡−1は2つのガウス分布のKLダイバージェンス
𝐿𝑡−1 = 𝐷𝐾𝐿 𝑞 𝐱𝑡−1|𝐱𝑡, 𝐱0 ∥ 𝑝𝜃 𝐱𝑡−1|𝐱𝑡
𝐱0で条件付けることで
計算可能
ガウス分布:
𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡
ガウス分布:
𝒩 𝐱𝑡−1; ෥
𝝁 𝐱𝑡, 𝑡 , ෨
𝛽𝑡𝐈
・ ・ ・
𝑞 𝐱𝒕 𝑞 𝐱0
𝑞 𝐱𝑇
拡散モデルの導出
17
 𝐿𝑡−1の最小化は𝑞と𝑝𝜃の平均の差を最小化
𝐿𝑡−1 = 𝐷𝐾𝐿 𝑞 𝐱𝑡−1|𝐱𝑡, 𝐱0 ∥ 𝑝𝜃 𝐱𝑡−1|𝐱𝑡
𝐱0で条件付けることで
計算可能
ガウス分布:
𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡
ガウス分布:
𝒩 𝐱𝑡−1; ෥
𝝁 𝐱𝑡, 𝑡 , ෨
𝛽𝑡𝐈
𝚺𝜃 𝐱𝑡, 𝑡 = 𝜎𝑡
2
𝐈 = ෨
𝛽𝑡𝐈
と単純化する
𝐿𝑡−1 = 𝔼𝒒
1
2𝜎𝑡
2 ෥
𝝁 𝐱𝑡, 𝑡 − 𝝁𝜃 𝐱𝑡, 𝑡 2
+ 𝐶
拡散モデルの導出
18
 𝐿𝑡−1の最小化は𝐱𝑡と𝐱𝑡−1間のノイズを推定すること
𝐿𝑡−1 = 𝐷𝐾𝐿 𝑞 𝐱𝑡−1|𝐱𝑡, 𝐱0 ∥ 𝑝𝜃 𝐱𝑡−1|𝐱𝑡
𝐿𝑡
simple
= 𝔼𝐱0,𝐳 𝐳𝑡 − 𝐳𝜃 𝐱𝑡, 𝑡 2
Step tで加
えたノイズ
推定した
ノイズ
= 𝔼𝒒
1
2𝜎𝑡
2 ෥
𝝁 𝐱𝑡, 𝑡 − 𝝁𝜃 𝐱𝑡, 𝑡 2
+ 𝐶
෥
𝝁, 𝝁𝜃を代入して計算
Denoising Diffusion Probabilistic Model
19
 学習
元画像
ノイズ
Neural
Network
ノイズ
画像
推定
ノイズ
二乗誤差
Back Prop
 推論
Neural
Network
入力画
像
推定
ノイズ
ー
ノイズ低
減画像
Step: t
Step: t
𝐱0
𝐱𝑡
𝐳1:𝑡 𝐳𝜃
Denoising Diffusion Probabilistic Model
20
 学習
元画像
ノイズ
Neural
Network
ノイズ
画像
推定
ノイズ
二乗誤差
Back Prop
 推論
Neural
Network
入力画
像
推定
ノイズ
ー
ノイズ低
減画像
Step: t
Step: t
𝐱0
𝐱𝑡
𝐳𝑡 𝐳𝜃
𝐱𝑡は 𝐱0にt回ガウスノイズを加えたものなので
𝐱𝑡 = ത
𝛼𝑡𝐱0 + 1 − ത
𝛼𝑡𝐳𝑡
とかける
(ただし ത
𝛼𝑡 = σ𝑖=1
𝑡
(1 − 𝛽𝑖) )
Denoising Diffusion Probabilistic Model
21
 学習
元画像
ノイズ
Neural
Network
ノイズ
画像
推定
ノイズ
二乗誤差
Back Prop
 推論
Neural
Network
入力画
像
推定
ノイズ
ー
ノイズ低
減画像
Step: t
Step: t
𝐱0
𝐱𝑡
𝐳𝑡 𝐳𝜃
𝐱𝑡
𝐱𝑡−1
𝐳𝜃
Denoising Diffusion Probabilistic Model
22
 学習
元画像
ノイズ
Neural
Network
ノイズ
画像
推定
ノイズ
二乗誤差
Back Prop
 推論
Neural
Network
入力画
像
推定
ノイズ
ー
ノイズ低
減画像
Step: t
Step: t
𝐱0
𝐱𝑡
𝐳𝑡 𝐳𝜃
𝐱𝑡
𝐱𝑡−1
𝐳𝜃
𝐱𝑡−1 =
1
𝛼𝑡
𝐱𝑡 −
1 − 𝛼𝑡
1 − ത
𝛼𝑡
𝒛𝜽 + 𝜎𝑡𝒛
(ただし 𝛼𝑡 = 1 − 𝛽𝑖)
A Conditional Point Diffusion-Refinement
Paradigm for 3D Point Cloud Completion
23
A Conditional Point Diffusion-Refinement
Paradigm for 3D Point Cloud Completion
24
 LiDAR等の測定では、オクルージョン等によりすべての
箇所の点群データが取れるわけではない。
 拡散モデル用いてデータの取得できなかった箇所の点
群を生成する。
 Coarse-to-Fineに点群生成
 Conditional Generation Network (Coarse)
 Refinement Network (Fine)
Point Cloud Completion
25
 生成された点群とGround Truthの比較(Loss)に、従来は
Chamfer DistanceやEarth Mover Distanceが使用されて
いた。
 Chamfer Distance
 点群全体の密度分布を捉えない
 補間結果の質が一様でない
 Earth Mover Distance
 計算が非常に重い
 Denoise Diffusion Probabilistic Model (DDPM)
 一様で高品質な補間が行えるのではないか?
Conditional Point Diffusion-Refinement
(PDR) Paradigm
26
1. Conditional Generation Network
 拡散モデル(DDPM)によるCoarseな点群補間
 各点の座標(x,y,z)にガウスノイズを付与
2. Refinement Network
 Coarseな点群の高品質化
Conditional Generation Network
27
Conditional Generation Network
28
部分的な点群(Condition)から各段階の特徴量抽出
各Step tでのノイズを推定
PointNet++
like
Conditional Generation Network
29
各Step tでのノイズを推定
拡散ステップt
Conditionのグローバル特徴
部分点群の各レベルの特徴を入力
推定ノイズ
Conditional Generation Network
30
拡散ステップt
Conditionのグローバル特徴
推定ノイズ
Set Abstraction (SA)
Modules
Max Pooling
𝑁𝑙+1 × 𝑑𝑙+1
PointNet
𝑁𝑙 × 𝑑𝑙 + 3
𝑁𝑙+1 × 𝑑𝑙 + 3
𝑙層の特徴量次元
+𝑥, 𝑦, 𝑧
𝑙層の点数 ×
Farthest Point
Sampling
K-Neighbors
Conditional Generation Network
31
拡散ステップt
Conditionのグローバル特徴
推定ノイズ
Self Attention
𝑁𝑙+1 × 𝑑𝑙+1
PointNet
Set Abstraction (SA)
Modules
Conditional Generation Network
32
拡散ステップt
Conditionのグローバル特徴
推定ノイズ
Feature Propagation (FP) Modules
𝑁𝑙+1 × 𝑑′𝑙+1 + 3
PointNet
Self Attention
𝑁𝑙 × 𝑑𝑙
𝑁𝑙 × 𝐾 × 𝑑′𝑙+1 + 3
MLP
𝑁𝑙 × 𝑑′𝑙
𝑁𝑙 × 3
Concatenate
From Skip
Connection
K-Neighbors
Upsampling
後の座標
Conditional Generation Network
33
拡散ステップt
Conditionのグローバル特徴
推定ノイズ
近傍点の特徴量を取得し、MLPで
変換後、Self-Attentionで統合
FeatureTransfer Modules
Refinement Network
34
Conditional Generation Networkとほぼ同じ構造
Coarse
点群U
Conditional Generation
Networkより生成
Output
𝜖𝑓 𝒖, 𝒄
Refine点群V
Refinement Network
35
 学習
 Chamfer Distance Loss
 教師点群との距離
 ℒCD 𝑽, 𝑿 =
1
𝑽
σ𝑣∈𝑽 min
𝑥∈𝑿
𝑣 − 𝑥 2 +
1
𝑿
σ𝑥∈𝑿 min
𝑣∈𝑽
𝑣 − 𝑥 2
 𝑽: Refinement Networkの生成点群
 𝑿: 教師データ
 学習中はConditional Generation Networkのパラメータは固
定
 出力𝜖𝑓 𝒖, 𝒄 の次元数を上げることで解像度を増やせる
Experiments
36
 データセット
 MVP
 62400訓練データ、41600テストデータ
 ShapeNetより生成
 MVP-40
 41600訓練データ、64160テストデータ
 40カテゴリ
 ModelNet40より生成
 Completion3D
 28974訓練データ
 1184テストデータ
 8カテゴリ
 ShapeNetより生成
Experiments
37
 評価指標
 𝑽: Refinement Networkの生成点群
 𝑿: 教師データ
 Chamfer Distance
 点同士の距離を元にしたLoss
 ℒCD 𝑽, 𝑿 =
1
𝑽
σ𝑣∈𝑽 min
𝑥∈𝑿
𝑣 − 𝑥 2 +
1
𝑿
σ𝑥∈𝑿 min
𝑣∈𝑽
𝑣 − 𝑥 2
 Earth Mover Distance
 分布の最小移動量
 ℒEMD 𝑽, 𝑿 = min
𝜙:𝑽⟷𝑿
σ𝑣∈𝑽 𝑣 − 𝜙 𝑣 2
Experiments
38
 評価指標(続き)
 F1 Score
 RecallおよびPrecisionを加味した指標
 ℒF1 =
2ℒ𝑃 𝜌 ℒ𝑅 𝜌
ℒ𝑃 𝜌 +ℒ𝑅 𝜌
 ℒ𝑃 𝜌 =
1
𝑽
σ𝑣∈𝑽 min
𝑥∈𝑿
𝑣 − 𝑥 2 < 𝜌
 ℒ𝑅 𝜌 =
1
𝑿
σ𝑥∈𝑿 min
𝑣∈𝑽
𝑣 − 𝑥 2 < 𝜌
Experiments
39
 結果
Experiments
40
 MVPデータセットに対し、出力の解像度(点数)を変えて実
験
Experiments
41
 Ablation Study
 PA-Deonv & Att.: 本手法
 PA-Deonv:Attentionを除いたもの
 PointNet++: さらにPA-Deonv moduleを除いたもの
 Concate 𝑥𝑡 & 𝑐: Ftmoduleを除いたもの
 Pointwise-net: 部分点群(Condition)から取得したグローバル特
徴のみ使用
Experiments
42
Experiments
43
 本手法を拡張し、ConditionとしてBounding Boxを与えら
れるようにしたもの
まとめ
44
 拡散モデルを利用した点群補間方法を提案
 Conditional Generation Networkで全体構造を推定し、
Refinement Networkで詳細化
 他の手法と比較し、性能が大きく上回った
 Controllable Point Cloud Generationのような、そのほか
の点群を使用したタスクにも応用可能
PointNet
45
 Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet : Deep
Learning on Point Sets for 3D Classification and Segmentation
Big Data + Deep Representation Learning. IEEE Conference on
ComputerVision and Pattern Recognition (CVPR).
 各点群の点を独立に畳み込む
 Global Max Poolingで点群全体の特徴量を取得
各点を個別
に畳み込み
アフィン変換
各点の特徴を統合
PointNet++
46
 Qi, C. R.,Yi, L., Su, H., & Guibas, L. J. (2017). PointNet++: Deep
Hierarchical Feature Learning on Point Sets in a Metric Space.
Conference on Neural Information Processing Systems (NIPS).
 PointNetを階層的に適用
 点群をクラスタ分割→PointNet→クラスタ内で統合を繰り返す

More Related Content

What's hot

敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)cvpaper. challenge
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィNorishige Fukushima
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection modelWEBFARMER. ltd.
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
 
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation” 【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation” yoshitaka373
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)cvpaper. challenge
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 

What's hot (20)

敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィ
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation” 【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
【機械学習勉強会】画像の翻訳 ”Image-to-Image translation”
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 

Similar to ConditionalPointDiffusion.pdf

[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement LearningTakuya Minagawa
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介Recruit Technologies
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative OptimizationTakuya Minagawa
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料Masayuki Tanaka
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsTakuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven explorationTakuya Minagawa
 
「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門Hideto Masuoka
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 

Similar to ConditionalPointDiffusion.pdf (20)

Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
SeRanet
SeRanetSeRanet
SeRanet
 
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
 
3DFeat-Net
3DFeat-Net3DFeat-Net
3DFeat-Net
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
 
「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 

More from Takuya Minagawa

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureTakuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイTakuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summaryTakuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation surveyTakuya Minagawa
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencvTakuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection surveyTakuya Minagawa
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetTakuya Minagawa
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code ReadingTakuya Minagawa
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料Takuya Minagawa
 

More from Takuya Minagawa (20)

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
Visual slam
Visual slamVisual slam
Visual slam
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
 
20180424 orb slam
20180424 orb slam20180424 orb slam
20180424 orb slam
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
 

Recently uploaded

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 

Recently uploaded (12)

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 

ConditionalPointDiffusion.pdf

  • 1. 第10回全日本CV勉強会 生成モデル論文読み会 A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud Completion 2022/05/15 takmin
  • 2. 自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 博士(工学) 「コンピュータビジョン勉強会@関東」主催 株式会社フューチャースタンダード 技術顧問 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) http://visitlab.jp
  • 3. 紹介する論文 3  A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud Completion  Zhaoyang Lyu, Zhufeng Kong, Xudong Xu, Liang Pan, Dahua Lin  ICLR2022  選んだ理由:  拡散モデル(Denoising Diffusion Probabilistic Model)を勉強し たかった  仕事でPoint Cloudに関わることが多いので、拡散モデルを使 用した論文の中でも点群を使用したものを船体
  • 5. Denoising Diffusion Probabilistic Model 5  画像生成のモデル  元画像に徐々にノイズを付与し、ランダムな画像を生成  上記の逆過程をたどることでランダムな画像からなんらかの それっぽい画像を自動生成 [Ho, J., Jain,A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 2020- December(NeurIPS 2020), 1–12.]より引用
  • 6. Denoising Diffusion Probabilistic Model 6 𝑞 𝐱𝑡 𝐱𝑡−1 ≔ 𝒩 𝐱𝑡; 1 − 𝛽𝑡𝐱𝑡−1, 𝛽𝑡𝐈  Forward Diffusion Process  画像の各画素にガウスノイズを追加 Step毎にガウスノイズを付与 最終的にただ のガウスノイズ になる
  • 7. Denoising Diffusion Probabilistic Model 7 𝑞 𝐱𝑡 𝐱𝑡−1 ≔ 𝒩 𝐱𝑡; 1 − 𝛽𝑡𝐱𝑡−1, 𝛽𝑡𝐈  Reverse Diffusion Process ただのガウス ノイズ Step毎にガウスノイズを除去 𝑝𝜃 𝐱𝑡−1 𝐱𝑡 ≔ 𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡 𝛽𝑡が小さいとき逆拡散 過程もガウス分布
  • 8. Denoising Diffusion Probabilistic Model 8 𝑞 𝐱𝑡 𝐱𝑡−1 ≔ 𝒩 𝐱𝑡; 1 − 𝛽𝑡𝐱𝑡−1, 𝛽𝑡𝐈  Reverse Diffusion Process 𝑝𝜃 𝐱𝑡−1 𝐱𝑡 ≔ 𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡 𝛽𝑡が小さいとき逆拡散 過程もガウス分布 ・ ・ ・ 画像分布全体 顔画像分布
  • 9. Denoising Diffusion Probabilistic Model 9 𝑞 𝐱𝑡 𝐱𝑡−1 ≔ 𝒩 𝐱𝑡; 1 − 𝛽𝑡𝐱𝑡−1, 𝛽𝑡𝐈  Reverse Diffusion Process 𝑝𝜃 𝐱𝑡−1 𝐱𝑡 ≔ 𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡 𝛽𝑡が小さいとき逆拡散 過程もガウス分布 ・ ・ ・ 画像分布全体 顔画像分布
  • 10. Denoising Diffusion Probabilistic Model 10 𝑞 𝐱𝑡 𝐱𝑡−1 ≔ 𝒩 𝐱𝑡; 1 − 𝛽𝑡𝐱𝑡−1, 𝛽𝑡𝐈  Reverse Diffusion Process 𝑝𝜃 𝐱𝑡−1 𝐱𝑡 ≔ 𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡 𝛽𝑡が小さいとき逆拡散 過程もガウス分布 ・ ・ ・ 画像分布全体 顔画像分布 学習により求めたい
  • 11. Denoising Diffusion Probabilistic Model 11  学習 元画像 ノイズ Neural Network ノイズ 画像 推定 ノイズ 二乗誤差 Back Prop  推論 Neural Network 入力画 像 推定 ノイズ ー ノイズ低 減画像 Step: t Step: t
  • 12. 拡散モデルの導出 12 𝑞 𝐱0 : 元画像(ex.顔画像)の真の確率密度分布 𝑝𝜃 𝐱0 : 推定したい元画像の分布関数(𝜃:パラメータ) ・ ・ ・ 𝑞 𝐱𝒕 𝑞 𝐱0 𝑞 𝐱𝑇 max 𝜃 ෍ 𝑖 log 𝑝𝜃 𝐱0 𝑖 学習画像 𝑝𝜃で𝑞をうまく表したい。 →対数尤度が最大となるパラメータ𝜃求めたい (1)
  • 13. 拡散モデルの導出 13 ・ ・ ・ 𝑞 𝐱𝒕 𝑞 𝐱0 𝑞 𝐱𝑇 max 𝜃 ෍ 𝑖 log 𝑝𝜃 𝐱0 𝑖 = min 𝜃 −𝔼𝑞(𝐱0) log 𝑝𝜃 𝐱0  学習画像の分布は𝑞 𝐱0 に従うので、 (2)
  • 14. 拡散モデルの導出 14 ・ ・ ・ 𝑞 𝐱𝒕 𝑞 𝐱0 𝑞 𝐱𝑇  イェンセンの不等式を用いて下界が求まる  途中計算は省略 𝐱0:𝑇 ≔ 𝐱0, 𝐱1, … , 𝐱𝑇 −𝔼𝑞(𝐱0) log 𝑝𝜃 𝐱0 ≤ 𝔼𝑞(𝐱0:𝑇) log 𝑞 𝐱1:𝑇|𝐱0 𝑝𝜃 𝐱0:𝑇 こっちを最小化する (3)
  • 15. 拡散モデルの導出 15  下界を式展開すると、3つの項に分解できる  𝐷𝐾𝐿: KLダイバージェンス (4) log 𝑞 𝐱1:𝑇|𝐱0 𝑝𝜃 𝐱0:𝑇 = 𝐷𝐾𝐿 𝑞 𝐱𝑇|𝐱0 ∥ 𝑝𝜃 𝐱0 + ෍ 𝑡=2 𝑇 𝐷𝐾𝐿 𝑞 𝐱𝑡−1|𝐱𝑡, 𝐱0 ∥ 𝑝𝜃 𝐱𝑡−1|𝐱𝑡 − log 𝑝𝜃 𝐱0|𝐱1 𝑳𝑇 :定数 𝑳0: 計算可能 𝑳𝑡−1: 最小化する ・ ・ ・ 𝑞 𝐱𝒕 𝑞 𝐱0 𝑞 𝐱𝑇
  • 16. 拡散モデルの導出 16  𝐿𝑡−1は2つのガウス分布のKLダイバージェンス 𝐿𝑡−1 = 𝐷𝐾𝐿 𝑞 𝐱𝑡−1|𝐱𝑡, 𝐱0 ∥ 𝑝𝜃 𝐱𝑡−1|𝐱𝑡 𝐱0で条件付けることで 計算可能 ガウス分布: 𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡 ガウス分布: 𝒩 𝐱𝑡−1; ෥ 𝝁 𝐱𝑡, 𝑡 , ෨ 𝛽𝑡𝐈 ・ ・ ・ 𝑞 𝐱𝒕 𝑞 𝐱0 𝑞 𝐱𝑇
  • 17. 拡散モデルの導出 17  𝐿𝑡−1の最小化は𝑞と𝑝𝜃の平均の差を最小化 𝐿𝑡−1 = 𝐷𝐾𝐿 𝑞 𝐱𝑡−1|𝐱𝑡, 𝐱0 ∥ 𝑝𝜃 𝐱𝑡−1|𝐱𝑡 𝐱0で条件付けることで 計算可能 ガウス分布: 𝒩 𝐱𝑡−1; 𝝁𝜃 𝐱𝑡, 𝑡 , 𝚺𝜃 𝐱𝑡, 𝑡 ガウス分布: 𝒩 𝐱𝑡−1; ෥ 𝝁 𝐱𝑡, 𝑡 , ෨ 𝛽𝑡𝐈 𝚺𝜃 𝐱𝑡, 𝑡 = 𝜎𝑡 2 𝐈 = ෨ 𝛽𝑡𝐈 と単純化する 𝐿𝑡−1 = 𝔼𝒒 1 2𝜎𝑡 2 ෥ 𝝁 𝐱𝑡, 𝑡 − 𝝁𝜃 𝐱𝑡, 𝑡 2 + 𝐶
  • 18. 拡散モデルの導出 18  𝐿𝑡−1の最小化は𝐱𝑡と𝐱𝑡−1間のノイズを推定すること 𝐿𝑡−1 = 𝐷𝐾𝐿 𝑞 𝐱𝑡−1|𝐱𝑡, 𝐱0 ∥ 𝑝𝜃 𝐱𝑡−1|𝐱𝑡 𝐿𝑡 simple = 𝔼𝐱0,𝐳 𝐳𝑡 − 𝐳𝜃 𝐱𝑡, 𝑡 2 Step tで加 えたノイズ 推定した ノイズ = 𝔼𝒒 1 2𝜎𝑡 2 ෥ 𝝁 𝐱𝑡, 𝑡 − 𝝁𝜃 𝐱𝑡, 𝑡 2 + 𝐶 ෥ 𝝁, 𝝁𝜃を代入して計算
  • 19. Denoising Diffusion Probabilistic Model 19  学習 元画像 ノイズ Neural Network ノイズ 画像 推定 ノイズ 二乗誤差 Back Prop  推論 Neural Network 入力画 像 推定 ノイズ ー ノイズ低 減画像 Step: t Step: t 𝐱0 𝐱𝑡 𝐳1:𝑡 𝐳𝜃
  • 20. Denoising Diffusion Probabilistic Model 20  学習 元画像 ノイズ Neural Network ノイズ 画像 推定 ノイズ 二乗誤差 Back Prop  推論 Neural Network 入力画 像 推定 ノイズ ー ノイズ低 減画像 Step: t Step: t 𝐱0 𝐱𝑡 𝐳𝑡 𝐳𝜃 𝐱𝑡は 𝐱0にt回ガウスノイズを加えたものなので 𝐱𝑡 = ത 𝛼𝑡𝐱0 + 1 − ത 𝛼𝑡𝐳𝑡 とかける (ただし ത 𝛼𝑡 = σ𝑖=1 𝑡 (1 − 𝛽𝑖) )
  • 21. Denoising Diffusion Probabilistic Model 21  学習 元画像 ノイズ Neural Network ノイズ 画像 推定 ノイズ 二乗誤差 Back Prop  推論 Neural Network 入力画 像 推定 ノイズ ー ノイズ低 減画像 Step: t Step: t 𝐱0 𝐱𝑡 𝐳𝑡 𝐳𝜃 𝐱𝑡 𝐱𝑡−1 𝐳𝜃
  • 22. Denoising Diffusion Probabilistic Model 22  学習 元画像 ノイズ Neural Network ノイズ 画像 推定 ノイズ 二乗誤差 Back Prop  推論 Neural Network 入力画 像 推定 ノイズ ー ノイズ低 減画像 Step: t Step: t 𝐱0 𝐱𝑡 𝐳𝑡 𝐳𝜃 𝐱𝑡 𝐱𝑡−1 𝐳𝜃 𝐱𝑡−1 = 1 𝛼𝑡 𝐱𝑡 − 1 − 𝛼𝑡 1 − ത 𝛼𝑡 𝒛𝜽 + 𝜎𝑡𝒛 (ただし 𝛼𝑡 = 1 − 𝛽𝑖)
  • 23. A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud Completion 23
  • 24. A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud Completion 24  LiDAR等の測定では、オクルージョン等によりすべての 箇所の点群データが取れるわけではない。  拡散モデル用いてデータの取得できなかった箇所の点 群を生成する。  Coarse-to-Fineに点群生成  Conditional Generation Network (Coarse)  Refinement Network (Fine)
  • 25. Point Cloud Completion 25  生成された点群とGround Truthの比較(Loss)に、従来は Chamfer DistanceやEarth Mover Distanceが使用されて いた。  Chamfer Distance  点群全体の密度分布を捉えない  補間結果の質が一様でない  Earth Mover Distance  計算が非常に重い  Denoise Diffusion Probabilistic Model (DDPM)  一様で高品質な補間が行えるのではないか?
  • 26. Conditional Point Diffusion-Refinement (PDR) Paradigm 26 1. Conditional Generation Network  拡散モデル(DDPM)によるCoarseな点群補間  各点の座標(x,y,z)にガウスノイズを付与 2. Refinement Network  Coarseな点群の高品質化
  • 29. Conditional Generation Network 29 各Step tでのノイズを推定 拡散ステップt Conditionのグローバル特徴 部分点群の各レベルの特徴を入力 推定ノイズ
  • 30. Conditional Generation Network 30 拡散ステップt Conditionのグローバル特徴 推定ノイズ Set Abstraction (SA) Modules Max Pooling 𝑁𝑙+1 × 𝑑𝑙+1 PointNet 𝑁𝑙 × 𝑑𝑙 + 3 𝑁𝑙+1 × 𝑑𝑙 + 3 𝑙層の特徴量次元 +𝑥, 𝑦, 𝑧 𝑙層の点数 × Farthest Point Sampling K-Neighbors
  • 31. Conditional Generation Network 31 拡散ステップt Conditionのグローバル特徴 推定ノイズ Self Attention 𝑁𝑙+1 × 𝑑𝑙+1 PointNet Set Abstraction (SA) Modules
  • 32. Conditional Generation Network 32 拡散ステップt Conditionのグローバル特徴 推定ノイズ Feature Propagation (FP) Modules 𝑁𝑙+1 × 𝑑′𝑙+1 + 3 PointNet Self Attention 𝑁𝑙 × 𝑑𝑙 𝑁𝑙 × 𝐾 × 𝑑′𝑙+1 + 3 MLP 𝑁𝑙 × 𝑑′𝑙 𝑁𝑙 × 3 Concatenate From Skip Connection K-Neighbors Upsampling 後の座標
  • 34. Refinement Network 34 Conditional Generation Networkとほぼ同じ構造 Coarse 点群U Conditional Generation Networkより生成 Output 𝜖𝑓 𝒖, 𝒄 Refine点群V
  • 35. Refinement Network 35  学習  Chamfer Distance Loss  教師点群との距離  ℒCD 𝑽, 𝑿 = 1 𝑽 σ𝑣∈𝑽 min 𝑥∈𝑿 𝑣 − 𝑥 2 + 1 𝑿 σ𝑥∈𝑿 min 𝑣∈𝑽 𝑣 − 𝑥 2  𝑽: Refinement Networkの生成点群  𝑿: 教師データ  学習中はConditional Generation Networkのパラメータは固 定  出力𝜖𝑓 𝒖, 𝒄 の次元数を上げることで解像度を増やせる
  • 36. Experiments 36  データセット  MVP  62400訓練データ、41600テストデータ  ShapeNetより生成  MVP-40  41600訓練データ、64160テストデータ  40カテゴリ  ModelNet40より生成  Completion3D  28974訓練データ  1184テストデータ  8カテゴリ  ShapeNetより生成
  • 37. Experiments 37  評価指標  𝑽: Refinement Networkの生成点群  𝑿: 教師データ  Chamfer Distance  点同士の距離を元にしたLoss  ℒCD 𝑽, 𝑿 = 1 𝑽 σ𝑣∈𝑽 min 𝑥∈𝑿 𝑣 − 𝑥 2 + 1 𝑿 σ𝑥∈𝑿 min 𝑣∈𝑽 𝑣 − 𝑥 2  Earth Mover Distance  分布の最小移動量  ℒEMD 𝑽, 𝑿 = min 𝜙:𝑽⟷𝑿 σ𝑣∈𝑽 𝑣 − 𝜙 𝑣 2
  • 38. Experiments 38  評価指標(続き)  F1 Score  RecallおよびPrecisionを加味した指標  ℒF1 = 2ℒ𝑃 𝜌 ℒ𝑅 𝜌 ℒ𝑃 𝜌 +ℒ𝑅 𝜌  ℒ𝑃 𝜌 = 1 𝑽 σ𝑣∈𝑽 min 𝑥∈𝑿 𝑣 − 𝑥 2 < 𝜌  ℒ𝑅 𝜌 = 1 𝑿 σ𝑥∈𝑿 min 𝑣∈𝑽 𝑣 − 𝑥 2 < 𝜌
  • 41. Experiments 41  Ablation Study  PA-Deonv & Att.: 本手法  PA-Deonv:Attentionを除いたもの  PointNet++: さらにPA-Deonv moduleを除いたもの  Concate 𝑥𝑡 & 𝑐: Ftmoduleを除いたもの  Pointwise-net: 部分点群(Condition)から取得したグローバル特 徴のみ使用
  • 44. まとめ 44  拡散モデルを利用した点群補間方法を提案  Conditional Generation Networkで全体構造を推定し、 Refinement Networkで詳細化  他の手法と比較し、性能が大きく上回った  Controllable Point Cloud Generationのような、そのほか の点群を使用したタスクにも応用可能
  • 45. PointNet 45  Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet : Deep Learning on Point Sets for 3D Classification and Segmentation Big Data + Deep Representation Learning. IEEE Conference on ComputerVision and Pattern Recognition (CVPR).  各点群の点を独立に畳み込む  Global Max Poolingで点群全体の特徴量を取得 各点を個別 に畳み込み アフィン変換 各点の特徴を統合
  • 46. PointNet++ 46  Qi, C. R.,Yi, L., Su, H., & Guibas, L. J. (2017). PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space. Conference on Neural Information Processing Systems (NIPS).  PointNetを階層的に適用  点群をクラスタ分割→PointNet→クラスタ内で統合を繰り返す