SlideShare a Scribd company logo
単眼カメラで深度予測
(論文と手法の紹介)
システムデザイン工学科 新B3
北村俊徳
@syuntoku14
とりあえず自己紹介
• システムデザイン工学科(今年で3年生)
• ロボット技術研究会
• KCS ClassAI
• 理工学部體育會剣道部
• Mira Robotics(バ先)
• 夏にUCのどこかに留学予定
• Twitter: @syuntoku14
やろうと思った動機
• Lidarは高い
• Kinectは光に弱い(Time of Flight 方式のレーザーセンサ)
• 画像による予測を補強に使えないか?(詳しくはちょっと言え
ないけど)
慶應にも似たような研究をしているところがあるらしい
Depth Interpolation via Smooth Surface Segmentation Using
Tangent Planes Based on the Superpixels of a Color Image
(2013)
青木研究室かな?
単眼カメラから深度予測って?
• 単眼カメラから物体までの距
離情報を予測すること
• 深度測定は普通KinectやLidar、
ステレオマッチングなどを使
う
大まかな手法
• 局所的な処理と全体的な処
理を行う(右図みたいなイ
メージ)
局所的な処理→精度の向上
全体的な処理→局所的な処理
のフォロー(相対的な深度)
(例:空などは全体を見ない
と把握できない)
(超)古典的な手法
Learning depth from single
monocular images(2006)
• MRF(Marcov Random Field)
を利用して深度を予測している
(MRFで隣接するパッチに対す
る関係を計算)
• 直近以外の情報も得るため、
色々な大きさのパッチを使う
• フィルタは自分で設定(Law’s
masksなど)
Marcov Random Fieldをちょっと説明
ノイズ除去の例
• Pr 𝑤1…𝑁 𝑥1…𝑁 =
Pr 𝑥 𝑛 𝑤 𝑛 Pr 𝑤1…𝑁
Pr 𝑥1…𝑁
• 尤度:
・Pr 𝑥 𝑛 𝑤 𝑛 = 0 = 𝐵𝑒𝑟𝑛 𝑥 𝑛
[𝜌]
・Pr 𝑥 𝑛 𝑤 𝑛 = 1 = 𝐵𝑒𝑟𝑛 𝑥 𝑛
[1 − 𝜌]
• 事前分布: MRF(smoothness)
MAP推定をグラフカットで行う
ディープラーニングを使った手法
• Depth Map Prediction from a Single Image using a Multi-
Scale Deep Network(2014)
• 最初に全体の深度予測
(Coarse network)
• 次にLocalな深度予測
(Fine network)
Scale-Invariant Error
• 画素同士の関係も損失関数に組み込む
𝐷 𝑦, 𝑦∗
=
1
2𝑛
𝑖=1
𝑛
log 𝑦𝑖 − 𝑙𝑜𝑔𝑦𝑖
∗
+ 𝛼 𝑦, 𝑦∗ 2
𝛼 𝑦, 𝑦∗ =
1
𝑛
𝑖
(𝑙𝑜𝑔𝑦𝑖
∗
− 𝑙𝑜𝑔𝑦𝑖)
変形して
𝐷 𝑦, 𝑦∗ =
1
2𝑛2
𝑖,𝑗
𝑙𝑜𝑔𝑦𝑖 − 𝑙𝑜𝑔𝑦𝑗 − 𝑙𝑜𝑔𝑦𝑖
∗
− 𝑙𝑜𝑔𝑦𝑗
∗
2
教師データと予測データのそれぞれの相対深度が近いと損失が少ない
CRFを使った手法
• Learning Depth from Single Monocular Images Using Deep
Convolutional Neural Fields(2015)
• CRFの解析解が直接求まるっぽい。
(正規化定数Zを解析的に求められるっぽい)
• CRFのUnaryとPairwise項をCNNで学習しているらしい。
UnaryとPairwise項→MAP推定の際に出てくる二つの項のこと
𝑤1…𝑁 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑤1…𝑁
[
𝑛=1
𝑁
𝑈 𝑛 𝑤 𝑛 +
𝑚,𝑛 ∈𝐶
𝑃 𝑚,𝑛 𝑤 𝑚, 𝑤 𝑛 ]
CRFとは? Superpixelとは?
• MRFではPairwise項が隣接するw同士によるもの
𝑚,𝑛 ∈𝐶
𝑃𝑚,𝑛 𝑤 𝑚, 𝑤 𝑛
• CRFではPairwise項に観測xが入っている
𝑑
𝜉[𝑤, 𝑥]
• SuperPixelは似た傾向を持つ画素をひとまとめにした領域
有名な手法:SLIC(Simple Linear Iterative Clustering)
学習について
• Unary: Super PixelパッチをCNNに投げ、Zpを得る
• PairWise: 隣接するSuperPixelをFully Connected Layerに投げ、
Rpqを得る
• 学習後の推論はMAP推定で行う。
おわりに
• 間違っていることが多いかもしれない
• 最近は教師無し学習で頑張る人もいるみたい(読んでないけ
ど)
Unsupervised Monocular Depth Estimation with Left-Right
Consistency
• 似たようなことやってる研究室あったらちょっと見てみたさあ
る

More Related Content

What's hot

What's hot (20)

[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 

Similar to Depth Estimation論文紹介

Similar to Depth Estimation論文紹介 (16)

都市3Dメッシュを使ってみる
都市3Dメッシュを使ってみる都市3Dメッシュを使ってみる
都市3Dメッシュを使ってみる
 
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
 
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
 
iPad LiDARで エンジニアカフェを3Dスキャン
iPad LiDARでエンジニアカフェを3DスキャンiPad LiDARでエンジニアカフェを3Dスキャン
iPad LiDARで エンジニアカフェを3Dスキャン
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
KC3_Room2_9_6
KC3_Room2_9_6KC3_Room2_9_6
KC3_Room2_9_6
 
LiDARとSensor Fusion
LiDARとSensor FusionLiDARとSensor Fusion
LiDARとSensor Fusion
 
金沢工業大学電子計算機研究会新入生向けUnity講習会資料
金沢工業大学電子計算機研究会新入生向けUnity講習会資料金沢工業大学電子計算機研究会新入生向けUnity講習会資料
金沢工業大学電子計算機研究会新入生向けUnity講習会資料
 
3Dスキャンを用いた 建物のデジタルアーカイブ
3Dスキャンを用いた 建物のデジタルアーカイブ3Dスキャンを用いた 建物のデジタルアーカイブ
3Dスキャンを用いた 建物のデジタルアーカイブ
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 
お掃除IoT実習@GIYSEクラスステージ
お掃除IoT実習@GIYSEクラスステージお掃除IoT実習@GIYSEクラスステージ
お掃除IoT実習@GIYSEクラスステージ
 
何をフォトグラメトるのか?2021
何をフォトグラメトるのか?2021何をフォトグラメトるのか?2021
何をフォトグラメトるのか?2021
 
Qiskit Advocate 自己紹介
Qiskit Advocate 自己紹介Qiskit Advocate 自己紹介
Qiskit Advocate 自己紹介
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 

More from Keio Robotics Association

More from Keio Robotics Association (9)

定例会スライド_キャチs 公開用.pdf
定例会スライド_キャチs 公開用.pdf定例会スライド_キャチs 公開用.pdf
定例会スライド_キャチs 公開用.pdf
 
表面実装講習会資料
表面実装講習会資料表面実装講習会資料
表面実装講習会資料
 
Useful Documents for Studying Robotics
Useful Documents for Studying RoboticsUseful Documents for Studying Robotics
Useful Documents for Studying Robotics
 
確率ロボティクスの復習とF^3RCでの使い方
確率ロボティクスの復習とF^3RCでの使い方確率ロボティクスの復習とF^3RCでの使い方
確率ロボティクスの復習とF^3RCでの使い方
 
Probabilistic roboticschapter4
Probabilistic roboticschapter4Probabilistic roboticschapter4
Probabilistic roboticschapter4
 
システム制御とディープラーニング
システム制御とディープラーニングシステム制御とディープラーニング
システム制御とディープラーニング
 
確率ロボティクス輪読会 3章
確率ロボティクス輪読会 3章確率ロボティクス輪読会 3章
確率ロボティクス輪読会 3章
 
NHKロボコンでの画像処理
NHKロボコンでの画像処理NHKロボコンでの画像処理
NHKロボコンでの画像処理
 
Graphical model and kf
Graphical model and kfGraphical model and kf
Graphical model and kf
 

Recently uploaded

ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
miyp
 

Recently uploaded (8)

今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
 
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
 
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
 
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
 
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する  CTO・VPoEに聞く by DIGGLE CTO 水上【登壇資料】スタートアップCTO経験からキャリアについて再考する  CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
 
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
 
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
 
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHubCompute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
 

Depth Estimation論文紹介

Editor's Notes

  1. 質問するというより、教えてほしい。(適当な知識しかないので) 特にMRFとCRF周りのしっかりした知見が欲しいです。(授業とかでやらないですか?)
  2. 局所的な部分だけ見ると、vanishing pointとか空などが分からない。 全体的な処理を行うことで相対的な深度も予測して、保管を行う
  3. これなんか難しくてよくわからんかった。 MRFを理解するのに役立ちました。
  4. ベルヌーイ分布は、確率μでコインが表になる確率分布みたいなやつ ノイズがあるか無いか、なのでベルヌーイ分布にしてみましょう。 隣接するものが似ているほどそれっぽさが大きい(MRF) つまり、MRFを使うとスムースっぽさを表すことができる
  5. 2つ使う理由は最初に言ったやつ 相関的な深度と絶対的な深度を これなんかうまく理解できなくて、CNNなので、相関ごと何でもかんでも学習しそうな気はする。 どうやらCourseの方にはFullyConnectedがあるけど、Fineにはないみたい。→Fullで全体の情報を得ている
  6. ちなみに、MRFは生成モデルで、CRFは識別モデルです。 MRFはP(x,y) CRFはP(y|x) MRFは例えば元データが欠けていても利用できる。 CRFは元データが与えられていないと推論できない?
  7. エネルギー関数を最小にするようなZp,RpqをBPする zpは深度の絶対的な正確性 Rpqは隣接する深度とのスムースさを学習するのに用いる