3次元タスクにおけるディープラーニングの
最新動向② MDL for RGB-D 	
2016/7/30
株式会社ウェブファーマー
大政 孝充
今回取り上げるのはこれ	
[1]A. Eitel, et al.”Multimodal Deep Learning for Robust
RGB-D Object Recognition”, arXiv:1057.06821v2, 2015
CNNを使った教師あり手法でRGB-Dデータから物体認識
を行った!
ポイントは3つ	
①  モデルの構造は、RGB streamとDepth streamに分け、
上位層でこれらを合体させる
②  深さ情報はカラー化して入力する
③  深さ情報に独自のdata augmentationを行う
ポイント① モデルの構造	
色情報を畳み込むRGB streamと深さ情報を畳み込むdepth streamが
あり、上位層で合体する
RGB stream
[1]のFigure 1よりdepth stream
学習の流れ(1)	
CaffeNet学習済みモデルのパラメータをコピペする
CaffeNet
学習の流れ(2)	
入力画像XとラベルYで教師あり学習させる
X
Y
min
W I
,θI
L soft max W I
gI
di
;θI
( )( ), yi
( )i=1
N
∑
学習の流れ(3)	
depth stream側も同様にCaffeNetのコピペと学習を行う
D Y
min
W D
,θD
L soft max W D
gD
di
;θD
( )( ), yi
( )i=1
N
∑
学習の流れ(4)	
それぞれのstreamから出力層を取り除く
D
X
学習の流れ(5)	
上位層に両者を合体させる層を設ける
D
X
学習の流れ(6)	
目標値Yで上位層の部分だけ教師あり学習させる
D
X
Y
min
W f
,θD
,θI
,θF
L soft max W f
f gI
,gD⎡⎣ ⎤⎦;θF
( )( ), yi
( )i=1
N
∑
学習させるのは
ここだけ
ポイント② 深さ情報はカラー化する	
近い場所から遠くなるに連れて、赤〜緑〜青とする
この画像の深さは こうなる
遠い近い
ポイント③ 独自のaugmentation	
1)  使える深さ情報のdata数が少ない
2)  実際に機器(kinectなど)から得られる深さ情報は
ノイズが多い
独自のaugmentationで解決
深さ情報dataに関して2つの問題点がある
独自のaugmentation(1)	
ノイズパターンをどっかからK個引っ張ってくる
Ρ= Ρ1,!, ΡK{ }
Ρ1 ΡK
!
独自のaugmentation(2)	
50%の確率でノイズを含める
di
=
di
Ρk !di
⎧
⎨
⎪
⎩⎪
if
else
p =1
with
p ~ Β 0.5{ }
k ~U 1,K{ }
○:アダマール積
B:ベルヌーイ分布
U:離散一様分布
ノイズを含
めない場合
結果	
state-of-the-artsな結果となった

introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition