【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis

1
NeRF in the Palm of Your Hand:
Corrective Augmentation for Robotics via Novel-View Synthesis
2023.1.27 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab

画像入力の模倣学習の方策の学習時に，NeRFをdata
augmentationするためのツールとして利用し，
模倣学習におけるcompound errorを低減
• Eye-in-hand（ロボット
アームの手先にカメラを
固定）の設定において提案
• 手先の座標にノイズを
加えた姿勢からの画像を
NeRFで生成しデータ
セットに加える
• シミュレータと実機で検証
概要
2

NeRF in the Palm of Your Hand:
Corrective Augmentation for Robotics via Novel-View
Synthesis
• Allan Zhou1, Moo Jin Kim1, Lirui Wang2, Pete
Florence3, Chelsea Finn1
• 1Stanford, 2MIT CSAIL，3Google
• https://arxiv.org/abs/2301.08556
• v1: 2023/1/18 （フォーマット的にICRA2023にsubmit？）
• サイト：https://bland.website/spartn/
※特に出典が明記されていない図は当論文・サイトから引用
書誌情報
3

最近，Implicit Neural Representation (INR)やNeRF周りの研究がたくさん出ている
①NeRF @DL輪読会 2020/3/27（土居さん）
• https://www.slideshare.net/DeepLearningJP2016/dlnerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis
②NeRFの派生研究まとめ＠DL輪読会 2021/3/19（土居さん）
• https://www.slideshare.net/DeepLearningJP2016/dlneural-radiance-field-nerf
③NeRF-VAE ＠DL輪読会 2021/4/16（谷口さん）
• NeRFを潜在変数モデル（VAE）と組み合わせて複数のシーンに汎化させる．ICML2021．
• https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
④GIRFFE ＠DL輪読会 2021/4/30（松嶋）
• 複数のNeRFを組み合わせてシーンのdisentangleを目指す．CVPR2021 best paper．
⑤Grasping Field ＠DL輪読会 2021/6/18（近藤さん）
• INRの一種のDeep SDFを複数組み合わせて手と物体の衝突や把持を扱う．3DV2020 best paper．
• https://www.slideshare.net/DeepLearningJP2016/dlgrasping-field-learning-implicit-representations-for-human-grasps
⑥NeRFlow ＠DL輪読会 2021/8/6（松嶋）
• NeRFを動的なシーンを学習できるように拡張．ICCV2021.
• https://deeplearning.jp/neural-radiance-flow-for-4d-view-synthesis-and-video-processing-nerflow/
⑦HyperNeRF ＠DL輪読会 2021/10/1（近藤さん）
• 動的でdeformableなシーンを一つの映像だけで3D再構成．SIGGRAPH Asia2021．
• https://deeplearning.jp/a-higher-dimensional-representation-for-topologically-varying-neural-radiance-fields/
⑧LIIF ＠DL輪読会 2021/11/19（秋田さん）
• INRで2D画像の超解像，CVPR2021．
• https://www.slideshare.net/DeepLearningJP2016/learning-continuous-image-representation-with-local-implicit-image-function-cvpr2021
…and more
本発表について（背景の解説資料）
4

3次元座標 ( ) と視線方向 ( ) を
入力として輝度 ( ) と
密度を出力するNN (シーン関数)
様々な角度から撮った写真で学習
➡︎
別の角度から撮った写真を
生成できる(novel view synthesis)
x d
r, g, b
σ
Fθ : (x, d) ↦ ((r, g, b), σ)
NeRF （谷口さんのDL輪読会スライド）
5
https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model

• シーンを3次元座標と視線方向から輝度と密度への関数として表現
• この関数がわかると、volume renderingを用いて任意の視点から
の画像を生成可能（詳しくは土居さんの資料参照）
6

• 学習はレンダリングした画像と
真の画像との２乗誤差の最小化
• volume renderingが微分可能なので
end-to-endに学習可能
• レンダリング時に使うサンプル点の
選び方などには様々な工夫あり
7

NeRF （谷口さんのDL輪読会スライドを編集）
Pros
• 連続的な3D表現として画期的
• 従来は点群・メッシュなどの
離散的な表現を利用
Cons
• シーンごとにたくさんの画像
を用意して学習が必要
• 未知のシーンに汎化しない
• 基本的にレンダリング手法
• 獲得される表現に関して
あまり議論されていない
8
https://www.matthewtancik.com/nerf

Instant NGP
• 2022年1月にNeRFの学習が数秒で終わる
デモが公開され世界が震撼
• ハッシュエンコーディングを活用して高速化
• NeRFだけではなくDeepSDFなど
ほかのINRにも使える
• https://arxiv.org/abs/2201.05989
• https://github.com/NVlabs/instant-ngp 9
INRの高速化

問題設定：画像入力による物体把持の模倣学習
模倣学習：オフラインに集められたデータセットから方策を学習
• Behavior Cloning (BC)：観測（入力）と行動（出力）のマッピン
グ（方策）を教師あり学習で学習
• データセットが最適（エキスパート）と仮定
• 共変量シフトに弱いことが知られている
• 小さい誤差によってデータ分布から外れてしまい戻ってくるのが難しくなる
• コストの高い環境とのオンラインの相互作用が不要
• RLはオンラインでデータを集める
10

アイデア：NeRFでエキスパートにノイズを加える
• オフラインに収集したエキスパートで
シーンごとにNeRF（instantNeRF）を
学習
• エキスパートにノイズを加えた擬似軌道
を生成し，対応する画像をNeRFで生成
• ノイズを加えた軌道から，エキスパート
の軌道に修正する行動をデータセットに
• 入力にNeRFで生成した画像を利用
11

アルゴリズム
12
系列（エピソード）ごとに
NeRFを学習（軌道で）

アルゴリズム
13
手先の姿勢にノイズを加える

アルゴリズム
14
正解の行動を再計算
（手先姿勢制御の場合
次の姿勢から計算可能）

アルゴリズム
15
ノイズを加えた手先座標での
画像をNeRFを使って生成

アルゴリズム
16
データセットに追加

エキスパートからのNeRFの学習
• 世界座標系でのカメラ姿勢にはカメラキャリブレーションの誤差が
乗るので，カメラの姿勢を画像からCOLMAPを使って推定
• 姿勢なしの画像からNeRFするときと同じ方法
• COLMAPで推定した姿勢と世界座標系でのカメラ姿勢を対応づける
（appendex D2）
• NeRFのstaticな制約を満たすために，
エキスパートからgripperから物体を
掴むまでの画像を利用
• 画像からgripperに対応する
ピクセルをマスクしてNeRFを学習
17

Instant-NGPの活用
元々のNeRFの学習は非常に重いので，Instant-NGPを活用
• 各シーン（エピソード）ごとに，Instant-NGPを3.5k step学習
• それぞれRTX2080Tiで30秒かかる
• 2500シーンを4GPUで並列に学習して計7時間程度かかる
• でも，オフラインの学習なので，テスト時には問題ない
18

シミュレータでの実験
1500個のShapeNetの物体に対してで2500個のエキスパートを
生成
• ACRONYMデータセットにある
把持姿勢から軌道を生成
• 各軌道は20ステップ以内
• 各軌道につき100パターンaugument
• 学習時にないShapeNetとYCBで評価
19

実機での実験
Franka Pandaで実験
• 行動空間は前ステップとの姿勢の差分
• 4HzでCartesian Impedance制御
• VRコントローラでエキスパート作成
• 各軌道50パターンでaugument
20

その他実験の結果
ウェブサイトに行くつか動画がある
https://bland.website/spartn/
21

まとめ・感想
• 手法は非常にシンプル
• 計算量の大きいNeRFはオフライン学習なら使えるということを
うまく生かしている
• NeRFを方策学習のデータ生成器として利用する観点では，
（一般的な）モデルベースRLと同じような仕組みになっている
• 世界のモデルを学習し，そのモデルをシミュレータとして擬似データを
大量に生成，方策学習を効率化する
• ここまで一般化すると世界モデルみが出る
（3D世界・レンダリングの事前知識を導入した世界モデルといえそ
う）
22

【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (8)

【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis