AMSL rwrc20 LT

走行データを用いた
ビジュアルナビゲーション方策の学習
明治大学ロボット工学研究室（AMSL）
吉内航島田航太平川康則伊原佑樹有馬純平
つくばチャレンジ2020第2回LT大会

AMSLのつくチャレでの近年の活動
詳細な事前環境地図を必要としないNavigationシステムの開発(2017~)
● 地図作成のための手間が必要ない(電子地図からNode-Edge地図を用いる)
● 精度は下がるが、よりロバストな自己位置推定
地図ベースのナビゲーションから、
リアルタイムの認識に重点を移すことによって
人間によるengineeringを減らすことができた（特に地図作成）
（課題）
● 認識モジュールの精度向上にはある程度人手によるチューニングが必要
● 今まで何年も参加してきた経験を活かしきれていない
○ その場を乗り切るだけの調整が多い
2

走行データを用いた学習
走行データ（経験）からロボット自身が学習できるシステム(life-long navigation)
3
地図作成データ収集自律走行調整調整
学習データ収集自律走行自己改善
従来手法
機械学習

先行研究
実機のロボット学習の手法では、データ効率よく行うのが重要であり、
デモンストレーションデータから学習する研究が多くされている。
● BC(Behavior Cloning)：模倣学習
○ 事前に収集したデータを教師として同様の行動を獲得するように学習
● RL(SA-CADRL, etc...)：強化学習
○ 環境内で試行を繰り返してデータを収集
○ 環境との相互作用によって得られる報酬を最大化する方策を学習
● Deep Predictive Model * Model-based RL (BADGR)：深層予測学習
○ 収集したデータからイベントの発生や姿勢を推定するモジュールを学習
○ 経路候補に対して推定結果に基づいてコストを計算し最適な経路を決定
4

調査内容
data-driven navigation手法の調査
つくばチャレンジなどで走行したrosbagデータからナビゲーション方策を学習
● 走行データのみからナビゲーションの方策を学習する
● データが増えると自己改善により精度が向上するような
life-longなシステムを目指すのが最終目的
Behavior Cloning(模倣学習)、逆強化学習、オフライン強化学習など
近年のデモンストレーションから方策を学習する手法を実装し、
つくばチャレンジのような屋外ナビゲーションのタスクに
どの程度使えるかを調査する
5

データ
● データ(rosbag形式)
○ Required(必要な最低条件の情報)
■ 観測(observation)：RGB image
■ 行動(action)：linear velocity, angular velocity
○ Option(学習アルゴリズムによって必要なもの)
■ 障害物情報: scan data
■ 地面凹凸情報: imu data
■ 位置情報: odom, pose, GPS
● 環境(生田キャンパス・つくば市役所付近・vtc_unity)
6

学習アルゴリズム
環境との相互作用なしで、走行データのみから学習できるBCとBADGRを実装
7
Algorithm dataset 学習対象環境との相互作用汎化性能
Behavior Cloning (o, a) π(a | o) ✖︎ ?
DAgger (o, a) π(a | o) ○ ?
GAIL (o, a, o’) π(a | o), D(a) ○ ?
BADGR (o, a, label’) Cost(o, at=0~h) △ ?
BCQ (o, a, r, o’) π(a | o) ✖︎ ?

進捗
● データセットの作成
○ つくば: 1h
○ 生田: 1h
○ vtc_unity: 30m
● 学習モデルの実装・学習
○ BC
■ ネットワーク構造: 3層CNN or ResNet(18,34,50)，RNNの有無
■ 入力：image only or Goal Conditioned
○ BADGR
● vtc_unityでの動作確認（BehaviorCloning）
○ ネットワーク：3層CNN，RNNなし
○ image onlyで学習
8

今後
● ネットワーク構造による違いの調査
● 手法による違いを調査
● 実機での評価
● 自己改善能力(データが増えたら性能が上がるかどうか)の検証
9

policy
behavior cloning
11
FC*4
- 512
- ReLU
Encoder
- ResNet18
- ResNet34
- ResNet50
- Default
img
(ot)
acs
(a`t)
acs
(at)
MSE
policy
FC*4
- 512
- ReLU
Encoder
- ResNet18
- ResNet34
- ResNet50
- Default
img
(ot:t+h)
acs
(a`t:t+h)
acs
(at:t+h)
MSE
RNN
Default
CNN*3
- 32-64-64
- 5-3-3
- 2-2-2
- ReLU

policy
behavior cloning (Goal-Conditioned)
12
FC*4
- 512
- ReLU
Encoder
- ResNet18
- ResNet34
- ResNet50
- Default
img
(ot)
acs
(a`t)
acs
(at)
MSE
goal
(gt)

Predictive Model
BADGR
13
FC*4
- 256-256-128-128
- ReLU
CNN*3
- 32-64-64
- 5-3-3
- 2-2-2
- ReLU
img
(ot)
collision
(c`t:t+h)
collision
(ct:t+h)
BCE
LSTM
acs
(at:t+h)
FC*2
- 16-16
- ReLU
FC
- 32
- ReLU
FC
- 32
- ReLU
FC
- 32
- ReLU
bumpine
ss
(b`t:t+h)
bumpin
esss
(bt:t+h)
BCE
position
(p`t:t+h)
position
(pt:t+h)
MSE

Predictive Model
BADGR
14
FC*4
- 256-256-128-128
- ReLU
CNN*3
- 32-64-64
- 5-3-3
- 2-2-2
- ReLU
img
(ot)
collision
(c`t:t+h)
collision
(ct:t+h)
BCE
LSTM
acs
(at:t+h)
FC*2
- 16-16
- ReLU
FC
- 32
- ReLU
FC
- 32
- ReLU
FC
- 32
- ReLU
bumpine
ss
(b`t:t+h)
bumpin
esss
(bt:t+h)
BCE
position
(p`t:t+h)
position
(pt:t+h)
MSE

AMSL rwrc20 LT

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to AMSL rwrc20 LT

Similar to AMSL rwrc20 LT (7)

AMSL rwrc20 LT

Editor's Notes