More Related Content
Similar to AMSL rwrc20 LT (7)
AMSL rwrc20 LT
- 6. データ
● データ(rosbag形式)
○ Required(必要な最低条件の情報)
■ 観測(observation):RGB image
■ 行動(action):linear velocity, angular velocity
○ Option(学習アルゴリズムによって必要なもの)
■ 障害物情報: scan data
■ 地面凹凸情報: imu data
■ 位置情報: odom, pose, GPS
● 環境(生田キャンパス・つくば市役所付近・vtc_unity)
6
- 7. 学習アルゴリズム
環境との相互作用なしで、走行データのみから学習できるBCとBADGRを実装
7
Algorithm dataset 学習対象 環境との相互作用 汎化性能
Behavior Cloning (o, a) π(a | o) ✖︎ ?
DAgger (o, a) π(a | o) ○ ?
GAIL (o, a, o’) π(a | o), D(a) ○ ?
BADGR (o, a, label’) Cost(o, at=0~h) △ ?
BCQ (o, a, r, o’) π(a | o) ✖︎ ?
- 8. 進捗
● データセットの作成
○ つくば: 1h
○ 生田: 1h
○ vtc_unity: 30m
● 学習モデルの実装・学習
○ BC
■ ネットワーク構造: 3層CNN or ResNet(18,34,50),RNNの有無
■ 入力:image only or Goal Conditioned
○ BADGR
● vtc_unityでの動作確認(BehaviorCloning)
○ ネットワーク:3層CNN,RNNなし
○ image onlyで学習
8
- 11. policy
behavior cloning
11
FC*4
- 512
- ReLU
Encoder
- ResNet18
- ResNet34
- ResNet50
- Default
img
(ot)
acs
(a`t)
acs
(at)
MSE
policy
FC*4
- 512
- ReLU
Encoder
- ResNet18
- ResNet34
- ResNet50
- Default
img
(ot:t+h)
acs
(a`t:t+h)
acs
(at:t+h)
MSE
RNN
Default
CNN*3
- 32-64-64
- 5-3-3
- 2-2-2
- ReLU
- 13. Predictive Model
BADGR
13
FC*4
- 256-256-128-128
- ReLU
CNN*3
- 32-64-64
- 5-3-3
- 2-2-2
- ReLU
img
(ot)
collision
(c`t:t+h)
collision
(ct:t+h)
BCE
LSTM
acs
(at:t+h)
FC*2
- 16-16
- ReLU
FC
- 32
- ReLU
FC
- 32
- ReLU
FC
- 32
- ReLU
bumpine
ss
(b`t:t+h)
bumpin
esss
(bt:t+h)
BCE
position
(p`t:t+h)
position
(pt:t+h)
MSE
- 14. Predictive Model
BADGR
14
FC*4
- 256-256-128-128
- ReLU
CNN*3
- 32-64-64
- 5-3-3
- 2-2-2
- ReLU
img
(ot)
collision
(c`t:t+h)
collision
(ct:t+h)
BCE
LSTM
acs
(at:t+h)
FC*2
- 16-16
- ReLU
FC
- 32
- ReLU
FC
- 32
- ReLU
FC
- 32
- ReLU
bumpine
ss
(b`t:t+h)
bumpin
esss
(bt:t+h)
BCE
position
(p`t:t+h)
position
(pt:t+h)
MSE
Editor's Notes
- 過去のつくばチャレンジは全て参加
2017年から独自の手法で参加している
・Node-Edge-Map
グラフ構造の地図(交差点と直線)
内界センサとリアルタイムの環境認識による自己位置推定
芝生の認識や道の縁石などの道の形状が課題
- 自動ロボットの高知能化、リアルタイムの認識からの環境によらない柔軟な行動計画
機械学習ベースのNavigation
・従来手法
人の手によるエンジニアリングが必要
調整はいわゆる職人技
・学習ベース
人によるチューニングが必要ない
走行したデータによる自己改善も可能
-
#################################################
SA-CADRL:動的障害物を考慮したRLベースの動作計画
- ・なぜ画像を使うか?
環境のゼマンティクスも考慮した学習が可能
センサが安価
応用範囲が広い
###########################################################
- BCとBADGRを実装中
蓄積されたデータから方策を獲得 -> BC, BADGR
BC:実装が容易であり、基本となる手法
BADGR:論文中で実際のナビゲーションタスクへの応用がされている
###########################################################
DAgger:学習している方策による行動列とエキスパートによる行動列を用いて学習
GAIL:逆強化学習+GAN
BCQ:offline RL
出そうな質問
・なぜBCQを外した?
- 現状の結果について
・学習に用いたデータ数が少なく偏りがあるためうまくいっていないのでは?
・
- BADGRの学習
- 吉内
TODO:基本のエンコーダーの構造を追加
- 吉内
現在の実装上はbumpinessに未対応