1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Spatial Attention Point Network for Deep-learning-based
Robust Autonomous Robot Motion Generation”
KokiYamane, University ofTsukuba
書誌情報
• タイトル
– Spatial Attention Point Network for Deep-learning-based Robust Autonomous
Robot Motion Generation
• 著者
– Hideyuki Ichiwara, Hiroshi Ito, Kenjiro Yamamoto, Hiroki Mori, Tetsuya Ogata
• 所属
– 早稲田大学 尾形研究室
• https://arxiv.org/abs/2103.01598
2
概要
• オブジェクトを限定しない汎用的なpick-and-place
• 画像を使った模倣学習
• end-to-end learning
– タスクに必要な状態表現とタスク自体を同時に学習
• 画像を特徴点で表すことで必要な情報のみを抽出
– 画像特有の環境変化の影響を抑制してロバストな動作を実現
3
背景
• ロボットのタスクの大半はpick-and-place
• 現状はオブジェクトごとに個別のアルゴリズムを設計して使用
– オブジェクトごとに物体検出の学習をしたり掴み方や運び方をプログラミングするの
は大変
• 模倣学習
– 人間の操作したデータを教師データとして学習
– 明示的にプログラミングする必要がない
– 比較的サンプル効率が高い
– データを集めるのは大変
• 限られたデータで汎化性能を実現する必要がある
4
既存研究
• Deep Spatial Auto Encoder (DSAE) [Abbeel+, 2016]
– CNNの最後に2D Softmaxを入れて注目すべき位置を抽出
– ヒューリスティックな後処理
• カルマンフィルタで値が飛ぶのを抑制
• 学習時の分布から離れた特徴点は削除
5
既存研究
• Deep Spatial Auto Encoder (DSAE) [Abbeel+, 2016]
– 画像なしで強化学習を行い,集めた画像で表現学習してから画像あり強化学習
– 特徴点の位置と速度を状態とする
– 4つのタスクで実験
6
提案手法
• Spatial Attention Point Network
– 現在の画像と関節角を入力し,次ステップの画像と関節角を予測
– 2D Softmaxで特徴点抽出
– 通常の画像特徴量を別で抽出し,画像予測のみに利用
• 明るさや背景などの動作に関わらない情報はLSTMを通さないようにする
7
提案手法
• Loss関数
– 画像のMSE
– 関節角のMSE
– 前ステップの画像特徴点と現在の画像特徴点のMSE
• 特徴点がなるべく動かないようにする正則化項
• 現実世界の物体は瞬間移動しないという事前知識を与える
8
補足
• 提案手法ではゼロパディングを積極的に用いている
• ゼロパディングの有効性
– How much position information do convolutional neural networks encode?[Islam+,
2020]
– CNNが暗黙的に各ピクセルの位置情報を保持しているという仮説を検証
– 画像から各ピクセルの位置を表す値を予測するタスク
– パディングが全くないモデルはパディングを入れたモデルと比べて非常に精度が悪
かった
– パディングが位置を表すのに大きな役割を果たしていることを示唆
9
実験
• 7自由度ロボットアーム
• 2つのタスク
– Picking task
• 物体位置ごとに各4回のデータ
– Pick-and-place task
• 組み合わせごとに各3回のデータ
• ベースライン
– 2D Softmax + LSTM[Abbeel+, 2015]
– DSAE+LSTM[Abbeel+, 2016]
– MRAE[Ogata+, 2020]
10
実験
• 環境設定
– 学習時と同じ環境
– 明るさを変えた環境
– 背景を変えた環境
– 障害物を配置した環境
11
結果
• Picking task
– 100%の成功率を達成
• Pick-and-place task
– 90%近い成功率を達成
• 環境変化しても成功率はほぼ変わらず
12
結果
• LSTMの内部状態を主成分分析で可視化
– 提案手法は既存手法と比べて,物体の位置に応
じて内部状態が均等に分布している
– Placeでは内部状態が一点に収束
– Pickでは物体の位置に応じて内部状態が変化
– 物体の位置を内部状態に適切に反映している
• 位置に対してロバスト
• 内挿性能が高い
13
まとめ
• 画像内の物体の位置を抽象的に学習
• 次ステップの画像を予測して学習に利用
• pickで100%,pick-and-placeで90%近くの成功率を達成
• 明るさや背景などの状況の変化に対して汎化性能を持つ
14
今後の課題
• タスクによって特徴点では必要な情報を表しきれない可能性がある
– 物体の向きや種類,画像内のロボットの姿勢を解釈できない
– 布や紐など,非剛体を扱うことはできるか
• 画像のEncoder-Decoderは同時に学習するべきか?
– 同時に学習することでより最適な表現を学習できる
– 並列処理できないLSTMが学習のボトルネックになる
– 画像と動作という複数のLossを足すことで学習がやや不安定になる
15

[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autonomous Robot Motion Generation”