More Related Content Similar to Nakabayashi m (13) More from harmonylab (20) Nakabayashi m1. 水中小型ヒューマノイドロボットの
立位姿勢における移動行動学習
Adaptive Underwater Locomotive for Small
Humanoid Robot with Standing Posture
複雑系工学講座 調和系工学研究室
修士課程2年 中林 佑太
2. 背景
水中ロボットのアプリケーション
極限環境下における作業代替
漁業における作業代替・補助 ダイバーロボット構想
港湾における点検保守 [04 金岡 他]
宇宙空間における作業の検証[08 F.Diot et al,ESA]
要求
多自由度アームによる多様な全身運動の実現
ヒューマノイドロボットのような形状
課題
水中環境がロボットに与える影響 [浦 他]
•重量・浮量バランスの調整が必要
•正確なセンサ計測が困難
•流れの変化による外乱が大きく移動制御が困難
多数アクチュエータに対しての制御目標量の多様性
4. 水中ヒューマノイドロボットモデル
運動方程式
f Mv O W B G T F
M 質量
O 波浪による力
W 抵抗力
B 浮力
G 重力・遠心力・コリオリの力
T 接地面から受ける力
F 全身動作による推進力
pC nc
重心周りに働く慣性力によるモーメント
nG ( pC pG ) f nC
f
pG , nG
pG 重心位置
pC 系全体の力がかかる位置
nC 環境から受ける pC 周りのモーメント
水中ヒューマノイドロボットの動作
B 0 を満たす領域で nG 0 を目標とする動作を実現
5. ロボットの浮力設定
O nc pC f
nc 今回は
pC pG , nG F
pG , nG
f F nc F B 0 T 0 を満たす領域で
nG 0 を目標とする動作を実現する
pC
pG , nG f
対象領域
T T>0
水中ヒューマノイドロボットモデル 適切な質量・重心位置の調整が必要
•ロボット本体:1.3kg
•ダイバースーツ:0.6kg 本体質量m:5.9kg
•重り1.0kg×4
•スーツ容量V :4.7l 浮量ρV:4.8kg
水中質量:1.1kg
6. ロボットシステムアーキテクチャ
ヒューマノイドロボット:有索での遠隔操作により動作(ROV)
水中ヒューマノイドロボット
外界センサ カメラ
センサ
駆動部
画像
データ
制御部
制御 ホスト
制御 ボード モータ駆動 PC
信号 コマンド
防水スーツ manoi-AT01 加速度
•高さ:34cm データ
•17自由度 内界センサ
3軸加速度 AD変換ボード
センサ
センサ電圧
7. 動作環境
ロボットが全身運動を実現可能な広さと深さの水槽環境
PC・A/Dボードと 安定化電源との
の接続ケーブル 接続ケーブル
カメラセンサ
高さ
600mm
奥行600mm
幅1200mm 位置座標・ヨー角検出用マーカー
水槽環境 水中立位姿勢
8. ロボットの運動
四肢が独立して持つ発振器と目標関節角度により運動パターンを生成
手の動作 足の動作
π/2
π/2
θ=0 π
π ω Θ=0
ω
3π/2 3π/2
発振器
発振器
•発振器ダイナミクス: (t ) iT D (i 0,1,2,,7) (T 0.3[sec])
•手足の目標関節角: qi marm (t )qt max i marm (t ) : 操作量 (サーボモータ番号n 1,2,3,,16)
n n
9. 実験
目的:立位姿勢における移動行動の実現
2地点間移動タスクによる検証
実験1 目的:固定パターン動作に基づく運動による移動行動検証
手法:フィードバック制御
実験2 目的:移動行動の際の全身動作の検証
手法:強化学習
四肢を使った行動をQ学習により実現
10. 実験1 PD制御による移動行動実現
位置偏差と出力値の変化を考慮
d x (t ) d x (t T )
X軸 : mx (t ) KPx d x (t ) KDx
T
d (t ) d (t T )
Θ軸 : m (t ) KP d (t ) KD
T
y
ゴール地点 KP : 比例項のパラメータ
KD : 微分項のパラメータ
X x 制御目標(左右)
m(t) : 手足毎の操作量
θ ml (t ) mx (t ) m (t )
d(t) : 目標位置に対する偏差
mr (t ) mx (t ) m (t )
ΔT : サンプリング時間(1.2s)
動作設定 1
2
カメラの視野限界 •発振器固有振動数: T
水槽底面xy平面 •発振器位相遅れ: D右手 0, D左手 0, D右足 , D左足 0
qin marm (t )qtnmax i
•手足の目標関節角:
(サーボモータ番号n 1,2,3,,16)
13. 強化学習(環境状態)
環境状態設定
ロボットがカメラの視野範囲にある場合
近距離領域 ゴールとロボット距離d(2段階)
y ゴール地点 •遠距離領域:d > 250mm
(ゴール範囲) •近距離領域:d < 250mm
ゴールとロボットの相対角度θ(3段階)
•中央 :-PI/16 < θ < PI/16
x
•左 :θ < -PI/16
d •右 :θ > PI/16
θ 合計6状態
遠距離領域 ロボットがカメラの視野範囲にない場合
ゴール消失角度θ(3段階)
合計3状態
カメラの視野限界
水槽底面xy平面
環境状態を9状態に分割
14. 強化学習(Q学習)
直接強化学習(Q学習)を適用
Q(s, a) <- Q(s, a) + α*r + γmax a’ Q(s’, a’) – Q(s, a) ]
Q値更新式
状態 s ∈ S, 行動 a ∈ A, 報酬 r
観測状態 s’ ∈ S, 行動 a ‘∈ A
パラメータ
α=0.1,γ=0.8
ε(ε-greedy方策)=0.3
報酬 ゴール地点到達(タスク成功)時
r=1.0/tstep (1tstep:2.4sec)
1エピソード
初期位置からゴール領域に到達する
あるいはタイムアウト時間T=180[sec]が経過するまで
15. 強化学習による獲得行動
78エピソード 四肢の行動(横軸)毎にQ値についてソート
経過後の結果
遠方右にゴール 状態:遠方中央にゴール 状態:遠方左にゴール
行動:直進 行動:右向きに旋回
状態:近辺右にゴール 状態:近辺中央にゴール 状態:近辺左にゴール
行動:右向きに旋回 行動:直進 行動:右向きに旋回
Q値が収束に向かわないあるいは誤った行動に収束
•壁との衝突 が影響
•壁付近での水流の変化
16. 強化学習実験結果
学習前後で観測された状態-行動の回数
左手 右手
左手 右手
角速度大
左足 右足
左足 右足
(初期) エピソード1~5合計 エピソード74~78合計
四肢ともほぼ同じ動作パターン 環境状態毎に様々な動作パターン
を探索
17. 学習中における指標推移
ゴール到達ステップ数の時間推移 タスク成功率
(タスクを成功したエピソード) (直近10試行の移動平均)
•状態空間の分割が適切でない可能性
学習進行に伴うタスク成功率の低下
•報酬の与え方が適切でない可能性
学習手法再検討の必要性
タスク達成時間平均:PID制御65[s],Q学習36[s]