Nakabayashi m

水中小型ヒューマノイドロボットの
立位姿勢における移動行動学習
Adaptive Underwater Locomotive for Small
Humanoid Robot with Standing Posture

複雑系工学講座調和系工学研究室
修士課程2年中林佑太

背景
水中ロボットのアプリケーション
極限環境下における作業代替
漁業における作業代替・補助ダイバーロボット構想
港湾における点検保守 [04 金岡他]
宇宙空間における作業の検証[08 F.Diot et al，ESA]
要求
多自由度アームによる多様な全身運動の実現
ヒューマノイドロボットのような形状
課題
水中環境がロボットに与える影響 [浦他]
•重量・浮量バランスの調整が必要
•正確なセンサ計測が困難
•流れの変化による外乱が大きく移動制御が困難
多数アクチュエータに対しての制御目標量の多様性

目的
小型ヒューマノイドロボットによる水中移動行動の実現

•水中ヒューマノイドロボットモデルの立案
•水中ロボットシステムの作成
•水中小型ヒューマノイドロボットによる行動の実現

水中ヒューマノイドロボットモデル
運動方程式
f  Mv  O  W  B  G  T  F

M 質量
O 波浪による力
W 抵抗力
B 浮力
G 重力・遠心力・コリオリの力
T 接地面から受ける力
F 全身動作による推進力

pC nc
重心周りに働く慣性力によるモーメント
nG  ( pC  pG )  f  nC
f
pG , nG
pG 重心位置
pC 系全体の力がかかる位置
nC 環境から受ける pC 周りのモーメント
水中ヒューマノイドロボットの動作
B  0 を満たす領域で nG  0 を目標とする動作を実現

ロボットの浮力設定
O nc pC f
nc 今回は
pC pG , nG F
pG , nG
f F nc F B  0  T  0 を満たす領域で
nG  0 を目標とする動作を実現する
pC
pG , nG f
対象領域
T T>0
水中ヒューマノイドロボットモデル適切な質量・重心位置の調整が必要
•ロボット本体：1.3kg
•ダイバースーツ：0.6kg 本体質量m：5.9kg
•重り1.0kg×4

•スーツ容量V ：4.7l 浮量ρV：4.8kg

水中質量：1.1kg

ロボットシステムアーキテクチャ
ヒューマノイドロボット：有索での遠隔操作により動作(ROV)

水中ヒューマノイドロボット
外界センサカメラ
センサ
駆動部
画像
データ
制御部
制御ホスト
制御ボードモータ駆動 PC
信号コマンド

防水スーツ manoi-AT01 加速度
•高さ：34cm データ
•17自由度内界センサ
3軸加速度 AD変換ボード
センサ
センサ電圧

動作環境
ロボットが全身運動を実現可能な広さと深さの水槽環境

PC・A/Dボードと安定化電源との
の接続ケーブル接続ケーブル

カメラセンサ

高さ
600mm
奥行600mm

幅1200mm 位置座標・ヨー角検出用マーカー

水槽環境水中立位姿勢

ロボットの運動
四肢が独立して持つ発振器と目標関節角度により運動パターンを生成
手の動作足の動作

π/2
π/2
θ=0 π
π ω Θ=0
ω
3π/2 3π/2
発振器
発振器

•発振器ダイナミクス：  (t )  iT   D (i  0,1,2,,7) (T  0.3[sec])

•手足の目標関節角： qi  marm (t )qt max i marm (t ) : 操作量 (サーボモータ番号n  1,2,3,,16)
n n

実験
目的：立位姿勢における移動行動の実現

2地点間移動タスクによる検証

実験1 目的：固定パターン動作に基づく運動による移動行動検証

手法：フィードバック制御

実験2 目的：移動行動の際の全身動作の検証

手法：強化学習
四肢を使った行動をQ学習により実現

実験1 PD制御による移動行動実現
位置偏差と出力値の変化を考慮
d x (t )  d x (t  T )
X軸 : mx (t )  KPx d x (t )  KDx
T
d (t )  d (t  T )
Θ軸 : m (t )  KP d (t )  KD 
T
y
ゴール地点 KP : 比例項のパラメータ
KD : 微分項のパラメータ
X x 制御目標(左右)
m(t) : 手足毎の操作量
θ ml (t )  mx (t )  m (t )
d(t) : 目標位置に対する偏差
mr (t )  mx (t )  m (t )
ΔT : サンプリング時間(1.2s)
動作設定 1

2
カメラの視野限界 •発振器固有振動数： T

水槽底面xy平面 •発振器位相遅れ：  D右手  0, D左手  0, D右足   , D左足  0
qin  marm (t )qtnmax i
•手足の目標関節角：
(サーボモータ番号n  1,2,3,,16)

PD制御結果
3試行の結果

Xの時間推移

xy平面上の移動軌跡

2地点間移動行動を実現 θの時間推移

実験2 強化学習による移動行動実現
車輪型ロボットによるサッカータスクに対してQ学習適用[浅田他]

動作設定
1 1
 
•発振器固有振動数(大小)：   4 ,  2
T T

•発振器位相遅れ(大小)：  D  0, D  

1 n
•目標関節角(大小)： qin  qt max i , q in  qtnmax i
2
(サーボモータ番号n  1,2,3,,16)

動作状態数(各腕) 行動状態数(全身)
23 ( 8) 状態 234 ( 4096) 状態

強化学習(環境状態)
環境状態設定

ロボットがカメラの視野範囲にある場合
近距離領域ゴールとロボット距離d(2段階)
y ゴール地点 •遠距離領域：d > 250mm
(ゴール範囲) •近距離領域：d < 250mm
ゴールとロボットの相対角度θ(3段階)
•中央：-PI/16 < θ < PI/16
x
•左：θ < -PI/16
d •右：θ > PI/16
θ 合計6状態
遠距離領域ロボットがカメラの視野範囲にない場合
ゴール消失角度θ(3段階)
合計3状態
カメラの視野限界
水槽底面xy平面
環境状態を9状態に分割

強化学習(Q学習)
直接強化学習(Q学習)を適用

Q(s, a) <- Q(s, a) + α*r + γmax a’ Q(s’, a’) – Q(s, a) ]
Q値更新式
状態 s ∈ S, 行動 a ∈ A, 報酬 r
観測状態 s’ ∈ S, 行動 a ‘∈ A

パラメータ
α=0.1，γ＝0.8
ε(ε-greedy方策)＝0.3

報酬ゴール地点到達(タスク成功)時
r＝1.0/tstep (1tstep：2.4sec)

1エピソード
初期位置からゴール領域に到達する
あるいはタイムアウト時間T=180[sec]が経過するまで

強化学習による獲得行動
78エピソード四肢の行動(横軸)毎にQ値についてソート
経過後の結果

遠方右にゴール状態：遠方中央にゴール状態：遠方左にゴール
行動：直進行動：右向きに旋回

状態：近辺右にゴール状態：近辺中央にゴール状態：近辺左にゴール
行動：右向きに旋回行動：直進行動：右向きに旋回
Q値が収束に向かわないあるいは誤った行動に収束
•壁との衝突が影響
•壁付近での水流の変化

強化学習実験結果
学習前後で観測された状態-行動の回数

左手右手
左手右手

角速度大
左足右足
左足右足

(初期) エピソード1～5合計エピソード74～78合計
四肢ともほぼ同じ動作パターン環境状態毎に様々な動作パターン
を探索

学習中における指標推移

ゴール到達ステップ数の時間推移タスク成功率
(タスクを成功したエピソード) (直近10試行の移動平均)

•状態空間の分割が適切でない可能性
学習進行に伴うタスク成功率の低下
•報酬の与え方が適切でない可能性

学習手法再検討の必要性

タスク達成時間平均：PID制御65[s]，Q学習36[s]

まとめ
•水中小型ヒューマノイドロボットのモデル立案を行った
陸上ヒューマノイドロボットモデルとは異なる運動の実現可能性を示した

•水中小型ヒューマノイドロボットシステムの構築を行った

•水中立位姿勢におけるロボットの移動行動を検証した
PD制御により，ロボットによる2地点間の移動行動を実現した

強化学習の結果，全身動作によりに移動する行動が見られた

行動の様子
強化学習79エピソード目
13ステップ(31[sec])でゴール達成

START

GOAL

移動軌跡(xy平面)

Nakabayashi m

Recommended

Recommended

More Related Content

Similar to Nakabayashi m

Similar to Nakabayashi m (13)

More from harmonylab

More from harmonylab (20)

Nakabayashi m