SlideShare a Scribd company logo
1 of 19
Download to read offline
水中小型ヒューマノイドロボットの
   立位姿勢における移動行動学習
Adaptive Underwater Locomotive for Small
 Humanoid Robot with Standing Posture


    複雑系工学講座 調和系工学研究室
      修士課程2年 中林 佑太
背景
水中ロボットのアプリケーション
 極限環境下における作業代替
     漁業における作業代替・補助          ダイバーロボット構想
     港湾における点検保守             [04 金岡 他]
     宇宙空間における作業の検証[08 F.Diot et al,ESA]
要求
 多自由度アームによる多様な全身運動の実現
          ヒューマノイドロボットのような形状
課題
 水中環境がロボットに与える影響 [浦 他]
   •重量・浮量バランスの調整が必要
   •正確なセンサ計測が困難
   •流れの変化による外乱が大きく移動制御が困難
 多数アクチュエータに対しての制御目標量の多様性
目的
小型ヒューマノイドロボットによる水中移動行動の実現

•水中ヒューマノイドロボットモデルの立案
•水中ロボットシステムの作成
•水中小型ヒューマノイドロボットによる行動の実現
水中ヒューマノイドロボットモデル
                  運動方程式
                    f  Mv  O  W  B  G  T  F
                         
                          M     質量
                          O     波浪による力
                           W    抵抗力
                           B    浮力
                           G    重力・遠心力・コリオリの力
                           T    接地面から受ける力
                           F    全身動作による推進力

  pC nc
                  重心周りに働く慣性力によるモーメント
                     nG  ( pC  pG )  f  nC
            f
pG , nG
                          pG   重心位置
                          pC   系全体の力がかかる位置
                          nC   環境から受ける pC 周りのモーメント
   水中ヒューマノイドロボットの動作
          B  0 を満たす領域で nG  0 を目標とする動作を実現
ロボットの浮力設定
                          O nc pC        f
          nc                                      今回は
    pC                     pG , nG           F
pG , nG
               f F          nc       F             B  0  T  0 を満たす領域で
                                                   nG  0 を目標とする動作を実現する
                         pC
                     pG , nG         f
                                                 対象領域
                         T                       T>0
   水中ヒューマノイドロボットモデル                                適切な質量・重心位置の調整が必要
                                                 •ロボット本体:1.3kg
                                                 •ダイバースーツ:0.6kg   本体質量m:5.9kg
                                                 •重り1.0kg×4

                                                 •スーツ容量V :4.7l    浮量ρV:4.8kg


                                                                  水中質量:1.1kg
ロボットシステムアーキテクチャ
    ヒューマノイドロボット:有索での遠隔操作により動作(ROV)

        水中ヒューマノイドロボット
                                  外界センサ      カメラ
                                             センサ
          駆動部
                                              画像
                                              データ
                                  制御部
                           制御                  ホスト
                      制御   ボード   モータ駆動          PC
                      信号          コマンド

防水スーツ    manoi-AT01                            加速度
        •高さ:34cm                               データ
        •17自由度                    内界センサ
                       3軸加速度              AD変換ボード
                        センサ
                                 センサ電圧
動作環境
     ロボットが全身運動を実現可能な広さと深さの水槽環境

                      PC・A/Dボードと   安定化電源との
                      の接続ケーブル      接続ケーブル


カメラセンサ




  高さ
 600mm
                   奥行600mm


         幅1200mm        位置座標・ヨー角検出用マーカー

         水槽環境                  水中立位姿勢
ロボットの運動
 四肢が独立して持つ発振器と目標関節角度により運動パターンを生成
手の動作                                                                        足の動作


                                                                   π/2
                     π/2
                           θ=0                                π
                 π                                                 ω Θ=0
                       ω
                     3π/2                                          3π/2
                                                                  発振器
                     発振器




•発振器ダイナミクス:            (t )  iT   D   (i  0,1,2,,7) (T  0.3[sec])

•手足の目標関節角: qi  marm (t )qt max i marm (t ) : 操作量 (サーボモータ番号n  1,2,3,,16)
            n             n
実験
 目的:立位姿勢における移動行動の実現

   2地点間移動タスクによる検証


実験1 目的:固定パターン動作に基づく運動による移動行動検証

   手法:フィードバック制御



実験2 目的:移動行動の際の全身動作の検証

   手法:強化学習
      四肢を使った行動をQ学習により実現
実験1 PD制御による移動行動実現
                  位置偏差と出力値の変化を考慮
                                                            d x (t )  d x (t  T )
                       X軸 :      mx (t )  KPx d x (t )  KDx
                                                                       T
                                                            d (t )  d (t  T )
                       Θ軸 :      m (t )  KP d (t )  KD 
                                                                       T
     y
                 ゴール地点            KP : 比例項のパラメータ
                                  KD : 微分項のパラメータ
         X   x     制御目標(左右)
                                              m(t) : 手足毎の操作量
 θ                ml (t )  mx (t )  m (t )
                                              d(t) : 目標位置に対する偏差
                  mr (t )  mx (t )  m (t )
                                              ΔT : サンプリング時間(1.2s)
                    動作設定                          1
                                                    
                                                2
カメラの視野限界             •発振器固有振動数:        T


水槽底面xy平面             •発振器位相遅れ:  D右手  0, D左手  0, D右足   , D左足  0
                                                qin  marm (t )qtnmax i
                     •手足の目標関節角:
                                                (サーボモータ番号n  1,2,3,,16)
PD制御結果
3試行の結果




                   Xの時間推移




    xy平面上の移動軌跡


     2地点間移動行動を実現   θの時間推移
実験2 強化学習による移動行動実現
 車輪型ロボットによるサッカータスクに対してQ学習適用[浅田他]



動作設定
                   1                  1
                                       
•発振器固有振動数(大小):   4             ,  2
                             T              T

•発振器位相遅れ(大小):     D  0, D  

                          1 n
•目標関節角(大小):       qin      qt max i , q in  qtnmax i
                          2
                                           (サーボモータ番号n  1,2,3,,16)


  動作状態数(各腕)                   行動状態数(全身)
   23 ( 8) 状態                234 ( 4096) 状態
強化学習(環境状態)
                    環境状態設定

                     ロボットがカメラの視野範囲にある場合
  近距離領域                  ゴールとロボット距離d(2段階)
 y               ゴール地点      •遠距離領域:d > 250mm
                 (ゴール範囲)    •近距離領域:d < 250mm
                        ゴールとロボットの相対角度θ(3段階)
                           •中央 :-PI/16 < θ < PI/16
           x
                           •左 :θ < -PI/16
     d                     •右 :θ > PI/16
 θ                            合計6状態
         遠距離領域       ロボットがカメラの視野範囲にない場合
                         ゴール消失角度θ(3段階)
                              合計3状態
 カメラの視野限界
水槽底面xy平面
                           環境状態を9状態に分割
強化学習(Q学習)
直接強化学習(Q学習)を適用

              Q(s, a) <- Q(s, a) + α*r + γmax a’ Q(s’, a’) – Q(s, a) ]
   Q値更新式
                                              状態 s ∈ S, 行動 a ∈ A, 報酬 r
                                              観測状態 s’ ∈ S, 行動 a ‘∈ A

 パラメータ
      α=0.1,γ=0.8
       ε(ε-greedy方策)=0.3


 報酬 ゴール地点到達(タスク成功)時
      r=1.0/tstep (1tstep:2.4sec)

 1エピソード
      初期位置からゴール領域に到達する
      あるいはタイムアウト時間T=180[sec]が経過するまで
強化学習による獲得行動
78エピソード     四肢の行動(横軸)毎にQ値についてソート
経過後の結果




      遠方右にゴール    状態:遠方中央にゴール   状態:遠方左にゴール
                 行動:直進         行動:右向きに旋回




    状態:近辺右にゴール   状態:近辺中央にゴール   状態:近辺左にゴール
    行動:右向きに旋回    行動:直進         行動:右向きに旋回
          Q値が収束に向かわないあるいは誤った行動に収束
          •壁との衝突      が影響
          •壁付近での水流の変化
強化学習実験結果
         学習前後で観測された状態-行動の回数


                          左手     右手
    左手       右手


                               角速度大
                     左足               右足
    左足        右足




(初期) エピソード1~5合計     エピソード74~78合計
 四肢ともほぼ同じ動作パターン      環境状態毎に様々な動作パターン
                     を探索
学習中における指標推移




 ゴール到達ステップ数の時間推移               タスク成功率
  (タスクを成功したエピソード)          (直近10試行の移動平均)

                      •状態空間の分割が適切でない可能性
学習進行に伴うタスク成功率の低下
                      •報酬の与え方が適切でない可能性

           学習手法再検討の必要性

      タスク達成時間平均:PID制御65[s],Q学習36[s]
まとめ
•水中小型ヒューマノイドロボットのモデル立案を行った
  陸上ヒューマノイドロボットモデルとは異なる運動の実現可能性を示した



•水中小型ヒューマノイドロボットシステムの構築を行った


•水中立位姿勢におけるロボットの移動行動を検証した
  PD制御により,ロボットによる2地点間の移動行動を実現した

  強化学習の結果,全身動作によりに移動する行動が見られた
行動の様子
強化学習79エピソード目
    13ステップ(31[sec])でゴール達成



                                   START

                            GOAL


                            移動軌跡(xy平面)

More Related Content

Similar to Nakabayashi m

Similar to Nakabayashi m (13)

kasawaki b
kasawaki bkasawaki b
kasawaki b
 
yamagata m
yamagata myamagata m
yamagata m
 
Ppt nishioka
Ppt nishiokaPpt nishioka
Ppt nishioka
 
Ppt minagawa
Ppt minagawaPpt minagawa
Ppt minagawa
 
Ppt umemoto g
Ppt umemoto gPpt umemoto g
Ppt umemoto g
 
Sekiya b
Sekiya bSekiya b
Sekiya b
 
Ppt kasawaki
Ppt kasawakiPpt kasawaki
Ppt kasawaki
 
Kimura b
Kimura bKimura b
Kimura b
 
minagawa m
minagawa mminagawa m
minagawa m
 
Tsukuba exploration rover 制御周り仕様書
Tsukuba exploration rover 制御周り仕様書Tsukuba exploration rover 制御周り仕様書
Tsukuba exploration rover 制御周り仕様書
 
Yamauchi b
Yamauchi bYamauchi b
Yamauchi b
 
ADVENTURE_Magnetic Ver.1.3の解説
ADVENTURE_Magnetic Ver.1.3の解説ADVENTURE_Magnetic Ver.1.3の解説
ADVENTURE_Magnetic Ver.1.3の解説
 
kadota m
kadota mkadota m
kadota m
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Nakabayashi m

  • 1. 水中小型ヒューマノイドロボットの 立位姿勢における移動行動学習 Adaptive Underwater Locomotive for Small Humanoid Robot with Standing Posture 複雑系工学講座 調和系工学研究室 修士課程2年 中林 佑太
  • 2. 背景 水中ロボットのアプリケーション 極限環境下における作業代替 漁業における作業代替・補助 ダイバーロボット構想 港湾における点検保守 [04 金岡 他] 宇宙空間における作業の検証[08 F.Diot et al,ESA] 要求 多自由度アームによる多様な全身運動の実現 ヒューマノイドロボットのような形状 課題 水中環境がロボットに与える影響 [浦 他] •重量・浮量バランスの調整が必要 •正確なセンサ計測が困難 •流れの変化による外乱が大きく移動制御が困難 多数アクチュエータに対しての制御目標量の多様性
  • 4. 水中ヒューマノイドロボットモデル 運動方程式 f  Mv  O  W  B  G  T  F  M 質量 O 波浪による力 W 抵抗力 B 浮力 G 重力・遠心力・コリオリの力 T 接地面から受ける力 F 全身動作による推進力 pC nc 重心周りに働く慣性力によるモーメント nG  ( pC  pG )  f  nC f pG , nG pG 重心位置 pC 系全体の力がかかる位置 nC 環境から受ける pC 周りのモーメント 水中ヒューマノイドロボットの動作 B  0 を満たす領域で nG  0 を目標とする動作を実現
  • 5. ロボットの浮力設定 O nc pC f nc 今回は pC pG , nG F pG , nG f F nc F B  0  T  0 を満たす領域で nG  0 を目標とする動作を実現する pC pG , nG f 対象領域 T T>0 水中ヒューマノイドロボットモデル 適切な質量・重心位置の調整が必要 •ロボット本体:1.3kg •ダイバースーツ:0.6kg 本体質量m:5.9kg •重り1.0kg×4 •スーツ容量V :4.7l 浮量ρV:4.8kg 水中質量:1.1kg
  • 6. ロボットシステムアーキテクチャ ヒューマノイドロボット:有索での遠隔操作により動作(ROV) 水中ヒューマノイドロボット 外界センサ カメラ センサ 駆動部 画像 データ 制御部 制御 ホスト 制御 ボード モータ駆動 PC 信号 コマンド 防水スーツ manoi-AT01 加速度 •高さ:34cm データ •17自由度 内界センサ 3軸加速度 AD変換ボード センサ センサ電圧
  • 7. 動作環境 ロボットが全身運動を実現可能な広さと深さの水槽環境 PC・A/Dボードと 安定化電源との の接続ケーブル 接続ケーブル カメラセンサ 高さ 600mm 奥行600mm 幅1200mm 位置座標・ヨー角検出用マーカー 水槽環境 水中立位姿勢
  • 8. ロボットの運動 四肢が独立して持つ発振器と目標関節角度により運動パターンを生成 手の動作 足の動作 π/2 π/2 θ=0 π π ω Θ=0 ω 3π/2 3π/2 発振器 発振器 •発振器ダイナミクス:  (t )  iT   D (i  0,1,2,,7) (T  0.3[sec]) •手足の目標関節角: qi  marm (t )qt max i marm (t ) : 操作量 (サーボモータ番号n  1,2,3,,16) n n
  • 9. 実験 目的:立位姿勢における移動行動の実現 2地点間移動タスクによる検証 実験1 目的:固定パターン動作に基づく運動による移動行動検証 手法:フィードバック制御 実験2 目的:移動行動の際の全身動作の検証 手法:強化学習 四肢を使った行動をQ学習により実現
  • 10. 実験1 PD制御による移動行動実現 位置偏差と出力値の変化を考慮 d x (t )  d x (t  T ) X軸 : mx (t )  KPx d x (t )  KDx T d (t )  d (t  T ) Θ軸 : m (t )  KP d (t )  KD  T y ゴール地点 KP : 比例項のパラメータ KD : 微分項のパラメータ X x 制御目標(左右) m(t) : 手足毎の操作量 θ ml (t )  mx (t )  m (t ) d(t) : 目標位置に対する偏差 mr (t )  mx (t )  m (t ) ΔT : サンプリング時間(1.2s) 動作設定 1  2 カメラの視野限界 •発振器固有振動数: T 水槽底面xy平面 •発振器位相遅れ:  D右手  0, D左手  0, D右足   , D左足  0 qin  marm (t )qtnmax i •手足の目標関節角: (サーボモータ番号n  1,2,3,,16)
  • 11. PD制御結果 3試行の結果 Xの時間推移 xy平面上の移動軌跡 2地点間移動行動を実現 θの時間推移
  • 12. 実験2 強化学習による移動行動実現 車輪型ロボットによるサッカータスクに対してQ学習適用[浅田他] 動作設定 1 1   •発振器固有振動数(大小):   4 ,  2 T T •発振器位相遅れ(大小):  D  0, D   1 n •目標関節角(大小): qin  qt max i , q in  qtnmax i 2 (サーボモータ番号n  1,2,3,,16) 動作状態数(各腕) 行動状態数(全身) 23 ( 8) 状態 234 ( 4096) 状態
  • 13. 強化学習(環境状態) 環境状態設定 ロボットがカメラの視野範囲にある場合 近距離領域 ゴールとロボット距離d(2段階) y ゴール地点 •遠距離領域:d > 250mm (ゴール範囲) •近距離領域:d < 250mm ゴールとロボットの相対角度θ(3段階) •中央 :-PI/16 < θ < PI/16 x •左 :θ < -PI/16 d •右 :θ > PI/16 θ 合計6状態 遠距離領域 ロボットがカメラの視野範囲にない場合 ゴール消失角度θ(3段階) 合計3状態 カメラの視野限界 水槽底面xy平面 環境状態を9状態に分割
  • 14. 強化学習(Q学習) 直接強化学習(Q学習)を適用 Q(s, a) <- Q(s, a) + α*r + γmax a’ Q(s’, a’) – Q(s, a) ] Q値更新式 状態 s ∈ S, 行動 a ∈ A, 報酬 r 観測状態 s’ ∈ S, 行動 a ‘∈ A パラメータ α=0.1,γ=0.8 ε(ε-greedy方策)=0.3 報酬 ゴール地点到達(タスク成功)時 r=1.0/tstep (1tstep:2.4sec) 1エピソード 初期位置からゴール領域に到達する あるいはタイムアウト時間T=180[sec]が経過するまで
  • 15. 強化学習による獲得行動 78エピソード 四肢の行動(横軸)毎にQ値についてソート 経過後の結果 遠方右にゴール 状態:遠方中央にゴール 状態:遠方左にゴール 行動:直進 行動:右向きに旋回 状態:近辺右にゴール 状態:近辺中央にゴール 状態:近辺左にゴール 行動:右向きに旋回 行動:直進 行動:右向きに旋回 Q値が収束に向かわないあるいは誤った行動に収束 •壁との衝突 が影響 •壁付近での水流の変化
  • 16. 強化学習実験結果 学習前後で観測された状態-行動の回数 左手 右手 左手 右手 角速度大 左足 右足 左足 右足 (初期) エピソード1~5合計 エピソード74~78合計 四肢ともほぼ同じ動作パターン 環境状態毎に様々な動作パターン を探索
  • 17. 学習中における指標推移 ゴール到達ステップ数の時間推移 タスク成功率 (タスクを成功したエピソード) (直近10試行の移動平均) •状態空間の分割が適切でない可能性 学習進行に伴うタスク成功率の低下 •報酬の与え方が適切でない可能性 学習手法再検討の必要性 タスク達成時間平均:PID制御65[s],Q学習36[s]
  • 19. 行動の様子 強化学習79エピソード目 13ステップ(31[sec])でゴール達成 START GOAL 移動軌跡(xy平面)