SlideShare a Scribd company logo
1 of 17
Download to read offline
屋内自律飛行船の追従行動に
     対する行動戦略の学習
Learning of behavioral strategies in pursuit task
            for Indoor Balloon Robot

               複合情報学専攻 複雑系工学講座
             調和系工学講座 学部4年 梅本 雅之
背景
複雑系
構成要素が相互作用し,系全体の振る舞いが決定される

屋内自律飛行船 ・・・エンタテインメントに利用
複数飛行船において相互作用により,全体としてエンタテイメン
ト性のある飛行の実現が可能
 行動戦略
繰り返し行動において目的達成のための行動決定方針
環境や飛行船の運動特性が大きく影響
従来の制御方法
現在(制御する時刻)の状態のみから行動を決定
   戦略的行動をするのは困難

  行動戦略を自律的獲得し,実行する手法が必要
目的
     複数の屋内自律飛行船による
      行動戦略の自律的獲得


方法

追跡-逃走ゲームをシミュレータ上で構築
環境・運動特性が行動戦略の獲得に与える影響を分析
ゲームの定義
環境
環境
    プレイヤ    追跡者,逃走者
    空間      半径R,高さHの円柱空間内            追跡者    逃走者

    環境サーバ   相手の位置座標(X,Y,Z)を通知
    ゲーム時間   T時間
    初期距離    dinit離れている
    終了条件    捕獲orT時間経過
                                       d t : 距離
プレイヤ 目的:利得関数を最大にする戦略の獲得                ct : 捕獲時間

                 追跡者             逃走者
       目的       短時間で捕獲          長時間逃走
                 1 T d t ct     1 T d t ct
      利得関数     1         
                 T t d init T
                                 d T
                                T t init
      勝利条件       捕獲に成功          T時間逃走
屋内自律飛行船
         94.0[cm]
                                   Controller

                                        T-Engine System

80.0                                    CPU: 216MHz

[cm]                      Image                       Control
                          information                 signal
                  Camera Sensor              Propellers




                  RGB 16bit
                  160×144[pixel]


       モータ制御   XY方向:2chずつ・Z方向:
               1ch
       位置計算    床面のランドマークから計算
飛行船シミュレータ
概要
     屋内自律飛行船をモデル化
     運動方程式により飛行船の動きを計算
     OpenGLにより視覚化

     運動方程式       Mv  Av  B  F  
                  
      M : 質量行列      B : 浮力と重力による力
      v : 加速度ベクトル F : 遠心力とコリオリ力
      
      A : 空気抵抗       : 推力
戦略の進化的獲得
 戦略を反映した制御方式と戦略の学習が必要

ニューラルネットワーク   戦略を内含した制御が可能
              環境の変化に柔軟に対応


        パラメータの学習やINPUTの設計が必要

共進化GAによるNNの学習
  共進化
   相手の戦略の進化に対してより強固な戦略の学習
   GA
    明確な解が無い問題の最適解を探索
制御方法
       ニューラルネットワークによる制御
  入力層:14              中間層:12                 出力層:5
                                                     各
機体間の相対座標                                             プ
(rx,ry,rz)                                           ロ
各機体の移動偏差                    ・                        ペ
                  ・
                            ・
                            ・
                            ・
                                                     ラ
(dx,dy,dz)        ・
                  ・         ・
                            ・                        の
                            ・
壁との相対座標                     ・                        出
(wx,wy,wz)                                           力
                      vij       Wjk
前回の出力


                 vij … wjk … θj …     φk …


   結合係数( vij , wjk )と閾値( θj , φk )を遺伝子として持つGAを考える
   共進化GAを用いて最適な解を探索し,NNを学習させる
追跡者
         NNの学習方法            逃走者
              T-1 世代


                 エリート3個体



                            個体集合
                            (100個体)




               T世代全ての個体



T世代における逃走者100個体の評価値の算出方法を説明する
逃走者1個体ずつエリート3個体と対戦させ,利得の平均を評価値とする
追跡者
          NNの学習方法          逃走者
                  T-1 世代


          エリート3個体


個体集合                       個体集合
(100個体)                    (100個体)




          全ての個体    T世代


   追跡者の場合も逃走者と同様に評価値を算出
      対戦中に遺伝子は変化しない
追跡者
         NNの学習方法         逃走者
              T-1 世代




 交叉,変異                   交叉,変異




               T世代


評価値に従って,選択し遺伝子操作を加えて次世代の個体を生成
 同様の操作を1000世代繰り返し,NNのパラメータを進化させる
実験
ゲーム環境が行動戦略の決定に与える影響を調べる

ゲームバランスが均衡しているほうが戦略の有効性が高まる

空間サイズによりどのような行動戦略ができるかを検討
Rを変更して十分に進化したプレイヤ同士によりゲーム

パラメータ設定

 設定時間T:300[sec]
 半径:R[m],高さ:5[m]の円柱空間内
 初期距離:R[m]



                         XY平面上の初期位置
実験結果
異なる空間サイズで同じ運動特性の2機体
空間サイズR =(5,10…50) 最高速度 v = 0.2[m/s]
                                                          捕獲回数        捕獲平均時間

        100                                                                  300

        80                                                                   250




                                                                                   捕獲平均時間
                                                                             200
 捕獲回数




        60
                                                                             150
        40
                                                                             100
        20                                                                   50
         0                                                                   0
              0   5   10   15   20      25      30   35    40    45     50
                                     空間サイズ[m]



ゲームバランスが均衡しているR=15~25[m]で
効果的な行動戦略を獲得し易いと考えられる.
獲得した行動戦略の例を次に示す.
壁に追い込む戦略   黄色の機体:逃走者
           白色の機体:追跡者
           運動性能      同じ
           空間サイズR   15[m]

               2次元軌跡
           (赤:追跡者,緑:逃走者)
実験②                                             p
                                                                         (  0.1,0.2 1.0)
                                                                    e
       空間サイズ 半径;25[m]                                                :追跡者の推力
                                                                      p
       初期距離:25[m]
                                                                     :逃走者の推力
                                                                      e


モータ特性αと捕獲回数と平均時間のグラフ

                                                    100
                                                    90
                                                    80
                                                                     モータ特性比が
捕獲平均時間(青)




                                                    70




                                                          捕獲回数(赤)
                                                    60               逃走者:追跡者=1:0.7~0.8
                                                    50
                                                    40               にかけて追跡者と逃走者の
                                                    30
                                                    20
                                                                     力バランスの均衡点があり,
                                                    10               その際に次のような
                                                    0
            1   2   3   4    5  6  7   8   9   10                    戦略を創発した
                            モータ特性比
黄色の機体:逃走者
フェイント行動     白色の機体:追跡者

          加速度   逃走者>追跡者
          最高速   逃走者=追跡者
                2次元軌跡
            (赤:追跡者,緑:逃走者)
まとめ
 戦略を伴うゲーム環境を構築した
 相手の行動に適応した行動戦略を自律的に獲得した
 進化の過程で単純に追従するだけでなく,
  フェイント行動などの行動戦略を創発した


        今後の課題
実機を用いた実験
複数機体でのゲーム

More Related Content

Viewers also liked

[修士論文] 入力支援機能を備えた日本語表記による初学者向けプログラミング学習環境の構築
[修士論文] 入力支援機能を備えた日本語表記による初学者向けプログラミング学習環境の構築[修士論文] 入力支援機能を備えた日本語表記による初学者向けプログラミング学習環境の構築
[修士論文] 入力支援機能を備えた日本語表記による初学者向けプログラミング学習環境の構築Ryota Nakamura
 
携帯電話通信事業のBOP市場における成功要因
携帯電話通信事業のBOP市場における成功要因携帯電話通信事業のBOP市場における成功要因
携帯電話通信事業のBOP市場における成功要因Keio business school
 
修士論文最終審査発表資料
修士論文最終審査発表資料修士論文最終審査発表資料
修士論文最終審査発表資料Yasuji Suda
 
サザエ実況を支える技術 #sst_history
サザエ実況を支える技術 #sst_historyサザエ実況を支える技術 #sst_history
サザエ実況を支える技術 #sst_historyGo Sueyoshi (a.k.a sue445)
 

Viewers also liked (11)

[修士論文] 入力支援機能を備えた日本語表記による初学者向けプログラミング学習環境の構築
[修士論文] 入力支援機能を備えた日本語表記による初学者向けプログラミング学習環境の構築[修士論文] 入力支援機能を備えた日本語表記による初学者向けプログラミング学習環境の構築
[修士論文] 入力支援機能を備えた日本語表記による初学者向けプログラミング学習環境の構築
 
takagi m
takagi mtakagi m
takagi m
 
nishikawa b
nishikawa bnishikawa b
nishikawa b
 
携帯電話通信事業のBOP市場における成功要因
携帯電話通信事業のBOP市場における成功要因携帯電話通信事業のBOP市場における成功要因
携帯電話通信事業のBOP市場における成功要因
 
Kin b
Kin bKin b
Kin b
 
修士論文最終審査発表資料
修士論文最終審査発表資料修士論文最終審査発表資料
修士論文最終審査発表資料
 
Arai m
Arai mArai m
Arai m
 
arai b
arai barai b
arai b
 
miyamori m
miyamori mmiyamori m
miyamori m
 
アニメ聖地巡礼研究(修士論文版)
アニメ聖地巡礼研究(修士論文版)アニメ聖地巡礼研究(修士論文版)
アニメ聖地巡礼研究(修士論文版)
 
サザエ実況を支える技術 #sst_history
サザエ実況を支える技術 #sst_historyサザエ実況を支える技術 #sst_history
サザエ実況を支える技術 #sst_history
 

Similar to Ppt umemoto g

異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –Yohei Sato
 

Similar to Ppt umemoto g (9)

minagawa m
minagawa mminagawa m
minagawa m
 
Umemoto m
Umemoto mUmemoto m
Umemoto m
 
Nakabayashi m
Nakabayashi mNakabayashi m
Nakabayashi m
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
 
Ppt nishioka
Ppt nishiokaPpt nishioka
Ppt nishioka
 
Ppt kasawaki
Ppt kasawakiPpt kasawaki
Ppt kasawaki
 
nakabayasi m
nakabayasi mnakabayasi m
nakabayasi m
 
Kimura b
Kimura bKimura b
Kimura b
 
kasawaki b
kasawaki bkasawaki b
kasawaki b
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Ppt umemoto g