SlideShare a Scribd company logo
1 of 79
Download to read offline
State-Action Map Compression
 by using Vector Quantization
 for Decision Making
 of Autonomous Robots
 自律ロボットの行動決定のための
状態行動地図のベクトル量子化圧縮

        	
        東京大学大学院工学系研究科	
                  精密機械工学専攻	
                   助手 上田 隆一	
                           	
                 指導教員:新井 民夫
2
        予備審査からの主な変更点	
    ¢  他手法との比較を追加
     l  動的計画法(DP)を使用する理由
     l  計算量評価
       •  関数近似手法
       •  木構造による圧縮手法


    ¢  各例題の性質に関する議論
     l  歪み測度から読み取れる性質




                            博士論文審査   2007年2月9日
3
            1章 ロボットの実時間行動決定	
¢    例:ロボットサッカー

        のゴールキーパー
      l  なるべく速く行動決定	
      l  ロボット(自律)のCPUは

          速くない(200MHz)	




                                   ※2倍速	
      どうやって実現したか?	
      

      別の計算機で動的計画法による行動則(=方策)を作成

      →実装	
                           博士論文審査 2007年2月9日
4
                  動的計画法による方策作成と利用	
¢     動的計画法[Bellman 57]
       (dynamic programming, DP)
      l    最適制御問題の解法	
                  ボールの位置	
                                          (2次元)	

                                   ロボットの位置・向き	
      l    適用方法(前述のキーパー)	
           (3次元)	
            1.    考慮すべき状態変数を選択	
            2.    状態空間を張る	
            3.    格子状に状態空間を離散化	
            4.    評価関数を最大化する行動を全離散状態に記述	


      ロボットは状態からとるべき行動を反射的に選択可能	
                                    博士論文審査 2007年2月9日
5
                   DPの適用方法

           (連続空間の最適制御→有限マルコフ決定過程)	
    ¢  有限個の行動集合 A = {a , a ,... , a }
                                       x
                                     1   2      M
    ¢    状態変数 x1, x2,... , xn で状態空間 X を張る	
          l    格子状に離散化 S = {s1, s2,... , sN}

    ¢    状態方程式 dx/dt = f (x, a)                    離散	
          l    時間の離散化→状態遷移確率 Pss'a                 状態	
    ¢    評価関数 g(x,u)(例:時間消費,失点リスク等)	
          l    時間の離散化→Rss'a                                           xf
    ¢    評価汎関数 J =∫g(x,u) dt = Σ Rss'a


                      評価 J の最大化	
                                                           博士論文審査 2007年2月9日
6

       DPから得られるデータ	
                x

¢  終端状態までの評価       J (sの価値)	
    l  状態価値関数 V(s) = 価値	
¢  価値を最大化する行動	

    l  方策 π(s) = a

                                               xf

¢  与えられた制御問題や離散化方法に対して最適
    l  連続系では離散化が細かいほど最適に
     •  Hamilton-Jacobi-Bellman方程式の解に近づく

                                    博士論文審査 2007年2月9日
7
         DPによる全状態に対する方策計算	
    ¢  方策作成時に大きな計算コスト



    ¢  最適性が保証されない場合がある
     l  状態観測に誤差(改善方法については[上田07]参照)
     l  状態方程式が制御対象の性質を表していない場合




           実機を使った学習的アプローチ
           との優劣がしばしば議論となる	

                               博士論文審査 2007年2月9日
8
            強化学習[Sutton 98等]との対比	
               DP(単純離散化)	
       強化学習	
    解の収束性	
       確実	
        十分な「経験」が必要	
    解の範囲	
    全状態空間をカバー	
       経験の多い
                               状態のみ学習	
    計算量・         大きい	
       解の収束性・範囲の広さを
    メモリ消費	
                   重視しなければ小さい	
    離散化の          高い	
            低い	
    自由度	
    人間の手間	
 ロボットの挙動の忠実 学習中のロボットの世話	
            な数式モデル化が必要	


     モデル化の困難はあるが,状態空間
    全域にわたって利用できる方策を得たい	
 博士論文審査
                                          2007年2月9日
9
         メモリ消費と方策性能のトレードオフ	
    ¢  メモリ消費-性能グラフ	



              性能劣化	


                                  単純な格子状の離散化

                                  で得られる方策のグラフ	

    連続空間で	
    最適な方策

                  小	
   メモリ消費	
      大	
    の性能	




                                   博士論文審査 2007年2月9日
10
                 メモリ消費削減の従来研究	
 ¢    離散化を工夫し,低メモリ消費で方策作成	
       l    木構造による状態空間分割[Munos 98, 02]


 ¢    状態価値関数の表現を工夫,少ないメモリで表現
       →状態価値関数を行動決定に利用
       l    強化学習で主に用いられるがDPにも応用可能	
             •  ニューラルネットワーク[Tesauro 95],
                動径基底関数[Broomhead 88, Moody 89],タイルコーディング
                [Watkins 89, Sutton 95, Albus 71, ...],内挿[Takahashi 01] ...




                                                               博士論文審査 2007年2月9日
11
          従来研究のメモリ利用方法	


             性能劣化	
                                     単純な格子状の離散化

          目標性能	
                     で得られる方策のグラフ	



                 小	
      メモリ消費	
       大	
                       ロボットのメモリ量	

        この範囲で問題を解こうとする	
 ¢    利点:単純離散化DPよりも大規模な問題を扱える	
 ¢    ロボットの他に単純離散化DPが実行可能な計算機がある場合に
       あえて適用すると発散や性能低下の懸念が増大	
                                       博士論文審査 2007年2月9日
12
                  提案:方策の圧縮	
     ¢    大容量メモリ,高速CPUを有する計算機を使ってDP実行
           →ロボットに方策を圧縮実装	

                         性能劣化	
                                             格子状に離散化した場合	


                  目標	
                  性能	


                                                   メモリ消費	
                                  ロボットのメモリ量	
 計算機(PC)のメモリ量	

     ¢    詳細な状態価値関数・方策が既知	
           l    方策の冗長性等が分かった上でメモリ節約可能	
                                                    博士論文審査 2007年2月9日
13
               研究の目的	
 ¢    方策圧縮の概念を導入	
       l    状態空間を格子状に離散化して作成した方策を

             圧縮するアルゴリズムの開発	
             •  格子状の離散化方策=状態行動地図(地図)	




       l  状態行動地図の圧縮	
             • 有限マルコフ決定過程に適したアルゴリズムの提案	
               • ベクトル量子化を利用[Gersho 92等]
             • 方策を得た後に圧縮することの利点を示す

                                         博士論文審査 2007年2月9日
14
             本論文で扱う例題	
 ¢    水たまり問題,アクロボットの制御,ロボットサッカー	
       l  共通点:いずれも有限マルコフ決定過程としてDPで解ける
       l  違い:次元,行動の種類,離散化の粒度,冗長性



 水たまり問題の地図	
   アクロボット制御の地図	
 ロボットサッカーの地図	
 (2次元)	
       (4次元地図の抜粋)	
  (8次元地図の抜粋)	




                                 博士論文審査 2007年2月9日
15
               発表の構成	
       l    1章:序論	
 ¢    手法の説明(水たまり問題)	
       l  2章:状態行動地図の作成	
       l  3章:状態行動地図の圧縮	
       l  4章:圧縮率の向上	

 ¢    例題	
       l  5章:アクロボット	
       l  6章:ロボカップ	

 ¢    評価	
       l  7章:比較,議論	
       l  8章:結論	


                            博士論文審査 2007年2月9日
16
      2章:状態行動地図	
 ¢  DPによる作成方法の例を示す	

 ¢  メモリ消費-性能グラフの例を示す	
        性能劣化	




                 メモリ消費	



                           博士論文審査 2007年2月9日
17
                例題:水たまり問題[Sutton]
                                           1
 ¢    エージェントが水たまりを
                                 0.1
       避けてゴールまで移動	
       l  環境:広さ1×1のxy平面	



             エージェント	
             ・平面状の点	
             ・行動:上下左右の4種類

              (平均移動距離0.05,ふらつく)	


 ¢    評価関数	
       l    一歩につき 1[step]
       l    水たまりに入った場合:岸からの距離×400[step]
 ¢    ゴールまでの評価関数の和を最小化するマルコフ決定過程	
                                       博士論文審査 2007年2月9日
18
                   離散化	
¢    状態変数:ロボットの位置(x,y)
      l    状態空間:2次元	
            •  状態価値関数,地図も2次元	


¢    離散化	
                                                             (x,y)
      l    状態空間をN分割(一辺√
                       N                    区間)	
            •  S = {s0, s1, s2,..., sN-1}           離散状態	
      l    行動: A = {上,下,左,右} (最初から量子化されている)	

¢    状態遷移(s∈Sで行動a∈A→ s' ∈S に遷移)に対し以下を計算	
      l  状態遷移確率:Pss'a
      l  評価関数:Rss'a                        DP適用可能になる	

                                                     博士論文審査 2007年2月9日
19
     DP(価値反復アルゴリズム)の適用	
          ¢    状態価値関数V の計算	
                 l  V を適当に初期化 (ゴールではV =0)	
                 l  局所演算の繰り返し	
                       •  V(s) := Σ Pss'a [Rss'a + V(s')]	

                            •  状態遷移に対し,遷移先の評価
                               +価値の期待値を求めて代入	


          ¢    V から方策π の作成	
                 l  π (s) := argmaxa Σ Pss'a [Rss'a + V(s')]	



                         配列上の方策

                        =状態行動地図	
                       (実際はバイナリ列)	
                                                      博士論文審査 2007年2月9日
20
               水たまり問題でのDP結果	

 状態価値	
 関数	
      最
     割適
                 10×10   40×40       200×200
     当行
      動
     	
          	




 状態行動

 地図	


                 10×10   40×40       200×200
                                 博士論文審査 2007年2月9日
21
                                   メモリ消費-性能グラフの作成	
 ¢                 メモリを多く使うと性能が上がることの一例	
 ¢                 シミュレーション手順	
                    l    100万点の初期状態からそれぞれ試行	
                           •  評価(歩数+水たまりの罰)の平均値を取る → その方策の性能	

                    21.8
 良い←性能[step]→悪い	




                                             10×10 の	
                    21.6
                                              離散化	
                   メモリ消費が指数乗的に増加

                    21.4
                    21.2                                              →性能は漸近的に向上	
                                                 202
                    21.0
                    20.8                               402
                    20.6                                       1002      2002
                    20.4                                                          4002
                    20.2
                    20.0
                           1. 1
                           10
                            E+01    1. 2
                                    10
                                     E+02     1. 3
                                              10
                                               E+03    1. 4
                                                        10
                                                        E+04     1. 5
                                                                 10
                                                                  E+05    1. 6
                                                                           10
                                                                           E+06
                                            地図のメモリ消費[bit]
                                                                                    博士論文審査 2007年2月9日
22
        2章のまとめ	
 ¢  状態行動地図	
     l  状態空間を格子状に離散化して各離散状態に

      適切な行動を記述した配列	

     l  離散化を細かくすることで性能を向上させることが

      できる一方,メモリ消費が大きくなる	




                            博士論文審査 2007年2月9日
23
           3章:状態行動地図の圧縮	
     ¢  高い圧縮率を得るために不可逆圧縮を適用

      (=地図を変化させる)	
       l  課題:一つの行動の変化のみで地図全体に影響	

                                   到達不可能	
                                   (破壊)	



     ¢  ベクトル量子化(VQ)[Gersho 92等]
       l  配列状のデータ(映像,音声)

           圧縮に用いられる	
       l  状態行動地図に適用する利点	
         •  圧縮したまま任意の離散状態の行動が取り出せる	
                                     博士論文審査 2007年2月9日
24
                      ベクトル量子化(VQ)	
     ¢     手順	
           1.     配列を均等に切ってブロック(ベクトル)を作成	
           2.     似たベクトルを分類(クラスタリング)	
                 •    「歪み測度」でベクトルの差異を数値化	
           3.     各クラスタのベクトルを代表ベクトルで置き換え	
                 •    「歪み測度」が最小になる代表ベクトル	

                                     1   2       3
                                     1   2       3
                           圧         2   0       3
                                     0 0 0           0 0 1
                                                             再
                           縮
                           	
    0   0 0 0
                                             1       0 0 1   生
                                     0 1 0           1 0 0
                                 2   0 1 0
                                             3       1 0 0



                           例)2値画像の圧縮・再生	
                           データの変化	


       ü 状態行動地図の場合,歪み測度の定義が難しい	
                                                                 博士論文審査 2007年2月9日
25
                 状態価値歪みの提案	
 ¢    状態価値関数を使用して歪み測度を定義	
       l    d(s,a) = V(s) - Σs' Pss'a [Rss'a -V(s') ]
             •  地図中の状態sの行動が別の行動aに変わった場合の価値の減少	
       l    地図の歪み: d(s,a) の総和	
                                                         等価な行動	
                                                          地図上の行動	




                                                         状態価値関数	
       変換に適さない行動	


             ü 状態価値歪みを最小化するように地図を変化させる	
                                                            博士論文審査 2007年2月9日
26
         状態価値歪みを利用したVQ
                                         クラスタリング・

             地図を分割	
                    代表ベクトル計算	
             (ブロック化・                  (状態価値歪み最小化)	
             ベクトル化)	
                                      ※一対法による最近傍
                          ベクトル数:100   クラスタリング [Equitz 89]	
     代表ベクトル数:Nc = 50        Nc = 10             Nc = 4



 圧縮	
              圧縮	
               圧縮	

圧縮地図

の作成	

             各ベクトルの同一番目の要素が
                                                  博士論文審査
            行動決定上の「同じ状態」とみなされる	
                  2007年2月9日
27
             圧縮地図のビット数計算	


                           100×4個の行動の配列:符号帳

                           100×4×2 = 800[bit]

                            代表ベクトルの配置:量子化テーブル

                            100×2 = 200[bit]
                                     圧縮地図	

     ¢  メモリ消費	
       l  圧縮前:1002×2 = 20000[bit]
       l  圧縮後:1000[bit]
       l  圧縮率:0.05


                                              博士論文審査 2007年2月9日
28
        3章まとめ	
 ¢  VQで作成された圧縮地図は

     符号帳と量子化テーブルで構成される	

 ¢  状態価値関数から歪み測度(状態価値歪み)を定義	
     l  行動の変化がタスクに与える影響を考慮して

      地図を不可逆圧縮	




                          博士論文審査 2007年2月9日
29
              5章:アクロボットの振り上がり	
¢    アクロボット	
                                目標の高さ	

      l    劣駆動ロボットの一種[美多 00]




                                  1.9[m]
¢    振り上がりタスク(height task) 	
                  重力	
      l    目標の高さまで最小時間で

            ロボットを振り上げ	


¢    地図中の隣接状態の行動(トルク)
                                                トルクは

      が異なっている割合が大きい	
            リンク1
                                                第二関節のみ	
                                 (1m)	

                                           リンク2
                                           (1m)	

                                           博士論文審査 2007年2月9日
30
              パラメータ設定・DPの適用	
¢  [Sutton         98]より	
                .   .
     l  θ1 θ2 θ1 θ2 空間の定義	
                               .     .
                                                       θ1	

            •  角速度に制限:|θ1| < 4π, |θ2| < 9π [rad/s]             τ	


     l  行動(トルク         τ)	
                                                                θ2	

            •  -1,0, or 1[Nm]に限定	
            •  周期: 0.2[s]
                                               両リンクのパラメータ 

¢  離散化	
                                      [Sutton 98]
                                               • 長さ: 1m
     l    各軸を10[deg] or 10[deg/s]毎	
                                               • 重量: 1kg
            •  30,233,088状態に離散化	
              • 重心: リンク中央	
                                               • 慣性モーメント: 1kgm2

¢  1.5GHz          CPUで17時間計算	
                                                     博士論文審査 2007年2月9日
31
       作成した地図	
                                .
                                θ1	

     黒:1[Nm]            720[deg/s]      144×324分割	
     白:-1[Nm]
     灰:0[Nm]    -1620                         1620 .
                                                  θ2	


                             -720
                                                       θ
                                               180[deg] 1	





                                                       36×18分割	


                                                                      θ2	

                                     0[deg]                        360[deg]



                                                          博士論文審査 2007年2月9日
32

               地図の圧縮	
¢    手順	
      1.  地図をθ1,θ2 軸に垂直に切断	
            •  4D地図→648個の2Dベクトル	
      2.     Nc個のクラスタに分類 	
            •  一般化Lloydアルゴリズム[Lloyd 82]を使用	
              •  状態価値歪みを利用	




                                    648 ブロック	

                                           博士論文審査 2007年2月9日
33
     圧縮地図 (代表ベクトル数:Nc=16)	




                    博士論文審査 2007年2月9日
34
        圧縮地図 (代表ベクトル数:Nc=1)	




     ¢  角速度のみを考慮した2次元状態行動地図	
       l  圧縮により4次元地図から2次元地図が生成	

     ¢  圧縮率:0.0015
                         博士論文審査 2007年2月9日
35
        圧縮地図によるアクロボットの動作	
 ¢  低角速度のとき	
     l  順方向にトルクを加える	
      •  振り子運動	
 ¢  高角速度のとき	
     l  逆方向にトルクを加える	
      •  まっすぐになろうとする	




                         振りあがるための動作が

                         保存されている	
                              博士論文審査 2007年2月9日
36

             性能評価シミュレーション	
¢  手順	
                                      損失:2.44[s]
                                              圧縮率:0.0015
     l  14,167通りの初期状態から試行	
           •  初期位置を3[deg]刻みで選択	
           •  初期速度はゼロ	
                      Nc=1
                                                     Nc=16


¢  評価指標	


                             時間消費[s]
     l  タスク終了までの平均時間	
                                                     圧縮前の

     l  角速度の制限超過→失敗	
                                                     地図	
                                       ※全試行で成功	


                                          地図のメモリ消費[bit]
                                              博士論文審査 2007年2月9日
37
         5章のまとめ	
     ¢  状態行動地図の作成	
       l  計算時間:17   時間(1.5GHz CPU)

     ¢  圧縮地図	
       l  圧縮率0.0015で2.44[s]   の時間ロス


     ¢  4次元地図を2次元に落とした	




                                      博士論文審査 2007年2月9日
38
               6章:ロボットサッカー	

 ¢    ロボット研究の標準問題	
       l    ロボカップ4足ロボットリーグ	



 ¢    DPにとって大規模な問題への手法適用	
       l    2台のロボットの行動の同時計画

 ¢    ロボットのメモリ量(16[MB])

       を超える状態行動地図の圧縮	
                                使用されるロボット:ERS-210

                                    博士論文審査 2007年2月9日
39
        2台のロボットによる得点タスク

        (シミュレーション)	
¢  ロボット2台(ERS-210を仮定)
     が最少時間で得点する地図を作成	

                       シュ
                         ート
                            	




     l  ロボットは自己の位置・向き,ボールの位置を計測
      →無線LANで情報交換
      (行動決定より高頻度,遅れなし)	


                                 博士論文審査 2007年2月9日
40
                  有限マルコフ決定過程化,DP実行	
     ¢    状態空間(8次元)	
           l  各ロボット位置・向き	
           l  ボール位置	
           l  610,829,100状態に離散化	


     ¢    ロボットの行動: 73通り	
           l    2台の行動の組み合わせ	
                 •  各ロボット:歩行14種類・飛距離2[m]のキック3種類	


     ¢    評価関数:行動ごとに1[step]
     ¢    10日間計算(Pentium D 3.2GHz)	
               Fig. 歩行行動	

                                              博士論文審査 2007年2月9日
41
                  得られた状態行動地図による行動例	




     ¢    ゴールまでの歩数減少のための工夫が見られる
           l  同時に2台のロボットがボールを蹴りに行かない	
           l  縦パスのような行動	
                 •  ボールを蹴るロボットと受け手となるロボットの役割分担	


           圧縮後の地図も歩数減少に寄与する行動を保持できるか?	

                                           博士論文審査 2007年2月9日
42
               ベクトル量子化の適用	
 ¢    状態行動地図(610,829,100要素,8次元)
       を8.2[MB]まで圧縮
 ¢    計算時間: Lloydアルゴリズムで21時間(Pentium D 3.2GHz)




 ¢    蹴る順番や回数が変化
       l    (良く解釈すれば)メモリ量減少に対して
             2台のロボットの行動則が柔軟に変化している	
                                     博士論文審査   2007年2月9日
43

               圧縮前後の地図の定量的比較	
¢    1万の初期状態からシミュレーション	
¢    比較対象	
      l    1) 状態行動地図(圧縮前)

            2) 圧縮地図

            3) 他機を無視(自己位置+ボール位置の5次元地図)	
¢    評価指標	
      l  平均ステップ数	
      l  タスク成功率(失敗の例:デッドロック)	
                平均step数	
       成功率	
 圧縮前	
            37.5 [step]    97.4% l  ステップ数が増加→劣化
 圧縮地図	
           40.4 [step]    97.4% l  成功率は減少せず
 他機を無視	
          42.8 [step]    93.8%   →デッドロックは増加しない	


                                              博士論文審査   2007年2月9日
44

         6章のまとめ	

 ¢  42億[bit](500[MB])の状態行動地図を作成



 ¢  圧縮率0.016までVQ圧縮	
     l  2.9[step]の劣化
     l  圧縮によるデッドロックの増加はほとんどない




                           博士論文審査 2007年2月9日
45
            7章:評価と議論	
     ①  圧縮結果のまとめ	

     ②  状態価値歪みの評価	
      l    他に有効な歪み測度の定義はないか??
      l    各例題における状態価値歪みの性質

     ③  本手法と他手法の比較	
      l    地図を得るまでの計算時間
      l    圧縮率
      l    性能
                           博士論文審査 2007年2月9日
46
                                   ① 圧縮結果のまとめ	
 ¢                 水たまり問題のメモリ消費-性能グラフ	
                    21.8
性能(歩数+水たまり)[step]




                    21.6
                                                              青:状態行動地図(圧縮前)	
                    21.4                                      オレンジ:10×10地図からの圧縮地図	
                    21.2                                      赤:40×40地図からの圧縮地図	
                    21.0                                      緑:400×400地図からの圧縮地図	
                    20.8
                    20.6
                    20.4
                    20.2
                    20.0
                           101
                           1.
                            E+01   102
                                   1.
                                    E+02   103
                                           1.
                                            E+03   104
                                                   1.
                                                    E+04   105
                                                           1.
                                                            E+05   106
                                                                   1.
                                                                    E+06

 	
                                        地図のメモリ消費[bit]

 ¢                 以下のような圧縮地図が得られていることを確認
                     l  粗い非圧縮地図と同性能でメモリ消費が小さい
                     l  粗い非圧縮地図と同じメモリ消費で性能が良い	
                                                                           博士論文審査 2007年2月9日
47


 ¢  アクロボットのメモリ消費-性能グラフ	

 粒度の細かい地図から
                                                     青:状態行動地図(圧縮前)	
  得られた圧縮地図	
16
                                                     赤:圧縮地図	
                     14
                     12
           時間消費[s]

                     10                                        粒度の粗い
                      8                                         地図	
                      6               1:0.0031
                      4
                      2
                      0
                          104   105    106   107   108   109
                                      地図のメモリ消費[bit]


 ¢  DPで離散化が粗いと性能が落ちる	

 ¢  DPで細かく離散化して圧縮することが有効な例	
                                                         博士論文審査 2007年2月9日
48
           ② 状態価値歪みの評価	
 ¢  他に考えられる歪み測度の定義	
     l  変化数歪み(change count distortion)	
        •  圧縮により変化した行動の個数を歪みと定義	


     l  制御入力歪み(control input distortion)	
        •  行動(制御入力)のパラメータ空間での距離を歪みとする	
           •  水たまり問題:移動距離の差	
           •  アクロボット:トルクの差	




                                              博士論文審査 2007年2月9日
49
                        比較結果	
                 21.1         青:状態価値歪み	
               18
                              赤:変化数歪み	
                 20.9         緑:制御入力歪み	
               16
     性能 [step]




                                               時間[秒]
                 20.7                                  14


                 20.5                                  12


                 20.3                                  10
                        103          104                    105   106    107   108
                                メモリ消費[bit]                           メモリ消費[bit]
            水たまり問題 (離散化:N =1002)                                  アクロボット	

     歪み測度	
                    平均step数	
      成功率	
     状態価値歪み	
                   41.5 [step]    97.4%
                                                                   ロボカップの得点タスク	
     変化数歪み	
                    42.0 [step]    98.1%
                                                                    博士論文審査 2007年2月9日
50
          行動価値歪み評価のまとめ	
¢    状態価値歪みに汎用性,他と同等以上の効率維持

¢    3つの例題を比べると水たまり問題で特に有効	
      l  状態価値歪みは水たまりに入る行動を強く抑制できる
       •  最大の状態価値歪み:40[step]程度と,
          タスクを通じて得られる評価(21[step]程度)と比較して大きい
      l  他の例題の場合
       •  アクロボット:各状態価値歪み(タイムロス)は
          タスクにかかる時間と比較して大きくない
       •  得点タスク:限界まで圧縮していない
      状態価値歪みには,圧縮率を高くした際に,
      不利な行動選択をなるべく抑制する働きがある	
                                博士論文審査 2007年2月9日
51
          ③ 他手法との比較	
 ¢  良く用いられる手法を水たまり問題で比較
     l  DPの計算時間も比較


     l  状態価値関数の表現の工夫	
       •  タイルコーディング[Watkins 89, Sutton 95, Albus 71, ...]
       •  内挿	


     l  方策圧縮	
       •  木構造を用いた圧縮	
          •  [Munos 98, 02]の方法を方策圧縮に応用	


                                               博士論文審査 2007年2月9日
52
              状態価値関数の表現の工夫	
¢    タイルコーティング	
      l    数種類の離散化方法をずらして重ねる	
                離散状態の合計数よりも多くの
                擬似離散状態を作成できる	
      l  適用方法	
           •  各格子空間(5枚)に対してDPを実行	
       タイルコーティング	
              •  ある状態の価値は5枚の価値関数の平均値	


¢    内挿	
      l    離散的な状態価値関数を

                                         内挿	
            平滑化	

                                         博士論文審査 2007年2月9日
53
                      状態価値関数のメモリ消費-性能グラフ	
 ※状態価値関数からの行動決定法:

     	
モンテカルロ法(100サンプル)による価値予測	
    21.4
                   21.2                           赤:TC上の状態価値関数	
                   21.0                           オレンジ:内挿した状態価値関数	
       性能 [step]




                                                  青:単純な配列上の状態価値関数	
                   20.8                              	
         	
※価値は16ビット表現
                   20.6                           黒:圧縮前の状態行動地図	

                   20.4
                   20.2
                          102   103   104   105    106    107
                                            メモリ消費[bit]
 ¢    TCや内挿では工夫に見合った性能が得られない	
          l  適用方法を改良しないとメモリ消費に関しては無駄

                   →問題依存,実装依存	
                                                                  博士論文審査 2007年2月9日
54
                         DPの計算時間-性能グラフ	
                  21.4                赤:TC上の状態価値関数	
                  21.2                オレンジ:内挿した状態価値関数	
                                      青:単純な配列上の状態価値関数
                   21                 黒:圧縮前の状態行動地図	
      性能 [step]




                  20.8
                                                           タイルコーティング
                  20.6                                   (2102 4枚+2002 1枚)
                                                           計算時間:3480[s]
                  20.4
                  20.2                                    通常のDP(N =4002 )
                         10-1   100    101   102   103
                                       計算時間[s]             計算時間:1260[s]

     ¢     TCをDPに適用すると計算量が大きくなる
                  l  理由:状態遷移の計算が複雑になるため
                     •  離散状態の形状が均一でなくなる
                                                                     2007年2月9日
                                                            博士論文審査
55                                      ノード	
          木構造による方策表現	
                     枝(ブランチ)


 ¢  2分木で方策を表現(2分木地図)	
 葉(リーフ)	
     l  状態空間の2分割と行動の割り当て

       を繰り返し,離散状態の粒度を可変に	

                状態価値

                歪み計算	



                歪み最大の
                領域を分割	
     状態価値関数	
             277分割	
       1913分割	

                                    博士論文審査 2007年2月9日
56
                         2分木地図とVQ圧縮地図の比較結果	
                         21.8
                         21.6
                         21.4                                     VQ圧縮地図(赤)	
                         21.2                                     2分木地図(黒)	
             性能 [step]


                         21.0                                     非圧縮状態行動地図(青)	
                         20.8
                         20.6
                         20.4
                         20.2
                         20.0
                                1. 1    1. 2         3    E+044     E+055    E+066
                                10
                                 E+01
                                        10
                                         E+02
                                                 10
                                                1.
                                                 E+03
                                                          10
                                                         1.
                                                                    10
                                                                   1.
                                                                             10
                                                                            1.

                                                地図のメモリ消費[bit]
¢    木構造による方策圧縮は詳細な状態価値関数が必要
      l  正確な状態価値関数なしで良い分割方法を発見することは困難
      l  DPの段階で分割することは難しい	

¢    木構造は,自身の構造の表現にメモリを多く消費	
                                                                                     博士論文審査
      l    離散状態の分割数は少ないがメモリ消費はVQと同等	
                                               2007年2月9日
57
                 圧縮地図作成のための計算量	
                                          圧縮に    DPを含め                容量	
同効率の地図(20.31[step])	
                    かかる時間	
 た時間	
VQ地図 (N =2002, Nc = 36)                          33[s]	
    124[s]	
 9676[bit]	
- PNN→Lloyd→再圧縮	
2分木地図 (N =4002, 1913分割)	
                        30[s]	
   1296[s]	
12240[bit]	

     ¢    時間計算量
           l  O(MNN' )  (N' :状態遷移先の数)
           l  VQのアルゴリズム
                 •  PNN:O(MN 3/ Nε2 ),Lloyd: O(NNc )
           l    2分木圧縮:O(MN )
     ¢    VQは粗い地図からも適用可能なため,
           DPを含めた計算時間を考えると木構造より有利
                                                           博士論文審査    2007年2月9日
58
               8章:結論	
¢    方策圧縮の概念を導入(3章)	
      l    動的計画法(DP)で作成された状態行動地図を,

            ベクトル量子化(VQ)で圧縮する手法を開発	
            •  状態価値歪みの導入(=状態価値関数の利用)	
                •  地図の変化時に適切な代替行動を割り当て
                •  高い圧縮率でも不適切な行動を抑制	



¢    ロボットのメモリ量を超える地図の圧縮(6章)	
      l    6億状態の地図を圧縮し,デッドロックを増加させずに
            ERS-210のメモリ搭載量(16[MB])より小さな(8.2[MB])
            圧縮地図を作成	

                                         博士論文審査 2007年2月9日
59
               結論(続き)	
 ¢    他手法との比較・方策圧縮の概念の有効性(3,5,7章)
       l    状態価値関数の表現の工夫によるメモリ量削減は,
             以下の点で不利(水たまり問題の場合)
             •  得られる方策の性能が低い
             •  状態遷移の計算が複雑になり,計算量が増加する場合がある


       l    木構造による方策圧縮は詳細な状態価値関数が必要
             •  正確な状態価値関数なしで最適な分割方法を発見することは難しい
              →DP後のVQ圧縮の有効性	




                                     博士論文審査 2007年2月9日
60
        今後の展望	
 ¢  実機実験	



 ¢  メモリ消費-性能-計算時間グラフで方策を3元評価	
     l  探索手法も統一的に評価できる	




                        性能	
                                    	
                                  時間
                               計算

                                メモリ消
                                     費   	




                               博士論文審査 2007年2月9日
61
        今後の展望(続き)	
 ¢  身体性に関する話題との関連づけ	
     l  身体性=制御問題や行動決定問題を

            簡単にすること	

 ¢  強化学習への応用	




                             博士論文審査 2007年2月9日
62
     参考資料	




              博士論文審査 2007年2月9日
63

                 アクロボットに関する従来研究	
     ¢    強化学習       [Sutton 96]
           l  ダイナミクスが未知の場合	
           l  全状態空間で解を作成することは困難	

     ¢    解析的手法        [Spong 94,95]

           l    力学的エネルギーを考慮した動作設計 [Xin 02,04]
     ¢    数値計算	
           l  力学的エネルギーを考慮したDP [Boone 97]



     ü  ヒューリスティックを用いず動的計画法で解いた例が

       見られないが,可能であると考えられる	

                                        博士論文審査 2007年2月9日
64
              VQ地図の再最適化	
 ¢  符号帳の内容を価値反復によって書き換え	

     c0                             再計算	
     c1
     c2
             符号帳 (書き換える)	
          00111222222222000000
          量子化テーブル(そのまま)	
                                                状態価値関数	
                 VQ地図	
          符号帳更新	




                           再最適化	
                            修復	


                                            博士論文審査 2007年2月9日
65
           VQ地図の圧縮	
¢  各代表ベクトルには冗長性が残る	
     →もう一度のベクトル量子化(可逆圧縮)でサイズ減少	
¢  例	
                                                一度目の

                                                VQ



                                                 二度目の

                                                 VQ
          VQ地図	

     l  圧縮前: 2*202=800[bit]
     l  VQ圧縮: 2*20 + 3*2*20 = 160[bit] (1:0.2)
     l  再VQ圧縮: 2*20 + 3*20 + 2*21 = 142[bit] (1:0.18)

                                          博士論文審査 2007年2月9日
66
          ボールへの接近タスク	



                      攻撃方向	


 ¢    行動決定の目的	
       l  ボールに触れず最小歩数でボールに到達	
       l  相手ゴール向きでボール確保	


 ¢  フィールドのサイズ:4.2×2.7[m]         Fig. 歩行行動	
 ¢  行動:移動量固定の歩行(38種類)	

                               博士論文審査 2007年2月9日
67
              価値反復の適用	
 ¢  765,450状態に離散化(終端状態:8,175状態)	
     l  ロボットの位置・姿勢	
            •  位置(x, y):21×15に分割,方向θ:18分割	
     l  ロボットからのボールの位置	
            •  距離方向r :9分割,角度方向ϕ :15分割	
 ¢  終端状態の設定	
     l    条件1: 150 ≤ r < 250[mm]
     l    条件2: |ϕ | ≤ 35[deg]	

     l    条件3: |θ | ≤ 40[deg] or
           ロボットから見たゴールの

           方向が40[deg]以内	


                                         博士論文審査 2007年2月9日
68
          価値反復結果	
 ¢  状態価値関数が全く変化しなくなるまで計算	
     l  収束までの時間:1.3×103[s](Pentium4 3.6 GHz)	




                               ゴール	
           終端状態	
      ボール	
            Fig. 地図の一部 (フィールド上の各位置でロボット
            がボールの方向を向いているときの行動)



                                        博士論文審査 2007年2月9日
69
                圧縮	
 ¢    5次元の状態行動地図を405状態を含むブロックに分割	
 ¢    一対法による最近傍クラスタリングアルゴリズム[Equitz 89]で
       圧縮	
       l    計算時間:54分(Pentium4 3.6 GHz), 圧縮率:0.015[%]




                   Fig. VQ地図の一部 (単純化が見られる)


                                             博士論文審査 2007年2月9日
70
     得られる行動の例	




                  博士論文審査 2007年2月9日
71
               実機実験	
¢    圧縮前後の地図を比較	
¢    右図の3通りの初期状態から

      タスク成功までの歩数を計測	
        ロボットの初期位置	
      l    タスク成功:終端状態後,

            ロボットに前進させて

            ボールが前に転がった場合	

¢    各初期状態から50回試行	

¢    評価指標	
      l    歩数の平均値	
      l    成功率	


                                  博士論文審査 2007年2月9日
72
               実機実験結果	

                      圧縮前	
       圧縮後	
                  成功率	
 歩数	
 成功率	
 歩数	
              条件1 100[%] 21.1 100[%] 21.1
              条件2 96[%]  30.0 94[%]  29.2
              条件3 68[%]  28.5 68[%]  27.2

 ¢    圧縮率0.015まで圧縮されたVQ地図で同等の性能	
       l    実機では自己位置推定やボール位置の計測ミス等,

             他の要因の方が支配的	
             •  計画に必要な離散化と利用時に必要な離散化の粒度が異なる	


                                      博士論文審査 2007年2月9日
73
               4章:圧縮率の向上	
 ¢  圧縮率,効率を向上させる手法群の提案	
     l  良いベクトル化方法を見つけるための

       情報エントロピー関数	

     l  他	
        •  VQ地図のための価値反復	
        •  VQ地図の圧縮	
        •  パーティショニング	




                              博士論文審査 2007年2月9日
74
                  ベクトル化(地図の分割方法)の選定方法	
                                   ベクトル	
                                   ベクトル	




                                      	
                       良い例	
                      悪い例	

     ¢    上記の良し悪しを数値化できないか
           →エントロピーによる事前評価
           l    情報エントロピー関数 H = -Σ i=1...M P(Xi) log2 P(Xi) 
                 (Xi, i=1,2,...M:事象)

                                                  博士論文審査 2007年2月9日
75
              エントロピーの計算方法	
                       ベクトル	
                       ベクトル	




                             	
                       ¢    要素ごとに行動の偏りを
                             エントロピーHとして計算
                             →平均Hを求める

          ・・・	
                       ¢  Hが小さい
     ー
     ー



                  ー




     計計           計
     算算           算          l  分布に偏りが存在し,
                                  圧縮に有利と考えられる	
     	
     	



                  	




     平均をとる	

                                            博士論文審査 2007年2月9日
76
       4章のまとめ	
 ¢  圧縮に適したベクトルを作成するために
     エントロピー関数を導入

 ¢  使用は5章,6章,7章で行う	




                        博士論文審査 2007年2月9日
77




         各軸で垂直に地図を切って
      ベクトルを作成した場合のエントロピー	
                              .       .
       軸    θ1	

  θ2	

  θ1	

  θ2	

       H	
 0.66	
 0.79	
 0.84	
 0.87	


     各軸で垂直に地図を切ってベクトルを作成した場合のエントロピー	

     軸	
   x1	

  x2	

  y1	
 y2	
 θ1	

      θ2	

  r	

   ϕ	

     H	
   1.08	
 1.41	
 0.95	
 1.19	
 1.59	
 1.90	
 1.79	
 2.08	


                                                        博士論文審査 2007年2月9日
78
          研究の目的(つづき)	
 ¢    複数の例題で開発手法を評価	
       l  メモリ消費-性能グラフの左側に

        評価点が来ることを確認する	
           性能劣化	




                    圧縮
                      	
                              圧縮	


                           メモリ消費	


                                     博士論文審査 2007年2月9日
79
               各例題での圧縮率と冗長性の関係	
                                圧縮率	
        隣接状態の冗長性
                                           (行動が同じである確率)	
             水たまり問題(N=4002)	
   0.016	
         97%	
             アクロボット	
           0.0015	
        61%	
             得点タスク	
            0.016	
         34%	


 ¢    隣接状態の冗長性と圧縮率の関連性は見られない
       l    隣接状態の冗長性を減らす手法との違い
 ¢    状態空間を構成する軸の一つが冗長であればよい
       l  アクロボット: θ1軸, θ2軸	

       l  得点タスク:ボールから遠い方のロボットの位置

                                               博士論文審査 2007年2月9日

More Related Content

What's hot

最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法Kenichi Hironaka
 
1 4.回帰分析と分散分析
1 4.回帰分析と分散分析1 4.回帰分析と分散分析
1 4.回帰分析と分散分析logics-of-blue
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38horihorio
 
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方ychtanaka
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森Masashi Komori
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会takehikoihayashi
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来Preferred Networks
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイするTakayuki Itoh
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題についてjkomiyama
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有Naoaki Okazaki
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Hiroki Matsui
 
最適化超入門
最適化超入門最適化超入門
最適化超入門Takami Sato
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Yusuke Uchida
 

What's hot (20)

最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
 
博士論文審査
博士論文審査博士論文審査
博士論文審査
 
1 4.回帰分析と分散分析
1 4.回帰分析と分散分析1 4.回帰分析と分散分析
1 4.回帰分析と分散分析
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
 

Similar to 博士論文本審査スライド

ハイブリッドロケットエンジンによる多段式打ち上げ機
ハイブリッドロケットエンジンによる多段式打ち上げ機ハイブリッドロケットエンジンによる多段式打ち上げ機
ハイブリッドロケットエンジンによる多段式打ち上げ機Masahiro Kanazaki
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)Morpho, Inc.
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...Eiji Uchibe
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...Deep Learning JP
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法Hidetoshi Matsui
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知hagino 3000
 
Data assim r
Data assim rData assim r
Data assim rXiangze
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回Kohei Wakamatsu
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習Kenta Ishii
 

Similar to 博士論文本審査スライド (20)

ハイブリッドロケットエンジンによる多段式打ち上げ機
ハイブリッドロケットエンジンによる多段式打ち上げ機ハイブリッドロケットエンジンによる多段式打ち上げ機
ハイブリッドロケットエンジンによる多段式打ち上げ機
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
 
第2回DARM勉強会
第2回DARM勉強会第2回DARM勉強会
第2回DARM勉強会
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
Dive into XGBoost.pdf
Dive into XGBoost.pdfDive into XGBoost.pdf
Dive into XGBoost.pdf
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
Data assim r
Data assim rData assim r
Data assim r
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
Prml revenge7.1.1
Prml revenge7.1.1Prml revenge7.1.1
Prml revenge7.1.1
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 

More from Ryuichi Ueda

第27回ロボティクスシンポジアスライド
第27回ロボティクスシンポジアスライド第27回ロボティクスシンポジアスライド
第27回ロボティクスシンポジアスライドRyuichi Ueda
 
シェル・ワンライナー160本ノック
シェル・ワンライナー160本ノックシェル・ワンライナー160本ノック
シェル・ワンライナー160本ノックRyuichi Ueda
 
日本ロボット学会第139回ロボット工学セミナー
日本ロボット学会第139回ロボット工学セミナー日本ロボット学会第139回ロボット工学セミナー
日本ロボット学会第139回ロボット工学セミナーRyuichi Ueda
 
シェル芸勉強会と会場の話
シェル芸勉強会と会場の話シェル芸勉強会と会場の話
シェル芸勉強会と会場の話Ryuichi Ueda
 
移動ロボットのナビゲーション
移動ロボットのナビゲーション移動ロボットのナビゲーション
移動ロボットのナビゲーションRyuichi Ueda
 
PythonとJupyter Notebookを利用した教科書「詳解確率ロボティクス」の企画と執筆
PythonとJupyter Notebookを利用した教科書「詳解確率ロボティクス」の企画と執筆PythonとJupyter Notebookを利用した教科書「詳解確率ロボティクス」の企画と執筆
PythonとJupyter Notebookを利用した教科書「詳解確率ロボティクス」の企画と執筆Ryuichi Ueda
 
第45回シェル芸勉強会オープニングスライド
第45回シェル芸勉強会オープニングスライド第45回シェル芸勉強会オープニングスライド
第45回シェル芸勉強会オープニングスライドRyuichi Ueda
 
bash(の変な使い方)update
bash(の変な使い方)updatebash(の変な使い方)update
bash(の変な使い方)updateRyuichi Ueda
 
第41回シェル芸勉強会 午後オープニング
第41回シェル芸勉強会 午後オープニング第41回シェル芸勉強会 午後オープニング
第41回シェル芸勉強会 午後オープニングRyuichi Ueda
 
Searching Behavior of a Simple Manipulator only with Sense of Touch Generated...
Searching Behavior of a Simple Manipulator only with Sense of Touch Generated...Searching Behavior of a Simple Manipulator only with Sense of Touch Generated...
Searching Behavior of a Simple Manipulator only with Sense of Touch Generated...Ryuichi Ueda
 
20181113_子ども夢ロボット&トーク
20181113_子ども夢ロボット&トーク20181113_子ども夢ロボット&トーク
20181113_子ども夢ロボット&トークRyuichi Ueda
 
第37回シェル芸勉強会イントロ
第37回シェル芸勉強会イントロ第37回シェル芸勉強会イントロ
第37回シェル芸勉強会イントロRyuichi Ueda
 
シェル芸勉強会にみる、コミュニティを通じたIT学習
シェル芸勉強会にみる、コミュニティを通じたIT学習シェル芸勉強会にみる、コミュニティを通じたIT学習
シェル芸勉強会にみる、コミュニティを通じたIT学習Ryuichi Ueda
 
ROSチュートリアル ROBOMECH2018
ROSチュートリアル ROBOMECH2018ROSチュートリアル ROBOMECH2018
ROSチュートリアル ROBOMECH2018Ryuichi Ueda
 
poster of PFoE used in ICRA 2018
poster of PFoE used in ICRA 2018poster of PFoE used in ICRA 2018
poster of PFoE used in ICRA 2018Ryuichi Ueda
 
Robot frontier lesson3 2018
Robot frontier lesson3 2018Robot frontier lesson3 2018
Robot frontier lesson3 2018Ryuichi Ueda
 
Robot frontier lesson2 2018
Robot frontier lesson2 2018Robot frontier lesson2 2018
Robot frontier lesson2 2018Ryuichi Ueda
 
Robot frontier lesson1 2018
Robot frontier lesson1 2018Robot frontier lesson1 2018
Robot frontier lesson1 2018Ryuichi Ueda
 
第34回シェル芸勉強会
第34回シェル芸勉強会第34回シェル芸勉強会
第34回シェル芸勉強会Ryuichi Ueda
 
第32回信号処理シンポジウム「Raspberry PiとROSを 使ったロボットシステム」
第32回信号処理シンポジウム「Raspberry PiとROSを使ったロボットシステム」第32回信号処理シンポジウム「Raspberry PiとROSを使ったロボットシステム」
第32回信号処理シンポジウム「Raspberry PiとROSを 使ったロボットシステム」Ryuichi Ueda
 

More from Ryuichi Ueda (20)

第27回ロボティクスシンポジアスライド
第27回ロボティクスシンポジアスライド第27回ロボティクスシンポジアスライド
第27回ロボティクスシンポジアスライド
 
シェル・ワンライナー160本ノック
シェル・ワンライナー160本ノックシェル・ワンライナー160本ノック
シェル・ワンライナー160本ノック
 
日本ロボット学会第139回ロボット工学セミナー
日本ロボット学会第139回ロボット工学セミナー日本ロボット学会第139回ロボット工学セミナー
日本ロボット学会第139回ロボット工学セミナー
 
シェル芸勉強会と会場の話
シェル芸勉強会と会場の話シェル芸勉強会と会場の話
シェル芸勉強会と会場の話
 
移動ロボットのナビゲーション
移動ロボットのナビゲーション移動ロボットのナビゲーション
移動ロボットのナビゲーション
 
PythonとJupyter Notebookを利用した教科書「詳解確率ロボティクス」の企画と執筆
PythonとJupyter Notebookを利用した教科書「詳解確率ロボティクス」の企画と執筆PythonとJupyter Notebookを利用した教科書「詳解確率ロボティクス」の企画と執筆
PythonとJupyter Notebookを利用した教科書「詳解確率ロボティクス」の企画と執筆
 
第45回シェル芸勉強会オープニングスライド
第45回シェル芸勉強会オープニングスライド第45回シェル芸勉強会オープニングスライド
第45回シェル芸勉強会オープニングスライド
 
bash(の変な使い方)update
bash(の変な使い方)updatebash(の変な使い方)update
bash(の変な使い方)update
 
第41回シェル芸勉強会 午後オープニング
第41回シェル芸勉強会 午後オープニング第41回シェル芸勉強会 午後オープニング
第41回シェル芸勉強会 午後オープニング
 
Searching Behavior of a Simple Manipulator only with Sense of Touch Generated...
Searching Behavior of a Simple Manipulator only with Sense of Touch Generated...Searching Behavior of a Simple Manipulator only with Sense of Touch Generated...
Searching Behavior of a Simple Manipulator only with Sense of Touch Generated...
 
20181113_子ども夢ロボット&トーク
20181113_子ども夢ロボット&トーク20181113_子ども夢ロボット&トーク
20181113_子ども夢ロボット&トーク
 
第37回シェル芸勉強会イントロ
第37回シェル芸勉強会イントロ第37回シェル芸勉強会イントロ
第37回シェル芸勉強会イントロ
 
シェル芸勉強会にみる、コミュニティを通じたIT学習
シェル芸勉強会にみる、コミュニティを通じたIT学習シェル芸勉強会にみる、コミュニティを通じたIT学習
シェル芸勉強会にみる、コミュニティを通じたIT学習
 
ROSチュートリアル ROBOMECH2018
ROSチュートリアル ROBOMECH2018ROSチュートリアル ROBOMECH2018
ROSチュートリアル ROBOMECH2018
 
poster of PFoE used in ICRA 2018
poster of PFoE used in ICRA 2018poster of PFoE used in ICRA 2018
poster of PFoE used in ICRA 2018
 
Robot frontier lesson3 2018
Robot frontier lesson3 2018Robot frontier lesson3 2018
Robot frontier lesson3 2018
 
Robot frontier lesson2 2018
Robot frontier lesson2 2018Robot frontier lesson2 2018
Robot frontier lesson2 2018
 
Robot frontier lesson1 2018
Robot frontier lesson1 2018Robot frontier lesson1 2018
Robot frontier lesson1 2018
 
第34回シェル芸勉強会
第34回シェル芸勉強会第34回シェル芸勉強会
第34回シェル芸勉強会
 
第32回信号処理シンポジウム「Raspberry PiとROSを 使ったロボットシステム」
第32回信号処理シンポジウム「Raspberry PiとROSを使ったロボットシステム」第32回信号処理シンポジウム「Raspberry PiとROSを使ったロボットシステム」
第32回信号処理シンポジウム「Raspberry PiとROSを 使ったロボットシステム」
 

Recently uploaded

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 

Recently uploaded (9)

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 

博士論文本審査スライド

  • 1. State-Action Map Compression by using Vector Quantization for Decision Making of Autonomous Robots 自律ロボットの行動決定のための 状態行動地図のベクトル量子化圧縮
 東京大学大学院工学系研究科 精密機械工学専攻 助手 上田 隆一 指導教員:新井 民夫
  • 2. 2 予備審査からの主な変更点 ¢  他手法との比較を追加 l  動的計画法(DP)を使用する理由 l  計算量評価 •  関数近似手法 •  木構造による圧縮手法 ¢  各例題の性質に関する議論 l  歪み測度から読み取れる性質 博士論文審査 2007年2月9日
  • 3. 3 1章 ロボットの実時間行動決定 ¢  例:ロボットサッカー
 のゴールキーパー l  なるべく速く行動決定 l  ロボット(自律)のCPUは
 速くない(200MHz) ※2倍速 どうやって実現したか? 
 別の計算機で動的計画法による行動則(=方策)を作成
 →実装 博士論文審査 2007年2月9日
  • 4. 4 動的計画法による方策作成と利用 ¢  動的計画法[Bellman 57] (dynamic programming, DP) l  最適制御問題の解法 ボールの位置 (2次元) ロボットの位置・向き l  適用方法(前述のキーパー) (3次元) 1.  考慮すべき状態変数を選択 2.  状態空間を張る 3.  格子状に状態空間を離散化 4.  評価関数を最大化する行動を全離散状態に記述 ロボットは状態からとるべき行動を反射的に選択可能 博士論文審査 2007年2月9日
  • 5. 5 DPの適用方法
 (連続空間の最適制御→有限マルコフ決定過程) ¢  有限個の行動集合 A = {a , a ,... , a } x 1 2 M ¢  状態変数 x1, x2,... , xn で状態空間 X を張る l  格子状に離散化 S = {s1, s2,... , sN} ¢  状態方程式 dx/dt = f (x, a) 離散 l  時間の離散化→状態遷移確率 Pss'a 状態 ¢  評価関数 g(x,u)(例:時間消費,失点リスク等) l  時間の離散化→Rss'a xf ¢  評価汎関数 J =∫g(x,u) dt = Σ Rss'a 評価 J の最大化 博士論文審査 2007年2月9日
  • 6. 6 DPから得られるデータ x ¢  終端状態までの評価 J (sの価値) l  状態価値関数 V(s) = 価値 ¢  価値を最大化する行動 l  方策 π(s) = a xf ¢  与えられた制御問題や離散化方法に対して最適 l  連続系では離散化が細かいほど最適に •  Hamilton-Jacobi-Bellman方程式の解に近づく 博士論文審査 2007年2月9日
  • 7. 7 DPによる全状態に対する方策計算 ¢  方策作成時に大きな計算コスト ¢  最適性が保証されない場合がある l  状態観測に誤差(改善方法については[上田07]参照) l  状態方程式が制御対象の性質を表していない場合 実機を使った学習的アプローチ との優劣がしばしば議論となる 博士論文審査 2007年2月9日
  • 8. 8 強化学習[Sutton 98等]との対比 DP(単純離散化) 強化学習 解の収束性 確実 十分な「経験」が必要 解の範囲 全状態空間をカバー 経験の多い 状態のみ学習 計算量・ 大きい 解の収束性・範囲の広さを メモリ消費 重視しなければ小さい 離散化の 高い 低い 自由度 人間の手間 ロボットの挙動の忠実 学習中のロボットの世話 な数式モデル化が必要 モデル化の困難はあるが,状態空間 全域にわたって利用できる方策を得たい 博士論文審査 2007年2月9日
  • 9. 9 メモリ消費と方策性能のトレードオフ ¢  メモリ消費-性能グラフ 性能劣化 単純な格子状の離散化
 で得られる方策のグラフ 連続空間で 最適な方策
 小 メモリ消費 大 の性能 博士論文審査 2007年2月9日
  • 10. 10 メモリ消費削減の従来研究 ¢  離散化を工夫し,低メモリ消費で方策作成 l  木構造による状態空間分割[Munos 98, 02] ¢  状態価値関数の表現を工夫,少ないメモリで表現 →状態価値関数を行動決定に利用 l  強化学習で主に用いられるがDPにも応用可能 •  ニューラルネットワーク[Tesauro 95], 動径基底関数[Broomhead 88, Moody 89],タイルコーディング [Watkins 89, Sutton 95, Albus 71, ...],内挿[Takahashi 01] ... 博士論文審査 2007年2月9日
  • 11. 11 従来研究のメモリ利用方法 性能劣化 単純な格子状の離散化
 目標性能 で得られる方策のグラフ 小 メモリ消費 大 ロボットのメモリ量 この範囲で問題を解こうとする ¢  利点:単純離散化DPよりも大規模な問題を扱える ¢  ロボットの他に単純離散化DPが実行可能な計算機がある場合に あえて適用すると発散や性能低下の懸念が増大 博士論文審査 2007年2月9日
  • 12. 12 提案:方策の圧縮 ¢  大容量メモリ,高速CPUを有する計算機を使ってDP実行 →ロボットに方策を圧縮実装 性能劣化 格子状に離散化した場合 目標 性能 メモリ消費 ロボットのメモリ量 計算機(PC)のメモリ量 ¢  詳細な状態価値関数・方策が既知 l  方策の冗長性等が分かった上でメモリ節約可能 博士論文審査 2007年2月9日
  • 13. 13 研究の目的 ¢  方策圧縮の概念を導入 l  状態空間を格子状に離散化して作成した方策を
 圧縮するアルゴリズムの開発 •  格子状の離散化方策=状態行動地図(地図) l  状態行動地図の圧縮 • 有限マルコフ決定過程に適したアルゴリズムの提案 • ベクトル量子化を利用[Gersho 92等] • 方策を得た後に圧縮することの利点を示す 博士論文審査 2007年2月9日
  • 14. 14 本論文で扱う例題 ¢  水たまり問題,アクロボットの制御,ロボットサッカー l  共通点:いずれも有限マルコフ決定過程としてDPで解ける l  違い:次元,行動の種類,離散化の粒度,冗長性 水たまり問題の地図 アクロボット制御の地図 ロボットサッカーの地図 (2次元) (4次元地図の抜粋) (8次元地図の抜粋) 博士論文審査 2007年2月9日
  • 15. 15 発表の構成 l  1章:序論 ¢  手法の説明(水たまり問題) l  2章:状態行動地図の作成 l  3章:状態行動地図の圧縮 l  4章:圧縮率の向上 ¢  例題 l  5章:アクロボット l  6章:ロボカップ ¢  評価 l  7章:比較,議論 l  8章:結論 博士論文審査 2007年2月9日
  • 16. 16 2章:状態行動地図 ¢  DPによる作成方法の例を示す ¢  メモリ消費-性能グラフの例を示す 性能劣化 メモリ消費 博士論文審査 2007年2月9日
  • 17. 17 例題:水たまり問題[Sutton] 1 ¢  エージェントが水たまりを
 0.1 避けてゴールまで移動 l  環境:広さ1×1のxy平面 エージェント ・平面状の点 ・行動:上下左右の4種類
 (平均移動距離0.05,ふらつく) ¢  評価関数 l  一歩につき 1[step] l  水たまりに入った場合:岸からの距離×400[step] ¢  ゴールまでの評価関数の和を最小化するマルコフ決定過程 博士論文審査 2007年2月9日
  • 18. 18 離散化 ¢  状態変数:ロボットの位置(x,y) l  状態空間:2次元 •  状態価値関数,地図も2次元 ¢  離散化 (x,y) l  状態空間をN分割(一辺√ N 区間) •  S = {s0, s1, s2,..., sN-1} 離散状態 l  行動: A = {上,下,左,右} (最初から量子化されている) ¢  状態遷移(s∈Sで行動a∈A→ s' ∈S に遷移)に対し以下を計算 l  状態遷移確率:Pss'a l  評価関数:Rss'a DP適用可能になる 博士論文審査 2007年2月9日
  • 19. 19 DP(価値反復アルゴリズム)の適用 ¢  状態価値関数V の計算 l  V を適当に初期化 (ゴールではV =0) l  局所演算の繰り返し •  V(s) := Σ Pss'a [Rss'a + V(s')] •  状態遷移に対し,遷移先の評価 +価値の期待値を求めて代入 ¢  V から方策π の作成 l  π (s) := argmaxa Σ Pss'a [Rss'a + V(s')] 配列上の方策
 =状態行動地図 (実際はバイナリ列) 博士論文審査 2007年2月9日
  • 20. 20 水たまり問題でのDP結果 状態価値 関数 最 割適 10×10 40×40 200×200 当行 動 状態行動
 地図 10×10 40×40 200×200 博士論文審査 2007年2月9日
  • 21. 21 メモリ消費-性能グラフの作成 ¢  メモリを多く使うと性能が上がることの一例 ¢  シミュレーション手順 l  100万点の初期状態からそれぞれ試行 •  評価(歩数+水たまりの罰)の平均値を取る → その方策の性能 21.8 良い←性能[step]→悪い 10×10 の 21.6 離散化 メモリ消費が指数乗的に増加
 21.4 21.2 →性能は漸近的に向上 202 21.0 20.8 402 20.6 1002 2002 20.4 4002 20.2 20.0 1. 1 10 E+01 1. 2 10 E+02 1. 3 10 E+03 1. 4 10 E+04 1. 5 10 E+05 1. 6 10 E+06 地図のメモリ消費[bit] 博士論文審査 2007年2月9日
  • 22. 22 2章のまとめ ¢  状態行動地図 l  状態空間を格子状に離散化して各離散状態に
 適切な行動を記述した配列 l  離散化を細かくすることで性能を向上させることが
 できる一方,メモリ消費が大きくなる 博士論文審査 2007年2月9日
  • 23. 23 3章:状態行動地図の圧縮 ¢  高い圧縮率を得るために不可逆圧縮を適用
 (=地図を変化させる) l  課題:一つの行動の変化のみで地図全体に影響 到達不可能 (破壊) ¢  ベクトル量子化(VQ)[Gersho 92等] l  配列状のデータ(映像,音声)
 圧縮に用いられる l  状態行動地図に適用する利点 •  圧縮したまま任意の離散状態の行動が取り出せる 博士論文審査 2007年2月9日
  • 24. 24 ベクトル量子化(VQ) ¢  手順 1.  配列を均等に切ってブロック(ベクトル)を作成 2.  似たベクトルを分類(クラスタリング) •  「歪み測度」でベクトルの差異を数値化 3.  各クラスタのベクトルを代表ベクトルで置き換え •  「歪み測度」が最小になる代表ベクトル 1 2 3 1 2 3 圧 2 0 3 0 0 0 0 0 1 再 縮 0 0 0 0 1 0 0 1 生 0 1 0 1 0 0 2 0 1 0 3 1 0 0 例)2値画像の圧縮・再生 データの変化 ü 状態行動地図の場合,歪み測度の定義が難しい 博士論文審査 2007年2月9日
  • 25. 25 状態価値歪みの提案 ¢  状態価値関数を使用して歪み測度を定義 l  d(s,a) = V(s) - Σs' Pss'a [Rss'a -V(s') ] •  地図中の状態sの行動が別の行動aに変わった場合の価値の減少 l  地図の歪み: d(s,a) の総和 等価な行動 地図上の行動 状態価値関数 変換に適さない行動 ü 状態価値歪みを最小化するように地図を変化させる 博士論文審査 2007年2月9日
  • 26. 26 状態価値歪みを利用したVQ クラスタリング・
 地図を分割 代表ベクトル計算 (ブロック化・ (状態価値歪み最小化) ベクトル化) ※一対法による最近傍 ベクトル数:100 クラスタリング [Equitz 89] 代表ベクトル数:Nc = 50 Nc = 10 Nc = 4 圧縮 圧縮 圧縮 圧縮地図
 の作成 各ベクトルの同一番目の要素が 博士論文審査 行動決定上の「同じ状態」とみなされる 2007年2月9日
  • 27. 27 圧縮地図のビット数計算 100×4個の行動の配列:符号帳
 100×4×2 = 800[bit] 代表ベクトルの配置:量子化テーブル
 100×2 = 200[bit] 圧縮地図 ¢  メモリ消費 l  圧縮前:1002×2 = 20000[bit] l  圧縮後:1000[bit] l  圧縮率:0.05 博士論文審査 2007年2月9日
  • 28. 28 3章まとめ ¢  VQで作成された圧縮地図は
 符号帳と量子化テーブルで構成される ¢  状態価値関数から歪み測度(状態価値歪み)を定義 l  行動の変化がタスクに与える影響を考慮して
 地図を不可逆圧縮 博士論文審査 2007年2月9日
  • 29. 29 5章:アクロボットの振り上がり ¢  アクロボット 目標の高さ l  劣駆動ロボットの一種[美多 00] 1.9[m] ¢  振り上がりタスク(height task) 重力 l  目標の高さまで最小時間で
 ロボットを振り上げ ¢  地図中の隣接状態の行動(トルク) トルクは
 が異なっている割合が大きい リンク1 第二関節のみ (1m) リンク2 (1m) 博士論文審査 2007年2月9日
  • 30. 30 パラメータ設定・DPの適用 ¢  [Sutton 98]より . . l  θ1 θ2 θ1 θ2 空間の定義 . . θ1 •  角速度に制限:|θ1| < 4π, |θ2| < 9π [rad/s] τ l  行動(トルク τ) θ2 •  -1,0, or 1[Nm]に限定 •  周期: 0.2[s] 両リンクのパラメータ 
 ¢  離散化 [Sutton 98] • 長さ: 1m l  各軸を10[deg] or 10[deg/s]毎 • 重量: 1kg •  30,233,088状態に離散化 • 重心: リンク中央 • 慣性モーメント: 1kgm2 ¢  1.5GHz CPUで17時間計算 博士論文審査 2007年2月9日
  • 31. 31 作成した地図 . θ1 黒:1[Nm] 720[deg/s] 144×324分割 白:-1[Nm] 灰:0[Nm] -1620 1620 . θ2 -720 θ 180[deg] 1 36×18分割 θ2 0[deg] 360[deg] 博士論文審査 2007年2月9日
  • 32. 32 地図の圧縮 ¢  手順 1.  地図をθ1,θ2 軸に垂直に切断 •  4D地図→648個の2Dベクトル 2.  Nc個のクラスタに分類 •  一般化Lloydアルゴリズム[Lloyd 82]を使用 •  状態価値歪みを利用 648 ブロック 博士論文審査 2007年2月9日
  • 33. 33 圧縮地図 (代表ベクトル数:Nc=16) 博士論文審査 2007年2月9日
  • 34. 34 圧縮地図 (代表ベクトル数:Nc=1) ¢  角速度のみを考慮した2次元状態行動地図 l  圧縮により4次元地図から2次元地図が生成 ¢  圧縮率:0.0015 博士論文審査 2007年2月9日
  • 35. 35 圧縮地図によるアクロボットの動作 ¢  低角速度のとき l  順方向にトルクを加える •  振り子運動 ¢  高角速度のとき l  逆方向にトルクを加える •  まっすぐになろうとする 振りあがるための動作が
 保存されている 博士論文審査 2007年2月9日
  • 36. 36 性能評価シミュレーション ¢  手順 損失:2.44[s] 圧縮率:0.0015 l  14,167通りの初期状態から試行 •  初期位置を3[deg]刻みで選択 •  初期速度はゼロ Nc=1 Nc=16 ¢  評価指標 時間消費[s] l  タスク終了までの平均時間 圧縮前の
 l  角速度の制限超過→失敗 地図 ※全試行で成功 地図のメモリ消費[bit] 博士論文審査 2007年2月9日
  • 37. 37 5章のまとめ ¢  状態行動地図の作成 l  計算時間:17 時間(1.5GHz CPU) ¢  圧縮地図 l  圧縮率0.0015で2.44[s] の時間ロス ¢  4次元地図を2次元に落とした 博士論文審査 2007年2月9日
  • 38. 38 6章:ロボットサッカー ¢  ロボット研究の標準問題 l  ロボカップ4足ロボットリーグ ¢  DPにとって大規模な問題への手法適用 l  2台のロボットの行動の同時計画 ¢  ロボットのメモリ量(16[MB])
 を超える状態行動地図の圧縮 使用されるロボット:ERS-210 博士論文審査 2007年2月9日
  • 39. 39 2台のロボットによる得点タスク
 (シミュレーション) ¢  ロボット2台(ERS-210を仮定) が最少時間で得点する地図を作成 シュ ート l  ロボットは自己の位置・向き,ボールの位置を計測 →無線LANで情報交換 (行動決定より高頻度,遅れなし) 博士論文審査 2007年2月9日
  • 40. 40 有限マルコフ決定過程化,DP実行 ¢  状態空間(8次元) l  各ロボット位置・向き l  ボール位置 l  610,829,100状態に離散化 ¢  ロボットの行動: 73通り l  2台の行動の組み合わせ •  各ロボット:歩行14種類・飛距離2[m]のキック3種類 ¢  評価関数:行動ごとに1[step] ¢  10日間計算(Pentium D 3.2GHz) Fig. 歩行行動 博士論文審査 2007年2月9日
  • 41. 41 得られた状態行動地図による行動例 ¢  ゴールまでの歩数減少のための工夫が見られる l  同時に2台のロボットがボールを蹴りに行かない l  縦パスのような行動 •  ボールを蹴るロボットと受け手となるロボットの役割分担 圧縮後の地図も歩数減少に寄与する行動を保持できるか? 博士論文審査 2007年2月9日
  • 42. 42 ベクトル量子化の適用 ¢  状態行動地図(610,829,100要素,8次元) を8.2[MB]まで圧縮 ¢  計算時間: Lloydアルゴリズムで21時間(Pentium D 3.2GHz) ¢  蹴る順番や回数が変化 l  (良く解釈すれば)メモリ量減少に対して 2台のロボットの行動則が柔軟に変化している 博士論文審査 2007年2月9日
  • 43. 43 圧縮前後の地図の定量的比較 ¢  1万の初期状態からシミュレーション ¢  比較対象 l  1) 状態行動地図(圧縮前)
 2) 圧縮地図
 3) 他機を無視(自己位置+ボール位置の5次元地図) ¢  評価指標 l  平均ステップ数 l  タスク成功率(失敗の例:デッドロック) 平均step数 成功率 圧縮前 37.5 [step] 97.4% l  ステップ数が増加→劣化 圧縮地図 40.4 [step] 97.4% l  成功率は減少せず 他機を無視 42.8 [step] 93.8% →デッドロックは増加しない 博士論文審査 2007年2月9日
  • 44. 44 6章のまとめ ¢  42億[bit](500[MB])の状態行動地図を作成 ¢  圧縮率0.016までVQ圧縮 l  2.9[step]の劣化 l  圧縮によるデッドロックの増加はほとんどない 博士論文審査 2007年2月9日
  • 45. 45 7章:評価と議論 ①  圧縮結果のまとめ ②  状態価値歪みの評価 l  他に有効な歪み測度の定義はないか?? l  各例題における状態価値歪みの性質 ③  本手法と他手法の比較 l  地図を得るまでの計算時間 l  圧縮率 l  性能 博士論文審査 2007年2月9日
  • 46. 46 ① 圧縮結果のまとめ ¢  水たまり問題のメモリ消費-性能グラフ 21.8 性能(歩数+水たまり)[step] 21.6 青:状態行動地図(圧縮前) 21.4 オレンジ:10×10地図からの圧縮地図 21.2 赤:40×40地図からの圧縮地図 21.0 緑:400×400地図からの圧縮地図 20.8 20.6 20.4 20.2 20.0 101 1. E+01 102 1. E+02 103 1. E+03 104 1. E+04 105 1. E+05 106 1. E+06 地図のメモリ消費[bit] ¢  以下のような圧縮地図が得られていることを確認 l  粗い非圧縮地図と同性能でメモリ消費が小さい l  粗い非圧縮地図と同じメモリ消費で性能が良い 博士論文審査 2007年2月9日
  • 47. 47 ¢  アクロボットのメモリ消費-性能グラフ 粒度の細かい地図から 青:状態行動地図(圧縮前) 得られた圧縮地図 16 赤:圧縮地図 14 12 時間消費[s] 10 粒度の粗い 8 地図 6 1:0.0031 4 2 0 104 105 106 107 108 109 地図のメモリ消費[bit] ¢  DPで離散化が粗いと性能が落ちる ¢  DPで細かく離散化して圧縮することが有効な例 博士論文審査 2007年2月9日
  • 48. 48 ② 状態価値歪みの評価 ¢  他に考えられる歪み測度の定義 l  変化数歪み(change count distortion) •  圧縮により変化した行動の個数を歪みと定義 l  制御入力歪み(control input distortion) •  行動(制御入力)のパラメータ空間での距離を歪みとする •  水たまり問題:移動距離の差 •  アクロボット:トルクの差 博士論文審査 2007年2月9日
  • 49. 49 比較結果 21.1 青:状態価値歪み 18 赤:変化数歪み 20.9 緑:制御入力歪み 16 性能 [step] 時間[秒] 20.7 14 20.5 12 20.3 10 103 104 105 106 107 108 メモリ消費[bit] メモリ消費[bit] 水たまり問題 (離散化:N =1002) アクロボット 歪み測度 平均step数 成功率 状態価値歪み 41.5 [step] 97.4% ロボカップの得点タスク 変化数歪み 42.0 [step] 98.1% 博士論文審査 2007年2月9日
  • 50. 50 行動価値歪み評価のまとめ ¢  状態価値歪みに汎用性,他と同等以上の効率維持 ¢  3つの例題を比べると水たまり問題で特に有効 l  状態価値歪みは水たまりに入る行動を強く抑制できる •  最大の状態価値歪み:40[step]程度と, タスクを通じて得られる評価(21[step]程度)と比較して大きい l  他の例題の場合 •  アクロボット:各状態価値歪み(タイムロス)は タスクにかかる時間と比較して大きくない •  得点タスク:限界まで圧縮していない 状態価値歪みには,圧縮率を高くした際に, 不利な行動選択をなるべく抑制する働きがある 博士論文審査 2007年2月9日
  • 51. 51 ③ 他手法との比較 ¢  良く用いられる手法を水たまり問題で比較 l  DPの計算時間も比較 l  状態価値関数の表現の工夫 •  タイルコーディング[Watkins 89, Sutton 95, Albus 71, ...] •  内挿 l  方策圧縮 •  木構造を用いた圧縮 •  [Munos 98, 02]の方法を方策圧縮に応用 博士論文審査 2007年2月9日
  • 52. 52 状態価値関数の表現の工夫 ¢  タイルコーティング l  数種類の離散化方法をずらして重ねる 離散状態の合計数よりも多くの 擬似離散状態を作成できる l  適用方法 •  各格子空間(5枚)に対してDPを実行 タイルコーティング •  ある状態の価値は5枚の価値関数の平均値 ¢  内挿 l  離散的な状態価値関数を
 内挿 平滑化 博士論文審査 2007年2月9日
  • 53. 53 状態価値関数のメモリ消費-性能グラフ ※状態価値関数からの行動決定法:
 モンテカルロ法(100サンプル)による価値予測 21.4 21.2 赤:TC上の状態価値関数 21.0 オレンジ:内挿した状態価値関数 性能 [step] 青:単純な配列上の状態価値関数 20.8 ※価値は16ビット表現 20.6 黒:圧縮前の状態行動地図 20.4 20.2 102 103 104 105 106 107 メモリ消費[bit] ¢  TCや内挿では工夫に見合った性能が得られない l  適用方法を改良しないとメモリ消費に関しては無駄
 →問題依存,実装依存 博士論文審査 2007年2月9日
  • 54. 54 DPの計算時間-性能グラフ 21.4 赤:TC上の状態価値関数 21.2 オレンジ:内挿した状態価値関数 青:単純な配列上の状態価値関数 21 黒:圧縮前の状態行動地図 性能 [step] 20.8 タイルコーティング 20.6 (2102 4枚+2002 1枚) 計算時間:3480[s] 20.4 20.2 通常のDP(N =4002 ) 10-1 100 101 102 103 計算時間[s] 計算時間:1260[s] ¢  TCをDPに適用すると計算量が大きくなる l  理由:状態遷移の計算が複雑になるため •  離散状態の形状が均一でなくなる 2007年2月9日 博士論文審査
  • 55. 55 ノード 木構造による方策表現 枝(ブランチ) ¢  2分木で方策を表現(2分木地図) 葉(リーフ) l  状態空間の2分割と行動の割り当て
 を繰り返し,離散状態の粒度を可変に 状態価値
 歪み計算 歪み最大の 領域を分割 状態価値関数 277分割 1913分割 博士論文審査 2007年2月9日
  • 56. 56 2分木地図とVQ圧縮地図の比較結果 21.8 21.6 21.4 VQ圧縮地図(赤) 21.2 2分木地図(黒) 性能 [step] 21.0 非圧縮状態行動地図(青) 20.8 20.6 20.4 20.2 20.0 1. 1 1. 2 3 E+044 E+055 E+066 10 E+01 10 E+02 10 1. E+03 10 1. 10 1. 10 1. 地図のメモリ消費[bit] ¢  木構造による方策圧縮は詳細な状態価値関数が必要 l  正確な状態価値関数なしで良い分割方法を発見することは困難 l  DPの段階で分割することは難しい ¢  木構造は,自身の構造の表現にメモリを多く消費 博士論文審査 l  離散状態の分割数は少ないがメモリ消費はVQと同等 2007年2月9日
  • 57. 57 圧縮地図作成のための計算量 圧縮に DPを含め 容量 同効率の地図(20.31[step]) かかる時間 た時間 VQ地図 (N =2002, Nc = 36) 33[s] 124[s] 9676[bit] - PNN→Lloyd→再圧縮 2分木地図 (N =4002, 1913分割) 30[s] 1296[s] 12240[bit] ¢  時間計算量 l  O(MNN' )  (N' :状態遷移先の数) l  VQのアルゴリズム •  PNN:O(MN 3/ Nε2 ),Lloyd: O(NNc ) l  2分木圧縮:O(MN ) ¢  VQは粗い地図からも適用可能なため, DPを含めた計算時間を考えると木構造より有利 博士論文審査 2007年2月9日
  • 58. 58 8章:結論 ¢  方策圧縮の概念を導入(3章) l  動的計画法(DP)で作成された状態行動地図を,
 ベクトル量子化(VQ)で圧縮する手法を開発 •  状態価値歪みの導入(=状態価値関数の利用) •  地図の変化時に適切な代替行動を割り当て •  高い圧縮率でも不適切な行動を抑制 ¢  ロボットのメモリ量を超える地図の圧縮(6章) l  6億状態の地図を圧縮し,デッドロックを増加させずに ERS-210のメモリ搭載量(16[MB])より小さな(8.2[MB]) 圧縮地図を作成 博士論文審査 2007年2月9日
  • 59. 59 結論(続き) ¢  他手法との比較・方策圧縮の概念の有効性(3,5,7章) l  状態価値関数の表現の工夫によるメモリ量削減は, 以下の点で不利(水たまり問題の場合) •  得られる方策の性能が低い •  状態遷移の計算が複雑になり,計算量が増加する場合がある l  木構造による方策圧縮は詳細な状態価値関数が必要 •  正確な状態価値関数なしで最適な分割方法を発見することは難しい →DP後のVQ圧縮の有効性 博士論文審査 2007年2月9日
  • 60. 60 今後の展望 ¢  実機実験 ¢  メモリ消費-性能-計算時間グラフで方策を3元評価 l  探索手法も統一的に評価できる 性能 時間 計算 メモリ消 費 博士論文審査 2007年2月9日
  • 61. 61 今後の展望(続き) ¢  身体性に関する話題との関連づけ l  身体性=制御問題や行動決定問題を
       簡単にすること ¢  強化学習への応用 博士論文審査 2007年2月9日
  • 62. 62 参考資料 博士論文審査 2007年2月9日
  • 63. 63 アクロボットに関する従来研究 ¢  強化学習 [Sutton 96] l  ダイナミクスが未知の場合 l  全状態空間で解を作成することは困難 ¢  解析的手法 [Spong 94,95] l  力学的エネルギーを考慮した動作設計 [Xin 02,04] ¢  数値計算 l  力学的エネルギーを考慮したDP [Boone 97] ü  ヒューリスティックを用いず動的計画法で解いた例が
   見られないが,可能であると考えられる 博士論文審査 2007年2月9日
  • 64. 64 VQ地図の再最適化 ¢  符号帳の内容を価値反復によって書き換え c0 再計算 c1 c2 符号帳 (書き換える) 00111222222222000000 量子化テーブル(そのまま) 状態価値関数 VQ地図 符号帳更新 再最適化 修復 博士論文審査 2007年2月9日
  • 65. 65 VQ地図の圧縮 ¢  各代表ベクトルには冗長性が残る →もう一度のベクトル量子化(可逆圧縮)でサイズ減少 ¢  例 一度目の
 VQ 二度目の
 VQ VQ地図 l  圧縮前: 2*202=800[bit] l  VQ圧縮: 2*20 + 3*2*20 = 160[bit] (1:0.2) l  再VQ圧縮: 2*20 + 3*20 + 2*21 = 142[bit] (1:0.18) 博士論文審査 2007年2月9日
  • 66. 66 ボールへの接近タスク 攻撃方向 ¢  行動決定の目的 l  ボールに触れず最小歩数でボールに到達 l  相手ゴール向きでボール確保 ¢  フィールドのサイズ:4.2×2.7[m] Fig. 歩行行動 ¢  行動:移動量固定の歩行(38種類) 博士論文審査 2007年2月9日
  • 67. 67 価値反復の適用 ¢  765,450状態に離散化(終端状態:8,175状態) l  ロボットの位置・姿勢 •  位置(x, y):21×15に分割,方向θ:18分割 l  ロボットからのボールの位置 •  距離方向r :9分割,角度方向ϕ :15分割 ¢  終端状態の設定 l  条件1: 150 ≤ r < 250[mm] l  条件2: |ϕ | ≤ 35[deg] l  条件3: |θ | ≤ 40[deg] or ロボットから見たゴールの
 方向が40[deg]以内 博士論文審査 2007年2月9日
  • 68. 68 価値反復結果 ¢  状態価値関数が全く変化しなくなるまで計算 l  収束までの時間:1.3×103[s](Pentium4 3.6 GHz) ゴール 終端状態 ボール Fig. 地図の一部 (フィールド上の各位置でロボット がボールの方向を向いているときの行動) 博士論文審査 2007年2月9日
  • 69. 69 圧縮 ¢  5次元の状態行動地図を405状態を含むブロックに分割 ¢  一対法による最近傍クラスタリングアルゴリズム[Equitz 89]で 圧縮 l  計算時間:54分(Pentium4 3.6 GHz), 圧縮率:0.015[%] Fig. VQ地図の一部 (単純化が見られる) 博士論文審査 2007年2月9日
  • 70. 70 得られる行動の例 博士論文審査 2007年2月9日
  • 71. 71 実機実験 ¢  圧縮前後の地図を比較 ¢  右図の3通りの初期状態から
 タスク成功までの歩数を計測 ロボットの初期位置 l  タスク成功:終端状態後,
 ロボットに前進させて
 ボールが前に転がった場合 ¢  各初期状態から50回試行 ¢  評価指標 l  歩数の平均値 l  成功率 博士論文審査 2007年2月9日
  • 72. 72 実機実験結果 圧縮前 圧縮後 成功率 歩数 成功率 歩数 条件1 100[%] 21.1 100[%] 21.1 条件2 96[%] 30.0 94[%] 29.2 条件3 68[%] 28.5 68[%] 27.2 ¢  圧縮率0.015まで圧縮されたVQ地図で同等の性能 l  実機では自己位置推定やボール位置の計測ミス等,
 他の要因の方が支配的 •  計画に必要な離散化と利用時に必要な離散化の粒度が異なる 博士論文審査 2007年2月9日
  • 73. 73 4章:圧縮率の向上 ¢  圧縮率,効率を向上させる手法群の提案 l  良いベクトル化方法を見つけるための
 情報エントロピー関数 l  他 •  VQ地図のための価値反復 •  VQ地図の圧縮 •  パーティショニング 博士論文審査 2007年2月9日
  • 74. 74 ベクトル化(地図の分割方法)の選定方法 ベクトル ベクトル 良い例 悪い例 ¢  上記の良し悪しを数値化できないか →エントロピーによる事前評価 l  情報エントロピー関数 H = -Σ i=1...M P(Xi) log2 P(Xi)  (Xi, i=1,2,...M:事象) 博士論文審査 2007年2月9日
  • 75. 75 エントロピーの計算方法 ベクトル ベクトル ¢  要素ごとに行動の偏りを エントロピーHとして計算 →平均Hを求める ・・・ ¢  Hが小さい ー ー ー 計計 計 算算 算 l  分布に偏りが存在し, 圧縮に有利と考えられる 平均をとる 博士論文審査 2007年2月9日
  • 76. 76 4章のまとめ ¢  圧縮に適したベクトルを作成するために エントロピー関数を導入 ¢  使用は5章,6章,7章で行う 博士論文審査 2007年2月9日
  • 77. 77 各軸で垂直に地図を切って ベクトルを作成した場合のエントロピー . . 軸 θ1 θ2 θ1 θ2 H 0.66 0.79 0.84 0.87 各軸で垂直に地図を切ってベクトルを作成した場合のエントロピー 軸 x1 x2 y1 y2 θ1 θ2 r ϕ H 1.08 1.41 0.95 1.19 1.59 1.90 1.79 2.08 博士論文審査 2007年2月9日
  • 78. 78 研究の目的(つづき) ¢  複数の例題で開発手法を評価 l  メモリ消費-性能グラフの左側に
 評価点が来ることを確認する 性能劣化 圧縮 圧縮 メモリ消費 博士論文審査 2007年2月9日
  • 79. 79 各例題での圧縮率と冗長性の関係 圧縮率 隣接状態の冗長性 (行動が同じである確率) 水たまり問題(N=4002) 0.016 97% アクロボット 0.0015 61% 得点タスク 0.016 34% ¢  隣接状態の冗長性と圧縮率の関連性は見られない l  隣接状態の冗長性を減らす手法との違い ¢  状態空間を構成する軸の一つが冗長であればよい l  アクロボット: θ1軸, θ2軸 l  得点タスク:ボールから遠い方のロボットの位置 博士論文審査 2007年2月9日