SlideShare a Scribd company logo
1 of 25
Learning in a Small World

       2012 / 12 / 7
      M2 堀内 新吾
発表論文
出展:AAMAS ’12
著者:
  Arun Tejasvi Chaganty, Prateek Gaur, Balaraman Ravindran
  Indian Institute of Technology Madras
本論文におけるAgent
学習するAgent:
 – 経験し学習する主体
 – 未知のドメインを与えられ,評価関数を持つ
 – 行動計画を学習
論文概要
抽象化
       状態         +      行動


 • 離散的な状態             • オプションを導入
 • 近い状態のクラスタリン           →高次元な行動を定義
   グ

                         探索空間を削減

                       既存手法だと…
                   “ドメインに対する知識”が必
                          要

      -> Small World Network を利用して効率的に
定義
例:タクシー問題
• グリッドワールドの一種
 – 空間的抽象化
• 問題
 – タクシー(t):どこか
 – 客(p):駅(R, G, B, Y) / タクシーの中
 – 目的地(d):駅(R, G, B, Y)
 -> 最短経路で客を拾って目的地へ
 状態:(Pos t, Pos p, d)
 行動:移動(上下左右),客を拾う/下す
 オプション: 最寄りの駅に行ってみ
 る
関連研究
• 空間的抽象化
 – 状態の相似性に着目
 L. Li, T. J. Walsh, and M. L. Littman. Towards a United Theory of State
 Abstraction for MDPs, 2006

• 時間的抽象化
 – オプションを用いて行動を高次元化
 R. S. Sutton, D. Precup, and S. Singh. Between MDPs and Semi-MDPs :
 Learning , Planning , and Representing Knowledge at Multiple Temporal
 Scales at Multiple Temporal Scales, 1999

• グラフ理論を用いたもの
 – betweenness centralityの高いでノードを分割
 O. Simsek and A. G. Barto. Skill characterization based on betweenness
 in NIPS, 2008
目次
• 定式化
 – 強化学習とオプション
• 提案手法
 – タスクのグラフ化
 – Small World Network
• 評価実験
 – 実験設定とその結果
• 考察
 – 結論とFuture Works
定式化
強化学習
• マルコフ決定過程
 状態:S     行動:A
 状態遷移確率:P S×A×S → [0, 1]
 報酬:R S×A → ℝ
 未来の報酬の重み付け用パラメタ:
 γ
• 行動計画
 – 状態価値関数V(s)
 – 行動価値関数Q(s,a)
 価値関数を最大化する行動を選ぶ
強化学習におけるオプション
タスクをサブタスクに分割
    ex.)タクシー問題なら迎えに行く+送り届ける
オプションのタプル:<τ, π, β>
    τ:オプションに従う状態の条件
    π:オプションの間従う方策
    β:オプションの終了時に満たすべき状態の状
況
    ex.)迎えに行く時のオプション:
     <客:¬(in Taxi), 近くの駅に行く, 客:(in Taxi)>
オプションの問題点
• ドメインに対する知識が必要
 – MDPの知識が必要
 – 軌跡からモデルを作るのはサンプリングが大
   変
• 複数のオプションが考えられうる
 – 状態と一対一対応しているわけではない
 – 場合によっては全体の実行が遅くなることも
   ……
-> MDPの知識は出来るだけ使わない
  各状態には一つしかオプションを追加
提案手法
提案手法の概要
1. 強化学習問題をグラフ化
2. 問題のグラフをSmall World Networkに
3. 頑健なオプションを導入する
Small World Network
強化学習問題のグラフ化
オプションを作るアルゴリズム
       1. タスクを解いてみる
          ->行動価値関数Qを出力

       2. 各状態sにオプションを追
          加
        別の状態s’を選ぶ。
        Q(s’, π(s’)) > Q(S, π(S))なら
        s → s’のオプションを追加。
        *Qは目的地で最大

       s’のサンプリングでしかMDPの知識
       は使っていない
評価実験
実験設定(1/2)
• 比較したアルゴリズム
 –   None:オプションを使わない強化学習
 –   Random:ランダムにノードをつないだオプション
 –   Betweenness:ボトルネックを探索するアルゴリズム
 –   Small World:反比例する確率でオプションを生成
• 試行内容
 – ドメインにつき10個のランダムなタスク
 – 40,000エピソードで探索打ち切り
 – 20のAgentで試行し,その平均を利用
実験設定(2/2)
• 用いたドメイン
 Arbitrary Navigation: 障害物のないグリッドワー
 ルド
 Rooms: 4つの部屋に区切るような障害物あり
 Taxi: 例で説明したドメイン
実験結果




Arbt. Navi, Roomsドメインでは圧勝
TaxiドメインではBetweennessに負けている
-> 終状態がちょうど中間最大値にあるた
め?
試行回数に対する頑健性
       • 試行回数が限られているとき
         → Small Worldのオプションは強いは
         ず
       追加実験
       • 試行回数を変えた
       • Roomsドメイン
       結果
       • 多オプションなのに勝利
       • エピソード数が多いものにも勝
         利
考察
まとめ
• オプション生成の新しい枠組みを考案
 – サブタスクは再利用可能という直観に忠実
 – MDPのモデルを必要としない
 – ドメイン探索を行うものに比べ、コストが低
   い
• 実験によってその性能を評価
 – 基本的な複数のドメインにおいて性能向上
 – 試行回数が限られているような場合にも有効
Future Work
• 今回用いたパラメタの設定を一般化した
  い
• 連続値のドメインにも拡張
• タスクを解きながら動的にオプションを
  生成
• 得られたオプションを解析
私見
○
    – グラフ理論で強化学習を効率化
    – 数学的に最短経路に近づくことを保証
    – 問題に対して一般性は高そう
×
    – アルゴリズム自体の説明が簡素
    – 複雑な問題で勝てなかった点
    – もっと特殊なドメインだとどうなるのか見た
      かった

More Related Content

Similar to Learning in a small world (7)

Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介
Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介
Model Transport: Towards Scalable Transfer Learning on Manifolds 論文紹介
 
RobotPaperChallenge 2019-07
RobotPaperChallenge 2019-07RobotPaperChallenge 2019-07
RobotPaperChallenge 2019-07
 
大規模グラフアルゴリズムの最先端
大規模グラフアルゴリズムの最先端大規模グラフアルゴリズムの最先端
大規模グラフアルゴリズムの最先端
 
博士論文本審査スライド
博士論文本審査スライド博士論文本審査スライド
博士論文本審査スライド
 
はじパタLT3
はじパタLT3はじパタLT3
はじパタLT3
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 

Learning in a small world

  • 1. Learning in a Small World 2012 / 12 / 7 M2 堀内 新吾
  • 2. 発表論文 出展:AAMAS ’12 著者: Arun Tejasvi Chaganty, Prateek Gaur, Balaraman Ravindran Indian Institute of Technology Madras
  • 3. 本論文におけるAgent 学習するAgent: – 経験し学習する主体 – 未知のドメインを与えられ,評価関数を持つ – 行動計画を学習
  • 4. 論文概要 抽象化 状態 + 行動 • 離散的な状態 • オプションを導入 • 近い状態のクラスタリン →高次元な行動を定義 グ 探索空間を削減 既存手法だと… “ドメインに対する知識”が必 要 -> Small World Network を利用して効率的に 定義
  • 5. 例:タクシー問題 • グリッドワールドの一種 – 空間的抽象化 • 問題 – タクシー(t):どこか – 客(p):駅(R, G, B, Y) / タクシーの中 – 目的地(d):駅(R, G, B, Y) -> 最短経路で客を拾って目的地へ 状態:(Pos t, Pos p, d) 行動:移動(上下左右),客を拾う/下す オプション: 最寄りの駅に行ってみ る
  • 6. 関連研究 • 空間的抽象化 – 状態の相似性に着目 L. Li, T. J. Walsh, and M. L. Littman. Towards a United Theory of State Abstraction for MDPs, 2006 • 時間的抽象化 – オプションを用いて行動を高次元化 R. S. Sutton, D. Precup, and S. Singh. Between MDPs and Semi-MDPs : Learning , Planning , and Representing Knowledge at Multiple Temporal Scales at Multiple Temporal Scales, 1999 • グラフ理論を用いたもの – betweenness centralityの高いでノードを分割 O. Simsek and A. G. Barto. Skill characterization based on betweenness in NIPS, 2008
  • 7. 目次 • 定式化 – 強化学習とオプション • 提案手法 – タスクのグラフ化 – Small World Network • 評価実験 – 実験設定とその結果 • 考察 – 結論とFuture Works
  • 9. 強化学習 • マルコフ決定過程 状態:S 行動:A 状態遷移確率:P S×A×S → [0, 1] 報酬:R S×A → ℝ 未来の報酬の重み付け用パラメタ: γ • 行動計画 – 状態価値関数V(s) – 行動価値関数Q(s,a) 価値関数を最大化する行動を選ぶ
  • 10. 強化学習におけるオプション タスクをサブタスクに分割 ex.)タクシー問題なら迎えに行く+送り届ける オプションのタプル:<τ, π, β> τ:オプションに従う状態の条件 π:オプションの間従う方策 β:オプションの終了時に満たすべき状態の状 況 ex.)迎えに行く時のオプション: <客:¬(in Taxi), 近くの駅に行く, 客:(in Taxi)>
  • 11. オプションの問題点 • ドメインに対する知識が必要 – MDPの知識が必要 – 軌跡からモデルを作るのはサンプリングが大 変 • 複数のオプションが考えられうる – 状態と一対一対応しているわけではない – 場合によっては全体の実行が遅くなることも …… -> MDPの知識は出来るだけ使わない 各状態には一つしかオプションを追加
  • 13. 提案手法の概要 1. 強化学習問題をグラフ化 2. 問題のグラフをSmall World Networkに 3. 頑健なオプションを導入する
  • 16. オプションを作るアルゴリズム 1. タスクを解いてみる ->行動価値関数Qを出力 2. 各状態sにオプションを追 加 別の状態s’を選ぶ。 Q(s’, π(s’)) > Q(S, π(S))なら s → s’のオプションを追加。 *Qは目的地で最大 s’のサンプリングでしかMDPの知識 は使っていない
  • 18. 実験設定(1/2) • 比較したアルゴリズム – None:オプションを使わない強化学習 – Random:ランダムにノードをつないだオプション – Betweenness:ボトルネックを探索するアルゴリズム – Small World:反比例する確率でオプションを生成 • 試行内容 – ドメインにつき10個のランダムなタスク – 40,000エピソードで探索打ち切り – 20のAgentで試行し,その平均を利用
  • 19. 実験設定(2/2) • 用いたドメイン Arbitrary Navigation: 障害物のないグリッドワー ルド Rooms: 4つの部屋に区切るような障害物あり Taxi: 例で説明したドメイン
  • 21. 試行回数に対する頑健性 • 試行回数が限られているとき → Small Worldのオプションは強いは ず 追加実験 • 試行回数を変えた • Roomsドメイン 結果 • 多オプションなのに勝利 • エピソード数が多いものにも勝 利
  • 23. まとめ • オプション生成の新しい枠組みを考案 – サブタスクは再利用可能という直観に忠実 – MDPのモデルを必要としない – ドメイン探索を行うものに比べ、コストが低 い • 実験によってその性能を評価 – 基本的な複数のドメインにおいて性能向上 – 試行回数が限られているような場合にも有効
  • 24. Future Work • 今回用いたパラメタの設定を一般化した い • 連続値のドメインにも拡張 • タスクを解きながら動的にオプションを 生成 • 得られたオプションを解析
  • 25. 私見 ○ – グラフ理論で強化学習を効率化 – 数学的に最短経路に近づくことを保証 – 問題に対して一般性は高そう × – アルゴリズム自体の説明が簡素 – 複雑な問題で勝てなかった点 – もっと特殊なドメインだとどうなるのか見た かった