More Related Content Similar to Learning in a small world (7) Learning in a small world2. 発表論文
出展:AAMAS ’12
著者:
Arun Tejasvi Chaganty, Prateek Gaur, Balaraman Ravindran
Indian Institute of Technology Madras
4. 論文概要
抽象化
状態 + 行動
• 離散的な状態 • オプションを導入
• 近い状態のクラスタリン →高次元な行動を定義
グ
探索空間を削減
既存手法だと…
“ドメインに対する知識”が必
要
-> Small World Network を利用して効率的に
定義
5. 例:タクシー問題
• グリッドワールドの一種
– 空間的抽象化
• 問題
– タクシー(t):どこか
– 客(p):駅(R, G, B, Y) / タクシーの中
– 目的地(d):駅(R, G, B, Y)
-> 最短経路で客を拾って目的地へ
状態:(Pos t, Pos p, d)
行動:移動(上下左右),客を拾う/下す
オプション: 最寄りの駅に行ってみ
る
6. 関連研究
• 空間的抽象化
– 状態の相似性に着目
L. Li, T. J. Walsh, and M. L. Littman. Towards a United Theory of State
Abstraction for MDPs, 2006
• 時間的抽象化
– オプションを用いて行動を高次元化
R. S. Sutton, D. Precup, and S. Singh. Between MDPs and Semi-MDPs :
Learning , Planning , and Representing Knowledge at Multiple Temporal
Scales at Multiple Temporal Scales, 1999
• グラフ理論を用いたもの
– betweenness centralityの高いでノードを分割
O. Simsek and A. G. Barto. Skill characterization based on betweenness
in NIPS, 2008
7. 目次
• 定式化
– 強化学習とオプション
• 提案手法
– タスクのグラフ化
– Small World Network
• 評価実験
– 実験設定とその結果
• 考察
– 結論とFuture Works
9. 強化学習
• マルコフ決定過程
状態:S 行動:A
状態遷移確率:P S×A×S → [0, 1]
報酬:R S×A → ℝ
未来の報酬の重み付け用パラメタ:
γ
• 行動計画
– 状態価値関数V(s)
– 行動価値関数Q(s,a)
価値関数を最大化する行動を選ぶ
10. 強化学習におけるオプション
タスクをサブタスクに分割
ex.)タクシー問題なら迎えに行く+送り届ける
オプションのタプル:<τ, π, β>
τ:オプションに従う状態の条件
π:オプションの間従う方策
β:オプションの終了時に満たすべき状態の状
況
ex.)迎えに行く時のオプション:
<客:¬(in Taxi), 近くの駅に行く, 客:(in Taxi)>
11. オプションの問題点
• ドメインに対する知識が必要
– MDPの知識が必要
– 軌跡からモデルを作るのはサンプリングが大
変
• 複数のオプションが考えられうる
– 状態と一対一対応しているわけではない
– 場合によっては全体の実行が遅くなることも
……
-> MDPの知識は出来るだけ使わない
各状態には一つしかオプションを追加
16. オプションを作るアルゴリズム
1. タスクを解いてみる
->行動価値関数Qを出力
2. 各状態sにオプションを追
加
別の状態s’を選ぶ。
Q(s’, π(s’)) > Q(S, π(S))なら
s → s’のオプションを追加。
*Qは目的地で最大
s’のサンプリングでしかMDPの知識
は使っていない
18. 実験設定(1/2)
• 比較したアルゴリズム
– None:オプションを使わない強化学習
– Random:ランダムにノードをつないだオプション
– Betweenness:ボトルネックを探索するアルゴリズム
– Small World:反比例する確率でオプションを生成
• 試行内容
– ドメインにつき10個のランダムなタスク
– 40,000エピソードで探索打ち切り
– 20のAgentで試行し,その平均を利用
21. 試行回数に対する頑健性
• 試行回数が限られているとき
→ Small Worldのオプションは強いは
ず
追加実験
• 試行回数を変えた
• Roomsドメイン
結果
• 多オプションなのに勝利
• エピソード数が多いものにも勝
利
23. まとめ
• オプション生成の新しい枠組みを考案
– サブタスクは再利用可能という直観に忠実
– MDPのモデルを必要としない
– ドメイン探索を行うものに比べ、コストが低
い
• 実験によってその性能を評価
– 基本的な複数のドメインにおいて性能向上
– 試行回数が限られているような場合にも有効
25. 私見
○
– グラフ理論で強化学習を効率化
– 数学的に最短経路に近づくことを保証
– 問題に対して一般性は高そう
×
– アルゴリズム自体の説明が簡素
– 複雑な問題で勝てなかった点
– もっと特殊なドメインだとどうなるのか見た
かった