Learning in a small world

Learning in a Small World

2012 / 12 / 7
M2 堀内新吾

発表論文
出展：AAMAS ’12
著者：
Arun Tejasvi Chaganty, Prateek Gaur, Balaraman Ravindran
Indian Institute of Technology Madras

本論文におけるAgent
学習するAgent：
– 経験し学習する主体
– 未知のドメインを与えられ，評価関数を持つ
– 行動計画を学習

論文概要
抽象化
状態＋行動

• 離散的な状態 • オプションを導入
• 近い状態のクラスタリン →高次元な行動を定義
グ

探索空間を削減

既存手法だと…
“ドメインに対する知識”が必
要

-> Small World Network を利用して効率的に
定義

例：タクシー問題
• グリッドワールドの一種
– 空間的抽象化
• 問題
– タクシー(t)：どこか
– 客(p)：駅(R, G, B, Y) / タクシーの中
– 目的地(d)：駅(R, G, B, Y)
-> 最短経路で客を拾って目的地へ
状態：(Pos t, Pos p, d)
行動：移動(上下左右)，客を拾う/下す
オプション：最寄りの駅に行ってみ
る

関連研究
• 空間的抽象化
– 状態の相似性に着目
L. Li, T. J. Walsh, and M. L. Littman. Towards a United Theory of State
Abstraction for MDPs, 2006

• 時間的抽象化
– オプションを用いて行動を高次元化
R. S. Sutton, D. Precup, and S. Singh. Between MDPs and Semi-MDPs :
Learning , Planning , and Representing Knowledge at Multiple Temporal
Scales at Multiple Temporal Scales, 1999

• グラフ理論を用いたもの
– betweenness centralityの高いでノードを分割
O. Simsek and A. G. Barto. Skill characterization based on betweenness
in NIPS, 2008

目次
• 定式化
– 強化学習とオプション
• 提案手法
– タスクのグラフ化
– Small World Network
• 評価実験
– 実験設定とその結果
• 考察
– 結論とFuture Works

強化学習
• マルコフ決定過程
状態：S 行動：A
状態遷移確率：P S×A×S → [0, 1]
報酬：R S×A → ℝ
未来の報酬の重み付け用パラメタ：
γ
• 行動計画
– 状態価値関数V(s)
– 行動価値関数Q(s,a)
価値関数を最大化する行動を選ぶ

強化学習におけるオプション
タスクをサブタスクに分割
ex.)タクシー問題なら迎えに行く＋送り届ける
オプションのタプル：<τ, π, β>
τ：オプションに従う状態の条件
π：オプションの間従う方策
β：オプションの終了時に満たすべき状態の状
況
ex.)迎えに行く時のオプション：
<客：￢(in Taxi), 近くの駅に行く, 客:(in Taxi)>

オプションの問題点
• ドメインに対する知識が必要
– MDPの知識が必要
– 軌跡からモデルを作るのはサンプリングが大
変
• 複数のオプションが考えられうる
– 状態と一対一対応しているわけではない
– 場合によっては全体の実行が遅くなることも
……
-> MDPの知識は出来るだけ使わない
各状態には一つしかオプションを追加

提案手法の概要
1. 強化学習問題をグラフ化
2. 問題のグラフをSmall World Networkに
3. 頑健なオプションを導入する

強化学習問題のグラフ化

オプションを作るアルゴリズム
1. タスクを解いてみる
->行動価値関数Qを出力

2. 各状態ｓにオプションを追
加
別の状態s’を選ぶ。
Q(s’, π(s’)) > Q(S, π(S))なら
s → s’のオプションを追加。
＊Qは目的地で最大

s’のサンプリングでしかMDPの知識
は使っていない

実験設定(1/2)
• 比較したアルゴリズム
– None：オプションを使わない強化学習
– Random：ランダムにノードをつないだオプション
– Betweenness：ボトルネックを探索するアルゴリズム
– Small World：反比例する確率でオプションを生成
• 試行内容
– ドメインにつき１０個のランダムなタスク
– 40,000エピソードで探索打ち切り
– 20のAgentで試行し，その平均を利用

実験設定(2/2)
• 用いたドメイン
Arbitrary Navigation: 障害物のないグリッドワー
ルド
Rooms: 4つの部屋に区切るような障害物あり
Taxi: 例で説明したドメイン

実験結果

Arbt. Navi, Roomsドメインでは圧勝
TaxiドメインではBetweennessに負けている
-> 終状態がちょうど中間最大値にあるた
め？

試行回数に対する頑健性
• 試行回数が限られているとき
→ Small Worldのオプションは強いは
ず
追加実験
• 試行回数を変えた
• Roomsドメイン
結果
• 多オプションなのに勝利
• エピソード数が多いものにも勝
利

まとめ
• オプション生成の新しい枠組みを考案
– サブタスクは再利用可能という直観に忠実
– MDPのモデルを必要としない
– ドメイン探索を行うものに比べ、コストが低
い
• 実験によってその性能を評価
– 基本的な複数のドメインにおいて性能向上
– 試行回数が限られているような場合にも有効

Future Work
• 今回用いたパラメタの設定を一般化した
い
• 連続値のドメインにも拡張
• タスクを解きながら動的にオプションを
生成
• 得られたオプションを解析

私見
○
– グラフ理論で強化学習を効率化
– 数学的に最短経路に近づくことを保証
– 問題に対して一般性は高そう
×
– アルゴリズム自体の説明が簡素
– 複雑な問題で勝てなかった点
– もっと特殊なドメインだとどうなるのか見た
かった

Learning in a small world

Recommended

Recommended

More Related Content

Similar to Learning in a small world

Similar to Learning in a small world (7)

Learning in a small world