More Related Content More from ドワンゴ 人工知能研究所 (6) 認知距離学習器の説明2. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
モデル概要
n 認知距離学習(CDL)モデルは,環境中を移動しつつ状態間の距離
を記憶・蓄積してプランニングに利用するゴール指向型エージェン
トである.
n 実行可能性の判断が速い特徴により,プロダクションルールとして利用しうる.
n 強化学習と異なり,任意ゴールに対するナビゲーションが可能.
n 距離に基づく階層化を行なったCDLモデル
n 階層化CDLモデルは,高次レベルほど粒度の粗い認知地図を自律獲得して
利用することでメモリコストを削減できる.
n 階層的に意図を分解する意味でBDIアーキテクチャの実現例になっている.
n 山川が2000年ごろにリアルワールドコンピュティングプロジェクト
(RWCP) 内の研究の一環で,マルチエージェントシステム内の
個々のエージェントとして開発した学習型プランナ
1
3. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
目次
n 単層の認知距離学習器
n 問題の定式化
n 従来技術による問題解決: 探索手法,強化学習
n 認知距離学習器
n 機能比較と課題
n 階層化した認知距離学習器 ーメモリ削減のためにー
n 従来技術における階層化
n 状態の階層化
n 階層化した認知距離学習器
n ループ問題を解決する意図の保持
n BDIアーキとの関連性
n 心理実験結果と認知距離との比較
n 関連する学会発表等
n 参考:一般化状態について
2
4. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
問題の定式化
n 状態空間
n 環境モデル
n 世界モデル,前向きモデル等と同義
※モデルベースド強化学習における「モデル」
n 初期状態
n ゴール検査
n 単純に,ゴールの状態
が単一の場合を扱う
n 認知距離
n 経験的に得られた2状態間の
距離.
n 単純に,一時刻の移動コストが
1の場合を扱う
状態空間
初期状態
ゴール
3
5. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
探索手法における問題解決 #1
n 環境モデルを保持する(学習してもよい)
n 初期状態からゴール状態に遷移する,環境モデルの遷移列を探索する.
n 特徴
n 任意の初期状態とゴール状態に対して適用可能
n 探索に要する計算コストが大きい
環境モデル
4
6. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
探索手法における問題解決 #2
n 探索による経路計画の生成
n 実行
n 計画どおりに実行する
5
7. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
強化学習による問題解決 #1
n (状態 ⇒ 行動)の評価学習する(Q学習)
n 予測評価の伝播 ⇒ Temporal Difference法
n 行動選択 ⇒ 評価の高い行動を選択
n 特徴
n ゴール状態を固定して学習せざるを得ない
n 探索に要する計算コストが小さい
(状態 ⇒ 行動)
Q値(評価)
6
8. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
強化学習による問題解決 #2
n 予測評価の伝播(Temporal Difference法) Q-module
n ゴールのみで与えられる遅延報酬を用いて,ゴールから
遠い状態での行動の評価を行う事が可能になる.
• 行動選択 Selector
s
a
r
7
9. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
強化学習による問題解決 #3
n 行動選択肢の生成 Action model
n 行動選択 Selector
ai = argmin
i
Q si,ai( )
8
10. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
認知距離による問題解決#1
n 認知距離 を保持する
n 環境モデルも保持する
n 各状態において,ゴールへの認知距離小さい行動を選択
n 特徴
n 任意の初期状態とゴール状態に対して適用可能
n 探索に要する計算コストが小さい
n 認知距離を記憶するメモリコストが大きい
D: 認知距離
FROM 状態
TO 状態
9
11. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
認知距離による問題解決#2
n 状態履歴
n 最近の履歴を保存
n 環境モデル(フォワードモデル)
n 遷移可能状態の選択肢を出力する
(*) 入力センサ状state(t)と行動action(t)をペアにした一般化状態
S(t)を利用する(t は時刻).詳細は資料末尾の説明を参照.
n 認知距離モジュール
n 認知距離を学習する
n セレクタ
n サブ意図D(t)を選択する
10
12. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
認知距離による問題解決#3 ー 環境モデルの導入ー
n 遷移可能状態の選択肢の生成: 環境モデル
n 行動選択: Selector
ai = si,ai[ ]= argmin
i
L si,ai[ ], sG,ag
!" #$( )
11
13. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
認知距離による問題解決#4: 探索処理の統合
ゴール状態(SG)までの認知距離を得られるまで,環境モデ
ルを用いて反復深化深さ優先探索(IDDFS)を行う.
認知距離
FROM 状態
TO 状態
Forward
model
状態(t)
状態(t+1)
S
1
S
4
S
7
S
G
L(S , S )
7
G
Cognitive
distance
Di = argmin
i
L Si,SG( )
12
14. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
単層の認知距離学習(CDL)モデルのまとめ
n 目標状態へ至る行動系列を生成するエージェントモデル
n 学習: 環境との相互作用で任意の状態間の行動に要する認知距離を保存
n 行動: 目標状態への認知距離が短い動作を選択
• 履歴キューHは,近い過去数状態を保持するキュー
• 環境モデルFは,状態入力から直接遷移可能な状態の候補を列挙
• 認知距離モジュールTは,任意の状態間の距離を学習するテーブル
• 探索エンジンは,環境モデルFと認知距離Tを用い,状態SとゴールGから意図Dを出力
探索エンジン
状態S
ゴールG
意図D
認知
距離
CDLエージェント(=層ユニット)
13
15. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
機能比較: CDLは到達可能判断に強み
n 到達可能判断:
n 与えられたゴールが実現可能か
否かを,判定する能力.
n 熟達性:
n 同じ動作シークエンスが速くなる
• CDLは,ゴールまでの距離を
知っていれば到達可能である
と即座に判定可能
• この能力を条件部とみなすこ
とで,CDLはプロダクション
ルールとして利用できる.
14
16. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
距離保持の組み合わせ爆発 問題
問題解決器と必要なメモリ
n Ns : 取り扱う状態の数
n m : 各状態から直接移動可能な状態の数(平均的に見て)
n 認知距離
n 距離数のオーダ = O(Ns × Ns )
n 環境モデル(探索手法に用いる)
n 遷移数のオーダ = O(Ns × m )
n 評価関数(Q学習に用いる)
n 評価数のオーダ = O(Ns)
大きい
15
17. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
目次
n 単層の認知距離学習器
n 問題の定式化
n 従来技術による問題解決: 探索手法,強化学習
n 認知距離学習器
n 機能比較と課題
n 階層化した認知距離学習器 ーメモリ削減のためにー
n 従来技術における階層化
n 状態の階層化
n 階層化した認知距離学習器
n ループ問題を解決する意図の保持
n BDIアーキとの関連性
n 心理実験結果と認知距離との比較
n 関連する学会発表等
n 参考:一般化状態について
16
18. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
従来技術における階層化
計算コスト,メモリ,学習時間などの削減が目的となっている.
(※モジュール化による再利用性向上とは異なる)
n 探索手法
n ABSTRIPS
n 強化学習
n マルチモジュール強化学習
n 多層強化学習(高橋,浅田 1999)
17
19. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
標識状態を介したCDLエージェントの階層化
高次レベルほど粗い認知地図を自律的に獲得. 隣接する二つ
のレベル間では粗い上位レベルの各状態は,詳細な下位レベル
のセグメントに対応しそれに対応する標識状態が配置される.
第一層と第二層の対応
空間的に概ね一様な領域
毎に配置される標識状態
状態SとゴールGから意図
Dが並行して層変換される
18
20. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
標識状態を使った階層プランニング
層ごとの動作概要
1. 目標状態Grと,現在状
態Srから意図Drを出力
しようと試みる.
2. それに失敗したら,上
位に層に,GrとSrを送り,
上位意図Dr+1を得る.
3. Dr+1SとGrから意図Drを
出力する.
19
21. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
状態空間の自動分割による階層化
n 分割統治による認知距離の保持
n 上位層: 広い範囲を粗く学習
n 下位層: 狭い範囲を詳細に学習
n 空間分割アルゴリズム
n 適当に選んだ標識状態
からの距離が一定以下に
なるように領域を分割する
n 学習した分割は
右図のような均等な形には
ならない.
n 到達可能範囲はオーバーラップ
lcd: 認知距離の最大記憶長
標識状態
20
22. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
実験パラメータ:
2
maxCDLngth 学習する最大の認知距離
1
shallowSearchLngth ゴールを浅く探索する場合の最大の深さ
200
deepSearchLngth ゴールを深く探索する場合の最大の深さ
-1
minSearchLngth ゴールを探索する最小の深さ
3
maxSegmentSize 標識状態間の最大距離。ここで指定された
距離の範囲で標識状態を探索し、標識状態が無ければ
新たな標識状態を生成します。
部屋: 16×16ほぼ円形グリッドワールで.
移動: 上下左右の4方向(ランダム移動)
状態数: 位置と移動方向を合わせた688状態.
(全状態数=188マス×4方向-16×4= 688状態)
円形グリッドワールドでの自動分割実験
23. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
2層の標識状態
140個程度の各
台形(黄色)が2
層の標識状態
学習後の各層(2〜5層)における標識状態
3層の標識状態
18個程度の台
形クラスタが2
層における一つ
の状態で,あり
3層の標識状態
5層の標識状態
1個台形クラスタ
が4層における一
つの状態であり,
5層の標識状態
各台形は,(位置+進入方向)を表す
4層の標識状態
3個台形クラスタ
が3層における一
つの状態であり,
4層の標識状態
24. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
層ユニットのDFD(データフローダイアグラム)
n 疎視化
n 下位の状態を上位の状態に
マップする
n 標識化
n 上位状態の下位における標
識状態を指定
n サブ意図選択
n 距離の小さい状態を選択
n 探索
n D0=探索(S,G,深く)
n D1=探索(S,G,浅く)
n D3=探索(S,V,深く)
23
25. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
サブ意図に対するループ問題
n gに行きたいが以下の動作を繰り返す
n 下位層: bに行くためにs2に移動
n 上位層: Aに行くためにs1に移動
n 二つのユニット間の意図の一貫性の欠如
n ⇒目的地に到達するまでは意図を保持ことが必要
下位層主導の動作
上位層主導の動作
24
26. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
層ユニットのDFD(保持サブ意図の導入)
n 保持サブ意図
n 上位のサブ意図を保持
n 入力意図到達
n 距離の小さい状態を選択
n 探索
n D0=探索(S,G,深く)
n D1=探索(S,G,浅く)
n D2=探索(S,V,深く)
n D3=探索(S,V,深く)
ループ問題を解消
25
27. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
階層化によるメモリ&探索コスト削減
階層を用いない場合
利
用
階
層
数
空間スケーラビリティ:
階層化は,メモリ&探索コストを削減する
メモリ
探索コスト
26
28. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
目次
n 単層の認知距離学習器
n 問題の定式化
n 従来技術による問題解決: 探索手法,強化学習
n 認知距離学習器
n 機能比較と課題
n 階層化した認知距離学習器 ーメモリ削減のためにー
n 従来技術における階層化
n 状態の階層化
n 階層化した認知距離学習器
n ループ問題を解決する意図の保持
n BDIアーキとの関連性
n 心理実験結果と認知距離との比較
n 関連する学会発表等
n 参考:一般化状態について
27
29. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
階層CDLの意図はBDIアーキテクチャと似ている
n Bratman 『意図と行為』
n (C1)意図を実現する手段を
推論する
n (C2)意図を持続的に保持す
る
n (C3)当面の詳細な熟考を抑
制する
n (C4)推論の前提となる信念
に影響を与える
n BDIアーキテクチャ
n 意図によるプランニングのモ
デル(Rao, 高田)
n 階層化CDLでの意図
n 上位層から受け取った意図
を保持する.
n 意図を保持しないと行動に無
限ループが発生する.
n 左の(C1)~(C3)の性質を反
映している.
n ※意図の必要性を実験的
に示すことができた.
28
30. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
心理実験結果と認知距離との比較
n 認知距離yの,実距離xとの関係は,Stevensの法則がよく知ら
れている.
b
axy =
• 学習ステップが500回
でStevensの法則によ
く一致.
• 心理実験結果(篠原)
によるa=0.69に近い
• 学習が進むと,正しい
距離に近づく.
29
31. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
関連する学会発表等
n 山川宏,岡田浩之,馬場孝之. (2000). “認知距離を用いた問題解決
器の提案," Proc. MACC2000 予稿集, 沖縄.
http://www.kecl.ntt.co.jp/csl/ccrg/events/macc2000/yamakawa.html
n Hiroshi Yamakawa, Yuji Miyamoto, and Hiroyuki Okada. “
Comparison the learning processes of cognitive distance learning
and search based agent. ” 6th International Work-Conference on
Artificial and Natural Neural Networks (IWANN2001), pp. 378-385,
2001.
http://link.springer.com/chapter/10.1007/3-540-45720-8_44
n 山川宏, 宮本祐司, 馬場孝之, 岡田浩之. “認知距離学習による問題解
決器の 実行時探索削減の評価と学習プロセスの解析", 人工知能学会
誌, Vol. 17, No. 1, pp.1-13, 2002.
http://dx.doi.org/10.1527/tjsai.17.1
n 山川宏, 岡田浩之. “意図モデルの比較による意図の存在意義の検討”,
日本認知科学会第19回大会, pp. 206-207, June 2002.
n 認知距離学習(CDL)モデルからみた海馬-嗅内皮質機能の検討,脳と心
のメカニズムワークショップ,ルスツ,2012.
30
33. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
利用できる機会が多い
観察からの学習により
抽出できる構造には
制御可能性の情報が
含まれない
制御可能性を区別しない定式化
マルコフ決定モデル(Q
学習等)では変数の
制御可能性の
区別が必要
制御可能性の区別を必要としない
問題解決器として定式化したい
32
34. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
マルコフ決定モデルとQ学習
n s(t): センサ入力 (時刻 t における)
n a(t): 動作出力(時刻 t における)
n Q(s(t), a(t+1)): Q値(行動の評価)
33
35. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
変数の制御可能性
n s(t): センサ入力 → 制御不能な変数
n a(t): 動作出力 → 制御可能な変数
必ず
実現する
予測
予測
制御可能
制御不能
エージェントは,センサ入力から動作出力を行い,
環境は,動作出力からセンサ入力を生成する.
34
36. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
一般化状態として定式化
n S(t): 環境から得られる状態 = (s(t), a(t))
n D(t): Agentが実現したい意図= (s(t+1), a(t+1))
予測値
予測
必ず実現
する予測
制御可能
制御不能
制御可能な変数は,環境へ与えた実現したい状態(意図)が
センサ入力として反映される.
35
37. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
グリッドワールドではどうなるか
n 一般化状態
n S(t): = (s(t), a(t))
n 状態s(t)とそこに至るa(t)をまと
めて一般化状態S(t)とする.
n Q学習の例
n Q(s(t), a(t+1))
n ある状態s(t)において
行動a(t+1)を行う.
36
38. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
一般化状態を導入するメリットとデメリット
n メリット
n 制御可能性の区別を必要としない
• 制御可能性が動的に変化しても問題無い.
n CDLにおいて階層化の定式化を自然に行えた
n デメリット
n 常に行動も含めた目標状態(ゴール)の設定が必要
• 記述が複雑になる可能性がある.
• 部分情報をゴールとするにはマルチゴールとして扱う必要がある
n 一般化状態による認知距離だけでは動作できない
• 環境モデル(環境モデル)が必須となる
37