認知距離学習器の説明

認知距離学習器(CDL)の解説
Cognitive Distance Learing Model

山川宏
ドワンゴ人工知能研究所
2015年2月

CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
モデル概要
n 認知距離学習(CDL)モデルは，環境中を移動しつつ状態間の距離
を記憶・蓄積してプランニングに利用するゴール指向型エージェン
トである．
n 実行可能性の判断が速い特徴により，プロダクションルールとして利用しうる．
n 強化学習と異なり，任意ゴールに対するナビゲーションが可能．
n 距離に基づく階層化を行なったCDLモデル
n 階層化CDLモデルは，高次レベルほど粒度の粗い認知地図を自律獲得して
利用することでメモリコストを削減できる．
n 階層的に意図を分解する意味でBDIアーキテクチャの実現例になっている．
n 山川が２０００年ごろにリアルワールドコンピュティングプロジェクト
（RWCP) 内の研究の一環で，マルチエージェントシステム内の
個々のエージェントとして開発した学習型プランナ
1

目次
n 単層の認知距離学習器
n 問題の定式化
n 従来技術による問題解決：探索手法，強化学習
n 認知距離学習器
n 機能比較と課題
n 階層化した認知距離学習器　ーメモリ削減のためにー
n 従来技術における階層化
n 状態の階層化
n 階層化した認知距離学習器
n ループ問題を解決する意図の保持
n BDIアーキとの関連性
n 心理実験結果と認知距離との比較
n 関連する学会発表等
n 参考：一般化状態について
2

問題の定式化
n 状態空間
n 環境モデル
n 世界モデル，前向きモデル等と同義
※モデルベースド強化学習における「モデル」
n 初期状態
n ゴール検査
n 単純に，ゴールの状態 
が単一の場合を扱う
n 認知距離
n 経験的に得られた２状態間の
距離．
n 単純に，一時刻の移動コストが
１の場合を扱う
状態空間
初期状態
ゴール
3

探索手法における問題解決 #1
n 環境モデルを保持する(学習してもよい)
n 初期状態からゴール状態に遷移する，環境モデルの遷移列を探索する．
n 特徴
n 任意の初期状態とゴール状態に対して適用可能
n 探索に要する計算コストが大きい
環境モデル
4

探索手法における問題解決 #2
n 探索による経路計画の生成
n 実行
n 計画どおりに実行する
5

強化学習による問題解決 #1
n (状態 ⇒ 行動）の評価学習する(Q学習)
n 予測評価の伝播 ⇒ Temporal Difference法
n 行動選択 ⇒ 評価の高い行動を選択
n 特徴
n ゴール状態を固定して学習せざるを得ない
n 探索に要する計算コストが小さい
(状態 ⇒ 行動）
Q値(評価)
6

n 予測評価の伝播(Temporal Difference法) Q-module
n ゴールのみで与えられる遅延報酬を用いて，ゴールから
遠い状態での行動の評価を行う事が可能になる．
•  行動選択 Selector
s
a
r
7

n 行動選択肢の生成 Action model
n 行動選択 Selector
ai = argmin
i
Q si,ai( )
8

認知距離による問題解決#1
n 認知距離を保持する
n 環境モデルも保持する

n 各状態において，ゴールへの認知距離小さい行動を選択
n 特徴
n 任意の初期状態とゴール状態に対して適用可能
n 探索に要する計算コストが小さい
n 認知距離を記憶するメモリコストが大きい
D: 認知距離
FROM 状態
TO 状態
9

認知距離による問題解決#2
n  状態履歴
n  最近の履歴を保存
n  環境モデル（フォワードモデル）
n  遷移可能状態の選択肢を出力する
（*）入力センサ状state(t)と行動action(t)をペアにした一般化状態
S(t)を利用する(t は時刻)．詳細は資料末尾の説明を参照．
n  認知距離モジュール
n  認知距離を学習する
n  セレクタ
n  サブ意図D(t)を選択する
10

認知距離による問題解決#3 ｰ環境モデルの導入ｰ
n 遷移可能状態の選択肢の生成：環境モデル
n 行動選択： Selector
ai = si,ai[ ]= argmin
i
L si,ai[ ], sG,ag
!" #$( )
11

認知距離による問題解決#4：探索処理の統合
ゴール状態(SG)までの認知距離を得られるまで，環境モデ
ルを用いて反復深化深さ優先探索（IDDFS）を行う．
認知距離
FROM 状態
TO 状態
Forward
model
状態(t)
状態(t+1)
S
1
S
4
S
7
S
G
L(S , S )
7
G
Cognitive 
distance
Di = argmin
i
L Si,SG( )
12

単層の認知距離学習(CDL)モデルのまとめ
n 目標状態へ至る行動系列を生成するエージェントモデル
n 学習: 環境との相互作用で任意の状態間の行動に要する認知距離を保存
n 行動: 目標状態への認知距離が短い動作を選択
•  履歴キューＨは，近い過去数状態を保持するキュー
•  環境モデルＦは，状態入力から直接遷移可能な状態の候補を列挙
•  認知距離モジュールＴは，任意の状態間の距離を学習するテーブル
•  探索エンジンは，環境モデルFと認知距離Tを用い，状態SとゴールGから意図Dを出力
探索エンジン
状態S
ゴールG
意図D
認知
距離
CDLエージェント(＝層ユニット）
13

機能比較： CDLは到達可能判断に強み
n  到達可能判断：
n 与えられたゴールが実現可能か
否かを，判定する能力．
n  熟達性:
n 同じ動作シークエンスが速くなる
•  CDLは，ゴールまでの距離を
知っていれば到達可能である
と即座に判定可能
•  この能力を条件部とみなすこ
とで，CDLはプロダクション
ルールとして利用できる．
14

距離保持の組み合わせ爆発問題
問題解決器と必要なメモリ
n Ns : 取り扱う状態の数
n m : 各状態から直接移動可能な状態の数(平均的に見て)
n 認知距離
n 距離数のオーダ＝ O(Ns × Ns )
n 環境モデル(探索手法に用いる)
n 遷移数のオーダ＝ O(Ns × m )
n 評価関数(Q学習に用いる)
n 評価数のオーダ＝ O(Ns)
大きい
15

目次
16

従来技術における階層化
計算コスト，メモリ，学習時間などの削減が目的となっている． 
(※モジュール化による再利用性向上とは異なる)
n 探索手法
n ＡＢＳＴＲＩＰＳ
n 強化学習
n マルチモジュール強化学習
n 多層強化学習(高橋，浅田 1999)
17

標識状態を介したCDLエージェントの階層化
高次レベルほど粗い認知地図を自律的に獲得．　隣接する二つ
のレベル間では粗い上位レベルの各状態は，詳細な下位レベル
のセグメントに対応しそれに対応する標識状態が配置される．

第一層と第二層の対応

空間的に概ね一様な領域
毎に配置される標識状態
状態SとゴールGから意図
Dが並行して層変換される
18

標識状態を使った階層プランニング
層ごとの動作概要
1.  目標状態Grと，現在状
態Srから意図Drを出力
しようと試みる．
2.  それに失敗したら，上
位に層に，GrとSrを送り，
上位意図Dr+1を得る．
3.  Dr+1SとGrから意図Drを
出力する．
19

状態空間の自動分割による階層化
n 分割統治による認知距離の保持
n 上位層: 広い範囲を粗く学習
n 下位層：狭い範囲を詳細に学習
n 空間分割アルゴリズム
n 適当に選んだ標識状態
からの距離が一定以下に
なるように領域を分割する
n 学習した分割は
右図のような均等な形には
ならない．
n 到達可能範囲はオーバーラップ
lcd: 認知距離の最大記憶長
標識状態
20

実験パラメータ：
2　
maxCDLngth 学習する最大の認知距離
1　　
shallowSearchLngth ゴールを浅く探索する場合の最大の深さ
200　
deepSearchLngth ゴールを深く探索する場合の最大の深さ
-1　
minSearchLngth ゴールを探索する最小の深さ
3　　
maxSegmentSize 標識状態間の最大距離。ここで指定された
距離の範囲で標識状態を探索し、標識状態が無ければ
新たな標識状態を生成します。
部屋：　16×16ほぼ円形グリッドワールで．
移動：上下左右の4方向（ランダム移動）
状態数：　位置と移動方向を合わせた688状態．
(全状態数=188マス×4方向－16×4= 688状態）
円形グリッドワールドでの自動分割実験

２層の標識状態
140個程度の各
台形(黄色)が２
層の標識状態
学習後の各層（２〜５層）における標識状態
３層の標識状態
18個程度の台
形クラスタが２
層における一つ
の状態で，あり
３層の標識状態
５層の標識状態
１個台形クラスタ
が４層における一
つの状態であり，
５層の標識状態
各台形は，（位置＋進入方向）を表す
４層の標識状態
3個台形クラスタ
が３層における一
つの状態であり，
４層の標識状態

層ユニットのDFD(データフローダイアグラム)
n 疎視化
n 下位の状態を上位の状態に
マップする
n 標識化
n 上位状態の下位における標
識状態を指定
n サブ意図選択
n 距離の小さい状態を選択
n 探索
n D0=探索(S,G,深く)
n D１=探索(S,G,浅く)
n D３=探索(S,V,深く)
23

サブ意図に対するループ問題
n ｇに行きたいが以下の動作を繰り返す
n 下位層： bに行くためにs2に移動
n 上位層: Aに行くためにs1に移動
n 二つのユニット間の意図の一貫性の欠如
n ⇒目的地に到達するまでは意図を保持ことが必要
下位層主導の動作
上位層主導の動作
24

層ユニットのDFD（保持サブ意図の導入）
n 保持サブ意図
n 上位のサブ意図を保持
n 入力意図到達
n 距離の小さい状態を選択
n 探索
n D0=探索(S,G,深く)
n D１=探索(S,G,浅く)
n D2=探索(S,V,深く)
n D３=探索(S,V,深く)
ループ問題を解消
25

階層化によるメモリ&探索コスト削減
階層を用いない場合
利
用
階
層
数

空間スケーラビリティ： 
　　　階層化は，メモリ＆探索コストを削減する
メモリ
探索コスト
26

目次
27

階層CDLの意図はBDIアーキテクチャと似ている
n Bratman 『意図と行為』
n (C1)意図を実現する手段を
推論する
n (C2)意図を持続的に保持す
る
n (C3)当面の詳細な熟考を抑
制する
n (C4)推論の前提となる信念
に影響を与える
n BDIアーキテクチャ
n 意図によるプランニングのモ
デル(Rao, 高田)
n 階層化CDLでの意図
n 上位層から受け取った意図
を保持する．
n 意図を保持しないと行動に無
限ループが発生する．
n 左の(C1)～(C3)の性質を反
映している．
n ※意図の必要性を実験的
に示すことができた．
28

心理実験結果と認知距離との比較
n 認知距離yの，実距離xとの関係は，Stevensの法則がよく知ら
れている．
b
axy =
•  学習ステップが500回
でStevensの法則によ
く一致．
•  心理実験結果(篠原)
によるa=0.69に近い
•  学習が進むと，正しい
距離に近づく．
29

関連する学会発表等
n  山川宏，岡田浩之，馬場孝之. （2000）. “認知距離を用いた問題解決
器の提案," Proc. MACC2000 予稿集, 沖縄.
http://www.kecl.ntt.co.jp/csl/ccrg/events/macc2000/yamakawa.html
n  Hiroshi Yamakawa, Yuji Miyamoto, and Hiroyuki Okada. “
Comparison the learning processes of cognitive distance learning
and search based agent. ” 6th International Work-Conference on
Artificial and Natural　 Neural Networks (IWANN2001), pp. 378-385,
2001.
http://link.springer.com/chapter/10.1007/3-540-45720-8_44
n  山川宏, 宮本祐司, 馬場孝之, 岡田浩之. “認知距離学習による問題解
決器の実行時探索削減の評価と学習プロセスの解析", 人工知能学会
誌, Vol. 17, No. 1, pp.1-13, 2002.
http://dx.doi.org/10.1527/tjsai.17.1
n  山川宏, 岡田浩之. “意図モデルの比較による意図の存在意義の検討”,
日本認知科学会第19回大会, pp. 206-207, June 2002.
n  認知距離学習(CDL)モデルからみた海馬-嗅内皮質機能の検討，脳と心
のメカニズムワークショップ，ルスツ，2012.
30

参考：一般化状態について

利用できる機会が多い
観察からの学習により
抽出できる構造には
制御可能性の情報が
含まれない
制御可能性を区別しない定式化
マルコフ決定モデル(Q
学習等)では変数の 
制御可能性の 
区別が必要
制御可能性の区別を必要としない 
問題解決器として定式化したい
32

マルコフ決定モデルとQ学習
n s(t): センサ入力 (時刻 t における)
n a(t): 動作出力(時刻 t における)
n Q(s(t), a(t+1)): Q値(行動の評価)
33

変数の制御可能性
n s(t): センサ入力 → 制御不能な変数
n a(t): 動作出力 → 制御可能な変数
必ず 
実現する
予測
予測
制御可能
制御不能
エージェントは，センサ入力から動作出力を行い，
環境は，動作出力からセンサ入力を生成する．
34

一般化状態として定式化
n S(t): 環境から得られる状態 = (s(t), a(t))
n D(t): Agentが実現したい意図= (s(t+1), a(t+1))
予測値
予測
必ず実現
する予測
制御可能
制御不能
制御可能な変数は，環境へ与えた実現したい状態（意図）が
センサ入力として反映される．
35

グリッドワールドではどうなるか
n 一般化状態
n S(t): = (s(t), a(t))
n 状態s(t)とそこに至るa(t)をまと
めて一般化状態S(t)とする．
n Q学習の例
n Q(s(t), a(t+1))
n ある状態s(t)において
行動a(t+1)を行う．
36

一般化状態を導入するメリットとデメリット
n メリット
n 制御可能性の区別を必要としない
• 制御可能性が動的に変化しても問題無い．
n CDLにおいて階層化の定式化を自然に行えた
n デメリット
n 常に行動も含めた目標状態(ゴール)の設定が必要
• 記述が複雑になる可能性がある．
• 部分情報をゴールとするにはマルチゴールとして扱う必要がある
n 一般化状態による認知距離だけでは動作できない
• 環境モデル（環境モデル）が必須となる
37

認知距離学習器の説明

Recommended

Recommended

More Related Content

More from ドワンゴ人工知能研究所

More from ドワンゴ人工知能研究所 (6)