LS for Reinforcement Learning

対称性推論によるポリシーの自己組織化と
強化学習への応用
Self-Organization of Policy by Symmetric Reasoning and
Application of Reinforcement Learning

東京電機大学大学院理工学研究科情報学専攻

10RMJ30 甲野佑

概要兼目次

強化学習の抱える問題
↓
人間の推論傾向対称性推論
↓
緩い対称性モデル( LS )と方策の自己組織化
↓
強化学習のためのLSの拡張
↓
実装の結果と結論

強化学習の抱える問題
↓
人間の推論傾向対称性推論
↓
緩い対称性モデル( LS )と方策の自己組織化
↓
強化学習のためのLSの拡張
↓
実装の結果と結論

実現のために現実が課す問題
強化学習，疎と密，正確さと速さのトレードオフ...

強化学習
報酬

エージェント環境

行動

エージェントと環境の相互作用により学習する
主体的に環境に行動しなければならないため
教師あり，なし学習と異なる(応用範囲が広い)

強化学習の問題
Goal line 例：Acrobot振り上げ課題
非線形なダイナミクスを持つ複雑
な物理制御課題．

・連続状態
・次元数が多い(次元の呪い)
・一試行で得られる情報が稀少

現実では学習中にアクチュエータ
の負荷が限界を迎えてしまう．

強化学習の問題
Goal line 例：Acrobot振り上げ課題
非線形なダイナミクスを持つ複雑
な物理制御課題．

・連続状態
・次元数が多い(次元の呪い)
・一試行で得られる情報が稀少

現実では学習中にアクチュエータ
の負荷が限界を迎えてしまう．

行動を決定するポリシー(方策)の問題？

トレードオフ
正速
確
ささ

考える決める

推論，判断，学習には
正確さと速さのトレードオフが存在する

トレードオフ
正速
確
ささ

考える決める

推論，判断，学習には
正確さと速さのトレードオフが存在する

人間は何らかのポリシーでトレードオフに対処している？

目的

人間の推論傾向に習ってトレードオフを考慮した
強化学習手法を新たに考案する

人の推論の中に潜む対称性
認知の偏り，対称性，相互排他性，論理と確率，真理値...

推論

与えられた前提から結論を導く
あるいは
得られた情報から結果を予測する事

推論

与えられた前提から結論を導く
あるいは
得られた情報から結果を予測する事

→人が行う対称性推論とそれに付随する諸性質に着目

対称性推論 -推論における対称性-

対称性：
推論における対称性の例として条件文を双条件的に解釈
する認知傾向が挙げられる．因果帰納に有効．


対称性推論のメリット：
・稀少な情報を相互に関連づけ知識利用を促す
・多くは一般的知識と合致(言語等)

対称性推論のデメリット：
・規範的論理学と食い違う
・強く働き過ぎると推論の妨げになる


対称性推論のメリット：
・稀少な情報を相互に関連づけ知識利用を促す
・多くは一般的知識と合致(言語等)

対称性推論のデメリット：
・規範的論理学と食い違う
・強く働き過ぎると推論の妨げになる

より広い範囲で扱うため論理から確率に拡張されている

対称性推論 -論理と確率-
論理確率
_ _ _ _
p→q が真ならば q→p も真 P(q|p) ≠ P(p|q)
(対偶と同値) (必ずしも等しくならない)

しかし論理と確率では多くの面で異なる
対称性の意味も論理と確率では異なるのでは？

論理確率
_ _ _ _
p→q が真ならば q→p も真 P(q|p) ≠ P(p|q)
(対偶と同値) (必ずしも等しくならない)

しかし論理と確率では多くの面で異なる
対称性の意味も論理と確率では異なるのでは？

→整理と再定義が必要


真理値

規範的な論理学：
前件が偽(C=F) → 命題は真(T)

対偶が同値

真理値


人間の感覚は？

対偶が同値

真理値


人間の感覚は？

→規範的な論理学に対する再考

奇数の裏は母音である(C→E)が真であると確かめるには？

7 A K 4

前件の肯定後件の肯定後件の否定前件の否定
(C=T) (E=T) (E=F) (C=F)

Wason選択課題：
どのカードをめくるべきかという非常に単純な課題
現実の様々な場面に見られる構造を持つ

奇数の裏は母音である(C→E)が真であると確かめるには？

7 A K 4

前件の肯定後件の肯定後件の否定前件の否定
(C=T) (E=T) (E=F) (C=F)

規範的
(対偶)

対称が同値

対称性

対称が同値

対称性

全て同値

相互排他性
(対偶&対称)

相互排他性は規範的に対偶を同値と見る性質と，
対称を同値と見る性質(対称性)を併せ持ち，
逆，裏，対偶，全て同値になる非常に強いバイアス


命題が真である確率：

完全対称モデルRSと一致



人は全てを同値に感じる？



人は全てを同値に感じる？

→緩く対称性，相互排他性を満たすLSに着目

自己組織化する緩い対称性
因果推論，意思決定，地の不変性，ポリシーの自己組織化...

Loosely Symmetric model

・対称性，相互排他性を緩く満たす
・因果帰納において人と相関が高い
・2本腕バンディット問題で良い成績
・地の不変性を持つ
...etc

因果帰納意思決定
(推論) (２本腕バンディット問題)
原因候補Cと結果Eの原因候補Cと結果Eの
因果的繫がりを推論因果的繫がりを推論

原因候補は選択不可原因候補は選択可

目的は因果を推論する事目的は報酬を多く得る事

LSはどちらにおいてもRSより優秀
篠原修二, 田口亮, 桂田浩一, 新田恒雄(2007) “因果性に基づく信念形成モデルと
N 本腕バンディット問題への適用”, 人工知能学会論文誌, 22, 1, 58–68.

要因Cの在，不在に関わらずバイアスの値が一定

Takahashi T., Nakano M., Shinohara S. (2010) “Cognitive symmetry: Illogical but
rational biases”, Symmetry: Culture and Science , 21, 1–3, 275–294 ．

要因Cの在，不在に関わらずバイアスの値が一定

視知覚における地の不変性によって正当化

Takahashi T., Nakano M., Shinohara S. (2010) “Cognitive symmetry: Illogical but
rational biases”, Symmetry: Culture and Science , 21, 1–3, 275–294 ．

・モンテカルロ法へ応用
大用庫智, 高橋達二 (2010) “因果帰納と意思決定を結ぶ緩い対称モデル”,
日本認知科学会第 27 回大会発表論文集, 799–800.

・教師あり学習へ応用
神谷匠, 高橋達二(2011) “緩い対称性による語彙学習バイアスの発現”,

・強化学習へ限定的に応用
Uragami D., Takahashi T., Alsubeheen H., Sekiguchi A. and Matsuo Y. (2011),
“The Efﬁcacy of Symmetric Cognitive Biases in Robotic Motion Learning”.
Proceedings of the IEEE ICMA2011 August 7–10, Beijing, China, pp. 410–415.

・モンテカルロ法へ応用
大用庫智, 高橋達二 (2010) “因果帰納と意思決定を結ぶ緩い対称モデル”,

・教師あり学習へ応用
神谷匠, 高橋達二(2011) “緩い対称性による語彙学習バイアスの発現”,

・強化学習へ限定的に応用
Uragami D., Takahashi T., Alsubeheen H., Sekiguchi A. and Matsuo Y. (2011),
“The Efﬁcacy of Symmetric Cognitive Biases in Robotic Motion Learning”.
Proceedings of the IEEE ICMA2011 August 7–10, Beijing, China, pp. 410–415.

いずれも有用であるという結果

？

？

・対称性，相互排他性を緩く満たす
・因果帰納において人と相関が高い
・2本腕バンディット問題で良い成績
・地の不変性を持つ
...etc

→ LSの考察と再定義

バイアス項と平均情報量

スケール制御項(平均情報量に近似)
p(1-p) & H
p(1−p) and H
0.25

p(1−p)

二項分布の分散と同じ
H
0.20

形を持つ．
0.15
f(p)
f(p)

Var(X)=np(1-p)
0.10
0.05

→不確実さの評価
0.00

p
0.0 0.2 0.4 0.6 0.8 1.0

p

確率の重み付き平均として書き換え：

Free scale ( frequency )
C1 C2
Calculate unobserved area ( Ground )
C1 Ground C2
Normalization
C1 Ground Ground C2
Normalized scale
地の項Groundとして未観測領域を推定(偶然の補正)

確率の重み付き平均として書き換え：

稀少対称性，相互排他性による補正

仮に要因Cに関する情報が稀少だとしても
対称性，相互排他性によって補正される

既知と未知
既知未知
定義：定義：
事象Cの観測割合 P(C)=1.0 事象Cの観測割合 P(C)=0.0

客観的な条件付確率に収束 0.5に収束

観測度合いによって情報の不確実性を自己で評価．

ポリシーの自己組織化
報酬

エージェント環境

行動
↑
行動はポリシー(方策)によって決定される
探索？報酬の最大化？
正確さと速さのトレードオフが存在

ε-greedy方策：
確率εでランダムに行動(探索)，確率(1.0 - ε)で学習した
価値関数に貪欲に行動(報酬の最大化)．確率εを用いてト
レードオフに対応．
→実際の学習ではεの初期値と減衰方法が問題になる

Softmax方策：
学習した価値関数とパラメータTからBoltzman分布に従
い，行動の確率分布を生成．分布に従い，乱数で行動を
決定する．確率分布を用いてトレードオフに対応．
→実際の学習ではTの初期値と減衰方法が問題になる


既知の行動C1, 未知の行動C2に対するLSの評価の交差



>

P(E|C1)が0.5より高ければ既知の行動C1を選択．

ポリシー：報酬の最大化



<

P(E|C1)が0.5より低ければ未知の行動C2を選択．

ポリシー：探索



参照点(ここでは0.5)に対する大小関係から
乱数を使わずトレードオフに対応

→定性的評価からポリシーを自己組織化している

UCB1 LS
P(E) P(E) P(E)
High Low High Low High Low
P(C1) P(C1)
P(C1) > P(C2) P(C1) > P(C2) P(C1) > P(C2)
P(E) > 0.5 P(E) < 0.5
C1を選ぶ傾向が強い C1を選ぶ傾向が強い C1を選ぶ傾向が強い
Enough
steps later
P(C1) ≒ P(C2) P(C1) ≒ P(C2) P(C1) ≒ P(C2) P(C1) ≒ P(C2)
観測報酬確率に従う P(E) > 0.5 P(E) ≒ 0.5 P(E) < 0.5
観測報酬確率に従う観測報酬確率に従う観測報酬確率に従う観測報酬確率に従う

P(C1) < P(C2) P(C1) < P(C2) P(C1) < P(C2)
P(E) > 0.5 P(E) < 0.5
C1を選ぶ傾向が強い C1を選ぶ傾向が強い C1を選ぶ傾向が強い
P(C2) P(C2)
C1を選ぶ P(C1)：C1の試行割合 P(C2)： C2の試行割合：収束状態候補 C1を選ぶ P(C1)：C1の試行割合 P(C2)： C2の試行割合：収束状態候補

C2を選ぶ P(E) ：報酬獲得割合：探索状態 C2を選ぶ P(E) ：報酬獲得割合：探索状態

単純な強化学習課題，2本腕バンディット問題において
環境の観測情報に対するポリシーの自己組織化を確認
→強化学習一般にも有用？

強化学習一般への拡張
参照点，N本腕バンディット問題，方策オン型学習...

強化学習への応用

必要事項：
・複数の要因への一般化
・参照点を任意に変更可能に
・方策オン型学習(Sarsa)への実装

複数要因における対称性

Cunknown C3

E

C1 C2

複数要因に対する対称性，相互排他性とは？


Cunknown C3

E G
C1 C2

観測情報から地の項Ground(G)を生成
地の不変性から地の項は全ての原因候補Cに対して一定


Cunknown C3

E G
C1 C2

着目事象Cと，地の項Gの間で対称性推論を行う
地の不変性は対称性の汎化に寄与している

複数要因への一般化

Cmax : 最も観測した原因候補
Cmin : 最も観測していない原因候補

Cmax とCmin の偏りで地の項を定義
観測度合いによって曖昧さの上限，下限を表現

複数要因への一般化
0.75

0.8
0.70

0.7
0.65
step/episode

step/episode
LS LS

0.6
CP CP
0.60

RS RS
UCB1

0.5
UCB1
LST
0.55

LST

0.4
0.50

0 100 200 300 400 500 0 100 200 300 400 500

episode episode

3本腕バンディット問題 6本腕バンディット問題

従来のトーナメント形式の一般化に対し
同等の成績のまま計算量は減少

強化学習への実装 -LSRL-

0.75
LSを方策オン型学習であるSarsaに

0.70
対して実装

0.65
step/episode
LS
CP
Q : 状態行動対の価値関数
0.60
UCB1
LSRL
τ : 状態行動対の観測度合い
0.55

Rc : 参照点(目標，空腹度)
0.50

0 100 200 300 400 500

episode

対称性は学習を早めたか？
Acrobot振り上げ課題，荒い離散化，適格度トレース，結論...

エージェント
方策オン型学習(Sarsa)で学習を行う．
・ε-greedy
・Softmax
・LS

適格度トレースはλ=0.0，0.9の二種類を用意．

LSの参照点 Rc (目標値)：
最も良いエピソードの総報酬／総ステップ数

エージェント
方策オン型学習(Sarsa)で学習を行う．
・ε-greedy
・Softmax
・LS

適格度トレースはλ=0.0，0.9の二種類を用意．

LSの参照点 Rc (目標値)：
最も良いエピソードの総報酬／総ステップ数
単純，直感的

Acrobot振り上げ課題
Tiling1
Goal line

Tiling2

Acrobot振り上げ課題 -結果-
1600

Sarsa(0.0)ε-gleedy
Sarsa(0.9)ε-greedy
Sarsa(0.0) softmax
Sarsa(0.9) softmax
1400

LSRL(0.0)
LSRL(0.9)
1200
step/episode

1000
800

0 100 200 300 400 500

episode

Acrobot振り上げ課題 -結果-
1600

Sarsa(0.0)ε-gleedy
Sarsa(0.9)ε-greedy
Sarsa(0.0) softmax
Sarsa(0.9) softmax
1400

LSRL(0.0)
LSRL(0.9)
1200
step/episode

1000

速く学習出来ている
800

0 100 200 300 400 500

episode

結論

・対称性推論は情報の汎化するため，稀少性，不確実性
を含む推論課題に有用

・対称性と地の不変性をポリシーの自己組織化を実現

・上記の性質は強化学習課題において有用

・参照点の与え方等の改良で更なる発展が望める

主な参考文献
• Hattori M., Oaksford M. (2007) “Adaptive non-interventional heuristics for covariation detection in causal induction:
Model comparison and rational analysis”, Cognitive Science, 31, 5, 765–814.
• 篠原修二, 田口亮, 桂田浩一, 新田恒雄(2007) “因果性に基づく信念形成モデルとN 本腕バンディット問題への適用”,
人工知能学会論文誌, 22, 1, 58–68.
• Takahashi T., Nakano M., Shinohara S. (2010) “Cognitive symmetry: Illogical but rational biases”, Symmetry: Culture
and Science , 21, 1–3, 275–294 ．
• 大用庫知識, 甲野佑, 高橋達二(2011), “非定常N 本腕バンディット問題に対する人間の認知バイアスの適用”, 2011 年
度人工知能学会全国大会2011 年度人工知能学会全国大会(第25 回) 予稿集, 1P2-12in.
• Tatsuji Takahashi，Kuratomo Oyo, Shuji Shinohara：“ A Loosely Symmetric Model ofCognition ”， Lecture Notes in
Computer Science， No. 5778， Springer， pp. 234–241(2011)．
• Uragami D., Takahashi T., Alsubeheen H., Sekiguchi A. and Matsuo Y. (2011), “The Efﬁcacy of Symmetric Cognitive
Biases in Robotic Motion Learning”. Proceedings of the IEEE ICMA2011 August 7–10, Beijing, China, pp. 410–415.
• 日本認知心理学会(監修), 楠見孝(編).『現代の認知心理学第3 巻思考と言語』, 2–29. 北大路書房. 2010 年7 月刊行.
• Takahashi T., Oyo K., Shinohara S. (2011) “A Loosely Symmetric Model of Cognition”,Lecture Notes in Computer
Science, 5778, 234–241．
• Takahashi, T., Nakano, M., Shinohara, S. (2010) “Cognitive symmetry: Illogical but rational biases,” Symmetry:
Culture and Science , Vol. 21, No. 1-3, pp. 275–294.
• Hattori,M. ＆ Oaksford,M. (2007) Adaptive non-interval heuristics for covariation detection in causal induction: Model
comparison and rational analysis. Cognitive Science, 31,765-814.
• Sutton, R. S., Barto, A. G. (2000) 強化学習. 森北出版. (三上, 皆川訳)
• Sutton, R. S. (1996) Generalization in Reinforcement Learning: Successful Examples Using Sparse Coarse Coding,
Advances in Neural Information Processing Systems 8, pp. 1038-1044, MIT Press, 1996.

ご清聴ありがとうございました
Thank you for your kind attention.

LS for Reinforcement Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (10)

Similar to LS for Reinforcement Learning

Similar to LS for Reinforcement Learning (20)

LS for Reinforcement Learning

Editor's Notes