Rindoku2020

Machine Theory of Mind
鳥海研究室輪読会2020資料
武田惇史

論文情報
• 論文pdf
• https://arxiv.org/pdf/1802.07740.pdf
• 会議
• ICML（International Conference on Machine Learning）, 2018
• https://icml.cc/Conferences/2018/ScheduleMultitrack?event=2159
• 著者

概要
• メタ学習を行うDLモデル、ToMnetを提案。
• Grid World上で何らかの目的をもって行動するエージェントの
目的推論と行動予測というタスクを設定。
• 計算実験によってToMnetの性能を示す。
• 特に、心の理論の分野で有名なサリー・アン課題を模したものに合格し、
誤信念を理解するレベルにあることを示す。

心の理論(Theory of mind)
• 心理学の用語
• 他者の心の状態や目的、知識、志向、推論を推論する心の機能
• 人間や一部の霊長類のみが持つとされる。

サリー・アン課題
• 心の理論を持っているか診断するため
に使われる心理検査
• 「サリーが左のかごにボールを入れて
退出。アンが右の箱にボールを移す。
戻ってきたサリーはどこを探すか。」
• サリーは右の箱にボールが移された
ことを知らないので、左のかごにあると
考える＝誤信念
• 自分とサリーの知る情報の違いを理解
しないと正解できない

他者のモデリングに関する先行研究
• 逆強化学習
• エキスパートの行動列から目的関数を学習する。
• 今回行いたいメタ学習は、目的だけでなく解き方も学習する点で異なる。
• Bayesian Theory of Mind
• ベイズ推定を人の行動モデルに適用することで、他者の行動を予測する手
法。前提となる行動モデル自体は人手で決める。

Machine Theory of Mind
• 心の理論をモデリングすることを目指し、他者のモデル化の方法を
学習するシステムを、この論文では”Machine Theory of Mind”と呼ぶ。
• 特に、限られたデータから自動的にモデリングする方法を学習する
ことに重きを置く。
• 先行研究では、前提となる行動モデルは人手で作っていて柔軟性がない。
• 提案手法ではよりスクラッチからの学習を行う。

提案手法：Theory of Mind neural network
ToMnet
対象エージェントの
過去の試行における
行動履歴
対象エージェントの現在の
試行におけるこれまでの
行動履歴
現在の状態
対象エージェントの
行動モデルの埋め込
み表現
対象エージェントが
内部に持つ状態の
埋め込み表現
目的推論、行動予測
など

実験設定
• 環境
• エージェントはグリッド上を動く
• 毎ステップ、上下左右とstayの5種類の行動を選択
• 4色あるゴールのいずれかを目指す。
• どの色を好むかはエージェントによって異なる
• いずれかのゴールを踏んだら試行終了
• 試行ごとにマップは異なる。
• バリエーション
• 視界制限やサブゴールの追加等
• ToMnetはエージェントの行動履歴から行動予測
や目的推論を行う。

実験概要（実験1~2）
• 実験1
• エージェントはランダムに行動。エージェントの行動の確率分布を厳密計算
可能なようにモデリング。ToMnetの学習結果と厳密計算の結果を比較。
• 実験2
• 特定の色に向かうエージェントと最寄りのゴールに向かうエージェントを使用。
エージェントの目的を推論し、行動予測できるか確認。

実験概要（実験3~5）
• 実験3
• エージェントに視界と記憶の概念を追加。エージェントが何を知っているかを
推し量る能力を確認。
• 実験4
• さらにゴールマスのシャッフルをギミックとして追加。サリー・アン課題に合格
できるか確認。
• 実験5
• さらに、誤信念を理解しているかをより直接的に確認するため、エージェント
のゴールマス位置推定の結果を推定させる。

実験1：実験設定
• エージェントは一定の確率分布に従って5種類の行動からランダム
に選んで行動。確率分布は対称ディレクレ分布𝐷𝐼𝑅(𝛼)からサンプリ
ングされる。𝛼が大きいほど偏りが小さくなる。
• この設定において、ゴールや現在位置の情報はあまり意味がない
点に注意。
• ベイズ推定により厳密な行動の事後分布が計算可能。

実験1：入出力例
• 𝑁𝑝𝑎𝑠𝑡（過去の試
行から何ステップ
分の行動履歴が
入力として与えら
れるか）が2の例。

• (a)過去のこのエージェントは左左と動い
ていた。
• (c)もし行動が偏ったエージェントが多い
環境で学習した場合(𝛼 = 0.01) 、現在に
おいても左と動く確率が高いと推定され、
そうでなければ(𝛼 = 3)、それよりも均等
に行動が選ばれると推定される。

実験1：実験結果
• 訓練環境のαとテスト環境のαを変化させたとき、実際のエージェント
の行動の確率分布と予測された分布のKLダイバージェンスを示した。
• 点が計算実験の結果で実線が理論解を示す。
• 左は𝑁𝑝𝑎𝑠𝑡 = 1、右は𝑁𝑝𝑎𝑠𝑡 = 5を表す。
• ToMnetはほぼ理論解を出力

• 特定の色に向かうエージェント（4種）を使用。
• エージェントがどの色に向かうか、どのような経路を取るかも
予測させる。
• ToMnetのchar netにエージェントの目的を推測する能力があることを
確認する

• 入力
• (a)対象エージェントの過去の行動履歴
• (b)現在の状態
• 出力
• (c↑)：直後の行動の確率分布の推定
• (c↓)：目的色の確率分布の推定
• (d)今後の行動の軌跡の推定

実験2：実験結果1
• (b) 𝑁𝑝𝑎𝑠𝑡を大きくすると、すなわち開示する過
去のデータを増やすと、行動予測の精度が
向上する
• (c) 目標色がピンクのエージェントの行動を予
測したもの。 𝑁𝑝𝑎𝑠𝑡が大きくなるにつれてより
明確に矢印がピンクへ向かっている

• 右図
• 行動モデルの埋め込み表現𝑒 𝑐ℎ𝑎𝑟を2次元ベクトルと
して再学習し、ランダムサンプリングした100つエー
ジェントの𝑒 𝑐ℎ𝑎𝑟を図示したもの。
• エージェントの目的色で色付け。ただし、𝑁𝑝𝑎𝑠𝑡 = 0か
ら得たデータは灰色。
• 考察
• エージェントの目的色で分離できている。
• 灰色の点は中心に置かれる。 𝑁𝑝𝑎𝑠𝑡 = 0のデータか
らは目的を判別できないため、色が交差する点に埋
め込まれるのは妥当。
• 結論として、𝑒 𝑐ℎ𝑎𝑟でエージェントを目的別に分離
し、目的推測を可能にしている

実験2：追加実験
• 最寄りのゴールへ向かうエージェントを追加して実験
• エージェントの過去の行動を観測したうえ、今の環境でエージェントが度の色へ
向かうかを初期位置ごとに色分け
• (a)最寄りの青を無視し橙へ行ったのでこのエージェントはどの位置からでも橙
へ行くと予測
• (b)メインは緑だが、各色の近くではそこへ向かうと予測

実験3：実験設定1
• 以下の3種類のエージェントを設定
1. (blind) 視界が存在しないが記憶を保持することが出来る
2. (stateless) 自分を中心とする5×5の領域に視界が限られており、記憶を保
持できない
3. (statefull) 自分を中心とする5×5の領域に視界が限られており、記憶を保
持できる
• 「サブゴール」に先に到達してから好みのゴールへ行くと報酬を最大
化できるように環境を再設定
• エージェントは深層強化学習によって学習
• ToMnetには視界制限はかからない。エージェントの視界情報も与え
ない。＝＞視点の違いによる情報の差

• 今まではmental netの部分は使っていなかったが、今回から使用
現在の試行におけるこれまでの全ステップに
おける盤面状況を時系列データとして入力
CNN+LSTMなDLモデル

実験3：実験結果1(推論精度)
• (a)char netのみ、mental netのみ、両
方における推論の精度（交差エントロ
ピー誤差）
• 直後行動予測、目的推定、行動の軌
跡予測のすべてにおいて両方使った
方が良い結果
• char netもmental netも機能している

• (b)
• ToMnetによる行動軌跡予測の一例。目的色はピンク。𝑁𝑝𝑎𝑠𝑡 = 5
• 星印はサブゴールを表す。current stateでは𝑡 = 0。
• 考察
• どの種類のエージェントかを分別できている。
• 特にstatefullは☆を見つけてピンクへ到達するところまで
予測できてる。

実験3：実験結果3.1
• 実験2同様、𝑒 𝑐ℎ𝑎𝑟を2次元にして可視化したい。
• 実験3の場合、2次元にすると性能が悪くなりすぎる。
→Deep Variational Information Bottleneckという次元削減のテクニックを使用
• 結果として、2次元はエージェントの種類を（下図←）、もう2次元は
エージェントの目標色を表現するようになった（下図→）。

実験3：実験結果3.2
• さらに、statelessなエージェントは
2種類に分けられることが判明した。
• それぞれのクラスタの中心にいるエー
ジェントに対しToMnetで行動予測させ
たところ、右回りと左回りという2種類
に対応していた。

• エージェントがサブゴールに到達した瞬間、低確率（10%）でゴール
の色がシャッフルするように
• ToMnetに視界制限はないのでシャッフルを必ず観測できる。
• もしエージェントが一度視界内に観測した目標色のゴールが視界外
で交換されたら…
→サリー・アンテストの再現

• 目標色が青の場合で例示
• (a)これまでの行動履歴
• (b)現在の状態
• (c)行動確率分布
• (d)200回シミュレーションした
時の行動の軌跡

実験4：実験結果
• (a)手で作ったマップで実験。
サブゴールと目標色の距離を
変える。
• (b←)サブゴールと目標色の
距離が2以下ならシャッフルに
気づくはず。そうでないとき気
づかず左へ動いてしまう。
• (b→) ToMnetはそれを分かっ
ている。
→誤信念を理解している縦軸：
1 −
シャッフル発生時に最適な方向に移動する確率
シャッフル非発生時に最適な方向に移動する確率

• 誤信念を理解していることをより直接的に確かめる。
• エージェントに行動選択をさせながらゴールの位置を推定させるタス
クも同時に解かせる。
• さらに、ToMnetにエージェントがゴールの位置をどう推定したかを推
定する出力ヘッドを追加。
• エージェントの視界の種類を1 × 1, 3 × 3, ⋯ , 9 × 9まで増やした。

• (a)視界内にゴールマスが存在する場
合はシャッフルに気づくのでゴール予
測は変化するが、どうでないときは気
づかない。
• (b)ToMnetの推測もそのようになって
おり、観測しているエージェントは視界
によって情報が制限されていることを
理解している。

結論
• 他者の信念や方策を学習するDLモデルToMnetを提案
• 計算実験により以下が可能なことを示した
• 過去の試行の一部という少ないデータからエージェントの志向を理解
• 現在の試行における履歴からエージェントの内部状態を理解
• 上二つの情報からエージェントの行動予測
• 特に、心の理論の分野で有名なサリー・アンテストを模した実験を行
うことで、誤信念を理解するレベルにあることを示した

Rindoku2020

Recommended

Recommended

More Related Content

Similar to Rindoku2020

Similar to Rindoku2020 (20)

Rindoku2020