More Related Content Similar to Rindoku2020 (20) Rindoku20207. Machine Theory of Mind
• 心の理論をモデリングすることを目指し、他者のモデル化の方法を
学習するシステムを、この論文では”Machine Theory of Mind”と呼ぶ。
• 特に、限られたデータから自動的にモデリングする方法を学習する
ことに重きを置く。
• 先行研究では、前提となる行動モデルは人手で作っていて柔軟性がない。
• 提案手法ではよりスクラッチからの学習を行う。
8. 提案手法:Theory of Mind neural network
ToMnet
対象エージェントの
過去の試行における
行動履歴
対象エージェントの現在の
試行におけるこれまでの
行動履歴
現在の状態
対象エージェントの
行動モデルの埋め込
み表現
対象エージェントが
内部に持つ状態の
埋め込み表現
目的推論、行動予測
など
9. 実験設定
• 環境
• エージェントはグリッド上を動く
• 毎ステップ、上下左右とstayの5種類の行動を選択
• 4色あるゴールのいずれかを目指す。
• どの色を好むかはエージェントによって異なる
• いずれかのゴールを踏んだら試行終了
• 試行ごとにマップは異なる。
• バリエーション
• 視界制限やサブゴールの追加等
• ToMnetはエージェントの行動履歴から行動予測
や目的推論を行う。
19. 実験2:実験結果2
• 右図
• 行動モデルの埋め込み表現𝑒 𝑐ℎ𝑎𝑟を2次元ベクトルと
して再学習し、ランダムサンプリングした100つエー
ジェントの𝑒 𝑐ℎ𝑎𝑟を図示したもの。
• エージェントの目的色で色付け。ただし、𝑁𝑝𝑎𝑠𝑡 = 0か
ら得たデータは灰色。
• 考察
• エージェントの目的色で分離できている。
• 灰色の点は中心に置かれる。 𝑁𝑝𝑎𝑠𝑡 = 0のデータか
らは目的を判別できないため、色が交差する点に埋
め込まれるのは妥当。
• 結論として、𝑒 𝑐ℎ𝑎𝑟でエージェントを目的別に分離
し、目的推測を可能にしている
21. 実験3:実験設定1
• 以下の3種類のエージェントを設定
1. (blind) 視界が存在しないが記憶を保持することが出来る
2. (stateless) 自分を中心とする5×5の領域に視界が限られており、記憶を保
持できない
3. (statefull) 自分を中心とする5×5の領域に視界が限られており、記憶を保
持できる
• 「サブゴール」に先に到達してから好みのゴールへ行くと報酬を最大
化できるように環境を再設定
• エージェントは深層強化学習によって学習
• ToMnetには視界制限はかからない。エージェントの視界情報も与え
ない。=>視点の違いによる情報の差