SlideShare a Scribd company logo
1 of 32
Machine Theory of Mind
鳥海研究室 輪読会2020資料
武田 惇史
論文情報
• 論文pdf
• https://arxiv.org/pdf/1802.07740.pdf
• 会議
• ICML(International Conference on Machine Learning), 2018
• https://icml.cc/Conferences/2018/ScheduleMultitrack?event=2159
• 著者
概要
• メタ学習を行うDLモデル、ToMnetを提案。
• Grid World上で何らかの目的をもって行動するエージェントの
目的推論と行動予測というタスクを設定。
• 計算実験によってToMnetの性能を示す。
• 特に、心の理論の分野で有名なサリー・アン課題を模したものに合格し、
誤信念を理解するレベルにあることを示す。
心の理論(Theory of mind)
• 心理学の用語
• 他者の心の状態や目的、知識、志向、推論を推論する心の機能
• 人間や一部の霊長類のみが持つとされる。
サリー・アン課題
• 心の理論を持っているか診断するため
に使われる心理検査
• 「サリーが左のかごにボールを入れて
退出。アンが右の箱にボールを移す。
戻ってきたサリーはどこを探すか。」
• サリーは右の箱にボールが移された
ことを知らないので、左のかごにあると
考える=誤信念
• 自分とサリーの知る情報の違いを理解
しないと正解できない
他者のモデリングに関する先行研究
• 逆強化学習
• エキスパートの行動列から目的関数を学習する。
• 今回行いたいメタ学習は、目的だけでなく解き方も学習する点で異なる。
• Bayesian Theory of Mind
• ベイズ推定を人の行動モデルに適用することで、他者の行動を予測する手
法。前提となる行動モデル自体は人手で決める。
Machine Theory of Mind
• 心の理論をモデリングすることを目指し、他者のモデル化の方法を
学習するシステムを、この論文では”Machine Theory of Mind”と呼ぶ。
• 特に、限られたデータから自動的にモデリングする方法を学習する
ことに重きを置く。
• 先行研究では、前提となる行動モデルは人手で作っていて柔軟性がない。
• 提案手法ではよりスクラッチからの学習を行う。
提案手法:Theory of Mind neural network
ToMnet
対象エージェントの
過去の試行における
行動履歴
対象エージェントの現在の
試行におけるこれまでの
行動履歴
現在の状態
対象エージェントの
行動モデルの埋め込
み表現
対象エージェントが
内部に持つ状態の
埋め込み表現
目的推論、行動予測
など
実験設定
• 環境
• エージェントはグリッド上を動く
• 毎ステップ、上下左右とstayの5種類の行動を選択
• 4色あるゴールのいずれかを目指す。
• どの色を好むかはエージェントによって異なる
• いずれかのゴールを踏んだら試行終了
• 試行ごとにマップは異なる。
• バリエーション
• 視界制限やサブゴールの追加等
• ToMnetはエージェントの行動履歴から行動予測
や目的推論を行う。
実験概要(実験1~2)
• 実験1
• エージェントはランダムに行動。エージェントの行動の確率分布を厳密計算
可能なようにモデリング。ToMnetの学習結果と厳密計算の結果を比較。
• 実験2
• 特定の色に向かうエージェントと最寄りのゴールに向かうエージェントを使用。
エージェントの目的を推論し、行動予測できるか確認。
実験概要(実験3~5)
• 実験3
• エージェントに視界と記憶の概念を追加。エージェントが何を知っているかを
推し量る能力を確認。
• 実験4
• さらにゴールマスのシャッフルをギミックとして追加。サリー・アン課題に合格
できるか確認。
• 実験5
• さらに、誤信念を理解しているかをより直接的に確認するため、エージェント
のゴールマス位置推定の結果を推定させる。
実験1:実験設定
• エージェントは一定の確率分布に従って5種類の行動からランダム
に選んで行動。確率分布は対称ディレクレ分布𝐷𝐼𝑅(𝛼)からサンプリ
ングされる。𝛼が大きいほど偏りが小さくなる。
• この設定において、ゴールや現在位置の情報はあまり意味がない
点に注意。
• ベイズ推定により厳密な行動の事後分布が計算可能。
実験1:入出力例
• 𝑁𝑝𝑎𝑠𝑡(過去の試
行から何ステップ
分の行動履歴が
入力として与えら
れるか)が2の例。
実験1:入出力例
• (a)過去のこのエージェントは左左と動い
ていた。
• (c)もし行動が偏ったエージェントが多い
環境で学習した場合(𝛼 = 0.01) 、現在に
おいても左と動く確率が高いと推定され、
そうでなければ(𝛼 = 3)、それよりも均等
に行動が選ばれると推定される。
実験1:実験結果
• 訓練環境のαとテスト環境のαを変化させたとき、実際のエージェント
の行動の確率分布と予測された分布のKLダイバージェンスを示した。
• 点が計算実験の結果で実線が理論解を示す。
• 左は𝑁𝑝𝑎𝑠𝑡 = 1、右は𝑁𝑝𝑎𝑠𝑡 = 5を表す。
• ToMnetはほぼ理論解を出力
実験2:実験設定
• 特定の色に向かうエージェント(4種)を使用。
• エージェントがどの色に向かうか、どのような経路を取るかも
予測させる。
• ToMnetのchar netにエージェントの目的を推測する能力があることを
確認する
実験2:入出力例
• 入力
• (a)対象エージェントの過去の行動履歴
• (b)現在の状態
• 出力
• (c↑):直後の行動の確率分布の推定
• (c↓):目的色の確率分布の推定
• (d)今後の行動の軌跡の推定
実験2:実験結果1
• (b) 𝑁𝑝𝑎𝑠𝑡を大きくすると、すなわち開示する過
去のデータを増やすと、行動予測の精度が
向上する
• (c) 目標色がピンクのエージェントの行動を予
測したもの。 𝑁𝑝𝑎𝑠𝑡が大きくなるにつれてより
明確に矢印がピンクへ向かっている
実験2:実験結果2
• 右図
• 行動モデルの埋め込み表現𝑒 𝑐ℎ𝑎𝑟を2次元ベクトルと
して再学習し、ランダムサンプリングした100つエー
ジェントの𝑒 𝑐ℎ𝑎𝑟を図示したもの。
• エージェントの目的色で色付け。ただし、𝑁𝑝𝑎𝑠𝑡 = 0か
ら得たデータは灰色。
• 考察
• エージェントの目的色で分離できている。
• 灰色の点は中心に置かれる。 𝑁𝑝𝑎𝑠𝑡 = 0のデータか
らは目的を判別できないため、色が交差する点に埋
め込まれるのは妥当。
• 結論として、𝑒 𝑐ℎ𝑎𝑟でエージェントを目的別に分離
し、目的推測を可能にしている
実験2:追加実験
• 最寄りのゴールへ向かうエージェントを追加して実験
• エージェントの過去の行動を観測したうえ、今の環境でエージェントが度の色へ
向かうかを初期位置ごとに色分け
• (a)最寄りの青を無視し橙へ行ったのでこのエージェントはどの位置からでも橙
へ行くと予測
• (b)メインは緑だが、各色の近くではそこへ向かうと予測
実験3:実験設定1
• 以下の3種類のエージェントを設定
1. (blind) 視界が存在しないが記憶を保持することが出来る
2. (stateless) 自分を中心とする5×5の領域に視界が限られており、記憶を保
持できない
3. (statefull) 自分を中心とする5×5の領域に視界が限られており、記憶を保
持できる
• 「サブゴール」に先に到達してから好みのゴールへ行くと報酬を最大
化できるように環境を再設定
• エージェントは深層強化学習によって学習
• ToMnetには視界制限はかからない。エージェントの視界情報も与え
ない。=>視点の違いによる情報の差
実験3:実験設定2
• 今まではmental netの部分は使っていなかったが、今回から使用
現在の試行におけるこれまでの全ステップに
おける盤面状況を時系列データとして入力
CNN+LSTMなDLモデル
実験3:実験結果1(推論精度)
• (a)char netのみ、mental netのみ、両
方における推論の精度(交差エントロ
ピー誤差)
• 直後行動予測、目的推定、行動の軌
跡予測のすべてにおいて両方使った
方が良い結果
• char netもmental netも機能している
実験3:実験結果2
• (b)
• ToMnetによる行動軌跡予測の一例。目的色はピンク。𝑁𝑝𝑎𝑠𝑡 = 5
• 星印はサブゴールを表す。current stateでは𝑡 = 0。
• 考察
• どの種類のエージェントかを分別できている。
• 特にstatefullは☆を見つけてピンクへ到達するところまで
予測できてる。
実験3:実験結果3.1
• 実験2同様、𝑒 𝑐ℎ𝑎𝑟を2次元にして可視化したい。
• 実験3の場合、2次元にすると性能が悪くなりすぎる。
→Deep Variational Information Bottleneckという次元削減のテクニックを使用
• 結果として、2次元はエージェントの種類を(下図←) 、もう2次元は
エージェントの目標色を表現するようになった(下図→) 。
実験3:実験結果3.2
• さらに、statelessなエージェントは
2種類に分けられることが判明した。
• それぞれのクラスタの中心にいるエー
ジェントに対しToMnetで行動予測させ
たところ、右回りと左回りという2種類
に対応していた。
実験4:実験設定1
• エージェントがサブゴールに到達した瞬間、低確率(10%)でゴール
の色がシャッフルするように
• ToMnetに視界制限はないのでシャッフルを必ず観測できる。
• もしエージェントが一度視界内に観測した目標色のゴールが視界外
で交換されたら…
→サリー・アンテストの再現
実験4:実験設定2
• 目標色が青の場合で例示
• (a)これまでの行動履歴
• (b)現在の状態
• (c)行動確率分布
• (d)200回シミュレーションした
時の行動の軌跡
実験4:実験結果
• (a)手で作ったマップで実験。
サブゴールと目標色の距離を
変える。
• (b←)サブゴールと目標色の
距離が2以下ならシャッフルに
気づくはず。そうでないとき気
づかず左へ動いてしまう。
• (b→) ToMnetはそれを分かっ
ている。
→誤信念を理解している 縦軸:
1 −
シャッフル発生時に最適な方向に移動する確率
シャッフル非発生時に最適な方向に移動する確率
実験5:実験設定
• 誤信念を理解していることをより直接的に確かめる。
• エージェントに行動選択をさせながらゴールの位置を推定させるタス
クも同時に解かせる。
• さらに、ToMnetにエージェントがゴールの位置をどう推定したかを推
定する出力ヘッドを追加。
• エージェントの視界の種類を1 × 1, 3 × 3, ⋯ , 9 × 9まで増やした。
実験5:実験結果1
• (a)視界内にゴールマスが存在する場
合はシャッフルに気づくのでゴール予
測は変化するが、どうでないときは気
づかない。
• (b)ToMnetの推測もそのようになって
おり、観測しているエージェントは視界
によって情報が制限されていることを
理解している。
結論
• 他者の信念や方策を学習するDLモデルToMnetを提案
• 計算実験により以下が可能なことを示した
• 過去の試行の一部という少ないデータからエージェントの志向を理解
• 現在の試行における履歴からエージェントの内部状態を理解
• 上二つの情報からエージェントの行動予測
• 特に、心の理論の分野で有名なサリー・アンテストを模した実験を行
うことで、誤信念を理解するレベルにあることを示した

More Related Content

Similar to Rindoku2020

高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)Tsukasa Makino
 
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作りHajime Fujita
 
Usage-Driven Database Design Chapter4
Usage-Driven Database Design Chapter4Usage-Driven Database Design Chapter4
Usage-Driven Database Design Chapter4OsakiKota
 
第1回 モデリング勉強会
第1回 モデリング勉強会第1回 モデリング勉強会
第1回 モデリング勉強会hakoika-itwg
 
SORACOM Technology Camp 2018 ベーシックトラック1 | 事例で整理!IoTソリューションの開発/導入検討の進め方
SORACOM Technology Camp 2018 ベーシックトラック1 | 事例で整理!IoTソリューションの開発/導入検討の進め方SORACOM Technology Camp 2018 ベーシックトラック1 | 事例で整理!IoTソリューションの開発/導入検討の進め方
SORACOM Technology Camp 2018 ベーシックトラック1 | 事例で整理!IoTソリューションの開発/導入検討の進め方SORACOM,INC
 
大規模並列実験を支えるクラウドサービスと基盤技術
大規模並列実験を支えるクラウドサービスと基盤技術大規模並列実験を支えるクラウドサービスと基盤技術
大規模並列実験を支えるクラウドサービスと基盤技術RyuichiKanoh
 
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))HironoriTAKEUCHI1
 
(Draft) lambda architecture by using TreasureData
(Draft) lambda architecture by using TreasureData(Draft) lambda architecture by using TreasureData
(Draft) lambda architecture by using TreasureDataToru Takahashi
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展Recruit Technologies
 
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptxチームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptxRakuten Commerce Tech (Rakuten Group, Inc.)
 
全部見せます、データサイエンティストの仕事
全部見せます、データサイエンティストの仕事全部見せます、データサイエンティストの仕事
全部見せます、データサイエンティストの仕事Shunsuke Nakamura
 
なぜコンピュータを学ばなければならないのか 21世紀の君主論
なぜコンピュータを学ばなければならないのか 21世紀の君主論なぜコンピュータを学ばなければならないのか 21世紀の君主論
なぜコンピュータを学ばなければならないのか 21世紀の君主論Tokoroten Nakayama
 
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けてHironori Washizaki
 
なぜ数学と理系人材がビジネスの現場で必要とされるのか
なぜ数学と理系人材がビジネスの現場で必要とされるのかなぜ数学と理系人材がビジネスの現場で必要とされるのか
なぜ数学と理系人材がビジネスの現場で必要とされるのかHirofumi Ikeda
 
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能Daiyu Hatakeyama
 
ChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くないChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くないCarnot Inc.
 
110518_本気で考える! I T人財育成研究部会 討議資料
110518_本気で考える! I T人財育成研究部会 討議資料110518_本気で考える! I T人財育成研究部会 討議資料
110518_本気で考える! I T人財育成研究部会 討議資料kashima yasuyuki
 
20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事Shunsuke Nakamura
 

Similar to Rindoku2020 (20)

高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
高度Ict利活用人材育成推進会議プレゼン(1124) final(改)
 
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
 
Usage-Driven Database Design Chapter4
Usage-Driven Database Design Chapter4Usage-Driven Database Design Chapter4
Usage-Driven Database Design Chapter4
 
第1回 モデリング勉強会
第1回 モデリング勉強会第1回 モデリング勉強会
第1回 モデリング勉強会
 
SORACOM Technology Camp 2018 ベーシックトラック1 | 事例で整理!IoTソリューションの開発/導入検討の進め方
SORACOM Technology Camp 2018 ベーシックトラック1 | 事例で整理!IoTソリューションの開発/導入検討の進め方SORACOM Technology Camp 2018 ベーシックトラック1 | 事例で整理!IoTソリューションの開発/導入検討の進め方
SORACOM Technology Camp 2018 ベーシックトラック1 | 事例で整理!IoTソリューションの開発/導入検討の進め方
 
【de:code 2020】 AutoML ではじめる機械学習の民主化
【de:code 2020】 AutoML ではじめる機械学習の民主化【de:code 2020】 AutoML ではじめる機械学習の民主化
【de:code 2020】 AutoML ではじめる機械学習の民主化
 
大規模並列実験を支えるクラウドサービスと基盤技術
大規模並列実験を支えるクラウドサービスと基盤技術大規模並列実験を支えるクラウドサービスと基盤技術
大規模並列実験を支えるクラウドサービスと基盤技術
 
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))
 
(Draft) lambda architecture by using TreasureData
(Draft) lambda architecture by using TreasureData(Draft) lambda architecture by using TreasureData
(Draft) lambda architecture by using TreasureData
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
概念モデリング再考
概念モデリング再考概念モデリング再考
概念モデリング再考
 
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptxチームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
チームトポロジーから学び、 データプラットフォーム組織を考え直した話.pptx
 
全部見せます、データサイエンティストの仕事
全部見せます、データサイエンティストの仕事全部見せます、データサイエンティストの仕事
全部見せます、データサイエンティストの仕事
 
なぜコンピュータを学ばなければならないのか 21世紀の君主論
なぜコンピュータを学ばなければならないのか 21世紀の君主論なぜコンピュータを学ばなければならないのか 21世紀の君主論
なぜコンピュータを学ばなければならないのか 21世紀の君主論
 
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
 
なぜ数学と理系人材がビジネスの現場で必要とされるのか
なぜ数学と理系人材がビジネスの現場で必要とされるのかなぜ数学と理系人材がビジネスの現場で必要とされるのか
なぜ数学と理系人材がビジネスの現場で必要とされるのか
 
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
 
ChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くないChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くない
 
110518_本気で考える! I T人財育成研究部会 討議資料
110518_本気で考える! I T人財育成研究部会 討議資料110518_本気で考える! I T人財育成研究部会 討議資料
110518_本気で考える! I T人財育成研究部会 討議資料
 
20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事20180807_全部見せます、データサイエンティストの仕事
20180807_全部見せます、データサイエンティストの仕事
 

Rindoku2020