More Related Content
PDF
明日使えるかもしれないLoss Functionsのアイディアと実装 [GO株式会社 AI技術共有会資料] PDF
【CVPR 2020 メタサーベイ】Neural Generative Models PPTX
シロクマ本に学ぶエクスペリエンスのための手技法 by 篠原 稔和 - presentation from IA CAMP 2015 PDF
PDF
デキるWebデザイナーを目指せ!本当に現場で使えるCC活用テクニック PDF
PDF
えっ今日はハッキングしてもいいのか?(CTF Web入門) PPTX
What's hot
PPTX
なぜコンピュータを学ばなければならないのか 21世紀の君主論 PDF
「のどが渇いた」というユーザーに何を出す? ユーザーの「欲しい」に惑わされない、本当のインサイトを見つけるUXデザイン・UXリサーチ PDF
45分間で「ユーザー中心のものづくり」ができるまで詰め込む PDF
Lie-Trotter-Suzuki分解、特にフラクタル分解について PDF
Jubatus Casual Talks #2 異常検知入門 PDF
PDF
PDF
Trans- und Posthumanismus PDF
PPTX
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】 PDF
PPTX
PDF
PDF
準同型暗号の実装とMontgomery, Karatsuba, FFT の性能 PDF
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版 PDF
PDF
PPT
PPTX
PDF
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会 Recently uploaded
PDF
krsk_aws_re-growth_aws_devops_agent_20251211 PDF
ソフトウェアエンジニアがクルマのコアを創る!? モビリティの価値を最大化するソフトウェア開発の最前線【DENSO Tech Night 第一夜】 PDF
ソフトとハードの二刀流で実現する先進安全・自動運転のアルゴリズム開発【DENSO Tech Night 第二夜】 ー高精度な画像解析 / AI推論モデル ... PDF
2025/12/12 AutoDevNinjaピッチ資料 - 大人な男のAuto Dev環境 PDF
音楽アーティスト探索体験に特化した音楽ディスカバリーWebサービス「DigLoop」|Created byヨハク技研 PPTX
君をむしばむこの力で_最終発表-1-Monthon2025最終発表用資料-.pptx Rindoku2020
- 1.
- 2.
- 3.
- 4.
- 5.
- 6.
- 7.
Machine Theory ofMind
• 心の理論をモデリングすることを目指し、他者のモデル化の方法を
学習するシステムを、この論文では”Machine Theory of Mind”と呼ぶ。
• 特に、限られたデータから自動的にモデリングする方法を学習する
ことに重きを置く。
• 先行研究では、前提となる行動モデルは人手で作っていて柔軟性がない。
• 提案手法ではよりスクラッチからの学習を行う。
- 8.
提案手法:Theory of Mindneural network
ToMnet
対象エージェントの
過去の試行における
行動履歴
対象エージェントの現在の
試行におけるこれまでの
行動履歴
現在の状態
対象エージェントの
行動モデルの埋め込
み表現
対象エージェントが
内部に持つ状態の
埋め込み表現
目的推論、行動予測
など
- 9.
実験設定
• 環境
• エージェントはグリッド上を動く
•毎ステップ、上下左右とstayの5種類の行動を選択
• 4色あるゴールのいずれかを目指す。
• どの色を好むかはエージェントによって異なる
• いずれかのゴールを踏んだら試行終了
• 試行ごとにマップは異なる。
• バリエーション
• 視界制限やサブゴールの追加等
• ToMnetはエージェントの行動履歴から行動予測
や目的推論を行う。
- 10.
- 11.
- 12.
- 13.
- 14.
- 15.
- 16.
- 17.
- 18.
- 19.
実験2:実験結果2
• 右図
• 行動モデルの埋め込み表現𝑒𝑐ℎ𝑎𝑟を2次元ベクトルと
して再学習し、ランダムサンプリングした100つエー
ジェントの𝑒 𝑐ℎ𝑎𝑟を図示したもの。
• エージェントの目的色で色付け。ただし、𝑁𝑝𝑎𝑠𝑡 = 0か
ら得たデータは灰色。
• 考察
• エージェントの目的色で分離できている。
• 灰色の点は中心に置かれる。 𝑁𝑝𝑎𝑠𝑡 = 0のデータか
らは目的を判別できないため、色が交差する点に埋
め込まれるのは妥当。
• 結論として、𝑒 𝑐ℎ𝑎𝑟でエージェントを目的別に分離
し、目的推測を可能にしている
- 20.
- 21.
実験3:実験設定1
• 以下の3種類のエージェントを設定
1. (blind)視界が存在しないが記憶を保持することが出来る
2. (stateless) 自分を中心とする5×5の領域に視界が限られており、記憶を保
持できない
3. (statefull) 自分を中心とする5×5の領域に視界が限られており、記憶を保
持できる
• 「サブゴール」に先に到達してから好みのゴールへ行くと報酬を最大
化できるように環境を再設定
• エージェントは深層強化学習によって学習
• ToMnetには視界制限はかからない。エージェントの視界情報も与え
ない。=>視点の違いによる情報の差
- 22.
- 23.
- 24.
- 25.
- 26.
- 27.
- 28.
- 29.
- 30.
- 31.
- 32.