Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
DL Hacks輪読
Multi-Agent Cooperation and the Emergence of
(Natural) Language
2017/03/31
黒滝 紘生
書誌情報
- Multi-Agent Cooperation and the Emergence of (Natural) Language
- Angeliki Lazaridou, Alexander Peysakhovich, Marco...
概要
- マルチエージェント間の対話によって,言語を習得させる枠組みを提案した
- 2エージェント間で,簡単な画像当てゲーム (次ページ)を強化学習させる過程で,
一種の通信用シンボルを使わせることで,シンボルと画像の対応を習得させた
- 言語...
タスク:指示ゲーム(Referential games)
- Senderエージェントは,2つの画像のどちらが targetか教えられ,これを伝えるため symbolを送る
- Receiverエージェントは,symbolと画像から,どちらが ...
指示ゲームの枠組み
1. 画像{i_1, ..., i_N}から,2つの画像を選ぶ(i_L, i_R).一方を"target" t   とする.
2. senderは入力    を受け取る
3. senderはサイズKの辞書Vからシンボルを1つ...
画像データ
- McRae et al(2005)の概念セット
- 20の大きいカテゴリ(e.g., animal, fruit/vegetable, vehicle...)
- 463の具体的な概念(e.g., cat, apple, car...
エージェント
- senderは,agnostic (無知) とinformedの2種類を実験した
- どちらもまず,画像(特徴量)ベクトルを,
ゲーム中に学習される埋め込み空間に飛ばす
- agnosticは,そのままsigmoidして全結合...
学習
- 埋め込み空間50次元
- informed senderのフィルタ20
- 辞書サイズ 10と100で実験
- REINFORCEで強化学習
- ミニバッチ32
- ゲーム回数 : 訓練50,000回 テスト10,000回
8
結果
- どの設定でもうまく協調できるようになった (comm successが100%に近い)
- agnosticは2シンボルしか使ってないが, informedの方は多い(=自然言語っぽい).
- purityとは,クラスタと(大)概念ラ...
結果
- informed senderの方が早く協調できるようになった.
10
結果: 冗長性チェック
- informed senderが数十ワード使っていると言っても,類語のような冗長の状態かもしれない
- 画像を行,シンボルを列にとって SVDして検証した.
ある程度冗長にはなっているものの,複数の概念に対応している...
結果:画像を入れ替えた場合
- 同じImagenetクラス内で,senderとreceiverに見せる画像を代えても,うまく協調できる.
- e.g. Imagenetのdogとして,senderにチワワ,receiverにボストンテリアを見せ...
結果:追加実験(4.1)
- 同じImagenetクラス内で,senderとreceiverに見せる画像を代えても,うまく協調できる.
- e.g. Imagenetのdogとして,senderにチワワ,receiverにボストンテリアを見せる...
結果: fcレイヤー特徴量と利用シンボルの関連
- ImageNetラベルが同じ画像たちの fcレイヤーを平均取って t-SNE
- 一緒に送られるシンボルで色分け
- 似た特徴量とにはある程度同じ色のシンボルが使われている
- 左は最初の実験...
自然言語への接地
- より会話エージェントに近づけるため,人間の自然言語と接地したい
- 今までのゲームと,ImageNetのラベルによる教師ありタスクを,等確率で切り替えた
- 教師あり側は,協調通信は助けず,ただ自然言語と画像を結びつけてく...
学習設定
- informed sender, fc, Vocabulary 100
- Table1のid2
- Imagenetから100ラベル
- senderのゲーム埋め込みレイヤーに, 100ラベルに対応したソフトマックスを乗せて予測...
結果
- 同様に10,000回で協調できる(ゲームだけで数えると 5,000回)
- 使用シンボルは88,purityは70%に向上
- 学習で見た教師ありラベルが使われていた 632ペアのうち47%で対応するシンボルを利用
- 教師あり学習セ...
結果: 人間の評価
ReferItGameデータについて,senderが出したシンボルに対応する Imagenetラベルを人間に見せ,
target(緑枠)を当てさせたところ, 68%の正解率となった.
なんとか似たシンボルを使って Refer...
[DL輪読会]Multi-Agent Cooperation and the Emergence of (Natural) Language
Upcoming SlideShare
Loading in …5
×

[DL輪読会]Multi-Agent Cooperation and the Emergence of (Natural) Language

376 views

Published on

2017/3/31
DeepLearning JP:
http://deeplearning.jp/seminar-2/

Published in: Technology
  • Be the first to comment

[DL輪読会]Multi-Agent Cooperation and the Emergence of (Natural) Language

  1. 1. DL Hacks輪読 Multi-Agent Cooperation and the Emergence of (Natural) Language 2017/03/31 黒滝 紘生
  2. 2. 書誌情報 - Multi-Agent Cooperation and the Emergence of (Natural) Language - Angeliki Lazaridou, Alexander Peysakhovich, Marco Baroni - ICLR 2017 Accept (Oral) Rating 7,7,7 - https://arxiv.org/abs/1612.07182 https://openreview.net/forum?id=Hk8N3Sclg&noteId=Hk8N3Sclg 2
  3. 3. 概要 - マルチエージェント間の対話によって,言語を習得させる枠組みを提案した - 2エージェント間で,簡単な画像当てゲーム (次ページ)を強化学習させる過程で, 一種の通信用シンボルを使わせることで,シンボルと画像の対応を習得させた - 言語習得には,大量の言語データに晒すことだけでなく,他者との対話が大事 - 人間と対話するエージェントの製作でも重要 - シンボルに画像の意味的性質をよりよく表させるため,設定をどう変えればよいか調べた - 更に,習得される符号を,人間の自然言語と結びつけるため, 人間の自然言語による教師あり学習を,元の強化学習に組み合わせる手法を提案した 3
  4. 4. タスク:指示ゲーム(Referential games) - Senderエージェントは,2つの画像のどちらが targetか教えられ,これを伝えるため symbolを送る - Receiverエージェントは,symbolと画像から,どちらが targetか当てる 4
  5. 5. 指示ゲームの枠組み 1. 画像{i_1, ..., i_N}から,2つの画像を選ぶ(i_L, i_R).一方を"target" t   とする. 2. senderは入力    を受け取る 3. senderはサイズKの辞書Vからシンボルを1つ選び送る.senderのpolicy     と呼ぶ 4. receiverはシンボルからtargetを当てる.receiverのpolicy          と呼ぶ 5. 正解       なら両者に報酬 1,間違いなら0 6. 損失関数 を最小化(Rは報酬関数) 5
  6. 6. 画像データ - McRae et al(2005)の概念セット - 20の大きいカテゴリ(e.g., animal, fruit/vegetable, vehicle...) - 463の具体的な概念(e.g., cat, apple, car...) - https://link.springer.com/article/10.3758/BF03192726 - Imagenetから各概念につき100画像ずつサンプル - 2つの概念から各1画像ずつ選んで,片方を targetとする - 特徴量を得るためVGG Convnetにかけた.次の2種類を実験した - top 1000次元 ソフトマックス (sm) - second-to-last 4096次元 全結合層 (fc) 6
  7. 7. エージェント - senderは,agnostic (無知) とinformedの2種類を実験した - どちらもまず,画像(特徴量)ベクトルを, ゲーム中に学習される埋め込み空間に飛ばす - agnosticは,そのままsigmoidして全結合 - informedは,2x1Convフィルタf個で2つの画像を まとめて飛ばしたあと, fx1フィルタで結合 (図はf=4) - senderとreceiverは,共に最終層で ギブス分布に変換され,シンボルが 1つサンプルされる 7
  8. 8. 学習 - 埋め込み空間50次元 - informed senderのフィルタ20 - 辞書サイズ 10と100で実験 - REINFORCEで強化学習 - ミニバッチ32 - ゲーム回数 : 訓練50,000回 テスト10,000回 8
  9. 9. 結果 - どの設定でもうまく協調できるようになった (comm successが100%に近い) - agnosticは2シンボルしか使ってないが, informedの方は多い(=自然言語っぽい). - purityとは,クラスタと(大)概念ラベルの一致度を示す指標. 最も強く反応したシンボルでクラスタリングしたとき, informedの方が,元の概念分類に近い. またagnosticでも,(2シンボルにも関わらず, )purityはランダムより高く出ている. 9
  10. 10. 結果 - informed senderの方が早く協調できるようになった. 10
  11. 11. 結果: 冗長性チェック - informed senderが数十ワード使っていると言っても,類語のような冗長の状態かもしれない - 画像を行,シンボルを列にとって SVDして検証した. ある程度冗長にはなっているものの,複数の概念に対応していることがわかった. 11
  12. 12. 結果:画像を入れ替えた場合 - 同じImagenetクラス内で,senderとreceiverに見せる画像を代えても,うまく協調できる. - e.g. Imagenetのdogとして,senderにチワワ,receiverにボストンテリアを見せる. - これは,常識(common knowledge)の利用をエージェントから奪い, より高レベルの情報をやり取りさせることに相当する. - purityも上がっている 12
  13. 13. 結果:追加実験(4.1) - 同じImagenetクラス内で,senderとreceiverに見せる画像を代えても,うまく協調できる. - e.g. Imagenetのdogとして,senderにチワワ,receiverにボストンテリアを見せる. - これは,常識(common knowledge)の利用をエージェントから奪い, より高レベルの情報をやり取りさせることに相当する. - purityも上がっている 13
  14. 14. 結果: fcレイヤー特徴量と利用シンボルの関連 - ImageNetラベルが同じ画像たちの fcレイヤーを平均取って t-SNE - 一緒に送られるシンボルで色分け - 似た特徴量とにはある程度同じ色のシンボルが使われている - 左は最初の実験のid4,右は追加実験のid2 14
  15. 15. 自然言語への接地 - より会話エージェントに近づけるため,人間の自然言語と接地したい - 今までのゲームと,ImageNetのラベルによる教師ありタスクを,等確率で切り替えた - 教師あり側は,協調通信は助けず,ただ自然言語と画像を結びつけてくれるだけ - 教師あり学習で学んだラベルに対応するように,シンボルを使ってほしい 15
  16. 16. 学習設定 - informed sender, fc, Vocabulary 100 - Table1のid2 - Imagenetから100ラベル - senderのゲーム埋め込みレイヤーに, 100ラベルに対応したソフトマックスを乗せて予測 - ゲーム埋め込みレイヤーはゲームとラベル識別で共有 16
  17. 17. 結果 - 同様に10,000回で協調できる(ゲームだけで数えると 5,000回) - 使用シンボルは88,purityは70%に向上 - 学習で見た教師ありラベルが使われていた 632ペアのうち47%で対応するシンボルを利用 - 教師あり学習セットに含まれないラベルについても,解釈可能性が向上 - なんとか似たシンボルで通信を試みる - ReferItGameデータセットという,人間に同じタスクをさせて, 矩形選択とその表現でアノテーションさせたデータでも,うまくできた 17
  18. 18. 結果: 人間の評価 ReferItGameデータについて,senderが出したシンボルに対応する Imagenetラベルを人間に見せ, target(緑枠)を当てさせたところ, 68%の正解率となった. なんとか似たシンボルを使って ReferItGameデータを伝えようとしている. 18

×