[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker Decent

DEEP LEARNING JP
[DL Papers]
“Mastering the Dungeon: Grounded Language Learning
by MechanicalTurker Decent (under review at ICLR2018)”
Hiromi Nakagawa, Matsuo Lab
http://deeplearning.jp/

• https://openreview.net/pdf?id=SJ-C6JbRW
• 著者：Zhilin Yang, Saizheng Zhang, Jack Urbanek, Will Feng, Alexander H. Miller,
Arthur Szlam, Douwe Kiela, Jason Weston
– Facebook AI Research
• 公開日：2017/11/04
– Last update: 2018/01/05
• Under review at ICLR2018
– Score: 8, 7, 7
書誌情報

実験に用いるゲームの名前
タスクの名前
提案手法の名前
概要
Mastering the Dungeon:
Grounded Language Learning
by Mechanical Turker Decent
• クラウドソーシングにおけるより良質なデータ収集スキーマの提案
• 言語理解タスクのデータ作成においてその有効性を検証
MechanicalTurk: Amazonの提供するクラウドソーシングプラットフォーム

• 言語理解に関する研究は大きく分けて２つ
– Static datasetsを用いて学習するもの
• Visual question answering [Anto et al., 2015]
– ある環境下でagentがinteractiveに行動しながら学習するもの(筆者の主張)
• Synthetic & templated languages [Sukhbaatar et al., 2015; Yu et al., 2017; Bordes et al., 2010; Hermann et al., 2017;
Mikolov et al., 2015; Chaplot et al., 2017]
• Natural language but not text adventure games [Wang et al., 2016, Wang et al., 2017]
• Text adventure games but without the communication element[He et al., 2016; Narasimhan et al., 2015]
関連研究：Grounded Language Learning

• 言語理解の研究ではAmazon Mechanical Turkでデータを収集するものが多い
– 多くの研究では固定の金額でstaticなデータセットを集めている
– 競争や協調，ゲーミフィケーションなどを取り入れたものもあるが，特定のタスクに特化し
たものが多い[Von Ahn & Dabbish et al., 2004; Kazemzadeh et al., 2014; Von Ahn et al., 2006; Eiben et al., 2012]
• 提案手法のMechanical Turker Decent(MTD)はタスクに依存せず，学習に用
いるデータの質を直接的に最適化できる
関連研究：Data Collection

• 全体で共用のデータセットDtrain_all, Dtest_allを用意
• 各ラウンドにおいて，N人のTurkerはそれぞれデータセットD1, ..., DNを作成
• Turker iのモデルMiを Di ∪ Dtrain_all を用いて訓練
• MiをEvaluation Dataset に適用してスコアSiを計算
• 良いスコアを獲得したTurkerにボーナスを付与
• ラウンド終了時，全員のデータセットD1, ..., DNを共用のデータセットDtrain_all, Dtest_allにマージ
• 次のラウンドへ
提案手法: Mechanical Turker Decent(MTD)

提案手法: Mechanical Turker Decent(MTD)

1. ゲーミフィケーションによりアノテータにとってプラスな影響[Von Ahh & Dabbosh, 2004.]
2. 競争と協調のインセンティブ設計によって従来手法の欠点を克服
– Avoids examples being too easy
• 簡単なサンプルは自分のスコアを下げ，他人のスコアを上げてしまう
– Avoids examples being too hard
• 難しすぎるサンプルは自分のスコアを下げてしまう
– Human-curated curriculum
• Turkerが教師として機能し，徐々に難しいサンプルを学習するカリキュラム学習が可能
– MTD is not easily exploitable/gameable
• 極度に他人を妨害するメリットが少なく，適度に競争と協調をするのが最適解になる
• 競争=他人よりも良質なデータを作る，協調＝同様の分布に従うデータを作る
提案手法のポイント

• Mastering the Dungeon
– GraphWorldに基づいたゲーム
– nodes：concepts (object, location, actor)
– labeled edge：ノード同士の関係
– action = グラフ構造の変化
• Turkerはプレイヤーとして，ペットのドラゴンが自然言語の指示を正しく実行できる
ように訓練する
– x: natural language commands
• “enter the bedchamber and toss your armor on the bed”
– y: a sequence of actions
• “go bedroom; remove helmet; put helmet on the bed; remove chestplate”
実験設定: Game Environment

• Seq2Seq with attention [Bahdanau et al., 2014]
• Action-Centric Seq2Aeq (AC-Seq2Seq)
– 今回のタスク用にSeq2Seqを以下の点について拡張したもの
– actionを行動の種類と行動対象の事物に分割してembeddingを学習
• 類似の行動の学習を効率化
– 過去にとったactionの情報を保持
– actionの候補を現在可能なもののみに制限
実験設定: Model (=Agent)

• MTD > Collaborative-only baseline
– Collaborative-only = 金額とサンプル数は固定（従来手法）
– MTDによって良質なサンプルを作成によるモデルの精度向上が促進される
実験結果: MTD vs static method

• MTD > MTD limit
– MTD limit = 各ラウンドで作成できる最大サンプル数に制限をかける
– 他者より多くのサンプルを作ろうとするインセンティブ設計が結果にもプラスに
実験結果: Ablation study

• MTD limit > MTD limit w/o model
– w/o model = 作成したサンプルが現在のモデルの改善に寄与しそうかのFBを受けられない
– モデルのFBが良質なサンプル(ex:難しすぎず簡単すぎない)を作成するのに寄与している
実験結果: Ablation study

• AC-Seq2Seq > Seq2Seq
– GraphWorldの特性に応じたモデル設計がプラスに働いた
実験結果: AC-Seq2Seq vs Seq2Seq

• クラウドソーシングにおけるインタラクティブでより良質なデータ収集スキー
ムを提案
• アノテータは2通りのインセンティブに応じて訓練データを作成する
– 競争：自分のモデルの精度が向上するような良質なデータを作成
– 協調：全体のデータの分布から大きく外れないようなデータを作成
• 汎用性が高く，かつ従来のデータ収集スキーマの様々な欠点を補うことが可能
• Mastering the Dungeon という Grounded Language Learningのタスクで
提案手法によって最良の精度を得られることを示した
まとめ

[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker Decent

Recommended

Recommended

More Related Content

What's hot

What's hot (12)

Similar to [DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker Decent

Similar to [DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker Decent (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (10)

[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker Decent