論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker Decent
1. DEEP LEARNING JP
[DL Papers]
“Mastering the Dungeon: Grounded Language Learning
by MechanicalTurker Decent (under review at ICLR2018)”
Hiromi Nakagawa, Matsuo Lab
http://deeplearning.jp/
2. • https://openreview.net/pdf?id=SJ-C6JbRW
• 著者:Zhilin Yang, Saizheng Zhang, Jack Urbanek, Will Feng, Alexander H. Miller,
Arthur Szlam, Douwe Kiela, Jason Weston
– Facebook AI Research
• 公開日:2017/11/04
– Last update: 2018/01/05
• Under review at ICLR2018
– Score: 8, 7, 7
書誌情報
4. • 言語理解に関する研究は大きく分けて2つ
– Static datasetsを用いて学習するもの
• Visual question answering [Anto et al., 2015]
– ある環境下でagentがinteractiveに行動しながら学習するもの(筆者の主張)
• Synthetic & templated languages [Sukhbaatar et al., 2015; Yu et al., 2017; Bordes et al., 2010; Hermann et al., 2017;
Mikolov et al., 2015; Chaplot et al., 2017]
• Natural language but not text adventure games [Wang et al., 2016, Wang et al., 2017]
• Text adventure games but without the communication element[He et al., 2016; Narasimhan et al., 2015]
関連研究:Grounded Language Learning
5. • 言語理解の研究ではAmazon Mechanical Turkでデータを収集するものが多い
– 多くの研究では固定の金額でstaticなデータセットを集めている
– 競争や協調,ゲーミフィケーションなどを取り入れたものもあるが,特定のタスクに特化し
たものが多い[Von Ahn & Dabbish et al., 2004; Kazemzadeh et al., 2014; Von Ahn et al., 2006; Eiben et al., 2012]
• 提案手法のMechanical Turker Decent(MTD)はタスクに依存せず,学習に用
いるデータの質を直接的に最適化できる
関連研究:Data Collection
8. 1. ゲーミフィケーションによりアノテータにとってプラスな影響[Von Ahh & Dabbosh, 2004.]
2. 競争と協調のインセンティブ設計によって従来手法の欠点を克服
– Avoids examples being too easy
• 簡単なサンプルは自分のスコアを下げ,他人のスコアを上げてしまう
– Avoids examples being too hard
• 難しすぎるサンプルは自分のスコアを下げてしまう
– Human-curated curriculum
• Turkerが教師として機能し,徐々に難しいサンプルを学習するカリキュラム学習が可能
– MTD is not easily exploitable/gameable
• 極度に他人を妨害するメリットが少なく,適度に競争と協調をするのが最適解になる
• 競争=他人よりも良質なデータを作る,協調=同様の分布に従うデータを作る
提案手法のポイント
9. • Mastering the Dungeon
– GraphWorldに基づいたゲーム
– nodes:concepts (object, location, actor)
– labeled edge:ノード同士の関係
– action = グラフ構造の変化
• Turkerはプレイヤーとして,ペットのドラゴンが自然言語の指示を正しく実行できる
ように訓練する
– x: natural language commands
• “enter the bedchamber and toss your armor on the bed”
– y: a sequence of actions
• “go bedroom; remove helmet; put helmet on the bed; remove chestplate”
実験設定: Game Environment
10. • Seq2Seq with attention [Bahdanau et al., 2014]
• Action-Centric Seq2Aeq (AC-Seq2Seq)
– 今回のタスク用にSeq2Seqを以下の点について拡張したもの
– actionを行動の種類と行動対象の事物に分割してembeddingを学習
• 類似の行動の学習を効率化
– 過去にとったactionの情報を保持
– actionの候補を現在可能なもののみに制限
実験設定: Model (=Agent)