文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-

3,156 views

Published on

「A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task」を中心に、Machine Comprehensionに関する研究を概観する

Published in: Data & Analytics
0 Comments
11 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,156
On SlideShare
0
From Embeds
0
Number of Embeds
1,182
Actions
Shares
0
Downloads
21
Comments
0
Likes
11
Embeds 0
No embeds

No notes for slide

文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-

  1. 1. Copyright © 2016 TIS Inc. All rights reserved. 文章を読み、理解する機能の獲得に向けて 戦略技術センター 久保隆宏 Machine Comprehensionの研究動向
  2. 2. Copyright © 2016 TIS Inc. All rights reserved. 2  自己紹介  文章を読み、理解するということ: Machine Comprehensionとは  Machine Comprehensionの抱える課題  Deep Mindの提案した手法  Teaching Machines to Read and Comprehend  Stanfordによる追試  A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task  機械が文章を読み、理解する日に向けて  データセットの拡充  「文章を理解している」の定義  現状と展望  新しいチャレンジ 目次
  3. 3. Copyright © 2016 TIS Inc. All rights reserved. 3 久保隆宏 TIS株式会社 戦略技術センター  化学系メーカーの業務コンサルタント出身  既存の技術では業務改善を行える範囲に限界があるとの実感から、戦 略技術センターへと異動  現在は機械学習や自然言語処理の研究・それらを用いたシステムのプ ロトタイピングを行う 自己紹介 人とロボットを連携させた接客シ ステムmaicoの発表 (@対話システムシンポジウム) OpenAI Gymを利用した、 強化学習に関する講演 (@PyConJP 2016) kintoneアプリ内にたまった データを簡単に学習・活用 (@Cybozu Days 2016)
  4. 4. Copyright © 2016 TIS Inc. All rights reserved. 4 所属するチームのミッション chakki すべての人が、ティータイムに帰れるようにする すべての人が、ティータイム(15:00)に帰れる(茶帰) 社会を実現します。 この実現には、既存の仕事を効率化するのでなく、 根本的に「仕事の仕方」を変える必要があります。 しかし、慣れた仕事の仕方というのは簡単には変わ りません。だからこそ、実際に「体験」をし、効果 を「実感」してもらうことが重要になります。 そのため、私たちは先進的技術を用い、仕事の仕方が変 わる体験を提供していきます。
  5. 5. Copyright © 2016 TIS Inc. All rights reserved. 文章を読み、理解するということ Machine Comprehensionとは 攻殻機動隊 STAND ALONE COMPLEX 第15話 機械たちの時間 MACHINES DESIRANTES
  6. 6. Copyright © 2016 TIS Inc. All rights reserved. 6 システムに文章を読んで理解させるタスクを、Machine Comprehension と呼びます。 このタスクは、一般的に以下の要素で構成されます。  Context Document  情報源・前提となる文章が与えられる  Query  文章に関する質問を行う  Answer  質問にどれだけ回答できるかを検査する つまり、ある文書を与え、質問に回答できるかで理解度を測っている、と いうことです。 ※「質問に回答できる」ことをもって理解度と呼んでいいのか?について は後述します 文章を読み、理解する
  7. 7. Copyright © 2016 TIS Inc. All rights reserved. 7 この領域は、ルールベースなモデルが主流でした。 というのも、データを基にした統計的なアプローチには弱点があったため です。具体的には、以下の2点です。  自然言語の文書といった、構造が複雑でしかもノイズを多く含むデー タを、うまく表現できるモデルがなかった  それを学習するためのデータがなかった 機械的に生成したデータを基にした検証で、前者についてはNeural Networkがいい仕事をすることが分かってきました。が、(機械的でない) 実際のデータが、十分な量ないという課題は残ったままでした。 Machine Comprehensionの抱える課題 データがない
  8. 8. Copyright © 2016 TIS Inc. All rights reserved. 8 Teaching Machines to Read and Comprehend ニュース記事から大量のデータを生成して、学習したぜ!! Deep Mindの提案した手法 [K. M. Hermann+ 2015] 荒川 弘: 鋼の錬金術師 ニュース記事の以下の要素からデー タセットを作成した。  ニュースの本文  箇条書きの要約 本文を読んだら、要約の中に抜けて いる個所があっても、答えられるは ずである。そう考えると、本文は Context、穴あきの要約はQuery、 穴埋めの回答はAnswerと見なせる。 ニュース記事
  9. 9. Copyright © 2016 TIS Inc. All rights reserved. 9  上記のような形で、人名や地名などの固有表現をEntityのタグで置き換 え、共通の表現にはすべて同じEntityを割り振る。Queryの穴 (placeholder)に当てはまるEntityを回答するという形式。  学習用データで、CNNは約9万、Daily Mailは約20万と、それまでとは 2ケタぐらい違うサイズのデータの作成を行った(こちらから利用可能)。  Attentionを使ったRNNで60~70%の回答率。 Deep Mindの提案した手法 [K. M. Hermann+ 2015] Teaching Machines to Read and Comprehend
  10. 10. Copyright © 2016 TIS Inc. All rights reserved. 10 問題は解決したのか?
  11. 11. Copyright © 2016 TIS Inc. All rights reserved. 11 A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task ボリュームはすごいが、タスクとしては簡単。その証拠に、NNで出して いる精度は簡単なモデルで圧倒できる。 Stanfordによる追試 [D. Chen+ 2016] 荒川 弘: 鋼の錬金術師 Deep Mindの提供したデータセットについ て、より詳細な調査を行う。  このデータセットにおけるベースとなる 精度 (ベースライン)、また上限を確認  タスクの遂行に、どのような「文書に対 する理解」が必要なのかを明らかにする 特徴量ベースの基本的なモデルも含め幾つ かのモデルで精度を検証し、どのような 「理解」が重要なのかを検証。また、デー タセットそのものの調査も実施。 Deep Mindの論文
  12. 12. Copyright © 2016 TIS Inc. All rights reserved. 12 Stanfordによる追試 [D. Chen+ 2016] A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task ベースラインとして使う予定だった、 特徴量ベースのモデルですでにDeep Mind側の最高精度のAttentionモデル の精度を上回る(63.8 vs 67.1) 回答候補entityの登場頻度、質問との一致、といった 基本的な特徴量が強く効いている データをサンプリングして、回答の 難易度を検証。54%は単純な質問文 とのマッチで回答可能で、25%は人 でも回答不能(=75%がほぼ上限) 逆に、質問文からの推測が必要(Partial clue)、複数 分にまたがる内容の把握が必要(Multiple sentences) は21%しかない
  13. 13. Copyright © 2016 TIS Inc. All rights reserved. 13 Stanfordによる追試 [D. Chen+ 2016] A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task Neural Networkモデルでは72.4%の精度を記録し、これは理論上の上限値(75%) に迫る。その意味では、このデータセットはすでに攻略されたともいえる。 質問文のベクトル x Weight x 本文中の各単語ベクト ルでAttentionを作成。これと単語ベクトルを掛け合 わせることで、出力 (=質問文との関連度)を導く 質問文/本文双方について、①単語分割、②各単語を分 散表現(事前学習済みGloveを使用)に変換、③ Bi- directionalなLSTMで順方向/逆方向にそれぞれencode し、結合(質問文のLSTMと本文のものは別々)。 本文中にあるエンティティ(=回答候補)につい て出力の最大値をしらべ、Answerとする。 ※encodeの範囲を絞るWindowを使ったのMemory Networkも検証しているが精度はよろしくなかった
  14. 14. Copyright © 2016 TIS Inc. All rights reserved. 14 荒川 弘: 鋼の錬金術師 データを注意深く検証すること、基礎的なモデルでの検証を怠ってはならない
  15. 15. Copyright © 2016 TIS Inc. All rights reserved. 15 機械が文章を読み、理解する日に向けて 攻殻機動隊 STAND ALONE COMPLEX 第15話 機械たちの時間 MACHINES DESIRANTES
  16. 16. Copyright © 2016 TIS Inc. All rights reserved. 16 データセットを拡充させる取り組み(1/2) MCTest Children Book Test bAbI 概要 物語と、それについて の選択式の質問のデー タセット。 物語については、7歳の 子供が読める程度のも の。 児童書から21文を抽出 し、20文を本文、最後 の一文を質問とする。 質問は文の一部を空白 にする形で作られ、そ の穴埋め問題となる。 推論による回答(AがBで BがCならA=C的な)を 目指し、複数種類の データセットを提供し ている(←のCBTもそこ から作成されている)。 データ量 660 67万(質問数) 公式サイト参照 データ元 クラウドソーシング 本(Project Gutenberg) 同上 質問の内容 50%ほどは、複数文に またがる理解が問われ る CNN/Daily Mailと同様 の作りなので、同程度 と思われる 文章から得られる情報 を基に推論が必要な、 高度な質問。 最高精度の モデル (ハンドメイドの)特徴量 ベースのモデル。学習 済み分散表現などの外 部知識も活用されてい る。 Window-based Memory Network ただ、n-gram/RNNの 言語モデルでも十分 Memory Network ただ、100~200の語彙 という極めて小さな、 箱庭的な環境での実験 にとどまる
  17. 17. Copyright © 2016 TIS Inc. All rights reserved. 17 データセットを拡充させる取り組み(2/2) Stanfordが公開した質問回答の データセット Wikipediaの文書に対する質問を クラウドソーシングで作成(回答は 文書中の文かその一部になる)。 文書500、質問数10万という大規 模データセット。最高精度 (@2016/11)は、文書->質問、質 問->文書の双方向のAttentionを 利用したモデル。 Toyota Technological Institute at Cicagaが公開したデータセット Deep Mindのデータセットから派 生したもので、本文と質問を別の 記事からとり、エンティティは人 名に限定(=回答は人名となり、誰 が何をしたかを推測する)。なお、 回答は選択式となっている。 質問数20万で、現在最高精度のも のはGated-Attentionを使用した もので6割程度。
  18. 18. Copyright © 2016 TIS Inc. All rights reserved. 18 「文章を理解している」の定義 The Story Close Test 4文からなる短いストーリを与え、その正しい結末(=5文目)を予測させる というタスク。(5文の)学習用ストーリーが約5万、実際のStory Close Test問題が約4000問提供されている。 上記サイトから申し込むことで、データセットの入手が可能
  19. 19. Copyright © 2016 TIS Inc. All rights reserved. 19 単純な質問回答は、特徴量ベースのモデルでも機能する。これに加え複数 文のコンテキストを読むのにNNはうまく機能し、「十分なデータがあれ ば」良好な精度(7~8割)を出すことができる。 そして、大規模なデータセットは拡充の兆しがある。 今後は、より高度な質問(推論が必要な質問や、複数文の情報を統合する 必要があるような質問)への回答を目指していくようになると思われるが、 その際はやはりデータセットの問題がついてまわる。  少ないデータからの学習  大規模なデータセットがある分野からの転移学習、事前学習  シミュレーターの作成 これらの点が、今後(というかこれからも)重要になってくると思われる。 現状と展望
  20. 20. Copyright © 2016 TIS Inc. All rights reserved. 20 新しいチャレンジ 現在Kaggleで行われている、 Stack Exchangeのタグを予測す るコンペ(~2017/3まで)。 変わっているのは、別のタグで学 習させた分類機で他のタグの分類 を予測させる、つまり学習結果の 転移性能が問われているな点。 小~中学生向けの理科の問題を解 くタスク。質問は図があるものと ないものがあり、回答は選択式。 事前の知識ベースの構築、論理推 論といった力が問われる。データ 数は5141。 Stanfordでのアプローチの方法に ついては、こちらの資料の21pか らに詳しい。 事前知識の面では、MSが概念関 係についての大規模なデータ セットを公開している
  21. 21. Copyright © 2016 TIS Inc. All rights reserved. 21 機械が文章を読み、理解する日に向けて世界は進んでいる 攻殻機動隊 STAND ALONE COMPLEX 2nd GIG タチコマな日々 第01話
  22. 22. Copyright © 2016 TIS Inc. All rights reserved. 22 論文輪講を行っています。 論文のまとめ情報は、以下リポジトリで公開しています。 https://github.com/arXivTimes/arXivTimes もちろん、まとめの投稿 もお待ちしています。
  23. 23. <免責事項> 本資料は、作成時点の法規制等に基づき、細心の注意を払い作成しておりますが、 その正確性、適用性、完全性、網羅性、有用性、最新性、知的財産権の非侵害などに 対して弊社は一切保証いたしません。また当該情報に起因するいかなる損害についても 弊社は責任を負いません。本資料より得られるいかなる情報も利用者ご自身の判断と 責任において利用していただくものとします。なお、本資料は特定の事項に関する 一般的な情報提供を目的としています。提供されている情報は、専門的アドバイザリー、 コンサルティング等のサービス提供を意図したものではありません。 <本資料の取り扱いに関して> 本資料は、著作権法及び不正競争防止法上の保護を受けております。資料の一部或いは 全てについて、TIS株式会社から許諾を得ずに、いかなる方法においても無断で複写、 複製、転記、転載、ノウハウの使用、企業秘密の開示等を行うことは禁じられて おります。本文記載の社名・製品名・ロゴは各社の商標または登録商標です。

×