Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

「深層学習による自然言語処理」読書会1章の発表資料(@レトリバ 2017年7月19日)

273 views

Published on

レトリバ社で行った「深層学習による自然言語処理」読書会1章の発表資料です。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

「深層学習による自然言語処理」読書会1章の発表資料(@レトリバ 2017年7月19日)

  1. 1. 「深層学習による⾃然⾔語処 理」読書会 Vol.1 ‒ 1章 (2017/07/19) 株式会社レトリバ © 2017 Retrieva, Inc.
  2. 2. 自己紹介 名前:億⽥ 正貴(おくだ まさき) 年齢:34才 所属:株式会社レトリバ(2017年4⽉〜) 仕事:プリセールス/ファイナンス/⼈事 ⾃然⾔語処理:かじったことがある程度 © 2017 Retrieva, Inc. 2
  3. 3. 1.1 伝統的な自然言語処理(1) • ⾃然⾔語処理技術の応⽤タスク • ⽂書分類、機械翻訳、⽂書要約、質問応答、等… • 応⽤タスクを部分問題に分解 • 品詞タグ付け :単語に品詞を付与する処理 • 単語分割 :⽂章を単語に分割 • 語義曖昧性解消 :複数の意味を持つ単語の意味を特定 • 固有表現抽出 :⼈名、地名、⽇付などを抽出 • 構⽂解析 :分の構造を解析 • 述語項構造認識 :述語を中⼼とした意味構造を抽出 © 2017 Retrieva, Inc. 3
  4. 4. 1.1 伝統的な自然言語処理(2) • 分解されたがゆえの課題 • 部分問題に複雑な依存関係 • 課題:全ての部分問題をよく理解していないと解析できない • 個々の⾔語解析の理解が必要 • 内容の組み換えの為にパイプライン全体の挙動も理解が必要 • 応⽤したい分野に適応させた解析器⽤の訓練データを⽤意する必要がある • 機械学習による解析の課題 • ⾔語解析結果を取捨選択する⼿法が⼀般的 • 全体の出⼝部分だけの最適化しかできていない • 今後の課題:解析のパイプライン全体の最適化 © 2017 Retrieva, Inc. 4
  5. 5. 1.2 深層学習への期待(1) • 応⽤タスクを直接解決 • 既存の⾔語解析器パイプラインをニューラルネットで置き換え • 部分問題に⽐べて教師データが⽤意しやすい (機械翻訳の訓練データは数百万規模で⽤意可能) • ⾔語解析器を組み合わせた⼿法と同程度/上回る性能を出せている © 2017 Retrieva, Inc. 5
  6. 6. 既存の自然言語処理システムと深層学習による自然言語処理システムとの対比 © 2017 Retrieva, Inc. 6 応⽤タスク⽤出⼒器 述語項構造認識 構⽂解析 品詞タグ付け 学習 学習 学習 応⽤タスク⽤出⼒器 隠れ層 隠れ層 隠れ層 学習 学習 応⽤タスク⽤訓練 データ ⼊⼒テキスト 応⽤タスク出⼒ ⼊⼒テキスト 応⽤タスク出⼒ ⾔語解析(部分問題)⽤ 訓練データ 既存の⾃然⾔語処理システム 深層学習による⾃然⾔語処理システム
  7. 7. 1.3 テキストデータの特徴 • 「単語」を処理の単位(トークン)として「⽂」を1つの記号 列としてまとめて処理する。 • 「句」(phrase/2単語以上の⽂法・意味的な集まり)の単位で処理する場合も • 離散値 • ⼈間が恣意的に定義した記号列で、画像・⾳声の様に物理的な現象に 基づくものではない • ⾳声だったら時系列になってるので連続値 • 可変⻑ © 2017 Retrieva, Inc. 7
  8. 8. 1.2 深層学習への期待(2) • 部分問題の組み合わせが複雑な事象での応⽤に期待 • 複数種のデータ⼊出⼒があるケースで有効 • 画像の説明⽂(画像+テキスト) • ⾝体性を持つロボットとの会話(画像+⾳声+テキスト) • 課題:ブラックボックス化 • 解析器の結果と異なり、隠れ層の出⼒は解釈が難しい • ただし専⾨家以外にとってはどちらもブラックボックス • 解析器の出⼒を理解し、変更が全体へ及ぼす影響を考えながら作業は元々の⼿法 であっても難度は⾼かった © 2017 Retrieva, Inc. 8
  9. 9. 1.4 他分野への広がり • 購買履歴データ・投薬履歴等も可変⻑の記号列といえる • ⼈の知的な活動は(可変⻑な)記号列を扱うことが多いので、 ⾃然⾔語処理で培われた技術が活⽤できる • 例)動画のレコメンド:単語の埋め込みベクトルを作る技術を応⽤ © 2017 Retrieva, Inc. 9
  10. 10. 例)動画のレコメンド:単語の埋め込みベクトル を作る技術を応用 • 動画ID「mov098」⾒た⼈へのレコメンド • 同時期に⾒た他の動画ID群で特徴づける • “mov098”⾒た⼈へのレコメンド:[mov721, mov004, …] © 2017 Retrieva, Inc. 10 user1=[mov004, mov671, mov098, mov721, mov672 …] user2=[mov904, mov098, mov004, mov723, mov343 …] user4=[mov201, mov004, mov721, mov766, mov098 …] user5=[mov098, mov002, mov301, mov721, mov765 …] ・・・
  11. 11. © 2017 Retrieva, Inc. 11

×