深層リカレントニューラルネットワークを用いた日本語述語項構造解析

4,643 views

Published on

既存の日本語述語項構造解析では,形態素解析や構文解析を行い,それらの情報に基づいて各述語の項を予測していた.しかし,パイプライン処理に起因する誤り伝搬や,人手による素性設計コストの上昇などが問題点となっている.本研究では,深層リカレントニューラルネットワークを利用し,単語などの表層情報のみを用いて述語項構造解析を行う手法を提案する. また,複数の述語を同時に考慮して述語構造解析の精度を向上させるために,述語ごとのモデルをグリッド上に連結した深層リカレントグリッドモデルを提案する.NAIST テキストコーパスを用いた実験の結果,これまでに報告されている最先端の日本語述語項構造解析器の精度を上回ることを確認した.

Published in: Engineering
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,643
On SlideShare
0
From Embeds
0
Number of Embeds
2,515
Actions
Shares
0
Downloads
5
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide

深層リカレントニューラルネットワークを用いた日本語述語項構造解析

  1. 1. 深層リカレントニューラルネットワーク を用いた日本語述語項構造解析 大内 啓樹 進藤 裕之 松本 裕治 ouchi.hiroki.nt6@is.naist.jp 奈良先端科学技術大学院大学 自然言語処理学研究室 2016/12/22 (木) 情報処理学会 第229回 自然言語処理研究会
  2. 2. 本研究の概要 2 単語分割 品詞付与 係り受け 述語項構造 入力文 既存研究 ×深層RNN 日本語 述語項構造解析 複数の述語を考慮 可能なRNNの提案 入力文 本研究 78.15 80.90 79.23 81.22 IM09 MA14 OU15 DRGM 単語などの 表層情報のみ使用 最先端の解析器を 上回る性能を達成 単語分割 述語項構造
  3. 3. 述語項構造とは? 3 「誰が 何を 誰に どうした」 • 花子は太郎を殴った。 • 太郎は花子に殴られた。 殴る ガ 花子 ヲ 太郎 ニ None 述語項構造は表層の違いを正規化する 述語 出来事や状態を表す語や句 項 出来事や状態を表すのに必要な語や句 格 述語項間の意味的役割
  4. 4. 項の種類 4 コロッケを受け取った彼女は、急いで食べた。 (φが)ジュースも飲んだ。 ガヲ ガ ヲ ヲ ガ • 係り受け有 精度: 85-90% • 文内ゼロ 精度: 30-55% • 文間ゼロ 精度: 10-20% 3種類の項 本研究の 解析対象
  5. 5. 関連研究
  6. 6. 日本語述語項構造解析手法 6 Taira+ 08 SVM + Decision List Maximum Entropy Model Tournament Model Markov Logic Network 点推定アプローチ 同時推定アプローチ Graph-Based Joint Model + Hill Climbing Imamura+ 09 Hayashibe+ 11 Yoshikawa+ 11 Sasano+ 11 Ouchi+ 15 Shibata+ 16 Ouchi + Neural Net Iida+ 16 Convolutional Neural Net Log-Linear Model + Case Frames
  7. 7. 点推定アプローチ 7 Imamura+ 09 述語ごとに独立に項を推定 警察は 犯人を 逮捕したが、 数日後に 逃走した。 ガ格 逮捕する 警察 犯人 数日後 2.8 3.9 1.3 NULL0.6 ガ格 逃走する 警察 犯人 数日後 2.9 2.6 0.7 NULL0.5
  8. 8. 同時推定アプローチ 8 警察 犯人 数日後 逮捕する 逃走する NULL 逮捕する 逃走する ガ 警察 ヲ 犯人 ニ NULL ガ 犯人 ヲ NULL ニ NULL ガ ヲ ニ Ouchi+ 15 文内の全述語項を同時に推定
  9. 9. 点推定と同時推定 9 警察 犯人 数日後 逮捕する 逃走する NULL 警察 犯人 数日後 逮捕する NULL 警察 犯人 数日後 逮捕する NULL 警察 犯人 数日後 逮捕する NULL 警察 犯人 数日後 逃走する NULL 警察 犯人 数日後 逃走する NULL 警察 犯人 数日後 逃走する NULL 点推定 同時推定
  10. 10. 深層リカレントモデル
  11. 11. 問題設定 11 <単語> 彼女 は コロッケ を 食べた 。 <ラベル> GA NONE WO NONE PRED NONE • 各単語にラベルを付与する多値分類問題 • ラベルは {GA, WO, NI, NONE, PRED} の5つ
  12. 12. モデルの概要 12 • RNN (GRU) を使用 • 単語素性がスパースになることを防ぐため • 長距離の依存関係をとらえる必要があるため 文内ゼロ項の解析には,長距離の 依存関係を考慮する必要がある 長距離依存の例 モデルのイメージ • 係り受け有 • 文内ゼロ
  13. 13. 使用する素性 13 <単語> 彼女 は コロッケ を 食べた 。 Arg Pred Pred Context Mark 1 彼女 食べた を 食べた 。 0 2 は 食べた を 食べた 。 0 3 コロッケ 食べた を 食べた 。 0 4 を 食べた を 食べた 。 1 5 食べた 食べた を 食べた 。 1 6 。 食べた を 食べた 。 1 • Pred Context: 述語とその周りの単語 • Mark: Pred Context に含まれているか否か
  14. 14. 素性ベクトルの作り方 14 Word Emb Mark Emb Concat 1 彼女 食べた を 食べた 。 0 𝒙 𝟏
  15. 15. ネットワークアーキテクチャ 15 RNN Layer 2 RNN Layer 1 Output Layer 𝑥1 𝑥 𝑡 𝑥 𝑇 ・・・ ・・・ ・・・ Input Layer 彼女 コロッケ 。・・・ ・・・ ・・・ ・・・ Input GA 0.2 WO 0.1 NI 0.2 NONE 0.4 PRED 0.1 • 双方向型RNN (GRU) を使用 ラベルの確率
  16. 16. DRMにおける複数述語を含む文の解析 16 朝 起きて 、 彼女 は コロッケ を 食べ 、 学校に 向かった 。 NONE PRED NONE GA NONE NONE NONE NONE NONE NONE NONE NONE 朝起きて、彼女はコロッケを食べ、学校に向かった。 朝 起きて 、 彼女 は コロッケ を 食べ 、 学校に 向かった 。 NONE NONE NONE GA NONE WO NONE PRED NONE NONE NONE NONE 朝 起きて 、 彼女 は コロッケ を 食べ 、 学校に 向かった 。 NONE NONE NONE GA NONE NONE NONE NONE NONE NI PRED NONE ※ 各述語に対して異なるターゲットのラベル列が決まる
  17. 17. DRMにおける複数述語を含む文の解析 17 朝 起きて 、 彼女 は コロッケ を 食べ 、 学校に 向かった 。 𝒙 𝟐,𝟏 𝒙 𝟐,𝟐 𝒙 𝟐,𝟑 𝒙 𝟐,𝟒 𝒙 𝟐,𝟓 𝒙 𝟐,𝟔 𝒙 𝟐,𝟕 𝒙 𝟐,𝟖 𝒙 𝟐,𝟗 𝒙 𝟏,𝟏𝟎 𝒙 𝟏,𝟏𝟏 𝒙 𝟏,𝟏𝟐𝒙 𝟏,𝟏 𝒙 𝟏,𝟐 𝒙 𝟏,𝟑 𝒙 𝟏,𝟒 𝒙 𝟏,𝟓 𝒙 𝟏,𝟔 𝒙 𝟏,𝟕 𝒙 𝟏,𝟖 𝒙 𝟏,𝟗 𝒙 𝟐,𝟏𝟎 𝒙 𝟐,𝟏𝟏 𝒙 𝟐,𝟏𝟐 𝒙 𝟑,𝟏 𝒙 𝟑,𝟐 𝒙 𝟑,𝟑 𝒙 𝟑,𝟒 𝒙 𝟑,𝟓 𝒙 𝟑,𝟔 𝒙 𝟑,𝟕 𝒙 𝟑,𝟖 𝒙 𝟑,𝟗 𝒙 𝟑,𝟏𝟎 𝒙 𝟑,𝟏𝟏 𝒙 𝟑,𝟏𝟐 𝒙 𝟏,𝟑𝒙 𝟏,𝟏 𝒙 𝟏,𝟐 𝑫𝒆𝒆𝒑 𝑹𝑵𝑵 Label Label Label 𝒙 𝟐,𝟑𝒙 𝟐,𝟏 𝒙 𝟐,𝟐 𝑫𝒆𝒆𝒑 𝑹𝑵𝑵 Label Label Label 𝒙 𝟑,𝟑𝒙 𝟑,𝟏 𝒙 𝟑,𝟐 𝑫𝒆𝒆𝒑 𝑹𝑵𝑵 Label Label Label 朝 起きて 、 彼女 は コロッケ を 食べ 、 学校に 向かった 。 朝 起きて 、 彼女 は コロッケ を 食べ 、 学校に 向かった 。 素性ベクトル作成 各系列ごとに計算
  18. 18. 問題点・解決策 18 深層リカレントモデル (DRM) 複数の述語を同時に考慮できない× 複数の述語を同時に考慮できる〇 深層リカレントグリッドモデル (DRGM)
  19. 19. 深層リカレントグリッドモデル
  20. 20. モチベーション 20 • 複数の述語を考慮できるモデルの提案 • 解決策: RNNをグリッド状に連結する モデルのイメージ グリッド連結のイメージ 素性ベクトルの計算を 系列間でも行う
  21. 21. DRMとDRGMの違い 21 DRM 𝒙 𝟐,𝟏 𝒙 𝟐,𝟕 𝒙 𝟏,𝟏𝟐𝒙 𝟏,𝟏 𝒙 𝟏,𝟕 𝒙 𝟐,𝟏𝟐 𝒙 𝟑,𝟏 𝒙 𝟑,𝟕 𝒙 𝟑,𝟏𝟐 𝒙 𝟏,𝟏𝟐𝒙 𝟏,𝟏 𝒙 𝟏,𝟕 𝑫𝒆𝒆𝒑 𝑹𝑵𝑵 Label Label Label ・・・ ・・・ ・・・ ・・・ 𝒙 𝟐,𝟏𝟐𝒙 𝟐,𝟏 𝒙 𝟐,𝟕 𝑫𝒆𝒆𝒑 𝑹𝑵𝑵 Label Label Label ・・・ ・・・ ・・・ ・・・ 𝒙 𝟑,𝟏𝟐𝒙 𝟑,𝟏 𝒙 𝟑,𝟕 𝑫𝒆𝒆𝒑 𝑹𝑵𝑵 Label Label Label ・・・ ・・・ ・・・ ・・・ 𝑫𝒆𝒆𝒑 𝑹𝑵𝑵 Label Label Label・・・ ・・・ Label Label Label・・・ ・・・ Label Label Label・・・ ・・・ DRGM ・・・ ・・・ ・・・ ・・・ ・・・ ・・・
  22. 22. 使用する素性 22 朝 起きて 、 彼女 は コロッケ を 食べ 、 学校に 向かった 。 𝒙 𝟐,𝟏 𝒙 𝟐,𝟐 𝒙 𝟐,𝟑 𝒙 𝟐,𝟒 𝒙 𝟐,𝟓 𝒙 𝟐,𝟔 𝒙 𝟐,𝟕 𝒙 𝟐,𝟖 𝒙 𝟐,𝟗 1 2 3 4 5 6 7 8 9 10 11 12 1 2 p t 朝 起きて 、 彼女 は コロッケ を 食べ 、 学校に 向かった 。 3 朝 起きて 、 彼女 は コロッケ を 食べ 、 学校に 向かった 。 𝒙 𝟏,𝟏𝟎 𝒙 𝟏,𝟏𝟏 𝒙 𝟏,𝟏𝟐𝒙 𝟏,𝟏 𝒙 𝟏,𝟐 𝒙 𝟏,𝟑 𝒙 𝟏,𝟒 𝒙 𝟏,𝟓 𝒙 𝟏,𝟔 𝒙 𝟏,𝟕 𝒙 𝟏,𝟖 𝒙 𝟏,𝟗 𝒙 𝟐,𝟏𝟎 𝒙 𝟐,𝟏𝟏 𝒙 𝟐,𝟏𝟐 𝒙 𝟑,𝟏 𝒙 𝟑,𝟐 𝒙 𝟑,𝟑 𝒙 𝟑,𝟒 𝒙 𝟑,𝟓 𝒙 𝟑,𝟔 𝒙 𝟑,𝟕 𝒙 𝟑,𝟖 𝒙 𝟑,𝟗 𝒙 𝟑,𝟏𝟎 𝒙 𝟑,𝟏𝟏 𝒙 𝟑,𝟏𝟐 朝起きて、彼女はコロッケを食べ、学校に向かった。
  23. 23. ネットワークアーキテクチャ 23 𝑥1,1 𝑥2,1 𝑥3,1 Input Layer 𝑥1,𝑡 𝑥2,𝑡 𝑥3,𝑡 𝑥1,𝑇 𝑥2,𝑇 𝑥3,𝑇 Grid Layer 1 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ Grid Layer 2 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ Output Layer ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ GA 0.2 WO 0.1 NI 0.2 NONE 0.4 PRED 0.1 ラベルの確率
  24. 24. 各グリッド層 24 ℎ1,2 (𝑙) ℎ1,1 (𝑙) ℎ1,3 (𝑙) ℎ1,4 (𝑙) ℎ1,5 (𝑙) • 単語間の接続 深層リカレントモデルと同様
  25. 25. 各グリッド層 25 ℎ1,2 (𝑙) ℎ1,1 (𝑙) ℎ2,1 (𝑙) ℎ3,1 (𝑙) ℎ1,3 (𝑙) ℎ1,4 (𝑙) ℎ1,5 (𝑙) ℎ2,2 (𝑙) ℎ2,3 (𝑙) ℎ2,4 (𝑙) ℎ2,5 (𝑙) ℎ3,2 (𝑙) ℎ3,3 (𝑙) ℎ3,4 (𝑙) ℎ3,5 (𝑙) • 系列にまたがる接続
  26. 26. 実験・結果・結論
  27. 27. 実験設定 27  データセット NAIST Text Corpus Ver. 1.5  訓練 25,000  開発 5,000  評価 9,000  実装  ライブラリ: Theano  ハイパーパラメータ  単語/隠れ層の次元: 32次元, ランダム初期化  最適化手法: Adam  L2正則化: [0.0001, 0.0005, 0.001]
  28. 28. 実験結果: F値 28 中間層数 開発 評価 深層リカレント モデル (DRM) 2 80.14 80.58 4 80.66 80.91 6 80.52 80.37 8 80.74 80.70 深層リカレント グリッドモデル (DRGM) 2 80.43 80.63 4 80.78 80.93 6 81.14 81.22 8 80.90 81.06 • DRM < DRGM • 複数の述語を考慮することによる効果
  29. 29. 実験結果: 先行研究とのF値比較 29 Imamura+ 09 78.15 Matsubayashi+ 14 80.90 Ouchi+ 15 79.23 DRM 80.70 DRGM 81.22 NAIST Text Corpus 1.5を用いた先行研究との比較 • 先行研究の性能を上回る結果
  30. 30. 実験結果: 格ごとのF値 30 係り受け有 文内ゼロ ガ ヲ ニ ガ ヲ ニ DRM 88.74 92.90 64.84 51.24 35.13 8.90 DRGM 88.66 93.95 66.50 51.57 38.06 9.44 Imamura+ 09 86.50 92.84 30.97 45.56 21.38 0.83 Matsubayashi+ 14 87.8 94.0 63.7 49.0 27.7 25.7 Ouchi+ 15 88.13 92.74 38.39 48.11 24.43 4.80 • 係り受け有 • 文内ゼロ
  31. 31. 結論 31 1. 深層RNNを用いた述語項構造解析モデルの提案 2. 最先端の解析器を上回る精度を達成 https://github.com/hiroki13/neural-pasa-system ソースコード 今後の課題 まとめ • 本モデルの詳細なエラー分析 • 文間にまたがる述語項の同定

×