Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
大規模な単語活用辞書を用いた
英単語の見出し語化
奈良先端科学技術大学院大学
駒井雅之 進藤裕之 松本裕治
2016/3/2 @ Deim2016: C8-5
研究の背景
● 見出し語化 (lemmatization) は自然言語処理において重要
●
高精度な見出し語化には単語活用辞書が必要
– 単語活用辞書: 単語に品詞や見出し語が付与された資源
– 例: ■ awards: 名詞 – 複数形 – ...
関連研究
● 関連研究1. 英語の言語資源:
– Penn Treebank [Marcus+ 1994]: 新聞記事のコーパス
● 注釈情報: 品詞・構文情報, ( 見出し語は未注釈 )
– CELEX [Piepenbrock+ 1995]...
関連研究 - 問題点
● 関連研究1. 英語の言語資源:
– Penn Treebank [Marcus+ 1994]: 新聞記事のコーパス
● 注釈情報: 品詞・構文情報, ( 見出し語は未注釈 )
– CELEX [Piepenbrock+...
本研究の目的・貢献
Wiktionaryを用いて単語活用辞書を構築・公開する
→ 辞書を参照することで既知語の見出し語化が可能
言語非依存な未知語の見出し語化モデルを提案する
1. ルールベースのモデル
2. SVMを用いたモデル
3. ニュー...
貢献1: 単語活用辞書の構築
● Wiktionaryダンプデータを用いた辞書構築法
1. ダンプデータから全ての (単語, 屈折表) の組を抽出する
屈折表: 単語の活用形が表された項目 (表記乱れ有)
2. (単語, 屈折表) の情報を展開...
貢献1: 単語活用辞書の構築
● Wiktionaryダンプデータを用いた辞書構築法
1. ダンプデータから全ての (単語, 屈折表) の組を抽出する
屈折表: 単語の活用形が表された項目 (表記乱れ有)
2. (単語, 屈折表) の情報を展開...
貢献1: 単語活用辞書の構築
● Wiktionaryダンプデータを用いた辞書構築法
1. ダンプデータから全ての (単語, 屈折表) の組を抽出する
屈折表: 単語の活用形が表された項目 (表記乱れ有)
2. (単語, 屈折表) の情報を展開...
貢献2: 未知語の見出し語化のモデル
● 平文の語と表層語との間の編集 (レーベンシュタイン) 距離を計算
→ 距離が0より大きい語から, 最近傍の語を見出し語とする
● K個の見出し語候補を用意 → SVMを (候補, 表層語) に適用
→ ...
t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
Method 3. ニューラルネットワークの手法 (...
t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
...
t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
...
t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
...
t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
...
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
ot = softmax(W o h + bo)
Output Layer:
ht =...
実験
●
未知語の見出し語化の実験
– Task: 屈折を伴う表層語 (未知語) → 見出し語
– 手法: ルールベース, SVMの手法, ニューラルネットワークの手法
●
評価データ [データ数: 100事例]
– Wikipediaコーパス...
実験結果
●
未知語の見出し語化の実験結果を示す
– SVMで, 200-Best中に見出し語が含まれる割合: 0.82
ニューラルネットワークの手法が最良の結果を示した
正解率
1. ルールベースの手法 0.10
2. SVM (K=200)...
実験結果 - モデルごとの出力例
● SVM・ニューラルネットワークのモデルによる出力例の比較
– 正しい見出し語がK−Bestに含まれない時:
→ SVMのモデルは正解できない
正解がK-Bestに含まれる 正解がK-Bestに含まれない
表...
まとめ
英語の単語活用辞書の構築法を提示した
● Webで公開予定
未知語のための見出し語化モデルを提案した
●
ニューラルネットワークのモデルが最良の結果を示した
●
デモとして公開済み ・ オープンソースとして公開予定
●
見出し語化のシス...
Upcoming SlideShare
Loading in …5
×

大規模な単語活用辞書を用いた英単語の見出し語化

1,457 views

Published on

自然言語処理において, 単語の活用を認識し, 見出し語化(lemmatization) することは重要なタスクである.しかしながら, 計算機で処理可能な英単語の活用辞書はあまり整備されておらず, 従来研究では様々なドメインのテキストに対する活用辞書の網羅率や, 見出し語化の精度を十分に評価できていない. そこで本研究では, 誰でもフリーで利用可能な言語資源から英単語の活用表を網羅的に収集し, 見出し語化の性能評価を行う. また, 未知語に対しては大規模なWebテキストとニューラルネットワークを用いて, 見出し語を高精度に推定できるモデルを提案する.

Published in: Science
  • Be the first to comment

  • Be the first to like this

大規模な単語活用辞書を用いた英単語の見出し語化

  1. 1. 大規模な単語活用辞書を用いた 英単語の見出し語化 奈良先端科学技術大学院大学 駒井雅之 進藤裕之 松本裕治 2016/3/2 @ Deim2016: C8-5
  2. 2. 研究の背景 ● 見出し語化 (lemmatization) は自然言語処理において重要 ● 高精度な見出し語化には単語活用辞書が必要 – 単語活用辞書: 単語に品詞や見出し語が付与された資源 – 例: ■ awards: 名詞 – 複数形 – 見出し語: award → さらに未知語に対しては統計的なモデル統計的なモデルが必要 見出し語化の例: free-running → free-run
  3. 3. 関連研究 ● 関連研究1. 英語の言語資源: – Penn Treebank [Marcus+ 1994]: 新聞記事のコーパス ● 注釈情報: 品詞・構文情報, ( 見出し語は未注釈 ) – CELEX [Piepenbrock+ 1995]: 辞書データベース ● 語彙の大きさは数万規模 ● 関連研究2. 見出し語化のモデル: – 品詞と見出し語を同時推論するモデル [Chrupala+ 2008, Toutanoba+ 2009, Muller+ 2015] → 品詞と見出し語の両方の注釈が必要
  4. 4. 関連研究 - 問題点 ● 関連研究1. 英語の言語資源: – Penn Treebank [Marcus+ 1994]: 新聞記事のコーパス ● 注釈情報: 品詞・構文情報, ( 見出し語は未注釈 ) – CELEX [Piepenbrock+ 1995]: 辞書データベース ● 語彙の大きさは数万規模 ● 関連研究2. 見出し語化のモデル: – 品詞と見出し語を同時推論するモデル [Chrupala+ 2008, Toutanoba+ 2009, Muller+ 2015] → 品詞と見出し語の両方の注釈が必要 Problem 1. 英語の言語資源が不足している - 特に単語活用辞書が十分に整備されていない 2. リソース不足に伴い, 英語のテキストに対し 既存のモデルを適用するのは困難
  5. 5. 本研究の目的・貢献 Wiktionaryを用いて単語活用辞書を構築・公開する → 辞書を参照することで既知語の見出し語化が可能 言語非依存な未知語の見出し語化モデルを提案する 1. ルールベースのモデル 2. SVMを用いたモデル 3. ニューラルネットワークを用いたモデル – 辞書 + 平文 (ラベル無しのテキスト) を必要とする Wiktionary: 誰でも自由に使えるWiki形式の辞書サイト
  6. 6. 貢献1: 単語活用辞書の構築 ● Wiktionaryダンプデータを用いた辞書構築法 1. ダンプデータから全ての (単語, 屈折表) の組を抽出する 屈折表: 単語の活用形が表された項目 (表記乱れ有) 2. (単語, 屈折表) の情報を展開する  規則活用の例: 組 ダンプデータ: Wiktionaryのページ群を集積したファイル (award, {{en-noun}} ) ■ award : 名詞 – 単数形 – 見出し語: award ■ awards : 名詞 – 複数形 – 見出し語: award
  7. 7. 貢献1: 単語活用辞書の構築 ● Wiktionaryダンプデータを用いた辞書構築法 1. ダンプデータから全ての (単語, 屈折表) の組を抽出する 屈折表: 単語の活用形が表された項目 (表記乱れ有) 2. (単語, 屈折表) の情報を展開する 不規則活用の例: 組 ダンプデータ: Wiktionaryのページ群を集積したファイル (take, {{en-verb|takes|took … }} ) ■ take : 動詞 – 現在形 – 見出し語: take ■ took : 動詞 – 過去形 – 見出し語: take ...
  8. 8. 貢献1: 単語活用辞書の構築 ● Wiktionaryダンプデータを用いた辞書構築法 1. ダンプデータから全ての (単語, 屈折表) の組を抽出する 屈折表: 単語の活用形が表された項目 (表記乱れ有) 2. (単語, 屈折表) の情報を展開する 辞書統計量: 803,694 種類の辞書情報を獲得 ダンプデータ: Wiktionaryのページ群を集積したファイル # 種類 見出し語 597,149 表層語 803,694
  9. 9. 貢献2: 未知語の見出し語化のモデル ● 平文の語と表層語との間の編集 (レーベンシュタイン) 距離を計算 → 距離が0より大きい語から, 最近傍の語を見出し語とする ● K個の見出し語候補を用意 → SVMを (候補, 表層語) に適用 → 最良のスコアの語を見出し語する – 正例・負例は辞書から導出 ● 素性: 編集距離 + N-Gramアラインメント Method 1. ルールベース (要: 平文) Method 2. SVMを用いた手法 (要: 平文, 辞書) p l a y e d p l a y pp-1p-2
  10. 10. t t+3t-3 ・・・ ・・・ 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 Method 3. ニューラルネットワークの手法 (要: 辞書) p al y e d p 文字 a b ・ ・ p ・ 確率値 0.01 0.01 ・ ・ 0.94 ・
  11. 11. t t+3t-3 ・・・ ・・・ 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 p al y e d p l 文字 a b ・ ・ l ・ 確率値 0.01 0.01 ・ ・ 0.91 ・ Method 3. ニューラルネットワークの手法 (要: 辞書)
  12. 12. t t+3t-3 ・・・ ・・・ 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 p al y e d p l 文字 a b ・ ・ p ・ 確率値 0.88 0.01 ・ ・ 0.01 ・ a Method 3. ニューラルネットワークの手法 (要: 辞書)
  13. 13. t t+3t-3 ・・・ ・・・ 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 p al y e d p l 文字 a b ・ ・ y ・ 確率値 0.01 0.01 ・ ・ 0.79 ・ a y Method 3. ニューラルネットワークの手法 (要: 辞書)
  14. 14. t t+3t-3 ・・・ ・・・ 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 p al y e d p l 文字 a b ・ ・ ・ /s 確率値 0.01 0.01 ・ ・ ・ 0.62 a y /s Method 3. ニューラルネットワークの手法 (要: 辞書) 注: “/s” は終了記号とする
  15. 15. 貢献2: 未知語の見出し語化のモデル ● 表層語から, 文字レベルで見出し語を生成する ● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成 ot = softmax(W o h + bo) Output Layer: ht = tanh (Wh x + bh) Hidden Layer: xt = concat(xt s , xt l ) Input Layer: yal e dp yalp /sa b ... /s Method 3. ニューラルネットワークの手法 (要: 辞書) 注: “/s” は終了記号とする
  16. 16. 実験 ● 未知語の見出し語化の実験 – Task: 屈折を伴う表層語 (未知語) → 見出し語 – 手法: ルールベース, SVMの手法, ニューラルネットワークの手法 ● 評価データ [データ数: 100事例] – Wikipediaコーパス [Muller+ 2015] (平文) から未知語を選定 – 人手で適切な見出し語を注釈 ● ラベル無しデータ <Wikipediaコーパス> の利用 – 表層語とコーパスの単語の編集距離を計算 – 1-Best → ルールベース, 200-Best → SVMの手法
  17. 17. 実験結果 ● 未知語の見出し語化の実験結果を示す – SVMで, 200-Best中に見出し語が含まれる割合: 0.82 ニューラルネットワークの手法が最良の結果を示した 正解率 1. ルールベースの手法 0.10 2. SVM (K=200) を用いた手法 0.79 (上限: 0.82) 3. ニューラルネットワークの手法 0.94
  18. 18. 実験結果 - モデルごとの出力例 ● SVM・ニューラルネットワークのモデルによる出力例の比較 – 正しい見出し語がK−Bestに含まれない時: → SVMのモデルは正解できない 正解がK-Bestに含まれる 正解がK-Bestに含まれない 表層語 (入力) free-running populares tonaries hellenized SVMのモデル free-run populare tonare hellenized ニューラル ネットワーク free-run populare tonary hellenize 正しい見出し語 free-run popularis tonary hellenize
  19. 19. まとめ 英語の単語活用辞書の構築法を提示した ● Webで公開予定 未知語のための見出し語化モデルを提案した ● ニューラルネットワークのモデルが最良の結果を示した ● デモとして公開済み ・ オープンソースとして公開予定 ● 見出し語化のシステムを応用タスクに組み込む ● Long Short Term Memory や 文字埋め込みベクトルの活用 今後の課題

×