文献紹介：SemEval(SENSEVAL)におけるWSDタスクについて

文献紹介
2015/02/02
長岡技術科学大学
自然言語処理研究室
岡田正平

今回の文献紹介の趣旨
• SemEval (SENSEVAL) のWSDタスクについて紹介
– Lexical Sample
– All-Words
– Monolingual
– Multilingual
– Cross-lingual
2015/02/02 文献紹介 2

WSDタスクの実施状況
Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓
All-Words ✓ ✓ ✓ ✓ ✓
Multilingual ✓
Cross-lingual ✓ ✓
2015/02/02 文献紹介 3
※参考：Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)

All-Words
The English All-Words Task
Benjamin Snyder and Martha Palmer
In Senseval-3: Third International Workshop on the
Evaluation of Systems for the Semantic Analysis of Text, pp.
41-43. 2004.
2015/02/02 文献紹介 4

All-Words
• 与えられた文中の全内容語をWordNet中の語義に割り当
てる
• 構文解析とPOS-tagの情報は与えられる
2015/02/02 文献紹介 5

Test Corpus
• Wall Street Journal と Brown Corpus から得られた約
5,000語の内容語を対象
• 作業者2人によるアノテーション後，別の作業者による
確認・修正
– WordNet中に適切な項目がある場合は複合語も可
– 複数語義に割当てることも可（できるだけ避ける）
– 「WordNet中に無い」も可
• 最終的に2,211語
2015/02/02 文献紹介 6

Lexical Sample
The Senseval-3 English lexical sample task
Rada Mihalcea, Timothy Chklovski and Adam Kilgarriff
In Senseval-3: Third International Workshop on the
Evaluation of Systems for the Semantic Analysis of Text, pp.
25-28. 2004.
2015/02/02 文献紹介 7

コーパスの構築
• British National Corpus, Penn Treebank corpus, Los
Angeles Times collection から抽出された文を利用
• 語義目録は WordNet 1.7.1 のものを利用
– ただし動詞は Wordsmyth のものを利用
• SENSEVAL2において動詞に対する性能が低かった
ため
• 語義の粒度が細かすぎたためと思われる
• 対象語は57語（名詞20語，動詞32語，形容詞5語）
2015/02/02 文献紹介 8

コーパスの構築
• Web上のボランティアを利用
– 対象語を含む文をコーパスから抽出
– 作業者に提示し，最も適切な語義を選ばせる
• チェックボックによる選択（複数可）
• “unclear”と”none of the above” を選択可
• 他者の回答は表示されない
– 2人の回答が一致したらタグ付けされる（最大4人）
2015/02/02 文献紹介 9

Multilingual WSD
SemEval-2013 Task 12: Multilingual Word Sense
Disambiguation
Roberto Navigli, David Jurgens and Daniele Vannella
In Proc. of SemEval 2013, pp. 222-231.
2013.
2015/02/02 文献紹介 10

Task Setup
• 対象となる名詞を最も適切な語義に割り当てる
– 語義はBabelNet
• 2010, 2011, 2012 の workshop on SMT の
データセットより13記事
– English, French, German, Spanish
– さらに人手で English → Italian の翻訳
2015/02/02 文献紹介 11

語義目録
• BabelNet 1.1.1
– 単語，複合語，固有名詞を含む
– Wikipedia や WordNet 3.0 等から作られている
– synset は同じ概念に対する複数言語の表現集合
{Globus aerostàticCA, BalloonEN, AérostationFR,
BallonDE, Pallone aerostaticoIT, ..., Globo aerostáticoES}
2015/02/02 文献紹介 12

Sense Annotation
• 各言語の母語話者がアノテーション
– English, French, German, Spanish: 各言語1人
– Italian: 2人
2015/02/02 文献紹介 13

Sense Annotation
各作業者が
1. 見出し語に付けられているPOSは正しいか
2. 複合語または固有名詞のアノテーションは正しいか
3. 見出し語の意味がBabelNetに割り当てられているか
をチェックする（正しくないものは取り除かれる）
2015/02/02 文献紹介 14

Sense Annotation
• 英語のデータセット中の語をBebelNetの語義に
割り当てる
• 英語でアノテーションされたものを他言語に写像
– 対応する英文中の語の語義に含まれる場合にその語
義に割り当てる
• 各言語の作業者によって修正
• 異なる作業者が高頻度の見出し語について確認
2015/02/02 文献紹介 15

Cross-lingual WSD
SemEval-2013 Task 10: Cross-lingual Word Sense
Disambiguation
Els Lefever and Véronique Hoste
In Proc. of SemEval 2013, pp. 158-166.
2013.
2015/02/02 文献紹介 16

Cross-lingual WSD
その文脈において正しい訳語を選択する
“Je cherche des idées pour manger de l’avocat”
(French→English)
– 正しい訳語 “avocat” → “avocado”
– 誤った訳語 “avocat” → “lawyer”
2015/02/02 文献紹介 17

Task setup
• 英語の名詞に対する教師なしWSDタスク
– 英語の名詞 20 個
• 語義目録は Europarl parallel corpus に基づく
• 対象言語: French, Italian, Spanish, Dutch, German
2015/02/02 文献紹介 18

Motivations
• パラレルコーパスを利用することで，データの作成時の
ボトルネックを解決可能
– 語義のタグ付けが不要
– 同様のフレームワークが多言語にも適用可
2015/02/02 文献紹介 19

Motivations
• 語義の粒度の問題
– 必ずしも細かい粒度が必要ではない
“head” (English) は常に “hoofd” (Dutch)に翻訳できる
（頭と組織の長の両方の意味を持つ）
– 領域特化のコーパスを利用することで，
その領域向きの語義目録が作成可
2015/02/02 文献紹介 20

Motivations
• 言語横断のものに即座に応用可能
– 機械翻訳
– 情報検索
2015/02/02 文献紹介 21

語義目録の作成
英語と対象言語間で1文対1文になっているものを利用
1. 対訳コーパスにおいて単語アライメントを行い，
対象名詞の翻訳を列挙する
2. 得られた翻訳をクラスタリングし，人手で見出し語化
2015/02/02 文献紹介 22

テストデータ
• ANCコーパスより人手で各名詞に対して50文を選択
• 対象言語ごとに3人の作業者
1. 最も適切な語義（クラスタ）を選択
2. 適切な翻訳を3つまで，そのクラスタより選択
2015/02/02 文献紹介 23

subtasks
• best evaluation
– システムはいくつでも答えを提示可能
– 提示した数によってスコアが割られる
• Out-of-five
– システムは5つまで答えを提示可能
– 誤った答えに対するペナルティは無し
2015/02/02 文献紹介 24

WSDタスクの実施状況
Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓
All-Words ✓ ✓ ✓ ✓ ✓
Multilingual ✓
Cross-lingual ✓ ✓
2015/02/02 文献紹介 25
※参考：Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)

文献紹介：SemEval(SENSEVAL)におけるWSDタスクについて

Recommended

Recommended

More Related Content

More from Shohei Okada

More from Shohei Okada (20)

文献紹介：SemEval(SENSEVAL)におけるWSDタスクについて