SlideShare a Scribd company logo
文献紹介
2015/02/02
長岡技術科学大学
自然言語処理研究室
岡田 正平
今回の文献紹介の趣旨
• SemEval (SENSEVAL) のWSDタスクについて紹介
– Lexical Sample
– All-Words
– Monolingual
– Multilingual
– Cross-lingual
2015/02/02 文献紹介 2
WSDタスクの実施状況
Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓
All-Words ✓ ✓ ✓ ✓ ✓
Multilingual ✓
Cross-lingual ✓ ✓
2015/02/02 文献紹介 3
※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)
All-Words
The English All-Words Task
Benjamin Snyder and Martha Palmer
In Senseval-3: Third International Workshop on the
Evaluation of Systems for the Semantic Analysis of Text, pp.
41-43. 2004.
2015/02/02 文献紹介 4
All-Words
• 与えられた文中の全内容語をWordNet中の語義に割り当
てる
• 構文解析とPOS-tagの情報は与えられる
2015/02/02 文献紹介 5
Test Corpus
• Wall Street Journal と Brown Corpus から得られた約
5,000語の内容語を対象
• 作業者2人によるアノテーション後,別の作業者による
確認・修正
– WordNet中に適切な項目がある場合は複合語も可
– 複数語義に割当てることも可(できるだけ避ける)
– 「WordNet中に無い」も可
• 最終的に2,211語
2015/02/02 文献紹介 6
Lexical Sample
The Senseval-3 English lexical sample task
Rada Mihalcea, Timothy Chklovski and Adam Kilgarriff
In Senseval-3: Third International Workshop on the
Evaluation of Systems for the Semantic Analysis of Text, pp.
25-28. 2004.
2015/02/02 文献紹介 7
コーパスの構築
• British National Corpus, Penn Treebank corpus, Los
Angeles Times collection から抽出された文を利用
• 語義目録は WordNet 1.7.1 のものを利用
– ただし動詞は Wordsmyth のものを利用
• SENSEVAL2において動詞に対する性能が低かった
ため
• 語義の粒度が細かすぎたためと思われる
• 対象語は57語(名詞20語,動詞32語,形容詞5語)
2015/02/02 文献紹介 8
コーパスの構築
• Web上のボランティアを利用
– 対象語を含む文をコーパスから抽出
– 作業者に提示し,最も適切な語義を選ばせる
• チェックボックによる選択(複数可)
• “unclear”と”none of the above” を選択可
• 他者の回答は表示されない
– 2人の回答が一致したらタグ付けされる(最大4人)
2015/02/02 文献紹介 9
Multilingual WSD
SemEval-2013 Task 12: Multilingual Word Sense
Disambiguation
Roberto Navigli, David Jurgens and Daniele Vannella
In Proc. of SemEval 2013, pp. 222-231.
2013.
2015/02/02 文献紹介 10
Task Setup
• 対象となる名詞を最も適切な語義に割り当てる
– 語義はBabelNet
• 2010, 2011, 2012 の workshop on SMT の
データセットより13記事
– English, French, German, Spanish
– さらに人手で English → Italian の翻訳
2015/02/02 文献紹介 11
語義目録
• BabelNet 1.1.1
– 単語,複合語,固有名詞を含む
– Wikipedia や WordNet 3.0 等から作られている
– synset は同じ概念に対する複数言語の表現集合
{Globus aerostàticCA, BalloonEN, AérostationFR,
BallonDE, Pallone aerostaticoIT, ..., Globo aerostáticoES}
2015/02/02 文献紹介 12
Sense Annotation
• 各言語の母語話者がアノテーション
– English, French, German, Spanish: 各言語1人
– Italian: 2人
2015/02/02 文献紹介 13
Sense Annotation
各作業者が
1. 見出し語に付けられているPOSは正しいか
2. 複合語または固有名詞のアノテーションは正しいか
3. 見出し語の意味がBabelNetに割り当てられているか
をチェックする(正しくないものは取り除かれる)
2015/02/02 文献紹介 14
Sense Annotation
• 英語のデータセット中の語をBebelNetの語義に
割り当てる
• 英語でアノテーションされたものを他言語に写像
– 対応する英文中の語の語義に含まれる場合にその語
義に割り当てる
• 各言語の作業者によって修正
• 異なる作業者が高頻度の見出し語について確認
2015/02/02 文献紹介 15
Cross-lingual WSD
SemEval-2013 Task 10: Cross-lingual Word Sense
Disambiguation
Els Lefever and Véronique Hoste
In Proc. of SemEval 2013, pp. 158-166.
2013.
2015/02/02 文献紹介 16
Cross-lingual WSD
その文脈において正しい訳語を選択する
“Je cherche des idées pour manger de l’avocat”
(French→English)
– 正しい訳語 “avocat” → “avocado”
– 誤った訳語 “avocat” → “lawyer”
2015/02/02 文献紹介 17
Task setup
• 英語の名詞に対する教師なしWSDタスク
– 英語の名詞 20 個
• 語義目録は Europarl parallel corpus に基づく
• 対象言語: French, Italian, Spanish, Dutch, German
2015/02/02 文献紹介 18
Motivations
• パラレルコーパスを利用することで,データの作成時の
ボトルネックを解決可能
– 語義のタグ付けが不要
– 同様のフレームワークが多言語にも適用可
2015/02/02 文献紹介 19
Motivations
• 語義の粒度の問題
– 必ずしも細かい粒度が必要ではない
“head” (English) は常に “hoofd” (Dutch)に翻訳できる
(頭と組織の長の両方の意味を持つ)
– 領域特化のコーパスを利用することで,
その領域向きの語義目録が作成可
2015/02/02 文献紹介 20
Motivations
• 言語横断のものに即座に応用可能
– 機械翻訳
– 情報検索
2015/02/02 文献紹介 21
語義目録の作成
英語と対象言語間で1文対1文になっているものを利用
1. 対訳コーパスにおいて単語アライメントを行い,
対象名詞の翻訳を列挙する
2. 得られた翻訳をクラスタリングし,人手で見出し語化
2015/02/02 文献紹介 22
テストデータ
• ANCコーパスより人手で各名詞に対して50文を選択
• 対象言語ごとに3人の作業者
1. 最も適切な語義(クラスタ)を選択
2. 適切な翻訳を3つまで,そのクラスタより選択
2015/02/02 文献紹介 23
subtasks
• best evaluation
– システムはいくつでも答えを提示可能
– 提示した数によってスコアが割られる
• Out-of-five
– システムは5つまで答えを提示可能
– 誤った答えに対するペナルティは無し
2015/02/02 文献紹介 24
WSDタスクの実施状況
Area S1 S2 S3 SE07 SE10 SE12 SE13 SE14
Lexical Sample ✓ ✓ ✓ ✓ ✓
All-Words ✓ ✓ ✓ ✓ ✓
Multilingual ✓
Cross-lingual ✓ ✓
2015/02/02 文献紹介 25
※参考:Wikipedia “SemEval” (http://en.wikipedia.org/wiki/SemEval)

More Related Content

More from Shohei Okada

クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawa
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawaクリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawa
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawa
Shohei Okada
 
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondo
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondoクリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondo
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondo
Shohei Okada
 
Laravel でやってみるクリーンアーキテクチャ #phpconfuk
Laravel でやってみるクリーンアーキテクチャ #phpconfukLaravel でやってみるクリーンアーキテクチャ #phpconfuk
Laravel でやってみるクリーンアーキテクチャ #phpconfuk
Shohei Okada
 
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyo
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyoエラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyo
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyo
Shohei Okada
 
スペシャリストとして組織をつくる、というキャリア
スペシャリストとして組織をつくる、というキャリアスペシャリストとして組織をつくる、というキャリア
スペシャリストとして組織をつくる、というキャリア
Shohei Okada
 
PHP でも活用できる Makefile
PHP でも活用できる MakefilePHP でも活用できる Makefile
PHP でも活用できる Makefile
Shohei Okada
 
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよ
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよはじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよ
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよ
Shohei Okada
 
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...
Shohei Okada
 
働き方が大きく変わった 入社3年目のときのとあるエピソード
働き方が大きく変わった 入社3年目のときのとあるエピソード働き方が大きく変わった 入社3年目のときのとあるエピソード
働き方が大きく変わった 入社3年目のときのとあるエピソード
Shohei Okada
 
Laravel で API バージョニングを実装するなら
Laravel で API バージョニングを実装するならLaravel で API バージョニングを実装するなら
Laravel で API バージョニングを実装するなら
Shohei Okada
 
Laravel における Blade 拡張のツラミ
Laravel における Blade 拡張のツラミLaravel における Blade 拡張のツラミ
Laravel における Blade 拡張のツラミ
Shohei Okada
 
Laravel の paginate は一体何をやっているのか
Laravel の paginate は一体何をやっているのかLaravel の paginate は一体何をやっているのか
Laravel の paginate は一体何をやっているのか
Shohei Okada
 
2017 年度を振り返って ~アウトプット編~
2017 年度を振り返って ~アウトプット編~2017 年度を振り返って ~アウトプット編~
2017 年度を振り返って ~アウトプット編~
Shohei Okada
 
Laravel × レイヤードアーキテクチャをやってみている話
Laravel × レイヤードアーキテクチャをやってみている話Laravel × レイヤードアーキテクチャをやってみている話
Laravel × レイヤードアーキテクチャをやってみている話
Shohei Okada
 
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみた
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみたLaravel 5.6 デフォルトの例外ハンドリング処理をまとめてみた
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみた
Shohei Okada
 
チームで「きちんと」Laravel を使っていくための取り組み
チームで「きちんと」Laravel を使っていくための取り組みチームで「きちんと」Laravel を使っていくための取り組み
チームで「きちんと」Laravel を使っていくための取り組み
Shohei Okada
 
プロダクトに 1 から Vue.js を導入した話
プロダクトに 1 から Vue.js を導入した話プロダクトに 1 から Vue.js を導入した話
プロダクトに 1 から Vue.js を導入した話
Shohei Okada
 
PHP 2大 web フレームワークの徹底比較!
PHP 2大 web フレームワークの徹底比較!PHP 2大 web フレームワークの徹底比較!
PHP 2大 web フレームワークの徹底比較!
Shohei Okada
 
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1
Shohei Okada
 
The Infamous Hello World Program
The Infamous Hello World ProgramThe Infamous Hello World Program
The Infamous Hello World Program
Shohei Okada
 

More from Shohei Okada (20)

クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawa
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawaクリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawa
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpconokinawa
 
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondo
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondoクリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondo
クリーンアーキテクチャの考え方にもとづく Laravel との付き合い方 #phpcondo
 
Laravel でやってみるクリーンアーキテクチャ #phpconfuk
Laravel でやってみるクリーンアーキテクチャ #phpconfukLaravel でやってみるクリーンアーキテクチャ #phpconfuk
Laravel でやってみるクリーンアーキテクチャ #phpconfuk
 
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyo
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyoエラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyo
エラー時にログに出力する情報と画面に表示する情報を分ける #LaravelTokyo
 
スペシャリストとして組織をつくる、というキャリア
スペシャリストとして組織をつくる、というキャリアスペシャリストとして組織をつくる、というキャリア
スペシャリストとして組織をつくる、というキャリア
 
PHP でも活用できる Makefile
PHP でも活用できる MakefilePHP でも活用できる Makefile
PHP でも活用できる Makefile
 
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよ
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよはじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよ
はじめての Go 言語のプロジェクトを AWS Lambda + API Gateway でやったのでパッケージ構成を晒すよ
 
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...
Laravel × レイヤードアーキテクチャを実践して得られた知見と反省 / Practice of Laravel with layered archi...
 
働き方が大きく変わった 入社3年目のときのとあるエピソード
働き方が大きく変わった 入社3年目のときのとあるエピソード働き方が大きく変わった 入社3年目のときのとあるエピソード
働き方が大きく変わった 入社3年目のときのとあるエピソード
 
Laravel で API バージョニングを実装するなら
Laravel で API バージョニングを実装するならLaravel で API バージョニングを実装するなら
Laravel で API バージョニングを実装するなら
 
Laravel における Blade 拡張のツラミ
Laravel における Blade 拡張のツラミLaravel における Blade 拡張のツラミ
Laravel における Blade 拡張のツラミ
 
Laravel の paginate は一体何をやっているのか
Laravel の paginate は一体何をやっているのかLaravel の paginate は一体何をやっているのか
Laravel の paginate は一体何をやっているのか
 
2017 年度を振り返って ~アウトプット編~
2017 年度を振り返って ~アウトプット編~2017 年度を振り返って ~アウトプット編~
2017 年度を振り返って ~アウトプット編~
 
Laravel × レイヤードアーキテクチャをやってみている話
Laravel × レイヤードアーキテクチャをやってみている話Laravel × レイヤードアーキテクチャをやってみている話
Laravel × レイヤードアーキテクチャをやってみている話
 
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみた
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみたLaravel 5.6 デフォルトの例外ハンドリング処理をまとめてみた
Laravel 5.6 デフォルトの例外ハンドリング処理をまとめてみた
 
チームで「きちんと」Laravel を使っていくための取り組み
チームで「きちんと」Laravel を使っていくための取り組みチームで「きちんと」Laravel を使っていくための取り組み
チームで「きちんと」Laravel を使っていくための取り組み
 
プロダクトに 1 から Vue.js を導入した話
プロダクトに 1 から Vue.js を導入した話プロダクトに 1 から Vue.js を導入した話
プロダクトに 1 から Vue.js を導入した話
 
PHP 2大 web フレームワークの徹底比較!
PHP 2大 web フレームワークの徹底比較!PHP 2大 web フレームワークの徹底比較!
PHP 2大 web フレームワークの徹底比較!
 
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1
Laravel Mix とは何なのか? - Laravel/Vue 勉強会 #1
 
The Infamous Hello World Program
The Infamous Hello World ProgramThe Infamous Hello World Program
The Infamous Hello World Program
 

文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて