SlideShare a Scribd company logo
1 of 15
Download to read offline
Wikipediaのエントリ-リダイレクト関係を
対象にした同義関係抽出
長岡技術科学大学
大野 潤一,柴木 優美,山本 和英
①
 ● 
Wikipediaのエントリ名とリダイレクト名は
  同義関係を持つ語対が多く存在する
 ● 
同義語はテキスト処理の分野に必要な語彙知識
→新語や造語をはじめとした    
文字列の異なる語対についても
  高精度で判別することが望ましい
研究背景 ②
同義: 【スパゲッティー ← スパゲティ】
【狙撃手 ← スナイパー】
【微分積分学 ← 微積分】
非同義: 【遺骨 ← 分骨】
【倫理学 ← 倫理学者】
【椅子 ← カウチソファー】
提案手法
本手法では,
 ● 
新語や俗語など頻度の低い語について
      ○
更新性の優れるオンライン辞書Wikipediaを用いる
        (2010年11月2日時点のダンプデータを使用)
 ● 
高い適合率を達成するために
      ○
同義語句対の候補に
         エントリページとリダイレクトページの関係を利用
      ○
前処理;文の整形を行う
      ○
語彙統語パターン;収集,拡張を行い文章と照合
③
前処理:ルール ④
前処理前の原文 前処理後の文字列
[entry]
[redirect]
[other]
エントリ名,
'''エントリ名''',「エントリ名」
リダイレクト名,
'''リダイレクト名''',「リダイレクト名」
エントリ名,リダイレクト名以外の
'''文字列''',「文字列」
並列表現
{および|または|もしくは|や}
、 (読点)
小括弧( )内の文字列 (別の一文に抜き出す)
第2節見出し語以下の文章 (削除)
前処理:実例
エントリ名:新潟市歴史博物館,リダイレクト名:みなとぴあ
⑤
'''新潟市歴史博物館'''
(にいがたし・れきしはくぶつかん)は、
[[新潟市]][[中央区 (新潟市)|中央区]]にある
[[博物館]]。
愛称「'''みなとぴあ'''」。
==沿革==
[[1972年]]、「新潟市郷土資料館」として
開館。この間、[[1982年]]には本館に隣接
して石庫が復元され、横を通る市道には、
かつて新潟市中心部に張り巡らされていた
堀も再現された。
郷土資料館としては[[2003年]]に一旦閉館
し、新築・改装など工事が行われた後、
[[2004年]][[3月27日]]、新たに建設された
博物館本館と、移設・復元された旧第四銀行
住吉町支店の公開を開始し、現名称に改称。
[[信濃川]]・[[新潟港|新潟西港]]に面する
ロケーションから「みなとぴあ」の愛称が、
一般公募によって命名された。
==施設==
===博物館本館===
[entry]は、[[新潟市]][[中央区 (新潟市)|
中央区]]にある[[博物館]]
愛称[redirect]
==沿革==
[[1972年]]、[other]として開館
この間、[[1982年]]には本館に隣接
して石庫が復元され、横を通る市道には、
かつて新潟市中心部に張り巡らされていた
堀も再現された
郷土資料館としては[[2003年]]に一旦閉館
し、新築・改装など工事が行われた後、
[[2004年]][[3月27日]]、新たに建設された
博物館本館と、移設・復元された旧第四銀行
住吉町支店の公開を開始し、現名称に改称
[[信濃川]]・[[新潟港|新潟西港]]に面する
ロケーションから[redirect]の愛称が、
一般公募によって命名された
にいがたし・れきしはくぶつかん
(第2節見出し以降は削除)
前処理
語彙統語パターン (1)
 ● 
名詞をキーワードとした語彙統語パターン
  →キーワード前後の名詞,記号列中に[redirect]が
   存在した場合,エントリ名とリダイレクト名を同義と判定
例) 「名称」の後に[redirect](サガルマータ)が存在した場合
⑥
自称,名称,異称,愛称,和訳,改名,省略,表記,
元の用字,同等の意味,ニックネーム,ペンネーム,・・・
語彙統語パターン (2)
 ● 
文末表現をキーワードとしたパターン
 →キーワードより前の名詞,記号列中に[redirect]が
   存在した場合,エントリ名とリダイレクト名を同義と判定
例) 「呼ばれる」の前に[redirect](恐水病)が存在した場合
⑦
呼ばれる,称する,略され,表現が用いられ,とも言う,・・・
語彙統語パターン (3)
 ● 
括弧表現を用いたパターン
 →エントリ本文内での小括弧( )に対して行う処理
   括弧内に[redirect]が存在したら同義と判定
例) ( )内に[redirect](林檎酸)が存在した場合
⑧
評価実験
 ● 
エントリ-リダイレクト対から2,000件を無作為に抽出
 ● 
人手で以下の4種類に同義関係を分類
例)分類した語句対数とその対例
※:上3種類に含まれなかった語句対
同義関係種類 語句対数 エントリ-リダイレクト対例
同義異語句対 373 広島城 - 鯉城
略語対 533 神一ダム - 神通川第一ダム
同義異表記対 574 浅葱色 - あさぎ色
非同義対※
520 灰汁 - あく抜き
⑨
実験結果:適合率と再現率
2,000件のエントリ-リダイレクト語句対について
● 
全体の適合率  92.1% (151/164)
● 
各同義語句対の再現率
※1:抽出数/[redirect]が存在しない語句対も合わせた全対数
※2:抽出数/文中に[redirect]が存在する語句対数
⑩
同義関係種類 
ペア全体の再現率※1
ペアを限定した再現率※2
同義異語句対 13.9%  ( 52/ 373) 41.3%  ( 52/126)
略語対 9.0%  ( 48/ 533) 28.6%  ( 48/168)
同義異表記対 8.9%  ( 51/ 574) 39.8%  ( 51/128)
全同義語対 10.2% (151/1480) 35.8% (151/422)
実験結果:抽出例
正しく抽出できたエントリ名-リダイレクト名と照合した文
パターン 語彙統語パターンに照合した文
名詞
文末
括弧
エントリ名-リダイレクト名
ギリョウバイ-ネズモドキ
針葉樹のネズに似るので
'''ネズモドキ'''の別名もある
静岡県警察-静岡県警
・・・静岡県内を管轄区域とし、
静岡県警と略称する
脇町南町-うだつの町並み
'''うだつの町並み'''と
呼ばれることもある
モンズーン-モンスン
''モンスン'''、'''モンスーン'''などと
表記される場合もある
ポストパンク-Post-punk ''ポストパンク'''(''' Post-punk '''  )は・・・
ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・
⑪
考察:提案手法について
ペア全体における再現率の低さ
● 
最大の要因はエントリ名に対応するリダイレクト名が  
 文中に存在しなかったこと
      ○
異表記対や略語対は文字列が似ているため
           本文中で説明がされづらい
      ○
同義判定ができる条件に限定した場合,
           再現率は10.2%から35.8%まで向上する
● 
再現率の向上には,
      ○
語彙統語パターンの拡張
      ○
スニペッドやWebページなど
           Wikipedia以外の語彙資源を用いる
⑫
考察:誤り解析
抽出した161対の内,10対が非同義語句対
 ● 
限定をあらわす表現
    ○
「特に・・・なものは[redirect]と呼ばれる」
    ○
「・・・を除いて[redirect]と呼ばれる」
    ○
「単に・・・という場合は[redirect]を指すことが多い」
 ● 
限定の表現がない場合でも,
    エントリの一部について説明している文が残存
      →前処理で削除しきれていない
⑬
考察:既存語彙資源との比較
 ● 
Wikipediaの全エントリ-リダイレクト対について
    →406,835件から36,068件の同義語句対が抽出
   →全対に対しての再現率は 8.9%
 ● 
日本語WordNetと重複した語句対は1,172件
  →全エントリ-リダイレクト対の3.2%が重複
などの普通名詞が多く存在
⑭
セキレイ- 鶺鴒,領収書 - レシート
結論
 ● 
3種類の語彙統語パターンを用いて
     前処理を施したエントリ-リダイレクト語句対2,000件の
同義抽出を行った
        →適合率 92.1% ,全体の再現率 10.2%
        →全エントリ-リダイレクト対から36,068件抽出
 ● 
表層の異なる同義異語句対が抽出されやすい
 ● 
より多くの同義語句対を抽出するには
o 語彙統語パターンの拡張
o Wikipedia以外の語彙資源の活用
⑮

More Related Content

More from 長岡技術科学大学 自然言語処理研究室

More from 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 

Recently uploaded

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 

Recently uploaded (8)

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 

Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出