SlideShare a Scribd company logo
1 of 19
Download to read offline
Wikipediaのエントリ-リダイレクト
関係を対象にした同義関係抽出
長岡技術科学大学 電気系 山本研究室
06102491 大野 潤一
研究背景
同義語は,
 文章の換言や要約など
 テキスト処理の分野に必要な語彙知識である
①
既存研究
文脈や語句に依存しない手法
● 言い換えが可能な括弧表現の抽出法 [岡崎ら(2007)]
という表現から同義語を抽出
● 国語辞典からの類義表現抽出とSYNGRAPHデータ構造
による柔軟マッチング [大西ら(2006)]
  から[アイス,アイスクリーム]の同義語対を抽出
 → 高精度で語句対を抽出しているが,新聞や辞書を
       コーパスとしているため,新語や俗語に弱い
②
提案手法
新語や俗語など頻度の低い語について
○更新性の優れるオンライン辞書Wikipediaを用いる
(2010年11月2日時点のダンプデータを使用)
高い適合率を達成するためにリダイレクトページと
    エントリページの関係を利用する
Step1 前処理による文の整形を行う
        Step2  語彙統語パターン(同義とみなせる表現)を
整形後の文章と照合する
③
Step1 前処理
エントリ名:マテガイ,リダイレクト名:馬刀貝
④
Step2 語彙統語パターン
1)名詞をキーワードとした語彙統語パターン
→キーワード前後の名詞,記号列中に[redirect]が存在した
場合,エントリ名とリダイレクト名を同義と判定する
2)文末表現をキーワードとしたパターン
     →キーワードより前の名詞,記号列中に[redirect]が存在した
      場合,エントリ名とリダイレクト名を同義と判定する
3)括弧表現を用いたパターン
     →エントリ本文内での小括弧( )に対して行う処理
       括弧内に[redirect]が存在したら同義と判定
⑤
評価実験
エントリ-リダイレクト対から2,000件を無作為に抽出
人手で以下の4種類に同義関係を分類
前処理を施した後,同義判定を行った
同義関係種類 語句対数 エントリ―リダイレクト対例
同義異語句対 373 広島城―鯉城
略語対 533 神一ダム―神通川第一ダム
同義異表記対 574 浅葱色 あさぎ色
非同義対 520 灰汁―あく抜き
⑥
実験結果
2,000件のエントリ-リダイレクト語句対について
全体の適合率    92.1% (151/164)
各同義語句対の再現率
※1:(抽出数/文中に[redirect]が存在する語句対数)
※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数)
同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2
同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373)
略語対 28.6% ( 48/168) 9.0% ( 48/ 533)
同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574)
全同義語対 35.8% (151/422) 10.2% (151/1480)
⑦
実験結果
2,000件のエントリ-リダイレクト語句対について
全体の適合率   92.1% (151/164)
各同義語句対の再現率
※1:(抽出数/文中に[redirect]が存在する語句対数)
※2:(抽出数/[redirect]が存在しない語句対も合わせた全対数)
同義関係種類 ペアを限定した再現率※1
ペア全体の再現率※2
同義異語句対 41.3% ( 52/126) 13.9% ( 52/ 373)
略語対 28.6% ( 48/168) 9.0% ( 48/ 533)
同義異表記対 39.8% ( 51/128) 8.9% ( 51/ 574)
全同義語対 35.8% (151/422) 10.2% (151/1480)
406,835件のエントリ-リダイレクト対から
 36,068語句対を抽出
⑦
考察:再現率について
エントリ名に対応するリダイレクト名が文中に存在し
なかった
異表記対や略語対は文字列が似ているため
本文中で説明されづらい
再現率の向上には,
語彙統語パターンの拡張
Webページやスニペッドなど
Wikipedia以外の語彙資源を用いる
⑧
考察:誤り解析
● 本手法で抽出した161対の内,
               10対が非同義語句対
● 限定をあらわす表現
「特に・・・なものは[redirect]と呼ばれる」
「・・・を除いて[redirect]と呼ばれる」
「単に・・・という場合は[redirect]を指すことが
多い」
⑨
結論
● 3種類の語彙統語パターンを用いて
前処理を施したエントリ-リダイレクト語句対
2,000件の同義抽出を行った
→適合率 92.1%,全体の再現率 10.2%
→全エントリ-リダイレクト対から36,068件抽出
● 表層の異なる同義異語句対が抽出されやすい
● より多くの同義語句対を抽出するには
語彙統語パターンの拡張
Wikipedia以外の語彙資源の活用
⑩
ご清聴 ありがとうございました
リダイレクトページとエントリページの関係
エントリページへ転送するページをリダイレクトページと呼ぶ
このリンクは意味の近い語同士で結ばれているが,
 同義ではない語句対も存在する
前処理
●エントリページ本文の
第1節見出しより下の文章を削除
●エントリ名,'''エントリ名''',「エントリ名」を
囲み記号ごと[entry]に置換
●リダイレクト名も同様に記号ごと[redirect]置換
●[entry],[redirect]以外の文字列が
        上記の記号で囲われていたら[other]に置換
●並列表現{および|または|もしくは|や}を
読点{、}に置換
●小括弧( )で囲われた部分を抜き出し
別の一文にする
実験結果
正しく抽出できたエントリ名-リダイレクト名の例
パターン エントリ名-リダイレクト名 語彙統語パターンに照合した文
名詞 ギリョウバイ-ネズモドキ 針葉樹のネズに似るので
'''ネズモドキ'''の別名もある
名詞 静岡県警察-静岡県警 ・・・静岡県内を管轄区域とし、静岡県警と
略称する
文末 脇町南町-うだつの町並み '''うだつの町並み'''と呼ばれることもある
文末 モンズーン-モンスン '''モンスン'''、'''モンスーン'''などと表記さ
れる場合もある
括弧 ポストパンク-Post-punk '''ポストパンク'''(''' Post-punk ''')は・・・、
括弧 ロマ語-ロマニー語 '''ロマ語'''(ロマご、'''ロマニー語''')は・・・
語彙統語パターン
括弧表現を用いたパターン
エントリ本文内での小括弧( )に対して行う処理
括弧内に[redirect]が存在したら同義と判定
例) ( )内に[redirect](林檎酸)が存在した場合
[entry],[redirect]の置換
パターンエントリ名,リダイレクト名を[entry],[redirect]に
置き換えるのは直前の並列表現を抽出しやすくするた
め
エントリ名が「巨人の星」といった語句だと、
名詞、記号列の連続に「の(助詞)」が含まれない
大野-スライド.pdf

More Related Content

More from 長岡技術科学大学 自然言語処理研究室

More from 長岡技術科学大学 自然言語処理研究室 (20)

Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 

Recently uploaded

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Recently uploaded (11)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

Wikipedia のエントリーリダイレクト関係を対象にした同義関係抽出