• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
NLP2012
 

NLP2012

on

  • 437 views

試しにアップロード。 ...

試しにアップロード。
NLP2012で発表(pdf版)。
修士論文執筆の傍らでやってた趣味的研究。
あわよくば,発展させて論文化できたらいいな( ´∀`)

Statistics

Views

Total Views
437
Views on SlideShare
437
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    NLP2012 NLP2012 Presentation Transcript

    • C1-3Wikipediaのエントリ構造と編集距離を用いた専門用語抽出の試み 金沢大学 中山 祐輝 2012/03/14(水) NLP2012
    • はじめに:専門用語の自動抽出の必要性• 最新の辞書を構築する時間コストを削減• 専門用語を指標とするアプリケーション(情報理解 支援システム) – Y. Nishihara et al. 2005 • 出現頻度と難しさを指標としている – M. Nakatani et al. 2009 • 出現頻度• 専門用語自動抽出の技術が求められている 2
    • 従来の専門用語自動抽出手法• 対象コーパスを解析 – FLR[中川:03],C-value[Frantzi et al.:2000],UC• 対象コーパスと異なる分野のコーパスを解析 – MDP[久保:10] ,Wikipediaを用いた手法[中谷:2008]• 対象分野のコーパスの出現頻度や出現パターン 解析する手法が主流である – 一般名詞が抽出されやすくなり,精度が低下する – 出現頻度が低い用語も含まれ,再現率が低下する 3
    • 本発表の目的• 適合率低下の問題 – ある用語がどのようなカテゴリに属しているかは考慮さ れていない – ある用語のカテゴリ情報を考慮すればよいのでは• 再現率低下の問題 – 扱われにくい専門用語が含まれている – 他の専門用語と文字列で類似しているのでは Wikipediaのエントリ構造(カテゴリ,リダイレク ト)と編集距離を用いて専門用語抽出を試みる 既存の手法と比較し,改善点を見つける 4
    • 比較対象の従来手法:FLR• 複合名詞CN(例.ネットワークアドレス)のスコア付 けを行う – 単名詞に分割(ネットワーク,アドレス) – 左右に連接する用語の種類と出現頻度を統計量左連接Ethernet(2) 右連接 トポロジー(2) IP(3) IP(5) 割り当て(2) ネットワーク ドメイン(2)アドホック(1) アドレス MAC(4) 空間(1) プロトコル(1)コンピュータ(4) 5
    • 提案手法の流れ• ある専門分野qのコーパス中に出現する専門用語 を抽出する 分野qのカテゴリ内の記事におけ るアンカーテキスト集合Wqを抽出 分野qのカテゴリグラフを構築,リ 適合率向上 ダイレクトにより専門用語候補集 合Tqを抽出 対象コーパスとTqの類似度計算 再現率向上 専門分野q の専門用語 6
    • 適合率の向上:アンカーテキスト集合Wq カテゴリ集合 記事集合 アンカーテキ Cq Aq スト集合Wq C1 q t1 C2 t2 ・ ・ ・ ・ ・ ・ t3 Cn t4• カテゴリ集合Cqの記事集合Aq内のアンカーテキス ト集合Wqはqの専門用語が多く含まれる 7
    • 適合率の向上:カテゴリグラフの構築• Wqの用語の属するカテゴリがカテゴリグラフGq内 のノードであるかを判別 – カテゴリグラフ:qをルートノードとするカテゴリ情報を階 層化したもの(depth:深さ3と設定) カテゴリグラフGq Category: コンピュータ 2002年(カテゴリ:2002年) ネットワーク 旅行代理店 アンカー (カテゴリ:旅行,…) C1 C2 C3テキスト集合 depth 阪神淡路大震災 Wq (カテゴリ:日本の地震,…) IPアドレス C4 C5 C6 C7 C8 (カテゴリ:インターネットのプロトコル) crate≧α 専門用語 – エントリ情報はWik-IE[森:09]を利用 候補集合Tq 8
    • 適合率の向上:リダイレクト機能• ある記事が参照されたときに,別の記事に対して 転送するための機能 – 同義語や類義語などに設定される – 表記の揺らぎに対応できる 専門用語 Local Area LAN redirect!! 候補集合 Network Tq 新規登録 9
    • 提案手法の流れ• ある専門分野qのコーパス中に出現する専門用語 を抽出する 分野qのカテゴリ内の記事におけ るアンカーテキスト集合Wqを抽出 適合率向上 分野qのカテゴリグラフを構築,リ ダイレクトにより専門用語候補集 合Tqを抽出 対象コーパスとTqの類似度計算 再現率向上 専門分野q の専門用語 10
    • 再現率向上:専門用語候補集合Tqの問題点専門用語を抽出 形態素 専門用語 複合名詞 比較したいコーパス 解析 候補集合 集合 Tq• 対象コーパスと専門用語候補集合Tqの比較 – 適合率の高い用語集合 • 分野qのコーパスにも同一の用語が含まれている しかし• コーパスに出現する全ての専門用語がTqに含まれ ているとは限らない – Wikipediaの網羅性,表記の揺らぎ 11
    • 再現率向上:専門用語に類似する用語• コーパスに出現する全ての専門用語がTqに含まれ ているとは限らない• Tq内の用語と文字列で類似している用語は出現す るのでは 対象分野コーパス 専門用語 複合名詞集合Nq 候補集合Tq ・IEEE802.3ae ・IEEE802.11 ・HTTPS 類似 ・HTTP ・無線LANスイッチ ・無線LANアクセスポイント• Tqに類似している複合名詞を専門用語なのでは 12
    • 再現率向上:編集距離に基づく類似度計算• 文字単位のリストW=w1,w2,w3,…,wn• W1,i∈Nq, W2,j∈Tqに対する用語間の距離Dist(W1,i, W2,j)• W1,i =IPv6,W2,j=IP電話の場合 13
    • 再現率向上:複合名詞のスコア付け• W1,i∈Nqに専門用語性としてのスコアを付加する – 全てのW2,j∈Tqに対してDist(W1,i, W2,j)を計算 Dist(W1,i, W2,j) … … 距離が近いtop NのDist(W1,i, W2,j)の 平均値をW1,iのスコアとする – スコアが低いほど分野qの専門用語候補となる – N=10と設定 14
    • 評価実験:正解用語の作成1• 専門用語を抽出する対象コーパス – IT用語辞典「e-words」 • コンピュータネットワーク • プログラミング• 正解集合の作成 – 用語の見出しのうち語義文に出現する用語の集合 語義文 見出し 15
    • 評価実験:正解用語の作成2 形態素 見出しに 解析 複合名詞 ある用語か? 正解用語 集合 集合 語義文 照合 見出し• 見出しの部分一致用語も正解用語とする – 見出し語に「UTP」が含まれているとき • UTPケーブルも正解用語とする 16
    • 評価実験:評価方法 提案手法,FLR 複合名詞 でスコア付け 集合 スコア順 にソート 1 2 3 … N-2 N-1 N 正解用語集合に含まれる FLR … スコア 正解用語集合に含まれない提案手法 … スコア• スコア順にソートしたときのn(n:1~N)語までのF値 17
    • 実験結果• 提案手法はFLRよりも優れた精度 – コーパスの規模が大きくなるとFLRは精度がよくなる 18
    • 実験結果:スコア上位の用語• ジャンル:コンピュータネットワーク 提案手法 FLR 従来手法より比べ適合率・再現率が向上 19
    • 実験結果:スコア上位の用語• ジャンル:プログラミング 提案手法 FLR 20
    • 考察:他手法の性能• FLR – 出現頻度がベースとなっている – ストップワードを登録する必要がある• アンカーテキスト集合Wqの適合率・再現率 – ジャンル:ネットワーク • 再現率=1072/1759=60.94[%] • 適合率=1072/4000=26.80[%] – ジャンル:プログラミング • 再現率=353/380=92.89[%] • 適合率=353/3525=10.01[%] 21
    • 考察:パラメータ変動に対する精度• スコア付けでtop Nの平均値がα以下の用語を専門 用語とみなした場合 α recall(N=1) precision(N=1) recall(N=10) precision(N=10) recall(N=20) precision(N=20) recall(N=50) precision(N=50) 100 0.9454 0.4140 0.8738 0.4826 0.7970 0.4902 0.5253 0.4534 200 0.9528 0.4131 0.8931 0.4819 0.8374 0.4933 0.6282 0.4870 300 0.9534 0.4133 0.9016 0.4790 0.8601 0.4938 0.6720 0.4933 400 0.9534 0.4133 0.9096 0.4778 0.8738 0.4920 0.7453 0.5085 500 0.9534 0.4133 0.9193 0.4752 0.8835 0.4907 0.7817 0.4987 600 0.9534 0.4133 0.9255 0.4716 0.8943 0.4822 0.8175 0.4991 700 0.9534 0.4133 0.9323 0.4618 0.9096 0.4778 0.8516 0.4937 800 0.9534 0.4133 0.9375 0.4555 0.9255 0.4716 0.8835 0.4907 900 0.9534 0.4133 0.9483 0.4315 0.9375 0.4540 0.9193 0.4752 999 1.0000 0.2860 1.0000 0.2950 1.0000 0.2860 1.0000 0.2860• N個の平均値をとることでF値が上がっている 22
    • 考察:提案手法の有効性• 提案手法 – Wikipediaから得られたカテゴリが知識としてある ⇒適合率の向上につながった ⇒ストップワードを事前に登録する必要がない – 正解用語数が大きいコーパスは再現率が向上した 23
    • 考察:提案手法の改善点• 複合名詞を切り出して正解用語とした – 正解用語に登録されていれば切り出せる 専門用語 • 用語:CLR) 候補 – 正解用語に登録されていれば切り出せる CLR • IPマスカレード機能 IPアドレス – 切り出し方法を模索する必要がある• 処理時間 – Wikipediaを用いた手法[中谷:2008] • クエリqの専門用語を数秒程度で抽出できる – 提案手法 • 数百万件のレコードを扱うためデータベースのアクセスがボト ルネック 24
    • おわりに Wikipediaのエントリ構造(カテゴリ,リダイレク ト)と編集距離を用いて専門用語抽出を試みる• 提案手法 – 語彙のカテゴリを考慮する – 出現頻度に依存しにくい• 今後の展望 – 改善点を克服する – コーパスの種類を変える・規模の拡大 • ブログ・レビュー等の記事からの抽出 • NTCIRのTMRECテストコレクション 25