Submit Search
Upload
NLP2012
•
1 like
•
418 views
Yuki Nakayama
Follow
試しにアップロード。 NLP2012で発表(pdf版)。 修士論文執筆の傍らでやってた趣味的研究。 あわよくば,発展させて論文化できたらいいな( ´∀`)
Read less
Read more
Technology
Report
Share
Report
Share
1 of 25
Download now
Download to read offline
Recommended
FHE in Action
FHE in Action
文杰 陆
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装
Ryosuke Okuta
音声認識と深層学習
音声認識と深層学習
Preferred Networks
CV勉強会@関東 3巻3章4節 画像表現
CV勉強会@関東 3巻3章4節 画像表現
Yusuke Uchida
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Yuya Unno
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
Shirou Maruyama
Recommended
FHE in Action
FHE in Action
文杰 陆
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装
Ryosuke Okuta
音声認識と深層学習
音声認識と深層学習
Preferred Networks
CV勉強会@関東 3巻3章4節 画像表現
CV勉強会@関東 3巻3章4節 画像表現
Yusuke Uchida
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Yuya Unno
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
Shirou Maruyama
K-means hashing (CVPR'13) とハッシング周り
K-means hashing (CVPR'13) とハッシング周り
Yusuke Uchida
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
正志 坪坂
Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)
Kenta Oono
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
Deep Learning JP
Infer.netによるldaの実装
Infer.netによるldaの実装
池田 直哉
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
Seiya Tokui
MS COCO Dataset Introduction
MS COCO Dataset Introduction
Shinagawa Seitaro
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
Deep Learning JP
NumPy闇入門
NumPy闇入門
Ryosuke Okuta
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
Tomoki Hayashi
Jupyter NotebookとChainerで楽々Deep Learning
Jupyter NotebookとChainerで楽々Deep Learning
Jun-ya Norimatsu
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
Preferred Networks
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Ohsawa Goodfellow
A Multiple Pairs Shortest Path Algorithm 解説
A Multiple Pairs Shortest Path Algorithm 解説
Osamu Masutani
Vae gan nlp
Vae gan nlp
Masato Nakai
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
Hackerspace(Biocurious), TechShop, Stanford report
Hackerspace(Biocurious), TechShop, Stanford report
Takahiro Okada
Coursera machine learning week7: Support Vector Machines
Coursera machine learning week7: Support Vector Machines
TIS株式会社
More Related Content
What's hot
K-means hashing (CVPR'13) とハッシング周り
K-means hashing (CVPR'13) とハッシング周り
Yusuke Uchida
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
正志 坪坂
Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)
Kenta Oono
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
Deep Learning JP
Infer.netによるldaの実装
Infer.netによるldaの実装
池田 直哉
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
Seiya Tokui
MS COCO Dataset Introduction
MS COCO Dataset Introduction
Shinagawa Seitaro
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
Deep Learning JP
NumPy闇入門
NumPy闇入門
Ryosuke Okuta
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
Tomoki Hayashi
Jupyter NotebookとChainerで楽々Deep Learning
Jupyter NotebookとChainerで楽々Deep Learning
Jun-ya Norimatsu
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
Preferred Networks
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Ohsawa Goodfellow
A Multiple Pairs Shortest Path Algorithm 解説
A Multiple Pairs Shortest Path Algorithm 解説
Osamu Masutani
Vae gan nlp
Vae gan nlp
Masato Nakai
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
What's hot
(20)
K-means hashing (CVPR'13) とハッシング周り
K-means hashing (CVPR'13) とハッシング周り
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
Introduction to Chainer (LL Ring Recursive)
Introduction to Chainer (LL Ring Recursive)
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
Infer.netによるldaの実装
Infer.netによるldaの実装
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
MS COCO Dataset Introduction
MS COCO Dataset Introduction
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representatio...
NumPy闇入門
NumPy闇入門
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
Jupyter NotebookとChainerで楽々Deep Learning
Jupyter NotebookとChainerで楽々Deep Learning
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
A Multiple Pairs Shortest Path Algorithm 解説
A Multiple Pairs Shortest Path Algorithm 解説
Vae gan nlp
Vae gan nlp
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Viewers also liked
Hackerspace(Biocurious), TechShop, Stanford report
Hackerspace(Biocurious), TechShop, Stanford report
Takahiro Okada
Coursera machine learning week7: Support Vector Machines
Coursera machine learning week7: Support Vector Machines
TIS株式会社
集合知第7回
集合知第7回
Noboru Kano
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
sleepy_yoshi
NIPS 2016 Overview and Deep Learning Topics
NIPS 2016 Overview and Deep Learning Topics
Koichi Hamada
CVPR 2016 まとめ v1
CVPR 2016 まとめ v1
cvpaper. challenge
SVMについて
SVMについて
mknh1122
「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11
Minoru Chikamune
機械学習の理論と実践
機械学習の理論と実践
Preferred Networks
Viewers also liked
(9)
Hackerspace(Biocurious), TechShop, Stanford report
Hackerspace(Biocurious), TechShop, Stanford report
Coursera machine learning week7: Support Vector Machines
Coursera machine learning week7: Support Vector Machines
集合知第7回
集合知第7回
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
NIPS 2016 Overview and Deep Learning Topics
NIPS 2016 Overview and Deep Learning Topics
CVPR 2016 まとめ v1
CVPR 2016 まとめ v1
SVMについて
SVMについて
「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11
機械学習の理論と実践
機械学習の理論と実践
Similar to NLP2012
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
Hideki Okada
Patentmap r xinagze
Patentmap r xinagze
Xiangze
ipsjifat201909
ipsjifat201909
Tetsuya Sakai
The Anatomy of Large-Scale Social Search Engine
The Anatomy of Large-Scale Social Search Engine
sleepy_yoshi
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
広樹 本間
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
Shinya Takamaeda-Y
2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料
Recruit Technologies
Look into Project Valhalla from CLR viewpoint
Look into Project Valhalla from CLR viewpoint
Logico
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Tomoharu ASAMI
Software Development with Symfony
Software Development with Symfony
Atsuhiro Kubo
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
Takahito Tejima
Klab expert camp 成果発表
Klab expert camp 成果発表
teruyaono1
NINと画像分類 for 人工知能LT祭
NINと画像分類 for 人工知能LT祭
t dev
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
Mk network programmability-03
Mk network programmability-03
Miya Kohno
Linux Kernel Seminar in tripodworks
Linux Kernel Seminar in tripodworks
tripodworks
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
Shintaro Takemura
2012-03-08 MSS研究会
2012-03-08 MSS研究会
Kimikazu Kato
Similar to NLP2012
(20)
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
Patentmap r xinagze
Patentmap r xinagze
ipsjifat201909
ipsjifat201909
The Anatomy of Large-Scale Social Search Engine
The Anatomy of Large-Scale Social Search Engine
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
全力解説!Transformer
全力解説!Transformer
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
2014 11-20 Machine Learning with Apache Spark 勉強会資料
2014 11-20 Machine Learning with Apache Spark 勉強会資料
Look into Project Valhalla from CLR viewpoint
Look into Project Valhalla from CLR viewpoint
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Software Development with Symfony
Software Development with Symfony
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
Klab expert camp 成果発表
Klab expert camp 成果発表
NINと画像分類 for 人工知能LT祭
NINと画像分類 for 人工知能LT祭
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Mk network programmability-03
Mk network programmability-03
Linux Kernel Seminar in tripodworks
Linux Kernel Seminar in tripodworks
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
2012-03-08 MSS研究会
2012-03-08 MSS研究会
Recently uploaded
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Recently uploaded
(8)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NLP2012
1.
C1-3 Wikipediaのエントリ構造と編集距 離を用いた専門用語抽出の試み
金沢大学 中山 祐輝 2012/03/14(水) NLP2012
2.
はじめに:専門用語の自動抽出の必要性 • 最新の辞書を構築する時間コストを削減 • 専門用語を指標とするアプリケーション(情報理解
支援システム) – Y. Nishihara et al. 2005 • 出現頻度と難しさを指標としている – M. Nakatani et al. 2009 • 出現頻度 • 専門用語自動抽出の技術が求められている 2
3.
従来の専門用語自動抽出手法 • 対象コーパスを解析 –
FLR[中川:03],C-value[Frantzi et al.:2000],UC • 対象コーパスと異なる分野のコーパスを解析 – MDP[久保:10] ,Wikipediaを用いた手法[中谷:2008] • 対象分野のコーパスの出現頻度や出現パターン 解析する手法が主流である – 一般名詞が抽出されやすくなり,精度が低下する – 出現頻度が低い用語も含まれ,再現率が低下する 3
4.
本発表の目的 • 適合率低下の問題 –
ある用語がどのようなカテゴリに属しているかは考慮さ れていない – ある用語のカテゴリ情報を考慮すればよいのでは • 再現率低下の問題 – 扱われにくい専門用語が含まれている – 他の専門用語と文字列で類似しているのでは Wikipediaのエントリ構造(カテゴリ,リダイレク ト)と編集距離を用いて専門用語抽出を試みる 既存の手法と比較し,改善点を見つける 4
5.
比較対象の従来手法:FLR • 複合名詞CN(例.ネットワークアドレス)のスコア付
けを行う – 単名詞に分割(ネットワーク,アドレス) – 左右に連接する用語の種類と出現頻度を統計量 左連接 Ethernet(2) 右連接 トポロジー(2) IP(3) IP(5) 割り当て(2) ネットワーク ドメイン(2) アドホック(1) アドレス MAC(4) 空間(1) プロトコル(1) コンピュータ(4) 5
6.
提案手法の流れ • ある専門分野qのコーパス中に出現する専門用語
を抽出する 分野qのカテゴリ内の記事におけ るアンカーテキスト集合Wqを抽出 分野qのカテゴリグラフを構築,リ 適合率向上 ダイレクトにより専門用語候補集 合Tqを抽出 対象コーパスとTqの類似度計算 再現率向上 専門分野q の専門用語 6
7.
適合率の向上:アンカーテキスト集合Wq
カテゴリ集合 記事集合 アンカーテキ Cq Aq スト集合Wq C1 q t1 C2 t2 ・ ・ ・ ・ ・ ・ t3 Cn t4 • カテゴリ集合Cqの記事集合Aq内のアンカーテキス ト集合Wqはqの専門用語が多く含まれる 7
8.
適合率の向上:カテゴリグラフの構築 • Wqの用語の属するカテゴリがカテゴリグラフGq内
のノードであるかを判別 – カテゴリグラフ:qをルートノードとするカテゴリ情報を階 層化したもの(depth:深さ3と設定) カテゴリグラフGq Category: コンピュータ 2002年(カテゴリ:2002年) ネットワーク 旅行代理店 アンカー (カテゴリ:旅行,…) C1 C2 C3 テキスト集合 depth 阪神淡路大震災 Wq (カテゴリ:日本の地震,…) IPアドレス C4 C5 C6 C7 C8 (カテゴリ:インターネットのプロトコル) crate≧α 専門用語 – エントリ情報はWik-IE[森:09]を利用 候補集合Tq 8
9.
適合率の向上:リダイレクト機能 • ある記事が参照されたときに,別の記事に対して
転送するための機能 – 同義語や類義語などに設定される – 表記の揺らぎに対応できる 専門用語 Local Area LAN redirect!! 候補集合 Network Tq 新規登録 9
10.
提案手法の流れ • ある専門分野qのコーパス中に出現する専門用語
を抽出する 分野qのカテゴリ内の記事におけ るアンカーテキスト集合Wqを抽出 適合率向上 分野qのカテゴリグラフを構築,リ ダイレクトにより専門用語候補集 合Tqを抽出 対象コーパスとTqの類似度計算 再現率向上 専門分野q の専門用語 10
11.
再現率向上:専門用語候補集合Tqの問題点 専門用語を抽出
形態素 専門用語 複合名詞 比較 したいコーパス 解析 候補集合 集合 Tq • 対象コーパスと専門用語候補集合Tqの比較 – 適合率の高い用語集合 • 分野qのコーパスにも同一の用語が含まれている しかし • コーパスに出現する全ての専門用語がTqに含まれ ているとは限らない – Wikipediaの網羅性,表記の揺らぎ 11
12.
再現率向上:専門用語に類似する用語 • コーパスに出現する全ての専門用語がTqに含まれ
ているとは限らない • Tq内の用語と文字列で類似している用語は出現す るのでは 対象分野コーパス 専門用語 複合名詞集合Nq 候補集合Tq ・IEEE802.3ae ・IEEE802.11 ・HTTPS 類似 ・HTTP ・無線LANスイッチ ・無線LANアクセスポイント • Tqに類似している複合名詞を専門用語なのでは 12
13.
再現率向上:編集距離に基づく類似度計算 • 文字単位のリストW=w1,w2,w3,…,wn • W1,i∈Nq,
W2,j∈Tqに対する用語間の距離Dist(W1,i, W2,j) • W1,i =IPv6,W2,j=IP電話の場合 13
14.
再現率向上:複合名詞のスコア付け • W1,i∈Nqに専門用語性としてのスコアを付加する –
全てのW2,j∈Tqに対してDist(W1,i, W2,j)を計算 Dist(W1,i, W2,j) … … 距離が近いtop NのDist(W1,i, W2,j)の 平均値をW1,iのスコアとする – スコアが低いほど分野qの専門用語候補となる – N=10と設定 14
15.
評価実験:正解用語の作成1 • 専門用語を抽出する対象コーパス –
IT用語辞典「e-words」 • コンピュータネットワーク • プログラミング • 正解集合の作成 – 用語の見出しのうち語義文に出現する用語の集合 語義文 見出し 15
16.
評価実験:正解用語の作成2
形態素 見出しに 解析 複合名詞 ある用語か? 正解用語 集合 集合 語義文 照合 見出し • 見出しの部分一致用語も正解用語とする – 見出し語に「UTP」が含まれているとき • UTPケーブルも正解用語とする 16
17.
評価実験:評価方法
提案手法,FLR 複合名詞 でスコア付け 集合 スコア順 にソート 1 2 3 … N-2 N-1 N 正解用語集合に含まれる FLR … スコア 正解用語集合に含まれない 提案手法 … スコア • スコア順にソートしたときのn(n:1~N)語までのF値 17
18.
実験結果 • 提案手法はFLRよりも優れた精度 –
コーパスの規模が大きくなるとFLRは精度がよくなる 18
19.
実験結果:スコア上位の用語 • ジャンル:コンピュータネットワーク
提案手法 FLR 従来手法より比べ適合率・再現率が向上 19
20.
実験結果:スコア上位の用語 • ジャンル:プログラミング
提案手法 FLR 20
21.
考察:他手法の性能 • FLR
– 出現頻度がベースとなっている – ストップワードを登録する必要がある • アンカーテキスト集合Wqの適合率・再現率 – ジャンル:ネットワーク • 再現率=1072/1759=60.94[%] • 適合率=1072/4000=26.80[%] – ジャンル:プログラミング • 再現率=353/380=92.89[%] • 適合率=353/3525=10.01[%] 21
22.
考察:パラメータ変動に対する精度 • スコア付けでtop Nの平均値がα以下の用語を専門
用語とみなした場合 α recall(N=1) precision(N=1) recall(N=10) precision(N=10) recall(N=20) precision(N=20) recall(N=50) precision(N=50) 100 0.9454 0.4140 0.8738 0.4826 0.7970 0.4902 0.5253 0.4534 200 0.9528 0.4131 0.8931 0.4819 0.8374 0.4933 0.6282 0.4870 300 0.9534 0.4133 0.9016 0.4790 0.8601 0.4938 0.6720 0.4933 400 0.9534 0.4133 0.9096 0.4778 0.8738 0.4920 0.7453 0.5085 500 0.9534 0.4133 0.9193 0.4752 0.8835 0.4907 0.7817 0.4987 600 0.9534 0.4133 0.9255 0.4716 0.8943 0.4822 0.8175 0.4991 700 0.9534 0.4133 0.9323 0.4618 0.9096 0.4778 0.8516 0.4937 800 0.9534 0.4133 0.9375 0.4555 0.9255 0.4716 0.8835 0.4907 900 0.9534 0.4133 0.9483 0.4315 0.9375 0.4540 0.9193 0.4752 999 1.0000 0.2860 1.0000 0.2950 1.0000 0.2860 1.0000 0.2860 • N個の平均値をとることでF値が上がっている 22
23.
考察:提案手法の有効性 • 提案手法 –
Wikipediaから得られたカテゴリが知識としてある ⇒適合率の向上につながった ⇒ストップワードを事前に登録する必要がない – 正解用語数が大きいコーパスは再現率が向上した 23
24.
考察:提案手法の改善点 • 複合名詞を切り出して正解用語とした –
正解用語に登録されていれば切り出せる 専門用語 • 用語:CLR) 候補 – 正解用語に登録されていれば切り出せる CLR • IPマスカレード機能 IPアドレス – 切り出し方法を模索する必要がある • 処理時間 – Wikipediaを用いた手法[中谷:2008] • クエリqの専門用語を数秒程度で抽出できる – 提案手法 • 数百万件のレコードを扱うためデータベースのアクセスがボト ルネック 24
25.
おわりに Wikipediaのエントリ構造(カテゴリ,リダイレク ト)と編集距離を用いて専門用語抽出を試みる •
提案手法 – 語彙のカテゴリを考慮する – 出現頻度に依存しにくい • 今後の展望 – 改善点を克服する – コーパスの種類を変える・規模の拡大 • ブログ・レビュー等の記事からの抽出 • NTCIRのTMRECテストコレクション 25
Download now