Improving vietnamese word segmentation and pos tagging using MEM with various kinds of resources
1.
Improving Vietnamese Word Segmentation and POS
Tagging using MEM with Various Kinds of Resources
長岡技術科学大学 自然言語処理研究室
高橋寛治
Oanh Thi Tran, Cuong Anh Le1, Thuy Quang Ha
自然言語処理, Vol. 17, No. 3, pp.41-60, 言語処理学会, 2010
文献紹介 2015年11月19日
2.
概要
•ベトナム語単語分割と品詞付与に様々な資源を用
いて精度を向上
•辞書ベースのモデルやN-gramモデル、固有表現
モデルを最大エントロピーモデルに組み込む
•品詞付与では中国語とベトナム語の特徴を利用し
て新しい素性を提案
•F値で単語分割は95.30%、品詞付与は89.64%
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 2
3.
単語分割の位置付け
•応用のための基本的な処理
•ベトナム語の単語分割は性質上難しい
Ø孤立語
Ø活用や語形変化がない
Ø文字列はアルファベット
Ø単語境界がない
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 3
4.
Ông già đi nhanh quá
• [Ông già] [đi] [nhanh quá] -> The old man walks too fast
-> My father walks too fast
• [Ông già] [đi] [nhanh quá] -> The old man died too fast
-> My father died too fast
• [Ông] [già đi] [nhanh quá] -> You get old too fast
-> Grandfather gets old too fast
様々な解釈が可能
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 4
5.
関連研究
•単語分割
ØN-gramを用いる(Ha 2003)
ØCRFとSVM(Cam-Tu Nguyen 2007)
ØMEM(Dien and Thuy 2006)
u未知語処理と単語分割を分けたアプローチ
•品詞付与(単語の情報を利用)
Ø統計に基づくvnQTAG(Huyen 2003)
Ø種々の素性をSVMを用いる(Minh and Dien 2008)
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 5
6.
関連するモデルの概要
Improving Vietnamese Word Segmentation and POS Tagging
using MEM with Various Kinds of Resources
6
7.
辞書ベースのモデル
•典型的な手法は、最長一致法と単語数最小法
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 7
Original sent. Đó là cách để truyền thông tin
×:1st word-segmented sent Đó là cáchđể truyền_thông tin
○:2nd word-segmented sent Đó là cáchđể truyền thông_tin
Original sent. Học sinh học sinh học
?:1st word-segmented sent Học_sinh học_sinh học
?:2nd word-segmented sent Học_sinh học sinh_học
•最長一致法
•単語数最小法
8.
N-Gramベースのモデル
•ベトナム語単語分割でいい結果(Le Ha 2003)
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 8
9.
固有表現認識モデル
•固有表現を分類
•機械学習手法が用いられる(Tri et al.2007)
•単語分割と非常に関連がある
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 9
[PERSON Ông Nguyễn Hừ Minh] được đề cử chức tổng giảm
đốc của [ORG Công ty Đại Á] nhiệm kỳ [DTIME 2002-2006]
[PERSON Mr Nguyen Huu Minh] is recommended as the CEO of [ORG Dai
A corporation] for [DTIME 2002-2006]
10.
単語分割モデル
•固有表現の利用
•未知語への対応(事前調査で約10%)
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 10
11.
単語分割に用いる素性
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 11
12.
辞書ベースのモデル
•対象の音節の左側の音節を用いる
Ø最長一致法の経験から
•単語は最大4音節で構成されるので、幅4
ØSC(-3,0), SC(-2,0), SC(-1,0), SC(0,0)
Ø辞書に存在するなら「1」、しないなら「0」
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 12
13.
固有表現モデル
•正規表現での獲得できるものを対象
Øベトナム人の名前(約2万)
u名前=姓+ミドルネーム+名
uNguyễn Văn Hải
Øベトナムの地名(約800)
•マッチしていれば「1」、してないなら「0」
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 13
14.
N-gramモデル
•ベトナム語Wikipediaから14M音節
•2-gramと3-gramを利用
•0から1の値となるように正規化
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 14
15.
実験
•最大エントロピーモデルを分類に利用
ØラベルはB_WとI_W
•新聞から8,000文抽出し利用
•5分割交差検定により評価
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 15
16.
結果
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 16
全部使用
未知語は20%ほど改善
17.
品詞付与
•コーパスの作成
Ø14種類の品詞タグと記号タグ
Ø種々の題材8000文にタグ済み
uhttp://vnlp.net/blog/?p=164
•ベトナム語品詞付与のモデル
Ø単語ベース及び形態素ベースの素性
u位置、窓幅2での連接、前の品詞
u1つ前と2つ前の品詞、句読点?、大文字?
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 17
18.
実験
•コーパス
ØViettrebank(VNLP 2009)
u17品詞
u種々のトピックから1万文
ØvnPOS
u今回作成したもの
u14品詞
•それぞれ5分割交差検定
•BLMVMアルゴリズムを利用
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 18
19.
結果
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 19
形態素素性はいつも精度を向上させる
20.
まとめ
•様々な知識を用いたベトナム語単語分割を提案
•形態素ベースの品詞付与も提案。89.64%
•タグ付きコーパス(8000文)を作成し、公開
Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources 20
It appears that you have an ad-blocker running. By whitelisting SlideShare on your ad-blocker, you are supporting our community of content creators.
Hate ads?
We've updated our privacy policy.
We’ve updated our privacy policy so that we are compliant with changing global privacy regulations and to provide you with insight into the limited ways in which we use your data.
You can read the details below. By accepting, you agree to the updated privacy policy.