Character aware-neural-networks-for-arabic-named-entity-recognition-for-social-media

Character-Aware Neural Networks for Arabic Named
Entity Recognition for Social Media
長岡技術科学大学自然言語処理研究室
修士1年西山浩気
Mourad Gridach, Proceedings of the 6th Workshop on South and Southeast
Asian Natural Language Processing, pages 23–32, Osaka, Japan, December
11-17 2016.

 固有表現認識 (Named Entity Recognition)
 現代標準アラビア語 (MSA)ではなく
方言 (Dialectal Arabic) を解析
 Long Short Term Memory(LSTM)と
Conditional Random Field(CRF)の組み合わせで
NERシステムを構築
 ソーシャルメディア向けNERのベンチマークで
従来システムを大幅に上回る性能を達成
1. 概要
2

 大規模コーパス[Nadeau and Sekine ‘07]から
カテゴリ{Location, Organization} をタグ付けするタスク
 先行研究
✓ QAモデル[Ferrndez ‘07]
質問文には85%の固有名詞が含まれる
✓ 機械翻訳[Babych ’03]
翻訳にNERをシステムを加えることでパフォーマンスが向上
✓ 情報検索[Thompson ‘97]
固有表現を使用するとパフォーマンスが向上
2.1 固有表現認識はじめに
3

 現在の最先端システム
✓ MSAのテキスト解析では高性能
✓ 大規模な地名辞典を使用
 構築に時間とコストがかかる
✓ ソーシャルメディアへの関心は薄い
2.3 現行システムの問題点はじめに
4
 アラビア語はTwitterで6番目に多く使用された言語[Semiocast ‘12]
 発音記号などがなく曖昧で、複雑な言語

この論文では
Twitterにおいてアラビア語の固有表現認識に
重点をおいたNERシステムを実装
 過去のTweetから固有表現を学習
 人手による大規模辞書を用いた手法との比較
2.4 論文の目的はじめに
5

1. 事前に単語Embedding [Zahran et al., ‘15]を行う
2. TwitterテキストをLSTMに入力
3. NERタグ数と同次元の層に投影
4. CRF層を通して各単語にラベル付け
6
3.1 モデルの概要モデルの構造

7
3.1 モデルの概要モデルの構造

文字Embedding (Word2Vec)
 文字レベルの特徴を加えることで
多くの言語の翻訳結果が改善
[Luong and Manning, ‘16; Ling et al., ‘15; Chung et al., ‘15]
 複雑な前処理を必要としない
 アラビア語
接頭語 + 語幹 + 接頭辞から構成される
OOVが多く、パフォーマンス低下につながる
従来法では文字レベルのEmbddingはない
8
3.2 Embedding モデルの構造

 Twitterデータセット[Darwish, ‘13]
 3つのタグ : location, person, organization
 訓練データ
 2012年5月3～12日のTweet
 テストデータ
 2012年11月23～27日のTweet
9
4.1 データセット実験と評価

✓ 文字Embeddingを加えることで
F1スコアが 3.47ポイント改善
✓ 単語Embeddingを加えることで
F1スコアが 9.57 ポイント改善
✓ CRFレイヤーを追加することで
F1スコアが5.34ポイント改善
10
4.2 NERシステムの評価実験と評価

 大規模地名辞典を利用した手法[Zirikly and Diab, ‘15]
 半教師あり学習[Darwish and Gao, ‘14]
大規模な辞書等のデータセットを用いずに、
最高精度を獲得
11
4.2 従来手法との比較実験と評価

 LSTM と CRFを組み合わせたNERシステムの提案
 人手による特徴、辞書を用いずに
ソーシャルメディアのテキストにおける
最高精度を実現
 単語Embeddingと文字Embeddingは
形態的な特徴を自動で獲得する上で有用
 構文情報を獲得するためにCRFを利用することも
NERシステムにおいては有用
12
まとめ

Character aware-neural-networks-for-arabic-named-entity-recognition-for-social-media

Recommended

Recommended

More Related Content

Similar to Character aware-neural-networks-for-arabic-named-entity-recognition-for-social-media

Similar to Character aware-neural-networks-for-arabic-named-entity-recognition-for-social-media (10)

More from 浩気西山

More from 浩気西山 (12)