SlideShare a Scribd company logo
Character-Aware Neural Networks for Arabic Named
Entity Recognition for Social Media
長岡技術科学大学 自然言語処理研究室
修士1年 西山 浩気
Mourad Gridach, Proceedings of the 6th Workshop on South and Southeast
Asian Natural Language Processing, pages 23–32, Osaka, Japan, December
11-17 2016.
 固有表現認識 (Named Entity Recognition)
 現代標準アラビア語 (MSA)ではなく
方言 (Dialectal Arabic) を解析
 Long Short Term Memory(LSTM)と
Conditional Random Field(CRF)の組み合わせで
NERシステムを構築
 ソーシャルメディア向けNERのベンチマークで
従来システムを大幅に上回る性能を達成
1. 概要
2
 大規模コーパス[Nadeau and Sekine ‘07]から
カテゴリ{Location, Organization} をタグ付けするタスク
 先行研究
✓ QAモデル[Ferrndez ‘07]
質問文には85%の固有名詞が含まれる
✓ 機械翻訳[Babych ’03]
翻訳にNERをシステムを加えることでパフォーマンスが向上
✓ 情報検索[Thompson ‘97]
固有表現を使用するとパフォーマンスが向上
2.1 固有表現認識 はじめに
3
 現在の最先端システム
✓ MSAのテキスト解析では高性能
✓ 大規模な地名辞典を使用
 構築に時間とコストがかかる
✓ ソーシャルメディアへの関心は薄い
2.3 現行システムの問題点 はじめに
4
 アラビア語はTwitterで6番目に多く使用された言語[Semiocast ‘12]
 発音記号などがなく曖昧で、複雑な言語
この論文では
Twitterにおいてアラビア語の固有表現認識に
重点をおいたNERシステムを実装
 過去のTweetから固有表現を学習
 人手による大規模辞書を用いた手法との比較
2.4 論文の目的 はじめに
5
1. 事前に単語Embedding [Zahran et al., ‘15]を行う
2. TwitterテキストをLSTMに入力
3. NERタグ数と同次元の層に投影
4. CRF層を通して各単語にラベル付け
6
3.1 モデルの概要 モデルの構造
7
3.1 モデルの概要 モデルの構造
文字Embedding (Word2Vec)
 文字レベルの特徴を加えることで
多くの言語の翻訳結果が改善
[Luong and Manning, ‘16; Ling et al., ‘15; Chung et al., ‘15]
 複雑な前処理を必要としない
 アラビア語
接頭語 + 語幹 + 接頭辞 から構成される
OOVが多く、パフォーマンス低下につながる
従来法では文字レベルのEmbddingはない
8
3.2 Embedding モデルの構造
 Twitterデータセット[Darwish, ‘13]
 3つのタグ : location, person, organization
 訓練データ
 2012年5月3~12日のTweet
 テストデータ
 2012年11月23~27日のTweet
9
4.1 データセット 実験と評価
✓ 文字Embeddingを加えることで
F1スコアが 3.47ポイント改善
✓ 単語Embeddingを加えることで
F1スコアが 9.57 ポイント改善
✓ CRFレイヤーを追加することで
F1スコアが5.34ポイント改善
10
4.2 NERシステムの評価 実験と評価
 大規模地名辞典を利用した手法[Zirikly and Diab, ‘15]
 半教師あり学習[Darwish and Gao, ‘14]
大規模な辞書等のデータセットを用いずに、
最高精度を獲得
11
4.2 従来手法との比較 実験と評価
 LSTM と CRFを組み合わせたNERシステムの提案
 人手による特徴、辞書を用いずに
ソーシャルメディアのテキストにおける
最高精度を実現
 単語Embeddingと文字Embeddingは
形態的な特徴を自動で獲得する上で有用
 構文情報を獲得するためにCRFを利用することも
NERシステムにおいては有用
12
まとめ

More Related Content

Similar to Character aware-neural-networks-for-arabic-named-entity-recognition-for-social-media

Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
オラクルエンジニア通信
 
Javaでつくる本格形態素解析器
Javaでつくる本格形態素解析器Javaでつくる本格形態素解析器
Javaでつくる本格形態素解析器
Works Applications
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...
Kanji Takahashi
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
 
20190324 第6章 テキストデータのための素性
20190324 第6章 テキストデータのための素性20190324 第6章 テキストデータのための素性
20190324 第6章 テキストデータのための素性
Kazuki Motohashi
 
形態素解析
形態素解析形態素解析
形態素解析
Works Applications
 
リッチなドメインモデル 名前探し
リッチなドメインモデル 名前探しリッチなドメインモデル 名前探し
リッチなドメインモデル 名前探し
増田 亨
 
Erpと自然言語処理
Erpと自然言語処理Erpと自然言語処理
Erpと自然言語処理
Works Applications
 
20220113 my seeking_sre_v3
20220113 my seeking_sre_v320220113 my seeking_sre_v3
20220113 my seeking_sre_v3
Ayachika Kitazaki
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 

Similar to Character aware-neural-networks-for-arabic-named-entity-recognition-for-social-media (10)

Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
Oracle Data Minerハンズオンセミナー170927:①Oracle 機械学習概要
 
Javaでつくる本格形態素解析器
Javaでつくる本格形態素解析器Javaでつくる本格形態素解析器
Javaでつくる本格形態素解析器
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
 
20190324 第6章 テキストデータのための素性
20190324 第6章 テキストデータのための素性20190324 第6章 テキストデータのための素性
20190324 第6章 テキストデータのための素性
 
形態素解析
形態素解析形態素解析
形態素解析
 
リッチなドメインモデル 名前探し
リッチなドメインモデル 名前探しリッチなドメインモデル 名前探し
リッチなドメインモデル 名前探し
 
Erpと自然言語処理
Erpと自然言語処理Erpと自然言語処理
Erpと自然言語処理
 
20220113 my seeking_sre_v3
20220113 my seeking_sre_v320220113 my seeking_sre_v3
20220113 my seeking_sre_v3
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 

More from 浩気 西山

Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
浩気 西山
 
Character word lstm language models
Character word lstm language modelsCharacter word lstm language models
Character word lstm language models
浩気 西山
 
Nlp2018 参加報告
Nlp2018 参加報告Nlp2018 参加報告
Nlp2018 参加報告
浩気 西山
 
Evaluating non expert_annotations_for_natural_language_tasks
Evaluating non expert_annotations_for_natural_language_tasksEvaluating non expert_annotations_for_natural_language_tasks
Evaluating non expert_annotations_for_natural_language_tasks
浩気 西山
 
Semi supervised sequence tagging with bidirectional language models
Semi supervised sequence tagging with bidirectional language modelsSemi supervised sequence tagging with bidirectional language models
Semi supervised sequence tagging with bidirectional language models
浩気 西山
 
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency PathsClassifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
浩気 西山
 
Neural Network Language Model For Chinese Pinyin Input Method Engine
Neural Network Language Model For Chinese Pinyin Input Method EngineNeural Network Language Model For Chinese Pinyin Input Method Engine
Neural Network Language Model For Chinese Pinyin Input Method Engine
浩気 西山
 
Are emojis predictable
Are emojis predictableAre emojis predictable
Are emojis predictable
浩気 西山
 
Semantic analysis and helpfulness prediction of text for online product reviews
Semantic analysis and helpfulness prediction of text  for online product reviewsSemantic analysis and helpfulness prediction of text  for online product reviews
Semantic analysis and helpfulness prediction of text for online product reviews
浩気 西山
 
Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...
浩気 西山
 
1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム
浩気 西山
 
1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム
浩気 西山
 

More from 浩気 西山 (12)

Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
 
Character word lstm language models
Character word lstm language modelsCharacter word lstm language models
Character word lstm language models
 
Nlp2018 参加報告
Nlp2018 参加報告Nlp2018 参加報告
Nlp2018 参加報告
 
Evaluating non expert_annotations_for_natural_language_tasks
Evaluating non expert_annotations_for_natural_language_tasksEvaluating non expert_annotations_for_natural_language_tasks
Evaluating non expert_annotations_for_natural_language_tasks
 
Semi supervised sequence tagging with bidirectional language models
Semi supervised sequence tagging with bidirectional language modelsSemi supervised sequence tagging with bidirectional language models
Semi supervised sequence tagging with bidirectional language models
 
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency PathsClassifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
 
Neural Network Language Model For Chinese Pinyin Input Method Engine
Neural Network Language Model For Chinese Pinyin Input Method EngineNeural Network Language Model For Chinese Pinyin Input Method Engine
Neural Network Language Model For Chinese Pinyin Input Method Engine
 
Are emojis predictable
Are emojis predictableAre emojis predictable
Are emojis predictable
 
Semantic analysis and helpfulness prediction of text for online product reviews
Semantic analysis and helpfulness prediction of text  for online product reviewsSemantic analysis and helpfulness prediction of text  for online product reviews
Semantic analysis and helpfulness prediction of text for online product reviews
 
Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...
 
1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム
 
1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム
 

Character aware-neural-networks-for-arabic-named-entity-recognition-for-social-media