Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ソーシャルメディア分析サービスにおけ
るNLPに関する諸問題について
株式会社ホットリンク
榊 剛史 水木 栄
サービス紹介
ソーシャルメディア分析ツール
Copyright© Hottolink, Inc.
▶TOPICS ソーシャルメディア分析ツールの機能
検索機能 記事数集計
本文抽出
Copyright© Hottolink, Inc.
▶TOPICS ソーシャルメディア分析ツールの機能
話題語
関連語
Copyright© Hottolink, Inc.
▶TOPICS 分析機能とNLP技術の関係
検索 関連語話題語 評判
属性推定 スパム判定
形態素解析
(分かち書き)
複合語処理 評判分析
スパムフィルタユーザ属性
係り受け解析
ソーシャ...
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS ソーシャルメディアに見られる文書の特徴
「高飛車」だけじゃない…過去に起きたジェットコースター
の事故 ...
Copyright© Hottolink, Inc.
▶TOPICS 目的に即した分かち書きの必要性
目的 望ましい要件
検索インデックスの作成
([高橋ら 2016])
・短単位志向であること(Recall確保のため)
・再現性が高いこと
・...
Copyright© Hottolink, Inc.
▶TOPICS 目次
1. 前処理
• 文字の正規化
• テキストメタ情報の除去・抽出
2. 分かち書き・形態素解析
• 辞書の拡張
• カタカナ複合語の分割
• 顔文字の認識
3. 複合語...
Copyright© Hottolink, Inc.
▶TOPICS 1. 前処理
検索 関連語話題語
形態素解析
(分かち書き)
複合語処理
ソーシャルメディアの文書
前処理
Copyright© Hottolink, Inc.
▶TOPICS 文字の正規化
問題例
Playstation3(全角) ⇔ Playstation3(半角) ㍉ ⇔ ミリ ハ゛ラモス ⇔ バラモス
• 見た目上は同じような・類似した表記で...
Copyright© Hottolink, Inc.
▶TOPICS 文字の正規化
• Unicodeの正規化(Unicode[1998])
– NFD(Normalization Form Canonical Decomposition)
•...
Copyright© Hottolink, Inc.
▶TOPICS 文字の正規化
参考 正規化対象外の文字→ ‘Punctuation, Dash’ カテゴリ
http://www.fileformat.info/info/unicode/c...
Copyright© Hottolink, Inc.
▶TOPICS テキストメタ情報の除去・抽出
問題例
• ソーシャルメディアの場合、文書に対するメタ情報がテキスト形式で本文に
埋め込まれることが多い
• これらのメタ情報により分かち書き誤...
Copyright© Hottolink, Inc.
▶TOPICS 2. 分かち書き・形態素解析
検索 関連語話題語
分かち書き
形態素解析
複合語処理
ソーシャルメディアの文書
前処理
Copyright© Hottolink, Inc.
▶TOPICS 辞書の拡張
• 固有表現/エンティティ抽出を志向する場合、固有表現の単位で分かち書き
されることが望ましい
• 汎用志向の辞書(ipadic, unidicなど)を用いると、...
Copyright© Hottolink, Inc.
▶TOPICS 辞書の拡張
• mecab-ipadic-NEologd(Sato[2015])は、ウェブ上の言語資源から得た新語を
追加したMeCab用辞書を一般に公開する試みである
• ...
Copyright© Hottolink, Inc.
▶TOPICS カタカナ複合語の分割
• 英語複合語は、カタカナ複合語として表記される場合が多い
– 例:Crew Neck Raglan Shirt = クルーネックラグランシャツ
– 特...
Copyright© Hottolink, Inc.
▶TOPICS カタカナ複合語の分割
• IPADICを用いて形態素解析を行ってから、長文字数のカタカナ語のみを抽
出して、UniDic(小木曽ら[2013])を用いて再解析を行う
• Un...
Copyright© Hottolink, Inc.
▶TOPICS 顔文字の認識
• 顔文字は、顔のように見える文字・記号列を用いた表現である。ソーシャル
データにおいては頻繁に利用される
– 「\(^o^)/」「(>_<)」「(^^)」「(...
Copyright© Hottolink, Inc.
▶TOPICS (参考)顔文字の統計的性質
• 顔文字を単語とみなして単語分散表現を推定、次元圧縮を行うと、おおむ
ね感情語と整合的な配置が得られる
出典:弊社・風間研究室の共同研究
Wor...
Copyright© Hottolink, Inc.
▶TOPICS 顔文字の認識
• 顔文字の規則性を利用して、抽出する(風間ら[2013],三好[2013])
※本技術は、和歌山大学 風間研究室からの技術提供による
• 短所は、(1)誤認識...
Copyright© Hottolink, Inc.
▶TOPICS 顔文字の認識
対処困難な事象
• 顔文字は改変が容易であるため、活用形(?)が大量に存在する
– 改変の例:パーツの置換、装飾の付与・除去、スペースの挿入、繰り返し など
–...
Copyright© Hottolink, Inc.
▶TOPICS 3. 複合語処理
検索 関連語話題語
分かち書き
形態素解析
複合語処理
ソーシャルメディアの文書
前処理
Copyright© Hottolink, Inc.
▶TOPICS ルールに基づく連結
問題例
• 複合名詞において、結合される品詞には一定のパターンがある
• 上記パターンに注目し、複合名詞となりうるかの手がかりとして用いる
種類 複合名詞...
Copyright© Hottolink, Inc.
▶TOPICS ルールに基づく連結
解決策 複合名詞として認識すべき品詞の連接パターンを予め定めておく
アスティ|三島|駅
名詞,固有名詞,組織 名詞,固有名詞,組織 名詞,接尾,地域
牧場...
Copyright© Hottolink, Inc.
▶TOPICS 連接頻度に基づく統計的な連結
問題例
• 固有表現/エンティティ抽出のみならず、トピック抽出や係り受け解析における専
門用語抽出において、未知語を固有表現の単位で分かち書きさ...
Copyright© Hottolink, Inc.
▶TOPICS 連接頻度に基づく統計的な連結
新|事業|活動|促進|法
解決策
𝐿𝑅 新|事業|活動|促進|法 = 𝐹𝐿 𝑁𝑖 + 1
𝐿
𝑖=1
𝐹𝑅 𝑁𝑖 + 1
1
2𝐿
𝐹𝐿 𝑁 (...
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS まとめ
• NLP応用サービスには、汎用的手法では対応困難な課題が存在する
– 要因その1:ソーシャルメ...
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS 余談:中国語ソーシャルメディア分析
• 中国国内には、独自のソーシャルメディアが存在する
– Weibo...
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS 余談:中国語ソーシャルメディア分析
• Weiboには Chinese Penn Treebank とは...
Copyright© Hottolink, Inc.
▶TOPICS
Copyright© Hottolink, Inc.
▶TOPICS 参考文献
• Unicode, Inc. 1998. Unicode® Standard Annex #...
Upcoming SlideShare
Loading in …5
×

2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用

4,675 views

Published on

言語処理学会第22回年次大会ワークショップ「論文に書かない(書けない)自然言語処理」での発表資料です。

https://sites.google.com/site/nlp2016ws/

Published in: Engineering
  • Be the first to comment

2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用

  1. 1. ソーシャルメディア分析サービスにおけ るNLPに関する諸問題について 株式会社ホットリンク 榊 剛史 水木 栄
  2. 2. サービス紹介
  3. 3. ソーシャルメディア分析ツール
  4. 4. Copyright© Hottolink, Inc. ▶TOPICS ソーシャルメディア分析ツールの機能 検索機能 記事数集計 本文抽出
  5. 5. Copyright© Hottolink, Inc. ▶TOPICS ソーシャルメディア分析ツールの機能 話題語 関連語
  6. 6. Copyright© Hottolink, Inc. ▶TOPICS 分析機能とNLP技術の関係 検索 関連語話題語 評判 属性推定 スパム判定 形態素解析 (分かち書き) 複合語処理 評判分析 スパムフィルタユーザ属性 係り受け解析 ソーシャルメディアの文書 前処理
  7. 7. Copyright© Hottolink, Inc. ▶TOPICS Copyright© Hottolink, Inc. ▶TOPICS ソーシャルメディアに見られる文書の特徴 「高飛車」だけじゃない…過去に起きたジェットコースター の事故 http://dlvr.it/Kjs0CJ #事件 #事故 ファミマのおそ松さんクリアファイルとクリアコースター の推し松買えた♡♡.+*:゚+。7時に行ったのに最後の 全松最後の1枚だった(笑)凄い人気だな(笑)さてまた お菓子が増えた…(:3)っ⌒つ 【おそ松さん】予約のオススメ① 5月発売予定 「ラバーコースターvol.2」が好評予約受付中どす え!! 六つ子の変顔、ヤバ顔、おもろ顔、ドヤ顔、 あざと顔、チョロ顔といろんな表情がぜんぶカワイイ グッズどすぅ!ご予約はアニメイト京都店で! 種類 説明 複合名詞 一般単名詞が連接して作られる名詞 固有表現(複合名詞含む) 人名や地名などといった固有名詞や、日付表現、時間表現など 専門用語(jargon) 特定の集団のみで通じる用語 口語表現(Slang) 話し言葉のようなくだけた表現 顔文字・絵文字(emoticon) 表情や動作を図的に表現する文字や記号、単独の文字の集合 テキストメタ情報 テキスト形式で本文に埋め込まれたメタ情報
  8. 8. Copyright© Hottolink, Inc. ▶TOPICS 目的に即した分かち書きの必要性 目的 望ましい要件 検索インデックスの作成 ([高橋ら 2016]) ・短単位志向であること(Recall確保のため) ・再現性が高いこと ・高速に動作すること 固有表現/エンティティ抽出 単語分散表現の前処理 ・長単位志向であること、 理想的には固有表現/エンティティと同一単位であること ・未知語に頑健であること 未知語の自動獲得 ・辞書に依存しないこと ・人手による整備を必要としないこと • 分かち書き=文を「意味の基本単位」である語に分割すること • 日本語NLPにおいて、基本単位をどのように定めるかは難しい問題である(黒 橋[2016]) • NLP応用サービスにおいても、適切な分かち書きの方法は目的に応じて異な る。代表的なものとして下表の3例を挙げる • 目的に応じて要件が異なるため、汎用的手法のみによる解決は困難である
  9. 9. Copyright© Hottolink, Inc. ▶TOPICS 目次 1. 前処理 • 文字の正規化 • テキストメタ情報の除去・抽出 2. 分かち書き・形態素解析 • 辞書の拡張 • カタカナ複合語の分割 • 顔文字の認識 3. 複合語処理 • ルールに基づく連結 • 連接頻度に基づく統計的な連結
  10. 10. Copyright© Hottolink, Inc. ▶TOPICS 1. 前処理 検索 関連語話題語 形態素解析 (分かち書き) 複合語処理 ソーシャルメディアの文書 前処理
  11. 11. Copyright© Hottolink, Inc. ▶TOPICS 文字の正規化 問題例 Playstation3(全角) ⇔ Playstation3(半角) ㍉ ⇔ ミリ ハ゛ラモス ⇔ バラモス • 見た目上は同じような・類似した表記でも、内部表現(文字コード)としては 異なる表記として扱われる場合が多数ある。 • 見た目上の表記が同じであれば、同じ文字列として扱いたい 解決策 Unicode正規化(NFKC)を用いる • Unicode正規化:等価な文字や文字の並びを統一的な内部表現に変換すること 正規化前 NFD(正規分解) NFKD(互換分解) NFC(正規合成) NFKC(互換合成) が か+゛ か+゛ が が か+゛ か+゛ か+゛ が が ア(全角) ア ア ア ア ア(半角) ア ア ア ア
  12. 12. Copyright© Hottolink, Inc. ▶TOPICS 文字の正規化 • Unicodeの正規化(Unicode[1998]) – NFD(Normalization Form Canonical Decomposition) • 正準等価性に基づく分解 – NFC(Normalization Form Canonical Composition) • 正準等価性に基づく分解後、正準等価性に基づいて再度合成 – NFKD(Normalization Form Compatibility Decomposition) • 互換等価性に基づく分解 – NFKC(Normalization Form Compatibility Composition) • 互換等価性に基づく分解後、正準等価性に基づいて再度合成 分解: が(U+304c)→か(U+304b)+゛ (U+3099) 合成: か(U+304b)+゛ (U+3099)→が(U+304c) 互換等価性:見た目がまったく同じではないが、内部表現が異なる ア(U+FF71)→ア(30a2) 正準等価性:文字コードは異なるが、外見上は同じである が(U+304c)→か(U+304b)+゛ (U+3099) 参考
  13. 13. Copyright© Hottolink, Inc. ▶TOPICS 文字の正規化 参考 正規化対象外の文字→ ‘Punctuation, Dash’ カテゴリ http://www.fileformat.info/info/unicode/category/Pd/list.htm https://hydrocul.github.io/wiki/blog/2014/1101-hyphen-minus-wave-tilde.html
  14. 14. Copyright© Hottolink, Inc. ▶TOPICS テキストメタ情報の除去・抽出 問題例 • ソーシャルメディアの場合、文書に対するメタ情報がテキスト形式で本文に 埋め込まれることが多い • これらのメタ情報により分かち書き誤りが発生する場合がある 種類 事例 正規表現 URL pic.twitter.com/oW4JAHFfBF 秘伝のタレのため削除 ハッシュタグ #nlp2016, ¥#¥S+ ユーザ名 @noroke_miner ¥@[a-zA-Z0-9_] 解決策 正規表現による除去・抽出 • 除去:URLやユーザ名(screen_name)のように、単語として扱わない語は、正規表現 で除去 • 抽出:ハッシュタグのように、単語として扱いたい語は、正規表現で除去した後、最後 の分かち書き結果に追加する
  15. 15. Copyright© Hottolink, Inc. ▶TOPICS 2. 分かち書き・形態素解析 検索 関連語話題語 分かち書き 形態素解析 複合語処理 ソーシャルメディアの文書 前処理
  16. 16. Copyright© Hottolink, Inc. ▶TOPICS 辞書の拡張 • 固有表現/エンティティ抽出を志向する場合、固有表現の単位で分かち書き されることが望ましい • 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい 分類 固有表現 MeCab + IPADIC(Ver.2.7.0) 新語 スマートフォン スマート|フォン 人名 福山雅治 福山|雅治 ランドマーク 東京スカイツリー 東京|スカイ|ツリー 専門用語 消費者態度指数 消費|者|態度|指数 問題例 アプローチ • 固有表現を簡便かつ高精度に獲得したい場合、辞書の拡張が有効である • 特にソーシャルメディアに対しては、ウェブ上の情報から獲得した語彙との親 和性が高い – 芸能、社会、政治・経済、組織・企業、音楽、ゲーム・アニメ… • 情報ソースとしては、ユーザー生成型百科事典の見出し語が特に有用である – Wikipedia日本語版、はてなキーワード(© 2001 Hatena)
  17. 17. Copyright© Hottolink, Inc. ▶TOPICS 辞書の拡張 • mecab-ipadic-NEologd(Sato[2015])は、ウェブ上の言語資源から得た新語を 追加したMeCab用辞書を一般に公開する試みである • 利用の障壁が低く、処理速度・網羅性に優れた方法である 分類 固有表現 MeCab + mecab-ipadic-NEologd(Ver.2016-02-01) 新語 スマートフォン スマートフォン 人名 福山雅治 福山雅治 ランドマーク 東京スカイツリー 東京スカイツリー 専門用語 消費者態度指数 消費者態度指数 解決策 対処困難な事象 • ウェブ上の言語資源、特にウェブ百科事典の見出し語には、形態素辞書エ ントリとして不適切なものも含まれているため、取捨選択処理が必要である – 不適当な見出し語の例: 「あ」「1月1日」「企業一覧」「明日の私」「よろしくお願いします」… • JUMAN辞書の手法(柴田ら[2012])のように、既存の形態素解析器の出力を素 性として利用するアプローチが有力である – 一形態素とみなすルールを定義する、二値分類器を学習する など
  18. 18. Copyright© Hottolink, Inc. ▶TOPICS カタカナ複合語の分割 • 英語複合語は、カタカナ複合語として表記される場合が多い – 例:Crew Neck Raglan Shirt = クルーネックラグランシャツ – 特に衣料品・食料品・化粧品に多い印象 • IPADICは多くの場合に望ましい結果を返してくれるが、カタカナ複合語は分 かち書きされないことが多い。これは検索のRecallなどに悪影響を及ぼしうる 問題例 アプローチ • 短単位を志向したユーザ辞書を併用する、あるいはシステム辞書を利用する ことが有効である 英語複合語 カタカナ複合語 MeCab + IPADIC(Ver.2.7.0) Crew Neck Raglan Shirt クルーネックラグランシャツ クルーネックラグランシャツ Sliced Tomato Salad スライストマトサラダ スライストマトサラダ Face Cleansing Oil フェイスクレンジングオイル フェイスクレンジングオイル
  19. 19. Copyright© Hottolink, Inc. ▶TOPICS カタカナ複合語の分割 • IPADICを用いて形態素解析を行ってから、長文字数のカタカナ語のみを抽 出して、UniDic(小木曽ら[2013])を用いて再解析を行う • UniDicは揺れの少ない短単位で設計されているため、一般名詞については 分かち書きされる場合が多い • 利用の障壁が低く、処理速度・再現性に優れた方法である 解決策 対処困難な事象 • 品詞体系が異なるため、分析者自身が適宜補正する必要がある • 未知語(特に新語)を含む場合は不十分 英語複合語 カタカナ複合語 MeCab + UniDic(Ver.2.1.2) Crew Neck Raglan Shirt クルーネックラグランシャツ クルー|ネック|ラグラン|シャツ Sliced Tomato Salad スライストマトサラダ スライス|トマト|サラダ Face Cleansing Oil フェイスクレンジングオイル フェイス|クレンジング|オイル
  20. 20. Copyright© Hottolink, Inc. ▶TOPICS 顔文字の認識 • 顔文字は、顔のように見える文字・記号列を用いた表現である。ソーシャル データにおいては頻繁に利用される – 「\(^o^)/」「(>_<)」「(^^)」「(*^^*)」いずれかを含むブログ記事は、全記事の3.6%を占める • 汎用志向の辞書を用いると、記号列として分かち書きされる場合が多い – IPADICの場合、厳密には「名詞-サ変接続」品詞が付与される場合が多い • 理想的には、感情語の一種として取り扱いたい – 評判分析などの特徴量として有効 顔文字 MeCab + IPADIC(Ver.2.7.0) \(^o^)/ \(^␣o␣^)/ (´・ω・`) (´␣・␣ω␣・␣`) (´Д` ) (´␣Д␣` ␣) 問題例 アプローチ • 簡便かつ分かち書きのみを目的とする場合、ルールベースの処理が有効 • Precisionを制御しつつ感情語への置換を目的とする場合、辞書の拡張が有効
  21. 21. Copyright© Hottolink, Inc. ▶TOPICS (参考)顔文字の統計的性質 • 顔文字を単語とみなして単語分散表現を推定、次元圧縮を行うと、おおむ ね感情語と整合的な配置が得られる 出典:弊社・風間研究室の共同研究 Word2Vec + t-SNE
  22. 22. Copyright© Hottolink, Inc. ▶TOPICS 顔文字の認識 • 顔文字の規則性を利用して、抽出する(風間ら[2013],三好[2013]) ※本技術は、和歌山大学 風間研究室からの技術提供による • 短所は、(1)誤認識が生じること (2)対応する感情語が自明でないこと 解決策その1 解決策その2 • 顔文字頻度分布がZipFの法則に従うことを仮定して、出現頻度の高い顔文 字を辞書に登録する – 実際にZipFの法則はよく当てはまる。上位5,000種類で約90%(推定値)を網羅できる • 原形に感情語を登録することにより、顔文字を単語に置換・集約できる – 感情語は単語分散表現を用いて推定する(黒崎[2015]) • mecab-ipadic-NEologdにも一部の顔文字が登録されている 顔文字 MeCab + mecab-ipadic-NEologd(Ver.2016-02-01) 原形 \(^o^)/ \(^o^)/ バンザイ (´・ω・`) (´␣・␣ω␣・␣`) - (´Д` ) (´Д` ) カオモジ
  23. 23. Copyright© Hottolink, Inc. ▶TOPICS 顔文字の認識 対処困難な事象 • 顔文字は改変が容易であるため、活用形(?)が大量に存在する – 改変の例:パーツの置換、装飾の付与・除去、スペースの挿入、繰り返し など – 活用形を別種と認識すると、顔文字の種類は数十万に上る • 活用形を自動的に認識して、基本形(?)に集約することが望ましい • 文字n-gramを素性に用いることで、相応の精度を実現することができる – 下表は Bag-of-char-{uni+bi}gram + NMF(dim=20) + L2.distance(top-k) で作成したもの 基本形 活用形1 活用形2 活用形3 活用形4 (〃∇〃) (〃∇〃)ゞ (〃~∇~〃) (ノ∇〃) (>∧<) ヽ(≧▽≦)/ ヽ(〃▽〃)/ ヽ(≧∇≦)/ ヽ(≧▽≦)/♪ ♪ヽ(≧▽≦)/ (#^_^#) (^_^#) (^_^)# (^_^)q p(^_^) (^-^)o o(^-^) (o^-^) (^-^o) ヾ(^o^-) (ρ_-)ノ (ノ_-) (ρ_-) (つ_-) (σ_-) ((´^ω^)) ((´^ω^))♪ ((´^ω^) ((´^ω^))♥ ヾ(´^ω^)ノ 出典:弊社分析
  24. 24. Copyright© Hottolink, Inc. ▶TOPICS 3. 複合語処理 検索 関連語話題語 分かち書き 形態素解析 複合語処理 ソーシャルメディアの文書 前処理
  25. 25. Copyright© Hottolink, Inc. ▶TOPICS ルールに基づく連結 問題例 • 複合名詞において、結合される品詞には一定のパターンがある • 上記パターンに注目し、複合名詞となりうるかの手がかりとして用いる 種類 複合名詞 MeCab + IPADIC(Ver.2.7.0) 固有表現(地名) アスティ三島駅 アスティ|三島|駅 固有表現(地名) 裏なんば 裏|なんば 固有表現(製品名) 牧場の朝 牧場|の|朝 固有表現(製品名) 有吉の怒り新党 有吉|の|怒り|新党 専門用語(ジャニーズ) スマ兄さん スマ|兄さん 専門用語(ソシャゲ) 無課金 無|課金 アプローチ • 固有表現/エンティティ抽出のほか、特徴語抽出・トピック抽出・係り受け解 析における専門用語抽出においては、未知語を固有表現の単位で分かち 書きされることが望ましい • 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい
  26. 26. Copyright© Hottolink, Inc. ▶TOPICS ルールに基づく連結 解決策 複合名詞として認識すべき品詞の連接パターンを予め定めておく アスティ|三島|駅 名詞,固有名詞,組織 名詞,固有名詞,組織 名詞,接尾,地域 牧場|の|朝 名詞,一般,* 助詞,連体化,* 名詞,副詞可能,* 複合名詞 種類 品詞の連接情報 名詞 アスティ三島駅 固有表現(地名) (名詞,固有名詞,組織)(名詞,固有名詞,組織)(名詞,接尾,地域) TRUE 裏なんば 固有表現(地名) (名詞,一般,*)(名詞,固有名詞,地域) TRUE 牧場の朝 固有表現(製品名) (名詞,一般,*)( 助詞,連体化,*)(名詞,副詞可能,*) TRUE 有吉の怒り新党 固有表現(製品名) (名詞,固有名詞,人名)(助詞,連体化,*)(名詞,一般,*)(名詞,一般,*) TRUE スマ兄さん 専門用語(ジャニーズ) (名詞,固有名詞,一般)(名詞,一般,*) TRUE 無課金 専門用語(ソシャゲ) (接頭詞,名詞接続,*)(名詞,サ変接続,*) TRUE はがない 専門用語(オタク) (動詞,自立,*)(助動詞,*,*) FALSE ごはんですよ 固有表現(製品名) (名詞,一般,*)(助動詞,*,*)(助詞,終助詞,*) FALSE 対象困難な事例 ・未知語への対応が可能 ・ルールベースであるため、事前学習が不要 ・確実性の高いルールのみを採用することで、 Precisionの制御が可能 ・既存の文法ルールから外れている固有名詞 例:はがない、よなよなエール、ごはんですよ
  27. 27. Copyright© Hottolink, Inc. ▶TOPICS 連接頻度に基づく統計的な連結 問題例 • 固有表現/エンティティ抽出のみならず、トピック抽出や係り受け解析における専 門用語抽出において、未知語を固有表現の単位で分かち書きされることが望ま しい • 汎用志向の辞書(ipadic, unidicなど)を用いると、分割が過剰になりやすい 種類 複合名詞 MeCab + IPADIC(Ver.2.7.0) 固有表現(製品名) ごはんですよ ごはん|です|よ 専門用語 新事業活動促進法 新|事業|活動|促進|法 専門用語 炭素繊維複合素材 炭素|繊維|複合|素材 • 複合名詞は、ある概念を表す単名詞を連接することで構成されることが多い • コーパスから単名詞について「複合名詞への含まれやすさ」を算出すること ができれば、単名詞の連接に対して「複合名詞らしさ」のスコアが算出可能 アプローチ
  28. 28. Copyright© Hottolink, Inc. ▶TOPICS 連接頻度に基づく統計的な連結 新|事業|活動|促進|法 解決策 𝐿𝑅 新|事業|活動|促進|法 = 𝐹𝐿 𝑁𝑖 + 1 𝐿 𝑖=1 𝐹𝑅 𝑁𝑖 + 1 1 2𝐿 𝐹𝐿 𝑁 (𝐹𝑅 𝑁 ):単名詞Nの左方(右方)に連接した際の複合名詞の形成されやすさ 文書中の連接頻度に基づいて統計的に「複合名詞らしさ」を算出する ・単名詞への対応がコーパスに含まれている場合、それらにより構成される未知語を処理可能 ・学習データを用いるため、事前知識が不要 ・閾値を低く設定することで、Recallを制御しやすい 例:termEX(中川[2003]) 対象困難な事例 種類 複合名詞 名詞 固有表現(製品名) ごはんですよ TRUE 専門用語 新事業活動促進法 TRUE 専門用語 炭素繊維複合素材 TRUE 定型句 あけおけ TRUE 定型句 お誕生日おめ TRUE ・定型フレーズの誤認識 あけおめ、お誕生日おめ ・十分な出現頻度が無い語への対応が困難
  29. 29. Copyright© Hottolink, Inc. ▶TOPICS Copyright© Hottolink, Inc. ▶TOPICS まとめ • NLP応用サービスには、汎用的手法では対応困難な課題が存在する – 要因その1:ソーシャルメディア文書に特有の性質 – 要因その2:目的に即した分かち書きの必要性 • 前処理・形態素解析/分かち書き・複合語処理において、特殊な手法を用 いることがしばしば有効である • 弊社内で用いられる知見・工夫・解決策の一部をご紹介した – 文字の正規化、テキストメタ情報の処理 – 辞書の拡張、カタカナ複合語の分割、顔文字の認識 – ルールに基づく連結、連接頻度に基づく統計的な連結 • 解決策の考案・実施においては、NLP分野を中心とした先行研究・言語資 源・ツールに依拠する部分が非常に大きい。改めて感謝申し上げます • 「やわらかい」言語表現に対する研究・関心が継続されることおよび、知 見の体系化が進展することを期待しております
  30. 30. Copyright© Hottolink, Inc. ▶TOPICS Copyright© Hottolink, Inc. ▶TOPICS 余談:中国語ソーシャルメディア分析 • 中国国内には、独自のソーシャルメディアが存在する – Weibo(微博:マイクロブログ) – WeChat(微信:インスタントメッセンジャー) – Blog(博客) • 弊社では2015年より、ソーシャルメディア分析を目的とした中 国語NLPの基礎研究に着手した
  31. 31. Copyright© Hottolink, Inc. ▶TOPICS Copyright© Hottolink, Inc. ▶TOPICS 余談:中国語ソーシャルメディア分析 • Weiboには Chinese Penn Treebank とは異なる世界が広がっていた… 我々の戦いはこれからだ! 日本語/中国語混在 テキストメタ情報 固有表現(商品名)口語表現 絵文字
  32. 32. Copyright© Hottolink, Inc. ▶TOPICS Copyright© Hottolink, Inc. ▶TOPICS 参考文献 • Unicode, Inc. 1998. Unicode® Standard Annex #15 UNICODE NORMALIZATION FORMS. – http://www.unicode.org/reports/tr15/ • Toshinori Sato. 2015. Neologism dictionary based on the language resources on the Web for Mecab. – https://github.com/neologd/mecab-ipadic-neologd • 黒橋 禎夫. 自然言語処理. 放送大学教育振興会. 2015. • 小木曽 智信, 伝 康晴. UniDic2: 拡張性と応用可能性にとんだ電子化辞書. 言語処理学会第 19回年次大会, 2013. • 風間 一洋, 榊 剛史, 鳥海 不二夫, 篠田 孝祐, 栗原 聡, 野田 五十樹. 顔文字に着目したツ イートの感情変化の分析. WebDB Forum 2013. A2-3 • 三好辰明, 太田学. ツイートに出現する顔文字等の文字と記号に着目した感情分類. DEIM Forum,March 2013. • 黒崎 優太, 高木 友博. Word2Vecを用いた顔文字の感情分類. 言語処理学会第21回年次大 会, 2015. • 中川裕志, 森辰則, 湯本紘彰. 出現頻度と連接頻度に基づく専門用語抽出. 自然言語処理, Vol.10 No.1, pp. 27 - 45, 2003. – http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html • 柴田 知秀, et al. 実テキスト解析をささえる語彙知識の自動獲得. 言語処理学会第18回年 次大会, 2012. • 高橋 文彦, 颯々野 学. 情報検索のための単語分割一貫性の定量的評価.言語処理学会第 22回年次大会, 2016.

×