Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

JMAT Groonga Tokenizer Talks

4,611 views

Published on

ATOK、ConceptBaseで培ったノウハウと機械学習を融合した日本語解析エンジン「JMAT」の性能と機能についてご紹介します。

Published in: Technology

JMAT Groonga Tokenizer Talks

  1. 1. Groonga Tokenizer Talks JMAT ジャストシステムの日本語解析エンジンのご紹介 内田佳孝
  2. 2. 自己紹介 内田佳孝 株式会社ジャストシステム CPS事業部開発部 NLPチーム ・形態素解析 ・かな漢字変換 ・全文検索コア などをやってきました。
  3. 3. 3 JMATとは
  4. 4. 4 日本語入力システム ATOK 企業内検索システム ConceptBase 全国4,000社超の導入実績をもつ最強の 純国産検索エンジン 日本で開発を積み重ねてきた30年と いう実績により、多くのユーザーから 支持されている ATOK、ConceptBaseで培ったノウハウと 機械学習を融合した日本語解析エンジン
  5. 5. 5 JustSystems Morphological Analysis Technorogy ”ジャストシステムの形態素解析技術”
  6. 6. 6 ソーシャルセレクトショップ リスティング広告自動出稿サービス タブレット型通信教育 宴会・グルメ情報検索サイト カラムストア機能付き全文検索エンジン 近日公開予定の JS新サービス群 ジャストシステム運営サービスのみでなく 他社運営サービスでも活用されている 他大手Webサービス など
  7. 7. ➢       7 本日紹介できなかった話も色々紹介していきます https://justsystems.doorkeeper.jp/
  8. 8. ✓ JMATの性能 ✓ JMATの機能 ✓ (少しだけ) JMATの裏側     本日の紹介内容 8
  9. 9. JMATの性能 (たぶん)Groongaで1番よく使われている MeCab + IPAdic と比較します 9
  10. 10. ✓ JMAT = 65万語以上  ※3ヶ月ごとに辞書を更新 ✓ IPAdic = 約24万語 語彙数 ≠ 精度 ≠ 使いやすさ なんでもかんでも語彙を追加すれば いいというわけではない 収録語彙数 10
  11. 11. 形態素(けいたいそ、英: morpheme)とは、言語学の用語で、 意味を持つ最小の単位。ある言語においてそれ以上分解したら 意味をなさなくなるところまで分割して抽出された、音素の まとまりの1つ1つを指す。形態素の一般的な性質や、形態素間の 結びつきなどを明らかにする言語学の領域は、形態論と呼ばれる。 形態素とは 11 Wikipediaからの引用  意味ってなに?? ※このあたりは議論しだすとそれだけで今日の 発表がおわるので今日は触れません。
  12. 12. ✓ (可能なかぎり)一貫性のとれた単位で登録 ➢ 専任の辞書チームが一年中議論 ➢ 不整合は定期的な見直しを実施 ✓ 複数の単位を同時に扱える設計 ➢ IPAdic、UniDic、Jumanの辞書は全て基準が異なる ➢ 最適な単位はつくりたいシステムによって異なる  ※詳細は後述 JMATの形態素とは 12
  13. 13. JMATの実力 その1
  14. 14. 14 ふなっしーの壁ドンは危険 千葉県船橋市の非公認ゆるキャラ 2011年11月に誕生 2014年に開催されたユーキャン新 語・流行語大賞のトップテン
  15. 15. 15 JMATの解析結果 表記 品詞 ふなっしー 固有名詞-一般 の 助詞 壁ドン 名詞サ変 は 助詞 危険 名詞形動 だ 助動詞 表記 品詞 ふ 五段動詞 なっ 五段動詞 し 助動詞 ー 一般名詞 の 助動詞 壁 一般名詞 ドン 一般名詞 は 助詞 危険 形容動詞 だ 助動詞 MeCab(IPAdic)の解析結果
  16. 16. JMATの実力 その2
  17. 17. 17 安倍晋三首相の元参謀役だった柳澤協二氏 現在の内閣総理大臣 元内閣官房副長官補
  18. 18. 18 JMATの解析結果 MeCab(IPAdic)の解析結果 表記 品詞 安倍 固有名詞-人姓 晋 固有名詞-人名 三 数詞 首相 一般名詞 の 助詞 元 接頭語 参謀 一般名詞 役 接尾語 だっ 助動詞 た 助動詞 柳澤 固有名詞-人姓 協 接尾語 二 数詞 氏 接尾語 表記 品詞 安倍 固有人姓 晋三 固有人名 首相 一般名詞 の 助詞 元 接頭語 参謀役 一般名詞 だっ 助動詞 た 助動詞 柳澤 固有人姓 協二 固有人名 氏 接尾語
  19. 19. JMATの実力 その3
  20. 20. 20 フェイスブックを活用したリア充のソー活 Facebook, Inc.の提供する ソーシャル・ネットワーキング・サービス (Wikipediaより引用) 現実の生活が充実している人物を指 すインターネットスラング (Wikipediaより引用) ソーシャルメディアを利用した 就職活動 (Wikipediaより引用)
  21. 21. 21 JMATの解析結果 MeCab(IPAdic)の解析結果 表記 品詞 フェイスブック 固有名詞-一般 を 助詞 活用 名詞サ変 し 語尾-連用形 た 助動詞 リア充 一般名詞 の 助詞 ソー活 名詞サ変 表記 品詞 フェイス 一般名詞 ブック 一般名詞 を 助詞 活用 サ変名詞 し サ変動詞 た 助動詞 リア 固有名詞-人名 充 固有名詞-人名 の 助詞 ソー 一般名詞 活 一般名詞
  22. 22. 3ヶ月毎にどういった語彙を 追加しているの? 22
  23. 23. 23 アップデート月 追加語彙(一部抜粋) 2015年1月 ぐんまちゃん、J婚、ネトメシ、ようかい体操、 にゃんそうこう、U−NEXT、えびの高原 2014年10月 イクボス、スマデバ、お盆玉、育盛、小米科技、 トプ画、天狗舞、菊姫、浦霞、而今 2014年7月 ターダッキン、ソーセー人、セルフィー、自撮り、 テラハ、かをる子、滝沢市、テランガナ 2014年4月 STAP、阿里巴巴、クネ男、結いの党、ふわとろ、 スパガ、エヴォログ、グランピング 新語への対応他、継続的な洗練結果の反映も行っている
  24. 24. JMATの機能 24
  25. 25. ✓ 表記正規化機能 ✓ 単語長の選択機能 ✓ キーワード抽出機能 ✓ 同義語展開機能 ✓ ユーザー辞書機能 ✓ その他 紹介する機能 25
  26. 26. 表記正規化機能 26 機能 正規化例 半角・全角の正規化 ファイル  ファイル abc abc 大文字・小文字の正規化 NLP nlp Web、WEB web カタカナ表記の正規化 アイシャドウ アイシャドー ヴィネガー ビネガー 異体字正規化 渡邉、渡邊 渡辺 蒸し鷄  蒸し鶏 送り仮名正規化 受け付け、受付け  受付 焼肉  焼き肉 その他 或いは あるいは 穴子、あなご アナゴ
  27. 27. 単語長の選択機能 27 長単位 短単位 参考:IPAdic 徳島県 徳島+県 徳島+県 経営者 経営+者 経営+者 有段者 有段+者 有段者 秋葉神社 秋葉+神社 秋葉神社 人道的 人道+的 人道的 一時的 一時+的 一時+的 お相手 お+相手 お+相手 御一同様 御+一同+様 御一同様 御一行様 御+一行+様 御+一行+様 Groonga JMATプラグインでは短単位を利用しています   
  28. 28. キーワード抽出機能 28 ✓ 内容語のみを抽出 ➢ 内容語 = その単語のみで具体的な意味を持つ語 ➢ 名詞、動詞、形容詞など ✓ 名詞句、動詞句といった複合語にまとめあげ      
  29. 29. キーワード抽出機能 29 2012年で誕生から30年が経ちます 入力テキスト 2012年 名詞句 誕生 30年 経つ 名詞句 名詞句 動詞句 2012 年 で 誕生 から 30 年 が 経 ち ます 形態素解析 キーワード抽出
  30. 30. 同義語展開機能 30 ✓ 同義語辞書を使って同義語を展開する ✓ 単体でも利用可能 ✓ 形態素解析、キーワード抽出を組み合わせることにより 複合語の同義語も展開可能 ➢JMATでは専用モジュールも用意 ➢Groonga JMATプラグインのこの方法で展開
  31. 31. 同義語展開機能 31 政府開発機構 入力テキスト 政府 政府開発機構 開発 機構 oda 公的開発援助 同義語拡張 キーワード抽出 形態素解析
  32. 32. 形態素辞書だけでなく同義語辞書も 3ヶ月毎にアップデートしています 32
  33. 33. 33 アップデート月 追加された同義語(一部抜粋) 2015年1月 ようかい体操=妖怪体操 鳥取空港=鳥取砂丘コナン空港 アドテクノロジー=広告テクノロジー=アドテク 2014年10月 筋萎縮性側索硬化症=ALS 小米科技=Xiaomi=シャオミ スマートデバイス=スマデバ 2014年7月 ジャニーズWEST=ジャニスト 自分撮り=自撮り=セルフィー Yosemite=ヨセミテ 2014年4月 STAP細胞=スタップ細胞 SUPER☆GiRLS=スーパーガールズ=S☆G=スパガ ダイオウグソクムシ=大王具足虫=だいおうぐそくむし
  34. 34. ユーザー辞書機能 34   JMAT MeCab 単語登録 〇 〇 コスト指定 〇 〇 コスト自動推定 〇 △ 表記正規化指定 〇 × 複数辞書指定 〇 × ユーザー同義語辞書 〇 × ユーザー辞書作成補助ツール 〇 ×
  35. 35. ユーザー辞書作成補助ツール 35 ✓ 形態素解析結果を確認しながらの辞書作成 ✓ 同義語展開結果を確認しながらの辞書作成 ✓ 同義語辞書と形態素辞書の整合性確認 上記を対話的に支援するツールを提供
  36. 36. その他 36 ✓ 文区切り ➢ Groonga JMATプラグインではデフォルト利用 ✓ 各種言語バインディング ➢ C++、Java Perl、Python、Ruby、PHPで利用可能 ✓ くだけた表現解析強化モード   
  37. 37. 37 くだけた表現解析モード このぉ店はめっちゃぉいしい! また、ぜーーったぃ行きた∼ぃ 表記 正規化表記 品詞 この この 連体詞 ぉ店 お店 一般名詞 は は 助詞 めっちゃ とても 副詞 ぉいし おいし 形容詞 い い 語尾-終止形 ! ! 句点 また また 接続詞 、 、 読点 ぜーーったぃ 絶対 副詞 行 行 五段動詞 き き 語尾-連用形 た∼ぃ たい 助動詞
  38. 38. 38 くだけた表現解析モード 1,000円あたった\(^O^)/http://cocoal.jp/ 表記 正規化表記 品詞 1,000 1,000 数詞 円 円 助数詞 あた あた 五段動詞 っ っ 語尾-連用形 た た 助動詞 \(^O^)/ \(^o^)/ 顔文字 http://cocoal.jp/ http://cocoal.jp/ URL
  39. 39. ✓ MeCabの速度を1とした場合 ➢ 通常モード、約1.6倍 ➢ くだけた表現解析モード 約3.7倍 本日はご紹介できなかった未知語処理など 精度チューニングをかなり行っている分 MeCabより解析速度は劣ります。。    解析速度 39
  40. 40. (少しだけ)JMATの裏側の紹介 40
  41. 41. 41
  42. 42. JMATは高精度を実現するために 数百万文の品詞タグ付きコーパスと数億文のテキ ストコーパスを利用しています。 ただし、全てを単純に学習コーパスに使っているわけ ではないです。 JMATの裏側 42
  43. 43. JMATの公開品詞は約60(IPAdicは120)ですが、 内部的には600以上の品詞(状態)により動作 細かな解析分けを実現するために必要な情報多数保持    43 JMATの裏側
  44. 44. ジャストシステムの自然言語処理のさらに 深い部分に興味がある方がいましたら 弊社勉強会へ是非ご参加ください! 44 最後に
  45. 45. ✓ 2015年4月17日(金)開催 ● ATOK for iOSの裏側(仮) ATOK for iOSの開発責任者が開発の舞台裏や苦労話を お話しします。 ● (登壇者最終調整中) ● ジャストシステムの日本語処理技術(仮) 弊社NLPスペシャリストがJMATをはじめ、ジャストシステムの日本語処理の裏側をお話しします。       第1回テーマ 「ことば」を扱うサービス・アプリの裏側 45

×