Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

検索サービスにSudachiを適用して運用コストを削減した話

1,733 views

Published on

言語処理学会の形態素解析の今とこれからというワークショップで発表した際の資料です。

Published in: Engineering
  • Be the first to comment

検索サービスにSudachiを適用して運用コストを削減した話

  1. 1. 検索サービスにSudachiを適用して運用コストを 削減した話 2018/3/16 Acroquest Technology株式会社 佐々木 峻 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
  2. 2. 目次 1. 自己紹介 2. 全文検索における課題 3. 対策と問題点 4. なぜSudachi? 5. Sudachiを適用してみて Copyright © Acroquest Technology Co., Ltd. All rights reserved. 2
  3. 3. • 名前:佐々木 峻(ささき たかし) • Twitter:@Ssk1029Takashi • Acroquest Technology株式会社 • 時々、会社の技術ブログに執筆しています。 • http://acro-engineer.hatenablog.com/archive • 自然言語処理やElasticsearchを使ったデータ分析基盤構築を 行っています。 • 新人 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 3 1.自己紹介1.自己紹介
  4. 4. 2.全文検索における課題① • 表記揺れ ① 送り字違い ex. 「忌引き/忌引」「見積もり/見積り/見積」 etc ② 字体違い ex. 「斎藤/斉藤」「渡邉/渡辺」「慶應/慶応」 ③ 外来語の表記違い ex. 「インタフェース/インターフェース/インターフェイス」 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 4 忌引き 忌引き 忌引 〇 ×
  5. 5. 2.全文検索における課題② • 複数単語の組み合わせによる固有の単語 ex.「関西国際空港」 →このような単語を辞書に登録すると、「空港」でヒットしなくなる Copyright © Acroquest Technology Co., Ltd. All rights reserved. 5 空港 関西 国際 空港 関西国際空港 × 〇
  6. 6. 3.対策と問題点 – Copyright © Acroquest Technology Co., Ltd. All rights reserved. 6 No. 課題 対策 ① 表記ゆれ 表記ゆれしている単語をすべてシノニム(同 義語)辞書に登録した ② ドメイン固有語 固有語をユーザー辞書に登録した+Ngram 分割 この2つの問題を解決するためには、大量の語彙を持つ 辞書を用意する必要がある。 検索システムとして辞書登録をGUIで簡略化している しかし、辞書を用意、さらには運用する手間はまだまだ多い
  7. 7. Sudachiとの出会い どうしようかと悩んでいるとき、、、 「佐々木、Sudachiあるってよ」 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 7
  8. 8. Sudachiとの出会い Copyright © Acroquest Technology Co., Ltd. All rights reserved. 8 ?
  9. 9. Sudachiに期待したこと 1. シノニム辞書を使わずに表記ゆれに対応できること – 表記正規化 送り違い • 例)打込む → 打ち込む 2. ドメイン固有語をいい感じに分割してくれること – 複数の分割モードを活用した適切な分かち書き • 例)「組織価値経営部」 → 「組織価値経営部」「組織」「価値」「経営」「部」 3. Elasticsearchとの親和性 – 公式でElasticsearch Pluginが開発されている – https://github.com/WorksApplications/elasticsearch-sudachi Copyright © Acroquest Technology Co., Ltd. All rights reserved. 9
  10. 10. 4.なぜSudachi? • 表記ゆれを吸収してくれる Copyright © Acroquest Technology Co., Ltd. All rights reserved. 10
  11. 11. 4.なぜSudachi? • 単語を複数単位で分割できる Copyright © Acroquest Technology Co., Ltd. All rights reserved. 11
  12. 12. 5.Sudachiを入れてみて Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12 1. 表記揺れの単語でも同一単語として検索できるようになった 2. 固有単語でも部分単語でヒットできるようになった
  13. 13. 5.Sudachiを入れてみて Copyright © Acroquest Technology Co., Ltd. All rights reserved. 13 送り字違いを吸収してくれる
  14. 14. 5.Sudachiを入れてみて Copyright © Acroquest Technology Co., Ltd. All rights reserved. 14 インターフェースの表記揺れも吸収できる
  15. 15. 5.Sudachiを入れてみて Copyright © Acroquest Technology Co., Ltd. All rights reserved. 15 英単語でも引っかかる
  16. 16. 5.Sudachiを入れてみて Copyright © Acroquest Technology Co., Ltd. All rights reserved. 16 他の英単語でも変換してくれる
  17. 17. 5.Sudachiを入れてみて Copyright © Acroquest Technology Co., Ltd. All rights reserved. 17 字体違いも対応している
  18. 18. まとめと要望 1. Sudachiを導入することによって辞書構築、運用のコストを 軽減することできた 2. 複数単位の分割すごい便利 3. 辞書の適用範囲を知りたい ① 表記ゆれはどこまで対応できるのか? ② ドキュメントとしてあると説明がしやすく導入しやすくなる 4. Elasticsearch version6に対応してほしい Copyright © Acroquest Technology Co., Ltd. All rights reserved. 18

×