Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

日本語データの活用までの道のり

274 views

Published on

https://techplay.jp/event/760252 の発表資料

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

日本語データの活用までの道のり

  1. 1. 日本語データの活用までの道のり 株式会社 レトリバ © 2020, Retrieva, Inc. All rights reserved.
  2. 2. 自己紹介 © 2020, Retrieva, Inc. All rights reserved. 舛岡 英人 1986年生まれ。産能大学経営情報学部を卒業後、2009年に株式会社ソ ピア(現Accenture)入社。 2012年 株式会社Preferred Infrastructure入社。検索エンジンや機械 学習エンジンの導入、サポートを担当。株式会社Intimate Mergerに出 向し、Public DMPの初期バージョンの開発、運用を担当 Chainerのユーザーグループのリード 2016年10月、株式会社Preferred Infrastructureからスピンオフをし、 レトリバを創業。2019年7月からカスタマサクセス部の部長 株式会社レトリバ カスタマーサクセス部 部長 hidetomasuoka
  3. 3. 会社概要(レトリバ) 会社名 設立 所在地 取締役 従業員 事業内容 株式会社レトリバ 2016年8月 東京都新宿区西新宿2-1-1 新宿三井ビル36階 代表取締役社長 河原 一哉 35名(2019年4月現在) ソフトウェア製品の開発、販売 © 2020, Retrieva, Inc. All rights reserved.
  4. 4. 会社概要:沿革 Preferred Infrastructure Preferred Networks レトリバ AI技術を人の作り出す情報に活用 (音声データ、テキストデータ) 2014年にスピンオフ 2016年にスピンアウト IoTに注力2006年創業以来、自然言語処理等 高い技術力で評価される © 2020, Retrieva, Inc. All rights reserved.
  5. 5. レトリバって? Information RetrievalGolden Retriever © 2020, Retrieva, Inc. All rights reserved.
  6. 6. © 2020, Retrieva, Inc. All rights reserved. お客様の課題を最先端の技術で 解決する Our Mission
  7. 7. ソリューション体系 © 2020, Retrieva, Inc. All rights reserved. 技術群 機能(製品)群 パッケージ ソリューション 日本語 処理 固有表現 抽出 分類 レコ メンド 重要文 抽出 要約 ラン キング 文字列 マッチング 同義語 生成 カスタム ソリューション お客様の課題/ニーズ 提供 提供 提供 実用化カスタム 音声認識 研究開発・ 共同研究 コールセンターへ特化 要約 分類 分析 開発予定 抽出 実用化 回答支援 VoC分析 汎用化 意図理解
  8. 8. © 2020, Retrieva, Inc. All rights reserved.
  9. 9. © 2020, Retrieva, Inc. All rights reserved.
  10. 10. 日本語データの活用までの道のり © 2020, Retrieva, Inc. All rights reserved.
  11. 11. みなさんこんなことしたいといわれてないですか? © 2020, Retrieva, Inc. All rights reserved.
  12. 12. みなさんこんなことしたいといわれてないですか? © 2020, Retrieva, Inc. All rights reserved.
  13. 13. 自然言語処理をはじめるまでの道のりは 険しい。。。 © 2020, Retrieva, Inc. All rights reserved.
  14. 14. 自然言語処理プロジェクトの流れ(仕事で学ぶ機械学習参照) • プロジェクトの大きく4ステップに分かれており、特に最初の2ステップが重要 • 教師あり学習では正解が必要であり、その正解を人間が教える必要があるが、 人間が解けない問題は機械は解けない! 学習・パラメータ チューニング システムに 組み込む 機械学習しないで 良い方法を考える 問題を 定式化する 前処理をする システム設計を 考える アルゴリズムを 選定する 特徴量、教師デー タを設計をする STEP1:機械学習で解ける問題設定に 落とし込む STEP2:解くための道具選びと前処理をする STEP3: モデルの作成 STEP4: サービスへの組込 :試行錯誤を繰り返すフェーズ © 2020, Retrieva, Inc. All rights reserved.
  15. 15. 自然言語処理プロジェクトの流れ(仕事で学ぶ機械学習参照) • プロジェクトの大きく4ステップに分かれており、特に最初の2ステップが重要 • 教師あり学習では正解が必要であり、その正解を人間が教える必要があるが、 人間が解けない問題は機械は解けない! 学習・パラメータ チューニング システムに 組み込む 機械学習しないで 良い方法を考える 問題を 定式化する 前処理をする システム設計を 考える アルゴリズムを 選定する 特徴量、教師デー タを設計をする STEP1:機械学習で解ける問題設定に 落とし込む STEP2:解くための道具選びと前処理をする STEP3: モデルの作成 STEP4: サービスへの組込 :試行錯誤を繰り返すフェーズ 今回お話しをする範囲 © 2020, Retrieva, Inc. All rights reserved.
  16. 16. STEP1:機械学習で解ける問題設定に落とし込む © 2020, Retrieva, Inc. All rights reserved.
  17. 17. 機械学習で解ける問題設定に落とし込む • 問題を定式化する • 機械学習しないで良い方法を考える © 2020, Retrieva, Inc. All rights reserved.
  18. 18. 問題を定式化する • 機械学習での問題設定としては、KPIをベースに 「プロジェクトの目的+解き方」のセットで考える • NG例 • お客様の声を活用したいから、重要な問い合わせを抽出したい © 2020, Retrieva, Inc. All rights reserved.
  19. 19. 問題を定式化する • 機械学習での問題設定としては、KPIをベースに 「プロジェクトの目的+解き方」のセットで考える • NG例 • お客様の声を活用したいから、重要な問い合わせを抽出したい © 2020, Retrieva, Inc. All rights reserved. どう活用したいかわからない
  20. 20. 問題を定式化する • 機械学習での問題設定としては、KPIをベースに 「プロジェクトの目的+解き方」のセットで考える • NG例 • お客様の声を活用したいから、重要な問い合わせを抽出したい © 2020, Retrieva, Inc. All rights reserved. 重要とはなに?
  21. 21. 問題を定式化する • 機械学習での問題設定としては、KPIをベースに 「プロジェクトの目的+解き方」のセットで考える • OK例 • 製品の使い方についての問い合わせ件数を数えられるように、問い合わせにラベルをつけたい。 • 多少間違っていても漏れずに問い合わせをとれるようにしたい © 2020, Retrieva, Inc. All rights reserved.
  22. 22. 機械学習をしなくて良い方法を考える • 機械学習は構築と運用(モデルのメンテナンス)が難しい為、最初から機械学習で 問題を解くと考えるのではなく、 「本当に機械学習が必要なのか?」を考えるべき © 2020, Retrieva, Inc. All rights reserved.
  23. 23. STEP2:解くための道具選びと前処理をする © 2020, Retrieva, Inc. All rights reserved.
  24. 24. システム設計を考える •予測結果をどういう形で利用するのか •問題定型化フェーズを決めた内容を念頭に検討 •予測誤りをどこで吸収するのか •予測結果への手運用またはルールベースでのフォローを検討 © 2020, Retrieva, Inc. All rights reserved.
  25. 25. システム設計が難しい場合 • データをまずみて教師なし学習や、テキストマイニングツールをつかって可視化してみる • KH-Coder(https://khcoder.net/) © 2020, Retrieva, Inc. All rights reserved.
  26. 26. KH-coderで可視化した結果 © 2020, Retrieva, Inc. All rights reserved.
  27. 27. KH-coderで可視化した結果 © 2020, Retrieva, Inc. All rights reserved.
  28. 28. アルゴリズムを選定する • アルゴリズムを選ぶ前にどの手法を使うかを検討する © 2020, Retrieva, Inc. All rights reserved. No 選定内容 メリット デメリット 1 バッチ学習 アルゴリズムも豊富で扱いやすい 再学習のためにデータを保存する必要が ある 2 オンライン学習 データを貯めずに精度向上ができる Backアップ等がむずかしい 3 ディープラーニング 高い精度を出すことができる データ量と計算リソースが必要
  29. 29. 特徴量、教師データを設計をする • 機械学習を使用した自然言語処理が可能なデータかを精査する © 2020, Retrieva, Inc. All rights reserved. No 精査内容 例 1 データの長さ 文章が長かったり極端に短いデータがないかを 調査 2 正解データがゆれていないか 同じような単語で違うラベルがついてないか? 3 略語 略語とか同義語などがないか? 4 表記揺れ 大文字や小文字が揺れてないか? 5 特徴抽出方法をどうするか? N-gram?mecab?ipad-dic?neolog-d?
  30. 30. 前処理をする • 特徴量を設計した内容以外に以下のことを実行する • データ変換 • フォーマット変換:Webログ等の生データをRDBに登録可能な形に変える • データ変換:文字情報の数値化(曇り⇒1) • 不要な情報をそぎ落とし • 欠損値をけずる • 正解となりうる内容(〇〇フラグ)、本来知りえない正解データ情報 • 正規化 • データ等々を一定のルール(規則)に基づいて変形 © 2020, Retrieva, Inc. All rights reserved.
  31. 31. STEP3:モデルの作成 © 2020, Retrieva, Inc. All rights reserved.
  32. 32. 学習・パラメータチューニング • 本フェーズの第1目標 • 人力で付与した正解やルールベースで決めた正解など、ベースラインの予測性能を決めてそれを超える ことを目指す • ポイント • シンプルなアルゴリズムで予測モデルを作る • 多くの場合、データ不備がある為、データの再確認をする • 予測性能99.9%など高い性能が出た場合は、何かミスがあることを疑う • 過学習:学習に使ったデータに対してはきちんと正解できるけど、知らないデータに対しては全然当たらない • Data Leakage:本来知り得るはずのない正解データの情報が教師データに紛れ込み、予測が不当に当たる © 2020, Retrieva, Inc. All rights reserved.
  33. 33. システムの完成例 © 2020, Retrieva, Inc. All rights reserved.
  34. 34. お問い合わせについて分類 確認すべき文書を表示 © 2020, Retrieva, Inc. All rights reserved.
  35. 35. 【再掲】自然言語処理プロジェクトの流れ(仕事で学ぶ機械学習参照) • プロジェクトの大きく4ステップに分かれており、特に最初の2ステップが重要 • 教師あり学習では正解が必要であり、その正解を人間が教える必要があるが、 人間が解けない問題は機械は解けない! 学習・パラメータ チューニング システムに 組み込む 機械学習しないで 良い方法を考える 問題を 定式化する 前処理をする システム設計を 考える アルゴリズムを 選定する 特徴量、教師デー タを設計をする STEP1:機械学習で解ける問題設定に 落とし込む STEP2:解くための道具選びと前処理をする STEP3: モデルの作成 STEP4: サービスへの組込 :試行錯誤を繰り返すフェーズ 今回お話しをする範囲 © 2020, Retrieva, Inc. All rights reserved.
  36. 36. © 2020, Retrieva, Inc. All rights reserved.

×