Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20190827_AWS_Loft_LT

3,459 views

Published on

以下のイベントで登壇
https://awsj-ml.connpass.com/event/144260/

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

20190827_AWS_Loft_LT

  1. 1. 自然言語処理をはじめるまでの 道のり 2019/8/27 @ AWS Loft 株式会社 レトリバ © 2019, Retrieva, Inc. All rights reserved.
  2. 2. 自己紹介 • 名前 • 舛岡英人(Masuoka Hideto) • Twitter:hidetomasoka • 所属 • 株式会社レトリバ • マネージャー • 株式会社 Preferred Infrastructure • プリセールスエンジニア • Chainer ユーザーグループ © 2019, Retrieva, Inc. All rights reserved. 2
  3. 3. 会社名の由来 Information RetrievalGolden Retriever © 2019, Retrieva, Inc. All rights reserved. 3
  4. 4. 会社概要 設立 所在地 代表者 ビジョン 事業内容 2016年8月 東京都新宿区西新宿2-1-1 新宿三井ビル36F 代表取締役社長 河原 一哉 自然言語処理及び機械学習を用いたソフトウェアの 研究・開発・販売・導入およびサポート 本当に役に立つAIを作る © 2019, Retrieva, Inc. All rights reserved. 4
  5. 5. 理念 お客様の課題を解決する お客様の課題を解決するために、最適な技術を提供します。 最先端の技術に挑戦する 積極的に最先端の技術に対して挑戦を行い、実用化させます。 人への投資を惜しまない 最も重要な資源は人財であり、人財への投資を惜しみません。 © 2019, Retrieva, Inc. All rights reserved. 5
  6. 6. © 2019, Retrieva, Inc. All rights reserved. 6
  7. 7. © 2019, Retrieva, Inc. All rights reserved. 7
  8. 8. 研究:記事見出し生成 © 2019, Retrieva, Inc. All rights reserved. 8
  9. 9. 研究:論文 © 2019, Retrieva, Inc. All rights reserved. 9
  10. 10. B2Bでの自然言語処理の困難さ © 2019, Retrieva, Inc. All rights reserved. 10
  11. 11. B2Bでの自然言語処理の困難さ • 複雑なビジネスロジックと言語処理のちょうど良いところをど の様に探し当てるか © 2019, Retrieva, Inc. All rights reserved. 11 ルールで処理 できるほど 入力が定型に ならない! 課 題 ルールは 管理コストが 嵩む 教師データを 用意できる領 域では費用対 効果が出ない ビジネス上 「正確」な 「受け答え」 をしてほしい
  12. 12. ビジネススタイルによる制約 ソフトウェア 受託開発 Web データ 顧客のデータ 顧客のデータ サービス運営で取得でき るデータ ビジネス領域 顧客依存 顧客依存 自社サービス 効果実証の ための時間 短期 短期 断続的? 専門性 専門特化 汎用的 中間 Requirements for ML © 2019, Retrieva, Inc. All rights reserved. 12 少ないannotation 広いビジネス領域 専門特化 (like NLP) 少ないannotation 広いビジネス領域 汎用的 多様なデータ 特化したビジネス領域 中度の専門性
  13. 13. 課題と対策: 機械学習の視点から © 2019, Retrieva, Inc. All rights reserved. 13 少ないannotationデータ Pretrain タスクの 細分化 • 表現方法による差異 • 補正方法 • 外部データの活用 • 「納得しやすい」 解釈方法 教師なし • ラベルの偏り補正 • Un-labelの扱い 短いPoC 検証 データ 整備 • 独立したアルゴ リズム開発 • 開発・検証の 高速化 課 題 対 策
  14. 14. 自然言語処理PoCをはじめるまでの 道のり © 2019, Retrieva, Inc. All rights reserved. 14
  15. 15. 自然言語処理をはじめるまでの道のり 1. データ精査 2. 特徴抽出 3. アルゴリズムの選定 © 2019, Retrieva, Inc. All rights reserved. 15
  16. 16. データ精査 • 機械学習を使用した自然言語処理が可能なデータかを精査する © 2019, Retrieva, Inc. All rights reserved. No 精査内容 例 1 データの長さ 文章が長かったり極端に短いデータがない かを調査 2 正解データがゆれていないか 同じような単語で違うラベルがついてない か? 3 略語 略語とか同義語などがないか? 4 表記揺れ 大文字や小文字が揺れてないか? 16
  17. 17. 特徴抽出 • 特徴量が正しくとれているかを確認 © 2019, Retrieva, Inc. All rights reserved. No 精査内容 例 1 どの形態素解析エンジンを使うか そもそも使うか? - Mecab - Janome - sudachi 2 どの辞書を使うか? - Ipadic - Neologd 3 ルールで重みを付けるか? - 極性辞書 17
  18. 18. Predictor:機能(分類根拠可視化) © 2019, Retrieva, Inc. All rights reserved. • 可視化することで特徴抽出がうまくいってるかを確認 個別データの分類根拠 分類軸別の分類根拠 色の意味 青色がポジティブな影響 赤色がネガティブな影響 赤色、青色の大小の意味 ポジティブ/ネガティブの影響度の大小 特徴学習結果を各分類への影響度順に表示 【best】ポジティブな影響度 【worst】ネガティブな影響度 18
  19. 19. アルゴリズムの選定 • メリット・デメリットにあわせて、手法を検討 © 2019, Retrieva, Inc. All rights reserved. No 選定内容 メリット デメリット 1 バッチ学習 手法が多い ノウハウが多い 1回の学習あたりのコストが高い 学習データを全て蓄えておく必要 がある 2 オンライン学習 1回の学習あたりのコストが低い 学習データを全て蓄えておく必要 がない 外れ値などノイズの影響を受けや すい バックアップなどをとるのが大変 3 ディープラーニング 上記手法より高い精度がでること がある データ量が必要 計算リソースが必要 19
  20. 20. © 2019, Retrieva, Inc. All rights reserved.

×