Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

2018aiexpo natural language_processing_group

403 views

Published on

第1回 AI・人工知能 EXPO(2017年6月28~30日)のプレゼンテーションで使用した弊社業務紹介スライド(言語処理グループ編)です。実験統括グループ編、概論編もアップしています。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

2018aiexpo natural language_processing_group

  1. 1. IR-ALT流 テキストコーパスの作り方
  2. 2. IR-ALTはデータ作成を専門とした会社です。 • 機械学習に利用するための正解データ作成 • 音声認識等に利用するための音声発話収録 • 映像コーパス作成 • etc...
  3. 3. このスライドの目的 実績例として、 テキストコーパスの構築 をご紹介
  4. 4. テキストコーパスとは? • AI(機械学習)に利用する学習データのうち、テキストを扱う もの
  5. 5. テキストコーパスが何の役に立つの? • AIエンジンの精度を高めたい 学習データ (コーパス) データが精度を左右する
  6. 6. テキストコーパス作成例① • 対話コーパス 2名の話者がチャット対話したもの。 話者 発話 A こんにちは B こんにちは A 趣味を教えてもらっていいですか B そうですねぇ B 散歩かな? 収集数:10万発話以上 参加者数:100名程度
  7. 7. 対話コーパス作成例 作成手順 データの理 想像をヒア リング タスク 設計 (手法の提 案) 作業者集め 作業ツール 準備 作業実施 チェック 納品
  8. 8. 【Step1】データの理想像をヒアリング
  9. 9. 【Step1】データの理想像をヒアリング 対話コーパスを作 りたい・・・
  10. 10. 【Step1】データの理想像をヒアリング 来月末にはデータ が必要・・・ 対話コーパスを作 りたい・・・
  11. 11. 【Step1】データの理想像をヒアリング 来月末にはデータ が必要・・・ 集め方がわからな い・・・ 対話コーパスを作 りたい・・・
  12. 12. 【Step1】データの理想像をヒアリング 来月末にはデータ が必要・・・ こんなやり方はい かがでしょう! 集め方がわからな い・・・ 対話コーパスを作 りたい・・・
  13. 13. 対話コーパス作成例 作成手順 データの理 想像をヒア リング タスク 設計 (手法の提 案) 作業者集め 作業ツール 準備 作業実施 チェック 納品
  14. 14. 【Step2】タスク設計 データによって、起こりうる問題点、 最適な収集方法、作成者へのインス トラクションは様々
  15. 15. 【Step2】タスク設計 ノウハウを駆使して、 最適なタスクを設計! データによって、起こりうる問題点、 最適な収集方法、作成者へのインス トラクションは様々
  16. 16. 対話コーパス作成例 作成手順 データの理 想像をヒア リング タスク 設計 (手法の提 案) 作業者集め 作業ツール 準備 作業実施 チェック 納品
  17. 17. 【Step3】作業者集め 高齢 者 子供 方言 外国 語 アルトメンバーズ 臨床心 理士 親子 運転免許 保持 コールセン ター勤務声優
  18. 18. 【Step3】作業者集め 高齢 者 子供 方言 外国 語 アルトメンバーズ 臨床心 理士 親子 運転免許 保持 コールセン ター勤務声優 5000名が在籍
  19. 19. 【Step3】作業者集め 高齢 者 子供 方言 外国 語 アルトメンバーズ 臨床心 理士 親子 運転免許 保持 コールセン ター勤務声優 5000名が在籍 子供、高齢者、専門家など集め にくい属性もお任せください
  20. 20. 【Step3】作業者集め 高齢 者 子供 方言 外国 語 アルトメンバーズ 臨床心 理士 親子 運転免許 保持 コールセン ター勤務声優 5000名が在籍 子供、高齢者、専門家など集め にくい属性もお任せください 言語データの扱いに慣れたエキス パートスタッフも在籍
  21. 21. 対話コーパス作成例 作成手順 データの理 想像をヒア リング タスク 設計 (手法の提 案) 作業者集め 作業ツール 準備 作業実施 チェック 納品
  22. 22. 【Step4】作業ツール準備 ツールも作業効率やデータの品 質を左右する
  23. 23. 【Step4】作業ツール準備 案件ごとに 最適なツールを構築 ツールも作業効率やデータの品 質を左右する
  24. 24. 【Step4】作業ツール準備 簡単な判定作業から高 度なアノテーション (構文解析など)まで さまざま対応可 いくら稼いだか見える のでモチベーション アップ 犠牲バント
  25. 25. 【Step4】作業ツール準備 固有表現 抽出の正 解データ 作成ツー ル 固有表現抽出: 大量のテキスト から固有表現を 自動抽出するた めの要素技術
  26. 26. 対話コーパス作成例 作成手順 データの理 想像をヒア リング タスク 設計 (手法の提 案) 作業者集め 作業ツール 準備 作業実施 チェック 納品
  27. 27. 【Step5】作業実施 プロジェクトリー ダーが責任をもっ て監督
  28. 28. 【Step5】作業実施 プロジェクトリー ダーが責任をもっ て監督
  29. 29. 対話コーパス作成例 作成手順 データの理 想像をヒア リング タスク 設計 (手法の提 案) 作業者集め 作業ツール 準備 作業実施 チェック 納品
  30. 30. 【Step6】チェック 人力+機械処理をうま く組み合わせる
  31. 31. 【Step6】チェック 人力+機械処理をうま く組み合わせる ケアレスミスや方針揺れは機 械処理で効率的に特定
  32. 32. 【Step6】チェック 人力+機械処理をうま く組み合わせる 校正(誤字・脱字修正) ケアレスミスや方針揺れは機 械処理で効率的に特定
  33. 33. 【Step6】チェック 人力+機械処理をうま く組み合わせる 校正(誤字・脱字修正) ガイドラインに沿わないデー タの修正/再作成 ケアレスミスや方針揺れは機 械処理で効率的に特定
  34. 34. 対話コーパス作成例 作成手順 データの理 想像をヒア リング タスク 設計 (手法の提 案) 作業者集め 作業ツール 準備 作業実施 チェック 納品
  35. 35. テキストコーパス作成例② • 対話コーパス_アノテーション付 チャット対話コーパスの各発話を種類の情報を付けたもの 話者 発話 意図 A こんにちは あいさつ B こんにちは あいさつ A 趣味を教えてもらっていいですか 質問 B そうですねぇ フィラー B 散歩かな? 自問 分類数:10万発話以上
  36. 36. 対話意図コーパス作成例 作成手順 データの理 想像をヒア リング タスク 設計 (手法の提 案) 作業者集め 作業ツール 準備 作業実施⇔ ブラッシュ アップ チェック 納品
  37. 37. 対話意図コーパス作成例 作成手順 データの理 想像をヒア リング タスク 設計 (手法の提 案) 作業者集め 作業ツール 準備 作業実施⇔ ブラッシュ アップ チェック 納品
  38. 38. 同意文作成作業例 • FAQのQのゆらぎ(バリエーション)コーパス FAQのQuestionの異なる言い方を収集。 Q A ゆらぎ コーヒーはどこで売ってる? コーヒーの販売店の場所 コーヒー屋ある? コーヒーブレイクしたい どこかでブラックコーヒーは買えますか? コーヒーが飲みたい コーヒーならここで買えますよ 100QAについて、 各50文ずつ、 合計5000文作成
  39. 39. IR-ALTの強み •フットワークの軽さ •15年以上データ作成を専門にして培われて きたノウハウ •プロジェクトリーダーが一貫して監督しま す
  40. 40. こんな仕事もしています!
  41. 41. IR-ALTのスタンス • 研究・開発のサポート データ作成について、お困りのことがありましたら、 お気軽に相談ください。

×