Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

自然言語処理向け データアノテーションとそのユースケース

1,147 views

Published on

DLLAB Engineer Days Day2: Conference
Room1-4
DefinedCrowd Japan株式会社
齋藤 稔 氏
高橋 マルコス 氏

Published in: Technology
  • Be the first to comment

自然言語処理向け データアノテーションとそのユースケース

  1. 1. 自然言語処理向け データアノテーションと そのユースケース DefinedCrowd Japan株式会社 2019年10月7日 @ DLLAB Engineer Days - Day2
  2. 2. DefinedCrowd® confidential 1、DefinedCrowd会社概要ご紹介 (1ページ) 2、AI市場、特に自然言語処理/NLP関連市場の状況 (おさらい) 3、プロジェクトの目的 - アノテーションの種類など 4、ユースケース/事例 本日のAgenda
  3. 3. DefinedCrowd® confidential 1、DefinedCrowd会社概要ご紹介 (1ページ)
  4. 4. DefinedCrowd® confidential 2015年 – 米国シアトルで創業 ▪ マイクロソフト社、コルタナ開発チームに所属していたメンバーにより設立 ▪ データサイエンティストの為のサービスとして、画像/動画だけでなく、 音声・自然言語データの収集・アノテーション・検証などの データ前処理に注力 DefinedCrowd - 会社概要 2016年 - ▪ データプラットフォームをローンチ ▪ Sony Innovation Fund, Amazon Alexa Fundなどからの出資を得る 2017年 - ▪ クラウド コミュニティ向け、Neevoプラットフォームをローンチ 2018年 - ▪ 日本法人設立 ▪ Amazon Alexa Skills パートナー / IBM Watson StudioとのAPI連携 / Microsoft‘s co-sell programへの参加、など 2019年 - ▪ ISO 27001 認定取得 ▪ GDPR への準拠完了
  5. 5. DefinedCrowd® confidential 2、AI市場、特に自然言語処理/NLP関連市場の状況 (おさらい)
  6. 6. DefinedCrowd® confidential 6 2-1, TAM – AI市場規模 Total: $190B (1900億ドル, 約20兆円) 2025年までに 2021年までに 70%の企業が 従業員の生産性向上の為にAIを導入する - Gartner 2018 - $128B (1280億ドル, 約13.7兆円) $40B (400億ドル, 約4.3兆円) $22B (220億ドル, 約2.3兆円) 2018年に市場規模は $24B(240億ドル, 約2.5兆円) に達し、 2017年~2022年の CAGR (年平均成長率)は、37%に 達すると予測される - IDC - 音声関連 市場 ビジョン関連 市場 自然言語関連 市場 Source: Grand View Research, August 2016 Markets and Markets, February 2017 Tractica, August 2017
  7. 7. DefinedCrowd® confidential ここでGartner社の言うAIタイプとは: ・意思決定支援 / 拡張 – 例えば “セマンティック(意味) 要約” ・エージェント – 例えば “自然言語による対話”・“雑談” ・スマートプロダクト – 例えば “感情認識” 蛇足:産総研の人間拡張研究センターは主に”フィジカル”なシステムを研究対象としているが、 ここでGartner社が指しているのは”認知”が主。 2-2, 自然言語処理には、大きな可能性があります! 訳: “AI Augmentation (AIの拡張)により2021年に 2.9兆ドル(約310兆円)のビジネス価値が生まれる” 先程の、自然言語関連市場規模 = 「$22B (220億ドル, 約2.3兆円)」と比べると、 約135倍の”ビジネス価値” (2019年度、日本の国家予算:一般会計 101兆円 + 特別会計の歳出純計額 197.0兆円 = 合計 298兆円 < https://www.bb.mof.go.jp/hdocs/bxss010bh31.html >) “Gartnerは、拡張インテリジェンスを、 人間とAIが協調して認知パフォーマンスを向上させる、 人間中心のパートナーシップモデルと定義しています。” Data Soure: https://www.gartner.com/en/newsroom/press-releases/2019-08-05-gartner-says-ai-augmentation-will-create-2point9-trillion-of-business-value-in-2021
  8. 8. DefinedCrowd® confidential 3、プロジェクトの目的 - アノテーションの種類など
  9. 9. DefinedCrowd® confidential 構築するサービスは? (例:FAQ, Text Mining, 文章要約, チャットボット, マーケティング分析 etc.) => どのようなシステム/モデルを使用して、どのような処理? => どのような学習データ/アノテーションが必要? => アノテーション作業は社内?社外サービス利用? 自然言語処理の例と、アノテーションの種類: ・固有表現抽出 - エンティティ・タグ付け - 人名、地名、会社名、数字表現の特定(時間、日付、お金)など ・意味の推定 / 含有関係認識 / 語義曖昧性の解消 - セマンティック・アノテーション - 発話情報以外に、”一般常識”などを含めた大量の知識および推論が必要 ・感情推定 / 評判分析 - センティメント・タグ付け ・照応・省略解析 / 談話表示構造 (対話・独話) - コンテキスト・アノテーション - 「ここ」「そこ」「あれ」といった指示代名詞「こそあど言葉」や、 英語の「it」「this」など、 また、文のまとまり、話題の転換 など 更に、・マルチモーダル(顔の表情 + 発話される状況+ 声のトーンなど)への対応 ・オントロジー(概念や、概念間の関係を体系化し、知識・データを統合管理)の構築 3-1,プロジェクトの目的 - アノテーションの種類など 多次元で 構造化
  10. 10. DefinedCrowd® confidential 3-2-1、DefinedCrowd のアノテーションサービス 主な 自然言語 関連ワークフロー例: テキストバリアント 収集+検証 意味や意図を保ちながら、 異なる表現でテキストデータを収集。 フェーズごとに別のワーカーが、 文法、スペルチェックを含む 検証・修正作業を実行 テキスト感情 アノテーション テキストから、その書き手/ 話者の感情を特定し タグ付け 固有表現エンティティ (Named Entity) タグ付け 人名・地名・事象・概念などを、 特定のタグの下に特定し、 カテゴリー化する 複数エンティティ タグ付け 人名・地名・事象・概念などを、 複数の/全てのタグの下に 特定し、カテゴリー化 コンテンツ作成 指定された意図やキーワードを 使い、2名の会話データを テキストデータとして作成 意味注釈(セマンティック) アノテーション 段階ごとに最大5つのカテゴリーと 5つのドメインに対応し、更に、 1文あたり複数名によるアノテーション など…
  11. 11. DefinedCrowd® confidential 3-2-2、DefinedCrowd のアノテーションサービス 主な 音声データ 関連ワークフロー例: MOSテスト 合成音声の発話について、 内容を理解できるか、 自然であるかを5段階評価 スクリプトを 音声データとして 収集 テキスト情報を読み上げ 録音 自発的な音声収集 スクリプト無しで、与え られたお題などに沿って 即興で音声を収集 会話書き起こし 音声データから、会話音声を テキストデータに書き起こし ナローバンドの スクリプト化された 音声データの収集 敢えて音質を落として、 回線状況の悪いコールを再現し、 会話音声を収集 音声感情タグ付け 音声データから、その話者 の感情をタグ付け テキストと音声の検証 音声がスクリプト/文字起こしされ たデータに適合するか検証。 必要に応じ修正。 音声からテキストの 書き起こし 音声データを 正確に テキストデータへ書き起こし (コンタクトセンターの録音 音声データなど) など…
  12. 12. DefinedCrowd® confidential マシンラーニング クラウドコミュニティ AI向け学習データの、収集・作業ワークフロー human-in-the-loop (人間参加型) + 機械学習 12 データ品質 ワーカーのパフォーマンス アノテーション予測、など データ収集 アノテーション 検証、など ワークフロー オートメーション 品質の高い学習データをスピーディーにお届け
  13. 13. DefinedCrowd® confidential 50+標準語 / 220言語 (方言を含む) 195か国 210,000+人 登録メンバー 運営するクラウド コミュニティの概要
  14. 14. DefinedCrowd® confidential DefinedCrowd – 概要イメージ 14音声データ関連プロジェクト:300件以上 ・500万件以上のタスク / 300万件以上の、オーディオファイル生成 2019年1月~9月末までの9か月間での、実作業実績(弊社グローバル全体) 自然言語関連プロジェクト:170件以上 ・320万件以上のタスク / 約20万件のテキストファイル生成
  15. 15. DefinedCrowd® confidential 4、ユースケース/事例
  16. 16. DefinedCrowd confidential 自然言語処理 ユースケース 16
  17. 17. DefinedCrowd confidential • 案件:特定固有名詞の属性識別アノテーション作業 • チャレンジ: • 金融ドメインのデータ • 固有名詞の定義付け • ドメインに特化した知識 自然言語処理ユースケース 金融ドメインの人物名・会社名自動認識モデル作成
  18. 18. DefinedCrowd confidential 自然言語処理ユースケース 金融ドメインの人物名・会社名自動認識モデル作成 ファイナンシャ ルレポート から文章準備 言語 (日本語・英語) 固有名詞 (会社名・人名) 抽出 参加者 タグ付け/検証 固有名詞 タグ付け 2 500 100,00021,000 >> > > Step 1 文章準備 Step 2 タグ付け • クライアントの要件の明確化 • ワークフロー化
  19. 19. DefinedCrowd confidential • 結果 • プロジェクト完了まで1か月 • 100,000の固有名詞のタグ付け • 90%の正確性 • データの用途 • 金融に関わるイベントのバタフライ効果を予測するモデル生成 自然言語処理ユースケース 金融ドメインの人物名・会社名自動認識モデル作成
  20. 20. DefinedCrowd confidential 音声技術 ユースケース 20
  21. 21. DefinedCrowd confidential • 案件:特定年齢層(65-80歳)からの感情(喜怒哀楽)別発話データ収 集作業 • チャレンジ: • 感情をこめたテキストの読み上げ • ジェンダー比率 • 65歳以上 • モバイルアプリをどのように使ってもらうか • ノイズ 音声技術ユースケース 感情別発話認識モデルの強化
  22. 22. DefinedCrowd confidential • ワークフロー化 音声技術ユースケース 感情別発話認識モデルの強化 感情 (喜怒哀楽) 台本作成 参加者5人から サンプルデータ 収集 サンプルから データ質の要件定義 参加者 録音;年齢、性別 バランスを考慮 録音音声 検証 5 25 4,6006004 >> > > Step 1 データの認識合わせ Step 2 スピーチ録音
  23. 23. DefinedCrowd confidential • 結果 • プロジェクト完了まで1か月 • 年齢とジェンダーの比率に配慮した30人からの高品質な音声データ • 4500以上の音声収集 • データの用途 • 介護施設での生活をさらに快適にするプロダクト 音声技術ユースケース 感情別発話認識モデルの強化
  24. 24. DefinedCrowd confidential グローバル ユースケース 24
  25. 25. DefinedCrowd confidential • 案件 • 名前エンティティの認識 • アスペクトベースの感情分析 • チャレンジ • データ収集(Webクローリング) • 多言語(10以上の言語) • 同一言語内での異なる方言を考慮 グローバルユースケース クライアントのデータのエンティティのタグ付けと感情のレビュー
  26. 26. DefinedCrowd confidential • ワークフロー • それぞれの言語と方言に合わせてワークフローをカスタマイズ • それぞれの方言に異なるワーカーをアサイン • 結果 • 4か月間のプロジェクト(複雑な言語はさらに長期間を要する) • 150万ものエンティティをタグ付け • 30万ものレビューの分析 グローバルユースケース クライアントのデータのエンティティのタグ付けと感情のレビュー
  27. 27. DefinedCrowd confidential アスペクトベースの 感情分析 27
  28. 28. DefinedCrowd confidential • 普通の感情分析より詳細な分析が可能 • カスタマー中心のビジネスをサポート • 文の中の異なる感情それぞれを識別する 28 アスペクトベースの感情分析 より高度な感情分析の手法
  29. 29. DefinedCrowd confidential “I came here with my friends on a Tuesday night. Our waiter was not very helpful and the music was terrible. But the sushi here was amazing.” “火曜日の夜、友達と来ました。ウェイターのサービスはあまり良くなく、 音楽はひどかったです。でも寿司は最高でした。” 一般的な感情分析 29 アスペクトベースの感情分析 より高度な感情分析の手法
  30. 30. DefinedCrowd confidential “I came here with my friends on a Tuesday night. Our waiter was not very helpful and the music was terrible. But the sushi here was amazing.” “火曜日の夜、友達と来ました。ウェイターのサービスはあまり良くなく、 音楽はひどかったです。でも寿司は最高でした。” アスペクトベースの感情分析 30 アスペクトベースの感情分析 より高度な感情分析の手法
  31. 31. DefinedCrowd confidential 31 アスペクトベースの感情分析 Another method for Sentiment Analysis
  32. 32. DefinedCrowd confidential Q&A 32
  33. 33. Email us at: 日本・アジアパシフィック営業統括 Vice President, Head of Sales – Japan & Asia-Pacific Minoru Saito minoru@definedcrowd.com Visit our API at: developers.definedcrowd.com Request a trial at: enterprise.definedcrowd.com/en-us/account/requestdemo/
  34. 34. http://bit.ly/2Vf4fKh 自然言語処理向けデータアノテーションとそのユース ケース アンケートへのご協力をお願いします。

×