Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

2018aiexpo linguistic experiment_design_and_management_group

425 views

Published on

第1回 AI・人工知能 EXPO(2017年6月28~30日)のプレゼンテーションで使用した弊社業務紹介スライド(実験統括グループ編)です。言語処理グループ編、概論編もアップしています。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

2018aiexpo linguistic experiment_design_and_management_group

  1. 1. IR-ALT流 音声や映像コーパスの作り方
  2. 2. 納品までの流れ データの 理想像を ヒアリング 作業準備 テスト収録 本番収録 データ整理 分析用 データの 作成 納品
  3. 3. 納品までの流れ データの 理想像を ヒアリング 作業準備 テスト収録 本番収録 データ整理 分析用 データの 作成 納品
  4. 4. 【Step1】データの理想像をヒアリング 店員と客の模擬対話データが欲しい 時は、どうしたらいいの? ミャンマー人とかドイツ人の 声って集められるの? モーション情報を収集したい!
  5. 5. シナリオを通りに演技している 映像データを集めたい! 50人のアメリカ英語ネイティブ を集めて音声を収録したい! アイトラッカーを 使って実験がしたい!
  6. 6. 納品までの流れ データの 理想像を ヒアリング 作業準備 テスト収録 本番収録 データ整理 分析用 データの 作成 納品
  7. 7. 【Step2】作業準備 収録の準備は、意外と大変です。 使用機材 の選定 被験者の アサイン 実施場所 の確保 実験環境 の設営 同意書 の作成 収録ツール の作成 マニュアル の作成 読み上げ原稿 の作成 対話シナリオ の作成 ★ 厳守!!
  8. 8. 高齢者 子供 方言 外国語/外国人 アルトメンバーズにおまかせ! アルトメンバーズ 【アルトメンバーズ】という人材のプールがあります。 多種多様な年代、国籍、職業の方が登録をしているので、「欲しい」が見つかります。 臨床心理士 親子 運転免許保持 コールセンター 勤務声優 被験者の アサイン
  9. 9. 社内に実験室を保有!!実施場所 の確保 防音ブースの外側 防音ブースの内側
  10. 10. 収録ツールはオーダーメイド! 収録ツール の作成 実験監督者が操作する画面 被験者に提示する画面
  11. 11. 各種資料の作成もお任せください! 同意書 の作成 マニュアル の作成 機密保持誓約 データの開示範囲 著作権放棄
  12. 12. 納品までの流れ データの 理想像を ヒアリング 作業準備 テスト収録 本番収録 データ整理 分析用 データの 作成 納品
  13. 13. 【Step3】テスト収録 対話収録の様子(自社実験室) 読み上げ収録の様子(自社スタジオ)
  14. 14. 納品までの流れ データの 理想像を ヒアリング 作業準備 テスト収録 本番収録 データ整理 分析用 データの 作成 納品
  15. 15. 【Step4】本番収録 対話収録管理の様子 読み上げ音声収録管理の様子
  16. 16. 収録のイメージ
  17. 17. 納品までの流れ データの 理想像を ヒアリング 作業準備 テスト収録 本番収録 データ整理 分析用 データの 作成 納品
  18. 18. 【Step5】データ整理 リアルタイムでの検聴 収録後のデータ整理
  19. 19. こんなデータは嫌だ ・ファイル名と内容が一致していない ・音声が無音だ ・「英語ネイティブ音声」のはずなのに明らかに日本人だ ・前後の余白が30秒もついている ・音声が割れている ・音量が小さすぎて何を言っているのかわからない ・画角が狭すぎて映像が切れている ・動画と音声の同期が取れていない こんなデータはアルトの作成するデータにはありません!!
  20. 20. 納品までの流れ データの 理想像を ヒアリング 作業準備 テスト収録 本番収録 データ整理 分析用 データの 作成 納品
  21. 21. 【Step6】分析用データの作成 【マルチモーダルアノテーション例】 ※このデータは、展示会用に制作したサンプルです
  22. 22. アノテーション実績 ・発話内容の書き起こし ・発話の時間情報付与 ・音素・文節単位での時間情報付与 ・発話者の特定 ・注視対象の特定 ・頷き区間の特定 ・感情の分類 ・ジェスチャーの分類 など どんなアノテーションでもお任せください!!
  23. 23. こんなデータは分析が面倒だ 独自にデータを作成したのは良いものの… ・眼鏡が邪魔で視線の動きが分からない ・登場人物が多すぎてアノテーションが面倒 ・ノイジーで、どこに発話が落ちているかわからない ・雑音を細かく分類したい ・データ量が膨大で作業が大変 そんな時もアイアール・アルトにお声がけください! どんなデータでも、アノテーションを承ります!!
  24. 24. こんな仕事もしています!
  25. 25. IR-ALTのスタンス • 研究・開発のサポート データ作成について、お困りのことがありましたら、 お気軽に相談ください。

×