SlideShare a Scribd company logo
1 of 41
IR-ALT流
テキストコーパスの作り方
IR-ALTはデータ作成を専門とした会社です。
• 機械学習に利用するための正解データ作成
• 音声認識等に利用するための音声発話収録
• 映像コーパス作成
• etc...
このスライドの目的
実績例として、 テキストコーパスの構築 をご紹介
テキストコーパスとは?
• AI(機械学習)に利用する学習データのうち、テキストを扱う
もの
テキストコーパスが何の役に立つの?
• AIエンジンの精度を高めたい
学習データ
(コーパス)
データが精度を左右する
テキストコーパス作成例①
• 対話コーパス
2名の話者がチャット対話したもの。
話者 発話
A こんにちは
B こんにちは
A 趣味を教えてもらっていいですか
B そうですねぇ
B 散歩かな?
収集数:10万発話以上
参加者数:100名程度
対話コーパス作成例 作成手順
データの理
想像をヒア
リング
タスク
設計
(手法の提
案)
作業者集め
作業ツール
準備
作業実施 チェック 納品
【Step1】データの理想像をヒアリング
【Step1】データの理想像をヒアリング
対話コーパスを作
りたい・・・
【Step1】データの理想像をヒアリング
来月末にはデータ
が必要・・・
対話コーパスを作
りたい・・・
【Step1】データの理想像をヒアリング
来月末にはデータ
が必要・・・
集め方がわからな
い・・・
対話コーパスを作
りたい・・・
【Step1】データの理想像をヒアリング
来月末にはデータ
が必要・・・
こんなやり方はい
かがでしょう!
集め方がわからな
い・・・
対話コーパスを作
りたい・・・
対話コーパス作成例 作成手順
データの理
想像をヒア
リング
タスク
設計
(手法の提
案)
作業者集め
作業ツール
準備
作業実施 チェック 納品
【Step2】タスク設計
データによって、起こりうる問題点、
最適な収集方法、作成者へのインス
トラクションは様々
【Step2】タスク設計
ノウハウを駆使して、
最適なタスクを設計!
データによって、起こりうる問題点、
最適な収集方法、作成者へのインス
トラクションは様々
対話コーパス作成例 作成手順
データの理
想像をヒア
リング
タスク
設計
(手法の提
案)
作業者集め
作業ツール
準備
作業実施 チェック 納品
【Step3】作業者集め
高齢
者
子供
方言
外国
語
アルトメンバーズ
臨床心
理士
親子
運転免許
保持
コールセン
ター勤務声優
【Step3】作業者集め
高齢
者
子供
方言
外国
語
アルトメンバーズ
臨床心
理士
親子
運転免許
保持
コールセン
ター勤務声優
5000名が在籍
【Step3】作業者集め
高齢
者
子供
方言
外国
語
アルトメンバーズ
臨床心
理士
親子
運転免許
保持
コールセン
ター勤務声優
5000名が在籍
子供、高齢者、専門家など集め
にくい属性もお任せください
【Step3】作業者集め
高齢
者
子供
方言
外国
語
アルトメンバーズ
臨床心
理士
親子
運転免許
保持
コールセン
ター勤務声優
5000名が在籍
子供、高齢者、専門家など集め
にくい属性もお任せください
言語データの扱いに慣れたエキス
パートスタッフも在籍
対話コーパス作成例 作成手順
データの理
想像をヒア
リング
タスク
設計
(手法の提
案)
作業者集め
作業ツール
準備
作業実施 チェック 納品
【Step4】作業ツール準備
ツールも作業効率やデータの品
質を左右する
【Step4】作業ツール準備
案件ごとに
最適なツールを構築
ツールも作業効率やデータの品
質を左右する
【Step4】作業ツール準備
簡単な判定作業から高
度なアノテーション
(構文解析など)まで
さまざま対応可
いくら稼いだか見える
のでモチベーション
アップ
犠牲バント
【Step4】作業ツール準備 固有表現
抽出の正
解データ
作成ツー
ル
固有表現抽出:
大量のテキスト
から固有表現を
自動抽出するた
めの要素技術
対話コーパス作成例 作成手順
データの理
想像をヒア
リング
タスク
設計
(手法の提
案)
作業者集め
作業ツール
準備
作業実施 チェック 納品
【Step5】作業実施
プロジェクトリー
ダーが責任をもっ
て監督
【Step5】作業実施
プロジェクトリー
ダーが責任をもっ
て監督
対話コーパス作成例 作成手順
データの理
想像をヒア
リング
タスク
設計
(手法の提
案)
作業者集め
作業ツール
準備
作業実施 チェック 納品
【Step6】チェック
人力+機械処理をうま
く組み合わせる
【Step6】チェック
人力+機械処理をうま
く組み合わせる
ケアレスミスや方針揺れは機
械処理で効率的に特定
【Step6】チェック
人力+機械処理をうま
く組み合わせる
校正(誤字・脱字修正)
ケアレスミスや方針揺れは機
械処理で効率的に特定
【Step6】チェック
人力+機械処理をうま
く組み合わせる
校正(誤字・脱字修正)
ガイドラインに沿わないデー
タの修正/再作成
ケアレスミスや方針揺れは機
械処理で効率的に特定
対話コーパス作成例 作成手順
データの理
想像をヒア
リング
タスク
設計
(手法の提
案)
作業者集め
作業ツール
準備
作業実施 チェック 納品
テキストコーパス作成例②
• 対話コーパス_アノテーション付
チャット対話コーパスの各発話を種類の情報を付けたもの
話者 発話 意図
A こんにちは あいさつ
B こんにちは あいさつ
A 趣味を教えてもらっていいですか 質問
B そうですねぇ フィラー
B 散歩かな? 自問
分類数:10万発話以上
対話意図コーパス作成例 作成手順
データの理
想像をヒア
リング
タスク
設計
(手法の提
案)
作業者集め
作業ツール
準備
作業実施⇔
ブラッシュ
アップ
チェック 納品
対話意図コーパス作成例 作成手順
データの理
想像をヒア
リング
タスク
設計
(手法の提
案)
作業者集め
作業ツール
準備
作業実施⇔
ブラッシュ
アップ
チェック 納品
同意文作成作業例
• FAQのQのゆらぎ(バリエーション)コーパス
FAQのQuestionの異なる言い方を収集。
Q A ゆらぎ
コーヒーはどこで売ってる?
コーヒーの販売店の場所
コーヒー屋ある?
コーヒーブレイクしたい
どこかでブラックコーヒーは買えますか?
コーヒーが飲みたい コーヒーならここで買えますよ
100QAについて、
各50文ずつ、
合計5000文作成
IR-ALTの強み
•フットワークの軽さ
•15年以上データ作成を専門にして培われて
きたノウハウ
•プロジェクトリーダーが一貫して監督しま
す
こんな仕事もしています!
IR-ALTのスタンス
• 研究・開発のサポート
データ作成について、お困りのことがありましたら、
お気軽に相談ください。

More Related Content

Similar to 2018aiexpo natural language_processing_group

翻訳VR作ってみた
翻訳VR作ってみた翻訳VR作ってみた
翻訳VR作ってみた尾上 兼透
 
アンケート調査について ~自由入力テキストとの格闘~(GGLT vol.5)
アンケート調査について ~自由入力テキストとの格闘~(GGLT vol.5)アンケート調査について ~自由入力テキストとの格闘~(GGLT vol.5)
アンケート調査について ~自由入力テキストとの格闘~(GGLT vol.5)Hiroshi Sumi
 
俺が作れるさいきょうAIアシストシステム.pptx
俺が作れるさいきょうAIアシストシステム.pptx俺が作れるさいきょうAIアシストシステム.pptx
俺が作れるさいきょうAIアシストシステム.pptxytakahashineco
 
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送Google Cloud Platform - Japan
 
【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方
【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方
【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方UnityTechnologiesJapan002
 
SAS Viya Deep Dive: 自然言語処理&AI
SAS Viya Deep Dive: 自然言語処理&AISAS Viya Deep Dive: 自然言語処理&AI
SAS Viya Deep Dive: 自然言語処理&AISAS Institute Japan
 
20230406_ChatGPT10Fight.pdf
20230406_ChatGPT10Fight.pdf20230406_ChatGPT10Fight.pdf
20230406_ChatGPT10Fight.pdfssusera06cae
 
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
日本語における自然言語解析とその応用 〜COTOHA VA & API〜日本語における自然言語解析とその応用 〜COTOHA VA & API〜
日本語における自然言語解析とその応用 〜COTOHA VA & API〜ネクストスケープ
 
TensorFlowで会話AIを作ってみた。
TensorFlowで会話AIを作ってみた。TensorFlowで会話AIを作ってみた。
TensorFlowで会話AIを作ってみた。tak9029
 
Mule Runtime のアーキテクチャコンセプト紹介
Mule Runtime のアーキテクチャコンセプト紹介Mule Runtime のアーキテクチャコンセプト紹介
Mule Runtime のアーキテクチャコンセプト紹介MuleSoft Meetup Tokyo
 
Connect 2018 in Koriyama, with UDC - Microsoft AI Session
Connect 2018 in Koriyama, with UDC - Microsoft AI SessionConnect 2018 in Koriyama, with UDC - Microsoft AI Session
Connect 2018 in Koriyama, with UDC - Microsoft AI SessionDaiyu Hatakeyama
 
AI for Media 2018 - 放送/映像にまつわる AI 徹底解説 -
AI for Media 2018  - 放送/映像にまつわる AI 徹底解説 -AI for Media 2018  - 放送/映像にまつわる AI 徹底解説 -
AI for Media 2018 - 放送/映像にまつわる AI 徹底解説 -Daiyu Hatakeyama
 
[BA09] 生産性/利便性を追求した最先端の業務アプリケーションとは!? ~Dynamics 365/Office 365 とチャットアプリケーションと...
[BA09] 生産性/利便性を追求した最先端の業務アプリケーションとは!? ~Dynamics 365/Office 365 とチャットアプリケーションと...[BA09] 生産性/利便性を追求した最先端の業務アプリケーションとは!? ~Dynamics 365/Office 365 とチャットアプリケーションと...
[BA09] 生産性/利便性を追求した最先端の業務アプリケーションとは!? ~Dynamics 365/Office 365 とチャットアプリケーションと...de:code 2017
 
Call Center Watsonのご紹介
Call Center Watsonのご紹介Call Center Watsonのご紹介
Call Center Watsonのご紹介Hiroshi Tomioka
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割Takuya Nishimoto
 

Similar to 2018aiexpo natural language_processing_group (20)

20230425_getsudemy01_Power Platform + Azure Cognitive Serviceを語らせてください!.pdf
20230425_getsudemy01_Power Platform + Azure Cognitive Serviceを語らせてください!.pdf20230425_getsudemy01_Power Platform + Azure Cognitive Serviceを語らせてください!.pdf
20230425_getsudemy01_Power Platform + Azure Cognitive Serviceを語らせてください!.pdf
 
翻訳VR作ってみた
翻訳VR作ってみた翻訳VR作ってみた
翻訳VR作ってみた
 
アンケート調査について ~自由入力テキストとの格闘~(GGLT vol.5)
アンケート調査について ~自由入力テキストとの格闘~(GGLT vol.5)アンケート調査について ~自由入力テキストとの格闘~(GGLT vol.5)
アンケート調査について ~自由入力テキストとの格闘~(GGLT vol.5)
 
俺が作れるさいきょうAIアシストシステム.pptx
俺が作れるさいきょうAIアシストシステム.pptx俺が作れるさいきょうAIアシストシステム.pptx
俺が作れるさいきょうAIアシストシステム.pptx
 
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送
 
【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方
【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方
【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方
 
SAS Viya Deep Dive: 自然言語処理&AI
SAS Viya Deep Dive: 自然言語処理&AISAS Viya Deep Dive: 自然言語処理&AI
SAS Viya Deep Dive: 自然言語処理&AI
 
20230406_ChatGPT10Fight.pdf
20230406_ChatGPT10Fight.pdf20230406_ChatGPT10Fight.pdf
20230406_ChatGPT10Fight.pdf
 
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
日本語における自然言語解析とその応用 〜COTOHA VA & API〜日本語における自然言語解析とその応用 〜COTOHA VA & API〜
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
 
TensorFlowで会話AIを作ってみた。
TensorFlowで会話AIを作ってみた。TensorFlowで会話AIを作ってみた。
TensorFlowで会話AIを作ってみた。
 
Mule Runtime のアーキテクチャコンセプト紹介
Mule Runtime のアーキテクチャコンセプト紹介Mule Runtime のアーキテクチャコンセプト紹介
Mule Runtime のアーキテクチャコンセプト紹介
 
大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
 
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
 
JMAT Groonga Tokenizer Talks
JMAT Groonga  Tokenizer TalksJMAT Groonga  Tokenizer Talks
JMAT Groonga Tokenizer Talks
 
Connect 2018 in Koriyama, with UDC - Microsoft AI Session
Connect 2018 in Koriyama, with UDC - Microsoft AI SessionConnect 2018 in Koriyama, with UDC - Microsoft AI Session
Connect 2018 in Koriyama, with UDC - Microsoft AI Session
 
AI for Media 2018 - 放送/映像にまつわる AI 徹底解説 -
AI for Media 2018  - 放送/映像にまつわる AI 徹底解説 -AI for Media 2018  - 放送/映像にまつわる AI 徹底解説 -
AI for Media 2018 - 放送/映像にまつわる AI 徹底解説 -
 
[BA09] 生産性/利便性を追求した最先端の業務アプリケーションとは!? ~Dynamics 365/Office 365 とチャットアプリケーションと...
[BA09] 生産性/利便性を追求した最先端の業務アプリケーションとは!? ~Dynamics 365/Office 365 とチャットアプリケーションと...[BA09] 生産性/利便性を追求した最先端の業務アプリケーションとは!? ~Dynamics 365/Office 365 とチャットアプリケーションと...
[BA09] 生産性/利便性を追求した最先端の業務アプリケーションとは!? ~Dynamics 365/Office 365 とチャットアプリケーションと...
 
銀行ロビーアシスタント
銀行ロビーアシスタント銀行ロビーアシスタント
銀行ロビーアシスタント
 
Call Center Watsonのご紹介
Call Center Watsonのご紹介Call Center Watsonのご紹介
Call Center Watsonのご紹介
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
 

Recently uploaded

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 

Recently uploaded (12)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 

2018aiexpo natural language_processing_group

Editor's Notes

  1. それでは、これからIR-ALT流テキストコーパスの作り方と題しまして、弊社業務の一例をご紹介したいと思います。
  2. こんにちは。 私達IR-ALTは、データ作成を専門とした会社です。 例えば、機械学習に利用するための正解データ作成、音声認識に利用するための音声発話収録、画像認識に利用するための映像コーパスの作成などを行っています。
  3. このスライドでは、IR-ALTが得意とする「テキストコーパス作成」業務についてご紹介したいと思います。 この説明を通じて、弊社の強みをお伝えできればと思います。
  4. まず、ここでの「テキストコーパス」とはどんなものを指しているのかを確認しておきます。 私達が「テキストコーパス」と呼んでいるのは、自然言語処理の研究・開発に利用するための言語資源、 とりわけ、AIの学習に利用する学習データのことを指します。
  5. そもそも、なぜテキストコーパスが必要になるのでしょうか。 テキストコーパスの利用例として、AIエンジンの精度向上などが挙げられます。 例えばワトソンの質問応答システムの回答精度を上げたければ、質問文のコーパスを多く用意する必要があります。
  6. では、実際に弊社が過去に作成したテキストコーパスをご紹介致します。 まず一つ目は、「対話コーパス」の作成作業です。 作業内容は、2名の作業者がweb上でチャットした対話データの作成です。 収集発話数は10万発話以上、対話参加者数は100名程度、期間はおよそ1か月で収集しました。
  7. このコーパスの作成プロセスは、大まかに次のようになります。 最初に、お客様にデータの理想像を確認、つまり要件定義を行います。 二番目に、そのデータを作成するためのタスク設計、つまり基本設計を行います。 三番目に、実際に作業を行う作業者を集めることを行います。 四番目に、作業を効率よく行うための作業ツールの作成を行います。 ここまで準備が整ってから、次にデータ作成作業に入り、その後作成データ内容のチェック、納品という運びになります。 ここからは各工程について、簡単にご説明いたします。 ではまず、データの理想像をお客様からヒアリングについてです。
  8. まず、お客様が希望するデータ内容、その使用用途について細かく伺うことを行います。
  9. 欲しいデータ像は何か?
  10. 予算、期間はどのくらいを考えているか?
  11. 期間や予算は決めていても、具体的な収集方法までイメージして指定するお客さまは、殆どおりません。
  12. そこでヒアリング結果から、作業内容についてご提案するという形になることが多くあります。 ですので、ご相談時に明確な要件が決まっていなくても、問題ありません。 「データ作成のプロ」の観点から、ご提案できることがきっとございます。 お困りのことがあればまずはお気軽にご相談ください。
  13. 次に、作業を行うための最適なタスクの設計を行います。
  14. 作成したいデータの性質によって、起こりうるトラブル、最適な収集方法、作成者へのインストラクション内容などは大きく変わります。
  15. IR-ALTは、15年以上データ作成を専門に行ってきたことにより培われたノウハウを持っています。 最適なタスクを設計し、作成するデータを、お客様が望む理想のデータへと近づけます。 ただいま説明しています「対話コーパス」作成案件においても、 お客様側で明確な作業指針や手法に関するご要望はございませんでしたので、 社内でアイディアを出し合い、お客様と協議しながら工程内容を決めていきました。
  16. 次は、実際に作業を行う作業者を集める工程についてです。
  17. 弊社では、「アルトメンバーズ」という自社の作業者ネットワークを保有しています。
  18. 現在登録数はおよそ5000名になり、 必要に応じて登録者の方々に作業のお願いの連絡を致します。
  19. アルトメンバーズだけでは補えない属性の作業者が必要な場合には、 外部求人媒体も併用することで、子供や高齢者、外国人などの集めにくい属性の収集も可能としています。
  20. アルトメンバーズにはデータ作成の業務に慣れた、エキスパートスタッフが在籍していますので、 未経験のクラウドワーカーに任せにくい、高度なアノテーションなども安心してお任せください。
  21. 次に、作業ツール準備についてご説明いたします。
  22. 作業ツールは、その内容により作業結果のクオリティを大きく左右します。 ツール次第で、工数が倍になったり、意図したものと大きく異なるデータが生まれやすくなったりもします。
  23. アイアール・アルトではツール開発に特化したエンジニアが、案件ごとに最適なツールを構築しています。
  24. 只今ご紹介している案件とは別の案件になりますが、 弊社で用意したウェブブラウザ上で動作する作業ツールの一例をお見せします。 大規模に作業展開するときは、作業者のモチベーションをあげ、ミスを防ぐ仕掛けを組み込むことや、スマホ・タブレットからの操作性にも重点を置いています。 例えば、作業報酬をすぐ確認できることも、モチベーションを上げていくための方法になります。
  25. 社内の少数精鋭で行う高度なアノテーション作業では、より作り込んだツールを用います。 これはMicrosoft社のAccessを利用して構築したツールです。 大量のテキストから固有表現を自動抽出するための要素技術として「固有表現抽出」というものがあります。 この技術についてご研究されている研究者さまからのご依頼で、 弊社でテキストをお預かりし、正解データを作成したことがあります。 そのとき利用したツールをムービーでお見せいたします。 (ムービー中に読む↓) 左が抽出後のアノテーション済みテキスト、右側の枠が作業スペースです。 右側のテキスト中から固有表現にあたる箇所を特定し、 固有表現の種類を右側上部のプルダウンで選択し、プルダウン隣にあるSetボタンを押したタイミングで、左側にタグが埋め込まれていきます。 (この動画ではなぜかプルダウンが見えておりませんが) 固有表現の種類はLOCATIONやORGANIZATIONなどの数種類から選んでいます。
  26. ツールや作業者が準備できましたら、漸く実際の作業が始まります。
  27. お客さまからの依頼であるプロジェクトには、必ずプロジェクトリーダーという管理者がつきます。
  28. 実際にデータを作る作業者への教育は、作業結果のクオリティを左右する重要な事項になります。 プロジェクトリーダーは、プロジェクトの進行を管理するだけでなく、ガイドラインの整備、作業者とのすり合わせ、お客様との協議などを通して、 よりよいデータを作るために責任をもって、品質管理をしながらプロジェクトを進めていきます。 これには長い間データ作成を専門に行ってきた弊社のノウハウが大きく活かされます。
  29. 一通りデータが完成しましたら、次はその内容のチェックを行います。
  30. チェックは、機械でできるものは当然機械処理をしますが、 どうしても人間に頼る部分もあります。 そこで、人手と機械処理を組み合わせて、高精度かつ効率よくチェックしていきます。
  31. ケアレスミスチェックや、作業方針の途中変更による付与情報の誤りのようなものは、 機械処理で効率的に特定し、修正します。
  32. 誤字脱字に関しては人手による確認が必要なことから、 基本人手で探すことになりますが、同じミスがないかのチェックは機械で行います。
  33. 仕様に沿わないデータがないかの確認も、形式の問題ならば機械で、 内容の問題ならば人手で確認することになります。 確認、修正に対しても、プロジェクトリーダーが責任をもって監督します。
  34. 最後に、ご指定のフォーマットで納品いたします。 フォーマットは様々な形式のご要望にお答えできますので、案件ごとにご指定の形式でお納めしています。
  35. あと2つほど別の事例を簡単にご紹介いたします。 まず1つめは、先程ご紹介した対話コーパス作成結果の対話データに、発話の種類の情報を付けた「アノテーション付き対話コーパス」の作成です。
  36. この案件のおおまかなプロセスは先程ご説明した案件と同様ですが、 異なる点として、意図に分類するという高度な作業になることです。 そのため、言語の扱いに慣れた少数精鋭のスタッフで作業する必要がありました。 このような案件でよく現れる問題の一例として、個別のケースに対応していくにつれて、 全体の整合性が崩れることから、再度全体を見直し、ガイドラインをブラッシュアップしていかざるを得ない点と、 作業者への教育が難しい点、また、教育できたとしても生じてしまう判断の揺れをいかに抑えるかという点などがあります。
  37. 私達アイアール・アルトのプロジェクトリーダーは、そのような幾多の困難な問題を解決していき、 ノウハウとして蓄積し、新たなプロジェクトに活かしています。
  38. 最後にご紹介する事例は、FAQのQ、つまり質問文について、文のゆらぎを作成する作業です。 「コーヒーが飲みたい」という文に対して同じ意図を持つ質問文を何件も作る、というような作業です。 例えば「コーヒーはどこで売っているの」や「コーヒー屋ある?」が、同じ意図を持つ文になります。 規模はさまざまですが、本案件では、100のQAについて各50文ずつ、合計5000文を作成しました。 ワトソンなどの対話システムの流行にともない、このようなご依頼は弊社でも近年増えております。
  39. 最後になりますが、IR-ALTの強みは、大きく3つになります。 まず、フットワークの軽さです。 今まで行ったことのないような案件にも、実施可能な方法を考え、積極的に引き受けていきます。 次に、15年以上データ作成を専門にして培われてきたノウハウです。 既にご説明した通り、データ作成には数々の問題があり、その速やかな解決には、経験から得られるものが強く影響します。 最後は、プロジェクトリーダーが全工程一貫して責任をもって監督する点になります。 担当者であるプロジェクトリーダーが明確であることは、お客さまとの意思疎通がしやすくなることから、作業についてのお客様の意向を反映しやすくなります。
  40. 今回ご紹介いたしましたのは言語データ作成案件でしたが、音声や映像データの作成も得意としています。
  41. われわれの仕事の形態は「研究・開発のサポート」です。 データ作成についてお困りのことがございましたら、お気軽にブース内説明員にお声掛けください。紺色のポロシャツが説明員の目印です。 ご清聴ありがとうございました。