SlideShare a Scribd company logo
1 of 19
BearTail(Dr.Wallet) Sansan -合同LT会-
クラウドソーシングで
学習データを爆速で作る
Motoshi Nishihira(@snomof)
BearTail CTO
手入力 レシート撮影 アカウントアグリゲーション
3タイプの入力方式を兼ね備えた100万DL家計簿アプリ
2
Dr.Walletとは
100万DL
BearTailでの機械学習
• 購買のカテゴリ分類
• 購買データのクレンジング
• 画像処理
BearTailでの機械学習
• 購買のカテゴリ分類
• 購買データのクレンジング
• 画像処理 特に学習用データの作成について
機械学習をするには
• 大量の学習用画像
• 大量の正解データ
• 例えば
- Haar-like検出器(顔認識でよく使う):      数千枚
- MNIST(DeepLearningでの手書き数字検出):  数万枚
学習データを作る時間
• 例えば、1000枚の少なめのデータセットを作る時
- ツールを使って1枚10秒で切り取ったとしても160分
- 160分あれば、どれだけコーディングやリサーチが出来るのだ
ろう・・・
クラウドソーシングを使う
• 属人的で無い作業なら、

クラウドソーシングで解決できる
- 簡単な画像の加工
- データの分類
• BearTailでは在宅ワーカーさんに依頼
- 一般的な話にするため、クラウドソーシングとします
多くの人に作業してもらうには
• 誰でも簡単に作業出来る必要がある
- 研究用に、JavaやQtで実装される事もあるが、一般人にセット
アップは不可能
• ブラウザで使えるWebアプリケーションが最適
クラウドソーシングで解決している事
• 学習用の理想的なデータの作成
- 台形補正による歪みの解消
歪み補正後の画像処理の学習・検証用
- 画像の特定部分の切り出し
日付、電話番号などに特化した処理の学習・検証用
歪み補正
斜め方向から撮影された画像を補正
4点を選択
画像の切り出し
• 1つの画像から複数の
部位を切り出せる
• 切り出す部位の個数な
どは任意の設定をDB
に事前に登録できる
フロー
作業画面 Amazon SQS
画像処理サーバ
①作業内容をDBに登録
②画像情報をキューイング③人力作業
画像URLなど
作業内容・進
作業結果
④バッチ処理
導入のメリット
• 数千枚の作業でも、1日で完了
• PDCAが早く回せる
- R&Dの速度を上げるためにとても重要
• レシート入力システムと共有しているコードが多く、
実装コストはほぼフロントエンドのみ
問題点-ルール作り
• ルール作りが意外と大変
- 対象画像の明文化
金額 とは ¥ や 円 を含むのか?
合計 の文字を切り取る仕事だけど 現計 と記載されているものはあり?
- 程度の問題
傾きの許容範囲は?
鮮明さの許容範囲は?
• 条件漏れが発生し、まるでコーディングのよう
- プログラミングとは違い、条件の判定に曖昧さが入るので、ルールの記述が難しい
例: 読めるくらいのブレは許容、傾きは5 くらいまで
問題点-作業者の管理
• ルールに漏れがある時に、

多くの人から同時に質問が来る事がある
- メッセージのやりとりに時間がかかってしまう
• 複雑な条件の作業を複数回行う時は、同じ作業者に頼む
方が学習コストが低い
- 作業者リストが必要
• オーガナイズ役の人がいると る
- 個人プロジェクトでは難しい
今後
• 学習後の精度検証・問題点の調査にもクラウドソー
シングを取り入れる
- 学習後の検証は専門家が行う必要がある
- 明らかな外れ値の除外など、

学習後にも属人的でない作業も一部ある
• より柔軟に作業を配信できるように
We	
  are	
  hiring!
KDDI	
  ∞	
  Labo	
  ベストエンジニア賞	
  
DMTC	
  AWARD	
  大賞	
  
全国高校生プログラミングコンテスト 優勝	
  
mixi	
  Scrap	
  Challenge	
  1位	
  
日経Linux	
  連載	
  
IPA未踏採択	
  
全国高専プログラミングコンテスト	
  
	
   優秀賞/特別賞/敢闘賞	
  
paizaオンラインハッカソン Haskell最速
SuperCon 2014 優勝	
  
ICPC2015	
  国内予選突破(11月本戦)	
  
2Weeks	
  US	
  Workshop	
  2015	
  優勝
メンバーの実績
人間と機械の組み合わせで

最高のシステムを作りましょう!

More Related Content

Viewers also liked

動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法Seiichi Uchida
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用NVIDIA Japan
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明Seiichi Uchida
 
結果を出すチームビルディング術
結果を出すチームビルディング術結果を出すチームビルディング術
結果を出すチームビルディング術Mao Ohnishi
 

Viewers also liked (6)

動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法動的計画法の基礎と応用 ~色々使える大局的最適化法
動的計画法の基礎と応用 ~色々使える大局的最適化法
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
Front series A deck
Front series A deckFront series A deck
Front series A deck
 
結果を出すチームビルディング術
結果を出すチームビルディング術結果を出すチームビルディング術
結果を出すチームビルディング術
 
Ibis2016okanohara
Ibis2016okanoharaIbis2016okanohara
Ibis2016okanohara
 

Recently uploaded

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 

Recently uploaded (11)

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

クラウドソーシングで 学習データを爆速で作る