Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

クラウドソーシングで 学習データを爆速で作る

4,253 views

Published on

1,000枚を超える学習データも1日で用意できる、機械学習用インフラについて

BearTail(Dr.Wallet)×Sansan -合同LT会- - http://connpass.com/event/19249/

Published in: Technology
  • Be the first to comment

  • Be the first to like this

クラウドソーシングで 学習データを爆速で作る

  1. 1. BearTail(Dr.Wallet) Sansan -合同LT会- クラウドソーシングで 学習データを爆速で作る Motoshi Nishihira(@snomof) BearTail CTO
  2. 2. 手入力 レシート撮影 アカウントアグリゲーション 3タイプの入力方式を兼ね備えた100万DL家計簿アプリ 2 Dr.Walletとは 100万DL
  3. 3. BearTailでの機械学習 • 購買のカテゴリ分類 • 購買データのクレンジング • 画像処理
  4. 4. BearTailでの機械学習 • 購買のカテゴリ分類 • 購買データのクレンジング • 画像処理 特に学習用データの作成について
  5. 5. 機械学習をするには • 大量の学習用画像 • 大量の正解データ • 例えば - Haar-like検出器(顔認識でよく使う):      数千枚 - MNIST(DeepLearningでの手書き数字検出):  数万枚
  6. 6. 学習データを作る時間 • 例えば、1000枚の少なめのデータセットを作る時 - ツールを使って1枚10秒で切り取ったとしても160分 - 160分あれば、どれだけコーディングやリサーチが出来るのだ ろう・・・
  7. 7. クラウドソーシングを使う • 属人的で無い作業なら、
 クラウドソーシングで解決できる - 簡単な画像の加工 - データの分類 • BearTailでは在宅ワーカーさんに依頼 - 一般的な話にするため、クラウドソーシングとします
  8. 8. 多くの人に作業してもらうには • 誰でも簡単に作業出来る必要がある - 研究用に、JavaやQtで実装される事もあるが、一般人にセット アップは不可能 • ブラウザで使えるWebアプリケーションが最適
  9. 9. クラウドソーシングで解決している事 • 学習用の理想的なデータの作成 - 台形補正による歪みの解消 歪み補正後の画像処理の学習・検証用 - 画像の特定部分の切り出し 日付、電話番号などに特化した処理の学習・検証用
  10. 10. 歪み補正 斜め方向から撮影された画像を補正 4点を選択
  11. 11. 画像の切り出し • 1つの画像から複数の 部位を切り出せる • 切り出す部位の個数な どは任意の設定をDB に事前に登録できる
  12. 12. フロー 作業画面 Amazon SQS 画像処理サーバ ①作業内容をDBに登録 ②画像情報をキューイング③人力作業 画像URLなど 作業内容・進 作業結果 ④バッチ処理
  13. 13. 導入のメリット • 数千枚の作業でも、1日で完了 • PDCAが早く回せる - R&Dの速度を上げるためにとても重要 • レシート入力システムと共有しているコードが多く、 実装コストはほぼフロントエンドのみ
  14. 14. 問題点-ルール作り • ルール作りが意外と大変 - 対象画像の明文化 金額 とは ¥ や 円 を含むのか? 合計 の文字を切り取る仕事だけど 現計 と記載されているものはあり? - 程度の問題 傾きの許容範囲は? 鮮明さの許容範囲は? • 条件漏れが発生し、まるでコーディングのよう - プログラミングとは違い、条件の判定に曖昧さが入るので、ルールの記述が難しい 例: 読めるくらいのブレは許容、傾きは5 くらいまで
  15. 15. 問題点-作業者の管理 • ルールに漏れがある時に、
 多くの人から同時に質問が来る事がある - メッセージのやりとりに時間がかかってしまう • 複雑な条件の作業を複数回行う時は、同じ作業者に頼む 方が学習コストが低い - 作業者リストが必要 • オーガナイズ役の人がいると る - 個人プロジェクトでは難しい
  16. 16. 今後 • 学習後の精度検証・問題点の調査にもクラウドソー シングを取り入れる - 学習後の検証は専門家が行う必要がある - 明らかな外れ値の除外など、
 学習後にも属人的でない作業も一部ある • より柔軟に作業を配信できるように
  17. 17. We  are  hiring!
  18. 18. KDDI  ∞  Labo  ベストエンジニア賞   DMTC  AWARD  大賞   全国高校生プログラミングコンテスト 優勝   mixi  Scrap  Challenge  1位   日経Linux  連載   IPA未踏採択   全国高専プログラミングコンテスト     優秀賞/特別賞/敢闘賞   paizaオンラインハッカソン Haskell最速 SuperCon 2014 優勝   ICPC2015  国内予選突破(11月本戦)   2Weeks  US  Workshop  2015  優勝 メンバーの実績
  19. 19. 人間と機械の組み合わせで
 最高のシステムを作りましょう!

×