Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
What to Upload to SlideShare
What to Upload to SlideShare
Loading in …3
×
1 of 48

Data-centricなML開発

13

Share

Download to read offline

最先端のアルゴリズムがgithubなどから手軽に入手できるようになったことで、ビジネスの現場では、アルゴリズムやモデルの改善より、 アノテーションデータの質や量を改善する方が実用化を目指す上でよりコストメリットのいいアプローチとなりつつあります。 本発表では、従来のモデル改善を中心としたMLOpsの考え方と異なり、データ(アノテーションデータ)改善を中心としたMLOpsの考え方をご紹介します。

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Data-centricなML開発

  1. 1. Data-centricなML開発 2021/05/19 MLOps勉強会資料
  2. 2. 2011年  早稲田大学大学院 後藤研究室  機械学習アルゴリズムの研究に従事  (潜在クラスモデル、ニューラルネットワークなど) 2013年  エンタプライズ向け ERPベンダー入社  会計システムのバックエンドエンジニア経験後、  会計システムの AIチーム立ち上げ、 AI機能を複数リリース  →アノテーション作業のつらみを経験 2019年  法人向けAIフードデリバリー会社を共同創業  あまり事業が伸びずクローズ   2020年  FastLabelを共同創業(いまここ)  アノテーション代行及びプロダクトを開発・提供  今年2月VCより6500万円資金調達 鈴木 健史 Suzuki Takeshi https://twitter.com/tkc79 FastLabel CEO https://fastlabel.ai/ 自己紹介
  3. 3. Data-centricの提唱者 Andrew Ng ● 経歴 ○ GoogleBrain共同設立者 ○ スタンフォード大学教授 ○ DeepLearning.AI創業者 などなど... ● Courseraの機械学習コースで有名 https://www.eventbrite.com/e/mlops-from-model-centric-to-data-centric-ai-tickets-143856236877#
  4. 4. 本日お話しすること ● Data-centricなML開発とは ● Data-centricなML開発プロセス〜概念編 ● Data-centricなML開発プロセス〜実践編 ● ML開発のパラダイムシフト
  5. 5. Data-centricなML開発とは ML開発におけるModel-centric と Data-centricな考え方 AI = アルゴリズム + データ Data-centricな考え方 どうデータを追加・変更すれば AIのパフォーマンスを上げられるか? アルゴリズム:固定 データ   :変更 Model-centricな考え方 どうアルゴリズム(及びモデルや周辺コード)を 変更すればAIのパフォーマンスがあげられるか? アルゴリズム:変更 データ   :固定
  6. 6. Data-centricなML開発とは Data-centricな開発のメリットー事例 鉄鋼製品の欠陥を検知するプロジェクト(目標精度 90%)
  7. 7. ベースライン Model-centric Data-centric 76.2% Data-centricなML開発とは Data-centricな開発のメリットー結果 76.2% +0% 93.1% +16.9 % ● ベースラインは76.2%の精度(目標90%) ● Model-centricとData-centricの2つチームをわけて3ヶ月改善実施 「A Chat with Andrew on MLOps: From Model-centric to Data-centric AI」 https://www.youtube.com/watch?v=06-AZXmwHjo
  8. 8. 本日お話しすること ● Data-centricなML開発とは ● Data-centricなML開発プロセス〜概念編 ● Data-centricなML開発プロセス〜実践編 ● ML開発のパラダイムシフト
  9. 9. Data-centricなML開発プロセス〜概念編 開発プロセスについて プロジェクト スコープ データ 収集・作成 モデル学習 プロダクションデ プロイ データ収集 データ定義 教師データ作成 モデル学習 エラー分析 データ改善 デプロイ モニタリング
  10. 10. Data-centricなML開発で最重要課題 どうやって質の高いデータをすべてのフェーズで保証していくか プロジェクト スコープ データ 収集・作成 モデル学習 プロダクションデ プロイ データ収集 データ定義 教師データ作成 モデル学習 エラー分析 データ改善 デプロイ モニタリング Data-centricなML開発プロセス〜概念編 開発プロセスについて
  11. 11. プロジェクト スコープ データ 収集・作成 モデル学習 プロダクションデ プロイ データ収集 データ定義 教師データ作成 モデル学習 エラー分析 データ改善 デプロイ モニタリング Data-centricなML開発プロセス〜概念編 データ作成フェーズでのData-centricな考え方 データ収集・作成フェーズでの最重要課題 どうやって一貫性のある質の高いデータを作成できるか
  12. 12. 歩行者を矩形で囲ってください。 Data-centricなML開発プロセス〜概念編 データの一貫性が精度へ与える影響〜歩行者アノテーション 作業者A 作業者B 作業者間で異なる基準(一貫性がない)でアノテーション
  13. 13. 500件の一貫性のあるクリーンなデータ = 約1250件のノイズありデータ(12%がノイズあり) Data-centricなML開発プロセス〜概念編 データの一貫性が正解率へ与える影響〜実験結果 「A Chat with Andrew on MLOps: From Model-centric to Data-centric AI」 https://www.youtube.com/watch?v=06-AZXmwHjo
  14. 14. プロジェクト スコープ データ 収集・作成 モデル学習 プロダクションデ プロイ データ収集 データ定義 教師データ作成 モデル学習 エラー分析 データ改善 デプロイ モニタリング Data-centricなML開発プロセス〜概念編 データ作成フェーズでのData-centricな考え方 Model-centricな考え方 ノイズデータにうまく対応するアルゴリズムを実装でき るか Data-centricな考え方 一貫性の欠如が与える影響は甚大なので、 ツールなどを駆使してシステマティックに データ品質を上げる
  15. 15. プロジェクト スコープ モデル学習 プロダクションデ プロイ データ収集 データ定義 教師データ作成 モデル学習 エラー分析 データ改善 デプロイ モニタリング データ 収集・作成 Data-centricなML開発プロセス〜概念編 モデル学習フェーズでのData-centricな考え方
  16. 16. 自動運転で信号機を認識するAIが逆光時に誤認識するケースを発見 Data-centricなML開発プロセス〜概念編 モデル学習フェーズでのData-centricな考え方〜エラー分析 Data-centricな考え方 逆光時のデータを追加(あるいは修正、ラベル変更)す るなどのアプローチをとる Model-centricな考え方 モデルアーキテクチャをチューニングするアプローチ をとる
  17. 17. プロジェクト スコープ プロダクションデ プロイ データ収集 データ定義 教師データ作成 モデル学習 エラー分析 データ改善 デプロイ モニタリング データ 収集・作成 モデル学習 Data-centricなML開発プロセス〜概念編 デプロイフェーズでのData-centricな考え方 Data-centricな考え デプロイ後もパフォーマンスを監視し、継続的に、エラー分析やデータ追加などを行っていき改善 していく
  18. 18. Data-centricなML開発プロセス〜概念編 Data-centricの詳しい話はこちらで A Chat with Andrew on MLOps: From Model-centric to Data-centric AI https://www.youtube.com/watch?v=06-AZXmwHjo
  19. 19. 本日お話しすること ● Data-centricなML開発とは ● Data-centricなML開発プロセス〜概念編 ● Data-centricなML開発プロセス〜実践編 ● ML開発のパラダイムシフト
  20. 20. Data-centricなML開発プロセス〜実践編 プロジェクト概要 ● 歩行者検出AIプロジェクト ● 歩行者を矩形でアノテーション ● エンジニアとアノテーター複数名体制で実施 ● Data-centricな開発を支援する自社プロダクトを利用 (アノテーションツールと分析機能が一体となっている) ※アノテーター・・・アノテーション作業する人 PennFudan Dataset License CC0: Public Domain
  21. 21. プロジェクト スコープ データ 収集・作成 モデル学習 プロダクションデ プロイ データ収集 データ定義 教師データ作成 モデル学習 デバッグ データ改善 デプロイ モニタリング Data-centricなML開発プロセス〜実践編 データ作成フェーズ データ収集・作成フェーズでの最重要課題 どうやって一貫性のある質の高いデータを作成できるか
  22. 22. Data-centricなML開発プロセス〜実践編 データ作成〜システマティックに品質に一貫性をもたらす方法論① アノテーターのオンボーディング(教育) STEP1:エンジニアがまず基準データを作成
  23. 23. Data-centricなML開発プロセス〜実践編 データ作成〜システマティックに品質に一貫性をもたらす方法論① アノテーターのオンボーディング(教育) STEP1:エンジニアがまず基準データを作成 STEP2:アノテーターに同じタスクを解かせてシステムがフィードバック
  24. 24. Data-centricなML開発プロセス〜実践編 データ作成〜システマティックに品質に一貫性をもたらす方法論② プロジェクト進行中もデータ作成のズレをモニタリング STEP1:レビューしてOKなものを順次ゴールドスタンダードとして登録 STEP2:他の作業者のタスクにランダムに混ぜて作業者間のズレを検知 ゴールドスタンダード 他の作業者のラベル FastLabel が、物体検出の評価指標であ る IoU( Intersection over Union )をも とにスコアを算出。 63% データ品質 重なっている人物へのラ ベルをつけていない
  25. 25. プロジェクト スコープ データ 収集・作成 モデル学習 プロダクションデ プロイ データ収集 データ定義 教師データ作成 モデル学習 デバッグ データ改善 デプロイ モニタリング Data-centricなML開発プロセス〜実践編 モデル学習フェーズ
  26. 26. 学習モデルを使ってテストデータへ推論をかけて、エラー分析と改善を実施 STEP1:エラー分析 STEP2:改善方針検討と実施 Data-centricなML開発プロセス〜実践編 モデル学習フェーズ
  27. 27. Data-centricなML開発プロセス〜実践編 モデル学習フェーズ〜エラー分析 正解データと予測結果データを重ねた画像をもとにエラー分析 分析方法 ● ソート ○ IoU、ラベル数など ● フィルタリング ○ アノテーションクラス、 FalsePositive、FalseNegativeなど 推論結果データ 正解データ
  28. 28. Data-centricなML開発プロセス〜実践編 モデル学習フェーズ〜エラー分析 タグやクラス、IoUなど好みの条件でデータを フィルタリング・ソートできるエラー分析機能
  29. 29. データ作成してモデル学習後、以下のステップを実施 STEP1:エラー分析 STEP2:改善方針検討と実施 パターン1:ラベルミス・曖昧なルールに漏れ パターン2:データ不足 パターン3:誤検出 Data-centricなML開発プロセス〜実践編 モデル学習フェーズ
  30. 30. 分析の結果、奥の方の人にラベルがついてないケースを発見 Data-centricなML開発プロセス〜実践編 パターン1:ラベルミス・曖昧なルールに漏れ 推論結果データ 正解データ 正解データとしてラベル付 けされていない 正解データとしてラベル付 けされていない
  31. 31. 分析の結果、奥の方の人にラベルがついてないケースを発見 改善策:データ修正を実行(また、ラベルマニュアルを見直し) Data-centricなML開発プロセス〜実践編 パターン1:ラベルミス・曖昧なルールに漏れ 分析画面からそのままデータ修正
  32. 32. データ作成してモデル学習後、以下のステップを実施 STEP1:エラー分析 STEP2:改善方針検討と実施 パターン1:ラベルミス・曖昧なルールに漏れ パターン2:データ不足 パターン3:誤検出 Data-centricなML開発プロセス〜実践編 モデル学習フェーズ
  33. 33. 分析の結果、人混みのデータで認識精度が悪いことが判明 Data-centricなML開発プロセス〜実践編 パターン2:データ不足 推論結果データ 正解データ
  34. 34. 分析の結果、人混みのデータで認識精度が悪いことが判明 改善策:人混みのデータを追加 Data-centricなML開発プロセス〜実践編 パターン2:データ不足 ・類似画像検索AIを利用して、 自動キュレーション ・Data Augmentationの活用
  35. 35. データ作成してモデル学習後、以下のステップを実施 STEP1:エラー分析 STEP2:改善方針検討と実施 パターン1:ラベルミス・曖昧なルールに漏れ パターン2:データ不足 パターン3:誤検出 Data-centricなML開発プロセス〜実践編 モデル学習フェーズ
  36. 36. 分析の結果、自転車に乗る人と歩行者を間違えることが判明 Data-centricなML開発プロセス〜実践編 ケース3:誤検知のケース 推論結果データ 正解データ 歩行者でなく、自転車に乗 る人を誤検出 歩行者でなく、自転車に乗 る人を誤検出
  37. 37. 分析の結果、自転車に乗る人と歩行者を間違えることが判明 改善策:「サイクリスト」というクラスを追加し検出対象へ追加 Data-centricなML開発プロセス〜実践編 ケース3:誤検知のケース
  38. 38. Data-centricなML開発プロセス〜実践編 実践編まとめ ● アルゴリズムの話は一切なくAIのパフォーマンスを上げるためにデータをどう作る か、どう改善プロセスを回すかフォーカスしたData-centricなML開発方法を紹介 した ● 一度クリーンでバランスのいいデータを作成できれば、別のアルゴリズムへ適用し てもパフォーマンス向上が期待できる
  39. 39. 本日お話しすること ● Data-centricなML開発とは ● Data-centricなML開発プロセス〜概念編 ● Data-centricなML開発プロセス〜実践編 ● ML開発のパラダイムシフト
  40. 40. パラダイムシフト データ作成はML開発における 前処理 コーディング イテレーティブなプロセス *ビジネスでのAI実用化における話 一度作って終わり ML開発のパラダイムシフト
  41. 41. データ作成はML開発におけるコーディング データ作成 ML開発のパラダイムシフト
  42. 42. TeslaのAIヘッドAndrej Karpathy氏が講演にて アノテーションする人をsoftware2.0(AIソフトウェア)の プログラマーと呼んでいる。 Building the Software 2 0 Stack (Andrej Karpathy) https://www.youtub e.com/watch?v=y5 7wwucbXR8 ML開発のパラダイムシフト
  43. 43. TeslaのData-centric(と思われる)なMLOps 余談 Building the Software 2 0 Stack (Andrej Karpathy) https://www.youtub e.com/watch?v=y5 7wwucbXR8
  44. 44. ● Data-centricの概念から実践編までデータを中心とした開発プロセスのご紹介を した ● 現場では経験的にModel-centricとData-centricの双方のアプローチを適宜とっ ているところが多いかと思う。ただ、データ作りや改善は地味で大変な作業かつ、 自社に専門のアノテーターが不在だったり、データ基盤が未整備なことが多いた めためModel-centricな方法を取らざるを得ない状況。 ● Data-centricを支援する便利なツールやサービスがあれば、よりData-centricな アプローチを取りやすくなり、AIのパフォーマンスを上げるための武器が増やせる 最後に
  45. 45. 日本初のData-centricな開発基盤をつくりませんか? エンジニア不足です。助けてください!!採用ページリンク 宣伝 We are hiring バズった技術ブログ AIExpoへ出展したときの写真
  46. 46. 宣伝 サービス・プロダクト情報 FastLabel で検索! https://fastlabel.ai/ ・アノテーション代行サービス ・プロダクト(アノテーションツール、データ分析機能など)
  47. 47. 以下の目的でコミュニティを企画してます! with TierⅣ Shibuiさん ● Data-centricなMLOpsのナレッジシェア 進め方 ● トピックを決めてナレッジシェアする会を2ヶ月に1回ほどでゆるく運用 例えばこんなトピック ● 画像・動画系AIのデバッグ方法(エラー分析)と対応方法 ● Active LearningやData Augmentationの事例紹介 ● monitoring、Human In the Loopなど運用フェーズのしくじりや成功体験 などなど 興味ある方こちら応募お願いします!(情報だけキャッチしたい、でもOKです) https://forms.gle/kcBbY1op1gmTypHVA 宣伝 コミュニティ活動
  48. 48. Thank you!

×