SlideShare a Scribd company logo
Mobility Technologies Co., Ltd.
Data-Centric AIの紹介
Mobility Technologies
宮澤一之
Mobility Technologies Co., Ltd.
宮澤 一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
自己紹介
2
@kzykmyzw
Mobility Technologies Co., Ltd.
本日の内容
1. Data-Centric AIとは
2. Data-Centric AI Competition
3. ケーススタディ
4. 所感
3
Mobility Technologies Co., Ltd.
Data-Centric AIとは
4
1
Mobility Technologies Co., Ltd.
Model-Centric AIとData-Centric AI
5
Model-Centric AI
■ データを集め、データに含まれるノイズに耐えられるような良いモデルを開発する
■ データを固定し、コード/モデルを繰り返し改良していく
Data-Centric AI
■ データの一貫性を最重要とし、ツールを使ってデータの品質を改善する
■ コード/モデルを固定し、データを繰り返し改良していく
現在のパラダイム
新しいパラダイム
Mobility Technologies Co., Ltd.
Andrew Ng
■ xxxx 年 xx月 すごい経歴(略
■ 2017年12月 Landing AIというスタートアップを立ち上げ
■ 2020年10月 製造業向けの外観検査ツールLandingLensをローンチ
■ 2021年03月 Deeplearning.AIのイベントでData-Centric AIについて講演
■ 2021年06月 Data-Centirc AI Competition開催
■ 2021年12月 NeurIPSでData-Centric AI Workshop開催
Data-Centric AIの提唱者
6
https://en.wikipedia.org/wiki/Andrew_Ng
Mobility Technologies Co., Ltd.
■ 外観検査プロジェクトにおいて、ベースライン方式をどれだけ改善できるか
Model-CentricとData-Centricを比較
■ Model-Centricではベースライン性能をほとんど改善できなかったのに対し、
Data-Centricでは大きな改善が得られた
Model-Centric vs. Data-Centric
7
鉄製品の欠陥検査
ソーラーパネルの欠
陥検査
表面検査
Baseline 76.2% 75.68% 85.05%
Model-Centric 76.2% (+0%) 75.72% (+0.04%) 85.05% (+0%)
Data-Centric 93.1% (+16.9%) 78.74% (+3.06%) 85.45% (+0.4%)
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
Data-Centricアプローチ
8
イグアナをBBOXで囲む
アノテータA アノテータB
アノテータC
■ アノテータによるラベルの偏りがない、一貫したデータセットの構築を目指す
■ データにおける問題の発見、解決を機械学習エンジニアのスキルに依存するのでは
なくシステマティックに行う
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
1. 複数のアノテータに同一のサンプル画像を提示
2. アノテータ間のラベルの一貫性を定量化
3. アノテータ間でばらつきの大きいクラスについてアノテーションルールを見直し
4. 1. - 3. を収束するまで反復
一貫したラベルを得るための手法例
9
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
データが少ないほど品質が重要
10
■ データ量が多ければある程度のノイズはキャンセルされるが、データ量が少ない場
合はその品質が極めて重要になる
■ 500枚の学習データの12%がノイズである場合、以下2つは同じ効果を持つ
■ ノイズを除去する
■ 追加で500枚を学習データに加える(データセットサイズを2倍にする)
データ量:少
データ品質:低
データ量:多
データ品質:低
データ量:少
データ品質:高
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
従来のソフトウェア
機械学習ソフトウェア
従来のソフトウェアと機械学習ソフトウェアの違い
11
スコープ定義 コーディング デプロイ
スコープ定義 学習 デプロイ
データ収集
DevOps
MLOps
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
MLOpsの役割
12
スコープ定義 学習 デプロイ
データ収集
MLOps
機械学習プロジェクトのライフサイクル全体を通じて高品質なデータを保証する
Q. どのようにデータを定義
し、集めればよいか?
Q. モデルの性能改善のた
めにどのようにデータを変
更すればよいか?
Q. コンセプト/データドリフト
を検知するためにどのよう
なデータをトラックすればよ
いか?
MLOpsチームは各フェーズでのこれらの問いに答えられる必要がある
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
Good Data is:
■ 定義が一貫している(ラベル y の定義に曖昧さがない)
■ 重要なケースをカバーしている(入力 x の分布を十分にカバーしている)
■ 現在のデータがタイムリーにフィードバックされる(データ分布がデータドリフトやコン
セプトドリフトをカバーしている)
■ サイズが適切である
Big DataからGood Dataへ
13
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
まとめ
14
AI System = Code + Data
Model-Centric AI
性能を改善するためにどのようにモ
デル(コード)を変更するか
Data-Centric AI
性能を改善するためにどのようにシ
ステマティックにデータを変更するか
■ MLOpsの最重要タスクは、機械学習プロジェクトのライフサイクル全体を通じて
高品質なデータを保証すること
■ 今後はData-Centric AIを効率的かつシステマティックに実現するためのツール
が重要となる
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
Mobility Technologies Co., Ltd.
Data-Centric AI Competition
15
2 https://https-deeplearning-ai.github.io/data-centric-comp/
Mobility Technologies Co., Ltd.
コンペ概要
期間:2021/6/24〜9/4
内容/ルール:
■ 手書きローマ数字のデータセット(2880枚)に対する分類精度を改善する
■ 分類モデル(ResNet50)や学習スクリプトは固定であり、参加者はデータセットの
みを変更する
■ データセットサイズはtrain/val併せて10000枚まで
■ train/valのスプリット方法も参加者が決める
■ 変更したデータセットをzipで固めてCodaLabからアップロードすると、学習が
CodaLab上で実行されてhidden test setでの評価が行われる
16
Mobility Technologies Co., Ltd.
サンプルデータ(正常)*
17
* 参加された方のQiita記事より引用
Mobility Technologies Co., Ltd.
サンプルデータ(ノイズ)*
18
* 参加された方のQiita記事より引用
Mobility Technologies Co., Ltd.
サンプルデータ(ラベルミス、判別不能)*
19
* 参加された方のQiita記事より引用
Mobility Technologies Co., Ltd.
結果
20
順位 チーム名 Accuracy
Baseline 0.64421
1 Divakar Roy 0.85826
2 Innotescus 0.85744
3 Synaptic-AnN 0.85455
4 Synaptic-AnN 0.85083
5 Jens Kramer 0.84959
… … …
486 RAHUL GUPTA 0.059091
Best Performance賞が上位3チームに授与
その他、順位に関係なく(?) Most Innovative
賞が3チームに授与
Mobility Technologies Co., Ltd.
Best Performance - 1st
21
文字領域(前景)とノイズ(背景)を分離
文字領域をクロップしてデータ拡張
拡張した文字領域を背景に合成
目視によるデータクレンジング
       ・ラベルミスの修正
       ・類似サンプルの削除
       ・曖昧サンプルの削除
https://www.deeplearning.ai/data-centric-ai-competition-divakar-roy/
Mobility Technologies Co., Ltd.
Best Performance - 2nd
22
目視によるデータクレンジング
       ・ラベルミスの修正
       ・曖昧サンプルの削除
https://www.deeplearning.ai/data-centric-ai-competition-innotescus/
データセットサイズは当初の 78%と
なったがAccuracyは9%改善
train/valスプリットの調整
サブクラスのbalancing
hard exampleの追加
画像特徴をクラスタリングすることで各クラ
スをサブクラスに分け、サブクラスレベルで
balancingするようにデータ拡張
validationサンプルに対し以下の
difficulty scoreを定義し、スコアに基
づいてhard exampleを探して学習
データに追加
Po
max
:クラス確率の最大値
Po
2ndmax
:クラス確率の
2番目に大きい値
Mobility Technologies Co., Ltd.
Best Performance - 3rd
23
目視によるデータクレンジング
https://www.deeplearning.ai/data-centric-ai-competition-synaptic-ann/
手書きによるデータ追加
testセットサンプルからのデータ拡張
AutoAugment
複数モデルの投票によるフィルタリング
サンプル画像(青枠)の一部をコピペす
ることでデータを拡張
AutoAugment論文からSVHN向けに探
索されたデータ拡張手法を流用
拡張したデータセットに対して複数の
CNNモデルで推論を行い、クラス確率
の投票値に基づいて低品質な画像を
フィルタリング
Mobility Technologies Co., Ltd.
Most Innovative - 1st
24
目視によるデータクレンジング
       ・重複サンプルの削除
補助モデルの学習
補助モデルによるスクリーニング
クラス不均衡の解消
N-fold Cross Validation
少数のサンプルを選び、ラベルが正確
であることを確認した上で分類モデルを
学習
補助モデルでデータセット全体を推論
し、ロスが小さいサンプル K枚とロスが
大きいサンプルL枚を取り出して目視確
認を行い、必要に応じてラベル修正や
削除を実施
補助モデルの学習データ 残りの学習データ
小       ロス       大
目視
目視により修正した高品質なデータを補
助モデルの学習データに加え、補助モ
デルを学習し直す
補助モデルの学習データ 残りの学習データ
全サンプルを目視するまで繰り返し
https://www.deeplearning.ai/data-centric-ai-competition-mohammad-motamedi/
Mobility Technologies Co., Ltd.
Most Innovative - 2nd
25
目視によるデータクレンジング
       ・ラベルミスの修正
       ・曖昧サンプルの削除
https://www.deeplearning.ai/data-centric-ai-competition-johnson-kuan/
候補データとして、データ拡張により 100万枚を生成
trainセットで学習、valセットで推論
valセットで推論を誤ったサンプルと最も近いサンプルを候
補データから探索し、 trainセットに加える
trainセットがルール上限である 1万枚に
到達するまで繰り返し
別途用意したpretrainedモデル
で抽出した特徴量を使って最近
傍探索を実施
Mobility Technologies Co., Ltd.
Most Innovative - 3rd
26
目視によるデータクレンジング
       ・ラベルミスの修正
https://www.deeplearning.ai/data-centric-ai-competition-godatadriven/
特徴量の可視化による train/val不均衡の調査
Streamlitでインタラクティブにデータ拡張
UMAPで特徴量を可視化
valに存在しない領域
Mobility Technologies Co., Ltd.
ケーススタディ 〜 Tesla 〜
27
3 以下資料の抜粋です
Teslaにおけるコンピュータビジョン技術の調査
Secret
Mobility Technologies Co., Ltd.
28
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=8181s
Mobility Technologies Co., Ltd.
ユーザ車両からのデータ収集
29
https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s
■ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集
■ 新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集
■ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加
■ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ
Mobility Technologies Co., Ltd.
事例1:標識検出
30
■ 標識検出では、オクルージョンや補助標識による条件付きなど様々なケースに対応する必要がある
■ 例えば木で隠された標識だけを見つける検出器を作ってユーザ車両にデプロイし、検出結果をトリガとして木で隠
された標識の画像を大量に自動収集して学習データセットに加える
https://www.youtube.com/watch?v=hx7BXih7zx8&t=700s
Mobility Technologies Co., Ltd.
■ レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題
■ カメラのみでレーダーと同等精度の計測を可能にする機械学習モデルをわずか4ヶ月で開発
■ データ収集のためのトリガ(カメラとレーダーの不整合発生など)を221種類用意し、学習データとして100万映像
(1.5ペタバイト)を収集
事例2:レーダーの廃止
31
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=893s
Mobility Technologies Co., Ltd.
■ 前方車両の急ブレーキや道路にかかる橋などによりレーダーが不正確となるケースでもカメラにより正確な計測
が可能となった
■ リリースにあたっては6000種類のクリップによるユニットテストやシミュレーションで生成した1万シナリオを使って
検証を実施
事例2:レーダーの廃止
32
https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1366s
Mobility Technologies Co., Ltd.
■ 自社に1000人規模のアノテーションチームを設置し、そのためのインフラをフルスクラッチで開発
■ オフライン処理である利点を活用してアノテーションを自動化し、その誤りを人間が修正
■ 車両にデプロイできないような大規模なモデルやアンサンブルの利用
■ 未来情報(hindsight)の活用
■ 同一箇所を走行した複数車両のデータを統合
アノテーション
33
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5075s https://www.youtube.com/watch?v=g6bOwQdCJrc&t=732s
Mobility Technologies Co., Ltd.
4次元空間でのアノテーション
34
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5223s
��
Mobility Technologies Co., Ltd.
複数車両のデータの統合
35
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5417s
��
Mobility Technologies Co., Ltd.
■ シミュレータを活用することでレアケースや人手でのアノテーションが困難なシーンを生成
■ 車両や歩行者などのオブジェクトは数千種類、マニュアルで作成した道路は2000マイル以上
■ 現行モデルが失敗したシーンの実データを3次元再構成してシミュレータ内に再現し改善に役立てる
■ より写実的なレンダリングのため、ニューラルレンダリングも活用
シミュレーションの活用
36
https://www.youtube.com/watch?v=j0z4FweCy4M&t=5715s
Mobility Technologies Co., Ltd.
所感
37
4
Mobility Technologies Co., Ltd.
所感
■ Data-Centric AIの細かい構成要素で言えば、特に目新しいものはなく、皆が課題と感
じており、すでに解決策を模索している
■ Data-Centric AIの言わんとしていることは、それらを個人のスキルや暗黙知に依存さ
せるのではなく、分野としてしっかり体系化しましょうということ(Andrew先生も、
systematicにやるという点を強調していた)
■ そのためには汎用的なツールの開発が最も重要になる(データセットのバージョン管
理技術なども含む)
38
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
39

More Related Content

What's hot

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
Yoshitaka Ushiku
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
Kosuke Shinoda
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
 
Data-centricなML開発
Data-centricなML開発Data-centricなML開発
Data-centricなML開発
Takeshi Suzuki
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
Yoshitaka Ushiku
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
Fumihiko Takahashi
 

What's hot (20)

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
Data-centricなML開発
Data-centricなML開発Data-centricなML開発
Data-centricなML開発
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 

Similar to Data-Centric AIの紹介

信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
 
YakoCloud presen 141213
YakoCloud presen 141213YakoCloud presen 141213
YakoCloud presen 141213
知礼 八子
 
20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ
20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ
20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ
Daiyu Hatakeyama
 
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
NTT DATA Technology & Innovation
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Atsushi Tsuchiya
 
アクセス解析サミット2011「データドリブンなチームを目指せ」
アクセス解析サミット2011「データドリブンなチームを目指せ」アクセス解析サミット2011「データドリブンなチームを目指せ」
アクセス解析サミット2011「データドリブンなチームを目指せ」
Makoto Shimizu
 
誰もが AI を使う時代、作る時代
誰もが AI を使う時代、作る時代誰もが AI を使う時代、作る時代
誰もが AI を使う時代、作る時代
Yoshitaka Seo
 
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
 
AIの見方、AIとの付き合い方
AIの見方、AIとの付き合い方AIの見方、AIとの付き合い方
AIの見方、AIとの付き合い方
Yoshitaka Seo
 
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
IoTビジネス共創ラボ
 
IOT and Lean Manifacturing
IOT and Lean ManifacturingIOT and Lean Manifacturing
IOT and Lean Manifacturing
Osaka University
 
Smfl20201001
Smfl20201001Smfl20201001
Microsoft Azure で実現するAIとIoT最新情報
Microsoft Azure で実現するAIとIoT最新情報Microsoft Azure で実現するAIとIoT最新情報
Microsoft Azure で実現するAIとIoT最新情報
Yasuhiro Kobayashi
 
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
Takashi Okawa
 
Digital marketing on AWS
Digital marketing on AWSDigital marketing on AWS
Digital marketing on AWS
Yuta Imai
 
デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~
デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~
デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~
Daiyu Hatakeyama
 
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Takanori Kawahara
 
Mobility Technologiesのデータ分析基盤・データ利活用事例のご紹介
Mobility Technologiesのデータ分析基盤・データ利活用事例のご紹介Mobility Technologiesのデータ分析基盤・データ利活用事例のご紹介
Mobility Technologiesのデータ分析基盤・データ利活用事例のご紹介
Chigusa Junichiro
 
AI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルAI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキル
The Japan DataScientist Society
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習
Preferred Networks
 

Similar to Data-Centric AIの紹介 (20)

信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
信頼できるAIシステム開発の勘どころ ~AI開発方法論×AI品質保証~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
YakoCloud presen 141213
YakoCloud presen 141213YakoCloud presen 141213
YakoCloud presen 141213
 
20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ
20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ
20190924 沖縄ISCO AI セミナー: AIを自分の糧とするためのコツ
 
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
 
アクセス解析サミット2011「データドリブンなチームを目指せ」
アクセス解析サミット2011「データドリブンなチームを目指せ」アクセス解析サミット2011「データドリブンなチームを目指せ」
アクセス解析サミット2011「データドリブンなチームを目指せ」
 
誰もが AI を使う時代、作る時代
誰もが AI を使う時代、作る時代誰もが AI を使う時代、作る時代
誰もが AI を使う時代、作る時代
 
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
AIの見方、AIとの付き合い方
AIの見方、AIとの付き合い方AIの見方、AIとの付き合い方
AIの見方、AIとの付き合い方
 
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
 
IOT and Lean Manifacturing
IOT and Lean ManifacturingIOT and Lean Manifacturing
IOT and Lean Manifacturing
 
Smfl20201001
Smfl20201001Smfl20201001
Smfl20201001
 
Microsoft Azure で実現するAIとIoT最新情報
Microsoft Azure で実現するAIとIoT最新情報Microsoft Azure で実現するAIとIoT最新情報
Microsoft Azure で実現するAIとIoT最新情報
 
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
 
Digital marketing on AWS
Digital marketing on AWSDigital marketing on AWS
Digital marketing on AWS
 
デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~
デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~
デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~
 
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
 
Mobility Technologiesのデータ分析基盤・データ利活用事例のご紹介
Mobility Technologiesのデータ分析基盤・データ利活用事例のご紹介Mobility Technologiesのデータ分析基盤・データ利活用事例のご紹介
Mobility Technologiesのデータ分析基盤・データ利活用事例のご紹介
 
AI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルAI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキル
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習
 

More from Kazuyuki Miyazawa

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
Kazuyuki Miyazawa
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
Kazuyuki Miyazawa
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
Kazuyuki Miyazawa
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
Kazuyuki Miyazawa
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
Kazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
Kazuyuki Miyazawa
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
Kazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
Kazuyuki Miyazawa
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Kazuyuki Miyazawa
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
Kazuyuki Miyazawa
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
 

More from Kazuyuki Miyazawa (14)

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 

Data-Centric AIの紹介

  • 1. Mobility Technologies Co., Ltd. Data-Centric AIの紹介 Mobility Technologies 宮澤一之
  • 2. Mobility Technologies Co., Ltd. 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 自己紹介 2 @kzykmyzw
  • 3. Mobility Technologies Co., Ltd. 本日の内容 1. Data-Centric AIとは 2. Data-Centric AI Competition 3. ケーススタディ 4. 所感 3
  • 4. Mobility Technologies Co., Ltd. Data-Centric AIとは 4 1
  • 5. Mobility Technologies Co., Ltd. Model-Centric AIとData-Centric AI 5 Model-Centric AI ■ データを集め、データに含まれるノイズに耐えられるような良いモデルを開発する ■ データを固定し、コード/モデルを繰り返し改良していく Data-Centric AI ■ データの一貫性を最重要とし、ツールを使ってデータの品質を改善する ■ コード/モデルを固定し、データを繰り返し改良していく 現在のパラダイム 新しいパラダイム
  • 6. Mobility Technologies Co., Ltd. Andrew Ng ■ xxxx 年 xx月 すごい経歴(略 ■ 2017年12月 Landing AIというスタートアップを立ち上げ ■ 2020年10月 製造業向けの外観検査ツールLandingLensをローンチ ■ 2021年03月 Deeplearning.AIのイベントでData-Centric AIについて講演 ■ 2021年06月 Data-Centirc AI Competition開催 ■ 2021年12月 NeurIPSでData-Centric AI Workshop開催 Data-Centric AIの提唱者 6 https://en.wikipedia.org/wiki/Andrew_Ng
  • 7. Mobility Technologies Co., Ltd. ■ 外観検査プロジェクトにおいて、ベースライン方式をどれだけ改善できるか Model-CentricとData-Centricを比較 ■ Model-Centricではベースライン性能をほとんど改善できなかったのに対し、 Data-Centricでは大きな改善が得られた Model-Centric vs. Data-Centric 7 鉄製品の欠陥検査 ソーラーパネルの欠 陥検査 表面検査 Baseline 76.2% 75.68% 85.05% Model-Centric 76.2% (+0%) 75.72% (+0.04%) 85.05% (+0%) Data-Centric 93.1% (+16.9%) 78.74% (+3.06%) 85.45% (+0.4%) A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 8. Mobility Technologies Co., Ltd. Data-Centricアプローチ 8 イグアナをBBOXで囲む アノテータA アノテータB アノテータC ■ アノテータによるラベルの偏りがない、一貫したデータセットの構築を目指す ■ データにおける問題の発見、解決を機械学習エンジニアのスキルに依存するのでは なくシステマティックに行う A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 9. Mobility Technologies Co., Ltd. 1. 複数のアノテータに同一のサンプル画像を提示 2. アノテータ間のラベルの一貫性を定量化 3. アノテータ間でばらつきの大きいクラスについてアノテーションルールを見直し 4. 1. - 3. を収束するまで反復 一貫したラベルを得るための手法例 9 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 10. Mobility Technologies Co., Ltd. データが少ないほど品質が重要 10 ■ データ量が多ければある程度のノイズはキャンセルされるが、データ量が少ない場 合はその品質が極めて重要になる ■ 500枚の学習データの12%がノイズである場合、以下2つは同じ効果を持つ ■ ノイズを除去する ■ 追加で500枚を学習データに加える(データセットサイズを2倍にする) データ量:少 データ品質:低 データ量:多 データ品質:低 データ量:少 データ品質:高 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 11. Mobility Technologies Co., Ltd. 従来のソフトウェア 機械学習ソフトウェア 従来のソフトウェアと機械学習ソフトウェアの違い 11 スコープ定義 コーディング デプロイ スコープ定義 学習 デプロイ データ収集 DevOps MLOps A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 12. Mobility Technologies Co., Ltd. MLOpsの役割 12 スコープ定義 学習 デプロイ データ収集 MLOps 機械学習プロジェクトのライフサイクル全体を通じて高品質なデータを保証する Q. どのようにデータを定義 し、集めればよいか? Q. モデルの性能改善のた めにどのようにデータを変 更すればよいか? Q. コンセプト/データドリフト を検知するためにどのよう なデータをトラックすればよ いか? MLOpsチームは各フェーズでのこれらの問いに答えられる必要がある A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 13. Mobility Technologies Co., Ltd. Good Data is: ■ 定義が一貫している(ラベル y の定義に曖昧さがない) ■ 重要なケースをカバーしている(入力 x の分布を十分にカバーしている) ■ 現在のデータがタイムリーにフィードバックされる(データ分布がデータドリフトやコン セプトドリフトをカバーしている) ■ サイズが適切である Big DataからGood Dataへ 13 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 14. Mobility Technologies Co., Ltd. まとめ 14 AI System = Code + Data Model-Centric AI 性能を改善するためにどのようにモ デル(コード)を変更するか Data-Centric AI 性能を改善するためにどのようにシ ステマティックにデータを変更するか ■ MLOpsの最重要タスクは、機械学習プロジェクトのライフサイクル全体を通じて 高品質なデータを保証すること ■ 今後はData-Centric AIを効率的かつシステマティックに実現するためのツール が重要となる A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  • 15. Mobility Technologies Co., Ltd. Data-Centric AI Competition 15 2 https://https-deeplearning-ai.github.io/data-centric-comp/
  • 16. Mobility Technologies Co., Ltd. コンペ概要 期間:2021/6/24〜9/4 内容/ルール: ■ 手書きローマ数字のデータセット(2880枚)に対する分類精度を改善する ■ 分類モデル(ResNet50)や学習スクリプトは固定であり、参加者はデータセットの みを変更する ■ データセットサイズはtrain/val併せて10000枚まで ■ train/valのスプリット方法も参加者が決める ■ 変更したデータセットをzipで固めてCodaLabからアップロードすると、学習が CodaLab上で実行されてhidden test setでの評価が行われる 16
  • 17. Mobility Technologies Co., Ltd. サンプルデータ(正常)* 17 * 参加された方のQiita記事より引用
  • 18. Mobility Technologies Co., Ltd. サンプルデータ(ノイズ)* 18 * 参加された方のQiita記事より引用
  • 19. Mobility Technologies Co., Ltd. サンプルデータ(ラベルミス、判別不能)* 19 * 参加された方のQiita記事より引用
  • 20. Mobility Technologies Co., Ltd. 結果 20 順位 チーム名 Accuracy Baseline 0.64421 1 Divakar Roy 0.85826 2 Innotescus 0.85744 3 Synaptic-AnN 0.85455 4 Synaptic-AnN 0.85083 5 Jens Kramer 0.84959 … … … 486 RAHUL GUPTA 0.059091 Best Performance賞が上位3チームに授与 その他、順位に関係なく(?) Most Innovative 賞が3チームに授与
  • 21. Mobility Technologies Co., Ltd. Best Performance - 1st 21 文字領域(前景)とノイズ(背景)を分離 文字領域をクロップしてデータ拡張 拡張した文字領域を背景に合成 目視によるデータクレンジング        ・ラベルミスの修正        ・類似サンプルの削除        ・曖昧サンプルの削除 https://www.deeplearning.ai/data-centric-ai-competition-divakar-roy/
  • 22. Mobility Technologies Co., Ltd. Best Performance - 2nd 22 目視によるデータクレンジング        ・ラベルミスの修正        ・曖昧サンプルの削除 https://www.deeplearning.ai/data-centric-ai-competition-innotescus/ データセットサイズは当初の 78%と なったがAccuracyは9%改善 train/valスプリットの調整 サブクラスのbalancing hard exampleの追加 画像特徴をクラスタリングすることで各クラ スをサブクラスに分け、サブクラスレベルで balancingするようにデータ拡張 validationサンプルに対し以下の difficulty scoreを定義し、スコアに基 づいてhard exampleを探して学習 データに追加 Po max :クラス確率の最大値 Po 2ndmax :クラス確率の 2番目に大きい値
  • 23. Mobility Technologies Co., Ltd. Best Performance - 3rd 23 目視によるデータクレンジング https://www.deeplearning.ai/data-centric-ai-competition-synaptic-ann/ 手書きによるデータ追加 testセットサンプルからのデータ拡張 AutoAugment 複数モデルの投票によるフィルタリング サンプル画像(青枠)の一部をコピペす ることでデータを拡張 AutoAugment論文からSVHN向けに探 索されたデータ拡張手法を流用 拡張したデータセットに対して複数の CNNモデルで推論を行い、クラス確率 の投票値に基づいて低品質な画像を フィルタリング
  • 24. Mobility Technologies Co., Ltd. Most Innovative - 1st 24 目視によるデータクレンジング        ・重複サンプルの削除 補助モデルの学習 補助モデルによるスクリーニング クラス不均衡の解消 N-fold Cross Validation 少数のサンプルを選び、ラベルが正確 であることを確認した上で分類モデルを 学習 補助モデルでデータセット全体を推論 し、ロスが小さいサンプル K枚とロスが 大きいサンプルL枚を取り出して目視確 認を行い、必要に応じてラベル修正や 削除を実施 補助モデルの学習データ 残りの学習データ 小       ロス       大 目視 目視により修正した高品質なデータを補 助モデルの学習データに加え、補助モ デルを学習し直す 補助モデルの学習データ 残りの学習データ 全サンプルを目視するまで繰り返し https://www.deeplearning.ai/data-centric-ai-competition-mohammad-motamedi/
  • 25. Mobility Technologies Co., Ltd. Most Innovative - 2nd 25 目視によるデータクレンジング        ・ラベルミスの修正        ・曖昧サンプルの削除 https://www.deeplearning.ai/data-centric-ai-competition-johnson-kuan/ 候補データとして、データ拡張により 100万枚を生成 trainセットで学習、valセットで推論 valセットで推論を誤ったサンプルと最も近いサンプルを候 補データから探索し、 trainセットに加える trainセットがルール上限である 1万枚に 到達するまで繰り返し 別途用意したpretrainedモデル で抽出した特徴量を使って最近 傍探索を実施
  • 26. Mobility Technologies Co., Ltd. Most Innovative - 3rd 26 目視によるデータクレンジング        ・ラベルミスの修正 https://www.deeplearning.ai/data-centric-ai-competition-godatadriven/ 特徴量の可視化による train/val不均衡の調査 Streamlitでインタラクティブにデータ拡張 UMAPで特徴量を可視化 valに存在しない領域
  • 27. Mobility Technologies Co., Ltd. ケーススタディ 〜 Tesla 〜 27 3 以下資料の抜粋です Teslaにおけるコンピュータビジョン技術の調査
  • 28. Secret Mobility Technologies Co., Ltd. 28 https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=8181s
  • 29. Mobility Technologies Co., Ltd. ユーザ車両からのデータ収集 29 https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s ■ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集 ■ 新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集 ■ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加 ■ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ
  • 30. Mobility Technologies Co., Ltd. 事例1:標識検出 30 ■ 標識検出では、オクルージョンや補助標識による条件付きなど様々なケースに対応する必要がある ■ 例えば木で隠された標識だけを見つける検出器を作ってユーザ車両にデプロイし、検出結果をトリガとして木で隠 された標識の画像を大量に自動収集して学習データセットに加える https://www.youtube.com/watch?v=hx7BXih7zx8&t=700s
  • 31. Mobility Technologies Co., Ltd. ■ レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題 ■ カメラのみでレーダーと同等精度の計測を可能にする機械学習モデルをわずか4ヶ月で開発 ■ データ収集のためのトリガ(カメラとレーダーの不整合発生など)を221種類用意し、学習データとして100万映像 (1.5ペタバイト)を収集 事例2:レーダーの廃止 31 https://www.youtube.com/watch?v=g6bOwQdCJrc&t=893s
  • 32. Mobility Technologies Co., Ltd. ■ 前方車両の急ブレーキや道路にかかる橋などによりレーダーが不正確となるケースでもカメラにより正確な計測 が可能となった ■ リリースにあたっては6000種類のクリップによるユニットテストやシミュレーションで生成した1万シナリオを使って 検証を実施 事例2:レーダーの廃止 32 https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1366s
  • 33. Mobility Technologies Co., Ltd. ■ 自社に1000人規模のアノテーションチームを設置し、そのためのインフラをフルスクラッチで開発 ■ オフライン処理である利点を活用してアノテーションを自動化し、その誤りを人間が修正 ■ 車両にデプロイできないような大規模なモデルやアンサンブルの利用 ■ 未来情報(hindsight)の活用 ■ 同一箇所を走行した複数車両のデータを統合 アノテーション 33 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5075s https://www.youtube.com/watch?v=g6bOwQdCJrc&t=732s
  • 34. Mobility Technologies Co., Ltd. 4次元空間でのアノテーション 34 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5223s ��
  • 35. Mobility Technologies Co., Ltd. 複数車両のデータの統合 35 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5417s ��
  • 36. Mobility Technologies Co., Ltd. ■ シミュレータを活用することでレアケースや人手でのアノテーションが困難なシーンを生成 ■ 車両や歩行者などのオブジェクトは数千種類、マニュアルで作成した道路は2000マイル以上 ■ 現行モデルが失敗したシーンの実データを3次元再構成してシミュレータ内に再現し改善に役立てる ■ より写実的なレンダリングのため、ニューラルレンダリングも活用 シミュレーションの活用 36 https://www.youtube.com/watch?v=j0z4FweCy4M&t=5715s
  • 37. Mobility Technologies Co., Ltd. 所感 37 4
  • 38. Mobility Technologies Co., Ltd. 所感 ■ Data-Centric AIの細かい構成要素で言えば、特に目新しいものはなく、皆が課題と感 じており、すでに解決策を模索している ■ Data-Centric AIの言わんとしていることは、それらを個人のスキルや暗黙知に依存さ せるのではなく、分野としてしっかり体系化しましょうということ(Andrew先生も、 systematicにやるという点を強調していた) ■ そのためには汎用的なツールの開発が最も重要になる(データセットのバージョン管 理技術なども含む) 38