SlideShare a Scribd company logo
1 of 31
Download to read offline
Mobility Technologies Co., Ltd.
Active Learning の基礎と最近の研究
開発本部 AI技術開発部 データサイエンスグループ 高橋 文彦
Mobility Technologies Co., Ltd.
2
● AIを駆使したドラレコが常に運転を解析
● 事故の要因となりうるリスク運転行動を自動
的に検知し、映像を残す
● AIが検知した映像や解析データをもとに、安
全管理に特化した専門人材が、ユーザーと
一緒に運転事故防止と業務効率化を支援
DRIVE CHART
Mobility Technologies Co., Ltd.
3
● 車内の内側カメラの映像をエッジデバイス内のDeep Learningモデルで処理し
脇見を検出
● 開発にあたって
○ 入力のバリエーションが多い
○ targetの発生がレア
■ 学習データの収集が高コスト 😫
DRIVE CHART - 脇見検知
Mobility Technologies Co., Ltd.
4
● Unlabeled dataは大量にある
● アノテーションのコストが高い
● ランダムに取得した動画に「脇見」が含まれるのは稀
● False Positiveを集めるのは容易だが、False Negativeを集めるのは困難
効率的に学習データを集めたい!
➡ Active Learning を検討
いかに学習データを集めるか?
Mobility Technologies Co., Ltd.
5
Agenda
2 従来の active learning の手法の紹介
3 近年の active learning の手法の紹介
1 Active learning とは
Mobility Technologies Co., Ltd.
Active Learning とは
6
01
Mobility Technologies Co., Ltd.
7
● アノテーションにはコストがかかる...
○ アノテーション対象(query)をうまく選択する
必要がある
● (unlabeled dataから)学習に有用なデータを選
択する手法
○ できるだけ少ないコストで
○ モデルのパフォーマンスを上げる
※ 学習データの縮小を目的にlabeled dataにALを
適用することもある
Active Learning (AL) = 能動学習 とは?
出典: Active Learning Literature Survey, 2009, Burr Settles
Mobility Technologies Co., Ltd.
8
● membership query synthesis
○ データを生成するアプローチ
○ ロボットアームの動作角度など
○ 画像生成などでは判断つかない画像が生
成されるため使われない
● stream-based selective sampling
○ データがストリームされており、
アノテーションするか否かを選択していく
場合
● pool-based active learning
○ 大規模なデータをプールしている場合
ALを適用するシナリオの種類
出典: Active Learning Literature Survey, 2009, Burr Settles
Mobility Technologies Co., Ltd.
● Active Learning Literature Survey, 2009, Burr Settles, Computer Sciences Technical
Report 1648
○ いろんなところで引用されている論文
○ 周辺技術や理論的な解説など網羅的に書かれている
● 能動学習:問題設定と最近の話題, 2021, 日野英逸, 日本統計学会誌
○ 最近の能動学習について網羅的に解説されている
Active Learningのサーベイ論文
9
Mobility Technologies Co., Ltd.
従来の
active learning の手法の紹介
10
02
Mobility Technologies Co., Ltd.
1. Uncertainty Sampling
2. Query-By-Committee
3. Density-Weighted Methods
4. Expected Model Change
5. Variance Reduction and Fisher Information Ratio
6. Estimated Error Reduction
従来のAL手法の分類
11
Mobility Technologies Co., Ltd.
● モデルが確信を持っていない不確かなデータを選択
● 最もベーシックな手法
● Entropy based method
○ エントロピー(不確かさ)最大のデータを選ぶ
● Least Confident
○ ラベルの確率の最大値が最小になるデータを選択
1. Uncertainty Sampling
12
y_i: 各クラスのラベル
A B C D score
x1 0.10 0.10 0.10 0.70 0.70
x2 0.25 0.25 0.25 0.25 0.25
A B C D score
x1 0.10 0.10 0.10 0.70 0.94
x2 0.25 0.25 0.25 0.25 1.39
Mobility Technologies Co., Ltd.
● CIFAR-10 を使用
○ 10クラス
○ train50,000件 test10,000件
○ 全てのラベルは同数
● タスク簡易化のため、
``cat”をtargetとするbinary classification taskと
する
● モデルはpytorchチュートリアル のモデルを利
用
○ シンプルなCNN2層 + FC3層
Uncertainty Sampling の実験設定
13
https://www.cs.toronto.edu/~kriz/cifar.html
Mobility Technologies Co., Ltd.
実験方法
● trainデータをランダムに6000件選択してベースモデルを学習
● 残りのtrainデータをpooled dataとする
● step毎にpooled dataからN(=2000)件ずつ取り出して学習データに加え学習し精度を
確認
● 取り出すN件はALを使って選択
Uncertainty Sampling の実験手順
14
モデルの
評価
学習データLで
base model
を学習
Lでモデルを
学習
pooled dataから
N件取り出し
Lに追加
Mobility Technologies Co., Ltd.
Uncertainty Sampling の実験の結果
15
step毎のPR-AUC
step毎の追加された画像のラベル
最初に追加された画像のサンプル
最後まで追加されずに残った画像のサンプル
● randomより少ないデータ追加でPR-AUCの精度が高く
なっている
● entropy methodでsocreの低いものから採用する
(reversed entropy)とデータを追加しても精度も上がら
ず、追加しても効果の低いデータを選択できている
● 優先的に「cat」と「dog」のラベルが追加されている
○ 「dog」は直感的にもhard exampleになりそう
● 優先度が低いのは「automobile」「airplane」「ship」などで
これも直感に合う
Mobility Technologies Co., Ltd.
● 複数のモデルで票が割れるデータを選択
○ Uncertainty Samplingと同様のモチベーショ
ン
● Vote Entropy
○ 投票割合のentropyで計算
● Kullback Leibler(KL) divergence
○ 平均したベクトルとのKL距離が大きいデー
タを選択
2. Query-By-Committee
16
y_i: 各クラスのラベル
V(y_i): 投票数
C: モデル数
出典: Active Learning Literature Survey, 2009, Burr Settles
Mobility Technologies Co., Ltd.
● 基本はUncertainty Samplingの実験と同様
● モデルのバリエーション
○ 元のモデルから、CNNのwindowやunit数を変化させたもの
○ 基本的なモデル構造は一緒
Query-By-Committee の実験の設定
17
Mobility Technologies Co., Ltd.
Query-By-Committee の実験の結果
18
step毎のPR-AUC
step毎の追加された画像のラベル
最初に追加された画像のサンプル
最後まで追加されずに残った画像のサンプル
● randomより少ないデータ追加でPR-AUCの精度が高く
なっている
● entropy methodには若干劣る(ただしアンサンブルするモ
デルのバリエーションが低いのも要因だとは思う)
● entropy methodと異なり「cat」「dog」「frog」「deer」「bird」
をバランス良く優先的に追加
Mobility Technologies Co., Ltd.
● Uncertainty Sampling, Query-By-Committee は外れ値を
選ぶことがある
● データの分布の密度が高いデータを重点的に選択
● Information density
○ unlabeled data内の類似度の平均値でweightをかけ
る
3. Density-Weighted Methods
19
:ベースのquery strategy(US, QBCなど)
出典: Active Learning Literature Survey, 2009, Burr Settles
Mobility Technologies Co., Ltd.
● 基本はUncertainty Samplingの実験と同様
● データの類似度の計算方法
○ 直近に学習したモデルのCNN後の最初のFC層の出力をembeddingとして利用
○ ユークリッド距離で平均距離を計算し、その逆数を類似度とする
○ 省メモリの工夫
■ 4万x4万の距離行列の計算にメモリが足りなくなる
■ unlabeled dataが2万以上ある場合に、分割しその中で平均距離を計算
● データが十分多いときに平均距離が変わらないことを期待
● βパラメータは探索
Density-Weighted Methods の実験の設定
20
Mobility Technologies Co., Ltd.
Density-Weighted Methods の実験の結果
21
step毎のPR-AUC
step毎の追加された画像のラベル
最初に追加された画像のサンプル
最後まで追加されずに残った画像のサンプル
● randomより少ないデータ追加でPR-AUCの精度が高く
なっている
● entropy methodと同程度
○ これ以上βを強めると劣化
● 本実験だと外れ値的なサンプルが少ないことが原因か...?
Mobility Technologies Co., Ltd.
● Expected Model Change
○ 学習したときにモデルの変化の期待値が大きくなるデータを選択
○ 勾配の期待値(取りうるラベルごとの確率と勾配の積)の合計で計算
○ データ毎にloss計算, backwardの必要があり、計算コストが高い
● Variance Reduction and Fisher Information Ratio
○ 将来のモデルの分散を最小化
○ 回帰タスクの場合はMSE lossにした時の勾配をもちいる
○ unlabeled data全体でのフィッシャー情報量(scoreの微分)の割合で計算
○ 計算コストが高い
● Estimated Error Reduction
○ 追加することでエラーが減るデータを選択
○ データ毎に学習までする必要があり、非常に計算コストが高い
その他の従来の手法
22
Mobility Technologies Co., Ltd.
近年の
active learning 手法の紹介
23
03
Mobility Technologies Co., Ltd.
24
1. バッチでデータ追加すると似たデータが選ばれてしまう
a. 従来手法は単一のデータを追加して学習することを前提としている
b. 近年では学習に時間がかかるようになったため、バッチで追加する必要性がある
2. 多様性のある入力に対応できない
a. 従来の手法はシンプルな入力を前提としている
3. モデルに強く依存したデータセットになる
a. 途中でモデルが変わると精度が出ないという報告もある
従来の手法で言われる問題点
Mobility Technologies Co., Ltd.
25
● core-setというデータ集合を代表するデータを特
定する技術をALに適用
● データ全体の多様性を捉えることを目指す
● 追加することでデータ全体と学習データの距離
が最小になるようなデータを追加
● 全部計算するとNP困難なため貪欲法で計算
● 学習データ集合からの距離が最大のデータ
を見つけて追加しこれをN回繰り返す
● 距離計算にはネットワークの最終層から抽出し
たembeddingを使用
Active Learning for Convolutional Neural Networks: A Core-Set Approach
Mobility Technologies Co., Ltd.
26
● 変分オートエンコーダ(VAE)と敵対的ネットワーク
のみを用いてqueryを獲得する
○ タスクのモデルに依存しない
● データセット全体に存在しない学習データが偏り
がない状態を目指す
● VAEはlabeled dataとunlabeled dataで分布が一
致するように学習
● 敵対的ネットワークはlabeledかunlabeledかを分
類するように学習
● unlabeledと判定されたデータにアノテーション
Variational Adversarial Active Learning
Mobility Technologies Co., Ltd.
27
● Deep Bayesian Neural Networkを用いた元論
文をバッチに拡張した手法
● モデルの予測結果とモデルのパラメータの
予測相互情報量が大きいqueryを選択
(BALD, 元論文より)
○ モデルのパラメータの事後分布の予測エ
ントロピーが高いqueryを選択
○ モデルの変化が大きいqueryを選択した
い?
● このままだと似たデータばかりが選ばれるの
で、バッチ単位でqueryを選択するように拡
張
○ 直感的な説明だとバッチ単位だと重複し
て計算されなくなるため解消される
BatchBALD: Efficient and Diverse Batch Acquisition
for Deep Bayesian Active Learning
MNIST
Mobility Technologies Co., Ltd.
まとめ
28
04
Mobility Technologies Co., Ltd.
29
● Active Learning の従来の手法と近年の手法について紹介
感想
● ある程度シンプルなデータなら従来の手法でも十分に効果が出る
● core-setはリーズナブルな手法ながら、他の論文を見ても効果が高そう
● VAALは実装が公開されている上に、タスクのモデルに依存しないので使いやすそう
● entropy method(Uncertainty Sampling) -> VAAL -> core-set の順で試すのが良さそう
まとめ
Mobility Technologies Co., Ltd.
30
● Active Learning Literature Survey, 2009, Burr Settles, Computer Sciences Technical
Report 1648
● Active Learning 入門,
https://www.slideshare.net/shuyo/introduction-to-active-learning-25787487
● Overview of Active Learning for Deep Learning,
https://jacobgil.github.io/deeplearning/activelearning#active-learning-for-convolution
al-neural-networks--a-core-set-approach
● Active Learning for Convolutional Neural Networks: A Core-Set Approach, 2018, Ozan
Sener, ICLR
● Variational Adversarial Active Learning, 2019, Samarth Sinha, ICCV
● BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning,
2019, Andreas Kirsch, NeurIPS
● 能動学習:問題設定と最近の話題, 2021, 日野英逸, 日本統計学会誌
参考
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
31

More Related Content

What's hot

SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019Yusuke Uchida
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)Kentaro Minami
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 

What's hot (20)

SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 

Similar to Active Learning の基礎と最近の研究

Batch Reinforcement Learning
Batch Reinforcement LearningBatch Reinforcement Learning
Batch Reinforcement LearningTakuma Oda
 
「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめ「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめRecruit Technologies
 
Machine learning CI/CD with OSS
Machine learning CI/CD with OSSMachine learning CI/CD with OSS
Machine learning CI/CD with OSSyusuke shibui
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)Yasuyuki Kataoka
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術Yusuke Uchida
 
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングOptuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングTakashi Suzuki
 
Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...Shunsuke Kozawa
 
Azure Machine Learning services 2019年6月版
Azure Machine Learning services 2019年6月版Azure Machine Learning services 2019年6月版
Azure Machine Learning services 2019年6月版Daiyu Hatakeyama
 
【Dll171201】深層学習利活用の紹介 掲載用
【Dll171201】深層学習利活用の紹介 掲載用【Dll171201】深層学習利活用の紹介 掲載用
【Dll171201】深層学習利活用の紹介 掲載用Hirono Jumpei
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...de:code 2017
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたknjcode
 
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Hirono Jumpei
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑むHiroto Honda
 
Azure Machine Learning Services 概要 - 2019年3月版
Azure Machine Learning Services 概要 - 2019年3月版Azure Machine Learning Services 概要 - 2019年3月版
Azure Machine Learning Services 概要 - 2019年3月版Daiyu Hatakeyama
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 
AIを活用した交通事故削減支援サービスでのテスト自動化
AIを活用した交通事故削減支援サービスでのテスト自動化AIを活用した交通事故削減支援サービスでのテスト自動化
AIを活用した交通事故削減支援サービスでのテスト自動化Shota Suzuki
 
MySQLで学ぶ機械学習ことはじめ.pdf
MySQLで学ぶ機械学習ことはじめ.pdfMySQLで学ぶ機械学習ことはじめ.pdf
MySQLで学ぶ機械学習ことはじめ.pdfMachiko Ikoma
 

Similar to Active Learning の基礎と最近の研究 (20)

Batch Reinforcement Learning
Batch Reinforcement LearningBatch Reinforcement Learning
Batch Reinforcement Learning
 
「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめ「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめ
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
Machine learning CI/CD with OSS
Machine learning CI/CD with OSSMachine learning CI/CD with OSS
Machine learning CI/CD with OSS
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
 
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングOptuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
 
Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...
 
Azure Machine Learning services 2019年6月版
Azure Machine Learning services 2019年6月版Azure Machine Learning services 2019年6月版
Azure Machine Learning services 2019年6月版
 
【Dll171201】深層学習利活用の紹介 掲載用
【Dll171201】深層学習利活用の紹介 掲載用【Dll171201】深層学習利活用の紹介 掲載用
【Dll171201】深層学習利活用の紹介 掲載用
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む
 
Azure Machine Learning Services 概要 - 2019年3月版
Azure Machine Learning Services 概要 - 2019年3月版Azure Machine Learning Services 概要 - 2019年3月版
Azure Machine Learning Services 概要 - 2019年3月版
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
AIを活用した交通事故削減支援サービスでのテスト自動化
AIを活用した交通事故削減支援サービスでのテスト自動化AIを活用した交通事故削減支援サービスでのテスト自動化
AIを活用した交通事故削減支援サービスでのテスト自動化
 
MySQLで学ぶ機械学習ことはじめ.pdf
MySQLで学ぶ機械学習ことはじめ.pdfMySQLで学ぶ機械学習ことはじめ.pdf
MySQLで学ぶ機械学習ことはじめ.pdf
 

More from Fumihiko Takahashi

Attention機構を使った 配車車両未確定状態における タクシー到着時間予測
Attention機構を使った 配車車両未確定状態における タクシー到着時間予測Attention機構を使った 配車車両未確定状態における タクシー到着時間予測
Attention機構を使った 配車車両未確定状態における タクシー到着時間予測Fumihiko Takahashi
 
JapanTaxi R&Dの取り組み事例
JapanTaxi R&Dの取り組み事例JapanTaxi R&Dの取り組み事例
JapanTaxi R&Dの取り組み事例Fumihiko Takahashi
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task LearningFumihiko Takahashi
 
ドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text Recognitionするドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text RecognitionするFumihiko Takahashi
 

More from Fumihiko Takahashi (6)

Attention機構を使った 配車車両未確定状態における タクシー到着時間予測
Attention機構を使った 配車車両未確定状態における タクシー到着時間予測Attention機構を使った 配車車両未確定状態における タクシー到着時間予測
Attention機構を使った 配車車両未確定状態における タクシー到着時間予測
 
JapanTaxiのAI活用事例
JapanTaxiのAI活用事例JapanTaxiのAI活用事例
JapanTaxiのAI活用事例
 
JapanTaxi R&Dの取り組み事例
JapanTaxi R&Dの取り組み事例JapanTaxi R&Dの取り組み事例
JapanTaxi R&Dの取り組み事例
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
 
ドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text Recognitionするドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text Recognitionする
 
SIGSPATIAL2020 参加報告
SIGSPATIAL2020 参加報告SIGSPATIAL2020 参加報告
SIGSPATIAL2020 参加報告
 

Active Learning の基礎と最近の研究

  • 1. Mobility Technologies Co., Ltd. Active Learning の基礎と最近の研究 開発本部 AI技術開発部 データサイエンスグループ 高橋 文彦
  • 2. Mobility Technologies Co., Ltd. 2 ● AIを駆使したドラレコが常に運転を解析 ● 事故の要因となりうるリスク運転行動を自動 的に検知し、映像を残す ● AIが検知した映像や解析データをもとに、安 全管理に特化した専門人材が、ユーザーと 一緒に運転事故防止と業務効率化を支援 DRIVE CHART
  • 3. Mobility Technologies Co., Ltd. 3 ● 車内の内側カメラの映像をエッジデバイス内のDeep Learningモデルで処理し 脇見を検出 ● 開発にあたって ○ 入力のバリエーションが多い ○ targetの発生がレア ■ 学習データの収集が高コスト 😫 DRIVE CHART - 脇見検知
  • 4. Mobility Technologies Co., Ltd. 4 ● Unlabeled dataは大量にある ● アノテーションのコストが高い ● ランダムに取得した動画に「脇見」が含まれるのは稀 ● False Positiveを集めるのは容易だが、False Negativeを集めるのは困難 効率的に学習データを集めたい! ➡ Active Learning を検討 いかに学習データを集めるか?
  • 5. Mobility Technologies Co., Ltd. 5 Agenda 2 従来の active learning の手法の紹介 3 近年の active learning の手法の紹介 1 Active learning とは
  • 6. Mobility Technologies Co., Ltd. Active Learning とは 6 01
  • 7. Mobility Technologies Co., Ltd. 7 ● アノテーションにはコストがかかる... ○ アノテーション対象(query)をうまく選択する 必要がある ● (unlabeled dataから)学習に有用なデータを選 択する手法 ○ できるだけ少ないコストで ○ モデルのパフォーマンスを上げる ※ 学習データの縮小を目的にlabeled dataにALを 適用することもある Active Learning (AL) = 能動学習 とは? 出典: Active Learning Literature Survey, 2009, Burr Settles
  • 8. Mobility Technologies Co., Ltd. 8 ● membership query synthesis ○ データを生成するアプローチ ○ ロボットアームの動作角度など ○ 画像生成などでは判断つかない画像が生 成されるため使われない ● stream-based selective sampling ○ データがストリームされており、 アノテーションするか否かを選択していく 場合 ● pool-based active learning ○ 大規模なデータをプールしている場合 ALを適用するシナリオの種類 出典: Active Learning Literature Survey, 2009, Burr Settles
  • 9. Mobility Technologies Co., Ltd. ● Active Learning Literature Survey, 2009, Burr Settles, Computer Sciences Technical Report 1648 ○ いろんなところで引用されている論文 ○ 周辺技術や理論的な解説など網羅的に書かれている ● 能動学習:問題設定と最近の話題, 2021, 日野英逸, 日本統計学会誌 ○ 最近の能動学習について網羅的に解説されている Active Learningのサーベイ論文 9
  • 10. Mobility Technologies Co., Ltd. 従来の active learning の手法の紹介 10 02
  • 11. Mobility Technologies Co., Ltd. 1. Uncertainty Sampling 2. Query-By-Committee 3. Density-Weighted Methods 4. Expected Model Change 5. Variance Reduction and Fisher Information Ratio 6. Estimated Error Reduction 従来のAL手法の分類 11
  • 12. Mobility Technologies Co., Ltd. ● モデルが確信を持っていない不確かなデータを選択 ● 最もベーシックな手法 ● Entropy based method ○ エントロピー(不確かさ)最大のデータを選ぶ ● Least Confident ○ ラベルの確率の最大値が最小になるデータを選択 1. Uncertainty Sampling 12 y_i: 各クラスのラベル A B C D score x1 0.10 0.10 0.10 0.70 0.70 x2 0.25 0.25 0.25 0.25 0.25 A B C D score x1 0.10 0.10 0.10 0.70 0.94 x2 0.25 0.25 0.25 0.25 1.39
  • 13. Mobility Technologies Co., Ltd. ● CIFAR-10 を使用 ○ 10クラス ○ train50,000件 test10,000件 ○ 全てのラベルは同数 ● タスク簡易化のため、 ``cat”をtargetとするbinary classification taskと する ● モデルはpytorchチュートリアル のモデルを利 用 ○ シンプルなCNN2層 + FC3層 Uncertainty Sampling の実験設定 13 https://www.cs.toronto.edu/~kriz/cifar.html
  • 14. Mobility Technologies Co., Ltd. 実験方法 ● trainデータをランダムに6000件選択してベースモデルを学習 ● 残りのtrainデータをpooled dataとする ● step毎にpooled dataからN(=2000)件ずつ取り出して学習データに加え学習し精度を 確認 ● 取り出すN件はALを使って選択 Uncertainty Sampling の実験手順 14 モデルの 評価 学習データLで base model を学習 Lでモデルを 学習 pooled dataから N件取り出し Lに追加
  • 15. Mobility Technologies Co., Ltd. Uncertainty Sampling の実験の結果 15 step毎のPR-AUC step毎の追加された画像のラベル 最初に追加された画像のサンプル 最後まで追加されずに残った画像のサンプル ● randomより少ないデータ追加でPR-AUCの精度が高く なっている ● entropy methodでsocreの低いものから採用する (reversed entropy)とデータを追加しても精度も上がら ず、追加しても効果の低いデータを選択できている ● 優先的に「cat」と「dog」のラベルが追加されている ○ 「dog」は直感的にもhard exampleになりそう ● 優先度が低いのは「automobile」「airplane」「ship」などで これも直感に合う
  • 16. Mobility Technologies Co., Ltd. ● 複数のモデルで票が割れるデータを選択 ○ Uncertainty Samplingと同様のモチベーショ ン ● Vote Entropy ○ 投票割合のentropyで計算 ● Kullback Leibler(KL) divergence ○ 平均したベクトルとのKL距離が大きいデー タを選択 2. Query-By-Committee 16 y_i: 各クラスのラベル V(y_i): 投票数 C: モデル数 出典: Active Learning Literature Survey, 2009, Burr Settles
  • 17. Mobility Technologies Co., Ltd. ● 基本はUncertainty Samplingの実験と同様 ● モデルのバリエーション ○ 元のモデルから、CNNのwindowやunit数を変化させたもの ○ 基本的なモデル構造は一緒 Query-By-Committee の実験の設定 17
  • 18. Mobility Technologies Co., Ltd. Query-By-Committee の実験の結果 18 step毎のPR-AUC step毎の追加された画像のラベル 最初に追加された画像のサンプル 最後まで追加されずに残った画像のサンプル ● randomより少ないデータ追加でPR-AUCの精度が高く なっている ● entropy methodには若干劣る(ただしアンサンブルするモ デルのバリエーションが低いのも要因だとは思う) ● entropy methodと異なり「cat」「dog」「frog」「deer」「bird」 をバランス良く優先的に追加
  • 19. Mobility Technologies Co., Ltd. ● Uncertainty Sampling, Query-By-Committee は外れ値を 選ぶことがある ● データの分布の密度が高いデータを重点的に選択 ● Information density ○ unlabeled data内の類似度の平均値でweightをかけ る 3. Density-Weighted Methods 19 :ベースのquery strategy(US, QBCなど) 出典: Active Learning Literature Survey, 2009, Burr Settles
  • 20. Mobility Technologies Co., Ltd. ● 基本はUncertainty Samplingの実験と同様 ● データの類似度の計算方法 ○ 直近に学習したモデルのCNN後の最初のFC層の出力をembeddingとして利用 ○ ユークリッド距離で平均距離を計算し、その逆数を類似度とする ○ 省メモリの工夫 ■ 4万x4万の距離行列の計算にメモリが足りなくなる ■ unlabeled dataが2万以上ある場合に、分割しその中で平均距離を計算 ● データが十分多いときに平均距離が変わらないことを期待 ● βパラメータは探索 Density-Weighted Methods の実験の設定 20
  • 21. Mobility Technologies Co., Ltd. Density-Weighted Methods の実験の結果 21 step毎のPR-AUC step毎の追加された画像のラベル 最初に追加された画像のサンプル 最後まで追加されずに残った画像のサンプル ● randomより少ないデータ追加でPR-AUCの精度が高く なっている ● entropy methodと同程度 ○ これ以上βを強めると劣化 ● 本実験だと外れ値的なサンプルが少ないことが原因か...?
  • 22. Mobility Technologies Co., Ltd. ● Expected Model Change ○ 学習したときにモデルの変化の期待値が大きくなるデータを選択 ○ 勾配の期待値(取りうるラベルごとの確率と勾配の積)の合計で計算 ○ データ毎にloss計算, backwardの必要があり、計算コストが高い ● Variance Reduction and Fisher Information Ratio ○ 将来のモデルの分散を最小化 ○ 回帰タスクの場合はMSE lossにした時の勾配をもちいる ○ unlabeled data全体でのフィッシャー情報量(scoreの微分)の割合で計算 ○ 計算コストが高い ● Estimated Error Reduction ○ 追加することでエラーが減るデータを選択 ○ データ毎に学習までする必要があり、非常に計算コストが高い その他の従来の手法 22
  • 23. Mobility Technologies Co., Ltd. 近年の active learning 手法の紹介 23 03
  • 24. Mobility Technologies Co., Ltd. 24 1. バッチでデータ追加すると似たデータが選ばれてしまう a. 従来手法は単一のデータを追加して学習することを前提としている b. 近年では学習に時間がかかるようになったため、バッチで追加する必要性がある 2. 多様性のある入力に対応できない a. 従来の手法はシンプルな入力を前提としている 3. モデルに強く依存したデータセットになる a. 途中でモデルが変わると精度が出ないという報告もある 従来の手法で言われる問題点
  • 25. Mobility Technologies Co., Ltd. 25 ● core-setというデータ集合を代表するデータを特 定する技術をALに適用 ● データ全体の多様性を捉えることを目指す ● 追加することでデータ全体と学習データの距離 が最小になるようなデータを追加 ● 全部計算するとNP困難なため貪欲法で計算 ● 学習データ集合からの距離が最大のデータ を見つけて追加しこれをN回繰り返す ● 距離計算にはネットワークの最終層から抽出し たembeddingを使用 Active Learning for Convolutional Neural Networks: A Core-Set Approach
  • 26. Mobility Technologies Co., Ltd. 26 ● 変分オートエンコーダ(VAE)と敵対的ネットワーク のみを用いてqueryを獲得する ○ タスクのモデルに依存しない ● データセット全体に存在しない学習データが偏り がない状態を目指す ● VAEはlabeled dataとunlabeled dataで分布が一 致するように学習 ● 敵対的ネットワークはlabeledかunlabeledかを分 類するように学習 ● unlabeledと判定されたデータにアノテーション Variational Adversarial Active Learning
  • 27. Mobility Technologies Co., Ltd. 27 ● Deep Bayesian Neural Networkを用いた元論 文をバッチに拡張した手法 ● モデルの予測結果とモデルのパラメータの 予測相互情報量が大きいqueryを選択 (BALD, 元論文より) ○ モデルのパラメータの事後分布の予測エ ントロピーが高いqueryを選択 ○ モデルの変化が大きいqueryを選択した い? ● このままだと似たデータばかりが選ばれるの で、バッチ単位でqueryを選択するように拡 張 ○ 直感的な説明だとバッチ単位だと重複し て計算されなくなるため解消される BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning MNIST
  • 28. Mobility Technologies Co., Ltd. まとめ 28 04
  • 29. Mobility Technologies Co., Ltd. 29 ● Active Learning の従来の手法と近年の手法について紹介 感想 ● ある程度シンプルなデータなら従来の手法でも十分に効果が出る ● core-setはリーズナブルな手法ながら、他の論文を見ても効果が高そう ● VAALは実装が公開されている上に、タスクのモデルに依存しないので使いやすそう ● entropy method(Uncertainty Sampling) -> VAAL -> core-set の順で試すのが良さそう まとめ
  • 30. Mobility Technologies Co., Ltd. 30 ● Active Learning Literature Survey, 2009, Burr Settles, Computer Sciences Technical Report 1648 ● Active Learning 入門, https://www.slideshare.net/shuyo/introduction-to-active-learning-25787487 ● Overview of Active Learning for Deep Learning, https://jacobgil.github.io/deeplearning/activelearning#active-learning-for-convolution al-neural-networks--a-core-set-approach ● Active Learning for Convolutional Neural Networks: A Core-Set Approach, 2018, Ozan Sener, ICLR ● Variational Adversarial Active Learning, 2019, Samarth Sinha, ICCV ● BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning, 2019, Andreas Kirsch, NeurIPS ● 能動学習:問題設定と最近の話題, 2021, 日野英逸, 日本統計学会誌 参考