SlideShare a Scribd company logo
不均衡データと
SMOTE法
SHUMA ISHIGAMI
株式会社インサイト・ファクトリー
SHUMA ISHIGAMI (INSIGHT FACTORY) 1
Contents
背景
SMOTE法
元論文での実験結果
その他のSMOTE法(カテゴリ変数がある場合)
Rでの実行例(DMwRパッケージ)
SHUMA ISHIGAMI (INSIGHT FACTORY) 2
不均衡データ
クラス間に大幅な偏りのあるデータを不均衡データという
これをそのまま使うと問題がある
E.g. クラスA = 99%, クラスB = 1% のデータに関して、すべての
データをクラスAに所属すると分類すれば、正答率は99%
SHUMA ISHIGAMI (INSIGHT FACTORY) 3
不均衡データへの対策
(1) 誤識別へのコスト/ペナルティの追加
(2) リサンプリング
Under-sampling: 多数派クラスを減らす
Over-sampling: 少数派クラスを増やす
Over-samplingの問題点
同じ少数クラスサンプルが複数回選ばれるので、
過学習を起こしてしまう。
SHUMA ISHIGAMI (INSIGHT FACTORY) 4
SMOTE法
Over-samplingとunder-samplingの組み合わせ
単にOver-sampling with replacementするのではなく、少数クラ
スを合成することで過学習を防ぐ
端的に言えば、 Over-sampling with replacementするときに、ノ
イズを加えることと同じ。SMOTEはそのノイズの大きさと向き
を決める方法。
SHUMA ISHIGAMI (INSIGHT FACTORY) 5
SMOTEのアルゴリズム
1. ある少数派サンプルAについて、少数派サンプルの中からk
近傍を探す
2. サンプルAとその少数派近傍サンプルの特徴量の差をとる
3. とった差に0~1までの乱数をかけ、サンプルAに加える
4. 元のサンプルAとAの近傍の間に位置する新しいサンプルが
SMOTEサンプルとなる
SHUMA ISHIGAMI (INSIGHT FACTORY) 6
SMOTE(cont.)
つまり、二つの少数派クラスの間に引かれた直線上にランダ
ムに点をとるのと同じ
SMOTE法の簡単な解釈は、リサンプリング時にノイズを加える
こと。
そのノイズの向きと大きさは、
近傍の少数派サンプルの向き に
近傍との距離より小さい分 だけ
SHUMA ISHIGAMI (INSIGHT FACTORY) 7
例:不均衡データ
SHUMA ISHIGAMI (INSIGHT FACTORY) 8
= 14 サンプル
= 4 サンプル
少数派クラスの2近傍を探す
SHUMA ISHIGAMI (INSIGHT FACTORY) 9
線上にランダムにサンプルを生成する
SHUMA ISHIGAMI (INSIGHT FACTORY) 10
SMOTE サンプル
多数派をUnder-samplingする
SHUMA ISHIGAMI (INSIGHT FACTORY) 11
SMOTE サンプル
SMOTE + Under-sampling
SHUMA ISHIGAMI (INSIGHT FACTORY) 12
= 9 サンプル
= 9 サンプル
元論文での実験結果
9つの異なる不均衡データセットを用意
SMOTE法 + 決定木、SMOTE法 + RIPPER、
誤識別コスト付きナイーブベイズ、Loss-Ration + RIPPER
をROCを指標として比較
ほとんどの場合、SMOTE法を使用したものは、ほかの方法より
もAUCが大きかった
SHUMA ISHIGAMI (INSIGHT FACTORY) 13
その他のSMOTE法
SMOTE-Nominal Continuous
◦ 変数が連続量と名目(順序のないカテゴリ)変数の場合
◦ アルゴリズム
1. 少数派クラスの全ての連続変数について標準偏差を計算し、
その中の中央値を計算する。
2. あるデータと近傍データの距離を計算するときに、
名目変数が異なる場合、このmedianを距離計算に加える
3. 合成データの名目変数は、近傍データとの多数決で決める
SHUMA ISHIGAMI (INSIGHT FACTORY) 14
SMOTE-NCの例(from元論文)
例. F1 = {1,2,3,A,B,C}, F2 = {4,6,5,A,D,E}
この場合、4番目の名目変数はAで同じ、5,6番目は異なる.
距離は
D(F1, F2) = (4-1)^2 + (6-2)^2 + (5-3)^2 + 0^2 + MED^2 + MED^2
ここで MEDは3つの連続変数のsdの中央値
SHUMA ISHIGAMI (INSIGHT FACTORY) 15
その他のSMOTE法(cont.)
SMOTE-Nominal
◦ 変数が名目変数のみの場合
◦ Value Difference Metricという方法で、サンプル間距離を測る
◦ これのアルゴリズムもいつも通り
1. VDMで距離を測定
2. K近傍サンプルを見つける
3. 生成データの名目変数は、近傍データによる多数決
SHUMA ISHIGAMI (INSIGHT FACTORY) 16
RでのSMOTE法
パッケージ”DMwR”を利用
DMwR::SMOTE(form, data, perc.over, k, perc.under)
Args
◦ form : kNNの推定式。目的カテゴリ変数 ~ 説明変数。
◦ data : SMOTE前の元データ
◦ perc.over : over-samplingする数のコントロール。オリジナルのマイノリティサ
ンプルそれぞれに対して、perc.over/100個の新しいマイノリティサンプルが
合成される。
◦ k : kNNの時のk。近傍数。
◦ perc.under : under-samplingする数のコントロール。(perc.under/100)*(# of New
SMOTE sample) がマジョリティクラスの最終サンプル数となる。
SHUMA ISHIGAMI (INSIGHT FACTORY) 17
DMwRパッケージの実行例
SHUMA ISHIGAMI (INSIGHT FACTORY) 18
DMwR::SMOTE
 説明変数はnumeric/integer, factorどれでも対応
 目的変数はfactorでないといけない。Numeric/integer
形式のダミー変数でもだめ。
 kNNを回しているので、多少時間はかかる
SHUMA ISHIGAMI (INSIGHT FACTORY) 19
気になること&感想
どのくらい・どのようにバランスをとればいいの?
不均衡データの本質的な問題はマイノリティの小サンプル ?
それともクラス比率 ?
 これのパラメタはどう決めるのだろう? CVするのかな?
SMOTE合成サンプルは、原理上サポートベクトルよりも向こ
うには生成されないから、SVMには意味がなさそう。むしろ、
マジョリティクラスのサポートベクトルが落とされそう。
 少数派クラスの領域が飛び地のごとく存在している(線形識別
できない)場合、SMOTEの合成サンプルが”少数派クラスっぽ
い”といえる根拠はどこにあるのだろうか? 仮定が強い。
SHUMA ISHIGAMI (INSIGHT FACTORY) 20
参考
オリジナル論文
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002).
SMOTE: synthetic minority over-sampling technique. Journal of artificial
intelligence research, 16, 321-357.(https://www.jair.org/media/953/live-
953-2037-jair.pdf)
DMwRパッケージ
(https://cran.r-project.org/web/packages/DMwR/DMwR.pdf)
SHUMA ISHIGAMI (INSIGHT FACTORY) 21

More Related Content

What's hot

勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
 
生存時間分析数理の基礎
生存時間分析数理の基礎生存時間分析数理の基礎
生存時間分析数理の基礎
Koichiro Gibo
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング
大貴 末廣
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnetNagi Teramo
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
 
EEG analysis (nonlinear)
EEG analysis (nonlinear)EEG analysis (nonlinear)
EEG analysis (nonlinear)
Kenyu Uehara
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
Imputation of Missing Values using Random Forest
Imputation of Missing Values using  Random ForestImputation of Missing Values using  Random Forest
Imputation of Missing Values using Random Forest
Satoshi Kato
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
Koichiro Gibo
 
CatBoost on GPU のひみつ
CatBoost on GPU のひみつCatBoost on GPU のひみつ
CatBoost on GPU のひみつ
Takuji Tahara
 
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Takashi J OZAKI
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心takehikoihayashi
 
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
Toshihiko Yamasaki
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
Shiga University, RIKEN
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
Tomonari Masada
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
 

What's hot (20)

勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
生存時間分析数理の基礎
生存時間分析数理の基礎生存時間分析数理の基礎
生存時間分析数理の基礎
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
EEG analysis (nonlinear)
EEG analysis (nonlinear)EEG analysis (nonlinear)
EEG analysis (nonlinear)
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
Imputation of Missing Values using Random Forest
Imputation of Missing Values using  Random ForestImputation of Missing Values using  Random Forest
Imputation of Missing Values using Random Forest
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
 
CatBoost on GPU のひみつ
CatBoost on GPU のひみつCatBoost on GPU のひみつ
CatBoost on GPU のひみつ
 
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
プレゼン・ポスターで自分の研究を「伝える」 (How to do technical oral/poster presentation)
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 

SMOTE resampling method slides 02-19-2018