SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our User Agreement and Privacy Policy.
SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our Privacy Policy and User Agreement for details.
Successfully reported this slideshow.
Activate your 14 day free trial to unlock unlimited reading.
13.
• 情報ゲインは次式で表される。
3-1. 理論編:決定木
ΔI = P Q( )I Q( )− P Ai( )I Ai( )
i
∑
• ある質問で得る情報量を情報ゲインと呼ぶ。
質問Q
答A1
QP Q( ):
I Q( ):
前のノードからノード にくる確率
Qノード におけるエントロピー(関数)
答A2
14.
3-1. 理論編:決定木
• のバリエーション
• ②Gini係数(系の不純度の指標)
• ①エントロピー(系の取りうる状態数の指標)
ΔI = P Q( )I Q( )− P Ai( )I Ai( )
i
∑
I A( )
I Q( )= 1− P A |Q( )( )
2
A
∑
高い:乱雑な状態
低い:整理整頓された状態
高い:純度が低い状態
低い:純度が高い状態
I Q( )= − P A |Q( )logP A |Q( )
A
∑
↑大きいと純度が高い(2回続けて同じ目がでるサイコロは純度が高い!)
P k | A( ):ノードAで選択肢kが選ばれる確率※
色んな目がごっちゃにでるサイコロ
ぬるい
冷 温
☝ ️
15.
3-1. 理論編:決定木
• どちらにせよ、エントロピー関数 が低
い値を示すと、情報ゲインが増えます
ΔI = P Q( )I Q( )− P Ai( )I Ai( )
i
∑
I A( )
情報ゲインを最大にする質問を、
各ノードで見つけていく
16.
3-1. 理論編:決定木
天気は何か
晴れ
休日、何して過ごす?
雨
お金は
あるか
気温が
15℃以下? YesNo
家でごろ寝
家でごろ寝散歩
今の
時刻は?
夜昼
家でごろ寝
No
ΔI = P Q( )I Q( )− P Ai( )I Ai( )
i
∑
情報ゲインを最大にする質問順に並べて木構造を作成する
25.
3-2. 理論編:ランダムフォレスト
・説明変数の重要度について
Ai :
N : 決定木の本数
i番目の決定木にOOBデータを使用し、正しく予想を行った時の正解率
Im =
1
N
Ai − Bm( )i( )i=1
N
∑
Bm( )i
:
OOBデータの説明変数mとなるデータをランダムに並び替え
決定木iに使用し、本来正しくないはずの予想を行った時の正解率
説明変数mの重要度Im :
Out-Of-Bag(OOB:学習に使われなかった残りのデータ)
を使って、説明変数の重要度を計算できる
26.
出典:holidayworkingさん http://www.slideshare.net/holidayworking/ss-11948523
3-2. 理論編:ランダムフォレスト
・Out-Of-Bagを用いた説明変数の重要度
Im =
1
N
Ai − Bm( )i( )i=1
N
∑
27.
3-2. 理論編:ランダムフォレスト
• 実行速度について(SVM vs RF) データの数
SVM ~ O Dm2
( )
RF ~ O D2
m( )×
D :
m :
RのkernlabとRF(独自実装)で速度比較(データはiris)
SVM10回平均 1.2237[s]
RF(木10本)10回 1.1922[s]
説明変数の数
変数の数に強いが
データの多さに弱い
データの多さに強い
変数の数に弱い
木の本数