2/14/2017 第18回 #カステラ本 1
統計的学習の基礎読書会
第10章「ブースティングと加法的木」
後半(pp.409-439)
@tanimocchi
2/14/2017 第18回 #カステラ本 2
自己紹介
 Twitter ID: @tanimocchi
(もっちぃ)
 修士(数学)、博士(情報科学)
 所属: Rの付く半導体
 仕事: 車載Security(産業も)
 セキュリティ・プロトコル/サーバ・ソフト/DBスキーマ、及び車載マイ
コンでのセキュア・リプログラミング対応の仕様設計・開発管理
 機械学習・深層学習・状態空間モデル結果の端末実行向け最適化
コンパイラと計算機アーキテクチャの仕様設計・開発管理にも従事
 立場は違えど、統計解析と機械学習は必要! だと信じてる。
 統数研公開講座に時折参加していますので、ご一緒の際は宜しくお願いします。
2/14/2017 第18回 #カステラ本 3
2/14/2017 第18回 #カステラ本 4
2/14/2017 第18回 #カステラ本 5
10.10 勾配ブースティングによる
数値最適化
目的
勾配ブースティング木(GBDT)アルゴリズムの
紹介。
2/14/2017 第18回 #カステラ本 6
勾配ブースティングでの最適化対象
 木の次の領域と定数の(数値)最適化
 アルゴリズム10.2及び,(10.25),(10.28),(10.29)式から
    
    
     
     
     
 
 
 

















 

k
k
k
m
mm
m
m mm
l
ll
l
l ll
m
ji
ji
ji
J
jjm
J
j jijmi
J
jjl
J
j jijli
m
l lim
N
i miimim
Rx
Rx
RxI
RRxIxT
RRxIxT
xTxf
xfxyxfyL
xTxfyL
0
1
,,;
,,;
:;
:,:,:,:,
;,minargˆ
11
11
1
11
1 1
ここで、
 
 
現在のモデル基底関数の和
予測説明変数目的変数損失関数


(10.29)
   mm
mji
m
mj
m jj
Rx
jimij RxfyL 

での最適定数各領域:,minarg 1
  (10.30)
2/14/2017 第18回 #カステラ本 7
数値最適化問題の解き方の枠組み
 f(x)の構造を無視した汎関数最小化問題
 学習データ上のyの予測にf(x)を用いる事による損失L(f)をfに関して最小化
 f(x)の構造を無視した数値最適化問題
 数値最適化の手順
 数値最適化問題を要素ベクトルの和の順次更新を実施する事で解く
 f0=h0を初期値として、fmを増分hmとfm-1を用いた以前の更新の和に基づき導出
 増分ベクトルhmの計算法は多数提案されている
    

N
i ii xfyLfL 1
,
 
      T
N
N
xfxfxftsR
L
,,,..
minargˆ
21 

ff
ff
f
N
M
M
m MM R  
hhf 0
, 
2/14/2017 第18回 #カステラ本 8
10.10.1 最急降下法
 増分の選択など
 増分:hm=-ρmgm,
 ρm:スカラー量(ステップ長)で、以下の解。
 gm∈R^N:f=fm-1で評価されたL(f)の勾配。勾配gmの要素は下記。
 現在の解は下記のように更新され、これがL(f)が極小となるまで繰返される
 特徴
 -gmはL(f)がf=fm-1において最速で減少するR^Nの局所的な方向
 従って、非常に貪欲な戦略
  
     
 mmm
xfxfi
ii
i
L
xf
xfxL
g
imi
m
gf 












 
1minarg
,
1
mmm gff  1
(10.35)
(10.36)
2/14/2017 第18回 #カステラ本 9
10.10.2 勾配ブースティング [1/2]
 前向き段階的ブースティング(Algorithm10.2)との類似性
 段階的解法の各ステップで解となる木は、式(10.29)を最大限減少させる木
 従って、木の予測T(xi,Θm)は、負の勾配gi,m(10.35)に概念的に対応
 段階的解法(10.30)の解は、最急降下法での直線探索(10.36)と類似
 最急降下法では何故ダメか?
 最急降下法では、木の要素への決定木としての制約を無視しているため、負
の勾配は制約を受けない最大降下方向であり正しい最小解に到達し難い。
 勾配(10.35)は訓練データxiでのみ定義されており、fM(x)を訓練データに現れ
ていない新たなデータに汎化させる事が困難。
 対処策
 m回目の繰返しにおいて予測tmが出来る限り勾配に近づくような木T(x,Θm)
を導出する事で対処
 例えば、この近さの基準として二乗誤差を用いると最小二乗ブースティング。
  


N
i miim xTg m
m
1
2
;minargˆ
2/14/2017 第18回 #カステラ本 10
10.10.2 勾配ブースティング [2/E]
2/14/2017 第18回 #カステラ本 11
10.10.3 勾配ブースティングの実装
 回帰問題の場合
終端点を一つだけ持つ木で初期化
mは弱学習器の添え字
• 損失関数を前回(m-1)までのアンサン
ブル学習器の予測で偏微分
• ɤimは予測ではなく、サンプルデータxi
に関する疑似的な残差
添え字mに対応する弱学習器
m-1までのアンサンブル学習器に上で求めた弱学習器を追加
追加する弱学習器が損失関数を
最も下げる様、 ɤimを正解データ
として弱学習器を近似し、弱学習
器のパラメータΘmのRjmを算出
弱学習器のパラメー
タΘmのɤjmを算出
2/14/2017 第18回 #カステラ本 12
10.10.3 勾配ブースティングの実装
 分類問題の場合
分類なしで初期化
事前のKクラス分類
• 損失関数を前回(m-1)までのアンサン
ブル学習器の予測で偏微分
• ɤimは予測ではなく、サンプルデータxi
に関する疑似的な残差
追加する弱学習器が損失関
数を最も下げる様、 ɤimを正
解データとして弱学習器を
近似し、弱学習器のパラメー
タΘmのRjmを算出
弱学習器のパラメー
タΘmのɤjmを算出
添え字mに対応する弱学習器
m-1までのアンサンブル学習器に上で求めた弱学習
器を追加
2/14/2017 第18回 #カステラ本 13
10.11 ブースティングのための
木の適切な大きさ
目的
木の大きさJは、2では不十分だが、理論的にも
経験的にも大きすぎるのは好ましくなく、4≦J≦8
位でうまく行く事の紹介。
2/14/2017 第18回 #カステラ本 14
メタパラメータJの考察
 一般的な木の構築での課題
 木の構築では、各木の最適な大きさを一般的に方法で独立に推定
 各木で非常に大きな木を導出し、これをボトムアップ的な手法で、最適な終端
頂点数になるまで刈り込み  各木が展開(10.28)の最後に得られる
⇒ 初期の繰返しで、各木が大きくなり過ぎ、性能が低下し、計算量も増加
 単純な回避策
 全ての木を Jm=J(∀m) のように同じ大きさに制限  Jを調整
 実用的なJの導出に向けた考察
 目的関数η(X)の性質を考察
 η(X)のANOVA展開(分散分析)は下記であり、木の大きさJに対して意味が
ある相互作用はJ-1までとなる。
 経験的には、J>10が必要になる事はほぼなく、4≦J<8でうまく行く
      p
f
XXXXXfYLX ,,,,,minarg 21  

          lkj lkjlkjkj kjkjj jj XXXXXXX ,, ,,, , ,,, 
主効果 2次相互作用 3次相互作用
2/14/2017 第18回 #カステラ本 15
試行例(10.2)でのメタパラメータJ
• 生成したモデルが加法的
であるため、切り株(データ
を二分割する決定木)が最
も高い性能を示している。
• ここで、ブースティングアル
ゴリズムとしては、
Algorithm10.3で二項逸
脱度損失を利用。
 






  
その他の場合1
5.01
10
1
2
10
2
j jX
Y

2/14/2017 第18回 #カステラ本 16
一決定木ブースティングでの推定
 






  
その他の場合1
5.01
10
1
2
10
2
j jX
Y

2/14/2017 第18回 #カステラ本 17
10.12 正則化
目的
勾配ブースティングでの過学習回避による精度
向上やノイズに対するロバスト性向上を目的に、
縮小法と部分標本化をそれぞれ紹介。
2/14/2017 第18回 #カステラ本 18
ブースティング繰返し回数Mの考察
 最適なM*
 多くの場合、繰返しの各ステップは訓練リスクL(fM)を減少
 結果として、十分大きなMに対してこのリスクはいくらでも減少可能
⇒ 訓練データに合せ過ぎると過学習が生じ、未知データの予測精度が低下
⇒ 従って、未知のリスクを最小化するための最適なM*が存在
 M*の推定
 Mの関数として確認用標本に対する予測リスクを考察
 このリスクを最小化するMの値をM*の推定値と考える
⇒ Neural Netの早期打ち切り戦略と類似
2/14/2017 第18回 #カステラ本 19
10.12.1 縮小法
• ブースティング手順の学習率を制御
• νの値が小の場合、同じ繰返し回数Mに対して訓練リスクは増大
• 従って、νとMは両方とも、訓練データ上の予測リスクを制御
• もちろん、νとMの間にはトレードオフが存在
(縮小法)
2/14/2017 第18回 #カステラ本 20
 






  
その他の場合1
5.01
10
1
2
10
2
j jX
Y

• 切り株(データを2分割する決定
木)と6つの終端頂点を持つ木
を、縮小の有無を組合せ訓練。
 左側:テスト集合逸脱度
 右側:誤分類率
⇒ 縮小の利点は明らか。
特に逸脱度で顕著。
• ここで、勾配ブースティングアル
ゴリズムとしては、
Algorithm10.3で二項逸脱度
損失を利用。
2/14/2017 第18回 #カステラ本 21
10.12.2 部分標本化
     
     
   1
,
,_ 11












mffi
ii
mi
NN
xf
xfyL
ripermrandi



   
 
jmijm Rx
jmimijm xfyL  

1,minarg
確率的勾配ブースティング
• 標本化(非復元抽出)
• 一般にはNに対して1/2程度
⇒ 計算時間の短縮のみならず、多くの場合
より正確なモデル構築が可能
2/14/2017 第18回 #カステラ本 22
• 部分標本化の効果を分類と回帰で試行例(10.2)に対
して示す。
• 縮小の用いた部分標本化の性能が何れでも少し改善
• 縮小なしの部分標本化の性能は良くない
 






  
その他の場合1
5.01
10
1
2
10
2
j jX
Y

2/14/2017 第18回 #カステラ本 23
10.13 説明性
目的
応答への予測変数の相対的重要度または貢献
度と、重要度の高い予測変数の部分集合を用い
た高次元データの可視化の一種である部分依存
図を紹介。
2/14/2017 第18回 #カステラ本 24
10.13.1 予測変数の相対的重要性
 導入
 多くの場合、ほんの一部の変数のみが応答に決定的な影響を与える
 多くの場合、応答の予測では、各入力変数の相対的重要度もしくは貢献度を
学習するのが有効
 2乗関連度:単独の決定木Tの場合
 予測変数Xlに対する関連の度合い
 加法的展開木(10.28)への一般化
 (恐らく)以下、全ての木を Jm=J(∀m) のように同じ大きさに制限して議論
 平均をとる事による安定化効果により、この尺度は単独の木に対する式(10.42)より
信頼性が高い
 また、縮小法により高い相関を持つ重要変数の別変数による隠蔽(多重共線性的
な?)の問題もかなり少ない
 これらの尺度は相対的なため、慣例的に最大値に100を割付、他をスケーリング
    
最大となる予測乗誤差リスクで改善がはめのための全領域上での定数当て
の内部頂点に対する和
2:ˆ
1:Iˆ
2
1
1
22
t
J
t tl
i
JltviΤΙ  


  

M
m mll ΤΙ
M
Ι 1
22 1
2/14/2017 第18回 #カステラ本 25
2/14/2017 第18回 #カステラ本 26
10.13.1 予測変数の相対的重要性
 2乗関連度:Kクラス分類の場合
 K分割モデルfk(x)(k=1,2,…,K)が導出され、それぞれの木の和を構成
 これを加法的性質を用いて一般化
 Xlの全体の関連度は全クラスに対して平均化する事で得られる
    

M
m kmk xTxf 1
 
の関連度ら分類する場合のの観測を他のクラスかクラス llk
M
m kmllk
XkΙ
ΤΙ
M
Ι
:
1
1
22
 

 

K
k lkl Ι
K
Ι 1
22 1
2/14/2017 第18回 #カステラ本 27
2/14/2017 第18回 #カステラ本 28
2/14/2017 第18回 #カステラ本 29
10.13.2 部分依存図 [1/3]
 部分依存関数:決定木の場合
 X^T=(X1,X2,…,Xp):入力予測変数
 XS:l<pなる S⊂{1,2,…,p} をIndexとするXの部分ベクトル
 C:XSのIndexの補集合であり、S∪C= {1,2,…,p}を満たす
 このとき、f(X)=f(XS,XC)
 平均もしくはf(X)のXSへの部分的な依存性の定義
 fのXCでの周辺化による平均
 f(X)上のXCの影響(平均)を計算したのちのf(X)上のXSの影響を示す
 XSがXCと強い相互作用を持たないとき、f(X)上で選択した部分集合の効果を記述
するのに有効
 部分依存関数(推定):
 決定木を用いると、上記式はデータ参照なく木自体から高速に算出可能
   CSXSS XXfEXf C
,
   
  の値訓練データに現れる CNCCC
N
i iCSSS
Xxxx
xXf
N
Xf
:,,
,
1
21
1



   
    

 



N
i Sj XiCjSS
Sj XiCjiCS
j
j
RxI
N
Xf
RxIxXf
1
1
,

  より
(10.47)
(10.48)
2/14/2017 第18回 #カステラ本 30
10.13.2 部分依存図 [2/3]
 変数部分集合の条件付き期待値は部分依存関数としては不
適切である事
 部分依存関数は、「f(X)上のXCの影響(平均)を計算したのちのf(X)上のXS
の影響を示すもの」であって、「f(X)上のXCの影響を無視したXSの影響を示
すものではない」事を以下に示す。
 XS単体の影響は条件付き期待値:
 XS単体の関数によるf(X)に対する最小二乗近似(??)
 (10.49)[の標本平均での推定]と(10.48) は、XSとXCが独立である場合にのみ等しい
 選択された変数の部分集合の効果が完全に加法的な場合
 f(X)=h1(XS)+h2(XC) より
 fS(XS)=h1(XS) [可視化しやすい]
 選択された変数の部分集合の効果が完全に乗法的な場合
 f(X)=h1(XS)・h2(XC) より
 ∃K:定数 s.t. fS(XS)=K・h1(XS) [可視化しやすい]
 一方(10.49)は、上記何れの場合においても、 h1(XS)とはならない
 f(X)が全く依存性を持たない変数集合でも、式(10.49)は強い影響を示す
    SCSSS XXXfEXf ,
~
 (10.49)
2/14/2017 第18回 #カステラ本 31
10.13.2 部分依存図 [3/E]
 部分依存関数:Kクラス分類の場合
 各クラスに一つずつ合計K個のモデルが存在
 各モデルとそれぞれの確率 の関係は下記
 従って、fk(X)はそれぞれの確率に対数を適用した単調増加関数
 最も関連性が高い予測変数 に対する各fk(X)の部分依存図を
見ると、各クラスの対数オッズがどのように各入力変数の依存しているかを
理解しやすい。
    KkxTxf
M
m kmk ,,2,1,1
  
 

K
k lkl Ι
K
Ι 1
22 1
 
 
 
 
 K
t
xf
xf
k
t
k
e
e
xp
1
     

K
l lkk Xp
K
XpXf 1
log
1
log
2/14/2017 第18回 #カステラ本 32
10.14 具体例
目的
種々の大規模データに対して、様々な損失関数
を適切に用いた勾配ブースティングの実例提示
2/14/2017 第18回 #カステラ本 33
10.14.1 カリフォルニアの住宅
 データ諸元:カリフォルニアの20,460戸から集めたデータ
 勾配ブースティングモデルの当てはめ
 終端頂点:J=6, 学習率:ν=0.1, フーバー損失規準で数値的応答予測
 データ集合を無作為に訓練集合(80%)とテストデータ(20%)に分割
 訓練データとテストデータに対する平均絶対値誤差:
 繰返し回数Mの関数として定義
変数名 変数の意味
応答変数(数値型) Y 各地区の家賃価格(10万$単位)
予測変数(数値型) Population 人口
AveBedrms 平均寝室数
AveRooms 平均部屋数
HouseAge 築年数の中央値
Latitude 緯度
AveOccup 各住居の平均居住率
Longitude 経度
MedInc 収入の中央値
 xfyEAAE M
ˆ
2/14/2017 第18回 #カステラ本 34
• 800回の繰返しでAAE値は0.31。最適な定数予測変数の中央値{yi}0.89と比較可能。
• このモデルの決定係数は0.84
• logYを用いた既存の最小決定係数0.85に対して、勾配ブースティングでは0.86を実現。
2/14/2017 第18回 #カステラ本 35
• 各地区の家賃価格に対し、近隣世帯の収入の中央値が最も関連が強い予測変数。
• 経度、緯度、平均住居率がそれに続くが、いずれも収入のほぼ半分の関連度
• 他の変数はさらにその半分
2/14/2017 第18回 #カステラ本 36
• 地理的要素を含まない予測変数の中で最も関連度が高いものに対する、一変数の部分依存図
• 決定木は、不連続な断片的定数モデルを木の和の繰返しの中で多く生成するため、任意の鋭い
不連続性をモデル化可能。曲線が滑らかな傾向を示すのは、当てはまりが良かったから。
• 各グラフの下の赤い線は、各変数のデータ分布の十分位。データ密度が両端周辺で低くなって
いるのは、その領域では曲線をうまく決定できなかったから
• 収入の中央値に対する家屋価格の中央値の部分依存性は単調増加など傾向が可視化出来る
• 家屋価格の中央値は、築年数に対して非常に弱い部分依存性を持つと思われるが、これは重要
度順位(図10.14)と矛盾する。これは、築年数の弱い主効果が他の変数とのより強い相互効果
を隠蔽している可能性を示唆する。
2/14/2017 第18回 #カステラ本 37
• 平均住居率が2より大きい場合、家屋価値は築年数に対してほぼ独立であるのに対
し、2以下の場合には、築年数と強い依存関係がある。
2/14/2017 第18回 #カステラ本 38
• カリフォルニアにおける地理的条件(緯度・経度)に対する家屋価値の中央値の部分依存性
• カリフォルニアでは、家屋価値の中央値は明らかに地理的条件に非常に強い依存性を持つ
• 尚、本図は他の部分依存図と同様に、築や住居に関する他の全ての属性を考慮した後の、地理
的条件の効果を占めしている。
• 従って、地理的条件に対して人が払う付加価値を表していると見る事が出来る。この付加価値は
、特にベイエリアとロサンゼルス地区からサンディエゴ地区など太平洋岸付近で比較的大きい。
北部の中央渓谷や、南部の砂漠地帯においては、地理的条件にかかわるコストは非常に低い。
2/14/2017 第18回 #カステラ本 39
10.14.2 ニュージーランドの魚 [1/2]
 データ諸元:2,553箇所のクロマトウダイ地引網からのデータ
変数名 変数の意味
応答変数 Y (非負の)漁獲高[漁獲確率]
予測変数 TempResid 水温
AvgDepth 漁網の平均深度
SusPartMatter 海水内の浮遊粒子状物質の指標(人工衛星で計測)
SalResid 塩分濃度
SSTGrad 海表面の温度勾配の指標
ChlaCase2 生態系の産出系の指標(人工衛星で計測)
…… ……
2/14/2017 第18回 #カステラ本 40
• ニュージーランドを取り巻く排他的経済水域の地図
• 1979~2005年に取得された17,000箇所の底引き網を示している。赤い点はクロマトウダイが
存在した漁場(2,553箇所)を表す。
2/14/2017 第18回 #カステラ本 41
10.14.2 ニュージーランドの魚 [2/E]
 クロマトウダイの漁獲確率や漁獲高の推定
 前処理
 水温と塩分濃度は深度と相関が強いため、深度からその2つの計測値を(それぞれ別のノンパ
ラメトリック回帰を用いて)算出したときの残差を代替利用
 モデル式:E(Y|X)=E(Y|Y>0,X)・Pr(Y>0|X), Y:非負の漁獲高
 第2項目をロジスティクス回帰、第1項目は漁獲があった2,353回の漁のみを用いて推定
 GBMロジスティクス回帰:Pr(Y>0|X)
 終端頂点:J=10, 学習率:ν=0.025, 二項逸脱度損失関数でGBM
 項数および縮小率の決定のために、10分割の交差確認実施
 正の漁獲高の回帰:log(Y)をモデリングし、予測のときに対数除去
 終端頂点:J=10, 学習率:ν=0.01, 二乗誤差損失関数でGBM
 項数および縮小率の決定のために、10分割の交差確認実施
2/14/2017 第18回 #カステラ本 42
• 左図は、存在/不在データに当てはめたGMBロジスティクス回帰モデルの系列に対する10分割
交差確認結果(誤差標準偏差を表すエラーバー)とテストデータの平均二項逸脱度を示している
。各項8自由度を持つ平滑化スプラインを用いて当てはめた一般化加法的モデル(GAM)よりも、
性能が少し改善されている。
• 右図は、選ばれたGBMとGAMのテストデータに対するROC曲線を示している。性能はよく似て
いるが、AUC(曲線下面積)が示しているように、GBMが少し優れている事がわかる。感度と特
異度が等しい点では、GBMは91%、一般化加法的モデルは90%となっている。
2/14/2017 第18回 #カステラ本 43
• 左上図は、GMBロジスティクス回帰モデルの存在/不在データへの当てはめにおける各変数の
貢献度を示している。この図から、クロマトウダイが捕獲される深さの範囲は明確であり、冷水領
域でかなり高い頻度で捕獲される事がわかる。
• 他の図は、最も影響度が高かった5つの変数の部分依存図を同じスケールで示している。
2/14/2017 第18回 #カステラ本 44
• 一般的な漁獲条件に標準化された存在と漁獲高に対する予測地図を示している。このように標
準化しているのは、予測変数や予測値が地理的な条件により連続に変化するためである。
• GBMは、相互作用のモデル化と変数の自動選択が可能であり、また外れ値や欠損データに対
するロバスト性があるので、一般的な手法として利用されている。
2/14/2017 第18回 #カステラ本 45
10.14.3 個人属性情報データ [1/2]
 データ諸元:ショッピングモール顧客の9,243のアンケート結果
変数 変数の意味
応答変数 Student 学生
Retired 退職者
Prof/Man 専門職/管理職
Homemaker 主婦
Labor 労働者
Clerical 聖職者
Military 軍人
Unemployed 無職
Sales 営業職
変数 変数の意味
予測変数 yrs-BA ??
children 子供
num-hsld ??
lang 言語
type-home ??
mar-stat ??
ethnic 民族
sex 性別
mar-dlinc ??
hsld-stat ??
edu 教育
income 収入
age 年齢
2/14/2017 第18回 #カステラ本 46
10.14.3 個人属性情報データ [2/E]
 多重加法的回帰木(MART)を用いた勾配ブースティング
 終端頂点:J=6, 学習率:ν=0.1, MARTで数値的応答予測
 データ集合を無作為に訓練集合(80%)とテストデータ(20%)に分割
 この例の目的は、職業以外の13変数を予測変数として職業を予測し、さらに、
職業の違いもたらしている変数を特定する事。
2/14/2017 第18回 #カステラ本 47
• K=9の各職業クラスに対する誤差率を示している。全体誤差率は42.5%である。
• 最も多い専門職/管理職(Prof/Man)のみを予測した場合は69%である。
• 最も良く予測出来た4クラスは、学生(Student)、退職者(Retired)、専門職/管理職
(Prof/Man)、主婦(Homemaker)である。
2/14/2017 第18回 #カステラ本 48
2/14/2017 第18回 #カステラ本 49
• 最も良く予測出来た4クラスについて、各変数の相対的重要度分布
• 一般に、最も関連性が高い予測変数はクラス毎に異なる事がわかる。
• 例外は年齢(age)であり、退職者(Retired)、学生(Student)、専門職/管理職(Prof/Man)、
の予測において、関連度が高い変数の3番目までに含まれている。
2/14/2017 第18回 #カステラ本 50
• 退職者(Retired)、学生(Student)、専門職/管理職(Prof/Man)、の3クラスについて年齢
(age)の対数オッズ(log-odds)の部分依存性を示している。
• 他の変数の貢献度を考慮に入れると、退職者(Retired)のオッズは高齢者において高く、学生
(Student)では逆である事がわかる。専門職/管理職(Prof/Man)では、中年層に対してオッズ
が高くなる事がわかる。
     

K
l lkk Xp
K
XpXf 1
log
1
log
2/14/2017 第18回 #カステラ本 51
本章の参考文献
2/14/2017 第18回 #カステラ本 52
 Schapire(1990)
 PAC(Probably Approximately Correct)学習の枠組みで単純なブースティン
グ手順を初めて構築
 2つの追加的な分類器を、入力データをフィルタリングしたデータを用いて訓
練する事で、弱学習器の性能を常に改善できる事を示した。
 Freund(1995)
 多くの学習器を一つに結合し、Schapire(1990)の単純なブースティングアルゴ
リズムの性能を改善する「多数決によるブースティング」という変種を提案
 これら両方のアルゴリズムを支える定理では、一定の誤差率の分類器を生み
出す弱学習器が必要であった。
 Freund and Schapire(1996a)
 上記仮定を必要としない、より適応的で現実的なアダブーストを提案
 Freund and Schapire(1996a), Schapier and Singer(1999)
 汎化誤差の上限という形で、彼らのアルゴリズムを支える理論を与えた
 Freund and Schapore(1996b):Breiman(1999):Breiman(1998)
 ゲーム理論によるブースティングの説明
2/14/2017 第18回 #カステラ本 53
 Schapire et al.(1998)
 VC理論によるブースティングの説明
 Shapire(2002), Meir and Ratsch(2003)
 ブースティングは上限が指し示すものよりもっと優れた性能を達成しており、
本書の初版よりも後に出版された有用な解説論文
 Friedman et al.(2000)
 本書の解説の基本を成している。
 アダブーストを統計的に解析し、指数規準を抽出し、さらにそれがクラス確率
の対数オッズを推定していることを示した。また、加法的木モデル、および、
ちょうど良い大きさの木と10.11節のANOVA表現と多クラスロジット定式化を
提案した。
 Freidman(2001)
 本書の解説の基本を成している。
 勾配ブースティングと分類および回帰のための縮小法を提案
 Freidman(1999)
 ブースティングの確率的な変種を調べた。
2/14/2017 第18回 #カステラ本 54
 Mason et al.(2000)
 ブースティングに勾配法を取り込んだ。
 ここで、Freidman(1999)の一般公開されているレポートにあるよう
に、なぜ、またどのようにブースティングが動作するのかに関しては、
議論の余地がある。
 Jiang(2004):Logosi and Vayatis(2004):Zhang and Yu(2005):
Bartlet and Traskin(2007)
 ブースティングの一致性に関する一連の論文
 Mease and Wyner(2008)
 本書のブースティングの解釈に対して、一連の試行を通して疑問を呈した。
 Freidman et al.(2008a)
 上記疑問への回答を実施し、そうした意義は解消された。
 Buhlmann and Horhorn(2007)
 本書のブースティングのアプローチを支持する解説論文
2/14/2017 第18回 #カステラ本 55
Thanks a lot!

第10章後半「ブースティングと加法的木」

  • 1.
    2/14/2017 第18回 #カステラ本1 統計的学習の基礎読書会 第10章「ブースティングと加法的木」 後半(pp.409-439) @tanimocchi
  • 2.
    2/14/2017 第18回 #カステラ本2 自己紹介  Twitter ID: @tanimocchi (もっちぃ)  修士(数学)、博士(情報科学)  所属: Rの付く半導体  仕事: 車載Security(産業も)  セキュリティ・プロトコル/サーバ・ソフト/DBスキーマ、及び車載マイ コンでのセキュア・リプログラミング対応の仕様設計・開発管理  機械学習・深層学習・状態空間モデル結果の端末実行向け最適化 コンパイラと計算機アーキテクチャの仕様設計・開発管理にも従事  立場は違えど、統計解析と機械学習は必要! だと信じてる。  統数研公開講座に時折参加していますので、ご一緒の際は宜しくお願いします。
  • 3.
  • 4.
  • 5.
    2/14/2017 第18回 #カステラ本5 10.10 勾配ブースティングによる 数値最適化 目的 勾配ブースティング木(GBDT)アルゴリズムの 紹介。
  • 6.
    2/14/2017 第18回 #カステラ本6 勾配ブースティングでの最適化対象  木の次の領域と定数の(数値)最適化  アルゴリズム10.2及び,(10.25),(10.28),(10.29)式から                                                       k k k m mm m m mm l ll l l ll m ji ji ji J jjm J j jijmi J jjl J j jijli m l lim N i miimim Rx Rx RxI RRxIxT RRxIxT xTxf xfxyxfyL xTxfyL 0 1 ,,; ,,; :; :,:,:,:, ;,minargˆ 11 11 1 11 1 1 ここで、     現在のモデル基底関数の和 予測説明変数目的変数損失関数   (10.29)    mm mji m mj m jj Rx jimij RxfyL   での最適定数各領域:,minarg 1   (10.30)
  • 7.
    2/14/2017 第18回 #カステラ本7 数値最適化問題の解き方の枠組み  f(x)の構造を無視した汎関数最小化問題  学習データ上のyの予測にf(x)を用いる事による損失L(f)をfに関して最小化  f(x)の構造を無視した数値最適化問題  数値最適化の手順  数値最適化問題を要素ベクトルの和の順次更新を実施する事で解く  f0=h0を初期値として、fmを増分hmとfm-1を用いた以前の更新の和に基づき導出  増分ベクトルhmの計算法は多数提案されている       N i ii xfyLfL 1 ,         T N N xfxfxftsR L ,,,.. minargˆ 21   ff ff f N M M m MM R   hhf 0 , 
  • 8.
    2/14/2017 第18回 #カステラ本8 10.10.1 最急降下法  増分の選択など  増分:hm=-ρmgm,  ρm:スカラー量(ステップ長)で、以下の解。  gm∈R^N:f=fm-1で評価されたL(f)の勾配。勾配gmの要素は下記。  現在の解は下記のように更新され、これがL(f)が極小となるまで繰返される  特徴  -gmはL(f)がf=fm-1において最速で減少するR^Nの局所的な方向  従って、非常に貪欲な戦略           mmm xfxfi ii i L xf xfxL g imi m gf                1minarg , 1 mmm gff  1 (10.35) (10.36)
  • 9.
    2/14/2017 第18回 #カステラ本9 10.10.2 勾配ブースティング [1/2]  前向き段階的ブースティング(Algorithm10.2)との類似性  段階的解法の各ステップで解となる木は、式(10.29)を最大限減少させる木  従って、木の予測T(xi,Θm)は、負の勾配gi,m(10.35)に概念的に対応  段階的解法(10.30)の解は、最急降下法での直線探索(10.36)と類似  最急降下法では何故ダメか?  最急降下法では、木の要素への決定木としての制約を無視しているため、負 の勾配は制約を受けない最大降下方向であり正しい最小解に到達し難い。  勾配(10.35)は訓練データxiでのみ定義されており、fM(x)を訓練データに現れ ていない新たなデータに汎化させる事が困難。  対処策  m回目の繰返しにおいて予測tmが出来る限り勾配に近づくような木T(x,Θm) を導出する事で対処  例えば、この近さの基準として二乗誤差を用いると最小二乗ブースティング。      N i miim xTg m m 1 2 ;minargˆ
  • 10.
    2/14/2017 第18回 #カステラ本10 10.10.2 勾配ブースティング [2/E]
  • 11.
    2/14/2017 第18回 #カステラ本11 10.10.3 勾配ブースティングの実装  回帰問題の場合 終端点を一つだけ持つ木で初期化 mは弱学習器の添え字 • 損失関数を前回(m-1)までのアンサン ブル学習器の予測で偏微分 • ɤimは予測ではなく、サンプルデータxi に関する疑似的な残差 添え字mに対応する弱学習器 m-1までのアンサンブル学習器に上で求めた弱学習器を追加 追加する弱学習器が損失関数を 最も下げる様、 ɤimを正解データ として弱学習器を近似し、弱学習 器のパラメータΘmのRjmを算出 弱学習器のパラメー タΘmのɤjmを算出
  • 12.
    2/14/2017 第18回 #カステラ本12 10.10.3 勾配ブースティングの実装  分類問題の場合 分類なしで初期化 事前のKクラス分類 • 損失関数を前回(m-1)までのアンサン ブル学習器の予測で偏微分 • ɤimは予測ではなく、サンプルデータxi に関する疑似的な残差 追加する弱学習器が損失関 数を最も下げる様、 ɤimを正 解データとして弱学習器を 近似し、弱学習器のパラメー タΘmのRjmを算出 弱学習器のパラメー タΘmのɤjmを算出 添え字mに対応する弱学習器 m-1までのアンサンブル学習器に上で求めた弱学習 器を追加
  • 13.
    2/14/2017 第18回 #カステラ本13 10.11 ブースティングのための 木の適切な大きさ 目的 木の大きさJは、2では不十分だが、理論的にも 経験的にも大きすぎるのは好ましくなく、4≦J≦8 位でうまく行く事の紹介。
  • 14.
    2/14/2017 第18回 #カステラ本14 メタパラメータJの考察  一般的な木の構築での課題  木の構築では、各木の最適な大きさを一般的に方法で独立に推定  各木で非常に大きな木を導出し、これをボトムアップ的な手法で、最適な終端 頂点数になるまで刈り込み  各木が展開(10.28)の最後に得られる ⇒ 初期の繰返しで、各木が大きくなり過ぎ、性能が低下し、計算量も増加  単純な回避策  全ての木を Jm=J(∀m) のように同じ大きさに制限  Jを調整  実用的なJの導出に向けた考察  目的関数η(X)の性質を考察  η(X)のANOVA展開(分散分析)は下記であり、木の大きさJに対して意味が ある相互作用はJ-1までとなる。  経験的には、J>10が必要になる事はほぼなく、4≦J<8でうまく行く       p f XXXXXfYLX ,,,,,minarg 21              lkj lkjlkjkj kjkjj jj XXXXXXX ,, ,,, , ,,,  主効果 2次相互作用 3次相互作用
  • 15.
    2/14/2017 第18回 #カステラ本15 試行例(10.2)でのメタパラメータJ • 生成したモデルが加法的 であるため、切り株(データ を二分割する決定木)が最 も高い性能を示している。 • ここで、ブースティングアル ゴリズムとしては、 Algorithm10.3で二項逸 脱度損失を利用。            その他の場合1 5.01 10 1 2 10 2 j jX Y 
  • 16.
    2/14/2017 第18回 #カステラ本16 一決定木ブースティングでの推定            その他の場合1 5.01 10 1 2 10 2 j jX Y 
  • 17.
    2/14/2017 第18回 #カステラ本17 10.12 正則化 目的 勾配ブースティングでの過学習回避による精度 向上やノイズに対するロバスト性向上を目的に、 縮小法と部分標本化をそれぞれ紹介。
  • 18.
    2/14/2017 第18回 #カステラ本18 ブースティング繰返し回数Mの考察  最適なM*  多くの場合、繰返しの各ステップは訓練リスクL(fM)を減少  結果として、十分大きなMに対してこのリスクはいくらでも減少可能 ⇒ 訓練データに合せ過ぎると過学習が生じ、未知データの予測精度が低下 ⇒ 従って、未知のリスクを最小化するための最適なM*が存在  M*の推定  Mの関数として確認用標本に対する予測リスクを考察  このリスクを最小化するMの値をM*の推定値と考える ⇒ Neural Netの早期打ち切り戦略と類似
  • 19.
    2/14/2017 第18回 #カステラ本19 10.12.1 縮小法 • ブースティング手順の学習率を制御 • νの値が小の場合、同じ繰返し回数Mに対して訓練リスクは増大 • 従って、νとMは両方とも、訓練データ上の予測リスクを制御 • もちろん、νとMの間にはトレードオフが存在 (縮小法)
  • 20.
    2/14/2017 第18回 #カステラ本20            その他の場合1 5.01 10 1 2 10 2 j jX Y  • 切り株(データを2分割する決定 木)と6つの終端頂点を持つ木 を、縮小の有無を組合せ訓練。  左側:テスト集合逸脱度  右側:誤分類率 ⇒ 縮小の利点は明らか。 特に逸脱度で顕著。 • ここで、勾配ブースティングアル ゴリズムとしては、 Algorithm10.3で二項逸脱度 損失を利用。
  • 21.
    2/14/2017 第18回 #カステラ本21 10.12.2 部分標本化                1 , ,_ 11             mffi ii mi NN xf xfyL ripermrandi          jmijm Rx jmimijm xfyL    1,minarg 確率的勾配ブースティング • 標本化(非復元抽出) • 一般にはNに対して1/2程度 ⇒ 計算時間の短縮のみならず、多くの場合 より正確なモデル構築が可能
  • 22.
    2/14/2017 第18回 #カステラ本22 • 部分標本化の効果を分類と回帰で試行例(10.2)に対 して示す。 • 縮小の用いた部分標本化の性能が何れでも少し改善 • 縮小なしの部分標本化の性能は良くない            その他の場合1 5.01 10 1 2 10 2 j jX Y 
  • 23.
    2/14/2017 第18回 #カステラ本23 10.13 説明性 目的 応答への予測変数の相対的重要度または貢献 度と、重要度の高い予測変数の部分集合を用い た高次元データの可視化の一種である部分依存 図を紹介。
  • 24.
    2/14/2017 第18回 #カステラ本24 10.13.1 予測変数の相対的重要性  導入  多くの場合、ほんの一部の変数のみが応答に決定的な影響を与える  多くの場合、応答の予測では、各入力変数の相対的重要度もしくは貢献度を 学習するのが有効  2乗関連度:単独の決定木Tの場合  予測変数Xlに対する関連の度合い  加法的展開木(10.28)への一般化  (恐らく)以下、全ての木を Jm=J(∀m) のように同じ大きさに制限して議論  平均をとる事による安定化効果により、この尺度は単独の木に対する式(10.42)より 信頼性が高い  また、縮小法により高い相関を持つ重要変数の別変数による隠蔽(多重共線性的 な?)の問題もかなり少ない  これらの尺度は相対的なため、慣例的に最大値に100を割付、他をスケーリング      最大となる予測乗誤差リスクで改善がはめのための全領域上での定数当て の内部頂点に対する和 2:ˆ 1:Iˆ 2 1 1 22 t J t tl i JltviΤΙ         M m mll ΤΙ M Ι 1 22 1
  • 25.
  • 26.
    2/14/2017 第18回 #カステラ本26 10.13.1 予測変数の相対的重要性  2乗関連度:Kクラス分類の場合  K分割モデルfk(x)(k=1,2,…,K)が導出され、それぞれの木の和を構成  これを加法的性質を用いて一般化  Xlの全体の関連度は全クラスに対して平均化する事で得られる       M m kmk xTxf 1   の関連度ら分類する場合のの観測を他のクラスかクラス llk M m kmllk XkΙ ΤΙ M Ι : 1 1 22       K k lkl Ι K Ι 1 22 1
  • 27.
  • 28.
  • 29.
    2/14/2017 第18回 #カステラ本29 10.13.2 部分依存図 [1/3]  部分依存関数:決定木の場合  X^T=(X1,X2,…,Xp):入力予測変数  XS:l<pなる S⊂{1,2,…,p} をIndexとするXの部分ベクトル  C:XSのIndexの補集合であり、S∪C= {1,2,…,p}を満たす  このとき、f(X)=f(XS,XC)  平均もしくはf(X)のXSへの部分的な依存性の定義  fのXCでの周辺化による平均  f(X)上のXCの影響(平均)を計算したのちのf(X)上のXSの影響を示す  XSがXCと強い相互作用を持たないとき、f(X)上で選択した部分集合の効果を記述 するのに有効  部分依存関数(推定):  決定木を用いると、上記式はデータ参照なく木自体から高速に算出可能    CSXSS XXfEXf C ,       の値訓練データに現れる CNCCC N i iCSSS Xxxx xXf N Xf :,, , 1 21 1                   N i Sj XiCjSS Sj XiCjiCS j j RxI N Xf RxIxXf 1 1 ,    より (10.47) (10.48)
  • 30.
    2/14/2017 第18回 #カステラ本30 10.13.2 部分依存図 [2/3]  変数部分集合の条件付き期待値は部分依存関数としては不 適切である事  部分依存関数は、「f(X)上のXCの影響(平均)を計算したのちのf(X)上のXS の影響を示すもの」であって、「f(X)上のXCの影響を無視したXSの影響を示 すものではない」事を以下に示す。  XS単体の影響は条件付き期待値:  XS単体の関数によるf(X)に対する最小二乗近似(??)  (10.49)[の標本平均での推定]と(10.48) は、XSとXCが独立である場合にのみ等しい  選択された変数の部分集合の効果が完全に加法的な場合  f(X)=h1(XS)+h2(XC) より  fS(XS)=h1(XS) [可視化しやすい]  選択された変数の部分集合の効果が完全に乗法的な場合  f(X)=h1(XS)・h2(XC) より  ∃K:定数 s.t. fS(XS)=K・h1(XS) [可視化しやすい]  一方(10.49)は、上記何れの場合においても、 h1(XS)とはならない  f(X)が全く依存性を持たない変数集合でも、式(10.49)は強い影響を示す     SCSSS XXXfEXf , ~  (10.49)
  • 31.
    2/14/2017 第18回 #カステラ本31 10.13.2 部分依存図 [3/E]  部分依存関数:Kクラス分類の場合  各クラスに一つずつ合計K個のモデルが存在  各モデルとそれぞれの確率 の関係は下記  従って、fk(X)はそれぞれの確率に対数を適用した単調増加関数  最も関連性が高い予測変数 に対する各fk(X)の部分依存図を 見ると、各クラスの対数オッズがどのように各入力変数の依存しているかを 理解しやすい。     KkxTxf M m kmk ,,2,1,1       K k lkl Ι K Ι 1 22 1          K t xf xf k t k e e xp 1        K l lkk Xp K XpXf 1 log 1 log
  • 32.
    2/14/2017 第18回 #カステラ本32 10.14 具体例 目的 種々の大規模データに対して、様々な損失関数 を適切に用いた勾配ブースティングの実例提示
  • 33.
    2/14/2017 第18回 #カステラ本33 10.14.1 カリフォルニアの住宅  データ諸元:カリフォルニアの20,460戸から集めたデータ  勾配ブースティングモデルの当てはめ  終端頂点:J=6, 学習率:ν=0.1, フーバー損失規準で数値的応答予測  データ集合を無作為に訓練集合(80%)とテストデータ(20%)に分割  訓練データとテストデータに対する平均絶対値誤差:  繰返し回数Mの関数として定義 変数名 変数の意味 応答変数(数値型) Y 各地区の家賃価格(10万$単位) 予測変数(数値型) Population 人口 AveBedrms 平均寝室数 AveRooms 平均部屋数 HouseAge 築年数の中央値 Latitude 緯度 AveOccup 各住居の平均居住率 Longitude 経度 MedInc 収入の中央値  xfyEAAE M ˆ
  • 34.
    2/14/2017 第18回 #カステラ本34 • 800回の繰返しでAAE値は0.31。最適な定数予測変数の中央値{yi}0.89と比較可能。 • このモデルの決定係数は0.84 • logYを用いた既存の最小決定係数0.85に対して、勾配ブースティングでは0.86を実現。
  • 35.
    2/14/2017 第18回 #カステラ本35 • 各地区の家賃価格に対し、近隣世帯の収入の中央値が最も関連が強い予測変数。 • 経度、緯度、平均住居率がそれに続くが、いずれも収入のほぼ半分の関連度 • 他の変数はさらにその半分
  • 36.
    2/14/2017 第18回 #カステラ本36 • 地理的要素を含まない予測変数の中で最も関連度が高いものに対する、一変数の部分依存図 • 決定木は、不連続な断片的定数モデルを木の和の繰返しの中で多く生成するため、任意の鋭い 不連続性をモデル化可能。曲線が滑らかな傾向を示すのは、当てはまりが良かったから。 • 各グラフの下の赤い線は、各変数のデータ分布の十分位。データ密度が両端周辺で低くなって いるのは、その領域では曲線をうまく決定できなかったから • 収入の中央値に対する家屋価格の中央値の部分依存性は単調増加など傾向が可視化出来る • 家屋価格の中央値は、築年数に対して非常に弱い部分依存性を持つと思われるが、これは重要 度順位(図10.14)と矛盾する。これは、築年数の弱い主効果が他の変数とのより強い相互効果 を隠蔽している可能性を示唆する。
  • 37.
    2/14/2017 第18回 #カステラ本37 • 平均住居率が2より大きい場合、家屋価値は築年数に対してほぼ独立であるのに対 し、2以下の場合には、築年数と強い依存関係がある。
  • 38.
    2/14/2017 第18回 #カステラ本38 • カリフォルニアにおける地理的条件(緯度・経度)に対する家屋価値の中央値の部分依存性 • カリフォルニアでは、家屋価値の中央値は明らかに地理的条件に非常に強い依存性を持つ • 尚、本図は他の部分依存図と同様に、築や住居に関する他の全ての属性を考慮した後の、地理 的条件の効果を占めしている。 • 従って、地理的条件に対して人が払う付加価値を表していると見る事が出来る。この付加価値は 、特にベイエリアとロサンゼルス地区からサンディエゴ地区など太平洋岸付近で比較的大きい。 北部の中央渓谷や、南部の砂漠地帯においては、地理的条件にかかわるコストは非常に低い。
  • 39.
    2/14/2017 第18回 #カステラ本39 10.14.2 ニュージーランドの魚 [1/2]  データ諸元:2,553箇所のクロマトウダイ地引網からのデータ 変数名 変数の意味 応答変数 Y (非負の)漁獲高[漁獲確率] 予測変数 TempResid 水温 AvgDepth 漁網の平均深度 SusPartMatter 海水内の浮遊粒子状物質の指標(人工衛星で計測) SalResid 塩分濃度 SSTGrad 海表面の温度勾配の指標 ChlaCase2 生態系の産出系の指標(人工衛星で計測) …… ……
  • 40.
    2/14/2017 第18回 #カステラ本40 • ニュージーランドを取り巻く排他的経済水域の地図 • 1979~2005年に取得された17,000箇所の底引き網を示している。赤い点はクロマトウダイが 存在した漁場(2,553箇所)を表す。
  • 41.
    2/14/2017 第18回 #カステラ本41 10.14.2 ニュージーランドの魚 [2/E]  クロマトウダイの漁獲確率や漁獲高の推定  前処理  水温と塩分濃度は深度と相関が強いため、深度からその2つの計測値を(それぞれ別のノンパ ラメトリック回帰を用いて)算出したときの残差を代替利用  モデル式:E(Y|X)=E(Y|Y>0,X)・Pr(Y>0|X), Y:非負の漁獲高  第2項目をロジスティクス回帰、第1項目は漁獲があった2,353回の漁のみを用いて推定  GBMロジスティクス回帰:Pr(Y>0|X)  終端頂点:J=10, 学習率:ν=0.025, 二項逸脱度損失関数でGBM  項数および縮小率の決定のために、10分割の交差確認実施  正の漁獲高の回帰:log(Y)をモデリングし、予測のときに対数除去  終端頂点:J=10, 学習率:ν=0.01, 二乗誤差損失関数でGBM  項数および縮小率の決定のために、10分割の交差確認実施
  • 42.
    2/14/2017 第18回 #カステラ本42 • 左図は、存在/不在データに当てはめたGMBロジスティクス回帰モデルの系列に対する10分割 交差確認結果(誤差標準偏差を表すエラーバー)とテストデータの平均二項逸脱度を示している 。各項8自由度を持つ平滑化スプラインを用いて当てはめた一般化加法的モデル(GAM)よりも、 性能が少し改善されている。 • 右図は、選ばれたGBMとGAMのテストデータに対するROC曲線を示している。性能はよく似て いるが、AUC(曲線下面積)が示しているように、GBMが少し優れている事がわかる。感度と特 異度が等しい点では、GBMは91%、一般化加法的モデルは90%となっている。
  • 43.
    2/14/2017 第18回 #カステラ本43 • 左上図は、GMBロジスティクス回帰モデルの存在/不在データへの当てはめにおける各変数の 貢献度を示している。この図から、クロマトウダイが捕獲される深さの範囲は明確であり、冷水領 域でかなり高い頻度で捕獲される事がわかる。 • 他の図は、最も影響度が高かった5つの変数の部分依存図を同じスケールで示している。
  • 44.
    2/14/2017 第18回 #カステラ本44 • 一般的な漁獲条件に標準化された存在と漁獲高に対する予測地図を示している。このように標 準化しているのは、予測変数や予測値が地理的な条件により連続に変化するためである。 • GBMは、相互作用のモデル化と変数の自動選択が可能であり、また外れ値や欠損データに対 するロバスト性があるので、一般的な手法として利用されている。
  • 45.
    2/14/2017 第18回 #カステラ本45 10.14.3 個人属性情報データ [1/2]  データ諸元:ショッピングモール顧客の9,243のアンケート結果 変数 変数の意味 応答変数 Student 学生 Retired 退職者 Prof/Man 専門職/管理職 Homemaker 主婦 Labor 労働者 Clerical 聖職者 Military 軍人 Unemployed 無職 Sales 営業職 変数 変数の意味 予測変数 yrs-BA ?? children 子供 num-hsld ?? lang 言語 type-home ?? mar-stat ?? ethnic 民族 sex 性別 mar-dlinc ?? hsld-stat ?? edu 教育 income 収入 age 年齢
  • 46.
    2/14/2017 第18回 #カステラ本46 10.14.3 個人属性情報データ [2/E]  多重加法的回帰木(MART)を用いた勾配ブースティング  終端頂点:J=6, 学習率:ν=0.1, MARTで数値的応答予測  データ集合を無作為に訓練集合(80%)とテストデータ(20%)に分割  この例の目的は、職業以外の13変数を予測変数として職業を予測し、さらに、 職業の違いもたらしている変数を特定する事。
  • 47.
    2/14/2017 第18回 #カステラ本47 • K=9の各職業クラスに対する誤差率を示している。全体誤差率は42.5%である。 • 最も多い専門職/管理職(Prof/Man)のみを予測した場合は69%である。 • 最も良く予測出来た4クラスは、学生(Student)、退職者(Retired)、専門職/管理職 (Prof/Man)、主婦(Homemaker)である。
  • 48.
  • 49.
    2/14/2017 第18回 #カステラ本49 • 最も良く予測出来た4クラスについて、各変数の相対的重要度分布 • 一般に、最も関連性が高い予測変数はクラス毎に異なる事がわかる。 • 例外は年齢(age)であり、退職者(Retired)、学生(Student)、専門職/管理職(Prof/Man)、 の予測において、関連度が高い変数の3番目までに含まれている。
  • 50.
    2/14/2017 第18回 #カステラ本50 • 退職者(Retired)、学生(Student)、専門職/管理職(Prof/Man)、の3クラスについて年齢 (age)の対数オッズ(log-odds)の部分依存性を示している。 • 他の変数の貢献度を考慮に入れると、退職者(Retired)のオッズは高齢者において高く、学生 (Student)では逆である事がわかる。専門職/管理職(Prof/Man)では、中年層に対してオッズ が高くなる事がわかる。        K l lkk Xp K XpXf 1 log 1 log
  • 51.
    2/14/2017 第18回 #カステラ本51 本章の参考文献
  • 52.
    2/14/2017 第18回 #カステラ本52  Schapire(1990)  PAC(Probably Approximately Correct)学習の枠組みで単純なブースティン グ手順を初めて構築  2つの追加的な分類器を、入力データをフィルタリングしたデータを用いて訓 練する事で、弱学習器の性能を常に改善できる事を示した。  Freund(1995)  多くの学習器を一つに結合し、Schapire(1990)の単純なブースティングアルゴ リズムの性能を改善する「多数決によるブースティング」という変種を提案  これら両方のアルゴリズムを支える定理では、一定の誤差率の分類器を生み 出す弱学習器が必要であった。  Freund and Schapire(1996a)  上記仮定を必要としない、より適応的で現実的なアダブーストを提案  Freund and Schapire(1996a), Schapier and Singer(1999)  汎化誤差の上限という形で、彼らのアルゴリズムを支える理論を与えた  Freund and Schapore(1996b):Breiman(1999):Breiman(1998)  ゲーム理論によるブースティングの説明
  • 53.
    2/14/2017 第18回 #カステラ本53  Schapire et al.(1998)  VC理論によるブースティングの説明  Shapire(2002), Meir and Ratsch(2003)  ブースティングは上限が指し示すものよりもっと優れた性能を達成しており、 本書の初版よりも後に出版された有用な解説論文  Friedman et al.(2000)  本書の解説の基本を成している。  アダブーストを統計的に解析し、指数規準を抽出し、さらにそれがクラス確率 の対数オッズを推定していることを示した。また、加法的木モデル、および、 ちょうど良い大きさの木と10.11節のANOVA表現と多クラスロジット定式化を 提案した。  Freidman(2001)  本書の解説の基本を成している。  勾配ブースティングと分類および回帰のための縮小法を提案  Freidman(1999)  ブースティングの確率的な変種を調べた。
  • 54.
    2/14/2017 第18回 #カステラ本54  Mason et al.(2000)  ブースティングに勾配法を取り込んだ。  ここで、Freidman(1999)の一般公開されているレポートにあるよう に、なぜ、またどのようにブースティングが動作するのかに関しては、 議論の余地がある。  Jiang(2004):Logosi and Vayatis(2004):Zhang and Yu(2005): Bartlet and Traskin(2007)  ブースティングの一致性に関する一連の論文  Mease and Wyner(2008)  本書のブースティングの解釈に対して、一連の試行を通して疑問を呈した。  Freidman et al.(2008a)  上記疑問への回答を実施し、そうした意義は解消された。  Buhlmann and Horhorn(2007)  本書のブースティングのアプローチを支持する解説論文
  • 55.