SlideShare a Scribd company logo
ハイブリッド型樹木法
Tokyo.R #40
2014.6.14
元ネタ
2
Rで学ぶデータサイエンス
樹木構造接近法(共立出版)
2.3節・・・ハイブリッド型樹木法
「樹木構造接近法」???
「ハイブリッド型樹木法」???
用語的に特殊かも
ハイブリッド型樹木法決定木
3
本来は・・・「モデルに基づく再帰分割法」
model based recursive partition
ややこしければ、「決定木学習と回帰分析のハイブリッド」と思ってもOK
決定木学習とは
目的変数と説明変数のデータから木構造の分類器を生成
トップダウンに、再帰的に、データを分割していく
分割基準
Information Gain (C4.5)
Gini係数 (CART)
検定統計量 (CHAID)
4
Irisに決定木学習
5
連続値に対して決定木学習
6
※ "cars"データにmvpartを適用
あまり適しているとはいえない・・・
線形性があるデータは回帰分析が適切
7
dist = 3.93 × speed - 17.6
モデルに基づく再帰分割
8
一般の決定木の分割基準
Information Gain C4.5
Gini係数 CART
検定統計量 CHAID
他の分割基準を採用することもできる
 下位モデルとして回帰式を採用
 分割した時に2つの回帰式の残差平方和が最小になるように分割
 適切な複数の回帰式になるようにデータを分割する
決定木学習と回帰分析
・・・ ローテクな組み合わせ?
9
決定木学習は使われている
10
決定木学習!
2006年にデータマイニング学会IEEE ICDMで選ばれた
「データマイニングで使われるトップ10アルゴリズム」
回帰も使われている
11
Top2!
http://www.kdnuggets.com/polls/2011/algorithms-analytics-data-mining.html
本題の
ハイブリッド型決定木
12
テストデータ・・・Boston
13
crim zn indus chas nox rm age dis rad tax ptratio black lstat medv
1 0.00632 18 2.31 0 0.538 6.575 65.2 4.0900 1 296 15.3 396.90 4.98 24.0
2 0.02731 0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 396.90 9.14 21.6
3 0.02729 0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 392.83 4.03 34.7
4 0.03237 0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 394.63 2.94 33.4
5 0.06905 0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 396.90 5.33 36.2
6 0.02985 0 2.18 0 0.458 6.430 58.7 6.0622 3 222 18.7 394.12 5.21 28.7
medv 持ち家住宅の価格(中央値) 目的変数
rm 平均部屋数 説明(回帰)
ptratio 学生/先生の比率 説明(決定木)
tax 税率 説明(決定木)
nox 窒素酸化物の濃度 説明(決定木)
ボストンの住宅価格のデータ (14変数)
※ 住宅価格が部屋数に比例することは前提
head(Boston)
ライブラリ+データ+回帰分析
14
> install.package(“party”) # partyパッケージをインストール
> library(party) # ライブラリをロード
> data(Boston) # データをロード
> plot(Boston$rm,Boston$medv) # 回帰用データをプロット
> res <- lm(medv~rm, data=Boston) # 回帰分析
> abline(res) # 回帰直線をプロット
住宅価格と部屋数の回帰分析
15
4 5 6 7 8
1020304050
Boston$rm
Boston$medv
※ 決定係数=0.4835で、これだけでも特に悪いわけではない
※ 本ではrmを2乗していますが、ここでは1乗にします(説明のため)
ハイブリッド型決定木の関数:mob
16
> mob_ctl <- mob_control(minsplit=90)
> result <- mob(medv ~ rm | crim+zn+indus+lstat+black+ptratio+rad+tax+age+dis+nox,
data=Boston, control=mob_ctl)
> plot(result)
関数 mob ... MOdel Based recursive partition
書式
mob( y ~ x | a + b + c, data=DATA)
目的変数 説明変数(回帰) 説明変数(決定木)
# シンプルな木にする
ハイブリッド型決定木
17
ptratio
p < 0.001
1
20.1 20.1
tax
p < 0.001
2
265 265
Node 3 (n = 84)
3.1 9.3
1
54
Node 4 (n = 226)
3.1 9.3
1
54
nox
p < 0.001
5
0.668 0.668
Node 6 (n = 111)
3.1 9.3
1
54
Node 7 (n = 85)
3.1 9.3
1
54
学生/先生比
税率 窒素酸化物濃度
各終端ノードの回帰分析結果
18
> summary(result) # 末端ノードの結果が出力される
$`3`
Call:
NULL
Deviance Residuals:
Min 1Q Median 3Q Max
-9.069 0.000 0.000 0.000 11.409
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -53.4271 3.2189 -16.60 <2e-16 ***
rm 12.2871 0.4625 26.57 <2e-16 ***
---
住宅価格と部屋数の回帰分析結果
19
ptratio
p < 0.001
20.1 20.1
tax
p < 0.001
2
265 265
Node 3 (n = 84)
3.1 9.3
1
54
Node 4 (n = 226)
3.1 9.3
1
54
nox
p < 0.001
5
0.668 0.668
Node 6 (n = 111)
3.1 9.3
1
54
Node 7 (n = 85)
3.1 9.3
1
54
決定係数 0.86 0.78 0.06 0.03
傾き 11.9 10.0 3.50 1.22
Pr (t) <2e-16 <2e-16 0.007 0.11
※ Node3では、一部屋増えると $11,900価格が上がる
※ Node7では、rmを用いた回帰分析は妥当ではない
20
4 5 6 7 8
1020304050
Boston$rm
Boston$medv
まとめ
ハイブリッド型樹木法: データを複数の回帰モデルに分割
ptratio
p < 0.001
1
20.1 20.1
tax
p < 0.001
2
265 265
Node 3 (n = 84)
3.1 9.3
1
54
Node 4 (n = 226)
3.1 9.3
1
54
nox
p < 0.001
5
0.668 0.668
Node 6 (n = 111)
3.1 9.3
1
54
Node 7 (n = 85)
3.1 9.3
1
54
ご清聴ありがとうございました
21

More Related Content

What's hot

統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回
Hikaru GOTO
 
猫でも分かりたい線形回帰の自由度
猫でも分かりたい線形回帰の自由度猫でも分かりたい線形回帰の自由度
猫でも分かりたい線形回帰の自由度
YukinoriKambe
 
いいからベイズ推定してみる
いいからベイズ推定してみるいいからベイズ推定してみる
いいからベイズ推定してみる
Makoto Hirakawa
 
社会心理学とGlmm
社会心理学とGlmm社会心理学とGlmm
社会心理学とGlmm
Hiroshi Shimizu
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用
Hiroki Iida
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
Satoshi Hara
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析
Hirotaka Hachiya
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデル
Masaru Tokuoka
 
for関数を使った繰り返し処理によるヒストグラムの一括出力
for関数を使った繰り返し処理によるヒストグラムの一括出力for関数を使った繰り返し処理によるヒストグラムの一括出力
for関数を使った繰り返し処理によるヒストグラムの一括出力
imuyaoti
 
Rで架空データの発生
Rで架空データの発生Rで架空データの発生
Rで架空データの発生
Makoto Hirakawa
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Deep Learning Lab(ディープラーニング・ラボ)
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
wada, kazumi
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
Ken'ichi Matsui
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11
matsuolab
 
金融情報における時系列分析
金融情報における時系列分析金融情報における時系列分析
金融情報における時系列分析
Fujio Toriumi
 
続わかりやすいパターン認識11章(11.1 - 11.4)
続わかりやすいパターン認識11章(11.1 - 11.4)続わかりやすいパターン認識11章(11.1 - 11.4)
続わかりやすいパターン認識11章(11.1 - 11.4)Nagi Teramo
 
RでGPU使ってみた
RでGPU使ってみたRでGPU使ってみた
RでGPU使ってみた
Kazuya Wada
 
心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor
Shushi Namba
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
 

What's hot (20)

統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回
 
猫でも分かりたい線形回帰の自由度
猫でも分かりたい線形回帰の自由度猫でも分かりたい線形回帰の自由度
猫でも分かりたい線形回帰の自由度
 
いいからベイズ推定してみる
いいからベイズ推定してみるいいからベイズ推定してみる
いいからベイズ推定してみる
 
社会心理学とGlmm
社会心理学とGlmm社会心理学とGlmm
社会心理学とGlmm
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデル
 
for関数を使った繰り返し処理によるヒストグラムの一括出力
for関数を使った繰り返し処理によるヒストグラムの一括出力for関数を使った繰り返し処理によるヒストグラムの一括出力
for関数を使った繰り返し処理によるヒストグラムの一括出力
 
Rで架空データの発生
Rで架空データの発生Rで架空データの発生
Rで架空データの発生
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11
 
金融情報における時系列分析
金融情報における時系列分析金融情報における時系列分析
金融情報における時系列分析
 
続わかりやすいパターン認識11章(11.1 - 11.4)
続わかりやすいパターン認識11章(11.1 - 11.4)続わかりやすいパターン認識11章(11.1 - 11.4)
続わかりやすいパターン認識11章(11.1 - 11.4)
 
RでGPU使ってみた
RでGPU使ってみたRでGPU使ってみた
RでGPU使ってみた
 
心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
 

Viewers also liked

Dynamic panel in tokyo r
Dynamic panel in tokyo rDynamic panel in tokyo r
Dynamic panel in tokyo rShota Yasui
 
Tokyo r38
Tokyo r38Tokyo r38
Tokyo r38
Takashi Minoda
 
20140614 tokyo r lt
20140614 tokyo r lt 20140614 tokyo r lt
20140614 tokyo r lt tetsuro ito
 
TokyoR40
TokyoR40TokyoR40
チェビシェフの不等式
チェビシェフの不等式チェビシェフの不等式
チェビシェフの不等式hoxo_m
 
独立成分分析とPerfume
独立成分分析とPerfume独立成分分析とPerfume
独立成分分析とPerfume
Yurie Oka
 
rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話
Yuya Matsumura
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
Hiroshi Shimizu
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 

Viewers also liked (13)

Dynamic panel in tokyo r
Dynamic panel in tokyo rDynamic panel in tokyo r
Dynamic panel in tokyo r
 
Tokyo r38
Tokyo r38Tokyo r38
Tokyo r38
 
20140614 tokyo r lt
20140614 tokyo r lt 20140614 tokyo r lt
20140614 tokyo r lt
 
Tokyo r39 beginner
Tokyo r39 beginnerTokyo r39 beginner
Tokyo r39 beginner
 
TokyoR40
TokyoR40TokyoR40
TokyoR40
 
R勉強会40回lt
R勉強会40回ltR勉強会40回lt
R勉強会40回lt
 
チェビシェフの不等式
チェビシェフの不等式チェビシェフの不等式
チェビシェフの不等式
 
独立成分分析とPerfume
独立成分分析とPerfume独立成分分析とPerfume
独立成分分析とPerfume
 
決定木学習
決定木学習決定木学習
決定木学習
 
rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 

Similar to ハイブリッド型樹木法

データとは何か
データとは何かデータとは何か
データとは何か
Kenta Suzuki
 
20150329 tokyo r47
20150329 tokyo r4720150329 tokyo r47
20150329 tokyo r47
Takashi Kitano
 
Random Forest による分類
Random Forest による分類Random Forest による分類
Random Forest による分類
Ken'ichi Matsui
 
GRASSセミナー応用編
GRASSセミナー応用編GRASSセミナー応用編
GRASSセミナー応用編
Kanetaka Heshiki
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333Issei Kurahashi
 
ADVENTURE_Solidの概要
ADVENTURE_Solidの概要ADVENTURE_Solidの概要
ADVENTURE_Solidの概要
ADVENTURE Project
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
Tatsuya Yokota
 
Random Forests
Random ForestsRandom Forests
Random Forests
Hironobu Fujiyoshi
 
Sec15 dynamic programming
Sec15 dynamic programmingSec15 dynamic programming
Sec15 dynamic programming
Keisuke OTAKI
 
M1gp -Who’s (Not) Talking to Whom?-
M1gp -Who’s (Not) Talking to Whom?-M1gp -Who’s (Not) Talking to Whom?-
M1gp -Who’s (Not) Talking to Whom?-Takashi Kawamoto
 
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)
Wataru Shito
 
研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法Takeshi Yamamuro
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
 

Similar to ハイブリッド型樹木法 (15)

データとは何か
データとは何かデータとは何か
データとは何か
 
20150329 tokyo r47
20150329 tokyo r4720150329 tokyo r47
20150329 tokyo r47
 
Random Forest による分類
Random Forest による分類Random Forest による分類
Random Forest による分類
 
GRASSセミナー応用編
GRASSセミナー応用編GRASSセミナー応用編
GRASSセミナー応用編
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
ADVENTURE_Solidの概要
ADVENTURE_Solidの概要ADVENTURE_Solidの概要
ADVENTURE_Solidの概要
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
 
Random Forests
Random ForestsRandom Forests
Random Forests
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
 
Sec15 dynamic programming
Sec15 dynamic programmingSec15 dynamic programming
Sec15 dynamic programming
 
M1gp -Who’s (Not) Talking to Whom?-
M1gp -Who’s (Not) Talking to Whom?-M1gp -Who’s (Not) Talking to Whom?-
M1gp -Who’s (Not) Talking to Whom?-
 
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)
 
研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 

ハイブリッド型樹木法