More Related Content Similar to ハイブリッド型樹木法 (15) ハイブリッド型樹木法13. テストデータ・・・Boston
13
crim zn indus chas nox rm age dis rad tax ptratio black lstat medv
1 0.00632 18 2.31 0 0.538 6.575 65.2 4.0900 1 296 15.3 396.90 4.98 24.0
2 0.02731 0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 396.90 9.14 21.6
3 0.02729 0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 392.83 4.03 34.7
4 0.03237 0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 394.63 2.94 33.4
5 0.06905 0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 396.90 5.33 36.2
6 0.02985 0 2.18 0 0.458 6.430 58.7 6.0622 3 222 18.7 394.12 5.21 28.7
medv 持ち家住宅の価格(中央値) 目的変数
rm 平均部屋数 説明(回帰)
ptratio 学生/先生の比率 説明(決定木)
tax 税率 説明(決定木)
nox 窒素酸化物の濃度 説明(決定木)
ボストンの住宅価格のデータ (14変数)
※ 住宅価格が部屋数に比例することは前提
head(Boston)
14. ライブラリ+データ+回帰分析
14
> install.package(“party”) # partyパッケージをインストール
> library(party) # ライブラリをロード
> data(Boston) # データをロード
> plot(Boston$rm,Boston$medv) # 回帰用データをプロット
> res <- lm(medv~rm, data=Boston) # 回帰分析
> abline(res) # 回帰直線をプロット
15. 住宅価格と部屋数の回帰分析
15
4 5 6 7 8
1020304050
Boston$rm
Boston$medv
※ 決定係数=0.4835で、これだけでも特に悪いわけではない
※ 本ではrmを2乗していますが、ここでは1乗にします(説明のため)
16. ハイブリッド型決定木の関数:mob
16
> mob_ctl <- mob_control(minsplit=90)
> result <- mob(medv ~ rm | crim+zn+indus+lstat+black+ptratio+rad+tax+age+dis+nox,
data=Boston, control=mob_ctl)
> plot(result)
関数 mob ... MOdel Based recursive partition
書式
mob( y ~ x | a + b + c, data=DATA)
目的変数 説明変数(回帰) 説明変数(決定木)
# シンプルな木にする
17. ハイブリッド型決定木
17
ptratio
p < 0.001
1
20.1 20.1
tax
p < 0.001
2
265 265
Node 3 (n = 84)
3.1 9.3
1
54
Node 4 (n = 226)
3.1 9.3
1
54
nox
p < 0.001
5
0.668 0.668
Node 6 (n = 111)
3.1 9.3
1
54
Node 7 (n = 85)
3.1 9.3
1
54
学生/先生比
税率 窒素酸化物濃度
18. 各終端ノードの回帰分析結果
18
> summary(result) # 末端ノードの結果が出力される
$`3`
Call:
NULL
Deviance Residuals:
Min 1Q Median 3Q Max
-9.069 0.000 0.000 0.000 11.409
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -53.4271 3.2189 -16.60 <2e-16 ***
rm 12.2871 0.4625 26.57 <2e-16 ***
---
19. 住宅価格と部屋数の回帰分析結果
19
ptratio
p < 0.001
20.1 20.1
tax
p < 0.001
2
265 265
Node 3 (n = 84)
3.1 9.3
1
54
Node 4 (n = 226)
3.1 9.3
1
54
nox
p < 0.001
5
0.668 0.668
Node 6 (n = 111)
3.1 9.3
1
54
Node 7 (n = 85)
3.1 9.3
1
54
決定係数 0.86 0.78 0.06 0.03
傾き 11.9 10.0 3.50 1.22
Pr (t) <2e-16 <2e-16 0.007 0.11
※ Node3では、一部屋増えると $11,900価格が上がる
※ Node7では、rmを用いた回帰分析は妥当ではない
20. 20
4 5 6 7 8
1020304050
Boston$rm
Boston$medv
まとめ
ハイブリッド型樹木法: データを複数の回帰モデルに分割
ptratio
p < 0.001
1
20.1 20.1
tax
p < 0.001
2
265 265
Node 3 (n = 84)
3.1 9.3
1
54
Node 4 (n = 226)
3.1 9.3
1
54
nox
p < 0.001
5
0.668 0.668
Node 6 (n = 111)
3.1 9.3
1
54
Node 7 (n = 85)
3.1 9.3
1
54