Submit Search
Upload
Random Forest による分類
•
Download as PPTX, PDF
•
14 likes
•
10,807 views
Ken'ichi Matsui
Follow
決定木は知っているけど、Random Forestって何?という人のためのRandom Forest入門スライドです。
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 19
Download now
Recommended
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
Shintaro Fukushima
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
Visual Studio CodeでRを使う
Visual Studio CodeでRを使う
Atsushi Hayakawa
ベイジアンディープニューラルネット
ベイジアンディープニューラルネット
Yuta Kashino
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
深層学習の数理
深層学習の数理
Taiji Suzuki
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
Recommended
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
Shintaro Fukushima
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
Visual Studio CodeでRを使う
Visual Studio CodeでRを使う
Atsushi Hayakawa
ベイジアンディープニューラルネット
ベイジアンディープニューラルネット
Yuta Kashino
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
深層学習の数理
深層学習の数理
Taiji Suzuki
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
最適輸送入門
最適輸送入門
joisino
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
Hiroshi Shimizu
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
Takao Yamanaka
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎
ShoutoYonekura
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
バンディット問題について
バンディット問題について
jkomiyama
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
Shiga University, RIKEN
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
Ken'ichi Matsui
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
無職
強化学習による 「Montezuma's Revenge」への挑戦
強化学習による 「Montezuma's Revenge」への挑戦
孝好 飯塚
More Related Content
What's hot
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
最適輸送入門
最適輸送入門
joisino
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
Hiroshi Shimizu
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
Takao Yamanaka
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎
ShoutoYonekura
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
バンディット問題について
バンディット問題について
jkomiyama
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
Shiga University, RIKEN
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
Ken'ichi Matsui
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
What's hot
(20)
coordinate descent 法について
coordinate descent 法について
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
Transformer メタサーベイ
Transformer メタサーベイ
最適輸送入門
最適輸送入門
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
変分推論と Normalizing Flow
変分推論と Normalizing Flow
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
バンディット問題について
バンディット問題について
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
Similar to Random Forest による分類
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
無職
強化学習による 「Montezuma's Revenge」への挑戦
強化学習による 「Montezuma's Revenge」への挑戦
孝好 飯塚
20190725 taguchi decision_tree_for_pubshare
20190725 taguchi decision_tree_for_pubshare
taguchi naoya
判別分析
判別分析
Satoru Yamamoto
ハイブリッド型樹木法
ハイブリッド型樹木法
Mitsuo Shimohata
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
Daiyu Hatakeyama
Micro12勉強会 20130303
Micro12勉強会 20130303
Toshiya Komoda
農業AIハッカソンマイクロソフト様発表資料
農業AIハッカソンマイクロソフト様発表資料
Kohei Mochida
Why dont you_create_new_spark_jl
Why dont you_create_new_spark_jl
Shintaro Fukushima
順序データでもベイズモデリング
順序データでもベイズモデリング
. .
文献紹介:CutDepth: Edge-aware Data Augmentation in Depth Estimation
文献紹介:CutDepth: Edge-aware Data Augmentation in Depth Estimation
Toru Tamaki
RのffでGLMしてみたけど...
RのffでGLMしてみたけど...
Kazuya Wada
Maatkit で MySQL チューニング
Maatkit で MySQL チューニング
Kensuke Nagae
M08_あなたの知らない Azure インフラの世界 [Microsoft Japan Digital Days]
M08_あなたの知らない Azure インフラの世界 [Microsoft Japan Digital Days]
日本マイクロソフト株式会社
Maatkitの紹介
Maatkitの紹介
Akinori YOSHIDA
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成
knjcode
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
tuchimur
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)
Wataru Shito
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
Takahiro Kubo
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
Toru Tamaki
Similar to Random Forest による分類
(20)
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
強化学習による 「Montezuma's Revenge」への挑戦
強化学習による 「Montezuma's Revenge」への挑戦
20190725 taguchi decision_tree_for_pubshare
20190725 taguchi decision_tree_for_pubshare
判別分析
判別分析
ハイブリッド型樹木法
ハイブリッド型樹木法
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
Micro12勉強会 20130303
Micro12勉強会 20130303
農業AIハッカソンマイクロソフト様発表資料
農業AIハッカソンマイクロソフト様発表資料
Why dont you_create_new_spark_jl
Why dont you_create_new_spark_jl
順序データでもベイズモデリング
順序データでもベイズモデリング
文献紹介:CutDepth: Edge-aware Data Augmentation in Depth Estimation
文献紹介:CutDepth: Edge-aware Data Augmentation in Depth Estimation
RのffでGLMしてみたけど...
RのffでGLMしてみたけど...
Maatkit で MySQL チューニング
Maatkit で MySQL チューニング
M08_あなたの知らない Azure インフラの世界 [Microsoft Japan Digital Days]
M08_あなたの知らない Azure インフラの世界 [Microsoft Japan Digital Days]
Maatkitの紹介
Maatkitの紹介
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
More from Ken'ichi Matsui
ベータ分布の謎に迫る
ベータ分布の謎に迫る
Ken'ichi Matsui
音楽波形データからコードを推定してみる
音楽波形データからコードを推定してみる
Ken'ichi Matsui
データサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテスト
Ken'ichi Matsui
分析コンペティションの光と影
分析コンペティションの光と影
Ken'ichi Matsui
Kaggle Google Quest Q&A Labeling 反省会 LT資料 47th place solution
Kaggle Google Quest Q&A Labeling 反省会 LT資料 47th place solution
Ken'ichi Matsui
BERT入門
BERT入門
Ken'ichi Matsui
データ分析コンテストとデータサイエンティストの働きかた
データ分析コンテストとデータサイエンティストの働きかた
Ken'ichi Matsui
確率分布の成り立ちを理解してスポーツにあてはめてみる
確率分布の成り立ちを理解してスポーツにあてはめてみる
Ken'ichi Matsui
SIGNATE産業技術総合研究所 衛星画像分析コンテスト2位入賞モデルの工夫点
SIGNATE産業技術総合研究所 衛星画像分析コンテスト2位入賞モデルの工夫点
Ken'ichi Matsui
Introduction of VAE
Introduction of VAE
Ken'ichi Matsui
Variational Autoencoderの紹介
Variational Autoencoderの紹介
Ken'ichi Matsui
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
Ken'ichi Matsui
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
Ken'ichi Matsui
統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半
Ken'ichi Matsui
基礎からのベイズ統計学 輪読会資料 第8章 「比率・相関・信頼性」
基礎からのベイズ統計学 輪読会資料 第8章 「比率・相関・信頼性」
Ken'ichi Matsui
第13回数学カフェ「素数!!」二次会 LT資料「乱数!!」
第13回数学カフェ「素数!!」二次会 LT資料「乱数!!」
Ken'ichi Matsui
「ベータ分布の謎に迫る」第6回 プログラマのための数学勉強会 LT資料
「ベータ分布の謎に迫る」第6回 プログラマのための数学勉強会 LT資料
Ken'ichi Matsui
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
Ken'ichi Matsui
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
Ken'ichi Matsui
More from Ken'ichi Matsui
(20)
ベータ分布の謎に迫る
ベータ分布の謎に迫る
音楽波形データからコードを推定してみる
音楽波形データからコードを推定してみる
データサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテスト
分析コンペティションの光と影
分析コンペティションの光と影
Kaggle Google Quest Q&A Labeling 反省会 LT資料 47th place solution
Kaggle Google Quest Q&A Labeling 反省会 LT資料 47th place solution
BERT入門
BERT入門
データ分析コンテストとデータサイエンティストの働きかた
データ分析コンテストとデータサイエンティストの働きかた
確率分布の成り立ちを理解してスポーツにあてはめてみる
確率分布の成り立ちを理解してスポーツにあてはめてみる
SIGNATE産業技術総合研究所 衛星画像分析コンテスト2位入賞モデルの工夫点
SIGNATE産業技術総合研究所 衛星画像分析コンテスト2位入賞モデルの工夫点
Introduction of VAE
Introduction of VAE
Variational Autoencoderの紹介
Variational Autoencoderの紹介
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半
基礎からのベイズ統計学 輪読会資料 第8章 「比率・相関・信頼性」
基礎からのベイズ統計学 輪読会資料 第8章 「比率・相関・信頼性」
第13回数学カフェ「素数!!」二次会 LT資料「乱数!!」
第13回数学カフェ「素数!!」二次会 LT資料「乱数!!」
「ベータ分布の謎に迫る」第6回 プログラマのための数学勉強会 LT資料
「ベータ分布の謎に迫る」第6回 プログラマのための数学勉強会 LT資料
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
Random Forest による分類
1.
Random Forest for Classification 2016/2/24 Ken'ichi
Matsui
2.
決定木 Random Forest 特徴 •
分枝とノードのコストを鑑み て剪定を行う • 剪定しない • データからサンプリングを行い データを増やして学習する。 • 各ノードで分割を行う際、ラン ダムに特徴量を選択する メリット • 分割基準が目に見えてわかり やすいのでそこから知見も得 られる • 比較的早い • 予測精度が高い • ランダム性を取り入れ分散を小 さく抑えられている デメリット • 分散が大きくなりがち • 複数の木を使って構成されるの で、分割基準は非常に見えずら い • 比較的遅い 決定木とRandom Forestの比較
3.
… 特徴量: d次元 特徴量: d次元
特徴量: d次元 特徴量: d次元 特徴量: d次元 データ数: N個 データ数: N個 ⇒ ただし、訓練データから重複ありでランダムサンプリングしたもの ブートストラップ サンプル 1 ブートストラップ サンプル 2 ブートストラップ サンプル 3 ブートストラップ サンプル M 重複ありランダムサンプリング ブートストラップサンプル数: M個 訓練データ ブートストラップ法
4.
… … 特徴量: d次元 ブートストラップ サンプル 1 特徴量:
d次元 ブートストラップ サンプル 2 特徴量: d次元 ブートストラップ サンプル 3 特徴量: d次元 ブートストラップ サンプル M ブートストラップサンプル数: M個 N個 弱学習器1 弱学習器2 弱学習器3 弱学習器 M Random Forest 木の深さ
5.
木の深さ … 特徴量: d次元 ブートストラップ サンプル 1 特徴量:
d次元 ブートストラップ サンプル 2 特徴量: d次元 ブートストラップ サンプル 3 特徴量: d次元 ブートストラップ サンプル M ブートストラップサンプル数: M個 N個 Random Forest … 弱学習器1 弱学習器2 弱学習器3 弱学習器 M (決定)木がたくさん集まっているので森!
6.
Yes No 1 2
3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 このノードは ピンクのエリア このノードは ブルーのエリア 弱学習器の各ノードにおける分割 (2次元の場合) 分割前の状態 ※ 簡単化のため特徴量選択を していないとする
7.
取りうる分割 (2次元の例) この赤い線が不純度を一番下げる分割
8.
axis value ratio_l
gini_l ratio_r gini_r ave gini gini x 1.8 0.111 0.000 0.889 0.469 0.417 x 2.45 0.222 0.000 0.778 0.408 0.317 x 3.0 0.333 0.000 0.667 0.278 0.185 x 4.2 0.444 0.375 0.556 0.320 0.344 x 5.75 0.556 0.480 0.444 0.375 0.433 x 6.8 0.667 0.444 0.333 0.000 0.296 x 7.9 0.778 0.490 0.222 0.000 0.381 x 8.85 0.889 0.500 0.111 0.000 0.444 y 1.05 0.111 0.000 0.889 0.469 0.417 y 1.85 0.222 0.500 0.778 0.490 0.492 y 2.6 0.333 0.444 0.667 0.444 0.444 y 3.6 0.444 0.375 0.556 0.320 0.344 y 4.8 0.556 0.480 0.444 0.375 0.433 y 5.95 0.667 0.500 0.333 0.444 0.481 y 6.65 0.778 0.490 0.222 0.000 0.381 y 7.5 0.889 0.500 0.111 0.000 0.444 取りうる分割 (2次元の例) 不純度の計算(gini係数)
9.
ブートストラップサンプル数: M個 … … 特徴量: d次元 ブートストラップ サンプル
1 特徴量: d次元 ブートストラップ サンプル 2 特徴量: d次元 ブートストラップ サンプル 3 特徴量: d次元 ブートストラップ サンプル MN個 データの特徴量はd次元なので各弱学 習器の各ノード分割時に、d次元から d’個サンプリングしたデータから 最良の分割点を探し出して分割する。 ( がよく使われる) Random Forestの特徴量選択
10.
ブートストラップサンプル数: M個 … … 特徴量: d次元 ブートストラップ サンプル
1 特徴量: d次元 ブートストラップ サンプル 2 特徴量: d次元 ブートストラップ サンプル 3 特徴量: d次元 ブートストラップ サンプル MN個 Random Forestの特徴量選択 ⇒ ランダムフォレストの ランダムと言われる所以 データの特徴量はd次元なので各弱学 習器の各ノード分割時に、d次元から d’個サンプリングしたデータから 最良の分割点を探し出して分割する。 ( がよく使われる)
11.
… 弱学習器1 弱学習器2 弱学習器3
弱学習器 M Random Forest (Classification) インプット 「Bだ!」 「Aだ!」 「Bだ!」 「Bだ!」 ⇒ 多数決により”B”に決定。
12.
ブートストラップで作成する木の数 ノード分割時の不純度の計算種別 http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html 特徴量抽出の最大値設定
13.
http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html 木の深さの最大値設定 ノード分割時の分割先の最小データ数 終端ノードの最小データ数 最大終端ノード数 ブートストラップサンプリング実行要否 終端ノードにおける最小分割比
14.
http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html 木の構築時の詳細情報表示設定 fitした時に前回のモデルを再利用する 各クラスにウェイトをかける ブートストラップ、特徴量抽出の乱数シード設定 並列処理数の設定 out-of-bagサンプルを評価に使うか否か
15.
Scikit-LearnとMNISTで試すRandom Forest https://github.com/matsuken92/Qiita_Contents/blob/master/General/Decision_tree.ipynb # Random
Forestによるモデル構築 clf = RandomForestClassifier(n_estimators=50, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, bootstrap=True, oob_score=False, n_jobs=2, random_state=None, verbose=0, warm_start=False, class_weight=None) clf = clf.fit(x_train, y_train) # 訓練データでの精度確認 print "train" confirm_result(clf, x_train, y_train) classification report precision recall f1-score support 0 1.00 1.00 1.00 5923 1 1.00 1.00 1.00 6742 2 1.00 1.00 1.00 5958 3 1.00 1.00 1.00 6131 4 1.00 1.00 1.00 5842 5 1.00 1.00 1.00 5421 6 1.00 1.00 1.00 5918 7 1.00 1.00 1.00 6265 8 1.00 1.00 1.00 5851 9 1.00 1.00 1.00 5949 avg / total 1.00 1.00 1.00 60000 accuracy 0.999983333333 MNIST (手書き数字データ) コードの全文はココ↓
16.
https://github.com/matsuken92/Qiita_Contents/blob/master/General/Decision_tree.ipynb # 検証データでの精度確認 print "test" confirm_result(clf,
x_test, y_test) test confusion matrix [[ 969 0 2 0 0 2 3 1 3 0] [ 0 1122 3 3 1 1 2 0 3 0] [ 5 0 999 6 2 0 4 9 7 0] [ 1 0 10 973 0 7 0 8 8 3] [ 1 0 1 0 947 0 7 0 4 22] [ 4 2 1 14 3 854 5 1 7 1] [ 6 3 1 0 3 5 936 0 4 0] [ 1 3 20 2 3 0 0 989 3 7] [ 5 0 5 8 5 7 4 4 929 7] [ 7 6 3 12 15 3 1 5 4 953]] classification report precision recall f1-score support 0 0.97 0.99 0.98 980 1 0.99 0.99 0.99 1135 2 0.96 0.97 0.96 1032 3 0.96 0.96 0.96 1010 4 0.97 0.96 0.97 982 5 0.97 0.96 0.96 892 6 0.97 0.98 0.97 958 7 0.97 0.96 0.97 1028 8 0.96 0.95 0.95 974 9 0.96 0.94 0.95 1009 avg / total 0.97 0.97 0.97 10000 accuracy 0.9671 Scikit-LearnとMNISTで試すRandom Forest
17.
拡大 MNIST学習時のRandom Forest 弱学習器の一部 拡大
18.
Random Forestの類似度の算出とMDSによる2次元可視化 元データ(iris)のプロット データ類似度のプロット ※
類似度の計算はRじゃないとできませんでした・・・ require(rfPermute) data(iris) iris.rf <- randomForest(Species ~ ., data = iris, importance = TRUE, proximity = TRUE) iris.rf proximity.plot(iris.rf, legend.loc = "topleft") http://www.inside-r.org/packages/cran/rfPermute/docs/proximity.plot
19.
参考 • “Intuition of
Random Forest” https://stat.ethz.ch/education/semesters/ss2012/ams/slides/v10.2.pdf • Scikit-Learn RandomForestClassifier http://scikit- learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.ht ml • 「初めてのパターン認識」平井 有三 (著) http://www.amazon.co.jp/dp/4627849710 • 本スライドで使ったPythonコード https://github.com/matsuken92/Qiita_Contents/blob/master/General/Decision_tree .ipynb
Download now