SlideShare a Scribd company logo
1 of 83
Download to read offline
合成変量とアンサンブル:回帰森と加法モデルの要点
機械学習における「⽊」や
「森」のモデルの歴史と今
2017年6⽉19⽇(⽉) SIP研究会 招待講演 @ 新潟⼤学
• 決定⽊・回帰⽊の歴史と問題
• ⽊から森へ
• バギングとランダムフォレスト
• 勾配ブースティングとXGBoost
• ランダム⽊とExtra Trees
合成変量とアンサンブル

回帰森と加法モデルの要点
北海道⼤学 / JSTさきがけ

瀧川 ⼀学
本⽇のトピック
機械学習における「⽊」や「森」のモデル
① 交互作⽤と合成変量
② 決定⽊と回帰⽊
③ 加法⽊と回帰森 〜⽊のアンサンブル♪〜
A. 決定⽊って古臭くない?枯れた印象で使ったこともない。

→実は今、巷で⼤⼈気なんです!
B. 結構気軽に使ってるけど背景・歴史や周辺を知らない。

→普通の本にはあまり記述なくて悲しいので今⽇語りたい!
本⽇お伝えしたい事
「⽊」や「森」っていいよね…
余談: ところで…
うちの研究室は決定⽊(正確には決定グラフ)が⼤好き
北海道⼤学情報科学研究科 ⼤規模知識処理研究室
⼆分決定⽊ ⼆分決定グラフ ゼロサプレス型
無類のマニア M教授
(BDD) (ZDD)
http://art.ist.hokudai.ac.jp/
決定⽊をDAGで圧縮したデータ構造
本⽇お伝えしたい事 (⾔い換え)
「決定⽊」や「回帰森」っていいよね…
主役は御三家の3⼈でしょうか!! ダンディーですね!
https://en.wikipedia.org/wiki/Leo_Breiman
Leo Breiman

(1928 - 2005)
Jerome H. Friedman

(1939 -)
https://statweb.stanford.edu/~jhf/
今⽇は⽊や森の何がなぜ良いのかを語ります!!
Ross Quinlan

(1943 -)
http://www.rulequest.com/Personal/
BreimanとFriedmanは2000年に理研で実物を⾒ました!
Bernoulli-RIKEN Symposium on Neural Networks and Learning (by ⽢利先⽣)

(Organizers: S. Amari, L. Breiman, S. Eguchi, M. Jordan, M. Murata, M. Titterington, V. Vapnik)
余談
ファンはついついBreimanの著作3冊を全部買ってしまう!
Annals of Applied Statistics (Vol. 4, No. 4, December 2010) にBreimanの

追悼特集があり、⾊々な関係者が思い出や歴史を語っています!ファン必⾒(?)
余談 Quinlanの伝説の本
当時も「”機械学習”より”AI”って⾔う⽅が売れる」の病があった?
原著 1992年出版翻訳 1995年出版
本⽇のトピック
機械学習における「⽊」や「森」のモデル
① 交互作⽤と合成変量
② 決定⽊と回帰⽊
③ 加法⽊と回帰森 〜⽊のアンサンブル♪〜
A. 決定⽊って古臭くない?枯れた印象で使ったこともない。

→実は今、巷で⼤⼈気なんです!
B. 結構気軽に使ってるけど背景・歴史や周辺を知らない。

→普通の本にはあまり記述なくて悲しいので今⽇語りたい!
KaggleとKaggler
Kaggle (カーグル)
※ケイグルと呼びたくなるしUSではそう呼ばれることも多いがfounder

 のGoldbloom⾃⾝がこのように呼ぶ (たぶんオーストラリア⼈だから)
※
企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適
モデルを競い合う、予測モデリング及び分析⼿法関連プラットフォーム

(賞⾦総額3億のHeritage Health Prizeなど⾼額賞⾦の予測コンペでも話題)
• Kagglers … 実問題・実データに対してリアルに有効な機械学習
のbest practiceの探求のため世界中のツワモノ達が参加。
• 参加コンペの順位でポイントがつき、各Kagglerはその「強さ」
を⽰すユーザランキングを持つ。(ゲーマーのratingを想像して)
KaggleとKaggler
What are your favorite machine learning algorithms?
名だたる有名組織や企業のData Scientistたちがしのぎを

けずる世界の頂点「Rank #1」として君臨したことのある

百戦錬磨世界最強の機械学習実践者であるKagglerたちに
と聞いてみたら
だった。(ヒント:Deep Learningではない)
注意:Kaggleで勝つのはめちゃめちゃ⼤変です(賞⾦かかってるし)
答えが全員同じ
それは回帰森Gradient Boosting Machine (GBM)
http://blog.kaggle.com/2015/11/09/profiling-top-kagglers-gilberto-titericz-new-1-in-the-world/
Gradient Boosting Machines are the best!
Before I knew of GBM, I was a big fan of
neural networks.
と聞いてみた
It depends on the problem, but if I have to
pick one, then it is GBM (its XGBoost flavor).
http://blog.kaggle.com/2015/06/22/profiling-top-kagglers-owen-zhang-currently-1-in-the-world/
I like Gradient Boosting and Tree methods in
general.
http://blog.kaggle.com/2016/02/10/profiling-top-kagglers-kazanova-new-1-in-the-world/
みんな⼤好き!DMLCとXGBoost
この⼈気の背景の⼀つにはXGBoostというGBMの実⽤的な実装がある
• First ReleaseはMar 27, 2014, 以後DMLCで精⼒的な改良が続けられている。
• 2014年 Kaggle Higgs Boson Machine Learning Challengeで⼈気になり、

それ以降様々なKaggleコンペの優勝戦略の必須要素として⽤いられている。

https://github.com/dmlc/xgboost/tree/master/demo#machine-learning-challenge-winning-solutions
• 学術的にはKDD2016で論⽂として発表(https://arxiv.org/abs/1603.02754)
• 様々な⾔語(PythonのScikit-learnやRのcaretの呼出し含む)に対応
• DMLC(Distributed Machine Learning Community, http://dmlc.ml)という
Large-Scaleな機械実装を⽬指すOpen-Source Projectの⼀つ
• GPU対応や分散対応(Hadoop, SGE, MPI, YARN, Spark, Flink and Dataflow)
• DMLCはmxnetという⾼速なDeep Learning実装等でも有名
ハイパフォーマンスGBMのニーズ
• GBMの概要は後述するが歴史上の経緯で「⾊々な名前」で呼ばれる⼿法

Gradient Boosting, GBM, GBDT/GBRT, MART, TreeNet, AnyBoost, …
• 例えば、RのオリジナルのGBM実装や、Scikit-learnのGBMの実装もある
が⼤規模な場合には特にXGBoostは⾮常に速い
• ⼤規模なデータを扱う業態の場合、速くて⾼精度なのは特に魅⼒
• 最近MicrosoftのDMTK (Distributed Machine Learning Toolkit http://
www.dmtk.io )がLightGBMという実装をOpen-Source公開
• GBMのハイパフォーマンス実装のニーズが⼤きいことの現れ?
• GBM(MART)の正則化にDropoutを導⼊した「DART」も実装
この⼈気の背景の⼀つにはXGBoostというGBMの実⽤的な実装がある
本⽇お伝えしたい事 (⾔い換え)
「決定⽊」や「回帰森」っていいよね…
主役は御三家の3⼈でしょうか!! ダンディーですね!
https://en.wikipedia.org/wiki/Leo_Breiman
Leo Breiman

(1928 - 2005)
Jerome H. Friedman

(1939 -)
https://statweb.stanford.edu/~jhf/
今⽇は⽊や森の何がなぜ良いのかを語ります!!
Ross Quinlan

(1943 -)
http://www.rulequest.com/Personal/
思い返せば、2006年 @ ICDM, Hong Kong
どういう経緯で選ばれたかは論⽂になっています
Wu+, Top 10 algorithms in data mining. Knowl Inf Syst (2008) 14:1–37
http://doi.org/10.1007/s10115-007-0114-2
注:微妙な点差…の点は⾒なかったことに
#1 C4.5
#10 CART
やっぱり「⽊」は⼈気なのであった!
本⽇お伝えしたい事
「⽊」や「森」っていいよね…
根(root)
葉(leaf)
森 = ⽊が複数
⽊(tree) 森(forest)
節(node)
枝刈り
(pruning)
「⽊」と「森」
本⽇のトピック
機械学習における「⽊」や「森」のモデル
① 交互作⽤と合成変量
② 決定⽊と回帰⽊
③ 加法⽊と回帰森 〜⽊のアンサンブル♪〜
A. 決定⽊って古臭くない?枯れた印象で使ったこともない。

→実は今、巷で⼤⼈気なんです!
B. 結構気軽に使ってるけど背景・歴史や周辺を知らない。

→普通の本にはあまり記述なくて悲しいので今⽇語りたい!
「⽊」の系譜: 3つの起源
ID3 (Quinlan 1986)
C4.5 (Quinlan 1993)
M5 / ʻmodel treesʼ (Quinlan 1992)
M5ʼ (Wang & Witten 1997)
CLS (Hunt+ 1966) AID (Morgan & Sonquist 1963)
The CLS family The AID / CART family
THAID (Messenger & Mandell, 1972)
CHAID (Kass 1980)
CART (Breiman+ 1984)
MARS (Friedman 1991)
⽊型線形回帰研究 (Breiman & Meisel 1976)
⽊型線形回帰研究 (Friedman 1979)
LazyDT (Friedman+ 1996)
Option Trees (Buntine 1992)
also known as ʻand-or treesʼ
C5.0/See5 (Quinlan) Cubist (Quinlan)
RETIS (Karalic & Cestnik 1991)
HTL (Torgo 1997)
QUEST (Loh & Shih 1997)
CTNNFE (Guo & Gelfand 1992)
❶「概念学習」(機械学習) ❷「交互作⽤同定」(統計学) ❸「⾮線形(ノンパラメトリック)回帰」(統計学)
Classification Regression sideway…
CRUISE (Kim & Loh, 2001)
HuntのCLS(Concept Learning Systems)は概念学習を⽬的としたプ
ログラムで当時の⼈⼯知能研究の本流の論理的タスクを念頭にしてい
た。だからその直系のID3は離散値の変数のみの想定で設計された。
原著1983年出版

訳書1987年出版
「⽊」⼿法理解のための歴史的事情 70s〜90s
「⽊」の系譜: ⾖知識?
• ID3の実体は540⾏のPascalプログラムだった
• ID3はIterative Dichotomiser 3に由来とわかっているがC4.5の名前の由
来をQuinlanは著作で語っていない。⼀説ではCは「C⾔語での実装」の意
で4.5はversionと⾔われている(当時C⾔語で実装することはちょっとし
たステータスだったので⾔いたかった?)。それを踏まえて(?)Weka(Java)
の実装はJ4.8と呼ばれている。
• HuntはQuinlanの学位論⽂の指導教官であるが、テーマはCLSやC4.5と
は全く別らしく、共著論⽂から察するに「⾃動定理証明」と思われる。
• Breiman+のCART本の序によれば、彼らの研究はAID・THAIDの延⻑上
にあるが、1973年頃、BreimanとFriedmanは独⽴に研究を始めた(「⾞
輪の再発明をした」と⾔っている)。その後、⼆⼈の研究は合流しStone
が加わってCARTとしてまとまった。Olshenは医療応⽤で実際に⽊モデル
をユーザとして使っており⼿法開発にContributerとして合流した様⼦。
本⽇のトピック
機械学習における「⽊」や「森」のモデル
① 交互作⽤と合成変量
② 決定⽊と回帰⽊
③ 加法⽊と回帰森 〜⽊のアンサンブル♪〜
Q. 決定⽊って古臭くない?

→実は今、巷で⼤⼈気なんです!
Q. 結構気軽に使ってるけど背景・歴史や周辺を知らない?

→普通の本にはあまり記述なくて悲しいので今⽇語りたい!
何らかの「変数間の”絡み”」(交互作⽤=interaction)の表現が必要
他の変数の値と独⽴に効果を与える
線形モデルでは他の変数値に依存した条件付き効果は表現できない 

(e.g. XORやParityの学習)
が1増えたら
が  増える
線形モデルと交互作⽤(Interaction)
の値が⼤きいときと⼩さいときで の値を変えたりできない
⼀般の現実データのモデルでは…
線形モデル

(Perceptron)
どんな識別写像ならʼ学習可能ʼ
なのかに関する数学的検討結果

(⾮常に⾯⽩い本)
Minsky & Papert, Perceptrons, 1969
⼊⼒画像を0/1画像とすれば
これは「論理関数の学習」の

問題 (確率・統計と関係ない)
余談 AI冬の時代をもたらしたとされる例のアレ?
交互作⽤(Interaction)と合成変量
線形モデル + 交互作⽤項
ポイント:⺟数に関しては線形のまま (⾮線形モデルではない!)
積項を合成特徴量として
加えれば単なる線形学習
合成の仕⽅(交互作⽤項)が⾮線形(例えば積項)である点が⾮常に重要!
積項に替えて⼀般の合成変量を使う 変換操作⾃体を関数とし陽に求めない
派⽣形
が1増えたら
が 増える
GAM (⼀般化加法モデル) カーネル法
参考) FM (Factorization Machines)と多項式回帰
• カーネル法(SVMやカーネル回帰): 有⼒な⽅法だが、計算に通常
サンプル数の⼆乗のオーダがかかり実データにスケールしない…
• 変数の絡みを直接考慮する⽅法としては最近Factorization
Machines(Rendle, 2010)もKaggleなどで⼈気
• libfm(FM)やlibffm(Field-Aware FM)という実装がある
• Rendleさん(現Google)はFM発表時、阪⼤産研(鷲尾研)所属
2次PolyReg
2次FM
(低rank) Matrix Factorization
効率的計算, スパースモデリング, Overfit回避のメリット
確認:合成変量を加えればただの線形計算
に2次曲線を当てはめよ
多次元でも要領は同じ
合成変量はいろいろ有り得る
(当てはめる関数形を変えられる)
Note: GAM(スプライン回帰等)やカーネル回帰も線形計算でいける
加法⽊/回帰森のイメージ
…
注:係数掛けてもいいけど各ノード値に定数かけるのと同じなので
表記の問題で気にしなくてよい
回帰⽊ 対応する再帰分割 “閾値関数の交互作⽤項のみの関数系”
… 0-1変量の(重み付きの)積和形
加法⽊/回帰森のイメージ
…
Bagged Trees, Boosted Trees, Gradient Boosted Trees (GBM),
Random Forests, Extra Trees, Regularized Greedy Forests, …
“閾値関数の交互作⽤項”の加法形
本⽇のトピック
機械学習における「⽊」や「森」のモデル
① 交互作⽤と合成変量
② 決定⽊と回帰⽊
③ 加法⽊と回帰森 〜⽊のアンサンブル♪〜
Q. 決定⽊って古臭くない?

→実は今、巷で⼤⼈気なんです!
Q. 結構気軽に使ってるけど背景・歴史や周辺を知らない?

→普通の本にはあまり記述なくて悲しいので今⽇語りたい!
決定⽊
決定⽊
決定⽊
決定⽊
回帰⽊
0.5 -0.5
ここにきた
サンプル
の平均値
ここにきた
サンプル
の平均値
回帰⽊
0.5
-0.8-0.1
回帰⽊
-0.8-0.10.10.8
回帰⽊
-0.10.10.8
-0.5-0.9
回帰⽊ (2次元)
Tree Depth = 3Tree Depth = 1 Tree Depth = 5
http://arogozhnikov.github.io/2016/06/24/gradient_boosting_explained.html
Gradient Boosting explained [demonstration]
Depth>2の場合, 交互作⽤(変数間の絡み)の表現が可能!
Automatic Interaction Detection (AID)
回帰⽊ AID (Morgan & Sonquist 1963)
決定⽊ Theta AID (Messenger & Mandell, 1972)
ここまでは交互作⽤同定の⼿法として70sには既に出ていたアイデア
統計学界で発表されたが、たいして注⽬されなかった上、結構(ボ
ロクソな?)批判を浴びる… 😫
• AIDはoverfitすることをsimulationで指摘 (Einhorn, 1972)
• ⾼い相関を持つ変数が存在する場合、⽚⽅しか⽊に現れないʼmaskingʼ
の問題)ので変量の解釈(重要性)について、偽の結論(spurious
conclusion)を与えてしまう (Doyle, 1973)
• 「データはある分布からの標本」という基本概念, データに内在す
るʼsampling variabilityʼを無視している (Bishop+, 1975)
⽊業界(?)の⼆⼤スター: CARTとC4.5
CART (Breiman, Friedman, Olshen, Stone 1984)
C4.5 (Quinlan 1993)
• 学習が⾼速、変数の単調変換に対して不変、離散・連続を同時
に扱える、⽋損値・異常値OK
• コンピュータの広まりに伴い、統計学の前提から逸脱するデー
タが世の中に出はじめた (学術的対象から実社会のツールへ)
• 伝統的な統計学は、⼿元にある少ない事例からʼ⼿元にないことʼ
を語るという無理設定を乗り越えるため、精密な実験計画を通
して無作為抽出性・正規分布性を担保したデータを(時に暗黙に)
前提としていた

(だから標本数が10〜20個でもデータの背後について語れる)
ʻTwo Culturesʼ
「統計学・モデリング」vs「機械学習・データマイニング」!?
↓これをもじってるL. Breiman,
Statistical Modeling: The Two Cultures. 

Statist. Sci. 16(3), 2001, 199-231.
Jerome H. Friedman,
Data mining and statistics: Whatʼs the connection?
Proc. the 29th Symposium on the Interface Between
Computer Science and Statistics, 1997.
「意思疎通ができないような、また意思疎通しようとしないような⼆つの⽂化の存在は危
険である。科学がわれわれの運命の⼤半、すなわちわれわれの⽣死を決定しようという時
代に、単に実際的な⾯からだけ考えても、それは危険なことである。(C. P. SNOW)」
ちなみに、有名なコレは“⾃然科学”(理系) vs “⼈⽂科学”(⽂系)の話
CARTとC4.5
AID・THAIDと(Split基準や2分/多分の他に)何がちがう?
ややこしポイント:いずれも本+実装で有名に
• CARTとは⼿法名ではなくフレームワーク名
• C4.5とは⼿法名ではなくプログラム名
エントロピー, Gini指数, 分類誤差, etc.
←6割ソースコード←理論解析を含む多様な分析
CART®
MARS®
TreeNet®
Random Forests®
Salford Systems社の商品
登録商標!
C4.5 Release 8.0
をGPLで公開
RuleQuest社
開発14年の細かい

技術知識の集⼤成

(学術書より技術書
の雰囲気…)
例:CARTのBayes-risk consistency
(Gordon & Olshen 1978, 1980)
CARTとC4.5の主な特徴
❶ ボトムアップな”枝刈り(pruning)”
❷ Missing Valueへの対応
Tree GrowthをStopping Ruleで停⽌するのではなく

⼀旦成⻑しきってから「刈り込み(prune)」
Cost Complexity Pruning (CART) vs Error-Based Pruning (C4.5)
代⽤分割/Surrogate Split (CART) vs 確率的処理(C4.5)
❸ 結果の解釈 (アナリストへのinsightの提供)
現実的なシステムでは必須の機能
Variable Importance (CART) vs If-Thenルール出⼒・縮約 (C4.5)
⽊のSimplification…Data Miningツールは分析結果をどう提⽰すべき?
予測の分散が⾮常に⼤きい。データが少し違うだけで⼤きく

異なる分割を与えうるため、解釈はある種当てにならない!
• 最適な決定⽊構成はそもそもNP困難 (Hyafil & Rivest 1976)
• 広く使われる決定⽊学習アルゴリズムはGreedyな再帰分割
• ⽊学習に関するアルゴリズム研究へ
• 厳密法の例: OPT (Bohanec & Bratko 1994), DL8 (Nijssen 2007)
• 効率化の例: Rainforest (Gehrke+ 2000), GATree (Papagelis+ 2000)
CARTとC4.5の主な問題:離散的⽅法の代償
❶ ⽊構造の不安定性 (Instability of Structures)
❷ 計算の効率性 (Computational Efficiency)
• 森(⽊のEnsemble)研究の⼤きな動機:Permutation Test等による安
定化(CTREE等)は可能だが本質的な不安定性が解消するわけではない
ʼ斜め(oblique)が不得意ʼ(低平滑性)の問題…
• ʻObliqueʼ decision trees: OC1 (Murthy+ 1993)
• Rotation forest (Rodriguez+ 2006)
• 低次PCA成分など線形合成変量を加える?
• 線形モデルとBlending(Stacking)する?
対応法
(当然の)拡張:モデル⽊と多変量⽊
• M5 (Quinlan, 1992)

→ Open-Source実装

M5ʼ (Wang & Witten 1997)
❶単変量によるSplitでいいの?
❷定数値による予測でいいの?
Multivariate Trees

(線形分割など多変量で置換)
Model Trees

(線形回帰などで置換)
• FACT (Loh & Vanichsetakul, 1988)
• RETIS (Karalic & Cestnik 1991)
• QUEST (Loh & Shih, 1997)
この❶と❷の⼯夫で実⽤的な
良いモデルが作れるものかは

⽊業界最⼤のOpen Problem

→ 現状ではこの⽅向は下⽕で⽊は
単純化して森(ensemble)で対処
CART・C4.5以後の展開
その他、⾊々な研究は出ているものの…

CTREE (Hothorn+ 2006), MOB (Zeileis et al., 2008),
ADTree (Freund & Mason 1999), etc.
M5 

→ HTL (Luís Torgo) … 葉に任意の回帰モデル
RETIS

→ QUEST→CRUISE→GUIDE (Wei-Yin Loh) 

…線形分割も含み、不偏な推定を得る回帰⽊
主には現状「⽊から森(ensemble)へ」(後述)
C4.5以後のQuinlan: C5.0/See5とCubist
C5.0/See5
Cubist
参考) Rのʼcaretʼ
http://www.rulequest.com/see5-info.html
http://www.rulequest.com/cubist-info.html
• C4.5の改良: C5.0(Linux版), See5(Windows版)
• Single Thread Linux版のみGPLで公開
• ⼩さい⽊を⽣成, 速い, 省メモリ, Boosting⼊り, …
• 回帰 (M5の延⻑線上のモデル⽊)
• Single Thread Linux版のみGPLで公開
• 同じく, 速い, ⾼効率?
再掲:C4.5とはプログラムの名前(XGBoost等もだけど)
本⽇のトピック
機械学習における「⽊」や「森」のモデル
① 交互作⽤と合成変量
② 決定⽊と回帰⽊
③ 加法⽊と回帰森 〜⽊のアンサンブル♪〜
Q. 決定⽊って古臭くない?

→実は今、巷で⼤⼈気なんです!
Q. 結構気軽に使ってるけど背景・歴史や周辺を知らない?

→普通の本にはあまり記述なくて悲しいので今⽇語りたい!
⽊から森へ:加法⽊/回帰森のイメージ
…
Bagged Trees, Boosted Trees, Gradient Boosted Trees (GBM),
Random Forests, Extra Trees, Regularized Greedy Forests, …
各々の⽊は単純化して森(⽊のensemble)にする
1次元の回帰⽊の印象…
どうがんばっても

カクカクするのでは…
横棒しか引けないのは

しょぼすぎな気が…
• MARS
• バギング
• ブースティング
回帰⽊ vs Overfitted
回帰⽊ vs MARS
MARS (Multivariate adaptive regression splines)
※ MARSは⼀⾒分かりづらいが回帰⽊の亜種とみなすことが可能
y=0
y=0.89 + -0.36 max(0,x-0.99)
+ -0.88 max(0,0.99-x)
y=1.23 + -0.59 max(0,x-0.99)
+ -1.32 max(0,0.99-x)
+ 1.41 max(0,x-4.96)
y=0.98 + -0.23 max(0,x-0.99)
+ -1.0 max(0,0.99-x)
+ 1.69 max(0,x-4.96)
+ -0.51 max(0,x-2.31)
y=0.95 + -0.12 max(0,x-0.99)
+ -0.96 max(0,0.99-x)
+ 0.77 max(0,x-4.96)
+ -0.79 max(0,x-2.31)
+ 0.87 max(0,x-2.31)
y=0.66 + --0.29 max(0,x-0.99)
y=0.94 + -0.08 max(0,x-0.99)
+ -0.94 max(0,0.99-x)
+ 0.91 max(0,x-4.96)
+ -0.92 max(0,x-2.31)
+ 0.49 max(0,x-2.31)
+ 0.34 max(0,x-2.31)
❶
❶
❷
❸ ❹ ❺
❻
❷ ❸
❹ ❺ ❻
回帰⽊ vs Bagged Trees
Bagging (ブートストラップ標本上のモデル平均化)
回帰⽊ vs Random Forests
注:この場合1次元なのでmisleadingなことはヒミツ
Bagging + Feature Bagging (a.k.a Random Subspace法)
回帰⽊ vs Gradient Boosted Trees (GBM)
Boosting
「森(アンサンブル)」の作り⽅
❶ バギング/ペースティング/ランダムフォレスト
❷ ブースティング/アーキング
❸ ランダム⽊
データ
どうやって

森を⽣成する?
…
「データからランダムリサンプル→⽊を⽣成」を繰り返す
「⽊を⽣成→これまでに⽣成した⽊(森)で説明できない部分
を説明する⽊を⽣成」を繰り返す
「毎回異なる乱数とデータを使って⽊を⽣成」を繰り返す
❶バギング
Bagging = Bootstrap Aggregating (ブートストラップ集約)
推定された予測関数の分散を低減させるための⼿法

(CARTのような⾼分散、低バイアスの⼿法に対して有効)
例) 決定⽊は予測分散が⼤きい

= サンプルが少し変化すると⽊も変化してしまう。
n個のサンプルの各々が

「選ばれない」確率
ブートストラップ
⼿元の訓練データn個から
重複を許してn個リサンプル

(3割くらいをランダムに抜く

操作にだいたい相当)
※ 重複を許さない版をPastingと呼ぶ
ブートストラップ標本から学習したモデルを平均するだけ!
❶バギング
ブートストラップ標本から学習したモデルを平均するだけ!
❶バギング: Bias-Variance分解
分散が
1/10に
c.f. Bagging (Bootstrap集約)

この感じをBootstrapで経験分布
からのリサンプリングでやる
最適値
High bias
High variance
Low bias
High variance
High bias
Low variance
Low bias
Low variance
標本から
の推定値
予測の偏り(bias)と分散(variance)は同時には⼩さくできない
バギングの効果は各々の弱学習器が独⽴のとき最も⾼い

→ 現実的には⽊同⼠が似通ってしまい⾼い相関を持ってしまう…
バギングの効果:分散がσ2
のB個の確率変数の平均値の分散
独⽴同⼀分布に従う場合
正の相関ρを持つ場合
各スプリット時に毎回⼊⼒変数のSubsetをランダム選択(Subsetサイズ
は通常√特徴数だが調整可能パラメタ)することで、⽣成される⽊の相関
を低くしてバギング効果を⾼める!
❶バギング: ランダムフォレスト
(森の⽊々には⽣物多様性が必要だよね)
ランダムフォレストのアイデア Feature Bagging/Random Subspace
「森(アンサンブル)」の作り⽅
❶ バギング/ペースティング/ランダムフォレスト
❷ ブースティング/アーキング
❸ ランダム⽊
データ
どうやって

森を⽣成する?
…
「データからランダムリサンプル→⽊を⽣成」を繰り返す
「⽊を⽣成→これまでに⽣成した⽊(森)で説明できない部分
を説明する⽊を⽣成」を繰り返す
「毎回異なる乱数とデータを使って⽊を⽣成」を繰り返す
❷ブースティング
バギングは平均化ブースティングは最適化
例: 勾配ブースティング (Friedman 1999; Mason+ NIPSʼ99)
…
「現在までの森」で説明が不⼗分な箇所を説明する⽊を逐次追加し修正していく
「現在までの森」
⽊
⼿法の差:どのように新⽊を⽣成するか?係数をいつどのように決めるか?
GBM/Gradient Tree Boosting, GBDT/GBRT, MART, TreeNet,
AnyBoost, … (ややこしポイント:歴史的経緯で様々な名前が…)
❷ブースティング: 勾配ブースティング(GBM)
⽊  をパラメタとする最⼩化
(最適化)したい⽬的関数
最適化のための勾配降下の更新
勾配ブースティング

(Friedman 1999; Mason+ NIPSʼ99)
真の関数は不明で訓練データ上の関数値のみが
⼿に⼊る状況 → 回帰⽊で近似(教師付き学習)
❷ブースティング
GBM, 勾配ブースティング
http://arogozhnikov.github.io/2016/06/24/gradient_boosting_explained.html
勾配を良く近似する回帰⽊
…
…
⼆乗誤差の場合、真のyとの差分
性質の例
❷ブースティング: 派⽣型の⽊アンサンブル
• Regularized Greedy Forests, RGF 

(Johnson & Zhang 2014)
各反復:
葉split or 新⽊⽣成
• Importance Sample Learning Ensemble, ISLE 

(Friedman & Popescu 2003)
• 部分標本(1/2サイズ以下)に対して⽊をBoostingで⽣成
• 多数⽣成し終わったらLASSOで係数を決めて加法⽊に → ⼩さい森を⽣成可
• GBMでは森(加法⽊)の構成のため⽊を逐次的に追加

vs RGFでは森全体を直接にGreedy最適化
• 勾配ブースティングではなくFully Correctiveな

ブースティング(⽊の係数を毎回Update)
• ブースティング or バギング(ランダムフォレスト)の問題の対処
❷ブースティング: XGBoostの何が嬉しいか
• Hyperparameter Tuningの問題に落とせる
• エンジニアリング的な学習計算の⾼速化・効率化の⼯夫
XGBoost (Chen & Guestrin KDDʼ16)
パラメタ調整で広い表現が可能 + Bayesian最適化等も併⽤化
通常、森⽣成では各⽊のサイズ・深さ・葉ノードの最⼩サ
ンプル数, などなどの「陽な構造制約」で複雑度を調整する
→ XGBoostでは更にL2正則化など⽬的関数⾃体に正則化
• ⽊⽣成に陽な正則化が可能
BaggingとFeature Baggingも調整パラメタで実施でき、
バギングのほうが精度が出る問題に関しても対応可
「森(アンサンブル)」の作り⽅
❶ バギング/ペースティング/ランダムフォレスト
❷ ブースティング/アーキング
❸ ランダム⽊
データ
どうやって

森を⽣成する?
…
「データからランダムリサンプル→⽊を⽣成」を繰り返す
「⽊を⽣成→これまでに⽣成した⽊(森)で説明できない部分
を説明する⽊を⽣成」を繰り返す
「毎回異なる乱数とデータを使って⽊を⽣成」を繰り返す
❸ランダム⽊: ランダム合成変量(ELM & RC)
→ 交互作⽤を取込めてバリエーションがあればOKなら、もしか
してランダム変換で良いのでは?という極論 (実際に結構良い)
: : :
FC FC
: :
FC FC
Extreme Learning Machine, ELM

(Huang 2006)
Reservoir Computing, RC

(e.g. Schrauwen+ 2007)
⼊⼒ 出⼒
時系列
⼊⼒
出⼒
ランダム初期化(学習しない)ランダム初期化(学習しない)
背景: Random Projectionsの⾼い有効性
ランダム結合
変数間の交互作⽤を取り込みたいが、やり⽅は無限にある…
例) 多項式/積項なら何次まで? カーネル法やGAMなら関数型は?
❸ランダム⽊
• Extremely Randomized Trees
(ExtraTrees, Geurts+ 2006)
• Variable Random Trees
(VR Trees, Liu 2008)
各splitで、対象変数 と閾値 の
いずれも完全にランダムに決める。
確率pでCARTのノード分割、

確率1-pでExtraTreesのノード分割
Accuracy Time
Constant 0.10 6.76 ms
Decision Tree 0.88 20.1 s
Random Forest 0.97 41.7 s
Extra Trees 0.97 41.5 s
XGBoost 0.94 21m 12s
GBM 0.95 45m 36s
k-NN 0.97 29.9 s
SVM 0.94 8m 40s
パラメタ調整なしで、あくまで参考値
MNIST 784次元 (28x28画像)

訓練60000個 テスト10000個
蛇⾜: 問題が分類なら
よほど⼤規模でない限り

k-NNは必ず試すべき
(アホみたいな⽅法だが

理論的に深く良い⽅法)
「解釈性/説明性/透明性」という神話
• そもそも「解釈性」とは定義が不定・主観的でアヤシイ概念…
• ⽊型アンサンブルの解釈性の担保
• Feature Importance
• Partial Dependence Plot (PDP)
• 交互作⽤の共起も頻度解析できる?
https://arxiv.org/abs/1606.03490
The Mythos of Model Interpretability
• 決定⽊は「解釈性が⾼い」と⾔われるが不安定性の問題があり、⽊の

構造は偶発的ノイズで⼤きく変わり得るため、ほとんど当てにならない

→ 森(Ensemble)の指標のほうが良い?
「何を」「何のために」解釈する?
2016 ICML Workshop on Human Interpretability of Machine Learning
• データ背後の法則性が⼈間に解釈可能なほど単純化可能とは限らない
決定⽊単独の場合、⽊の構造を⾒れば解釈は⾮常に容易であるが

複数の⽊の組合せの場合は別の⼿法で説明する必要が⽣じる。
• データマイニングでは⼊⼒変数がすべて均⼀に応答Yに影響が

ある場合はほとんどなく、ほんの⼀部の変数のみが応答Yに

決定的な影響を与える。
• 変数Xjのfeature importance = sqrt(⽊の節の中でXjが選ばれた節
の「⼆乗誤差の改善」の平均値) …importanceの定義は⾊々ある
• 部分依存図(partial dependency plot, PDP):変数Xjの値が変化する
と応答Yがどのように変化するか (⽊から⾼速に計算可能)
Feature ImportanceとPartial Dependency Plot
Feature ImportanceとPartial Dependency Plot
Feature Importance(相対的影響度)・Partial Dependency Plot (部分依存図)の実例
備考) Stacking/Blending: メタ特徴アンサンブル
Netflix Prizeなど競技コンペ技術Stacking/Blendingとして広まった
訓練サンプル1
訓練サンプル2
訓練サンプル3
訓練サンプル4
訓練サンプル5
訓練サンプル6
訓練サンプル7
訓練サンプル8
訓練サンプル9
訓練サンプル10
任意の予測器
ただしこのサンプルは
予測器の学習に使⽤しない
(Out-of-Sample Estimate)
この予測値⾃体を追加特徴量に

(メタ特徴量)
学習
⼊⼒
CV予測
Stacked Generalization(Wolpert 1992; Breiman 1996)
典型的Churn Predictionタスク: MOOC(XuetangX)のdropout確率予測 (賞⾦$20,000)
Techniques (Tricks) for Data Mining Competitions ⼩嵜 耕平(@smly)
参加821チーム中の優勝者の最終モデル構成(+ちょっとleakyな特徴量が効いた様⼦?)
• 最終層Linear Stacker
• 3段Stackingだが最終

Stackerには1層,2層の

メタ特徴も⼊れる
• GBMやNN + LR のStack重要
• バリエーションが⼤事(たぶん)
• 個⼈的にはKRRではなく
ET(Extra Trees)が2段⽬でも
使われたのが興味深い…
Case Study: KDDCup 2015 優勝戦略
https://speakerdeck.com/smly/techniques-tricks-for-data-mining-competitions
Decision Jungles 

(Shotton+ NIPS 2013)

→ Microsoft Azure MLで使える
Deep Forests 

(Zhou & Feng IJCAI 2017)
Deep Neural Decision Forests 

(Kontschieder+ ICCV 2015)
当然の流れ:”Deep化”と技術研究 (今後に期待!)
森はいいけど深い森の闇は深いかも…😏
富⼠樹海の⽴て看板
http://kaigai-matome.net/
archives/35551967.htmlDeep Convolutional Decision Jungle

(Baek+ 2017)
まとめ:いやあ、「⽊」や「森」っていいよね…
→ 機械学習における「⽊」や「森」のモデル
① 交互作⽤と合成変量
② 決定⽊と回帰⽊
③ 加法⽊と回帰森 〜⽊のアンサンブル♪〜
合成変量とアンサンブル: 回帰森と加法モデルの要点
初めて⽊や森の存在を知った⽅や⾷わず嫌いだった⽅は

PythonやRで⾮常に簡単に使えるので使ってみてください!
おまけ:離散構造(⽊, 森, グラフ)を伴う機械学習
[北⼤⼈図鑑 No.5]

機械学習研究者・瀧川⼀学さん

情報科学研究科 情報理⼯学専攻

准教授
3つのキーフレーズ:
1.ネットワーク構造をともなう機械学習
〜⼤規模データが異分野の境界領域をつなぐ〜
2.ドイツ、⾳楽、娘の成⻑から感じるAIの哲学とは?
3.熟練の経験と勘を、だれもが使えるツールに
http://costep.open-ed.hokudai.ac.jp/like_hokudai/contents/article/1218/
https://youtu.be/XNz3D26wy0o

More Related Content

What's hot

ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門Retrieva inc.
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Shohei Taniguchi
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展Deep Learning JP
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-EncoderDeep Learning JP
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based ModelDeep Learning JP
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装Shohei Taniguchi
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明tmtm otm
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 

What's hot (20)

ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model[DL輪読会]モデルベース強化学習とEnergy Based Model
[DL輪読会]モデルベース強化学習とEnergy Based Model
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明テーブル・テキスト・画像の反実仮想説明
テーブル・テキスト・画像の反実仮想説明
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 

Viewers also liked

データ社会を生きる技術 〜人工知能のHopeとHype〜
データ社会を生きる技術 〜人工知能のHopeとHype〜データ社会を生きる技術 〜人工知能のHopeとHype〜
データ社会を生きる技術 〜人工知能のHopeとHype〜Ichigaku Takigawa
 
続・本当にあった怖い話 クローラ編
続・本当にあった怖い話 クローラ編続・本当にあった怖い話 クローラ編
続・本当にあった怖い話 クローラ編Yukino Ikegami
 
出会って5行でディープラーニング推論
出会って5行でディープラーニング推論出会って5行でディープラーニング推論
出会って5行でディープラーニング推論Yukino Ikegami
 
本当にあった怖い話 「Hadoopで炎上しかけた話」
本当にあった怖い話 「Hadoopで炎上しかけた話」本当にあった怖い話 「Hadoopで炎上しかけた話」
本当にあった怖い話 「Hadoopで炎上しかけた話」Yukino Ikegami
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...弘毅 露崎
 
Proof summit 2017 for slideshare
Proof summit 2017 for slideshareProof summit 2017 for slideshare
Proof summit 2017 for slideshareKeisuke Yahata
 
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習Ichigaku Takigawa
 
Pythonで機械学習を自動化 auto sklearn
Pythonで機械学習を自動化 auto sklearnPythonで機械学習を自動化 auto sklearn
Pythonで機械学習を自動化 auto sklearnYukino Ikegami
 
RandomForest
RandomForestRandomForest
RandomForestgoodbaton
 
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜Hiroki Yamamoto
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例Takanori Nakai
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性Ichigaku Takigawa
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
KaggleのテクニックYasunori Ozaki
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forestYasunori Ozaki
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙Satoshi Hara
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだことnishio
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 

Viewers also liked (20)

データ社会を生きる技術 〜人工知能のHopeとHype〜
データ社会を生きる技術 〜人工知能のHopeとHype〜データ社会を生きる技術 〜人工知能のHopeとHype〜
データ社会を生きる技術 〜人工知能のHopeとHype〜
 
続・本当にあった怖い話 クローラ編
続・本当にあった怖い話 クローラ編続・本当にあった怖い話 クローラ編
続・本当にあった怖い話 クローラ編
 
出会って5行でディープラーニング推論
出会って5行でディープラーニング推論出会って5行でディープラーニング推論
出会って5行でディープラーニング推論
 
本当にあった怖い話 「Hadoopで炎上しかけた話」
本当にあった怖い話 「Hadoopで炎上しかけた話」本当にあった怖い話 「Hadoopで炎上しかけた話」
本当にあった怖い話 「Hadoopで炎上しかけた話」
 
Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...Identification of associations between genotypes and longitudinal phenotypes ...
Identification of associations between genotypes and longitudinal phenotypes ...
 
Proof summit 2017 for slideshare
Proof summit 2017 for slideshareProof summit 2017 for slideshare
Proof summit 2017 for slideshare
 
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習
 
Pythonで機械学習を自動化 auto sklearn
Pythonで機械学習を自動化 auto sklearnPythonで機械学習を自動化 auto sklearn
Pythonで機械学習を自動化 auto sklearn
 
RandomForest
RandomForestRandomForest
RandomForest
 
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
データサイエンスの全体像
データサイエンスの全体像データサイエンスの全体像
データサイエンスの全体像
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forest
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
決定木学習
決定木学習決定木学習
決定木学習
 
Q prop
Q propQ prop
Q prop
 

More from Ichigaku Takigawa

データ社会を生きる技術
〜機械学習の夢と現実〜
データ社会を生きる技術
〜機械学習の夢と現実〜データ社会を生きる技術
〜機械学習の夢と現実〜
データ社会を生きる技術
〜機械学習の夢と現実〜Ichigaku Takigawa
 
機械学習を科学研究で使うとは?
機械学習を科学研究で使うとは?機械学習を科学研究で使うとは?
機械学習を科学研究で使うとは?Ichigaku Takigawa
 
A Modern Introduction to Decision Tree Ensembles
A Modern Introduction to Decision Tree EnsemblesA Modern Introduction to Decision Tree Ensembles
A Modern Introduction to Decision Tree EnsemblesIchigaku Takigawa
 
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...Ichigaku Takigawa
 
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開Ichigaku Takigawa
 
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考Ichigaku Takigawa
 
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜Ichigaku Takigawa
 
"データ化"する化学と情報技術・人工知能・データサイエンス
"データ化"する化学と情報技術・人工知能・データサイエンス"データ化"する化学と情報技術・人工知能・データサイエンス
"データ化"する化学と情報技術・人工知能・データサイエンスIchigaku Takigawa
 
自然科学における機械学習と機械発見
自然科学における機械学習と機械発見自然科学における機械学習と機械発見
自然科学における機械学習と機械発見Ichigaku Takigawa
 
幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro幾何と機械学習: A Short Intro
幾何と機械学習: A Short IntroIchigaku Takigawa
 
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割Ichigaku Takigawa
 
Machine Learning for Molecules: Lessons and Challenges of Data-Centric Chemistry
Machine Learning for Molecules: Lessons and Challenges of Data-Centric ChemistryMachine Learning for Molecules: Lessons and Challenges of Data-Centric Chemistry
Machine Learning for Molecules: Lessons and Challenges of Data-Centric ChemistryIchigaku Takigawa
 
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいことIchigaku Takigawa
 
自己紹介:機械学習・機械発見とデータ中心的自然科学
自己紹介:機械学習・機械発見とデータ中心的自然科学自己紹介:機械学習・機械発見とデータ中心的自然科学
自己紹介:機械学習・機械発見とデータ中心的自然科学Ichigaku Takigawa
 
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱Ichigaku Takigawa
 
Machine Learning for Molecular Graph Representations and Geometries
Machine Learning for Molecular Graph Representations and GeometriesMachine Learning for Molecular Graph Representations and Geometries
Machine Learning for Molecular Graph Representations and GeometriesIchigaku Takigawa
 
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれからIchigaku Takigawa
 
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)Ichigaku Takigawa
 
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから (2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから Ichigaku Takigawa
 

More from Ichigaku Takigawa (20)

機械学習と自動微分
機械学習と自動微分機械学習と自動微分
機械学習と自動微分
 
データ社会を生きる技術
〜機械学習の夢と現実〜
データ社会を生きる技術
〜機械学習の夢と現実〜データ社会を生きる技術
〜機械学習の夢と現実〜
データ社会を生きる技術
〜機械学習の夢と現実〜
 
機械学習を科学研究で使うとは?
機械学習を科学研究で使うとは?機械学習を科学研究で使うとは?
機械学習を科学研究で使うとは?
 
A Modern Introduction to Decision Tree Ensembles
A Modern Introduction to Decision Tree EnsemblesA Modern Introduction to Decision Tree Ensembles
A Modern Introduction to Decision Tree Ensembles
 
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...
Exploring Practices in Machine Learning and Machine Discovery for Heterogeneo...
 
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開
機械学習と機械発見:自然科学融合が誘起するデータ科学の新展開
 
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
 
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜
小1にルービックキューブを教えてみた 〜群論スポーツの教育とパターン認知〜
 
"データ化"する化学と情報技術・人工知能・データサイエンス
"データ化"する化学と情報技術・人工知能・データサイエンス"データ化"する化学と情報技術・人工知能・データサイエンス
"データ化"する化学と情報技術・人工知能・データサイエンス
 
自然科学における機械学習と機械発見
自然科学における機械学習と機械発見自然科学における機械学習と機械発見
自然科学における機械学習と機械発見
 
幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro
 
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
決定森回帰の信頼区間推定, Benign Overfitting, 多変量木とReLUネットの入力空間分割
 
Machine Learning for Molecules: Lessons and Challenges of Data-Centric Chemistry
Machine Learning for Molecules: Lessons and Challenges of Data-Centric ChemistryMachine Learning for Molecules: Lessons and Challenges of Data-Centric Chemistry
Machine Learning for Molecules: Lessons and Challenges of Data-Centric Chemistry
 
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと
機械学習を自然現象の理解・発見に使いたい人に知っておいてほしいこと
 
自己紹介:機械学習・機械発見とデータ中心的自然科学
自己紹介:機械学習・機械発見とデータ中心的自然科学自己紹介:機械学習・機械発見とデータ中心的自然科学
自己紹介:機械学習・機械発見とデータ中心的自然科学
 
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
機械学習・機械発見から見るデータ中心型化学の野望と憂鬱
 
Machine Learning for Molecular Graph Representations and Geometries
Machine Learning for Molecular Graph Representations and GeometriesMachine Learning for Molecular Graph Representations and Geometries
Machine Learning for Molecular Graph Representations and Geometries
 
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから
(2021.11) 機械学習と機械発見:データ中心型の化学・材料科学の教訓とこれから
 
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)
機械学習~データを予測に変える技術~で化学に挑む! (サイエンスアゴラ2021)
 
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから (2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
(2021.10) 機械学習と機械発見 データ中心型の化学・材料科学の教訓とこれから
 

Recently uploaded

IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 

Recently uploaded (7)

IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 

合成変量とアンサンブル:回帰森と加法モデルの要点