Deep forest

Deep Forest
~ニューラルネットの代替えに向けて~

• 森山直人（もりやまなおと）
• もともと中国国籍 ⇒ 帰化(国籍変更)して日本人に
• 趣味でpythonを始める（仕事はエンジニアではない）
• 勢いでディープラーニング始める（自然言語）
• 趣味でKaggleやってます

• すべて個人の見解による内容であり、所属会社、団体の公式見解
ではありません
• 概念理解を優先しているため、一部厳密の定義は割愛しています

今日話すこと
Deep forestという論文が界隈で注目され、論文に込められ
た並々ならぬ情熱に感銘を受け、
（論文通りに動くのなら）機械学習界隈に大きなインパクト
をもたらす可能性を感じた
Deep Forest:Towards An Alternative to Deep Neural Networks
https://arxiv.org/pdf/1702.08835.pdf

論文のサマリ
ニューラルネットと同等な計算精度を持つアンサンブル決定
木モデルを用いて、ニューラルネットの代替えを提案
• パラメータ調整の簡易化がもたらす計算速度
• GPUリソースを必要としない低リソース
• 木構造の性質である簡易な並列化
• 小規模なデータから効率よく学習可能

事前知識-決定木関連
決定木
-規則を設けて識別境界を設ける
アンサンブル学習
-複数の決定木の結果を合わせて識別器を作る
バギング
-複数の識別器の結果から多数決で出力を決める
ランダムフォレスト
-バギングに制限を設けて分散を抑える
この本がわかり
やすいです

事前知識-ニューラルネットワーク
入力層
中間層
出力層
中間層（隠れ層）をもつ全結合の有向グラフ
■強み
• 単調な非線形表現を積み重なることで、
複雑な非線形表現（合成関数）を獲得
• パターン認識問題が得意
■弱み
• 現在のデータだけでなく、過去の情報が必要な
問題は苦手
• 初期に学習された情報は忘れてしまう

ニューラルネットのココがだめ
• 大量なデータがないと精度が出ない
• ↑このデータを作るコストが高い
• 大量な計算資源を要する
• パラメータが多く、そのチューニングが大変
• 人の手を介さずに特徴を抽出できるのが利点と言われるが、
実際のところかなり細かいチューニングが必要
• 論理的な理解が難しい

gcForestのココが素晴らしい
※gcForestは本論文が提案するアンサンブル決定木モデル
• 少量なデータで学習できる
• パラメータが少なく、チューニングが簡易
• CPUのみのgcForestとGPUありのニューラルネットの
計算速度が互角
• 論理解析が簡単

以降gcForestの概念を論文に沿って
説明して行きます

gcForestの概念
• gcForestはmulti-Grained Cascade forestの略
• Cascadeはこんなイメージ
上流から下流へたくさんの段を構
成し情報が流れる
写真では不変な水が流れるが、本
モデルでは段ごとにそれぞれ計算
がなされる
http://www.geocities.jp/emkj20002000/newpage53.htmlより引用

Cascade forest
３クラス分類の問題をgcForestで解くケースを例を考える

Cascade forest
①学習デー
タ入力
②前ページのような
複数のcascade
(段)を構築
③各段ではそれぞれ決定木と
ランダムフォレストの２種類の
分類器を設ける
④出力段では３クラスそれぞれの
確率を出力

Cascade forest
一つの段の中で起きている計算は下記のようになる
①それぞれの決定器（ランダム
フォレストで計算を行い、出力ク
ラスの推定を行う
②最終出力では全てのフォ
レストの出力の平均を取る
※学習時には、過学習を防ぐためのクロスバリ
デーションは行われる

Multi-Grained Scanning
RNN(LSTM)の入力ミニバッチとCNNの畳込み概念を用いて学習デー
タから特徴量の抽出を行うことでさらに近い性能を引き出す
①時系列データを一定区間ごとにずらし
てミニバッチを作る。
（どちらかと言えばword2vecに近い）
②おなじみのCNNプーリング

gcForestの処理流れ
①Multi-Grained Scanningで前処理
ここでは3種類のプーリングを合算
②Cascade forestで出力計算

ベンチマーク
MNISTの画像分類 ORLデータセットの顔認識
GTZANデータセットの音楽分類生体データ（手の動き）認証
その他多数あり

まとめ
• 決定木ベースのアンサンブル学習であるランダムフォレ
ストを更に多層（段）で構築したgcForestを紹介した
• 著者のニューラルネットへの代替えに対する情熱が凄ま
じく、理論的に可能であることも感覚的に理解できる
• 利便性と低リソース観点から、XGBoostに次ぐ学習器と
して期待できそう（個人感）
• PythonかRで実装できたらKaggleで流行ると思われる

Deep forest

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (13)

More from naoto moriyama

More from naoto moriyama (6)

Recently uploaded

Recently uploaded (11)

Deep forest