More Related Content
More from Anchuuu Annaka (6)
集合知プログラミング勉強会(第7章, 前半)
- 2. 担当範囲
7章 決定⽊木
n 7.1 サインアップを予測する
n 7.2 決定⽊木⼊入⾨門
n 7.3 ツリーのトレーニング
n 7.4 最⾼高の分割を選ぶ
n 7.5 再帰的なツリー構築
n 7.6 決定⽊木の表⽰示
n 7.7 新しい観測を分類する
n 7.8 ツリーの刈り込み
n 7.9 ⽋欠落落データへの対処
n 7.10 数値による帰結への対処
n 7.11 住宅宅価格のモデリング
n 7.12 Hotnessのモデル化
n 7.13 決定⽊木を使うべき場⾯面
2
- 3. 今⽇日の⽬目次
n 7章 決定⽊木
n 決定⽊木について理理解
v そもそも何をするものか?
v 決定⽊木の概要
v 決定⽊木の特徴(positive)
v 決定⽊木の特徴(negative)
v 応⽤用例例
n 決定⽊木クラスタリングを使ってみる
v 問題の確認(7.1)
v データの準備(7.2)
v まずは決定⽊木で分割してみる(7.3)
v 分割の良良し悪しの基準を導⼊入してみる(7.4)
v ジニ不不純度度(7.4.1)
v エントロピー(7.4.2)
v 決定⽊木で再帰的に分割する(7.5)
v 分割した決定⽊木を⾒見見てみる(7.6)
3
- 4. 今⽇日の⽬目次
n 7章 決定⽊木
n 決定⽊木について理理解
v そもそも何をするものか?
v 決定⽊木の概要
v 決定⽊木の特徴(positive)
v 決定⽊木の特徴(negative)
v 応⽤用例例
n 決定⽊木クラスタリングを使ってみる
v 問題の確認(7.1)
v データの準備(7.2)
v まずは決定⽊木で分割してみる(7.3)
v 分割の良良し悪しの基準を導⼊入してみる(7.4)
v ジニ不不純度度(7.4.1)
v エントロピー(7.4.2)
v 決定⽊木で再帰的に分割する(7.5)
v 分割した決定⽊木を⾒見見てみる(7.6)
4
⇒ 座学パート
⇒ 実践パート
- 5. 今⽇日の⽬目次
n 7章 決定⽊木
n 決定⽊木について理理解
v そもそも何をするものか?
v 決定⽊木の概要
v 決定⽊木の特徴(positive)
v 決定⽊木の特徴(negative)
v 応⽤用例例
n 決定⽊木クラスタリングを使ってみる
v 問題の確認(7.1)
v データの準備(7.2)
v まずは決定⽊木で分割してみる(7.3)
v 分割の良良し悪しの基準を導⼊入してみる(7.4)
v ジニ不不純度度(7.4.1)
v エントロピー(7.4.2)
v 決定⽊木で再帰的に分割する(7.5)
v 分割した決定⽊木を⾒見見てみる(7.6)
5
⇒ 座学パート
⇒ 実践パート
今⽇日持ち帰ること
v 決定⽊木の概要/特徴を理理解
v 決定⽊木を実装, 運⽤用してみる
v Lambda式の理理解
v PythonでのLambda式の記述
- 7. 決定⽊木について理理解
n 決定⽊木の概要
n 予測モデル
n 「⾊色は⾚赤いか」や「⼤大きさは 2.0以上か」といった単純な質問で分岐
n ⾊色々な分割を試してみて、「最も良良い分割」で分割していく
http://careerhack.en-‐‑‒japan.com/report/detail/390
n クラスタリング後には「⽊木」が⽣生成される
n ⽐比較的シンプルなモデルのクラスタリング⼿手法
n データマイニングの分野で最も使われている!らしい
7
- 10. 決定⽊木について理理解
n 決定⽊木の特徴(positive)
① ⼈人間の主観を⼊入れることが可能
v 分岐条件を予め限定できる
v ニューラルネットワークや, SVMだとこうはいかない
② 分割が直感的
v 果物の分類だったら、「⾊色」「⼤大きさ」「収穫時期」など, 意味のある分割基準
v 分割後の結果を解釈しやすい(利利⽤用しやすい)
v クラスタリングされていく過程も眺めることが可能
③ 1度度分割してしまえば、異異なる粒粒度度のクラスを⼿手に⼊入れることができる
v 粒粒度度を変更更可能
v 複数回クラスタリングする必要がない
10
- 11. 決定⽊木について理理解
n 決定⽊木の特徴(negative)
① 複雑な帰結は扱えない
v OKな帰結:「課⾦金金プラン(none/basic/Premium)」でクラスタリング
v NGな帰結:
「課⾦金金プラン(None/Basic/Premium)、継続期間(⽇日)、アクセス頻度度」
の全てが良良いユーザのクラスタリング
② 分岐の基準には単純なものしか扱えない
v OKな分割基準「FAQを読んだか」「ページアクセスが20以上か」
v NGな分割基準「FAQを読み、ページアクセスが20以上で、所在地がUSAか?」
v 指数関数的な分割をチェックしなければならない
v 計算量量的に難しい
11
- 12. 決定⽊木について理理解
n 応⽤用例例
v 課⾦金金者 / ⾮非課⾦金金者の特徴をとらえる
v その特徴を持つセグメントへ向けたイベントの開催
v 顧客のプロファイリング
v その特徴を持つセグメントへの広告投下
v 財務リスク分析
v リスクの⼤大⼩小を理理解する?
v 医療療診断の⽀支援
v 簡単な質問により、患者の病気を正確に診断
v 交通量量予測
v 「◯の道路路が混み始めたから、□の道路路も混むだろう」
v モデル数の削減、過学習を防ぐ
v ⼿手話認識識システムへの応⽤用(安中の卒論論)
v あ
12