8. • 学習アルゴリズムの大枠
① ルートノードに全ての学習データを
配置して学習開始
AID (Automatic Interaction Detection) [Morgan & Sonquist, 1963]
8
all train data
② 注目ノードにおいて分割に用いる
変数 𝒙 と分割条件を決める
処理が完了していないノード
処理中のノード
処理が完了した中間ノード
処理が完了した葉ノード
年齢 > 25
9. • 学習アルゴリズムの大枠
① ルートノードに全ての学習データを
配置して学習開始
AID (Automatic Interaction Detection) [Morgan & Sonquist, 1963]
9
all train data
処理が完了していないノード
処理中のノード
処理が完了した中間ノード
処理が完了した葉ノード
② 注目ノードにおいて分割に用いる
変数 𝒙 と分割条件を決める
③ ② の分割結果が終了条件に該当
しない場合、分割を実行して処理
が完了していないノードに遷移
年齢 > 25
10. • 学習アルゴリズムの大枠
① ルートノードに全ての学習データを
配置して学習開始
AID (Automatic Interaction Detection) [Morgan & Sonquist, 1963]
10
all train data
処理が完了していないノード
処理中のノード
処理が完了した中間ノード
処理が完了した葉ノード
② 注目ノードにおいて分割に用いる
変数 𝒙 と分割条件を決める
③ ② の分割結果が終了条件に該当
しない場合、分割を実行して処理
が完了していないノードに遷移
④ ② の分割結果が終了条件に該当
する場合、分割を実行せず処理
が完了していないノードに遷移
年齢 > 25
男 or 女
体重 > 50
11. • 学習アルゴリズムの大枠
① ルートノードに全ての学習データを
配置して学習開始
AID (Automatic Interaction Detection) [Morgan & Sonquist, 1963]
11
all train data
処理が完了していないノード
処理中のノード
処理が完了した中間ノード
処理が完了した葉ノード
② 注目ノードにおいて分割に用いる
変数 𝒙 と分割条件を決める
③ ② の分割結果が終了条件に該当
しない場合、分割を実行して処理
が完了していないノードに遷移
④ ② の分割結果が終了条件に該当
する場合、分割を実行せず処理
が完了していないノードに遷移
⑤ 処理が完了していないノードが
なくなったら学習完了
年齢 > 25
男 or 女
体重 > 50
12. • 学習アルゴリズムの大枠
① ルートノードに全ての学習データを
配置して学習開始
AID (Automatic Interaction Detection) [Morgan & Sonquist, 1963]
12
all train data
処理が完了していないノード
処理中のノード
処理が完了した中間ノード
処理が完了した葉ノード
② 注目ノードにおいて分割に用いる
変数 𝒙 と分割条件を決める
③ ② の分割結果が終了条件に該当
しない場合、分割を実行して処理
が完了していないノードに遷移
④ ② の分割結果が終了条件に該当
する場合、分割を実行せず処理
が完了していないノードに遷移
⑤ 処理が完了していないノードが
なくなったら学習完了
年齢 > 25
男 or 女
体重 > 50
13. AID (Automatic Interaction Detection) [Morgan & Sonquist, 1963]
• 分割に使う変数と条件を決めるアルゴリズム
13
partial
train data
① 注目ノード内の不純度 𝝓 = 𝒊 𝒚𝒊 − 𝒚 𝒕
𝟐
を計算
𝝓 = 𝟏𝟐. 𝟖
21. CART (Classification And Regression Trees)[Breiman et al., 1984]
21
• 学習アルゴリズムの大枠
① ルートノードに全ての学習データを
配置して学習開始all train data
処理が完了していないノード
処理中のノード
処理が完了した中間ノード
処理が完了した葉ノード
② 注目ノードにおいて分割に用いる
変数 𝒙 と分割条件を決める
③ ② の分割結果が終了条件に該当
しない場合、分割を実行して処理
が完了していないノードに遷移
④ ② の分割結果が終了条件に該当
する場合、分割を実行せず処理
が完了していないノードに遷移
年齢 > 25
男 or 女
体重 > 50
22. CART (Classification And Regression Trees)[Breiman et al., 1984]
22
• 学習アルゴリズムの大枠
① ルートノードに全ての学習データを
配置して学習開始all train data
処理が完了していないノード
処理中のノード
処理が完了した中間ノード
処理が完了した葉ノード
② 注目ノードにおいて分割に用いる
変数 𝒙 と分割条件を決める
③ ② の分割結果が終了条件に該当
しない場合、分割を実行して処理
が完了していないノードに遷移
④ ② の分割結果が終了条件に該当
する場合、分割を実行せず処理
が完了していないノードに遷移
⑤ 処理が完了していないノードが
なくなったら pruning 後に学習完了
年齢 > 25
男 or 女
体重 > 50
23. CART (Classification And Regression Trees)[Breiman et al., 1984]
• Pruning の方法
• 葉ノードの親ノード全てについて ↓ を終了するまで実行
• validation set における評価値が最も良くなる枝を pruning,
良くなる枝がない場合 pruning 終了
23
all train data
train data
validation
data
学習
pruning
27. Single decision tree
アンサンブル
• Bagging
• 学習データをブートストラップサンプリングし、各サンプルを学習に使用
• 各木の予測値の平均 (回帰・分類) や多数決 (分類) 等で予測
• Random Forest [Breiman et al., 2001] では更に使用する変数もサンプリング
27
Original train
sampled train sampled train sampled train…
Single decision tree Single decision tree
Bootstrap sampling
…