Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

of

はじパタ11章 後半 Slide 1 はじパタ11章 後半 Slide 2 はじパタ11章 後半 Slide 3 はじパタ11章 後半 Slide 4 はじパタ11章 後半 Slide 5 はじパタ11章 後半 Slide 6 はじパタ11章 後半 Slide 7 はじパタ11章 後半 Slide 8 はじパタ11章 後半 Slide 9 はじパタ11章 後半 Slide 10 はじパタ11章 後半 Slide 11 はじパタ11章 後半 Slide 12 はじパタ11章 後半 Slide 13 はじパタ11章 後半 Slide 14 はじパタ11章 後半 Slide 15 はじパタ11章 後半 Slide 16 はじパタ11章 後半 Slide 17 はじパタ11章 後半 Slide 18 はじパタ11章 後半 Slide 19 はじパタ11章 後半 Slide 20 はじパタ11章 後半 Slide 21 はじパタ11章 後半 Slide 22 はじパタ11章 後半 Slide 23 はじパタ11章 後半 Slide 24 はじパタ11章 後半 Slide 25 はじパタ11章 後半 Slide 26 はじパタ11章 後半 Slide 27
Upcoming SlideShare
Deepboosting
Next
Download to read offline and view in fullscreen.

4 Likes

Share

Download to read offline

はじパタ11章 後半

Download to read offline

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

はじパタ11章 後半

  1. 1. 第14回「はじめてのパターン認識」読 書会 第11章 識別器の組み合わせによる性能強化 後編 @gepuro
  2. 2.
  3. 3. 11.3 バギング ● 複数の識別器を組み合わせる方法 – 学習データのブートストラップサンプル(復元抽出)を用 いて複数の識別器を学習させ、多数決で決める – それぞれの識別器は弱識別器 ● ランダム識別器よりは高性能 ● 並列処理可能 ● 識別器間の相関が高くなり、性能強化出来ない可 能性あり – ブースティングやランダムフォレストで欠点を補う
  4. 4. 11.4 アダブースト ● ブースティング – 弱識別器の学習結果を参考にしながら、次の弱識別器 を学習する
  5. 5. 11.4.1 アダブースト学習アルゴリズム ● 2クラス問題の識別器 – 多クラス問題には一対他識別器 ● 弱識別器の学習結果にしたがって学習データに重 みが付く – 誤った学習データ:重み大きく – 正しく識別された学習データ:重み小さく
  6. 6. アダブーストのアルゴリズム 1) 重みを (i=1,...,N)に初期化する 2) m=1,...,Mについて以下を繰り返す a) 識別器y_m(x)を重み付き誤差関数が最小になる ように学習する b) 識別器y_m(x)に対する重みα_mを計算する c) 重み を更新する 3) 入力xに対する識別結果をY_M(x)に従って出力す る
  7. 7. アダブーストのアルゴリズム 1) 重みを (i=1,...,N)に初期化する 2) m=1,...,Mについて以下を繰り返す a) 識別器y_m(x)を重み付き誤差関数が最小になる ように学習する b) 識別器y_m(x)に対する重みα_mを計算する c) 重み を更新する 3) 入力xに対する識別結果をY_M(x)に従って出力す る 全ての学習データの 重みを同じにする
  8. 8. アダブーストのアルゴリズム 1) 重みを (i=1,...,N)に初期化する 2) m=1,...,Mについて以下を繰り返す a) 識別器y_m(x)を重み付き誤差関数が最小になる ように学習する b) 識別器y_m(x)に対する重みα_mを計算する c) 重み を更新する 3) 入力xに対する識別結果をY_M(x)に従って出力す る 弱識別ごとに計算する
  9. 9. 1) 重みを (i=1,...,N)に初期化する 2) m=1,...,Mについて以下を繰り返す a) 識別器y_m(x)を重み付き誤差関数が最小になる ように学習する b) 識別器y_m(x)に対する重みα_mを計算する c) 重み を更新する 3) 入力xに対する識別結果をY_M(x)に従って出力す る は、識別関数の出力が教師と一致したら0、一 致しないと1を返す E_mは弱識別器の定義より、E_m<1/2 アダブーストのアルゴリズム
  10. 10. アダブーストのアルゴリズム 1) 重みを (i=1,...,N)に初期化する 2) m=1,...,Mについて以下を繰り返す a) 識別器y_m(x)を重み付き誤差関数が最小になる ように学習する b) 識別器y_m(x)に対する重みα_mを計算する c) 重み を更新する 3) 入力xに対する識別結果をY_M(x)に従って出力す る 誤差が小さい程、大きな値を取る。
  11. 11. アダブーストのアルゴリズム 1) 重みを (i=1,...,N)に初期化する 2) m=1,...,Mについて以下を繰り返す a) 識別器y_m(x)を重み付き誤差関数が最小になる ように学習する b) 識別器y_m(x)に対する重みα_mを計算する c) 重み を更新する 3) 入力xに対する識別結果をY_M(x)に従って出力す る 正しく分類出来なかった学習データの 重みをexp(α_m)倍する。
  12. 12. アダブーストのアルゴリズム 1) 重みを (i=1,...,N)に初期化する 2) m=1,...,Mについて以下を繰り返す a) 識別器y_m(x)を重み付き誤差関数が最小になる ように学習する b) 識別器y_m(x)に対する重みα_mを計算する c) 重み を更新する 3) 入力xに対する識別結果をY_M(x)に従って出力す る 精度が高い識別器の重みを大きくし、精度が低い識 別器の重みを小さくする。 sign(a)はa>0で+1、a=0で0、a<0で-1を出力する
  13. 13. 11.5 ランダムフォレスト バギングを改良し、決定木の各非終端ノードにおい て識別に用いる特量をあらかじめ決められた数だけ ランダムに選択する手法 ● 森のサイズによる過学習が生じない
  14. 14. 11.5.2 ランダムフォレストによるデータ解析 ● 森のサイズによる誤り率の変化 ● 特徴の重要さに関する情報 ● 学習データ間の近さ
  15. 15. 11.5.2 ランダムフォレストによるデータ解析 ● 森のサイズによる誤り率の変化 ○ 個別クラスととOut-Of-Bag誤り率 ■ Out-Of-Bag:ブートストラップサンプリングに使 われなかった学習データが使われていないな い部分森で、その学習データをテストデータに して誤りを評価する ● 特徴の重要さに関する情報 ● 学習データ間の近さ
  16. 16. 個別のクラスとOut-Of-Bag誤り率 rf <- randomForest(Species~.,data=iris) plot(rf) Out-Of-Bag setosa virginica versicolor
  17. 17. 11.5.2 ランダムフォレストによるデータ解析 ● 森のサイズによる誤り率の変化 ● 特徴の重要さに関する情報 ○ 各特長がノード分割に使われたときの不純度(ジ ニ係数)の減少量を森全体で平均した量 ○ 部分依存グラフ ■ ある特徴の値がクラス識別にどのように寄与し ているかを、他の特徴の寄与を加味したうえで 見る指標 ■ 分析対象の特徴のみをxで置換したベクトルを 用いる ● 学習データ間の近さ
  18. 18. ジニ係数の減少量と特徴の重要度 varImpPlot(rf)
  19. 19. 部分依存グラフ setosa virginica versicolor :i番目の置換ベクトル :クラスkの得票率 :クラスkの置換された特徴値x に対する部分依存グラフ
  20. 20. 部分依存グラフ setosa virginica versicolor もう一つ描いてみた。
  21. 21. 部分依存グラフのプロット(Sepal. Length) partialPlot(rf, subset(iris,iris$Species=="setosa"), Sepal.Length, main = "Sepal.Length", xlab = "Sepal.Lengh", ylab = "Partial Dependency", col = "red",xlim=c(4,8),ylim=c(-30,30)) par(new=T) partialPlot(rf, subset(iris,iris$Species=="versicolor"), Sepal.Length, main = "Sepal.Length", xlab = "Sepal.Lengh", ylab = "Partial Dependency", col = "green",xlim=c(4,8),ylim=c(-30,30)) par(new=T) partialPlot(rf, subset(iris,iris$Species=="virginica"), Sepal.Length, main = "Sepal.Length", xlab = "Sepal.Lengh", ylab = "Partial Dependency", col = "blue",xlim=c(4,8),ylim=c(-30,30))
  22. 22. 11.5.2 ランダムフォレストによるデータ解析 ● 森のサイズによる誤り率の変化 ● 特徴の重要さに関する情報 ● 学習データ間の近さ ○ 近接グラフ ■ 多次元尺度構成法により2次元空間に写像 ● N×N近接行列 ○ i番目の学習データとj番目の学習データ がOOBで同じ終端ノードに分類される木 があれば、行列のi行j列とj行i列に1を加 える
  23. 23. 近接グラフ randomForestパッケージに実装されていない?
  24. 24. 性能比較 決定木 バギング アダブースト ランダムフォ レスト 誤り率 0.16 0.053 0.04 0.04 教科書の表11.4 アヤメで0他を用いた性能比較
  25. 25. 参考 ● 平井有三、森北出版、はじめてのパターン認識 ● Rと集団学習,http://mjin.doshisha.ac.jp/R/32/32.html ● ランダムフォレストの部分従属プロット (R Advent Calendar 2013),http://d. hatena.ne.jp/langstat/touch/20131228 ● 多次元尺度構成法イントロダクション, http://d.hatena.ne. jp/koh_ta/20110514/1305348816
  • JunSugimoto

    Oct. 29, 2019
  • grasscowcow

    Feb. 7, 2019
  • NobuakiKuwabara

    Jul. 12, 2015
  • passfield2003

    Mar. 25, 2014

Views

Total views

4,657

On Slideshare

0

From embeds

0

Number of embeds

1,408

Actions

Downloads

43

Shares

0

Comments

0

Likes

4

×