Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
第3章  ベイズの識識別規則  後半
第3回『はじめてのパターン認識識』読書会 #はじパタ
16th July, 2013 @millionsmile
3.2 受信者動作特性曲線
要はROC曲線とAUCの話です。
ROC曲線のはじまり
受信動作特性曲線(ROC曲線; receiver operator characteristics
curve)は、もともとレーダー技術で、雑⾳音の中から敵機の存在を検出
するための⽅方法として開発された。
出典: Wik...
ROC曲線の⾔言葉葉の定義
2クラス問題の場合、対象xが⼀一つのクラスに属しているかどうかという問題と
なる。
属していると判断  →  p(陽性;positive)
属していないと判断  →  n(陰性;negative)
正しく分類されてい...
ROC曲線で性能評価値を計算
ROC曲線の求め⽅方
偽陽性  →  偽のものを真と判断した割合
真陽性  →  真のものを正しく真と判断した割合
正確度度  →  真と偽を正しく識識別した割合
適合率率率  →  検索索された⽂文書中の適合⽂文書の割合
          ...
ROC曲線の求め⽅方
例例題3.3
適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え
よ。
ROC曲線の求め⽅方
例例題3.3
適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え
よ。
Answer
検索索エンジンで100券検索索されて、80件正しかった状況で、さらに適合率率率をあ
げるために誤りを減ら...
ROC曲線の求め⽅方
ROC曲線は、偽陽性率率率と真陽性率率率の関係をグラフ
にしたもの(右図)
[よいところ]
偽陽性率率率や真陽性率率率の計算はそれぞれの偽と真の
クラス内で計算するため、クラスのデータ数に⼤大
きな差があってもROC曲線に...
ROC曲線の求め⽅方
陽性と陰性のクラス分布(右図)
p(x|p*)が陽性のクラスの尤度度
p(x|n*)が陰性のクラスの尤度度
識識別境界がBとき、R1の領領域が陽性、R2が陰性
陽性クラスのうち、ε1が陰性と判断(偽陰性)
ε2が陽性と判断...
ROC曲線による性能評価(AUC)
ROC曲線は、クラス間の重なりが少ないほど左
上にシフトする。
ROC曲線の下側の⾯面積をROC曲線下⾯面積(AUC;
area under ROC curve)といい、識識別器の性能
をあらわす評価尺度度と...
ROC曲線による性能評価(AUC)
ROC曲線の便便利利なのは、クラスの分布がわからない場合でも構成できる
点である。
ROC曲線はしきい値より⼤大きいと陽性(p), ⼩小さいと陰性(n)と判断する。
しきい値をいくつか設定していくことで、RO...
ROC曲線による性能評価(AUC)
奥村先⽣生のサイトがとてもわかりやすいのでこっちで説明。
抜粋
例例えば11で切切って,11以上を陽性(positive),11未満を陰性
(negative)とした場合,10個のTのうち5個がpositiv...
AUCってマーケティングにも使
えますねー、itoさん!
ここから本に書いているネタです。(あらすじ)
例例えば、あるECサイトで⾼高額購⼊入者が何の要素で分類できるか知りたいとす
る。2クラスにするため、⾼高額購⼊入者グループを1、通常購⼊入...
Rではこう書く
2項ロジスティック回帰の求め⽅方。
glm(y ~ x, data, family=“binomial”)
AUCは、caTools, ROCR, Epiなどたくさんあるのですが、ライブラリーに
よって計算ロジックが異異なります...
Upcoming SlideShare
Loading in …5
×

はじめてのパターン認識勉強会 20130716

6,096 views

Published on

『はじめてのパターン認識』読書会の発表資料。
第3章ベイズの識別規則の後半になります。

Published in: Education
  • Be the first to comment

はじめてのパターン認識勉強会 20130716

  1. 1. 第3章  ベイズの識識別規則  後半 第3回『はじめてのパターン認識識』読書会 #はじパタ 16th July, 2013 @millionsmile
  2. 2. 3.2 受信者動作特性曲線 要はROC曲線とAUCの話です。
  3. 3. ROC曲線のはじまり 受信動作特性曲線(ROC曲線; receiver operator characteristics curve)は、もともとレーダー技術で、雑⾳音の中から敵機の存在を検出 するための⽅方法として開発された。 出典: Wikipedia http://ja.wikipedia.org/wiki/%E5%8F%97%E4%BF %A1%E8%80%85%E6%93%8D%E4%BD%9C%E7%89%B9%E6%80%A7 そのため「受信者動作特性」というレーダーっぽい感じの名前がついて いるようだが、この計算⽅方法は、分類アルゴリズムの性能評価法として、 医療療分野でよく使われている。ミスがあってはならぬ世界ですからね。
  4. 4. ROC曲線の⾔言葉葉の定義 2クラス問題の場合、対象xが⼀一つのクラスに属しているかどうかという問題と なる。 属していると判断  →  p(陽性;positive) 属していないと判断  →  n(陰性;negative) 正しく分類されている  →  真(True) 間違って分類されている  →  偽(False)
  5. 5. ROC曲線で性能評価値を計算
  6. 6. ROC曲線の求め⽅方 偽陽性  →  偽のものを真と判断した割合 真陽性  →  真のものを正しく真と判断した割合 正確度度  →  真と偽を正しく識識別した割合 適合率率率  →  検索索された⽂文書中の適合⽂文書の割合             例例)検索索エンジンで100件表⽰示されたとき、100件のうち、             検索索者が必要とするページ数の割合 再現率率率  →  適合している全⽂文書からどれだけ検索索できているか(網羅羅性)             例例)検索索エンジンで100件表⽰示されたとき、検索索者が必要とする             全ページのうち何件が100件に含まれているかという割合             ただし、検索索者が必要とする全ページ数はわからないので、             真陽性率率率をつかって推定を⾏行行う。真陽性率率率だと正しいものの             数が正確にわかっているため。
  7. 7. ROC曲線の求め⽅方 例例題3.3 適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え よ。
  8. 8. ROC曲線の求め⽅方 例例題3.3 適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え よ。 Answer 検索索エンジンで100券検索索されて、80件正しかった状況で、さらに適合率率率をあ げるために誤りを減らそうとすると、必要なページまで検索索対象からはずすこ とになるので、80件検索索されて75件正しいというようなことになり、結果と して再現率率率が下がる。
  9. 9. ROC曲線の求め⽅方 ROC曲線は、偽陽性率率率と真陽性率率率の関係をグラフ にしたもの(右図) [よいところ] 偽陽性率率率や真陽性率率率の計算はそれぞれの偽と真の クラス内で計算するため、クラスのデータ数に⼤大 きな差があってもROC曲線には影響うけない。 [活⽤用例例] 医療療では、病気のクラスは健康なクラスに⽐比べて データ数が極端に少ないが、それでも安定した性 能評価が期待できる。
  10. 10. ROC曲線の求め⽅方 陽性と陰性のクラス分布(右図) p(x|p*)が陽性のクラスの尤度度 p(x|n*)が陰性のクラスの尤度度 識識別境界がBとき、R1の領領域が陽性、R2が陰性 陽性クラスのうち、ε1が陰性と判断(偽陰性) ε2が陽性と判断(偽陽性)されたもの。 ε1を第1種の誤り(miss)、 ε2が第2種の誤り(false alarm) 陽性クラスのうち、陽性と判断される割合は、 1-ε1となる
  11. 11. ROC曲線による性能評価(AUC) ROC曲線は、クラス間の重なりが少ないほど左 上にシフトする。 ROC曲線の下側の⾯面積をROC曲線下⾯面積(AUC; area under ROC curve)といい、識識別器の性能 をあらわす評価尺度度として使われる。 ※テキストでは”AUR”となっていますが、問い合わせたとこ ろ、”AUC”が正しいとのことです。そのうち正誤表に反映されるらしい です。 AUCは1.0〜~0.5の間をとり、1.0に近いほど性能 がよいと判断できる。1.0(左上の位置)だと完全 な識識別器であり、0.5(右上から左下への線)だと ランダムな識識別器となる。 AUC
  12. 12. ROC曲線による性能評価(AUC) ROC曲線の便便利利なのは、クラスの分布がわからない場合でも構成できる 点である。 ROC曲線はしきい値より⼤大きいと陽性(p), ⼩小さいと陰性(n)と判断する。 しきい値をいくつか設定していくことで、ROC曲線が描かれる。
  13. 13. ROC曲線による性能評価(AUC) 奥村先⽣生のサイトがとてもわかりやすいのでこっちで説明。 抜粋 例例えば11で切切って,11以上を陽性(positive),11未満を陰性 (negative)とした場合,10個のTのうち5個がpositiveに⼊入り ますので,true positive(真陽性)の割合は0.5です。また,5 個のFのうち1個がpositiveに⼊入りますので,false positive(偽 陽性)の割合は0.2です。そこで,(0.2, 0.5) をプロットします。 出典:奥村先⽣生のサイト「ROC曲線」 http://oku.edu.mie-u.ac.jp/~okumura/stat/ROC.html
  14. 14. AUCってマーケティングにも使 えますねー、itoさん! ここから本に書いているネタです。(あらすじ) 例例えば、あるECサイトで⾼高額購⼊入者が何の要素で分類できるか知りたいとす る。2クラスにするため、⾼高額購⼊入者グループを1、通常購⼊入者グループを0と し、2項ロジスティック回帰分析にかけてみる。 2項ロジスティックだと、オッズ⽐比が求められるので、これによってどちらの グループに属しやすいのかがわかる。例例えば、オッズ⽐比が1.5だと、1のグルー プに1.5倍の確率率率で属しやすくなるといったようなこと。 ただ、属しやすさがわかったものの、精度度がどのくらいかがいまいちわからな い。そこでAUCをつかってみると、より注⽬目して調査する説明変数を絞り込 むことができる。
  15. 15. Rではこう書く 2項ロジスティック回帰の求め⽅方。 glm(y ~ x, data, family=“binomial”) AUCは、caTools, ROCR, Epiなどたくさんあるのですが、ライブラリーに よって計算ロジックが異異なります。状況にあわせて使った⽅方がよさそう。 例例 logistics <- glm(y ~ x, data, family=“binomial”) summaryLogistics <- summary(logistics ) colAUC(predict(summaryLogistics , type="response"), y, alg="ROC")))

×