はじめてのパターン認識勉強会 20130716

4,138 views
4,012 views

Published on

『はじめてのパターン認識』読書会の発表資料。
第3章ベイズの識別規則の後半になります。

Published in: Education
0 Comments
9 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,138
On SlideShare
0
From Embeds
0
Number of Embeds
9
Actions
Shares
0
Downloads
66
Comments
0
Likes
9
Embeds 0
No embeds

No notes for slide

はじめてのパターン認識勉強会 20130716

  1. 1. 第3章  ベイズの識識別規則  後半 第3回『はじめてのパターン認識識』読書会 #はじパタ 16th July, 2013 @millionsmile
  2. 2. 3.2 受信者動作特性曲線 要はROC曲線とAUCの話です。
  3. 3. ROC曲線のはじまり 受信動作特性曲線(ROC曲線; receiver operator characteristics curve)は、もともとレーダー技術で、雑⾳音の中から敵機の存在を検出 するための⽅方法として開発された。 出典: Wikipedia http://ja.wikipedia.org/wiki/%E5%8F%97%E4%BF %A1%E8%80%85%E6%93%8D%E4%BD%9C%E7%89%B9%E6%80%A7 そのため「受信者動作特性」というレーダーっぽい感じの名前がついて いるようだが、この計算⽅方法は、分類アルゴリズムの性能評価法として、 医療療分野でよく使われている。ミスがあってはならぬ世界ですからね。
  4. 4. ROC曲線の⾔言葉葉の定義 2クラス問題の場合、対象xが⼀一つのクラスに属しているかどうかという問題と なる。 属していると判断  →  p(陽性;positive) 属していないと判断  →  n(陰性;negative) 正しく分類されている  →  真(True) 間違って分類されている  →  偽(False)
  5. 5. ROC曲線で性能評価値を計算
  6. 6. ROC曲線の求め⽅方 偽陽性  →  偽のものを真と判断した割合 真陽性  →  真のものを正しく真と判断した割合 正確度度  →  真と偽を正しく識識別した割合 適合率率率  →  検索索された⽂文書中の適合⽂文書の割合             例例)検索索エンジンで100件表⽰示されたとき、100件のうち、             検索索者が必要とするページ数の割合 再現率率率  →  適合している全⽂文書からどれだけ検索索できているか(網羅羅性)             例例)検索索エンジンで100件表⽰示されたとき、検索索者が必要とする             全ページのうち何件が100件に含まれているかという割合             ただし、検索索者が必要とする全ページ数はわからないので、             真陽性率率率をつかって推定を⾏行行う。真陽性率率率だと正しいものの             数が正確にわかっているため。
  7. 7. ROC曲線の求め⽅方 例例題3.3 適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え よ。
  8. 8. ROC曲線の求め⽅方 例例題3.3 適合率率率と再現率率率はなぜトレードオフの関係になるのか検索索エンジンを例例に答え よ。 Answer 検索索エンジンで100券検索索されて、80件正しかった状況で、さらに適合率率率をあ げるために誤りを減らそうとすると、必要なページまで検索索対象からはずすこ とになるので、80件検索索されて75件正しいというようなことになり、結果と して再現率率率が下がる。
  9. 9. ROC曲線の求め⽅方 ROC曲線は、偽陽性率率率と真陽性率率率の関係をグラフ にしたもの(右図) [よいところ] 偽陽性率率率や真陽性率率率の計算はそれぞれの偽と真の クラス内で計算するため、クラスのデータ数に⼤大 きな差があってもROC曲線には影響うけない。 [活⽤用例例] 医療療では、病気のクラスは健康なクラスに⽐比べて データ数が極端に少ないが、それでも安定した性 能評価が期待できる。
  10. 10. ROC曲線の求め⽅方 陽性と陰性のクラス分布(右図) p(x|p*)が陽性のクラスの尤度度 p(x|n*)が陰性のクラスの尤度度 識識別境界がBとき、R1の領領域が陽性、R2が陰性 陽性クラスのうち、ε1が陰性と判断(偽陰性) ε2が陽性と判断(偽陽性)されたもの。 ε1を第1種の誤り(miss)、 ε2が第2種の誤り(false alarm) 陽性クラスのうち、陽性と判断される割合は、 1-ε1となる
  11. 11. ROC曲線による性能評価(AUC) ROC曲線は、クラス間の重なりが少ないほど左 上にシフトする。 ROC曲線の下側の⾯面積をROC曲線下⾯面積(AUC; area under ROC curve)といい、識識別器の性能 をあらわす評価尺度度として使われる。 ※テキストでは”AUR”となっていますが、問い合わせたとこ ろ、”AUC”が正しいとのことです。そのうち正誤表に反映されるらしい です。 AUCは1.0〜~0.5の間をとり、1.0に近いほど性能 がよいと判断できる。1.0(左上の位置)だと完全 な識識別器であり、0.5(右上から左下への線)だと ランダムな識識別器となる。 AUC
  12. 12. ROC曲線による性能評価(AUC) ROC曲線の便便利利なのは、クラスの分布がわからない場合でも構成できる 点である。 ROC曲線はしきい値より⼤大きいと陽性(p), ⼩小さいと陰性(n)と判断する。 しきい値をいくつか設定していくことで、ROC曲線が描かれる。
  13. 13. ROC曲線による性能評価(AUC) 奥村先⽣生のサイトがとてもわかりやすいのでこっちで説明。 抜粋 例例えば11で切切って,11以上を陽性(positive),11未満を陰性 (negative)とした場合,10個のTのうち5個がpositiveに⼊入り ますので,true positive(真陽性)の割合は0.5です。また,5 個のFのうち1個がpositiveに⼊入りますので,false positive(偽 陽性)の割合は0.2です。そこで,(0.2, 0.5) をプロットします。 出典:奥村先⽣生のサイト「ROC曲線」 http://oku.edu.mie-u.ac.jp/~okumura/stat/ROC.html
  14. 14. AUCってマーケティングにも使 えますねー、itoさん! ここから本に書いているネタです。(あらすじ) 例例えば、あるECサイトで⾼高額購⼊入者が何の要素で分類できるか知りたいとす る。2クラスにするため、⾼高額購⼊入者グループを1、通常購⼊入者グループを0と し、2項ロジスティック回帰分析にかけてみる。 2項ロジスティックだと、オッズ⽐比が求められるので、これによってどちらの グループに属しやすいのかがわかる。例例えば、オッズ⽐比が1.5だと、1のグルー プに1.5倍の確率率率で属しやすくなるといったようなこと。 ただ、属しやすさがわかったものの、精度度がどのくらいかがいまいちわからな い。そこでAUCをつかってみると、より注⽬目して調査する説明変数を絞り込 むことができる。
  15. 15. Rではこう書く 2項ロジスティック回帰の求め⽅方。 glm(y ~ x, data, family=“binomial”) AUCは、caTools, ROCR, Epiなどたくさんあるのですが、ライブラリーに よって計算ロジックが異異なります。状況にあわせて使った⽅方がよさそう。 例例 logistics <- glm(y ~ x, data, family=“binomial”) summaryLogistics <- summary(logistics ) colAUC(predict(summaryLogistics , type="response"), y, alg="ROC")))

×