Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
パターン認識
Rで学ぶデータサイエンス
第1章
2013/06/18
祝!
#はじパタ 開催!!
祝!
#はじパタ 開催!!
お詫び
Rのコードは出てきません
お詫び2
今日は詳しくは語りません
@kenchan0130_aki
自己紹介
@kenchan0130_aki
学生ニート
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
得意になりたい言語:Ruby
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
得意になりたい言語:Ruby 女の子と仲良くなれそう
自己紹介
パターン認識
第1章 判別能力の評価
第2章 k-平均法
第3章 階層的クラスタリング
第4章 混合正規分布モデル
第5章 判別分析
第6章 ロジスティック回帰
第7章 密度推定
第8章 k-近傍法
第9章 学習ベクトル量子化
第10章 決定木...
パターン認識
第1章 判別能力の評価
第2章 k-平均法
第3章 階層的クラスタリング
第4章 混合正規分布モデル
第5章 判別分析
第6章 ロジスティック回帰
第7章 密度推定
第8章 k-近傍法
第9章 学習ベクトル量子化
第10章 決定木...
• 入力された特徴量 からラベル を予測する
問題を「判別問題」といいます.
• ラベル を返す判別器   の予測精度を評価
したい!
判別能力の評価
何か評価する 指標が欲し い!
• 誤り率
• 損失行列による評価
• 交差検証法による予測精度の推定
• 陽性率, 偽陽性率, ROC曲線, AUC
• 適合率, 再現率, F値
各種指標
誤り率
誤り率
n個のデータに対する誤り率は
で計算できます.
I[R]は条件Rが真のときは1, それ以外は0となる定義関数
• 学習データに対する誤り率を
「訓練誤差」といいます.
• 未知のテストデータに対する誤り率を
「予測誤差」といいます.
誤り率
損失行列による評価
• 損失の値を  で表し,   成分とする行列を損
失行列とします.
• クラス と判別すべきデータをクラス と誤
ってしまったときの損失を表しています.
損失行列による評価
損失行列による評価
損失の平均は以下のように与えられます.
は真のクラスの不確実性を表す同時確率分布
これを最小とするような を割り当てるものとなります.
交互検証法による
予測精度の推定
• 学習データを2つに分け, 一方で判別器を推定
します.
• 他方でその精度を評価し, 予測誤差を推定しま
す.
• これをk分割して繰り返す方法を
「k-交差検証法」と呼びます.
交互検証法による予測精度の推定
陽性率, 偽陽性率,
ROC曲線, AUC
陽性率, 偽陽性率,
ROC曲線, AUC
• 陽性率は「第1種の過誤」と思ってもらっていいかもです.
• 偽陽性率は「第2種の過誤」と思ってもらっていいかもで
す. (こっちはヤバイやつ)
• 偽陽性率をある一定の値以下に抑えたとき, 陽性率を最大
化する判別器を採択します.
• 縦軸...
http://oku.edu.mie-u.ac.jp/ okumura/stat/ROC.html
• 検索結果内に, 実際に目的の情報を含んでいる
ページの割合が「適合率」です.
• 目的の情報を含んでいるページ全体の中で正
しく検索結果の割合が「再現率」です.
適合率, 再現率, F値
はじパタLT Section1
はじパタLT Section1
Upcoming SlideShare
Loading in …5
×

はじパタLT Section1

2,193 views

Published on

Rで学ぶデータサイエンス「パターン認識」の第1章

Published in: Technology
  • Be the first to comment

はじパタLT Section1

  1. 1. パターン認識 Rで学ぶデータサイエンス 第1章 2013/06/18
  2. 2. 祝! #はじパタ 開催!! 祝! #はじパタ 開催!!
  3. 3. お詫び Rのコードは出てきません
  4. 4. お詫び2 今日は詳しくは語りません
  5. 5. @kenchan0130_aki 自己紹介
  6. 6. @kenchan0130_aki 学生ニート 自己紹介
  7. 7. @kenchan0130_aki 学生ニート 働いたら負け 自己紹介
  8. 8. @kenchan0130_aki 学生ニート 働いたら負け 自然言語処理 自己紹介
  9. 9. @kenchan0130_aki 学生ニート 働いたら負け 自然言語処理 得意になりたい言語:Ruby 自己紹介
  10. 10. @kenchan0130_aki 学生ニート 働いたら負け 自然言語処理 得意になりたい言語:Ruby 女の子と仲良くなれそう 自己紹介
  11. 11. パターン認識 第1章 判別能力の評価 第2章 k-平均法 第3章 階層的クラスタリング 第4章 混合正規分布モデル 第5章 判別分析 第6章 ロジスティック回帰 第7章 密度推定 第8章 k-近傍法 第9章 学習ベクトル量子化 第10章 決定木 第11章 サポートベクターマシン 第12章 正規化とパス追跡 アルゴリズム 第13章 ミニマックス確率マシン 第14章 集団学習 第15章 2値判別から多値判別へ
  12. 12. パターン認識 第1章 判別能力の評価 第2章 k-平均法 第3章 階層的クラスタリング 第4章 混合正規分布モデル 第5章 判別分析 第6章 ロジスティック回帰 第7章 密度推定 第8章 k-近傍法 第9章 学習ベクトル量子化 第10章 決定木 第11章 サポートベクターマシン 第12章 正規化とパス追跡 アルゴリズム 第13章 ミニマックス確率マシン 第14章 集団学習 第15章 2値判別から多値判別へ
  13. 13. • 入力された特徴量 からラベル を予測する 問題を「判別問題」といいます. • ラベル を返す判別器   の予測精度を評価 したい! 判別能力の評価
  14. 14. 何か評価する 指標が欲し い!
  15. 15. • 誤り率 • 損失行列による評価 • 交差検証法による予測精度の推定 • 陽性率, 偽陽性率, ROC曲線, AUC • 適合率, 再現率, F値 各種指標
  16. 16. 誤り率
  17. 17. 誤り率 n個のデータに対する誤り率は で計算できます. I[R]は条件Rが真のときは1, それ以外は0となる定義関数
  18. 18. • 学習データに対する誤り率を 「訓練誤差」といいます. • 未知のテストデータに対する誤り率を 「予測誤差」といいます. 誤り率
  19. 19. 損失行列による評価
  20. 20. • 損失の値を  で表し,   成分とする行列を損 失行列とします. • クラス と判別すべきデータをクラス と誤 ってしまったときの損失を表しています. 損失行列による評価
  21. 21. 損失行列による評価 損失の平均は以下のように与えられます. は真のクラスの不確実性を表す同時確率分布 これを最小とするような を割り当てるものとなります.
  22. 22. 交互検証法による 予測精度の推定
  23. 23. • 学習データを2つに分け, 一方で判別器を推定 します. • 他方でその精度を評価し, 予測誤差を推定しま す. • これをk分割して繰り返す方法を 「k-交差検証法」と呼びます. 交互検証法による予測精度の推定
  24. 24. 陽性率, 偽陽性率, ROC曲線, AUC 陽性率, 偽陽性率, ROC曲線, AUC
  25. 25. • 陽性率は「第1種の過誤」と思ってもらっていいかもです. • 偽陽性率は「第2種の過誤」と思ってもらっていいかもで す. (こっちはヤバイやつ) • 偽陽性率をある一定の値以下に抑えたとき, 陽性率を最大 化する判別器を採択します. • 縦軸を真の陽性率, つまり敏感度, 横軸を偽陽性率, つまり (1−特異度)を尺度としてプロットしたものです. • AUCはROC曲線下の面積のことです. 分類器の性能の良さを表しています. 陽性率,偽陽性率, ROC曲線, AUC
  26. 26. http://oku.edu.mie-u.ac.jp/ okumura/stat/ROC.html
  27. 27. • 検索結果内に, 実際に目的の情報を含んでいる ページの割合が「適合率」です. • 目的の情報を含んでいるページ全体の中で正 しく検索結果の割合が「再現率」です. 適合率, 再現率, F値

×