Submit Search
Upload
わかりやすいパターン認識 4章
•
1 like
•
4,098 views
M
Motokawa Tetsuya
Follow
書籍「わかりやすいパターン認識, 石井健一郎」勉強会で作成した4章のスライドです
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 58
Download now
Download to read offline
Recommended
わかりやすいパターン認識_2章
わかりやすいパターン認識_2章
weda654
わかりやすいパターン認識_3章
わかりやすいパターン認識_3章
weda654
ぞくパタのLT資料です。
わかパタ 1章
わかパタ 1章
weda654
続・わかりやすいパターン認識読書会 #1のLT資料です。
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
最尤推定やベイズ推定の基本がようやく理解できたため,かみ砕いて説明したプレゼンを作りました.
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
Kenyu Uehara
SVMの基本的な数学を説明しています. ブログにもまとめてますので,どうぞ https://kenyu-life.com/2019/02/11/support_vector_machine/ 動画解説してます 「https://www.youtube.com/watch?v=TNOC0vyIL-g」
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシン
Motoya Wakiyama
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
星野「調査観察データの統計科学」の読書スライドです。 社内勉強会で使った資料がベースです。 第3章の傾向スコアを紹介しています。
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
機械学習プロフェッショナルシリーズ輪読会での発表資料。ラグランジュ法、Support Vector Data Description (SVDD)、カーネルトリックについて。
Recommended
わかりやすいパターン認識_2章
わかりやすいパターン認識_2章
weda654
わかりやすいパターン認識_3章
わかりやすいパターン認識_3章
weda654
ぞくパタのLT資料です。
わかパタ 1章
わかパタ 1章
weda654
続・わかりやすいパターン認識読書会 #1のLT資料です。
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
最尤推定やベイズ推定の基本がようやく理解できたため,かみ砕いて説明したプレゼンを作りました.
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
Kenyu Uehara
SVMの基本的な数学を説明しています. ブログにもまとめてますので,どうぞ https://kenyu-life.com/2019/02/11/support_vector_machine/ 動画解説してます 「https://www.youtube.com/watch?v=TNOC0vyIL-g」
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシン
Motoya Wakiyama
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
星野「調査観察データの統計科学」の読書スライドです。 社内勉強会で使った資料がベースです。 第3章の傾向スコアを紹介しています。
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
機械学習プロフェッショナルシリーズ輪読会での発表資料。ラグランジュ法、Support Vector Data Description (SVDD)、カーネルトリックについて。
PRML 第4章
PRML 第4章
Akira Miyazawa
パターン認識と機械学習 第4章 Pattern Recognition and Machine Learning Chapter 4
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
Kota Mori
統計的学習の基礎 勉強会資料 (8月23日)
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
NobuyukiTakayasu
はじめてのパターン認識8章のサポートベクトルマシンについて整理。ラグランジュ関数がどうやって出てくるのかや双対の直感的理解などを自分用にまとめた。
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知
Ken'ichi Matsui
機械学習プロフェッショナルシリーズ勉強会 #6 輪読会資料 異常検知と変化検知 第4章 「近傍法による異常検知」
PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
パターン認識と機械学習(PRML)の第6章「カーネル法」です 文字多め
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
016/01/31(日) 第十回 数学カフェ 「数学史」発表資料 誤って削除してしまいましたので再アップロードします。日本語のpdfがアップロードできないので、pptファイル仮アップロードします。 訂正情報: p14 分母の p(B_1|A_1)の説明 誤:病気でない人が陽性になる確率 正:病気である人が陽性になる確率
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
ベイズ統計学の基礎概念からW理論まで概論的に紹介するスライドです.数理・計算科学チュートリアル実践のチュートリアル資料です.引用しているipynbは * http://nhayashi.main.jp/codes/BayesStatAbstIntro.zip * https://github.com/chijan-nh/BayesStatAbstIntro を参照ください. 以下,エラッタ. * 52 of 80:KL(q||p)≠KL(q||p)ではなくKL(q||p)≠KL(p||q). * 67 of 80:2ν=E[V_n]ではなくE[V_n] → 2ν (n→∞). * 70 of 80:AICの第2項は d/2n ではなく d/n. * 76 of 80:βH(w)ではなくβ log P(X^n|w) + log φ(w). - レプリカ交換MCと異なり、逆温度を尤度にのみ乗することはWBIC導出では本質的な仮定となる.
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
Shuyo Nakatani
星野「調査観察データの統計科学」の読書スライドです。 社内勉強会で使った資料がベースです。 第1章の調査観察研究の枠組みと、第2章のルービンの因果モデルを紹介しています。
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
irrrrr
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
Deep Learning JP
2017/11/06 Deep Learning JP: http://deeplearning.jp/seminar-2/
データ解析14 ナイーブベイズ
データ解析14 ナイーブベイズ
Hirotaka Hachiya
ナイーブベイズ
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
機械学習プロフェッショナルシリーズの劣モジュラ最適化と機械学習の1章の発表資料です。
はじパタ6章前半
はじパタ6章前半
T T
Hyperoptとその周辺について
Hyperoptとその周辺について
Keisuke Hosaka
Hyperoptの原論文を読んでHyperoptを解説した資料です。 概要だけでなく細かいところもできるだけ説明するようにしています。
2値分類・多クラス分類
2値分類・多クラス分類
t dev
機械学習の勉強会で発表したもの。 『深層学習』(岡谷貴之)のChapter2.4.3および2.4.4を解説した。
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
ELBO型VAEのダメなところ
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
京都大学大学院情報学研究科 最適化数理分野 Coordinate Descent 法 (座標降下法) のサーベイ
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
「はじめてのパターン認識」読書会の発表資料です。 第3章(前半):ベイズの識別規則
はじめてのパターン認識 第1章
はじめてのパターン認識 第1章
Prunus 1350
第1回「はじめてのパターン認識」読書会 第1章「はじめに」
Variational autoencoder
Variational autoencoder
Mikio Shiga
Variational Autoencoderの解説(AIMS 2019/11/09 発表資料)
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
emonosuke
パターン認識と機械学習(PRML) 13章 の発表内容です
More Related Content
What's hot
PRML 第4章
PRML 第4章
Akira Miyazawa
パターン認識と機械学習 第4章 Pattern Recognition and Machine Learning Chapter 4
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
Kota Mori
統計的学習の基礎 勉強会資料 (8月23日)
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
NobuyukiTakayasu
はじめてのパターン認識8章のサポートベクトルマシンについて整理。ラグランジュ関数がどうやって出てくるのかや双対の直感的理解などを自分用にまとめた。
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知
Ken'ichi Matsui
機械学習プロフェッショナルシリーズ勉強会 #6 輪読会資料 異常検知と変化検知 第4章 「近傍法による異常検知」
PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
パターン認識と機械学習(PRML)の第6章「カーネル法」です 文字多め
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
016/01/31(日) 第十回 数学カフェ 「数学史」発表資料 誤って削除してしまいましたので再アップロードします。日本語のpdfがアップロードできないので、pptファイル仮アップロードします。 訂正情報: p14 分母の p(B_1|A_1)の説明 誤:病気でない人が陽性になる確率 正:病気である人が陽性になる確率
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
ベイズ統計学の基礎概念からW理論まで概論的に紹介するスライドです.数理・計算科学チュートリアル実践のチュートリアル資料です.引用しているipynbは * http://nhayashi.main.jp/codes/BayesStatAbstIntro.zip * https://github.com/chijan-nh/BayesStatAbstIntro を参照ください. 以下,エラッタ. * 52 of 80:KL(q||p)≠KL(q||p)ではなくKL(q||p)≠KL(p||q). * 67 of 80:2ν=E[V_n]ではなくE[V_n] → 2ν (n→∞). * 70 of 80:AICの第2項は d/2n ではなく d/n. * 76 of 80:βH(w)ではなくβ log P(X^n|w) + log φ(w). - レプリカ交換MCと異なり、逆温度を尤度にのみ乗することはWBIC導出では本質的な仮定となる.
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
Shuyo Nakatani
星野「調査観察データの統計科学」の読書スライドです。 社内勉強会で使った資料がベースです。 第1章の調査観察研究の枠組みと、第2章のルービンの因果モデルを紹介しています。
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
irrrrr
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
Deep Learning JP
2017/11/06 Deep Learning JP: http://deeplearning.jp/seminar-2/
データ解析14 ナイーブベイズ
データ解析14 ナイーブベイズ
Hirotaka Hachiya
ナイーブベイズ
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
機械学習プロフェッショナルシリーズの劣モジュラ最適化と機械学習の1章の発表資料です。
はじパタ6章前半
はじパタ6章前半
T T
Hyperoptとその周辺について
Hyperoptとその周辺について
Keisuke Hosaka
Hyperoptの原論文を読んでHyperoptを解説した資料です。 概要だけでなく細かいところもできるだけ説明するようにしています。
2値分類・多クラス分類
2値分類・多クラス分類
t dev
機械学習の勉強会で発表したもの。 『深層学習』(岡谷貴之)のChapter2.4.3および2.4.4を解説した。
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
ELBO型VAEのダメなところ
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
京都大学大学院情報学研究科 最適化数理分野 Coordinate Descent 法 (座標降下法) のサーベイ
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
「はじめてのパターン認識」読書会の発表資料です。 第3章(前半):ベイズの識別規則
はじめてのパターン認識 第1章
はじめてのパターン認識 第1章
Prunus 1350
第1回「はじめてのパターン認識」読書会 第1章「はじめに」
What's hot
(20)
PRML 第4章
PRML 第4章
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知
PRML第6章「カーネル法」
PRML第6章「カーネル法」
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
データ解析14 ナイーブベイズ
データ解析14 ナイーブベイズ
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
はじパタ6章前半
はじパタ6章前半
Hyperoptとその周辺について
Hyperoptとその周辺について
2値分類・多クラス分類
2値分類・多クラス分類
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
coordinate descent 法について
coordinate descent 法について
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
はじめてのパターン認識 第1章
はじめてのパターン認識 第1章
Similar to わかりやすいパターン認識 4章
Variational autoencoder
Variational autoencoder
Mikio Shiga
Variational Autoencoderの解説(AIMS 2019/11/09 発表資料)
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
emonosuke
パターン認識と機械学習(PRML) 13章 の発表内容です
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
koba cky
4章「潜在意味空間における回帰と識別」 4.1:背景 4.2:潜在意味空間における回帰問題
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
kenyanonaka
dynamic programming 動的計画法 DP
NLPforml5
NLPforml5
Hidekazu Oiwa
場の量子論
場の量子論
M M
場の量子
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Zansa
Zansa第12回勉強会の資料 「PRMLからベイズの世界へ」
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
takutori
PRML第一章のガウス分布の最尤推定からベイズ曲線フィッティングまでを説明しています。ベイズ曲線フィッティングについては、実装しました。さらに、orderを増やすこととサンプル数に着目した過学習の説明も行っています。
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
ryosuke-kojima
https://math-coding.connpass.com/event/147508/ Math&coding#6 の発表資料
グレブナー基底輪読会 #1 ―準備体操の巻―
グレブナー基底輪読会 #1 ―準備体操の巻―
Yutaka Nagahata
1変数多項式の割り算アルゴリズム グレブナー基底を導入される過程で解かれる4つの問 群、環、体、体上の多項式環に対する除法の定理を復習
双対性
双対性
Yoichi Iwata
JOI春合宿2018講義資料
楕円曲線入門トーラスと楕円曲線のつながり
楕円曲線入門トーラスと楕円曲線のつながり
MITSUNARI Shigeo
第11回 数学カフェ 「暗号」 http://eventdots.jp/event/581176
Prml1.2.4
Prml1.2.4
Tomoyuki Hioki
パターン認識と機械学習 (ベイズ理論による統計的予測) 1.2.4 Pattern Recognition and Machine Learning (PRML)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
TakaakiYonekura
反応拡散モデルのシミュレーション実習に用いたスライド。
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
takutori
Ian Goodfellow and Yoshua Bengio and Aaron Courville:DEEP LEARNING (An MIT Press book) 線形代数、確率論、情報理論
Yamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
考司 小杉
2013/03/18にひらかれたYamadai.Rの後半スライドです
University CodeSprint 4 - Magic value
University CodeSprint 4 - Magic value
satanic
University CodeSprint 4 - Magic value の解説です.
AtCoder Regular Contest 017
AtCoder Regular Contest 017
AtCoder Inc.
AtCoder Regular Contest 017の解説です。
特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙
Satoshi Hara
ERATO感謝祭 Season IV 【参考】Satoshi Hara and Takanori Maehara. Enumerate Lasso Solutions for Feature Selection. In Proceedings of the 31st AAAI Conference on Artificial Intelligence (AAAI'17), pages 1985--1991, 2017.
Prml9
Prml9
KENTAROHARA
機械学習
Similar to わかりやすいパターン認識 4章
(20)
Variational autoencoder
Variational autoencoder
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
NLPforml5
NLPforml5
場の量子論
場の量子論
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
グレブナー基底輪読会 #1 ―準備体操の巻―
グレブナー基底輪読会 #1 ―準備体操の巻―
双対性
双対性
楕円曲線入門トーラスと楕円曲線のつながり
楕円曲線入門トーラスと楕円曲線のつながり
Prml1.2.4
Prml1.2.4
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
Yamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
University CodeSprint 4 - Magic value
University CodeSprint 4 - Magic value
AtCoder Regular Contest 017
AtCoder Regular Contest 017
特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙
Prml9
Prml9
わかりやすいパターン認識 4章
1.
わかりやすいパターン認識 第4章:識別部の設計
2.
この章でやること • パラメトリックな学習 • 識別関数の設計 •
特徴空間の次元数と学習パターン数の関係 • 識別部の最適化
3.
パラメトリックな学習 観測されるパターンと所属するクラスの間には確率密度関数が仮 定されると考えられる。ここでは確率密度関数がすでに分かって いるものと仮定して議論を進める。 x xの⽣起確率 p(x|ωi) p(x|ωi)はクラスωiに属するxの⽣起確率
4.
登場する確率の説明 𝑃(𝜔$) :事前確率(パターン𝒙を観測する前から分かっているク ラス𝜔$の⽣起確率) 𝑝(𝒙) :クラスに依らないパターン𝒙の⽣起確率 𝑃 𝜔$ 𝒙
:事後確率(パターン𝒙が観測された後にその𝒙がどのク ラス𝜔$に属するかを表す条件付き確率) 𝑝(𝒙|𝜔$) :既知の確率密度関数(クラス𝜔$に属するパターン𝒙の ⽣起確率)
5.
成り⽴つ関係式 * 𝑃 𝜔$
= 1 - $./ 分かる * 𝑃 𝜔$|𝒙 = 1 - $./ 分かる 𝑝 𝒙 = * 𝑃 𝜔$ 𝑝(𝒙|𝜔$) - $./ ん?
6.
𝑝 𝒙 =
∑ 𝑃 𝜔$ 𝑝(𝒙|𝜔$)- $./ とは? 2つの確率変数𝜔$, 𝒙の同時分布に対して、同時確率𝑝 𝜔$, 𝒙 は 𝑝 𝜔$, 𝒙 = 𝑃 𝜔$ 𝑝 𝒙 𝜔$ が成り⽴つ(乗法定理) つまり、⼀⽅の確率変数が定まりその条件の下で他⽅の確率変数が定まるという ケースと、両⽅が同時に定まるというケースは同⼀視する。 さらに同時確率𝑝 𝜔$, 𝒙 において⼀⽅の確率変数(例えばここでは𝜔$)についての総 和を取ることで(加法定理)、 𝑝 𝒙 = * 𝑝 𝜔$, 𝒙 2 $./ = * 𝑃 𝜔$ 𝑝(𝒙|𝜔$) - $./ が成り⽴つ(周辺化) 結果的には消えて⾒えなくなってしまう同時確率という概念が重要!
7.
ベイズの定理の前に... 箱の中に⾚のくじと⻘のくじが何枚か折りたたんで⼊っていま す。くじを開くと当たりかはずれが書かれています。 これまで100⼈がくじを引いて36⼈が⾚のくじを引き、64⼈が⻘ のくじを引きました。 そのうち20⼈が当たりを引きました。 当たりを引いたうち4⼈が⾚のくじで、16⼈が⻘のくじでした。 とある情報屋によると、くじの⾊と当たりの割合には何らかの関 係があるらしいです。
8.
ベイズの定理の前に... ここでmt君がくじを引きます。 この時点でmt君が当たりを引く確率はこれまでの結果だけで⾒ると 20/100(=0.20)です。(くじの⾊を観測する前から分かる事前確率) くじを引いたところ、⻘のくじでした。(くじの⾊を観測) この時点でmt君が当たりを引いている確率は16/64(=0.25)となりま す。(くじの⾊を観測した後に分かる事後確率)
9.
ベイズの定理 𝑃 𝜔$ 𝒙
= 𝑝 𝒙 𝜔$ 𝑝 𝒙 𝑃 𝜔$ ・・・(事後確率)=(修正項)×(事前確率) 未知パターン: 𝒙 (先の例では⾚のくじか⻘のくじ) 識別クラス:𝜔$(先の例では当たりかはずれ) 識別法としては、パターン𝒙を識別する際に事後確率P(𝜔$|𝒙)が最 ⼤となる𝜔$を出⼒とするのが⾃然、すなわち max $./,..,- 𝑃 𝜔$ 𝒙 = 𝑃(𝜔8|𝒙) => 𝒙 ∈ 𝜔8 となる。(ベイズ決定則)
10.
ベイズ決定則 ベイズの式をみるとp(x)は各クラス共通の因⼦なので、識別関数 は、 𝑔$ 𝒙 =
𝑝 𝒙 𝜔$ 𝑃 𝜔$ 𝑖 = 1,2, … , 𝑐 となる。 対数を取っても⼤⼩関係は変わらず積を和の形にできるので右辺 の⾃然対数を取って、 𝑔$ 𝒙 = log 𝑝 𝒙 𝜔$ + log 𝑃 𝜔$ (𝑖 = 1,2, … , 𝑐) としても良い。
11.
正規分布の場合 正規分布:𝑝 𝒙 𝜔
= (2𝜋)E F G|Σ$|E I G exp {− / N 𝒙 − 𝒎$ P Σ$ E/ 𝒙 − 𝒎$ } ここで、 𝒎$ = / RS ∑ 𝒙𝒙∈US :平均ベクトル Σ$ = / RS ∑ (𝒙 − 𝒎$)𝒙∈US (𝒙 − 𝒎$)P :共分散⾏列(|Σ$|は⾏列式) とする。 𝑛$はクラス𝜔$のパターン数、𝑋$はクラス𝜔$のパターン集合を表す
12.
正規分布の場合 𝑔$ 𝒙 =
− 1 2 𝒙 − 𝒎$ P Σ$ E/ 𝒙 − 𝒎$ − 1 2 log Σ$ − 𝑑 2 log 2𝜋 + log 𝑃 𝜔$ = − 1 2 𝒙P Σ$ E/ 𝒙 + 𝒙P Σ$ E/ 𝒎$ − 1 2 𝒎P Σ$ E/ 𝒎 − 1 2 log Σ$ − 𝑑 2 log 2𝜋 + log 𝑃 𝜔$ 青字部分は共分散行列Σiが対称行列であることから、𝒙PΣ$ E/ 𝒎$ = 𝒎$ P Σ$ E/ 𝒙より導ける 赤字部分より正規分布の場合𝒙の二次関数となることが分かる また、 𝒙 − 𝒎$ P Σ$ E/ 𝒙 − 𝒎$ のことを𝒙と𝒎$のマハラノビス距離と呼 び、𝐷Z N (𝒙, 𝒎$)で定義する。
13.
正規分布の場合 共分散⾏列が全クラスで等しい、つまりΣ$ = Σ[ (𝑖
= 1, … , 𝑐)とすると、定数 項を除去して 𝑔$ 𝒙 = 𝒙PΣ[ E/ 𝒎$ − 1 2 𝒎$ PΣ[ E/ 𝒎$ + log 𝑃(𝜔$) となる。これは𝒙に関して線形識別関数である。 また、Σ[ = 𝐸(単位行列)すなわち特徴間に相関が無く分散が等しいとし て、さらに事前確率𝑃(𝜔$)が各クラスで等しいとすると、 𝑔$ 𝒙 = 𝒎$ P 𝒙 − 1 2 ||𝒎$||N としてもよく、これは2章の最⼩距離識別法の識別関数に他ならない。
14.
パラメトリックな学習、ノンパラメトリックな学習 • 確率密度関数が既知の元で、与えられた学習パターンからパラメータを推 定し、その推定値を真の値とみなして識別関数を構成する → パラメトリックな学習 •
確率密度関数の形を想定せずに学習パターンから直接識別関数を求める → ノンパラメトリックな学習(2,3章で扱った学習アルゴリズムがその例)
15.
パラメータの推定 ここでは確率密度関数のパラメータを推定する⽅法を考える サイズnの学習パターン集合を𝑿 = {𝒙/,
… , 𝒙R}とし、推定すべき確率分布を𝑝 𝒙; 𝜽 で表す ここで、 𝜽はパラメータの組を表すベクトルでパラメータベクトルと呼ばれる 学習パターン集合𝑿をもたらした𝜽の中でどの𝜽が”尤もらしい”か 各パターンは確率分布𝑝 𝒙; 𝜽 に従って独⽴に⽣起されたものとみなせるので、パターン集 合𝑿が得られる確率は 𝑝 𝑿; 𝜽 = ` 𝑝 𝒙8; 𝜽 R 8./ で表される 𝑝 𝑿; 𝜽 のことを尤度、あるいは尤度関数という
16.
パラメータの推定 ⼀番”尤もらしい” 𝜽は先ほどの式を最⼤化する𝜽であると考えるのが⾃然で、それ を𝜽aとして、推定値として⽤いることにすると max 𝜽 𝑝 𝑿;
𝜽 = 𝑝 𝑿; 𝜽a このような推定法を最尤法という 𝜕 𝜕𝜽 𝑝 𝑿; 𝜽 = 0 対数をとって、∑ d d𝜽 log 𝑝 𝒙8; 𝜽R 8./ = 0をとけばよい
17.
最尤法の適⽤例 パターンが正規分布に従うが平均ベクトル、共分散⾏列が未知の場合を考える この場合のパラメータ𝜽は𝒎とΣである 𝑝 𝒙 𝜔
= (2𝜋)E F G|Σ$|E I G exp {− / N 𝒙 − 𝒎$ P Σ$ E/ 𝒙 − 𝒎$ }に対して、 ∑ d d𝜽 log 𝑝 𝒙8; 𝜽R 8./ = 0を計算すると、 𝒎e = 1 𝑛 * 𝒙8 R 8./ Σf = 1 𝑛 *(𝒙8 R 8./ − 𝒎e ) (𝒙8 − 𝒎e )P という推定値が得られる
18.
多次元は出来なかったので1次元の正規分布で最尤推定 𝑝 𝜇, 𝜎N =
∏ / NjkG exp (− (lmEn)G NkG )R 8./ とすると、 log 𝑝 𝜇, 𝜎N = − R N log(2𝜋𝜎N ) − / NkG ∑ (𝑥8−𝜇)NR 8./ なので d dn log 𝑝 𝜇, 𝜎N = − / kG ∑ (𝑥8−𝜇)R 8./ = − / kG(∑ 𝑥8 R 8./ − 𝑛𝜇) = 0 を解いて、𝜇 = / R ∑ 𝑥8 R 8./ の時に最⼤となる また、 𝜕 𝜕𝜎N log 𝑝 𝜇, 𝜎N = − 𝑛 2𝜎N + 1 2𝜎p *(𝑥8−𝜇)N = − 𝑛 2𝜎N 1 − 1 𝑛𝜎N * (𝑥8−𝜇)N R 8./ = 0 R 8./ を解いて、𝜎N = / R ∑ (𝑥8−𝜇)NR 8./ の時に最⼤となる → 多次元の時と対応している
19.
多次元正規分布の最尤法 log 𝑝 𝒙 𝜔 =
*{− 𝑑 2 log 2𝜋 − 1 2 log |Σ$| − 1 2 𝒙 − 𝒎$ P Σ$ E/ 𝒙 − 𝒎$ } R $./ = − 𝑛𝑑 2 log 2𝜋 − 𝑛 2 log Σ$ − 1 2 * 𝒙 − 𝒎$ P Σ$ E/ 𝒙 − 𝒎$ R $./ → これを𝒎$とΣ$について偏微分すれば良い http://kaminomisosiru.hatenablog.jp/entry/2017/07/06/12040 8に途中計算があります
20.
単峰性・多峰性 これまでの例は単峰性(極⼤点が1つ)の確率密度関数を扱って きたが、現実の問題では多峰性(極⼤点が複数)の確率密度関数 を扱わなければならない
21.
混合分布 • ⼀般に𝑝 𝒙;
𝜽 = ∑ 𝛽$ 𝑝$ 𝒙; 𝜽$ r $./ と書ける(混合分布) • 𝑝$ 𝒙; 𝜽$ はあらかじめ形の分かっている確率密度関数、𝜽$はそ のパラメータベクトル、𝛽$は重み係数である • 推定すべきパラメータベクトルは𝜽P = (𝜽/ P , … , 𝜽r P , 𝛽/, … , 𝛽r)であ る(各分布の重みも推定する必要がある)
22.
教師付き学習・教師なし学習 • 学習時に学習パターンがその所属クラス名と共に与えられる → 教師付き学習(supervised
learning) 第2章や第3章で扱ってきた学習はこれに当たる • 学習時の学習パターンにクラスのラベルが付いていない → 教師なし学習(unsupervised learning) この場合はもはや確率密度関数をクラスごとに独⽴に推定できない パターン𝒙が𝑝(𝒙)に従って分布するということだけが頼り 混合分布のパラメータ推定問題に帰着させる →解析的には解けないので最急降下法を使う
23.
この章でやること • パラメトリックな学習 • 識別関数の設計 •
特徴空間の次元数と学習パターン数の関係 • 識別部の最適化
24.
識別関数の設計 • 2クラス分類を考え、1次元空間に変換 • 識別関数:𝑔
𝒙 = 𝒘P 𝒙 + 𝑤[ = 𝐰P 𝐱 = 0の法線上に射影 • 射影値:𝑔 𝒙 = 𝑨P 𝒙 + 𝑎[ (𝑨は𝑑次元空間から1次元空間への変換⾏列) 𝑔 𝑥 = 0
25.
評価関数を決める ⽅針 - 法線上での学習パターンの分布に注⽬ - 平均と分散で評価関数が決まるとする すなわち評価関数は、𝐽
≝ 𝐽(𝑚|/, 𝑚|N, 𝜎}/ N , 𝜎}N N )で表せる 𝑚|$ = 1 𝑛$ * 𝑔(𝒙) 𝒙∈𝑿S = 𝒘P 𝒎$ + 𝑤[ 𝜎}$ N = 1 𝑛$ * (𝑔 𝒙 − 𝑚|$)N 𝒙∈𝑿S = 𝒘P 1 𝑛$ * (𝒙 − 𝒎$)(𝒙 − 𝒎$)P 𝒙∈𝑿S 𝒘 = 𝒘P 𝚺$ 𝒘
26.
𝜎}$ N の途中計算 𝑔 𝒙 −
𝑚|$ = (𝒘P 𝒙 + 𝑤[) − (𝒘P 𝒎$ + 𝑤[) = 𝒘P 𝒙 − 𝒘P 𝒎$ = 𝒘P (𝒙 − 𝒎$) より、 (𝑔 𝒙 − 𝑚|$)N = {𝒘P (𝒙 − 𝒎$)}N = 𝒘P 𝒙 − 𝒎$ ・ 𝒘P 𝒙 − 𝒎$ P = 𝒘P 𝒙 − 𝒎$ 𝒙 − 𝒎$ 𝒕 𝒘 であるから、 1 𝑛$ * (𝑔 𝒙 − 𝑚|$)N 𝒙∈𝑿S = 𝒘P 1 𝑛$ * (𝒙 − 𝒎$)(𝒙 − 𝒎$)P 𝒙∈𝑿S 𝒘 = 𝒘P 𝚺$ 𝒘
27.
任意の𝐽を最⼤にする𝒘と𝑤[を求める まず、𝜎$ N と𝑚|$をそれぞれ𝒘と𝑤[で偏微分すると 𝜕𝜎$ N 𝜕𝒘 = 2𝚺$ 𝒘, 𝜕𝑚|$ 𝜕𝒘 =
𝒎$, 𝜕𝜎$ N 𝜕𝑤[ = 0, 𝜕𝑚|$ 𝜕𝑤[ = 1 となりこれらを利⽤する
28.
𝐽を𝒘で偏微分して𝟎と置く dkS G d𝒘 = 2𝚺$ 𝒘, d•|S d𝒘 =
𝒎$を利⽤する 𝜕𝐽 𝜕𝒘 = 𝜕𝐽 𝜕𝜎/ N 𝜕𝜎/ N 𝜕𝒘 + 𝜕𝐽 𝜕𝜎N N 𝜕𝜎N N 𝜕𝒘 + 𝜕𝐽 𝜕𝑚e/ 𝜕𝑚e/ 𝜕𝒘 + 𝜕𝐽 𝜕𝑚eN 𝜕𝑚eN 𝜕𝒘 = 2 𝜕𝐽 𝜕𝜎/ N 𝚺/ + 𝜕𝐽 𝜕𝜎N N 𝚺N 𝒘 + 𝜕𝐽 𝜕𝑚e/ 𝒎/ + 𝜕𝐽 𝜕𝑚eN 𝒎N = 𝟎 つまり、𝒘 = / N d‚ dkI G 𝚺/ + d‚ dkG G 𝚺N E/ − d‚ d•eI 𝒎/ − d‚ d•eG 𝒎N を得る (4-38)
29.
𝐽を𝑤[で偏微分して0と置く dkS G dƒ„ = 0, d•|S dƒ„ = 1を利⽤する 𝜕𝐽 𝜕𝒘 = 𝜕𝐽 𝜕𝜎/ N 𝜕𝜎/ N 𝜕𝑤[ + 𝜕𝐽 𝜕𝜎N N 𝜕𝜎N N 𝜕𝑤[ + 𝜕𝐽 𝜕𝑚e/ 𝜕𝑚e/ 𝜕𝑤[ + 𝜕𝐽 𝜕𝑚eN 𝜕𝑚eN 𝜕𝑤[ = 𝜕𝐽 𝜕𝑚e/ + 𝜕𝐽 𝜕𝑚eN =
0 つまり、 d‚ d•eG = − d‚ d•eI を得る(4-40)
30.
式(4-38)に式(4-40)を代⼊ 𝒘 = 1 2 𝜕𝐽 𝜕𝑚e/ 𝜕𝐽 𝜕𝜎/ N 𝚺/
+ 𝜕𝐽 𝜕𝜎N N 𝚺N E/ 𝒎N − 𝒎/ ∝ 𝑠𝚺/ + 1 − 𝑠 𝚺N E/ 𝒎N − 𝒎/ (4-42) ただし、 𝑠 ≝ 𝜕𝐽 𝜕𝜎/ N 𝜕𝐽 𝜕𝜎/ N + 𝜕𝐽 𝜕𝜎N N (4-43) 𝑤[は式(4-40)から求めれば良い(⼀般形はない)
31.
𝐽の⼀例 𝐽 ≝ 𝑚|/ −
𝑚|N N 𝑘/ 𝜎}/ N + 𝑘N 𝜎}N N と定義する(4-44) この𝐽を最⼤にする ó 平均の差を⼤きくかつ、各クラスの分散を⼩さくするような 重み𝒘を求める
32.
𝐽の⼀例: 𝐽 ≝ •|IE•|G G 8Ik|I Gˆ8Gk|G G 𝜕𝐽 𝜕𝜎}$ N
= −𝑘$ 𝑚|/ − 𝑚|N N (𝑘/ 𝜎}/ N + 𝑘N 𝜎}N N )N (4-45) 式(4-42)と式(4-43)より、 𝒘 ∝ 𝑘/ 𝚺/ + 𝑘N 𝚺N E/ 𝒎N − 𝒎/ となる
33.
𝐽の⼀例: 𝐽 ≝ •|IE•|G G 8Ik|I Gˆ8Gk|G G ⼀⽅、 𝜕𝐽 𝜕𝑚|/ = 2
𝑚|/ − 𝑚|N 𝑘/ 𝜎}/ N + 𝑘N 𝜎}N N , 𝜕𝐽 𝜕𝑚|N = 2 𝑚|N − 𝑚|/ 𝑘/ 𝜎}/ N + 𝑘N 𝜎}N N より、式(4-40)にこれらを代⼊すると、0=0となり𝑤[は不定。 つまり、 𝐽を式(4-44)で定義すると𝒘は求まるが、 𝑤[が⼀意には 定まらない。
34.
𝑤[の決め⽅ • 変換後のクラス平均の中点を境界とする⽅法 𝑤[ =
− 𝑚|/ + 𝑚|N 2 • 変換後の各クラスごとの分散で内分する⽅法、あるいは各クラスごとの標準偏差で内分する⽅法 𝑤[ = − 𝜎}N N 𝑚|/ + 𝜎}/ N 𝑚|N 𝜎}/ N + 𝜎}N N , 𝑤[ = − 𝜎}N 𝑚|/ + 𝜎}/ 𝑚|N 𝜎}/ + 𝜎}N • 事前確率も考慮して内分する⽅法 𝑤[ = − 𝑃 𝜔N 𝜎}N N 𝑚|/ + 𝑃 𝜔/ 𝜎}/ N 𝑚|N 𝑃 𝜔/ 𝜎}/ N + 𝑃 𝜔N 𝜎}N N
35.
線形識別関数を⽤いた多クラスの識別 2クラスの識別関数に対する線形識別関数の考え⽅を多 クラスの識別問題への拡張を試みる ⼀般に多クラスの境界を決めるには複数の線形識別関数 が必要
36.
線形分離可能な場合 主に以下の3タイプに分けられる a. 任意の2つのクラスが𝜔$, 𝜔‰が線形分離可能な場合 b.
任意のクラス𝜔$と𝜔‰以外の全てのクラスが線形分離可能な場 合 c. 識別関数𝑔$ 𝒙 の⼤⼩によってクラスを決定できる場合
37.
任意の2つのクラスが𝜔$, 𝜔‰が線形分離可能
38.
任意の2つのクラスが𝜔$, 𝜔‰が線形分離可能 𝜔$と𝜔‰を識別する線形識別関数𝑔$‰ 𝒙
が存在し、 𝒙 ∈ 𝜔$ → 𝑔$‰ 𝒙 > 0, 𝒙 ∈ 𝜔‰ → 𝑔$‰ 𝒙 < 0 を満たす 同様にして 2(2E/) N 個の線形識別関数が定義できる 𝑔$‰ 𝒙 = −𝑔‰$ 𝒙 とすれば多クラスを識別するための識別規則は、 ∀𝑗 ≠ 𝑖, 𝑔$‰ 𝒙 > 0 → 𝒙 ∈ 𝜔$ となる
39.
多数決法 全ての𝑖 (0 < 𝑖
< 𝑐)について、𝑔$‰ 𝒙 > 0が成り⽴つ𝑗 0 < 𝑗 < 𝑐 の個数を求め、これをN(𝑖)とし、 識別規則を ∀𝑗 ≠ 𝑖, N(𝑖) > N(𝑗) → 𝒙 ∈ 𝜔$ とする⽅法
40.
任意のクラス𝜔$と𝜔‰以外の全てのクラスが線形分離可能
41.
任意のクラス𝜔$と𝜔‰以外の全てのクラスが線形分離可能 クラス𝜔$と𝜔‰以外の全てのクラスとを識別する線形識別関数 𝑔$ 𝒙 (1
≤ 𝑖 ≤ 𝑐)が存在し、 𝒙 ∈ 𝜔$ → 𝑔$ 𝒙 > 0, 𝒙 ∉ 𝜔$ → 𝑔$ 𝒙 < 0 を満たす 同様にしてc個の線形識別関数が定義できる 従って、多クラスを識別するための規則は 𝑔$ 𝒙 > 0 かつ ∀𝑗 ≠ 𝑖, 𝑔‰ 𝒙 < 0 → 𝒙 ∈ 𝜔$ となる(多数決法も可能)
42.
識別関数𝑔$ 𝒙 の⼤⼩によってクラスを決定できる場合
43.
識別関数𝑔$ 𝒙 の⼤⼩によってクラスを決定できる場合 識別規則は、 ∀𝑗
≠ 𝑖, 𝑔$ 𝒙 > 𝑔‰ 𝒙 → 𝒙 ∈ 𝜔$ となる 𝑔$ 𝒙 の⼤⼩関係は常に決定できるので、境界を除くどの領域も 必ずいずれかのクラス𝜔$に識別できる
44.
⼀般識別関数 2次識別関数:⼀般識別関数の最も簡単な例 𝑔$ 𝒙 =
𝑤[ + 𝒘P 𝒙 + 𝒙 𝒕 𝑾𝒙 と定義する (𝒘:𝑑次元ベクトル、𝑾: 𝑑, 𝑑 ⾏列) この関数の重みベクトルの最適化問題は、線形識別関数の重みベ クトルの最適化と全く同じ枠組みで解くことが可能!
45.
2次識別関数の重みベクトル最適化の例 特徴空間の次元は1として、 識別関数を𝑔 𝑥 =
𝑤[ + 𝑤/ 𝑥 + 𝑤N 𝑥N で定義する。 このとき新たに𝐲 = (1, 𝑥, 𝑥N )P というベクトルを定義して、 𝒘 = (𝑤[, 𝑤/, 𝑤N)P と置くと、 𝑔 𝒚 = 𝒘P 𝒚と表せるので、ベクトル𝐲を新たな特徴ベクトルとし て最適な𝒘を求める線形識別問題の重みベクトルの最適化問題に 帰着できる。
46.
線形識別関数の頑健性 2次識別関数の⽅が線形識別関数よりも⼀般的な問題に対して適 ⽤可能なため、実⽤上有利? → 実は必ずしもこれは正しくはなく、むしろ線形識別関数の⽅ が良い結果をもたらすことも少なくない。 これを線形識別関数の頑健性という。 2次識別関数はより多くのパラメータを持つためこのようなこと が⽣じる。
47.
𝜑関数 𝒙に関する任意の𝑘個の関数を𝜑$ 𝒙 (𝑖
= 1,2, … , 𝑘)と置き、 𝑔 𝒙 = ∑ 𝑤$ 𝜑$ 𝒙8 $./ + 𝑤[という識別関数を定義する。 ここで新たにベクトル𝐲を、𝐲 = (𝜑/ 𝒙 , … , 𝜑8 𝒙 )と置けば、𝑔 𝒙 は𝐲を特徴ベクトルとみなした線形識別関数に他ならない。 この𝑔 𝒙 のことを⼀般識別関数、あるいは𝜑関数と呼ぶ。 これにより⾮線形関数をも含む任意の識別関数を実現できるよう になるが、 𝜑$ 𝒙 の必要条件は⼀般には分からない...
48.
この章でやること • パラメトリックな学習 • 識別関数の設計 •
特徴空間の次元数と学習パターン数の関係 • 識別部の最適化
49.
特徴空間の次元数と学習パターン数 次元数𝑑に対して、学習パターン数𝑛を決めることは識別部を設計する際に直⾯す る重要な問題。 今のところ、この問題に対する⼀般的な解はない。 学習パターン数が特徴空間の次元数以下(𝑛 ≤ 𝑑)の場合、 𝑑次元の空間を⽤意したのに、
(𝑛 − 1)次元しか使⽤しておらず、 (d − 𝑛 + 1)次元分が無駄になっている。 ⼀般に、パターンの分布が特徴空間の中でその次元数に⾒合った広がりを持つた めには、 𝑛 ≫ 𝑑であることが必要。 → 特徴量を追加するなら、学習パターン数もそれに応じて増やす必要がある。
50.
特徴空間の次元数と学習パターン数 𝑑次元の特徴空間上に 𝑛個のパターンが分布している場合(これらのパターンは⼀ 般位置にあるとする)、 各々のパターンが𝜔/, 𝜔Nに属するとすると、クラスの割り当て⽅は2R 通り。 この中から任意の1つを選んだ時にこれが超平⾯により線形分離できる確率𝑝(𝑛,
𝑑) は𝑑が⼗分⼤きいとき、以下が成り⽴つことが知られている。 𝑝 𝑛, 𝑑 ≈ 1 𝑛 < 2 𝑑 + 1 𝑝 𝑛, 𝑑 = 1 2 𝑛 = 2 𝑑 + 1 𝑝 𝑛, 𝑑 ≈ 0 𝑛 > 2 𝑑 + 1 つまり、 𝑛 > 2 𝑑 + 1 のもとで線形分離⾯が⾒出せれば、その信頼度は極めて⾼い。 逆に𝑛 < 2 𝑑 + 1 のもとで線形分離⾯が⾒出せても意味がない!(当たり前)
51.
識別部設計時における諸問題 • 次元の呪い 必要とされる学習パターンの数が次元数の増加とともに、指数関 数的に増える現象。 • 過学習 少数の学習パターンに対して、多数のパラメータを持つ複雑な識 別関数で誤差0で近似してしまうような現象。訓練データに対し ては⾼い精度を出すが、新たな未知データに対しては正確な出⼒ ができなくなるという危険をはらんでいる。
52.
この章でやること • パラメトリックな学習 • 識別関数の設計 •
特徴空間の次元数と学習パターン数の関係 • 識別部の最適化
53.
識別部を決定するパラメータ これまでの登場してきたノンパラメトリックな識別⼿法として、 線形識別関数、ニューラルネットワーク、k-NN法があるが、こ れらには次数、中間ユニット数、kの値など、学習に先⽴って決 定すべきパラメータが存在する。 これらのパラメータは重みパラメータのような”本来のパラメー タのためのパラメータ”であることからハイパーパラメータと呼 ばれる。
54.
k-NN法でハイパーパラメータを決定する ことを考える クラスラベル付きパターン集合: 𝑿 =
{𝒙/, … , 𝒙R} ハイパーパラメータ:𝜆 = 1,2,3, …という⾃然数 𝑿を⽤いて設計した識別機の、同じ分布に従う全ての可能な未知 パターンに対する誤識別率の平均値を𝑒•とすると、 ハイパーパラメータの決定問題とは𝑒•を最⼩にする𝜆を決定する ことに他ならない。 しかし、分布は未知ゆえに𝑒•を計算するのは難しいので𝑿 = {𝒙/, … , 𝒙R}のみから𝑒•を推定する問題に帰着される。
55.
分割学習法 (hold-out method) 最も
単純な⽅法として、分割学習法 (以下H法)という⽅法がある。 まず𝑿 = 𝒙/, … , 𝒙R を、学習パターン𝑿/とテストパターン𝑿Nに分 割する。 さらに 𝑿/を⽤いて𝜆の各値で識別機を設計し、 𝑿Nを⽤いて識別 性能を評価することにより𝑒•を推定する。 しかし、この⽅法では与えられたパターン集合を分割する時点で 学習に使⽤するパターン数が減少するため識別性能の劣化が予想 される。与えられたパターン数が少ない場合には精度が低くなる などの問題がある。
56.
交差確認法 (cross-validation method) 交差確認法
以下CV法 では、𝑿全ての要素を学習とテストに使⽤ されるようになっている。 まず𝑿を𝑿/, … , 𝑿•というm個のグループに分割する。 𝑿$を除くm − 1個全てのグループのパターンで学習した後、 𝑿$で誤識別率を算出する。 これを𝑖 = 1,2, … , 𝑚の全てで⾏い、得られたm個の誤識別率の平 均値を𝑒•とする。 特に要素数が1となる分割がよく⽤いられ、1つ抜き法(L法)と呼 ばれ、これはH法に⽐べ𝑒•の推定精度が向上する。
57.
ブートストラップ法 (BS法) CV法と同様に、任意の統計量の推定を⾏う⼿法。 CV法に⽐べ、推定値の分散が⼩さくなる。つまり、 𝑿の変動に 対して安定するのが強みである。 推定⽅法の基本は、𝑿からの取り出しては元に戻すという復元抽 出にある。
58.
BS法 𝑿を学習とテスト両⽅にしようして得られた𝑒•の推定値を𝑒•e とする。 真値と推定値のズレを、 𝑅
= 𝑒• − 𝑒•e と表して、 𝑅が何らかの⽅法で推定できれば𝑒• = 𝑅 + 𝑒•e と求められる。 BS法では𝑿からn回の復元抽出で擬似パターン𝑿∗ = (𝒙/ ∗ , … , 𝒙R ∗ )を⽣成 し、この擬似パターン集合から𝑅の値を推定する。 実⽤的なのはこのBS法と、L法である。 と、本には書いてあるが最近ではk-fold-CV法が主流のようである。
Download now