SlideShare a Scribd company logo
わかりやすいパターン認識 第2版
6.1~6.3
2023年7月3日
目次
第6章 特徴空間の変換
6.1 特徴選択と特徴空間の変換
6.2 特徴量の正規化
6.3 KL展開
[1] 次元削除のための基準
[2] 分散最大基準
[3] 平均二乗誤差最小基準
2
1. 前処理について
2. スケーリング
3.
4. 特徴選択
5. まとめ
特徴空間と特徴ベクトルを扱う上での問題点
スケール(scale)が異なる可能性
例 体重(kg,g)
3
特徴量を増やしすぎる可能性
• 相関の高い特徴量の混入
• 計算量の増加
関連 次元の呪い(curse of dimensionality)
• ヒューズの現象(Hughes phenomenon)
→スケーリングが必要 →次元削減が必要
スケーリング(Scaling)とは
4
スケーリング
50
55
60
65
70
164 166 168 170 172 174 176 178
体重[Kg]
身長[cm]
50000
55000
60000
65000
70000
164 166 168 170 172 174 176 178
体重[g]
身長[cm]
-2
-1
0
1
2
3
-3 -2 -1 0 1 2 3
体重
身長
特徴量が取りうる値の範囲を変える・異なる特徴量同士のスケールを統一すること
5
• 値の重みを平等に
• 学習コストの削減
スケーリングの目的
𝑥1
𝑥2
𝑔1
𝑔2
ω11
ω21
ω12
ω22
50000
55000
60000
65000
70000
164 166 168 170 172 174 176 178
体重[g]
身長[cm]
スケーリング方法の証明の流れ
6
3. 変換行列𝑨の束縛条件
4.ラグランジュの
未定乗数法 5.変換行列𝑨の依存性
1.スケーリング化 後の
2.パターン間の距離𝑹𝟐
7
特徴空間の変換(transformation of feature space)
変換行列𝐴(transformation matrix)を用いて
𝒚 = 𝐴𝑡𝒙
特徴選択(feature selection)で𝑖番目を除く場合
𝐴 = 𝐴 = 𝑑
𝑑
𝑑
𝑑
スケーリングの場合
パターンのスケーリング
8
𝑑次元特徴空間上に𝑛個のパターンを用意
𝑝番目のパターンを𝑥𝑝とすると
𝒙𝒑 = 𝑥𝑝1, 𝑥𝑝2, … , 𝑥𝑝𝑑
𝑡
スケーリングの変換行列𝐴(𝑑 × 𝑑の正方行列)を
𝐴 =
とし、𝑝番目のスケーリング後のパターンを𝒚𝒑とすると
𝒚𝒑 = 𝑦𝑝1, 𝑦𝑝2, … , 𝑦𝑝𝑑
𝑡
= 𝐴𝑡𝒙𝒑
𝑗 = 1,2, … , 𝑑とし、要素ごとに書くと
𝑦𝑝𝑗 = 𝑎𝑗𝑥𝑝𝑗
𝑑次元特徴空間上に𝑛個のパターン
6.3
6.2
6.4
6.5
6.6
スケーリング後の各パターン間の平均二乗間距離
9
𝒚𝟏, 𝒚𝟐, … , 𝒚𝒑−𝟏, 𝒚𝒑, 𝒚𝒑+𝟏, … 𝒚𝒏
=
𝑦1 1 𝑦2 1
𝑦1 2 𝑦2 2
… 𝑦𝑝−1 1
… 𝑦𝑝−1 2
𝑦𝑝 1 𝑦𝑝+1 1
𝑦𝑝 2 𝑦𝑝+1 2
… 𝑦𝑛 1
… 𝑦𝑛 2
⋮ ⋮
𝑦1 𝑑 𝑦2 𝑑
⋱ ⋮
… 𝑦𝑝−1 𝑑
⋮ ⋮
𝑦𝑝 𝑑 𝑦𝑝+1 𝑑
⋱ ⋮
… 𝑦𝑛 𝑑
𝑛個のデータの分散
𝜎2
=
1
𝑛
𝑥1 − 𝑥 2
+ 𝑥2 − 𝑥 2
+ ⋯ + 𝑥𝑛 − 𝑥 2
=
1
𝑛
𝑖=1
𝑛
𝑥𝑖 − 𝑥 2
=
1
𝑛
𝑖=1
𝑛
𝑥𝑖
2
− 𝑥2
次元
パターン
二乗平均 - 平均の二乗
6.7
6.8
6.9
6.10
6.14
𝑛個のパターンの中の𝑝番目と
他の 𝑛 − 1 個のパターンの平均二乗距離𝑟𝑝
2
は
𝑟𝑝
2
=
1
𝑛 − 1
𝑞=1
𝑛
𝑗=1
𝑑
𝑦𝑝𝑗 − 𝑦𝑞𝑗
2
パターンは𝑛個あるので全体の平均二乗距離𝑅2は
𝑅2
=
1
𝑛
𝑝=1
𝑛
𝑟𝑝
2
=
1
𝑛 𝑛 − 1
𝑝=1
𝑛
𝑞=1
𝑛
𝑗=1
𝑑
𝑦𝑝𝑗 − 𝑦𝑞𝑗
2
これに𝑦𝑝𝑗 = 𝑎𝑗𝑥𝑝𝑗(6.6)を代入すると
𝑅2
=
1
𝑛 𝑛 − 1
𝑝=1
𝑛
𝑞=1
𝑛
𝑗=1
𝑑
𝑎𝑗
2
𝑥𝑝𝑗 − 𝑥𝑞𝑗
2
=
2𝑛
𝑛 − 1
𝑗=1
𝑑
𝑎𝑗
2
𝑥𝑗
2
− 𝑥𝑗
2
分散を用いた平均二乗間距離
10
母集団(特徴量全体) 標本(特徴量𝑗番目)
母分散 不偏分散
推定
(標本分散)
幅(分散)は小さくなる
不偏分散の感覚的な理解
𝑗番目の特徴𝑥𝑗の分散を𝜎𝑗
2
とすると
𝜎𝑗
2
=
1
𝑛 − 1
𝑝=1
𝑛
𝑥𝑝𝑗 − 𝑥𝑗
2
=
𝑛
𝑛 − 1
𝑥𝑗
2
− 𝑥𝑗
2
この結果を𝑅2
= 2
𝑛
𝑛−1 𝑗=1
𝑑
𝑎𝑗
2
𝑥𝑗
2
− 𝑥𝑗
2
6.14 に代入すると
𝑅2 = 2
𝑗=1
𝑑
𝑎𝑗
2
𝜎𝑗
2
6.15
6.17
6.18
スケーリング方法の証明の流れ(再掲)
11
3. 変換行列𝑨の束縛条件
4.ラグランジュの
未定乗数法 5.変換行列𝑨の依存性
1.スケーリング化 後の
2.パターン間の距離𝑹𝟐
12
条件付き極値問題
極値を知りたい関数: 𝑓 𝑥1, 𝑥2, … , 𝑥𝑛
束縛条件: 𝑔 𝑥1, 𝑥2, … , 𝑥𝑛 = 0
𝐿 𝑥1, 𝑥2, … , 𝑥𝑛 = 𝑓 𝑥1, 𝑥2, … , 𝑥𝑛 − λ𝑔 𝑥1, 𝑥2, … , 𝑥𝑛
𝜕𝐿
𝜕𝑥1
=
𝜕𝐿
𝜕𝑥2
= ⋯ =
𝜕𝐿
𝜕𝑥𝑛
=
𝜕𝐿
𝜕λ
= 0
ラグランジュの未定乗数法
6.18
6.19
6.20
6.21
6.22
極値を知りたい関数
𝑅2
= 2
𝑗=1
𝑑
𝑎𝑗
2
𝜎𝑗
2
束縛条件
𝑗=1
𝑑
𝑎𝑗 = 𝑎1 × 𝑎2 × ⋯ × 𝑎𝑑 = 1
𝑗=1
𝑑
𝑎𝑗 − 1 = 0
𝐿 = 2
𝑗=1
𝑑
𝑎𝑗
2
𝜎𝑗
2
− λ
𝑗=1
𝑑
𝑎𝑗 − 1
𝜕𝐿
𝜕𝑎𝑗
= 0
4𝑎𝑗𝜎𝑗
2
− λ
𝑘≠𝑗
𝑑
𝑎𝑘 = 0
13
4𝑎𝑗𝜎𝑗
2
− λ
𝑘≠𝑗
𝑑
𝑎𝑘 = 0
両辺に𝑎𝑗をかけて 𝑗=1
𝑑
𝑎𝑗 = 1を利用すると
4𝑎𝑗
2
𝜎𝑗
2
− λ = 0
𝑎𝑗 =
λ
2𝜎𝑗
λについて整理し、計算を行うと
𝑎𝑗 =
1
𝜎𝑗
𝑘=1
𝑑
𝜎𝑘
1
𝑑
変換行列𝑨は
標準偏差に依存
6.26
𝑎𝑗 ∝
1
𝜎𝑗
𝐴 =
ラグランジュの未定乗数法を用いた変換行列の決定
6.22
6.23
6.25
スケーリング(Scaling)とは(再掲)
14
スケーリング
50
55
60
65
70
164 166 168 170 172 174 176 178
体重[Kg]
身長[cm]
50000
55000
60000
65000
70000
164 166 168 170 172 174 176 178
体重[g]
身長[cm]
-2
-1
0
1
2
3
-3 -2 -1 0 1 2 3
体重
身長
特徴量が取りうる値の範囲を変える・異なる特徴量同士のスケールを統一すること
𝑋 − 𝜇
𝜎
15
正規化(Normalization)
標準化(Standardization)
10 30 50 70 90
-4 -2 0 2 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
元データ
最大値 :1
最小値 :0
平均 :0
標準偏差:1
𝑋 − 𝑋𝑚𝑖𝑛
𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛
𝑋 − 𝜇
𝜎
一般的に用いられるスケーリング手法の例
16
スケーリングの有効性
有効な場合
特徴量間の距離
有効でない
影響が少ない場合
• 決定木
(LightGBM、Random Forestなど)
• ナイーブベイズ分類器
(条件付き独立の特徴量)
• ニューラルネットワーク
• サポートベクトルマシン
17
スケーリングまとめ
スケーリングの目的
• 値の重みを平等に
• 学習コストの削減
スケーリングの有効性
• 特徴量間の距離
スケーリング
標準化 正規化
みにくいアヒルの子の定理とは
18
全ての特徴量を同等に扱うと
同じ数値になり分類できない
黄色 長子
1 2
3
4
ノーフリーランチ定理とは
(No Free Lunch theorem)
19
最適化されたアルゴリズム
汎用アルゴリズム
解決したい分類問題に合わせて
アルゴリズムを組む必要がある
20
0
2
4
6
8
10
12
0 2 4 6 8 10 12
0
2
4
6
8
10
12
0 2 4 6 8 10 12
特徴選択(feature selection)とは
ある基準に沿って特徴空間の次元削減(dimensionality reduction)を行うこと
よりいいのはどちらか?
特徴選択の種類
21
6.4 線形判別法
(linear discriminant method)
6.5
使い分け
KL展開の注意点
6.3 カルーネン・レーベ展開
(Karhunen-Loéve expansion)
略して KL展開
データ全体の分布を変換
評価基準
• 分散最大
• 平均二乗誤差最小
分離性を保ちつつ変換
分散最大基準の場合の流れ
22
3. 変換行列𝑨の制約条件
4.最適化問題
➡︎固有値問題 5.特徴量の選び方
1.変換行列𝑨の決定
2.変換後の分散
23
特徴空間の変換(transformation of feature space)(再掲)
変換行列𝐴(transformation matrix)を用いて
𝒚 = 𝐴𝑡𝒙
スケーリングの場合 特徴選択(feature selection)で𝑖番目を除く場合
𝐴 = 𝐴 = 𝑑
𝑑
𝑑
𝑑
24
パターンの変換
𝑑次元の元の空間から𝑑 < 𝑑 次元への変換行列𝐴は
正規直交基底を用いて
𝐴 = 𝒖𝟏, … , 𝒖𝑑
特徴ベクトルの変換前を𝒙、変換後を𝒚とすると
𝒚 = 𝐴𝑡
𝒙
𝑛個のパターンを用意
変換前のパターンの平均
𝒎 =
1
𝑛
𝒙∈𝒳
𝒙
変換後のパターンの平均
𝒎 =
1
𝑛
𝒚∈𝒴
𝒚 =
1
𝑛
𝒙∈𝒳
𝐴𝑡𝒙 = 𝐴𝑡𝒎
正規直交基底
正規:長さ1
直交:他の2つの内積が0
自分自身の内積は単位行列に
6.30
6.31
6.33
6.34
6.36
6.37
25
変換後のパターンの分散
トレース とは
正方行列の対角成分の和
例
tr
1 2 3
4 5 6
7 8 9
= 15
性質
𝒙𝑡
𝒚 = tr 𝒙𝒚𝑡
= tr 𝒚𝒙𝑡
2次元の共分散行列
𝑉 𝒙 =
𝑉 𝒙1 𝐶𝑜𝑣 𝒙1, 𝒙2
𝐶𝑜𝑣 𝒙2, 𝒙1 𝑉 𝒙2
6.35
6.38
6.40
6.39
変換行列𝐴よって変換後の分散を𝜎2
𝐴 とすると
𝜎2
𝐴 =
1
𝑛
𝒚∈𝒴
𝒚 − 𝒎 𝑡
𝒚 − 𝒎
𝒚 = 𝐴𝑡
𝒙(6.31)を代入すると
𝜎2 𝐴 =
1
𝑛
𝒙∈𝒳
𝐴𝑡 𝒙 − 𝒎
𝑡
𝐴𝑡 𝒙 − 𝒎
=
1
𝑛
𝒙∈𝒳
tr 𝐴𝑡 𝒙 − 𝒎 𝐴𝑡 𝒙 − 𝒎
𝑡
= tr 𝐴𝑡
1
𝑛
𝒙∈𝒳
𝒙 − 𝒎 𝒙 − 𝒎 𝑡
𝐴
変換前の共分散行列をΣとすると
Σ =
1
𝑛
𝒙∈𝒳
𝒙 − 𝒎 𝒙 − 𝒎 𝑡
これより
𝜎2
𝐴 = tr 𝐴𝑡
Σ𝐴
分散最大基準の場合の流れ(再掲)
26
3. 変換行列𝑨の制約条件
4.最適化問題
➡︎固有値問題 5.特徴量の選び方
1.変換行列𝑨の決定
2.変換後の分散
6.42
27
極値を知りたい関数: 𝑓 𝑥1, 𝑥2, … , 𝑥𝑛
束縛条件: 𝑔 𝑥1, 𝑥2, … , 𝑥𝑛 = 0
𝐿 𝑥1, 𝑥2, … , 𝑥𝑛 = 𝑓 𝑥1, 𝑥2, … , 𝑥𝑛 − λ𝑔 𝑥1, 𝑥2, … , 𝑥𝑛
𝜕𝐿
𝜕𝑥1
=
𝜕𝐿
𝜕𝑥2
= ⋯ =
𝜕𝐿
𝜕𝑥𝑛
=
𝜕𝐿
𝜕λ
= 0
条件付き極値問題(再掲)
最適化問題(ラグランジュの未定乗数法)
6.39
6.32
最大にしたい行列
𝜎2
𝐴 = tr 𝐴𝑡
Σ𝐴
制約条件
𝐴𝑡𝐴 = 𝐼
𝐴𝑡
𝐴 − 𝐼 = 0
λに相当する𝑑次元対角行列をΛとすると
𝐽 𝐴 ≝ tr 𝐴𝑡Σ𝐴 − tr 𝐴𝑡𝐴 − 𝐼 Λ
28
𝐽 𝐴 ≝ tr 𝐴𝑡Σ𝐴 − tr 𝐴𝑡𝐴 − 𝐼 Λ 6.42 を
𝐴で偏微分すると
0 = 2Σ𝐴 − 2𝐴Λ
Σ𝐴 = 𝐴Λ
ここで対角行列Λは
より、Σ𝐴 = 𝐴Λ 6.43 の𝑖番目を取り出すと
Σ𝒖𝑖 = λ𝑖𝒖𝑖
トレースを含む偏微分
𝜕
𝜕𝐴
tr 𝐴𝑡Σ𝐴 = Σ + Σ𝑡 𝐴
𝜕
𝜕𝐴
tr 𝐴𝑡
𝐴 = 2𝐴
Λ=
固有値問題
λ:固有値(eigenvalue)
𝒙:固有ベクトル(eigenvector)
(6.45)
𝐴𝒙 = λ𝒙
固有値問題
6.43
29
Σ𝐴 = 𝐴Λ 6.43 の両辺左から𝐴𝑡
をかけると
𝐴𝑡Σ𝐴 = Λ
max 𝜎2
𝐴 = max tr 𝐴𝑡
Σ𝐴
変換行列𝑨は
対角化する行列
6.48
= max trΛ
分散が大きい
固有値が大きい
影響が大きい特徴量
共分散行列Σを𝐴で対角化
特徴量の選び方
6.46
6.47
平均二乗誤差最小基準の場合の流れ
30
3. 変換行列𝑨の制約条件
4.最適化問題
➡︎固有値問題
しかし…
1.変換行列𝑨の決定
2.平均二乗誤差
31
変換後の平均二乗誤差
分散最大基準と同様に変換行列は
𝐴 = 𝒖𝟏, … , 𝒖𝑑
特徴ベクトルの変換前を𝒙、変換後を𝒚とすると
𝒚 = 𝐴𝑡𝒙
変換によって生じる平均二乗誤差ε2(𝐴)は
ε2 𝐴 =
1
𝑛
𝐴𝒚 − 𝒙 𝑡 𝐴𝒚 − 𝒙
= tr𝑅 − tr 𝐴𝑡
𝑅𝐴
自己相関行列
𝑅 ≝
1
𝑛
𝒙∈𝒳
𝒙𝒙𝑡
6.30
6.31
6.50
6.54
6.55
分散最大基準と平均二乗誤差基準との比較
平均二乗誤差
min ε2 𝐴 = tr𝑅 − max tr 𝐴𝑡𝑅𝐴
32
分散最大
max 𝜎2
𝐴 = max tr 𝐴𝑡
Σ𝐴
Σ =
1
𝑛
𝒙∈𝒳
𝒙 − 𝒎 𝒙 − 𝒎 𝑡 = 𝑅 − 𝒎𝒎𝑡
𝒎 = 𝟎としてみると
Σ = 𝑅
tr 𝐴𝑡Σ𝐴 = tr 𝐴𝑡𝑅𝐴
𝒎 = 𝟎のとき
これらは同じ
6.47
6.56
𝒎 = 𝟎とは
33
分散最大
平均二乗誤差最小
スケーリング
変換前のパターンの平均
𝒎 =
1
𝑛
𝒙∈𝒳
𝒙 = 𝟎
𝜎2 𝐴 =
1
𝑛
𝒙∈𝒳
𝐴𝑡 𝒙 − 𝒎
𝑡
𝐴𝑡 𝒙 − 𝒎
ε2
𝐴 =
1
𝑛
𝐴𝒚 − 𝒙 𝑡
𝐴𝒚 − 𝒙
分布の重心を原点に
果たして平行移動は最適なのか?
6.36
6.50
図6.4 著作権により削除しています
変数を含めた平均二乗誤差最小基準の場合の流れ
34
5.平行移動の変数
6.平均二乗誤差
7.平均二乗誤差の最小 8.誤差を最小にする変数
平行移動の変数の導入
35
平行移動する量を𝒙0とすると
𝒚 = 𝐴𝑡
𝒙 − 𝒙0
𝒚は元の空間座標系で𝐴𝒚 + 𝒙0より誤差は
𝐴𝒚 + 𝒙0 − 𝒙 = 𝐴𝐴𝑡
− 𝐼 𝒙 − 𝒙0
ε2 𝐴, 𝒙0 =
1
𝑛
𝑄 𝒙 − 𝒙0
𝑡
𝑄 𝒙 − 𝒙0
=
1
𝑛
𝒙 − 𝒙0
𝑡
𝑄 𝒙 − 𝒙0
𝑄 = 𝐼 − 𝐴𝐴𝑡
とすると
𝑄𝑡𝑄 = 𝑄
6.61
6.64
6.66
6.62
6.63
二乗平均誤差を最小にする変数
36
ε2
𝐴, 𝒙0 =
1
𝑛
𝒙 − 𝒙0
𝑡
𝑄 𝒙 − 𝒙0
極値を知りたいので𝒙0で偏微分
𝜕ε2
𝜕𝒙0
=
1
𝑛
2𝑄𝒙0 − 2𝑄𝒙
= 2𝑄 𝒙0 − 𝒎
= 𝟎
これより
ε2
𝐴 =
1
𝑛
𝑸 𝒙 − 𝒙0
𝑡
𝑸 𝒙 − 𝒙0
=
1
𝑛
𝑸 𝒙 − 𝒎
𝑡
𝑸 𝒙 − 𝒎
𝒙0 = 𝒎
が解の1つ
変換行列𝐴は
全て一致
= trΣ − tr 𝐴𝑡
Σ𝐴 (6.78)
6.66
6.70
6.71
6.73
6.66
6.74
𝑄𝒙0 = 𝑄𝒎
特徴選択まとめ
37
特徴選択
線形判別法
2クラス 多クラス
KL展開
分散最大 平均二乗誤差
• データ全体の分布を変換
𝒙0 = 𝒎のとき
• 変換行列𝐴は一致
本日のまとめ
38
前処理
スケーリング
標準化 正規化
特徴選択
KL展開
分散最大化 平均二乗誤差

More Related Content

What's hot

PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
【DL輪読会】SUMO: Unbiased Estimation of Log Marginal Probability for Latent Varia...
【DL輪読会】SUMO: Unbiased Estimation of Log Marginal Probability for Latent Varia...【DL輪読会】SUMO: Unbiased Estimation of Log Marginal Probability for Latent Varia...
【DL輪読会】SUMO: Unbiased Estimation of Log Marginal Probability for Latent Varia...Deep Learning JP
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルShohei Okada
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6禎晃 山崎
 
統計的学習の基礎 3章前半
統計的学習の基礎 3章前半統計的学習の基礎 3章前半
統計的学習の基礎 3章前半Kazunori Miyanishi
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
Genetic algorithm full scratch with R
Genetic algorithm full scratch with RGenetic algorithm full scratch with R
Genetic algorithm full scratch with RSatoshi Kato
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
はじめてのパターン認識8章 サポートベクトルマシン
はじめてのパターン認識8章 サポートベクトルマシンはじめてのパターン認識8章 サポートベクトルマシン
はじめてのパターン認識8章 サポートベクトルマシンNobuyukiTakayasu
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムTakuya Akiba
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8matsuolab
 

What's hot (20)

PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
 
PRML chapter7
PRML chapter7PRML chapter7
PRML chapter7
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
【DL輪読会】SUMO: Unbiased Estimation of Log Marginal Probability for Latent Varia...
【DL輪読会】SUMO: Unbiased Estimation of Log Marginal Probability for Latent Varia...【DL輪読会】SUMO: Unbiased Estimation of Log Marginal Probability for Latent Varia...
【DL輪読会】SUMO: Unbiased Estimation of Log Marginal Probability for Latent Varia...
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
PRMLrevenge_3.3
PRMLrevenge_3.3PRMLrevenge_3.3
PRMLrevenge_3.3
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6
 
統計的学習の基礎 3章前半
統計的学習の基礎 3章前半統計的学習の基礎 3章前半
統計的学習の基礎 3章前半
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
Genetic algorithm full scratch with R
Genetic algorithm full scratch with RGenetic algorithm full scratch with R
Genetic algorithm full scratch with R
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
Prml07
Prml07Prml07
Prml07
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
はじめてのパターン認識8章 サポートベクトルマシン
はじめてのパターン認識8章 サポートベクトルマシンはじめてのパターン認識8章 サポートベクトルマシン
はじめてのパターン認識8章 サポートベクトルマシン
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
PRML8章
PRML8章PRML8章
PRML8章
 

Similar to わかりやすいパターン認識6章.pptx

PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slidesharewada, kazumi
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムMiyoshi Yuya
 
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2hirokazutanaka
 
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門  6. 最適化と学習アルゴリズムクラシックな機械学習の入門  6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズムHiroshi Nakagawa
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector MachineYuma Nakamura
 
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法健児 青木
 
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )aich_08_
 
University CodeSprint 4 - Magic value
University CodeSprint 4 - Magic valueUniversity CodeSprint 4 - Magic value
University CodeSprint 4 - Magic valuesatanic
 
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題健児 青木
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
速習情報幾何 2018_10_25
速習情報幾何 2018_10_25速習情報幾何 2018_10_25
速習情報幾何 2018_10_25Arithmer Inc.
 
正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)Eric Sartre
 
データ解析3 最適化の復習
データ解析3 最適化の復習データ解析3 最適化の復習
データ解析3 最適化の復習Hirotaka Hachiya
 
【輪読】Bayesian Optimization of Combinatorial Structures
【輪読】Bayesian Optimization of Combinatorial Structures【輪読】Bayesian Optimization of Combinatorial Structures
【輪読】Bayesian Optimization of Combinatorial StructuresTakeru Abe
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomikenyanonaka
 
はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半Prunus 1350
 
競技プログラミングでの線型方程式系
競技プログラミングでの線型方程式系競技プログラミングでの線型方程式系
競技プログラミングでの線型方程式系tmaehara
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析Shu Tanaka
 

Similar to わかりやすいパターン認識6章.pptx (20)

PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
 
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門  6. 最適化と学習アルゴリズムクラシックな機械学習の入門  6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
 
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
 
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
 
University CodeSprint 4 - Magic value
University CodeSprint 4 - Magic valueUniversity CodeSprint 4 - Magic value
University CodeSprint 4 - Magic value
 
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
速習情報幾何 2018_10_25
速習情報幾何 2018_10_25速習情報幾何 2018_10_25
速習情報幾何 2018_10_25
 
正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)正則化つき線形モデル(「入門機械学習第6章」より)
正則化つき線形モデル(「入門機械学習第6章」より)
 
データ解析3 最適化の復習
データ解析3 最適化の復習データ解析3 最適化の復習
データ解析3 最適化の復習
 
【輪読】Bayesian Optimization of Combinatorial Structures
【輪読】Bayesian Optimization of Combinatorial Structures【輪読】Bayesian Optimization of Combinatorial Structures
【輪読】Bayesian Optimization of Combinatorial Structures
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
 
はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半
 
競技プログラミングでの線型方程式系
競技プログラミングでの線型方程式系競技プログラミングでの線型方程式系
競技プログラミングでの線型方程式系
 
Tokyo r #43
Tokyo r #43Tokyo r #43
Tokyo r #43
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析
 

わかりやすいパターン認識6章.pptx

Editor's Notes

  1. 第6章は特徴空間の変換という内容を扱うのですが お断りとして用語の説明が現在用いられている意味合いと一部異なりますので今回の発表では、一般的に用いられている意味合いの方で解説を行います 用語に関しては出てきたタイミングで説明させていただきますので予めご了承いただけたらと思います またですね、構成なのですが、内容が全体的に重ためなので、理解しやすいような構成に変更しております 料理で言うところの下処理の部分に当たります 大きく2つ方法として前半にスケーリングと後半に特徴選択という内容をご紹介したいと思います その間にですね、2つの興味深い定理をご紹介したいと思います では早速始めていきましょう
  2. 前処理を行わないことで生じる2つの問題をご紹介します まずは左側の スケールによる差をなくすと言うことをスケーリングといい 2つ目なのですが、 増やせば精度が上がると思われがちですが ヒューズの現象と言われる次元を上げていってもかえって精度が落ちると言うことがわかっています
  3. 特徴量のスケールを統一することです 実際に左図の具体例を見ていきましょう 同じような散布図に見えるのですが
  4. あたいの重みを調整するのに学習のコストがかかってしまう 実際にどのようなスケーリンぐ方法を行えばいいのか証明をしていきたいと思います
  5. スケーリングを行う変換行列をきめ、 パターン間の距離に注目していきます
  6. 今回求めたい目標の変換行列がこちらになります 変換まえのパターンに変換行列をかけることで d×dの対角成分のみの行列となっています
  7. 分散を用いて表してみようと思います
  8. アンケート調査で20代の男女100人に 母分散でこのような左側の分布図があったとします
  9. 一番近いデータをサポートベクトルといい マージンを最大化するサポートベクトルマシン 逆に決定木のような該当するしないといった分類や確率によって分類される
  10. 詳しい証明等に関してはpdfが公開されておりますので気になる方は検索していただけたらと思います
  11. 全ての分類問題を与えたときに事前に情報、仮定がないと予想と現実のはんかござに関しては平均的にみると差はないと言うものになります 逆に事前に解く問題の情報が少しでもあればそれを利用したアルゴリズムの方が有利になると言うことで 解決したい問題に合わせてアルゴリズムを選択してあげることが重要である では後半の特徴選択について見ていきましょう
  12. 具体的にはこちらの散布図のように2次元から直線である1次元に次元を減らすことに該当します p181の演習問題6.2から持ってきたものなのですが
  13. スケーリングと同じような図なのですが
  14. 重心の移動を許さない方法もあります そちらは部分空間方といい7章の内容となりますので気になる方は見て見てください