SlideShare a Scribd company logo
1 of 21
パターン認識と機械学習
上巻 1.3-1.4
山岡大輝
本日の内容
・モデル選択
・次元の呪い
モデル選択
いかに良いモデルを選ぶか
1次多項式 9次多項式
モデルが単純過ぎると訓練
データを説明できていない
モデルが複雑過ぎると過学
習を起こす
過学習を防ぐ
22
1
1
( ) { ( , ) }
2 2
N
n n
n
E y x t


  w w w%
誤差関数に正則化項(罰金項)を導入
λ : 正則化パラメータ
訓練データとのズレ モデルの複雑さ
λが小さ過ぎる → 訓練データとのズレを小さくすることを重視
複雑なモデルになりやすく過学習を起こしやすい
λが大き過ぎる → 単純なモデルにすることを重視
訓練データとのズレは二の次
結局,λがいくらであれば良いのか分からないと正則化項を導入しても意味がない
解決法
・確認用集合を用いる
訓練データの一部を検証用データ(確認用集合)とし,これに対する
適合度合いをもとに過学習が起きていないか判断.
検証用データに対しても過学習してしまう可能性.
データは貴重なので,できるだけ訓練データとして使いたい.
しかし
限られたデータの効率的利用
交差確認(cross-validation)
1. サンプルデータをS等分にする
2. 1個を評価に、残りS-1個を訓練に使う
3. 評価に使う部分を変えて、S回繰り返す
4. S回の性能スコアを平均する
※S = サンプルデータ数 にしたものがLOO法
交差確認法の欠点(モデル選択における)
・学習回数が増える
・複雑なモデル(パラメータが複数)などの場合には有効ではない
(パラメータ数に対し、指数関数的に訓練回数が増える可能性)
S=4の例
情報量規準(information criterion)
理想 : 1回で複数の超パラメータとモデルのタイプを比較
罰金項を加えて最尤推定のバイアスを修正
赤池情報量規準(AIC)
: 最尤推定を行なった場合の尤度
: モデル中の可変パラメータの数
これが最大となるモデルを選択する
ln ( )MLp D Mw
( )MLp D w
M
情報量規準(information criterion)②
AICは確認用集合が無くても,訓練データさえあれば求まる
欠点:モデルパラメータの不確実性は考慮しておらず,過度
に単純なモデルを選ぶ傾向がある
他にも,ベイズ情報量規準(BIC)がある(詳しくは4.4.1節)
次元の呪い
次元の呪いとは
多くの入力変数による高次元空間を扱う際の問題・課題・困難
• 高次元化に伴う計算量の問題
• 三次元以下の空間における直感的理解との齟齬
実データは高次元でもやりようがある
実データは多くの場合において
• 実質的に低次元のデータが目標変数へ影響
• (局所的には)滑らかな性質
→ 多様体や内挿といった考え方を利用可能
計算量の増加について
例:入力変数が2つで、3状態に分類されるデータ
このデータは
赤,青,緑のどれに分類すべきか?
単純な手法
→マス目に区切って、最大数が属するクラスに分類
今回は2入力で4×4に区切ったので,16マスで済んだ
→もっと次元数が増えたら同じことができるか?
計算量の増加について②
入力空間を高次元に拡張すると
・マス目の数が指数的に増加する
・全てのマス目にデータが少なくとも1つないとこの方法は破綻する
ので,指数的に多くの訓練データが必要
多項式フィッティングの例
高次元入力の場合(入力変数がD個)
・モデルが3次多項式の場合
・独立な係数の数はD3に比例して増加
→モデルがM次多項式ならDMに比例して増加
(入力データが10次元なら約1000個のパラメータを推定しなけ
ればならない→実際に用いるのは困難)
*正確には置換対称性(𝑥1 𝑥2 𝑥3と𝑥1 𝑥3 𝑥2など)から独立なM係数はDM
個ではない(演習1.15 & 演習1.16)
0
1 1 1 1 1 1
( , )
D D D D D D
i i j i j k
i ij ijk
i i j i j k
y w w x w x x w x x x
     
     x w
低次元での直感との齟齬
半径 r = 1 の球の体積と、r=1と r = 1 – ε の間にある体積の比を考
える
D次元の半径rの球の体積は
*𝐾 𝐷はDのみに依存する定数
D=2ならπ,D=3なら4
3
πなど(演習1.18)
求める比は
D
D DV K r
(1) (1 )
1 (1 )
(1)
DD D
D
V V
V


 
  
D=2の場合
1 ε
各次元での体積比
(1) (1 )
1 (1 )
(1)
DD D
D
V V
V


 
  
大きなDの場合
・小さなεに対しても1に近い
→εが小さい範囲に体積がつまって
いる
→高次元では球の殆どの体積が表面
に近い薄皮に集中している
(球面集中現象)
高次元ガウス分布の極座標系密度を調べる
ガウス分布は,中心(平均値)で確率密度が最大になるが,高次元
では中心付近にデータはほとんど分布しない.
それを確かめるために,ガウス分布を極座標に変換し,中心からの
距離rでの確率分布にする.(演習1.20)
※𝑆 𝐷は単位超球の表面積 (演習1.18)
高次元ガウス分布の極座標系
高次元ガウス分布の極座標系密度を調べる
”High-Dimensional Probability
An Introduction with Applications in Data Science”より
実データは高次元空間でもやりようがある
• 高次元データの重要な変数は限られている
実データは多くの場合,実質的には低い次元の領域に入っている.
さらに,特に目標変数の重要な変化が生じる方向は限定される場合
が多い.
• 高次元データは局所的には滑らかに変化する
入力データが少しだけ変化したとしても,得られる目標のデータに
は少ししか変化をもたらさない.
画像データの例
例:「ベルトコンベアの上の2次元形状の物体をキャプチャした画
像から、その向きを決める」という問題
• データの次元数はピクセル数
• 実際に画像間に存在する違いは「物体の位置と方向」のみ
(物体の位置x,y座標と角度θの3自由度)

More Related Content

What's hot

特徴パターンを用いた機械学習の説明手法 (JSAI2019)
特徴パターンを用いた機械学習の説明手法 (JSAI2019)特徴パターンを用いた機械学習の説明手法 (JSAI2019)
特徴パターンを用いた機械学習の説明手法 (JSAI2019)Kohei Asano
 
03_深層学習
03_深層学習03_深層学習
03_深層学習CHIHIROGO
 
続わかりやすいパターン認識8章
続わかりやすいパターン認識8章続わかりやすいパターン認識8章
続わかりやすいパターン認識8章Akiyoshi Hara
 
クラス分類問題の各関数・処理の意味
クラス分類問題の各関数・処理の意味クラス分類問題の各関数・処理の意味
クラス分類問題の各関数・処理の意味竣也 清谷
 
Prml7 2
Prml7 2Prml7 2
Prml7 2K5_sem
 
Ml desginpattern 16_stateless_serving_function_21210511
Ml desginpattern 16_stateless_serving_function_21210511Ml desginpattern 16_stateless_serving_function_21210511
Ml desginpattern 16_stateless_serving_function_21210511Masakazu Shinoda
 
PRML輪読#14
PRML輪読#14PRML輪読#14
PRML輪読#14matsuolab
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルShohei Okada
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component AnalysisKoji Matsuda
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 

What's hot (15)

特徴パターンを用いた機械学習の説明手法 (JSAI2019)
特徴パターンを用いた機械学習の説明手法 (JSAI2019)特徴パターンを用いた機械学習の説明手法 (JSAI2019)
特徴パターンを用いた機械学習の説明手法 (JSAI2019)
 
03_深層学習
03_深層学習03_深層学習
03_深層学習
 
PRMLrevenge 4.4
PRMLrevenge 4.4PRMLrevenge 4.4
PRMLrevenge 4.4
 
Prml revenge7.1.1
Prml revenge7.1.1Prml revenge7.1.1
Prml revenge7.1.1
 
続わかりやすいパターン認識8章
続わかりやすいパターン認識8章続わかりやすいパターン認識8章
続わかりやすいパターン認識8章
 
クラス分類問題の各関数・処理の意味
クラス分類問題の各関数・処理の意味クラス分類問題の各関数・処理の意味
クラス分類問題の各関数・処理の意味
 
Prml7 2
Prml7 2Prml7 2
Prml7 2
 
Ml desginpattern 16_stateless_serving_function_21210511
Ml desginpattern 16_stateless_serving_function_21210511Ml desginpattern 16_stateless_serving_function_21210511
Ml desginpattern 16_stateless_serving_function_21210511
 
PRML輪読#14
PRML輪読#14PRML輪読#14
PRML輪読#14
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
 
Prml 4.3
Prml 4.3Prml 4.3
Prml 4.3
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
深層学習①
深層学習①深層学習①
深層学習①
 
Prml4 1-4-2
Prml4 1-4-2Prml4 1-4-2
Prml4 1-4-2
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 

Similar to PRML1.3

【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)MLSE
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線mi-7. 学習と検証, 学習不足, 過学習, 学習曲線
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線kunihikokaneko1
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 

Similar to PRML1.3 (9)

【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線mi-7. 学習と検証, 学習不足, 過学習, 学習曲線
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線
 
Machine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEEMachine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEE
 
PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
 
PRML s1
PRML s1PRML s1
PRML s1
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 

More from hiroki yamaoka (14)

PRML1.5
PRML1.5PRML1.5
PRML1.5
 
DQN
DQNDQN
DQN
 
PRML6.4
PRML6.4PRML6.4
PRML6.4
 
PRML9.3
PRML9.3PRML9.3
PRML9.3
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
PRML5.5
PRML5.5PRML5.5
PRML5.5
 
強化学習6章
強化学習6章強化学習6章
強化学習6章
 
強化学習5章
強化学習5章強化学習5章
強化学習5章
 
強化学習4章
強化学習4章強化学習4章
強化学習4章
 
強化学習3章
強化学習3章強化学習3章
強化学習3章
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 

PRML1.3

Editor's Notes

  1. 過学習を避ける方法の一つとして,正則化項を導入するものがありました. これは,「訓練データとのずれ」に加えて「モデルの複雑さ」を誤差関数に導入することで, 訓練データとある程度合致し,なおかつ複雑すぎないモデルを達成しようという狙いです 右辺の第1項が「訓練データとのずれ(二乗誤差)」を表し, 第2項が「モデルの複雑さ(多項式の係数の二乗和)」を表しています. ここで重要なのは λ というパラメータです. これは正の値を取り,「ずれと複雑さ,どちらを減らすことを重視するか」を決める役割を果たします. λが小さければ小さいほど, 「訓練データとのずれを少なくする」ことを重視するようになります. たとえばλ=0のとき,∥w∥2 の項は消えてしまい, 「モデルはいくら複雑でもいいから,ひたすらずれを最小化する」 ようになります.これでは実質正則化項はないに等しいので,過学習を起こしやすくなります. 逆に,λ が大きければ大きいほど, 「単純なモデルにする」ことを重視するようになります. 特に λ→∞ のとき, 「訓練データとのずれはどうでもいいから,単純なモデルを選択する」 ようになります.
  2. 特にデータ数Nが少ないときは, 評価用の集合の要素を1つにし,N個のグループを作って交差確認を行う, 通称「LOO法(1個抜き法,Leave-one-out method)」が推奨されます (人数の少ないクラスでは日直を1人にするようなものです). 交差確認はデータを訓練にも確認にも回せるため,上記のジレンマを解決してくれます. しかし,グループの数Sを大きくすると, それに比例して訓練を行う回数が増えてしまうという欠点があります. また,最初に述べた多項式フィッティングの例のように単純なモデルでは問題になりませんが, 中には,「モデルの複雑さ」を表すのに複数のパラメータを要する場合があります. 複数のパラメータを場当たり的に試すとなると, 最適なパラメータを見つけるまでに必要な訓練回数が非常に多くなってしまうかもしれません.
  3. 極座標へ変換し距離 のみの分布を得るためには、角度方向( 方向)への一周分の積分を施す必要がありますが、その計算を簡単に行うために、演習1.18で計算した単位超球の表面積を用います。 そうして得た を で微分し停留点を求めると、中心からの距離が の付近でその分布が最大になることが分かります。
  4. 例えば,土地の広さ、間取り、駅からの距離、最寄り駅などのデータがあり、これから価格を決定しようとする場合に、土地の広さがほんの少し変わっただけで爆発的に価格が変化するようなことはないはずだということです。