スパース性に基づく機械学習 2章データからの学習

1章 & 2章
はじめに & データからの学習
機械学習プロフェッショナルシリーズ輪読会
~スパース性に基づく機械学習*1~
2016-2-10
@hagino3000 (Takashi Nishibayashi)

*1 機械学習プロフェッショナルシリーズ
スパース性に基づく機械学習
著：冨岡亮太
http://bookclub.kodansha.co.jp/product?isbn=9784061529106

1章はじめに
• スパース性とは
• まばらである事
• 多くの変数のうち殆どがゼロでごく一部だけが非ゼロ
• ゲノムの個人差からの予測ケース
• featureが膨大
• 現実的な仮定を置いて、少ないサンプルで推定したい
• 組み合わせ爆発を防いで現実的な計算量で推定したい

要素単位のスパース性
多くの要素が非ゼロで、構造が無い

グループ単位のスパース性
ゼロ/非ゼロのパターンが存在する
ex. 活性経路 (1列目が非ゼロの行は2列目以降も非ゼロ)

行列の低ランク性
ランクの説明は9ページ
この図だと線形独立な列の数=2なのでランク落ちしている

2章の流れ
• データから学習する、とは
• 汎化
• 経験誤差の最小化と過学習
• 正則化

データから学習するとは
• 訓練データ (xi, yi)i が何らかの規則に従って生成さ
れている時に、データを生成する規則をなるべくよ
く模倣し、再現する事
• (xi, yi) が同時確率P(x,y)から独立同一に生成されて
いるという状況を考えるのが統計的機械学習
• 訓練データには無い、新しく書かれた数字を識別で
きるようになることを汎化すると言う
Section 2.1

学習の評価
• データを生成する規則をどの程度よく模倣している
か
• 入力ベクトルxからラベルyをどの程度予測できるか
→ 判別的なモデル
• 手書き文字認識では、新しく書かれた数字を平均的
にどれだけ識別できるかを評価基準とする
Section 2.1

期待二乗誤差
Section 2.1
データxからラベルyを出力す
る関数fについての損失(Loss)
新たな入力ベクトルxと
ラベルy (≠訓練データ)
正解値と予測値の
誤差の二乗
予測値が数値

期待誤分類率
Section 2.1
予測値がラベル (手書き文字認識)
f(x)の出力は予測ラベルのみ1、
それ以外は-1が立つベクトル?
yは正解ラベルのみ1、
それ以外はゼロが立つベクトル?

相対エントロピー
Section 2.1
真の分布pと、予測分布qの
KL-divergence
定数項を除いた物を対数損失と呼ぶ

ロジスティック損失の導出
Section 2.1
2クラス分類 y ∈ {-1, +1} の場合
クラス事後確率の比の対数をfとすると

Section 2.1
二値なので q(y = +1|x) + q(y = -1|x) = 1
q(y = -1|x) = 1 - q(y = +1|x) を使って
式2.4をq(y = +1|x)について整理すると
y=+1, y=-1 のケースを一つの式で表現すると

Section 2.1
対数損失(2.3)の式にq(x|y)を代入すると
ロジスティック損失

期待誤差
• 未知の確率分布 P(x, y) に関する期待値なので、直
接評価できない
• 期待誤差と呼び、訓練データで計算できる経験誤差
とは区別
• 直接計算できない → 訓練データで近似する
Section 9.1

経験誤差最小化
Section 2.1
訓練データを使って経験誤差を最小化するには
期待誤差の推定値
訓練データ xi, yi
まとめると

経験誤差最小化
Section 2.1
線形モデル f(x) = xTw + b を仮定すると
L(f)を最小化するw, b
推定量を求めるのが経験誤差最小化
誤差を正規分布とした時の最尤推定と同じ

確率分布と損失関数
Section 2.1
• 二乗誤差、対数損失、ロジスティック損失に対する経験誤
差はいずれもそれに対応する確率モデルが存在する
• 確率モデル基づかない損失関数
• 0 - 1損失
• ヒンジ損失
ヒンジ損失とロジスティッ
ク損失はどちらも凸関数

確率分布と損失関数
Section 2.1
• ヒンジ損失とロジスティック損失は定性的に似た振舞をす
る → ??

過剰適合
Section 2.2
• 訓練データに対する当てはまりがよかったとしても期待誤
差がよいとは限らない
(未知のデータに対する当てはまり)

Section 2.2
真のモデル
y = 100(xi - 0.2)(xi - 0.5)(xi - 0.8) + εi
への当てはめ

過剰適合を防ぐ
Section 2.2
• 10次の多項式で当てはめると誤差ゼロ
• 真の関数だけでなく、ノイズにも適合してしまった
• モデルを制約するには
• 多項式などの独立な基底関数の和として関数fを表現し、
その基底関数の数を小さくおさえる
• 関数fの何らかのノルムを抑える
• モデルを小さくしすぎると、モデル化したい関数も表現で
きなくなる → 過少適合
• モデルの小ささに由来する誤差 → バイアス or 近似誤差

バイアス - バリアンス分解
Section 2.2
期待二乗誤差の訓練データに関する期待値を定義
この時、平均期待二乗誤差は次の3項に分解できる
wの推定量と
wの平均の差 → 分散 wの平均と誤差を最小化する
wの差 → バイアス
選択した基底での最小の誤差

パラメータベクトルのノルム制約
Section 2.3
• 仮説集合の大きさを制御する方法
• 特徴量を増やしたり減らしたりするだけではない
• 同じ特徴空間であってもパラメータベクトルwをより小
さい集合から選ぶ事で分散を減らせる
• ノルム

罰則項付き推定量
Section 2.3
誤差 + パラメータベクトルのノルム(罰則項)を最小化
正則化パラメータ
この推定量は次の制約付き最小化問題と等価

モデル選択
Section 2.4
• モデルの持つパラメータを決定したい
• 訓練データに対してはCを大きくすれば当てはまりは良く
なってしまう → 訓練データは使えない
• 検証(validation)データを使う
• データを訓練用と検証用に分ける
• 検証データに対する誤差を最小化する
• 交差確認(cross validation)
• 訓練データをK個に分割し、K-1個で学習し、残りで誤差を
評価する
Kをデータと同じまで増やすとLeave-one-out

2.5 制約付き最小化問題と罰
則項付き最小化問題の等価性

Section 2.5
罰則項付き最小化問題
と次の制約付き最小化問題が等価である事の説明
ラグランジュ緩和っぽいが
本文中では別の説明がなされている

スパース性に基づく機械学習 2章データからの学習

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

More from hagino 3000

More from hagino 3000 (20)