normalized online learning

Normalized online learning
Stephane Ross, Carnegie Mellon University
Paul Mineiro, Microsoft
John Langford, Microsoft Research
(arXiv:1305.6646v1 [cs.LG] 28 May 2013)

@shima_x

概要
　－ feature
feature毎に独立に正規化するアルゴリズム
　－ハイパーパラメタの自動調整も行う
　－これらに対する理論的な背景を与える

貢献
　－敵対的なリグレットバウンド付き
　－事前に正規化したデータセットでの学習とも遜色ない結果

擬似コード2

実際はこちらを使用
sNAG
本稿ではこれをsNAG
sNAGと
称する

Adversary Setting

－恣意的な単位による特徴量の作成はモデルに対する影響力が大きい
－通常のリグレットよりも強力な設定

Adversary Setting

p-norm
－先ほどの考えを更に一般化し、p-norm
p-normでの場合に落としこむ
2
S
1
－入力値の分散（2次モーメント）は正定値行列Sの下で1となるようにする
p=2
1
　　（p=2
p=2のノルムが1以下）
sNAG
－これがsNAG
sNAGと呼んでいるアルゴリズム
－これについて次スライド以降に記載

Competing against a Bounded
Output Predictor
◆ 本稿のアルゴリズムのゴール
C
　－敵対的に設定された定数Cによってバウンドされた重みベクトルを求めること
　－これを数学的に表現すると

◆ 各タイムステップにおけるリグレット

Competing against a Bounded
Output Predictor
◆ 自明な事項

q p
q
◆ 下のqとpの関係、上の等式を満たすようにqを決める

◆ norm q pの制約条件
qとp

S
◆ 真のSとなる場合の条件

Analysis
◆ update rule
　－本稿の手法は特徴量の正規化について統計学的な不偏性を保証する
　－式で表すと以下になる

weight
time t
tの時の半正定値
行列

time t
tの時のロスの勾配

Analysis
1
◆ 補題1
　－ロス関数は凸と仮定

Appendix
証明は論文中のAppendix
Appendix参照

Analysis
- Best Choice of Conditioner in Hindsight w =0として補題1の式を変形
1
◆ Aを時間的に不偏な対角行列、w1=0

A
◆ 行列Aの各対角成分で偏微分し極値の計算を行う

=０

Analysis
- Best Choice of Conditioner in Hindsight A
◆ 上で計算された行列Aの下でのリグレットバウンド
1/s
g s
　－ wi* を1/si倍し、gtiをsi倍することでキャンセルされるため
　　　入力が正規化されていたとしてもこのリグレットバウンドは成り立つ

上記のリグレットはwi*の値に依存する。
この依存を断ち切るために最悪の場合のwi*により評価
を行う

Analysis
- Best Choice of Conditioner in Hindsight 2
◆ 補題2
　－最悪の場合を想定したリグレットバウンド
　－ Sに以下の制約を付ける
　　・対角行列
　　・行列式が最小となる行列
Appendix
を出発点として変形（詳細は論文中のAppendix
Appendix参照）

これについて解くと

Analysis
- Best Choice of Conditioner in Hindsight 　－前のスライドの条件の下でのリグレットは以下になる

Analysis
- Best Choice of Conditioner in Hindsight p=
◆ 例としてp=
p=∞の場合のリグレットを記載
S
　－ p=
p=∞での補正係数行列Sの各要素

A
◆ 行列Aの各要素の計算

◆ リグレットの計算

Analysis
- Best Choice of Conditioner in Hindsight p=
◆ 例としてp=
p=∞の場合のリグレットを記載
　－リグレットのオーダー

Analysis
- Best Choice of Conditioner in Hindsight p=2
◆ 例としてp=2
p=2の場合のリグレットを記載
　－リグレットのオータ゛ー

　－勾配に関して以下を置く

Analysis
- Best Choice of Conditioner in Hindsight p=2
◆ 例としてp=2
p=2の場合のリグレットを記載
　－リグレットの計算

しかし、ここまでで記載してきた手法
T
では時刻 t
t（∈T）の全てが
わからないと解くことが出来ない

Adversary setting
1
より1以下となる

Analysis
- Transductive Case ◆ 現実のケースでのリグレットを記載
S
　－正規化係数行列Sと勾配を同時に計算することは困難
2
　－そこで、計算を2段階に分ける
S
　－ 1段階目として、対角行列Sを計算
　－ 2段階目として、勾配の計算を行う

Analysis
- Transductive Case t
◆ 時刻tにおける調整行列の各要素の計算

1
◆ 更に、以下の写像条件を与える事により補題1によってバウンドすることができ
る

Analysis
- Transductive Case A
◆ lemma1, lemma3 Appendix
lemma3（Appendix
Appendix参照）と上のAよりリグレットをバウンド出来る

－条件

真の結果を知っている場合
2 (2)^0.5しか悪
と比較して、2*(2)^0.5
くない

Analysis
- Streaming Case ◆ ストリーム処理を行う場合
　－ p=
p=∞について考える
A S
input dataのみを使用して以下のように書ける
　－調整行列AはSを使用せずにinput data

Analysis
2
　－定理2
　－リグレットは以下のようになる

　－条件

Analysis
　－定理2からの推論（詳細はAppendix参照）

Hige, log loss
の場合

squared loss
の場合

　－条件

Rmax
1
※Rmax
Rmaxはサンプル数が1つの場合のリグレット

Analysis
i
　－ Δiは以下のようにバウンドされる

νが大きいほど悪いリグ
レットとなるように恣意的
に決定
t
（tが小さい時にリグレッ
トが悪くなるように設定）

Experiments
◆ 実験に使用したデータセット

最小値

最大値

CT MSD
CTとMSD
MSDでは回帰を行い、その他のデータセットでは分類を行った

Experiments
◆ NAG AG
NAGとAG
AGの比較

予測精度が最もよくな
るように経験的に決め
た学習係数

正規化していないデー
タセットを使用
最大値で除した正規済
のデータセットを使用

Experiments
◆ sNAG AG
sNAGとAG
AGの比較
sNAG
　－ NAG
NAGと比較して、sNAG
sNAGではいくつかのデータセットで良い結果が見られた
　－ sNAG
sNAGの方がロバストであると判断

※表の見方は前のスライドと同じ

Experiments
◆ sNAG AG
sNAGとAG
AGのパフォーマンス比較

AG
NAG
NAGは事前に正規化されたデータを使用したAG
AGよりも精度が高かった

Experiments
◆ 各アルゴリズムと学習係数の領域の比較
　－各色のバンドは最適な学習係数のレンジを示している。
　－ NAG
NAGはバンド幅が小さく、学習係数の設定が比較的容易であることがわかる

normalized online learning

Recommended

Recommended

More Related Content

More from shima o

More from shima o (20)

Recently uploaded

Recently uploaded (10)

normalized online learning