汎化性能測定

汎化性能測定
山田真徳

利益
時間
機械学習を使ったbotの運用を考える
過去のデータで実験するとすごくかる！
例えばリターンを予測

利益
時間
あれ？
実際運用すると
backtestと運用成績が大きく異る

機械学習はtestデータに対してlossを下げることが目的
汎化ギャップ = train loss - test loss
汎化ギャップをどうやって測るのか？という話
未知のデータ

汎化ギャップの測り方
•validation dataを使う
•weight loss landscapeを使う

Combinatorial Purged
Cross-Validation
←この本の内容です

目的：Combinatorial Purged Cross-Validation(CPCV)を理解する
CPCVとは株のヒストリカルデータなどノイズが多く過学習しやすい金融データ
でvalidationを行う方法
validationとはモデルの性能を過学習をさけて測定する方法で、ハイパーパラ
メータを決めるためや、未知のデータに対する予測精度を正しく測る方法

既存手法1: Walk forward(WF)
○：訓練
☓：テスト
赤：バックテスト
データを6分割した例
欠点：すべてのデータでバックテストできない
図の引用元：https://qiita.com/nokomitch/items/ccd2722a4c5ef93a994a

既存手法2: Cross-validation(CV) 竹内情報量基準と等価
データを6分割した例
○：訓練
☓：テスト
赤：バックテスト
欠点：バックテストの経路が１つしかない

データを６分割テストに２ブロック使う
提案法: CPCV
利点：複数のバックテストの経路が存在する
通りのtrainとtestの組み合わせ通り
5通りのback test(行で見ると☓が5個づつで1回つかったxは他のback test
ではもう使わないとすると) 通り
6C2 = 15 NCK
ϕ[N, K] =N CK
K
N
N=6, K=2

なぜ既存手法でハイパラチューンすると過学習をするのか？
分散が大きいデータでモデルを改善するから
測定するデータの分散が大きいことから投資戦略(モデル)のシャープレシオの分散
が大きい場合高いシャープレシオを持つ戦略が見つかってしまうということを示す
N個の学習済みモデルを考えるn番目のモデルの標本集団に対するシャープレシオ
がに従うとする(つまりN個の全てのモデルのシャープレシオのデータで
の期待値は0 つまりのゴミ戦略)。の場合
yn ∼ N(0,σ)
E[yn] = 0 σ[yn] > 0
yn
σ [yn]
∼ N (0,1)
E [max {yn}n=1⋯N] = E [max {xn}n=1⋯N] σ [yn]
≤ 2 log Nσ [yn]
xn ∼ N (0,1)
次のページで示す
Eはデータ方向の期待値
nはモデルの足

標準ガウス分布からi.i.dでサンプルされた変数について以下が成り立つ
xn
E [max {xn}n=1⋯N] ≃ (1 − γ) Z−1
[
1 −
1
N ]
+ γZ−1
[
1 −
1
N
e−1
]
≤ 2 log N
: 標準ガウス分布の確率密度関数の逆関数
: オイラーマクスケローニ定数 0.57…くらい
Z−1
γ
[Bailey et al. 2014]
E [max {yn}n=1⋯N] = E [max {xn}n=1⋯N] σ [yn]
≤ 2 log Nσ [yn]
データの分散が大きいせいでn番目のモデルのデータ方向の分散は大きくなる
結果として良い投資戦略が見つかる期待値が高くなる (N個の戦略はすべ
てゴミ戦略なのに)
σ[yn] ≫ 0
max {yn}n=1⋯N
Eはデータ方向の期待値
nはモデルの足

先程の数式を図にすると
縦軸：back testのシャープレシオの最大値
横軸：投資戦略の数(作ったモデルの数)
色：オレンジほど起こりやすい
黒点線：最大シャープレシオの期待値
直感的にも用意する戦略を増やして、分散が大きいときに期待値の中で
maxとれば期待値は大きくなるのは当然
σ [yn] をいかに小さくするかが重要

なぜWFとCVはだめでCPCVはオーバーフィットを緩和できるのか？
WFは使えるデータ数が少ないため、が大きくなる
CVはデータ数は大きいがback testのパスが1つなのでが大きくなる( を1つの経路で推定)
結論からいうとCPCVがが小さい理由は、標本の分散より標本平均の分散が小さいから
σ [yn]
σ [yn] yn
σ [yn]
CPCVがを小さくできることを示す
σ [yn]
CPCVでは本のback testパスをつくれるのでパスの標本平均と分散がとれる
J
E
[{yn,j}j=1,⋯,J]
= μn
σ2
[{yn,j}j=1,⋯,J]
= σ2
n
と定義する
標本平均
標本分散

CPCVの標本平均の分散は
σ2
[μn] =
1
J2 (Jσ2
n + J (J − 1) σ2
n ρn) =
σ2
n
J
(1 + (J − 1) ρn)
は相関係数(非対角成分)の平均
ρn {yn,j}
経路間の相関が低くなるとであり、パスをふやすと
ρn ≪ 1
σ2
n
J
≤ σ2
[μn] < σ2
n
相関係数なのでであるため
ρn < 1
lim
ρn→1
σ2
[μn] = σ2
n
lim
ρn→0
σ2
[μn] =
σ2
n
J
lim
J→∞
lim
ρn→0
σ2
[μn] = 0
となりの真の期待値を分散0で評価できる。実際はに上限はあるがかなり大きい値が取れる
yn E[yn] J
なぜなら
つまり標本分散より標本平均の分散のほうが小さいことを意味する

CPCVを行うときの重要なテクニックPurgingとEmbargo
Purging: tranとvalidationがoverlabしないように間を開けること
Embargo: validationから次のtrainの間を余分に開けること(trainに
testの情報が入らないように)

トイデータによる実験
n_d = 500
sigma = 10
data = np.sin(np.arange(0, n_d)/n_d * 2*math.pi) +
np.cos(np.arange(0, n_d)/n_d * 4*math.pi) + 0.05 * np.arange(0,
n_d) + np.random.randn(n_d,)*sigma
df = pd.DataFrame(data, columns=list('x'))
# 100 step後に上なら+1, 下なら-1, そのままなら0
df['y'] = (df['x'].shift(-100) - df['x'])
df.loc[df['y']>0, 'y'] = 1
df.loc[df['y']<0, 'y'] = -1
train/val test
model: lightgbm
2乗誤差で測る

cv vs cpcv
cv cpcv
train
validation
from sklearn.model_selection import KFold
N=5
cv = KFold(N)
from cv import CombPurgedKFoldCV
N=5
k=2
time_gap = 10
embargo_td = 10
cv = CombPurgedKFoldCV(N, K, time_gap, embargo_td)

validation loss test loss
no validation 0.70 0.99
cv 0.90 0.85
cpcv 0.92 0.89
過学習起こしている
cpcvのほうがtest lossとvalidation lossの差が小さい
※ cvはN=5, cpcvは N=10 k=2で用いるデータ数はだいたい同じになるようにした

time_gapはtrain, valid両方間があく
embargoはvalidから次のtrainの間があく
train
validation
おまけ

汎化ギャップの測り方
•validation dataを使う
•weight loss landscapeを使う
(基本はdeep learning)

主張：weight loss landscapeの尖り具合と汎化ギャップには強い相関がある
[Hao Li et al. 2017]
ρ (w) =
1
N ∑
n
ℓ (f (xn, w), yn)
loss landscapeの定義
g (α) = ρ w + αd
w F
d F
を変化させたときにが書く曲線
α g
lossのweightにノイズをのせたときにlossがどれだけ大きくなるか
d: ガウスノイズ
F: フロベニウスノルム
α
g

loss landscapeが平らなほど汎化ギャップが小さい(良い)！
[Wu et al. 2020]
train test の差が小さいモデルほどloss landscapeは平ら

平らな方が汎化ギャップが小さい理由
仮定: trainとtest dataはにてるので同じようなloss landscapeを書く
最適なweightがtrainとtestでずれたとき、平らな方がlossの変化が小さいから

今回はスキップするが理論的にも示せる
Eq(h|S) [ϕ (h)] ≤ D KL (q (h|S)||p (h)) + log Ep(h) [eϕ(h)
]
PAC Bayesを利用し、汎化ギャップの上界がloss landscapeの平さを用いて書ける
ϕ (h) = L (h) − LS (h)
なので集中不等式で変形できる
L (h) = ED [LS (h)]
可測関数φに対する式 (可測関数は、可測空間の構造を保つ写像でhが確率変数ならφ(h)が確率変数になるのを保証)

自分で実験
※汎化誤差が大きくなるようにadversarail trainingを使ってます
[yamada et al. 2021]

ポイント：loss landscapeによる汎化ギャップの測定は、train dataしか使ってないため、正則化に使える
SAM: より平らな解を探すoptimizer [Pierre Foret et al. 2020]
赤の矢印を小さくするように正則化を加える
画像分類タスクで9つのデータセットでSoTAを更新したくらい性能がいい
しかし計算コストはSGDに比べ２倍

pytorchやtensor
fl
owやjaxはpipで簡単に使える

•PAC boundを理解する
•PAC Bayesを理解する
目的

PAC学習: 仮説集合が有限のときに汎化誤差を扱う枠組み
Ls (h) =
1
N ∑
n
l (h (xn), yn)
L (h) = ED [
l (h (xn), yn)]
notation
訓練誤差
汎化誤差 Dは真の分布
hs = arg min
h
1
N ∑
n
l (h (xn), yn)
学習済みモデル
x,y Sは訓練集合

補足：仮説集合とは？
仮説集合が有限だと大きさを図れるがNNのような場合にどうやって測るかはみんな苦労してる
モデルの表現能力(容量)などに直結するため

PAC bound
定理：
仮説集合Hにおいて、訓練データNが以下を満たすと汎化誤差ε以下で
ある確率が1-δ以上であることを保障できる
Pr (L (hs) ≤ ε) ≥ 1 − δ
成り立つための条件は以下
ノリは、モデルがεの外すなら訓練セットN回引いて全問正解する確率が計算できる
1
ε
log
H
δ
≤ N
H: 仮説集合
ε: 汎化誤差
δ: 定数
N: 訓練データ数

証明
汎化誤差ε以下である確率が1-δ以上
↓
汎化誤差がεより大きいのに(訓練集合に対して全問正解する確率)はδ以下
言い換えるとtrain acc=0のなのに本当は汎化誤差ε以上な確率はδ以下
hs
(1 − ϵ)N
汎化誤差εのモデルを固定したときに訓練集合で全問正解する確率は
誤差0だと全問正解 100%
誤差1だと全問正解 0%
サイコロN回投げて全部6の確率と同じ考え方
モデルが複数あった時を考える
汎化誤差εのモデルが訓練集合で全問正解する確率とすると
が恒等式で成り立つので
¦H¦個の汎化誤差ε以上のモデルが訓練集合でどれか１つでも全問正解する確率がδ以下
P (A)
P (A ∪ B) ≤ P (A) + P (B)
H (1 − ϵ)N
≤ δ
1つのmodelが全問正解する確率を¦H¦の和集合でとると上界は¦H¦倍されるため
仮定: 0-1lossを仮定する

H (1 − ϵ)N
≤ H exp (−εN) ≤ δ
1
ε
log
H
δ
≤ N
上界がδ以下で抑えられるための条件は
更に恒等式を使い上界にする
(
1 +
a
x )
x
≤ exp (a)
式変形
H exp (−εN) ≤ δ
証明終わり

PAC Bayes: 点推定を分布推定にする
hがデルタ関数だと点推定
Pr (L (hs) ≤ ε) ≥ 1 − δ
Pr (L (q) ≤ ε) ≥ 1 − δ
L (h) = ED [
l (h (xn), yn)]
L (q) = Eq(h|S) [L (h)]
PAC Bound
PAC Bayes
PAC Bayesの目的は、L(q)の上界を確率的に保証したい

DKL (l (Q, S)||l (Q, D)) ≤
DKL (Q||P) + ln 2m
δ
m − 1
1-δ以上の確率でいかが成り立つ
:仮説選択の確率( )
:事前分布
:訓練データの分布
:真の分布
:訓練データ数
Q h (x) ∼ Q
P
S
D
m
PCA Bayes(両側バージョン)
D+
KL (l (Q, S)||l (Q, D)) ≤
DKL (Q||P) + ln
m
δ
m − 1
PCA Bayes(片バージョン)
Pr D+
KL (l (Q, S)||l (Q, D)) ≤
DKL (Q||P) + ln
m
δ
m − 1
≥ 1 − δ
まとめて書くとこんな感じ
D+
KL (p||q) =
{
0 if p ≥ q
DKL (p||q) if p < q

証明は色々あるがSimpli
fi
ed PAC-Bayesian Margin Bounds を参考にした
証明(片側)
Donsker-Varahan表現を利用する
f (h) = (m − 1) D+
KL (l (h, S)||l (h, D)) とすると
Eh∼Q [(m − 1) D+
KL (l (h, S)||l (h, D))] ≤ DKL (Q||P) + log Eh∼P [
e
(m−1)D+
KL(l(h, S)||l(h, D))
]
≤ DKL (Q||P) +
m
δ
(m − 1) D+
KL (l (h, S)||l (h, D)) ≤ DKL (Q||P) +
m
δ
D+
KL (l (h, S)||l (h, D)) ≤
DKL (Q||P) +
m
δ
m − 1
①
②
m>1
KLはすでにhの期待値を実行済み
①と②は後で示す
1-δ以上の確率で成り立つ

①を示す
イェンセンの不等式(-log(Q)は下に凸関数)
期待値を展開
①の証明終了

E [e(m−1)f(X)
] =
∫
∞
0
P (e(m−1)f(X)
≥ ν) dν
=
∫
∞
0
P
(
X ≤ f−1
(
log ν
m − 1))
dν
≤
∫
∞
0
e
−mf
(
f −1
(
log ν
m − 1 ))
dν
=
∫
∞
0
e− m
m − 1 log ν
dν
=
∫
∞
0
ν− m
m − 1 dν
=
∫
∞
0
min (1,ν− m
m − 1
) dν
=
∫
1
0
min (1,ν− m
m − 1
) dν +
∫
∞
1
min (1,ν− m
m − 1
) dν
= 1 +
∫
∞
1
ν− m
m − 1 dν
= 1 − (m − 1) [ν− 1
m − 1
]
∞
1
= m
e(m−1)f(X)
≥ ν
(m − 1) f (X) ≥ log ν
f (X) ≥
log ν
m − 1
X ≤ f −1
(
log ν
m − 1 )
②を示す
累積分布関数なので最大でも1
ν<1で単調増加関数で必ず1以上 ν>1で単調減少関数で必ず1以上
③ つながってない、不等号がひっく
り返らないと褄が合わない→
fは後でKL+とわかるので単調増
加を仮定すると示せるかも
④
④
P (X ≤ x) ≤ e−mf(x)
⑤ 仮定

②の証明終了
Eh∼H [
e
(m−1)D+
]
≤1−δ
1
δ
ES∼Dm
[
Eh∼H [
e
(m−1)D+
]]
≤
m
δ
マルコフ不等式
Pr
(
Z >
ES [Z]
δ )
≤ δ
Pr (Z > a) ≤
ES [Z]
a
a =
ES [Z ]
δ
Pr
(
Z <
ES [Z]
δ )
≥ 1 − δ
言い換えると
マルコフ不等式
z ⑥
f (x) = D+
KL (l (h, S)||l (h, D)) とすると
h
すべてのhで成り立つため
ES∼Dm
[
e
(m−1)D+
]
≤ m
ES∼Dm
[
Eh∼H [
e
(m−1)D+
]]
≤ m
⑥

∫
∞
0
P (W ≥ ν) dν =
∫
∞
0 (∫
∞
ν
p (W ) dW
)
dν
=
∫
∞
0 (∫
W
0
p (W ) dν
)
dW
=
∫
∞
0
Wp (W ) dW
= E [W ]
P (W ≥ ν) ≡
∫
∞
ν
p (W) dW
w
ν
w=ν
③を示す

Hoe
ff
ding
[0,1]区間に制限された確率変数 , 経験平均 ,
に対して以が成り立つ
X1, ⋯Xm
̂
X =
1
m ∑
Xi
ε ∈ [0,1]
P (
̂
X ≤ ε) ≤ e
−mD+
KL(ε||E[Xi])
⑤
有名なので証明はなし

KLからlossへの変換
D+
KL (l (Q, S)||l (Q, D)) ≤
DKL (Q||P) + ln
m
δ
m − 1
l (Q, D) ≤ l (Q, S) + 2l (Q, S)
DKL (Q||P) + ln
m
δ
m − 1
+ 2
DKL (Q||P) + ln
m
δ
m − 1
以下を示すことができる

証明
DKL (q||p) = p log
p
q
+ (1 − p) log
1 − p
1 − q
≥
(q − p)
2
q2
q ≥ p のとき
f (q) = p log
p
q
+ (1 − p) log
1 − p
1 − q g (q) =
(q − p)
2
q2
f (q = p) = g (q = p) = 0
∂f
∂q
≥
∂g
∂q
を示すことができる
とすると
よってをしめすことができた
DKL (q||p) ≥
(q − p)
2
q2
∂f
∂q
−
∂g
∂q
=
(1 − q)
2
+ q (1 − p)
q (1 − q)
≥ 0
にするためにを仮定する
D+
KL (q||p) → DKL (q||p) 1 ≥ q ≥ p ≥ 0

(q − p)
2
2q
≤ DKL (q||p) ≤ x のとき q ≤ p + 2px + 2x を示すことができる
0 ≤ p − q + 2px + 2x を示せば良い
−(q − p) + 2px + 2x ≥ 2qx + 2px + 2x ≥ 0
(q − p)
2
2q
≤ x
x =
DKL (Q||P) + ln
m
δ
m − 1
≥ 0
q ≥ p
x =
DKL (Q||P) + ln
m
δ
m − 1
とすると
l (Q, D) ≤ l (Q, S) + 2l (Q, S)
DKL (Q||P) + ln
m
δ
m − 1
+ 2
DKL (Q||P) + ln
m
δ
m − 1
DKL (q||p) → D+
KL (l (Q, S)||l (Q, D))

Eq(h|S) [ϕ (h)] ≤ D KL (q (h|S)||p (h)) + log Ep(h) [eϕ(h)
]
PAC Bayesの本質にある考え方
ϕ (h) = L (h) − LS (h)
なので集中不等式で変形できる
L (h) = ED [LS (h)]
集中不等式の部分の与え方で色んなboundが導ける
可測関数φに対する式 (可測関数は、可測空間の構造を保つ写像でhが確率変数ならφ(h)が確率変数になるのを保証)

おまけ：いろんなPAC Bayesのbound

汎化性能測定

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 汎化性能測定

Similar to 汎化性能測定 (20)

汎化性能測定