SlideShare a Scribd company logo
汎化性能測定
山田 真徳
利益
時間
機械学習を使ったbotの運用を考える
過去のデータで実験するとすごく かる!
例えばリターンを予測
利益
時間
あれ?
実際運用すると
backtestと運用成績が大きく異る
機械学習はtestデータに対してlossを下げることが目的
汎化ギャップ = train loss - test loss
汎化ギャップをどうやって測るのか?という話
未知のデータ
汎化ギャップの測り方
•validation dataを使う
•weight loss landscapeを使う
汎化ギャップの測り方
•validation dataを使う
•weight loss landscapeを使う
Combinatorial Purged
Cross-Validation
←この本の内容です
目的:Combinatorial Purged Cross-Validation(CPCV)を理解する
CPCVとは株のヒストリカルデータなどノイズが多く過学習しやすい金融データ
でvalidationを行う方法
validationとはモデルの性能を過学習をさけて測定する方法で、ハイパーパラ
メータを決めるためや、未知のデータに対する予測精度を正しく測る方法
既存手法1: Walk forward(WF)
○:訓練
☓:テスト
赤:バックテスト
データを6分割した例
欠点:すべてのデータでバックテストできない
図の引用元:https://qiita.com/nokomitch/items/ccd2722a4c5ef93a994a
既存手法2: Cross-validation(CV) 竹内情報量基準と等価
データを6分割した例
○:訓練
☓:テスト
赤:バックテスト
欠点:バックテストの経路が1つしかない
データを6分割テストに2ブロック使う
提案法: CPCV
利点:複数のバックテストの経路が存在する
通りのtrainとtestの組み合わせ 通り
5通りのback test(行で見ると☓が5個づつで1回つかったxは他のback test
ではもう使わないとすると) 通り
6C2 = 15 NCK
ϕ[N, K] =N CK
K
N
N=6, K=2
なぜ既存手法でハイパラチューンすると過学習をするのか?
分散が大きいデータでモデルを改善するから
測定するデータの分散が大きいことから投資戦略(モデル)のシャープレシオの分散
が大きい場合高いシャープレシオを持つ戦略が見つかってしまうということを示す
N個の学習済みモデルを考えるn番目のモデルの標本集団に対するシャープレシオ
が に従うとする(つまりN個の全てのモデルのシャープレシオのデータで
の期待値は0 つまりのゴミ戦略)。 の場合
yn ∼ N(0,σ)
E[yn] = 0 σ[yn] > 0
yn
σ [yn]
∼ N (0,1)
E [max {yn}n=1⋯N] = E [max {xn}n=1⋯N] σ [yn]
≤ 2 log Nσ [yn]
xn ∼ N (0,1)
次のページで示す
Eはデータ方向の期待値
nはモデルの足
標準ガウス分布からi.i.dでサンプルされた変数 について以下が成り立つ
xn
E [max {xn}n=1⋯N] ≃ (1 − γ) Z−1
[
1 −
1
N ]
+ γZ−1
[
1 −
1
N
e−1
]
≤ 2 log N
: 標準ガウス分布の確率密度関数の逆関数
: オイラーマクスケローニ定数 0.57…くらい
Z−1
γ
[Bailey et al. 2014]
E [max {yn}n=1⋯N] = E [max {xn}n=1⋯N] σ [yn]
≤ 2 log Nσ [yn]
データの分散が大きいせいでn番目のモデルのデータ方向の分散は大きくなる
結果として良い投資戦略 が見つかる期待値が高くなる (N個の戦略はすべ
てゴミ戦略なのに)
σ[yn] ≫ 0
max {yn}n=1⋯N
Eはデータ方向の期待値
nはモデルの足
先程の数式を図にすると
縦軸:back testのシャープレシオの最大値
横軸:投資戦略の数(作ったモデルの数)
色:オレンジほど起こりやすい
黒点線:最大シャープレシオの期待値
直感的にも用意する戦略を増やして、分散が大きいときに期待値の中で
maxとれば期待値は大きくなるのは当然
σ [yn] をいかに小さくするかが重要
なぜWFとCVはだめでCPCVはオーバーフィットを緩和できるのか?
WFは使えるデータ数が少ないため、 が大きくなる
CVはデータ数は大きいがback testのパスが1つなので が大きくなる( を1つの経路で推定)
結論からいうとCPCVが が小さい理由は、標本の分散より標本平均の分散が小さいから
σ [yn]
σ [yn] yn
σ [yn]
CPCVが を小さくできることを示す
σ [yn]
CPCVでは 本のback testパスをつくれるのでパスの標本平均と分散がとれる
J
E
[{yn,j}j=1,⋯,J]
= μn
σ2
[{yn,j}j=1,⋯,J]
= σ2
n
と定義する
標本平均
標本分散
CPCVの標本平均の分散は
σ2
[μn] =
1
J2 (Jσ2
n + J (J − 1) σ2
n ρn) =
σ2
n
J
(1 + (J − 1) ρn)
は 相関係数(非対角成分)の平均
ρn {yn,j}
経路間の相関が低くなると であり、パスをふやすと
ρn ≪ 1
σ2
n
J
≤ σ2
[μn] < σ2
n
相関係数なので であるため
ρn < 1
lim
ρn→1
σ2
[μn] = σ2
n
lim
ρn→0
σ2
[μn] =
σ2
n
J
lim
J→∞
lim
ρn→0
σ2
[μn] = 0
となり の真の期待値 を分散0で評価できる。実際は に上限はあるがかなり大きい値が取れる
yn E[yn] J
なぜなら
つまり標本分散より標本平均の分散のほうが小さいことを意味する
CPCVを行うときの重要なテクニックPurgingとEmbargo
Purging: tranとvalidationがoverlabしないように間を開けること
Embargo: validationから次のtrainの間を余分に開けること(trainに
testの情報が入らないように)
トイデータによる実験
n_d = 500
sigma = 10
data = np.sin(np.arange(0, n_d)/n_d * 2*math.pi) +
np.cos(np.arange(0, n_d)/n_d * 4*math.pi) + 0.05 * np.arange(0,
n_d) + np.random.randn(n_d,)*sigma
df = pd.DataFrame(data, columns=list('x'))
# 100 step後に上なら+1, 下なら-1, そのままなら0
df['y'] = (df['x'].shift(-100) - df['x'])
df.loc[df['y']>0, 'y'] = 1
df.loc[df['y']<0, 'y'] = -1
train/val test
model: lightgbm
2乗誤差で測る
cv vs cpcv
cv cpcv
train
validation
from sklearn.model_selection import KFold
N=5
cv = KFold(N)
from cv import CombPurgedKFoldCV
N=5
k=2
time_gap = 10
embargo_td = 10
cv = CombPurgedKFoldCV(N, K, time_gap, embargo_td)
validation loss test loss
no validation 0.70 0.99
cv 0.90 0.85
cpcv 0.92 0.89
過学習起こしている
cpcvのほうがtest lossとvalidation lossの差が小さい
※ cvはN=5, cpcvは N=10 k=2で用いるデータ数はだいたい同じになるようにした
time_gapはtrain, valid両方間があく
embargoはvalidから次のtrainの間があく
train
validation
おまけ
汎化ギャップの測り方
•validation dataを使う
•weight loss landscapeを使う
(基本はdeep learning)
主張:weight loss landscapeの尖り具合と汎化ギャップには強い相関がある
[Hao Li et al. 2017]
ρ (w) =
1
N ∑
n
ℓ (f (xn, w), yn)
loss landscapeの定義
g (α) = ρ w + αd
w F
d F
を変化させたときに が書く曲線
α g
lossのweightにノイズをのせたときにlossがどれだけ大きくなるか
d: ガウスノイズ
F: フロベニウスノルム
α
g
loss landscapeが平らなほど汎化ギャップが小さい(良い)!
[Wu et al. 2020]
train test の差が小さいモデルほどloss landscapeは平ら
平らな方が汎化ギャップが小さい理由
仮定: trainとtest dataはにてるので同じようなloss landscapeを書く
最適なweightがtrainとtestでずれたとき、平らな方がlossの変化が小さいから
今回はスキップするが理論的にも示せる
Eq(h|S) [ϕ (h)] ≤ D KL (q (h|S)||p (h)) + log Ep(h) [eϕ(h)
]
PAC Bayesを利用し、汎化ギャップの上界がloss landscapeの平さを用いて書ける
ϕ (h) = L (h) − LS (h)
なので集中不等式で変形できる
L (h) = ED [LS (h)]
可測関数φに対する式 (可測関数は、可測空間の構造を保つ写像でhが確率変数ならφ(h)が確率変数になるのを保証)
自分で実験
※汎化誤差が大きくなるようにadversarail trainingを使ってます
[yamada et al. 2021]
ポイント:loss landscapeによる汎化ギャップの測定は、train dataしか使ってないため、正則化に使える
SAM: より平らな解を探すoptimizer [Pierre Foret et al. 2020]
赤の矢印を小さくするように正則化を加える
画像分類タスクで9つのデータセットでSoTAを更新したくらい性能がいい
しかし計算コストはSGDに比べ2倍
pytorchやtensor
fl
owやjaxはpipで簡単に使える
おわり
PCA-BAYES
•PAC boundを理解する
•PAC Bayesを理解する
目的
PAC学習: 仮説集合が有限のときに汎化誤差を扱う枠組み
Ls (h) =
1
N ∑
n
l (h (xn), yn)
L (h) = ED [
l (h (xn), yn)]
notation
訓練誤差
汎化誤差 Dは真の分布
hs = arg min
h
1
N ∑
n
l (h (xn), yn)
学習済みモデル
x,y Sは訓練集合
補足:仮説集合とは?
仮説集合が有限だと大きさを図れるがNNのような場合にどうやって測るかはみんな苦労してる
モデルの表現能力(容量)などに直結するため
PAC bound
定理:
仮説集合Hにおいて、訓練データNが以下を満たすと汎化誤差ε以下で
ある確率が1-δ以上であることを保障できる
Pr (L (hs) ≤ ε) ≥ 1 − δ
成り立つための条件は以下
ノリは、モデルがεの外すなら訓練セットN回引いて全問正解する確率が計算できる
1
ε
log
H
δ
≤ N
H: 仮説集合
ε: 汎化誤差
δ: 定数
N: 訓練データ数
証明
汎化誤差ε以下である確率が1-δ以上
↓
汎化誤差がεより大きいのに(訓練集合に対して全問正解する確率)はδ以下
言い換えるとtrain acc=0の なのに本当は汎化誤差ε以上な確率はδ以下
hs
(1 − ϵ)N
汎化誤差εのモデルを固定したときに訓練集合で全問正解する確率は
誤差0だと全問正解 100%
誤差1だと全問正解 0%
サイコロN回投げて全部6の確率と同じ考え方
モデルが複数あった時を考える
汎化誤差εのモデルが訓練集合で全問正解する確率 とすると
が恒等式で成り立つので
¦H¦個の汎化誤差ε以上のモデルが訓練集合でどれか1つでも全問正解する確率がδ以下
P (A)
P (A ∪ B) ≤ P (A) + P (B)
H (1 − ϵ)N
≤ δ
1つのmodelが全問正解する確率を¦H¦の和集合でとると上界は¦H¦倍されるため
仮定: 0-1lossを仮定する
H (1 − ϵ)N
≤ H exp (−εN) ≤ δ
1
ε
log
H
δ
≤ N
上界がδ以下で抑えられるための条件は
更に恒等式 を使い上界にする
(
1 +
a
x )
x
≤ exp (a)
式変形
H exp (−εN) ≤ δ
証明終わり
PAC Bayes: 点推定を分布推定にする
hがデルタ関数だと点推定
Pr (L (hs) ≤ ε) ≥ 1 − δ
Pr (L (q) ≤ ε) ≥ 1 − δ
L (h) = ED [
l (h (xn), yn)]
L (q) = Eq(h|S) [L (h)]
PAC Bound
PAC Bayes
PAC Bayesの目的は、L(q)の上界を確率的に保証したい
DKL (l (Q, S)||l (Q, D)) ≤
DKL (Q||P) + ln 2m
δ
m − 1
1-δ以上の確率でいかが成り立つ
:仮説選択の確率( )
:事前分布
:訓練データの分布
:真の分布
:訓練データ数
Q h (x) ∼ Q
P
S
D
m
PCA Bayes(両側バージョン)
D+
KL (l (Q, S)||l (Q, D)) ≤
DKL (Q||P) + ln
m
δ
m − 1
PCA Bayes(片バージョン)
Pr D+
KL (l (Q, S)||l (Q, D)) ≤
DKL (Q||P) + ln
m
δ
m − 1
≥ 1 − δ
まとめて書くとこんな感じ
D+
KL (p||q) =
{
0 if p ≥ q
DKL (p||q) if p < q
証明は色々あるがSimpli
fi
ed PAC-Bayesian Margin Bounds を参考にした
証明(片側)
Donsker-Varahan表現を利用する
f (h) = (m − 1) D+
KL (l (h, S)||l (h, D)) とすると
Eh∼Q [(m − 1) D+
KL (l (h, S)||l (h, D))] ≤ DKL (Q||P) + log Eh∼P [
e
(m−1)D+
KL(l(h, S)||l(h, D))
]
≤ DKL (Q||P) +
m
δ
(m − 1) D+
KL (l (h, S)||l (h, D)) ≤ DKL (Q||P) +
m
δ
D+
KL (l (h, S)||l (h, D)) ≤
DKL (Q||P) +
m
δ
m − 1
①
②
m>1
KLはすでにhの期待値を実行済み
①と②は後で示す
1-δ以上の確率で成り立つ
①を示す
イェンセンの不等式(-log(Q)は下に凸関数)
期待値を展開
①の証明終了
E [e(m−1)f(X)
] =
∫
∞
0
P (e(m−1)f(X)
≥ ν) dν
=
∫
∞
0
P
(
X ≤ f−1
(
log ν
m − 1))
dν
≤
∫
∞
0
e
−mf
(
f −1
(
log ν
m − 1 ))
dν
=
∫
∞
0
e− m
m − 1 log ν
dν
=
∫
∞
0
ν− m
m − 1 dν
=
∫
∞
0
min (1,ν− m
m − 1
) dν
=
∫
1
0
min (1,ν− m
m − 1
) dν +
∫
∞
1
min (1,ν− m
m − 1
) dν
= 1 +
∫
∞
1
ν− m
m − 1 dν
= 1 − (m − 1) [ν− 1
m − 1
]
∞
1
= m
e(m−1)f(X)
≥ ν
(m − 1) f (X) ≥ log ν
f (X) ≥
log ν
m − 1
X ≤ f −1
(
log ν
m − 1 )
②を示す
累積分布関数なので最大でも1
ν<1で単調増加関数で必ず1以上 ν>1で単調減少関数で必ず1以上
③ つながってない、不等号がひっく
り返らないと 褄が合わない→
fは後でKL+とわかるので単調増
加を仮定すると示せるかも
④
④
P (X ≤ x) ≤ e−mf(x)
⑤ 仮定
②の証明終了
Eh∼H [
e
(m−1)D+
KL(l(h, S)||l(h, D))
]
≤1−δ
1
δ
ES∼Dm
[
Eh∼H [
e
(m−1)D+
KL(l(h, S)||l(h, D))
]]
≤
m
δ
マルコフ不等式
Pr
(
Z >
ES [Z]
δ )
≤ δ
Pr (Z > a) ≤
ES [Z]
a
a =
ES [Z ]
δ
Pr
(
Z <
ES [Z]
δ )
≥ 1 − δ
言い換えると
マルコフ不等式
z ⑥
f (x) = D+
KL (l (h, S)||l (h, D)) とすると
h
すべてのhで成り立つため
ES∼Dm
[
e
(m−1)D+
KL(l(h, S)||l(h, D))
]
≤ m
ES∼Dm
[
Eh∼H [
e
(m−1)D+
KL(l(h, S)||l(h, D))
]]
≤ m
⑥
∫
∞
0
P (W ≥ ν) dν =
∫
∞
0 (∫
∞
ν
p (W ) dW
)
dν
=
∫
∞
0 (∫
W
0
p (W ) dν
)
dW
=
∫
∞
0
Wp (W ) dW
= E [W ]
P (W ≥ ν) ≡
∫
∞
ν
p (W) dW
w
ν
w=ν
③を示す
Hoe
ff
ding
[0,1]区間に制限された確率変数 , 経験平均 ,
に対して以が成り立つ
X1, ⋯Xm
̂
X =
1
m ∑
Xi
ε ∈ [0,1]
P (
̂
X ≤ ε) ≤ e
−mD+
KL(ε||E[Xi])
⑤
有名なので証明はなし
KLからlossへの変換
D+
KL (l (Q, S)||l (Q, D)) ≤
DKL (Q||P) + ln
m
δ
m − 1
l (Q, D) ≤ l (Q, S) + 2l (Q, S)
DKL (Q||P) + ln
m
δ
m − 1
+ 2
DKL (Q||P) + ln
m
δ
m − 1
以下を示すことができる
証明
DKL (q||p) = p log
p
q
+ (1 − p) log
1 − p
1 − q
≥
(q − p)
2
q2
q ≥ p のとき
f (q) = p log
p
q
+ (1 − p) log
1 − p
1 − q g (q) =
(q − p)
2
q2
f (q = p) = g (q = p) = 0
∂f
∂q
≥
∂g
∂q
を示すことができる
とすると
よって をしめすことができた
DKL (q||p) ≥
(q − p)
2
q2
∂f
∂q
−
∂g
∂q
=
(1 − q)
2
+ q (1 − p)
q (1 − q)
≥ 0
にするために を仮定する
D+
KL (q||p) → DKL (q||p) 1 ≥ q ≥ p ≥ 0
(q − p)
2
2q
≤ DKL (q||p) ≤ x のとき q ≤ p + 2px + 2x を示すことができる
0 ≤ p − q + 2px + 2x を示せば良い
−(q − p) + 2px + 2x ≥ 2qx + 2px + 2x ≥ 0
(q − p)
2
2q
≤ x
x =
DKL (Q||P) + ln
m
δ
m − 1
≥ 0
q ≥ p
x =
DKL (Q||P) + ln
m
δ
m − 1
とすると
l (Q, D) ≤ l (Q, S) + 2l (Q, S)
DKL (Q||P) + ln
m
δ
m − 1
+ 2
DKL (Q||P) + ln
m
δ
m − 1
DKL (q||p) → D+
KL (l (Q, S)||l (Q, D))
Eq(h|S) [ϕ (h)] ≤ D KL (q (h|S)||p (h)) + log Ep(h) [eϕ(h)
]
PAC Bayesの本質にある考え方
ϕ (h) = L (h) − LS (h)
なので集中不等式で変形できる
L (h) = ED [LS (h)]
集中不等式の部分の与え方で色んなboundが導ける
可測関数φに対する式 (可測関数は、可測空間の構造を保つ写像でhが確率変数ならφ(h)が確率変数になるのを保証)
おまけ:いろんなPAC Bayesのbound

More Related Content

What's hot

ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
 
[DL輪読会]The Cramer Distance as a Solution to Biased Wasserstein Gradients
[DL輪読会]The Cramer Distance as a Solution to Biased Wasserstein Gradients[DL輪読会]The Cramer Distance as a Solution to Biased Wasserstein Gradients
[DL輪読会]The Cramer Distance as a Solution to Biased Wasserstein Gradients
Deep Learning JP
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
gree_tech
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
 
Variational AutoEncoder
Variational AutoEncoderVariational AutoEncoder
Variational AutoEncoder
Kazuki Nitta
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)
Takashi J OZAKI
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半koba cky
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化Miyoshi Yuya
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
wada, kazumi
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
Ken'ichi Matsui
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
 

What's hot (20)

ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
[DL輪読会]The Cramer Distance as a Solution to Biased Wasserstein Gradients
[DL輪読会]The Cramer Distance as a Solution to Biased Wasserstein Gradients[DL輪読会]The Cramer Distance as a Solution to Biased Wasserstein Gradients
[DL輪読会]The Cramer Distance as a Solution to Biased Wasserstein Gradients
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
Variational AutoEncoder
Variational AutoEncoderVariational AutoEncoder
Variational AutoEncoder
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 

Similar to 汎化性能測定

動的計画法入門(An introduction to Dynamic Programming)
動的計画法入門(An introduction to Dynamic Programming)動的計画法入門(An introduction to Dynamic Programming)
動的計画法入門(An introduction to Dynamic Programming)
kakira9618
 
有限オートマトンとスティッカー系に関するCoqによる形式証明について
有限オートマトンとスティッカー系に関するCoqによる形式証明について有限オートマトンとスティッカー系に関するCoqによる形式証明について
有限オートマトンとスティッカー系に関するCoqによる形式証明について
Yoshihiro Mizoguchi
 
JSIAM_2019_9_4
JSIAM_2019_9_4JSIAM_2019_9_4
JSIAM_2019_9_4
KoutaFunakoshi
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
Tatsuki SHIMIZU
 
Draftall
DraftallDraftall
Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装する
Shuhei Iitsuka
 
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Yuya Takashina
 
C07
C07C07
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke Horii
Suurist
 
130604 fpgax kibayos
130604 fpgax kibayos130604 fpgax kibayos
130604 fpgax kibayosMikio Yoshida
 
ディジタル信号処理 課題解説(その3) 2014年度版
ディジタル信号処理 課題解説(その3) 2014年度版ディジタル信号処理 課題解説(その3) 2014年度版
ディジタル信号処理 課題解説(その3) 2014年度版
dsp_kyoto_2014
 
Four op
Four opFour op
Four opoupc
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
Sho Takase
 
情報検索の基礎(11章)
情報検索の基礎(11章)情報検索の基礎(11章)
情報検索の基礎(11章)Katsuki Tanaka
 
Topic model
Topic modelTopic model
Topic model
saireya _
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 

Similar to 汎化性能測定 (20)

演習発表 Sari v.1.2
演習発表 Sari v.1.2演習発表 Sari v.1.2
演習発表 Sari v.1.2
 
演習発表 Sari v.1.1
演習発表 Sari v.1.1演習発表 Sari v.1.1
演習発表 Sari v.1.1
 
動的計画法入門(An introduction to Dynamic Programming)
動的計画法入門(An introduction to Dynamic Programming)動的計画法入門(An introduction to Dynamic Programming)
動的計画法入門(An introduction to Dynamic Programming)
 
有限オートマトンとスティッカー系に関するCoqによる形式証明について
有限オートマトンとスティッカー系に関するCoqによる形式証明について有限オートマトンとスティッカー系に関するCoqによる形式証明について
有限オートマトンとスティッカー系に関するCoqによる形式証明について
 
JSIAM_2019_9_4
JSIAM_2019_9_4JSIAM_2019_9_4
JSIAM_2019_9_4
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
 
Draftall
DraftallDraftall
Draftall
 
Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装する
 
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
 
C07
C07C07
C07
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke Horii
 
130604 fpgax kibayos
130604 fpgax kibayos130604 fpgax kibayos
130604 fpgax kibayos
 
yyoshida thesis
yyoshida thesisyyoshida thesis
yyoshida thesis
 
ディジタル信号処理 課題解説(その3) 2014年度版
ディジタル信号処理 課題解説(その3) 2014年度版ディジタル信号処理 課題解説(その3) 2014年度版
ディジタル信号処理 課題解説(その3) 2014年度版
 
Four op
Four opFour op
Four op
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
情報検索の基礎(11章)
情報検索の基礎(11章)情報検索の基礎(11章)
情報検索の基礎(11章)
 
Topic model
Topic modelTopic model
Topic model
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 

汎化性能測定