PAC-Bayesian-generalization-bounds-seminar-5

Պակ-Բայեսյան ընդհանրացման
գնահատականներ
Հանդիպում 5՝ ինֆորմացիոն տեսությամբ ստացվող
ընդհանրացման գնահատականներ
Հրայր Հարությունյան
Դեկտեմբերի 15, 2021
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 15, 2021 1 / 12

Սեմինարների մասին
Կանենք 5-6 սեմինար։
Չորեքշաբթի օրերին, երեկոյան ժամը 7-ին։
Ցանկացած պահի կարող եք հարց տալ կամ դիտողություն
անել:
Սեմինարները կտեսագրվեն, վիդեոները և սլայդները
կտեղադրենք mlevn.org-ում։
Հայտարարությունները կանենք ML reading group Yerevan
խմբում՝ https://groups.google.com/g/ml-reading-group-yerevan
Տերմինների հայերեն թարգմանության մասին
քննարկումները այստեղ՝ https://ml-hye.talkyard.net :

Նախորդ սեմինարին
Տեսանք, թե ինչպես կարող ենք ստանալ իմաստալից
Պակ-Բայեսյան գնահատականներ նեյրոնային ցանցերի
դեպքում։
• Հիպոթեզների վերջավոր դասի դեպք,
• Ուսուցման արդյունքում պարամետրերի սկզբնակետից
շեղվելու չափը որպես ընդհանրացման ցուցիչ,
• Ձյուգեյթի և Ռոյի հոդվածը։ 1
։
1G. K. Dziugaite and D. M. Roy. Computing nonvacuous generalization bounds for
deep (stochastic) neural networks with many more parameters than training data.
UAI 2017.

Այսօր
Միջին ռիսկի մաթ․ սպասման գնահատականներ (այսինքն՝
ոչ հավանականային գնահատականներ),
Շենոնի փոխադարձ ինֆորմացիա,
Ինֆորմացիոն տեսությամբ ստացվող ընդհանրացման
գնահատականներ։ Կապը Պակ-Բայեսյան
գնահատականներեի հետ։

Միջին ռիսկի մաթ․ սպասման
• Հիշենք Կատոնիի Պակ-Բայեսյան գնահատականը։
Թեորեմ (Կատոնի)
Կամայական λ > 0, δ ∈ (0, 1) թվերի և π նախնական բաշխման համար
PS

∀ρ ∈ P(Θ), Eθ∼ρ[R(θ)] ≤ Eθ∼ρ[r(θ)] +
λ
8n
+
KL (ρ∥π) + log 1
δ
λ

≥ 1 − δ :

• Հիշենք Կատոնիի Պակ-Բայեսյան գնահատականը։
Թեորեմ (Կատոնի)
Կամայական λ 0, δ ∈ (0, 1) թվերի և π նախնական բաշխման համար
PS

∀ρ ∈ P(Θ), Eθ∼ρ[R(θ)] ≤ Eθ∼ρ[r(θ)] +
λ
8n
+
KL (ρ∥π) + log 1
δ
λ

≥ 1 − δ :
• Այժմ ստանանք միջին ռիսկի մաթ․ սպասման գնահատական։
Թեորեմ
Կամայական λ 0 թվի, π նախնական բաշխման և ρ̂(S) հետին բաշխման
համար
ES Eθ∼ρ̂[R(θ)] ≤ ES Eθ∼ρ̂[r(θ)] +
λ
8n
+
ES KL (ρ̂∥π)
λ
:
Այս տեսակ գնահատականներին կանվանենք Մակ-Բայեսյան (mean
approximately correct):

Ապացույց. Սկզբում՝ կրկնելով Կատոնիի թեորեմի ապացույցի
առաջին քայլերը, կստանանք
ES

e
supρ∈P(θ)
{
λ Eθ∼ρ[R(θ)−r(θ)]−KL(ρ∥π)− λ2
8n
}#
≤ 1 :

ES

e
supρ∈P(θ)
{
8n
}#
≤ 1 :
Օգտագործելով Յենսենի անհավասարությունը‘ կստանանք, որ
e
ES
[
supρ∈P(θ)
{
8n
}]
≤ 1 :

ES

e
supρ∈P(θ)
{
8n
}#
≤ 1 :
Օգտագործելով Յենսենի անհավասարությունը‘ կստանանք, որ
e
ES
[
supρ∈P(θ)
{
8n
}]
≤ 1 :
Սա նույնն է ինչ՝
ES

sup
ρ∈P(θ)

λ Eθ∼ρ [R(θ) − r(θ)] − KL (ρ∥π) −
λ2
8n
#
≤ 0 :

Ինֆորմացիոն տեսությամբ ստացվող միջին
ռիսկի մաթ․ սպասման գնահատականներ

Փոխադարձ ինֆորմացիա
Սահմանում (փոխադարձ ինֆորմացիա2
)
Ենթադրենք ունենք X և Y պատահական մեծություններ PX,Y համատեղ
բաշխմամբ։ Այս երկու փոփոխականների փոխադարձ ինֆորմացիան
կսահմանենք հետևյալ կերպ՝
I(X; Y)� = KL (PX,Y∥PX ⊗ PY) : (1)
Հատկություններ
I(X; Y) = I(Y; X)
I(X; Y) ≥ 0
I(X; Y) = 0 ⇐⇒ X⊥Y
I(X; Y)-ը ընդունում է առավելագույն արժեք երբ գոյություն ունի f
հակադարձելի ֆունկցիա այնպիսին, որ PX,Y(X = f(Y)) = 1։
2Ավելին իմանալու համար տես՝ Thomas M Cover and Joy A Thomas. Elements of
information theory.

Դոնկսեռ-Վարադհան
Դոնսկեռ-Վարադհանի վարիացիոն բանաձևին ծանոթացել էինք 2-րդ
սեմինարի ժամանակ։
Պնդում (Դոնսկեռ-Վարադհան)
Ցանկացած չափելի և սահմանափակ h : Θ → R ֆունկցիայի համար ճիշտ
է
log Eθ∼π[eh(θ)
] = sup
ρ∈P(Θ)

Eθ∼ρ[h(θ)] − KL(ρ||π)

: (2)
Ավելին՝ πh = arg supρ∈P(Θ) {Eθ∼ρ[h(θ)] − KL(ρ||π)} բաշխման համար ունենք
հետևյալ առնչությունը՝
dπh
dπ
(θ) =
eh(θ)
Eθ′∼π[eh(θ′)]
: (3)

Այժմ ապացուցենք շատ նման մեկ այլ արդյունք։
Պնդում (Դոնկսեռ-Վարադհան)
Դիցուք ունենք ρ և π հավանականային չափեր տրված միևնույն (Θ, F)
չափելի տարածության վրա, այնպես, որ ρ ≪ π: Ճիշտ է հետևյալը՝
KL (ρ∥π) = sup
n
Eθ∼ρ [h(θ)] − log Eθ∼π
h
eh(θ)
i
| h : Θ → R, ∃C ∈ R s.t. |h| ≤ C
o
:
(2)

Նախորդ տարբերակի պնդումից ունենք որ կամայական (ρ, π, h) եռյակի
համար ճիշտ է հետևյալը՝
log Eθ∼π[eh(θ)
] ≥ Eθ∼ρ[h(θ)] − KL(ρ||π) : (2)

Այժմ դիտարկենք հետևյալ h-ը՝
h(θ) = log

dρ
dπ
(θ)

:
Ունենք որ
Eθ∼ρ [h(θ)] − log Eθ∼π
h
eh(θ)
i
= Eθ∼ρ

log

dρ
dπ
(θ)

− log Eθ∼π

exp

log

dρ
dπ
(θ)

= KL (ρ∥π) − log Eθ∼π

dρ
dπ
(θ)

| {z }
1
= KL (ρ∥π) :

Շուի և Ռագինսկիի արդյունքը
Օրինակների բազմություն Z
▶ Վերահսկվող ուսուցման դեպքում Z = X × Y։
Հիպոթեզների բազմություն H
▶ Կրկին կենթադրենք, որ H-ը պարամետրիզացված է θ ∈ Θ
պարամետրերով։
Կորստի ֆունկցիա ℓ : Θ × Z → R+: Կենթադրենք որ l(θ, z) ≤ 1:
Ուսուցման տվյալներ S = (Z1, . . . , Zn), բաղկացած n անկախ
օրինակներից(նմուշներից) միևնույն PZ անհայտ բաշխումից։
Ուսուցման ալգորիթմ ρ̂ : Zn
→ P(Θ)
Իրական և էմպիրիկ ռիսկեր՝
R(θ) = EZ′∼PZ

ℓ(θ, Z′
)

, r(θ) =
1
n
n
X
i=1
ℓ(θ, Zi) :

Թեորեմ (Շու և Ռագինսկի3
, թեթևակի պարզեցված)
Ենթադրենք θ̃-ն պատահական մեծություն է ρ̂(S) բաշխումով (այսինքն՝
հետին բաշխումից պատահական նմուշ)։ Միջին ռիսկի մաթ․ սպասումը
կարելի գնահատել հետևյալ կերպ՝

ES Eθ∼ρ̂(S) [R(θ)] − ES Eθ∼ρ̂(S) [r(θ)]

≤
r
1
2n
I(θ̃; S) : (2)
3A. Xu and M. Raginsky. Information-theoretic analysis of generalization
capability of learning algorithms. NeurIPS, 2017.

Ապացույց. Տրված θ ∈ Θ և s = (z1, . . . , zn) ∈ Zn
զույգի համար
սահմանենք
h(θ, s) =
1
n
n
X
i=1
ℓ(θ, zi) − R(θ) : (2)
I(θ̃; S) = KL Pθ̃,S∥Pθ̃ ⊗ PS

≥ Eθ,s∼Pθ̃,S
[λh(θ, s)] − log Eθ,s∼Pθ̃
⊗PS
h
eλh(θ,s)
i
= λ ES Eθ∼ρ̂(S) [r(θ) − R(θ)] − log Eθ,s∼Pθ̃
⊗PS
h
eλh(θ,s)
i
= λ ES Eθ∼ρ̂(S) [r(θ) − R(θ)] − log Eθ∼Pθ̃

Es∼PS

exp
λ
n
n
X
i=1
ℓ(θ, zi) − R(θ)

!!
= λ ES Eθ∼ρ̂(S) [r(θ) − R(θ)] − log Eθ∼Pθ̃
n
Y
i=1

Ezi∼PZ

exp

λ
n
(ℓ(θ, zi) − R(θ))


Այժմ կատարենք հետևյալ պարզեցումները՝
Ezi∼PZ

exp

λ
n
(ℓ(θ, zi) − R(θ))

= EZ1

exp

λ
n
(ℓ(θ, Z1) − R(θ))

(2)
= EZ1

exp

λ
n
(ℓ(θ, Z1) − EZ1 ℓ(θ, Z1))

(3)
≤ exp

λ2
8n2

: (4)

Այժմ կատարենք հետևյալ պարզեցումները՝
Ezi∼PZ

exp

λ
n
(ℓ(θ, zi) − R(θ))

= EZ1

exp

λ
n
(ℓ(θ, Z1) − R(θ))

(2)
= EZ1

exp

λ
n
(ℓ(θ, Z1) − EZ1 ℓ(θ, Z1))

(3)
≤ exp

λ2
8n2

: (4)
Սա տեղադրելով վերևում, ստանում ենք որ
I(θ̃; S) ≥ λ ES Eθ∼ρ̂(S) [r(θ) − R(θ)] − log Eθ∼Pθ̃

exp

λ2
8n2
n
= λ ES Eθ∼ρ̂(S) [r(θ) − R(θ)] −
λ2
8n
:
Ընտրելով λ = 4n ES Eθ∼ρ̂(S) [r(θ) − R(θ)]՝ կստանանք որ
I(θ̃; S) ≥ 2n ES Eθ∼ρ̂(S) [r(θ) − R(θ)]
2
: (5)

Կապը Պակ-Բայեսյան մոտեցման հետ
Այսօր ավելի վաղ ստացել էինք, որ կամայական λ 0 թվի, π
նախնական բաշխման և ρ̂(S) հետին բաշխման համար
ES Eθ∼ρ̂[R(θ)] ≤ ES Eθ∼ρ̂[r(θ)] +
λ
8n
+
ES KL (ρ̂∥π)
λ
:

PAC-Bayesian-generalization-bounds-seminar-5

Recommended

Recommended

More Related Content

Featured

Featured (20)

PAC-Bayesian-generalization-bounds-seminar-5