PAC-Bayesian-generalization-bounds-seminar-1

Պակ-Բայեսյան ընդհանրացման
գնահատականներ
Հանդիպում 1՝ ներածություն
Հրայր Հարությունյան
Նոյեմբեր 17, 2021
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Նոյեմբեր 17, 2021 1 / 15

Սեմինարների մասին
Կանենք 5-6 սեմինար։
Չորեքշաբթի օրերին, երեկոյան ժամը 7-ին։
Ցանկացած պահի կարող եք հարց տալ կամ դիտողություն
անել:
Սեմինարները կտեսագրվեն, վիդեոները և սլայդները
կտեղադրենք mlevn.org-ում։
Հայտարարությունները կանենք ML reading group Yerevan
խմբում՝ https://groups.google.com/g/ml-reading-group-yerevan
Տերմինների հայերեն թարգմանության մասին
քննարկումները այստեղ՝ https://ml-hye.talkyard.net :

Մեքենայական ուսուցում
Մեքենայական ուսուցման ուսումնասիրության թեման այն
ալգորիթմներ են, որոնք ինքնուրույն կարող են լավարկվել
փորձի և տվյալների միջոցով։

Վերահսկվող ուսուցում (supervised learning)
Մուտքային օբյեկտների բազմություն՝ X։
Պիտակների բազմություն՝ Y։
▶ Օրինակ՝ Y = {1, 2, . . . , C} կամ Y = [0, 1]։
Հավանականության բաշխում P՝ տրված X × Y-ի վրա։
Հետաքրքիր դեպքերում P անհայտ է։

Մուտքային օբյեկտների բազմություն՝ X։
Պիտակների բազմություն՝ Y։
▶ Օրինակ՝ Y = {1, 2, . . . , C} կամ Y = [0, 1]։
Հավանականության բաշխում P՝ տրված X × Y-ի վրա։
Հետաքրքիր դեպքերում P անհայտ է։
Փոխարենը տրված է ընտրանք (sample) P-ից, բաղկացած n
անկախ օրինակներից՝ S = {(X1, Y1), . . . , (Xn, Yn)}։

Փոխարենը տրված է ընտրանք (sample) P-ից, բաղկացած n
անկախ օրինակներից՝ S = {(X1, Y1), . . . , (Xn, Yn)}։
Մեքենայական ուսուցման ալգորիթմները ստանում են S-ը և
վերադարձնում կանխատեսիչ (predictor) f : X → Y։
▶ Հաճախ դիտարկվող դեպք՝ f-ը ընտրվում է հիպոթեզների
H = {hθ | θ ∈ Θ} նախօրոք տրված բազմությունից։
▶ Օրինակ՝ hθ(x) = θ⊤
x, գծային ֆունկցիաների բազմություն։

Մեքենայական ուսուցման ալգորիթմները ստանում են S-ը և
վերադարձնում կանխատեսիչ (predictor) f : X → Y։
▶ Հաճախ դիտարկվող դեպք՝ f-ը ընտրվում է հիպոթեզների
H = {hθ | θ ∈ Θ} նախօրոք տրված բազմությունից։
▶ Օրինակ՝ hθ(x) = θ⊤
x, գծային ֆունկցիաների բազմություն։
Կորստի ֆունկցիա՝ ℓ : Y2
→ [0, +∞), այնպես որ ℓ(y, y) = 0։
▶ 0-1 կորստի ֆունկցիան՝ ℓ(y′
, y) = 1{y̸=y′}։
▶ Էվկլիդեսյան ℓ2 հեռավորություն՝ ℓ2(y′
, y) = ∥y − y′
∥2
։
▶ …

Կորստի ֆունկցիա՝ ℓ : Y2
→ [0, +∞), այնպես որ ℓ(y, y) = 0։
▶ 0-1 կորստի ֆունկցիան՝ ℓ(y′
, y) = 1{y̸=y′}։
▶ Էվկլիդեսյան ℓ2 հեռավորություն՝ ℓ2(y′
, y) = ∥y − y′
∥2
։
▶ …
Տրված f կանխատեսիչի համար ընդհանրացման սխալանքը
(ընհանրացման ռիսկ, կամ պարզապես ռիսկ) սահմանվում է՝
R(f) = E(X,Y)∼P [ℓ(f(X), Y)] : (1)
▶ Երբ f-ը պարամետրիզացված է θ պարամետրերով (fθ(x), θ ∈ Θ),
R(fθ)-ի փոխարեն կգրենք ուղղակի R(θ):

Տրված f կանխատեսիչի համար ընդհանրացման սխալանքը
(ընհանրացման ռիսկ, կամ պարզապես ռիսկ) սահմանվում է՝
R(f) = E(X,Y)∼P [ℓ(f(X), Y)] : (1)
▶ Երբ f-ը պարամետրիզացված է θ պարամետրերով (fθ(x), θ ∈ Θ),
R(fθ)-ի փոխարեն կգրենք ուղղակի R(θ):
Էմպիրիկ ռիսկը սահմանվում է
r(f) =
1
n
n
X
i=1
ℓ(f(Xi), Yi) : (2)
▶ Նկատենք, որ r(f)-ը պատահական մեծություն է՝ կախված S
ընտրանքից։
▶ Կրկին r(fθ)-ի փոխարեն հաճախ կգրենք r(θ)։

Էմպիրիկ ռիսկը սահմանվում է
r(f) =
1
n
n
X
i=1
ℓ(f(Xi), Yi) : (1)
▶ Նկատենք, որ r(f)-ը պատահական մեծություն է՝ կախված S
ընտրանքից։
▶ Կրկին r(fθ)-ի փոխարեն հաճախ կգրենք r(θ)։
Մի պարզ պնդում՝
∀f, ES [r(f)] = R(f) : (2)

Կենտրոնանանք այն դեպքի վրա երբ f-ը ունի θ
պարամետրեր։ Այս դեպքում ուսուցման ալգորիթմը իրենից
ներկայացնում է այսպիսի ֆունկցիա՝
θ̂ :
∞
[
n=1
(X × Y)n
→ Θ :

Կենտրոնանանք այն դեպքի վրա երբ f-ը ունի θ
պարամետրեր։ Այս դեպքում ուսուցման ալգորիթմը իրենից
ներկայացնում է այսպիսի ֆունկցիա՝
θ̂ :
∞
[
n=1
(X × Y)n
→ Θ :
Էպիրիկ ռիսկի մինիմիզացման (ԷՌՄ) ալգորիթմ (empirical
risk minimization)՝
θ̂ERM = argmin
θ∈Θ
r(θ) :

Ընդհանրացման գնահատականներ
Նպատակն է ստանալ R(θ̂)-ի վերին գնահատականներ՝
միգուցե օգտագործելով նաև r(θ̂)-ն (վերջինս հեշտ է հաշվել):

Գնահատական միջինում (in expectation)
ES
h
R(θ̂)
i
≤ ϵ : (1)

Գնահատական միջինում (in expectation)
ES
h
R(θ̂)
i
≤ ϵ : (1)
Հավանականային գնահատական (in probability)
PS

R(θ̂) ≥ ϵ

≤ δ : (2)
▶ Այսպիսի գնահատականները կոչվում են Պակ
գնահատականներ (PAC – probably approximately correct)։

Կարևոր է թե ϵ-ը ինչ տեսք ունի և ինչպես է կախված n-ից և
δ-ից։

δ-ից։
Ցանկալի է որ ϵ-ի 1
δ -ից կախումը լինի լոգարիթմական
(high-probability bounds) կամ բազմանդամային (polynomial
dependence)։

δ-ից։
dependence)։
Լավագույն դեպքում կուզենք որ ϵ → 0 երբ n → ∞, օրինակ 1
√
n
կամ 1
n արագությամբ։

δ-ից։
dependence)։
√
n
կամ 1
Մեկ այլ «լավ» դեպքում ցանկալի է որ ϵ-ը մոտիկ լինի
հնարավոր փոքրագույն ռիսկին՝ infθ∈Θ R(θ)։ Այսպիսի
գնահատականները կոչվում են oracle bounds (գուշակի
գնահատակա՞ն):

δ-ից։
dependence)։
√
n
կամ 1
Մեկ այլ «լավ» դեպքում ցանկալի է որ ϵ-ը մոտիկ լինի
հնարավոր փոքրագույն ռիսկին՝ infθ∈Θ R(θ)։ Այսպիսի
գնահատականները կոչվում են oracle bounds (գուշակի
գնահատակա՞ն):
Եթե հնարավոր չէ ստանալ վերոնշյալ տեսակի
ընդհանրացման գնահատականներ, ապա ցանկալի է որ ϵ-ը
լինի r(θ̂)-ին մոտիկ։

Պակ-Բայեսյան գնահատականների դեպքում ուսուցման
ալգորիթմը վերադարձնում է ոչ թե մեկ
կանխատեսիչ/հիպոթեզ, այլ հիպոթեզների տարածության
վրա սահմանված բաշխում՝
ρ̂ :
∞
[
n=1
(X × Y)
n
→ P(Θ),
որտեղ P(Θ)-ն Θ-ի վրա տրված բոլոր բաշխումների
բազմությունն է։

Պակ-Բայեսյան գնահատականները հետևյալ մեծությունների
Պակ գնահատականներն են՝
1. Պատահական կանխատեսիչի ռիսկ՝ R(θ̃), որտեղ θ̃ ∼ ρ̂:
2. Միջին ռիսկ՝ Eθ∼ρ̂ [R(θ)]։
3. Միջինացված կանխատեսիչի ռիսկ՝ R(fρ̂), որտեղ
fρ̂(·) = Eθ∼ρ̂ [fθ(·)]:

Ամփոփենք՝
«Պակ» որովհետև P(R ≥ ϵ) ≤ δ տիպի գնահատականներ են
տրվում։
«Բայեսյան» որովհետև ուսուցման ալգորիթմը ոչ թե մեկ
հիպոթեզ է վերադարձնում, այլ հիպոթեզների բաշխում։
Բայեսյան անունը գալիս է Բայեսյան մեթոդների հետ
նմանությունից։

Պակ գնահատականների ստացման
օրինակներ

Անհրաժեշտ անհավասարություններ
Պնդում (Մարկովի անհավասարություն)
Կամայական X ≥ 0 պատահական մեծության և t 0 թվի համար
P (X ≥ t) ≤
E [X]
t
: (1)

Պնդում (Մարկովի անհավասարություն)
Կամայական X ≥ 0 պատահական մեծության և t 0 թվի համար
P (X ≥ t) ≤
E [X]
t
: (1)
Ապացույց։
E [X] = P(X t) E [X | X t] + P(X ≥ t) E [X | X ≥ t]
≥ P(X ≥ t) E [X | X ≥ t]
≥ t P(X ≥ t) :

Պնդում (Չեռնոֆի անհավասարություն)
Կամայական X պատահական մեծության և t ∈ R թվի համար
P(X ≥ t) ≤ inf
λ0
E

eλX

eλt
: (2)

Պնդում (Չեռնոֆի անհավասարություն)
Կամայական X պատահական մեծության և t ∈ R թվի համար
P(X ≥ t) ≤ inf
λ0
E

eλX

eλt
: (2)
Ապացույց։ Կամայական λ 0 թվի համար
P(X ≥ t) = P(eλX
≥ eλt
)
≤
E

eλX

eλt
: (Մարկովի անհավասարություն)
Վերջնական արդյունքը հետևում է այն փաստից, որ սա ճիշտ է
բոլոր դրական λ-ների համար և ձախ կողմը կախված չէ λ-ից։

Լեմմա (Հյոֆդինգ)
Կամայական X ∈ [0, 1] պատահական մեծության և λ 0 թվի
համար
E [exp (λ(X − E [X]))] ≤ exp

λ2
8

: (3)
Առանց ապացույցի։

Պնդում (Հյոֆդինգի անհավասարություն)
Դիցուք ունենք n իրարից անկախ, [0, 1] միջակայքին պատկանող
պատահական մեծություններ՝ X1, X2, . . . , Xn։ Նշանակենք նրանց
միջինը X-ով՝ X = 1
n
Pn
i=1 Xi։ Կամայական t ≥ 0 թվի համար տեղի
ունի հետևյալը՝
P

X ≥ E
h
X
i
+ t

≤ e−2nt2
: (4)

Ապացույց։ Սկսենք Չեռնոֆի անհավասարությունից

X − E
h
X
i
-ի և t-ի դեպքում։ Կամայական λ 0
P

X − E
h
X
i
≥ t

≤
E
h
exp

λ

X − E
h
X
ii
exp (λt)
=
E

exp λ
n
Pn
i=1(Xi − E [Xi])

exp (λt)
=
E
Qn
i=1 exp λ
n (Xi − E [Xi])

exp (λt)
=
Qn
i=1 E

exp λ
n (Xi − E [Xi])

exp (λt)
: (անկախ.)

Մնում է գնահատենք E
[
exp
(λ
n
(Xi − E [Xi])
)]
-ը։ Ըստ Հյոֆդինգի լեմմայի
E
[
exp
(
λ
n
(Xi − E [Xi])
)]
≤ exp
(
λ2
8n2
)
: (4)

[
exp
(λ
n
(Xi − E [Xi])
)]
E
[
exp
(
λ
n
(Xi − E [Xi])
)]
≤ exp
(
λ2
8n2
)
: (4)
Շարունակելով ապացույցը՝
P
(
X − E
[
X
]
≥ t
)
≤
∏n
i=1 exp
(
λ2
8n2
)
exp (λt)
(5)
= exp
(
λ2
8n
− λt
)
: (6)

[
exp
(λ
n
(Xi − E [Xi])
)]
E
[
exp
(
λ
n
(Xi − E [Xi])
)]
≤ exp
(
λ2
8n2
)
: (4)
Շարունակելով ապացույցը՝
P
(
X − E
[
X
]
≥ t
)
≤
∏n
i=1 exp
(
λ2
8n2
)
exp (λt)
(5)
= exp
(
λ2
8n
− λt
)
: (6)
Լավագույն λ = 4nt-ի դեպքում ստանում ենք որ
P
(
X − E
[
X
]
≥ t
)
≤ exp
(
−2nt2)
: (7)

Մեծացնելով սխալվելու հավանականությունը երկու անգամ
2 exp −2nt2

, կարելի է ապացուցել որ
P

≥ t

≤ 2 exp −2nt2

: (4)

Հիպոթեզների վերջավոր դաս
Ենթադրենք H-ը վերջավոր բազմություն է։ Այս դեպքում
հնարավոր է ապացուցել հետևյալը։
Պնդում
Ենթադրենք ℓ(y′
, y) ∈ [0, 1]. Ապա կամայական |H| ∞
հիպոթեզների դասի, P տվյալների բաշխման և ĥ ուսուցման
ալգորիթմի համար
P

≥
s
1
2n
log

2 |H|
δ
!
≤ δ : (5)

Ապացույց։ Յուրաքանչյուր hi ∈ H, i = 1, . . . , |H| կանխատեսիչի
էպիրիկ ռիսկը n իրարից անկախ [0, 1]-պատահական մեծությունների
միջին է։ Ըստ Հյոֆդինգի անհավասարության
P (|R(hi) − r(hi)| ≥ ϵ) ≤ 2 exp
(
−2nϵ2)
: (5)

P (|R(hi) − r(hi)| ≥ ϵ) ≤ 2 exp
(
−2nϵ2)
: (5)
Կիրառելով պատահույթների միավորման անհավասարությունը
(probability union bound)՝
P (∃i, |R(hi) − r(hi)| ≥ ϵ) ≤ 2 |H| exp
(
−2nϵ2)
: (6)

P (|R(hi) − r(hi)| ≥ ϵ) ≤ 2 exp
(
−2nϵ2)
: (5)
P (∃i, |R(hi) − r(hi)| ≥ ϵ) ≤ 2 |H| exp
(
−2nϵ2)
: (6)
Այլ կերպ գրած՝
P (∀i, |R(hi) − r(hi)| ≤ ϵ) ≥ 1 − 2 |H| exp
(
−2nϵ2)
: (7)

P (|R(hi) − r(hi)| ≥ ϵ) ≤ 2 exp
(
−2nϵ2)
: (5)
P (∃i, |R(hi) − r(hi)| ≥ ϵ) ≤ 2 |H| exp
(
−2nϵ2)
: (6)
P (∀i, |R(hi) − r(hi)| ≤ ϵ) ≥ 1 − 2 |H| exp
(
−2nϵ2)
: (7)
Մենք ուզում ենք որ սխալվելու հավանակությունը լինի δ, հետևաբար
ϵ =
√
1
2n
log
(
2 |H|
δ
)
: (8)

P (|R(hi) − r(hi)| ≥ ϵ) ≤ 2 exp
(
−2nϵ2)
: (5)
P (∃i, |R(hi) − r(hi)| ≥ ϵ) ≤ 2 |H| exp
(
−2nϵ2)
: (6)
P (∀i, |R(hi) − r(hi)| ≤ ϵ) ≥ 1 − 2 |H| exp
(
−2nϵ2)
: (7)
Մենք ուզում ենք որ սխալվելու հավանակությունը լինի δ, հետևաբար
ϵ =
√
1
2n
log
(
2 |H|
δ
)
: (8)
Քանի որ (7)-ը ճիշտ է միանգամից բոլոր h-երի համար, այն ճիշտ կլինի
նաև ĥ(S)-ի համար։

PAC-Bayesian-generalization-bounds-seminar-1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

PAC-Bayesian-generalization-bounds-seminar-1