SlideShare a Scribd company logo
Պակ-Բայեսյան ընդհանրացման
գնահատականներ
Հանդիպում 4՝ Պակ-Բայեսյան գնահատականներ նեյրոնային
ցանցերի դեպքում
Հրայր Հարությունյան
Դեկտեմբերի 8, 2021
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 1 / 19
Սեմինարների մասին
Կանենք 5-6 սեմինար։
Չորեքշաբթի օրերին, երեկոյան ժամը 7-ին։
Ցանկացած պահի կարող եք հարց տալ կամ դիտողություն
անել:
Սեմինարները կտեսագրվեն, վիդեոները և սլայդները
կտեղադրենք mlevn.org-ում։
Հայտարարությունները կանենք ML reading group Yerevan
խմբում՝ https://groups.google.com/g/ml-reading-group-yerevan
Տերմինների հայերեն թարգմանության մասին
քննարկումները այստեղ՝ https://ml-hye.talkyard.net :
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 2 / 19
Նախորդ սեմինարին…
Վերհիշեցինք Կատոնիի գնահատականը, որ կամայական λ > 0 և
δ ∈ (0, 1) համար
PS

∀ρ ∈ P(Θ), Eθ∼ρ[R(θ)] ≤ Eθ∼ρ[r(θ)] +
λ
8n
+
KL(ρ||π) + log 1
δ
λ

≥ 1 − δ :
Այնուհետև քննարկեցինք հետևյալ հարցերը՝
Ինչպե՞ս ընտրել լյամբդան,
Ինչպե՞ս ստանալ միջինացված կանխատեսիչի ռիսկի
գնահատական,
Ինչպե՞ս ստանալ հետին բաշխման նմուշի ռիսկի
գնահատական,
Եվ թե ինչպես կարող են Պակ-Բայեսյան գնահատականները
օգնել մոդելների ընտրության հացրում։
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 3 / 19
Այսօր
Կտեսնենք թե ինչպես կարող ենք ստանալ իմաստալից
Պակ-Բայեսյան գնահատականներ նեյրոնային ցանցերի
դեպքում։
• Հիպոթեզների վերջավոր դասի դեպք։
• Ուսուցման արդյունքում պարամետրերի սկզբնակետից
շեղվելու չափը որպես ընդհանրացման ցուցիչ։
• Ձյուգեյթի և Ռոյի հոդվածը1
։
1G. K. Dziugaite and D. M. Roy. Computing nonvacuous generalization bounds for
deep (stochastic) neural networks with many more parameters than training data.
UAI 2017.
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 4 / 19
MNIST տվյալների բազմություն
60,000 հատ 28x28 չափսի նկար, որոնցից յուրաքանչյուրում
մեկ ձեռագիր թվանշան է պատկերված։
Յուրաքանչյուր նկար ունի պիտակ, որը պատկերված
թվանշանն է։
Ուսուցման բազմությունը պարունակում է 50,000 նկար։
Այս դեպքում X = [0, 1]28x28
, իսկ Y = {0, 1, . . . , 9}:
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 5 / 19
Նեյրոնային ցանցեր
L հատ շերտից բաղկացած նեյրոնային ցանց՝
fθ(x) = σL (WLσL−1 (· · · σ1 (W1x + b1) · · · ) + bL) ,
որտեղ σ1, . . . , σL-ը element-wise ֆունցիաներ են (ակտիվացիայի
ֆունկցիա) և θ = (W1, b1, W2, b2, . . . , WL, bL):
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 6 / 19
Նեյրոնային ցանցեր
L հատ շերտից բաղկացած նեյրոնային ցանց՝
fθ(x) = σL (WLσL−1 (· · · σ1 (W1x + b1) · · · ) + bL) ,
որտեղ σ1, . . . , σL-ը element-wise ֆունցիաներ են (ակտիվացիայի
ֆունկցիա) և θ = (W1, b1, W2, b2, . . . , WL, bL):
MNIST-ի համար օրինակ. L = 2, x ∈ R784
,
W1 ∈ R600x784
, b1 ∈ R600
, σ1(z) = max(z, 0),
W2 ∈ R10x600
, b1 ∈ R10
, σ2(z) = z.
fθ(x) = W2 max(W1x + b1, 0) + b2 ∈ R10
:
Տրված θ-ի համար կարող ենք կառուցել հետևյալ
կանխատեսիչը՝
hθ(x) = argmax
c∈{0,1...,9}
fθ(x)c+1 :
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 6 / 19
Նեյրոնային ցանցերի վերջավոր բազմություն
Նախորդ օրինակի դեպքում դիտարկենք հետևյալ բազմությունը՝
H = {hθ : X → Y | θ ∈ Rp
} ,
որտեղ p-ն պարամետրերի քանակն է (մոտավորապես 477,000):
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
Նեյրոնային ցանցերի վերջավոր բազմություն
Նախորդ օրինակի դեպքում դիտարկենք հետևյալ բազմությունը՝
H = {hθ : X → Y | θ ∈ Rp
} ,
որտեղ p-ն պարամետրերի քանակն է (մոտավորապես 477,000):
 Գործնականում կարող ենք դիտարկել միայն այն θ
վեկտորները, որոնց յուրաքանչյուր կոմպոնենտ կարող ենք
ներկայացնել համակարգչում օգտագործելով առավելագույնը 32
բիթ։ Այս ենթաբազմությունը կունենա 32p
տարր։
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
Նեյրոնային ցանցերի վերջավոր բազմություն
 Գործնականում կարող ենք դիտարկել միայն այն θ
վեկտորները, որոնց յուրաքանչյուր կոմպոնենտ կարող ենք
ներկայացնել համակարգչում օգտագործելով առավելագույնը 32
բիթ։ Այս ենթաբազմությունը կունենա 32p
տարր։
Վերցնենք կամայական ĥ ուսուցման ալգորիթմ, 0-1 կորստի
ֆունկցիան և կիրառենք հիպոթեզների վերջավոր դասերի
համար ստացած ռիսկի գնահատականը՝
P R(ĥ) ≥ r(ĥ) +
s
1
2n
log

|H|
δ
!
≤ δ : (1)
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
Նեյրոնային ցանցերի վերջավոր բազմություն
 Գործնականում կարող ենք դիտարկել միայն այն θ
վեկտորները, որոնց յուրաքանչյուր կոմպոնենտ կարող ենք
ներկայացնել համակարգչում օգտագործելով առավելագույնը 32
բիթ։ Այս ենթաբազմությունը կունենա 32p
տարր։
Վերցնենք կամայական ĥ ուսուցման ալգորիթմ, 0-1 կորստի
ֆունկցիան և կիրառենք հիպոթեզների վերջավոր դասերի
համար ստացած ռիսկի գնահատականը՝
P R(ĥ) ≥ r(ĥ) +
s
1
2n
log

32p
δ
!
≤ δ : (1)
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
Նեյրոնային ցանցերի վերջավոր բազմություն
 Գործնականում կարող ենք դիտարկել միայն այն θ
վեկտորները, որոնց յուրաքանչյուր կոմպոնենտ կարող ենք
ներկայացնել համակարգչում օգտագործելով առավելագույնը 32
բիթ։ Այս ենթաբազմությունը կունենա 32p
տարր։
Վերցնենք կամայական ĥ ուսուցման ալգորիթմ, 0-1 կորստի
ֆունկցիան և կիրառենք հիպոթեզների վերջավոր դասերի
համար ստացած ռիսկի գնահատականը՝
P





R(ĥ) ≥ r(ĥ) +
s
p log(32)
2n
+
1
2n
log

1
δ

| {z }
ϵ





≤ δ : (1)
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
Նեյրոնային ցանցերի վերջավոր բազմություն
Վերցնենք կամայական ĥ ուսուցման ալգորիթմ, 0-1 կորստի
ֆունկցիան և կիրառենք հիպոթեզների վերջավոր դասերի
համար ստացած ռիսկի գնահատականը՝
P





R(ĥ) ≥ r(ĥ) +
s
p log(32)
2n
+
1
2n
log

1
δ

| {z }
ϵ





≤ δ : (1)
Եթե ĥ-ը իրականացնենք ստոխաստիկ գրադիենտային
անկումով և վերցնենք δ = 0.01, ապա կունենանք որ
r(ĥ) ≈ 0.001, R(ĥ) ≈ 0.018, ϵ ≈ 4.06 :
Ստացված գնահատականը կլինի իմաստալից միայն այն
դեպքերում երբ p ≪ n.
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
Պակ-Բայեսյան մոտեցում
Դիցուք ունենք ինչ-որ գրադիենտային անկման ալգորիթմ
θ̂(S)։ Դիտարկենք հետևյալ հետին բաշխումը՝
ρ̂(S) = N(θ̂(S), σ2
Ip)։ Մեր նպատակն է ստանալ Eθ∼ρ̂ [R(θ)] միջին
ռիսկի արդյունավետ գնահատական։
▶ Բնականաբար կուզենք որ σ-ն լինի փոքր, որպեսզի Eθ∼ρ̂ [R(θ)]-ը
հնարավորինս մոտիկ լինի R(θ̂)-ին:
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
Պակ-Բայեսյան մոտեցում
Դիցուք ունենք ինչ-որ գրադիենտային անկման ալգորիթմ
θ̂(S)։ Դիտարկենք հետևյալ հետին բաշխումը՝
ρ̂(S) = N(θ̂(S), σ2
Ip)։ Մեր նպատակն է ստանալ Eθ∼ρ̂ [R(θ)] միջին
ռիսկի արդյունավետ գնահատական։
▶ Բնականաբար կուզենք որ σ-ն լինի փոքր, որպեսզի Eθ∼ρ̂ [R(θ)]-ը
հնարավորինս մոտիկ լինի R(θ̂)-ին:
Վերցնենք նախնական բաշխումը հետևյալ կերպ՝
π = N(θ0, σ2
Ip), որտեղ θ0-ն պարամետրերի սկզբնական
արժեքն է։
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
Պակ-Բայեսյան մոտեցում
Դիցուք ունենք ինչ-որ գրադիենտային անկման ալգորիթմ
θ̂(S)։ Դիտարկենք հետևյալ հետին բաշխումը՝
ρ̂(S) = N(θ̂(S), σ2
Ip)։ Մեր նպատակն է ստանալ Eθ∼ρ̂ [R(θ)] միջին
ռիսկի արդյունավետ գնահատական։
▶ Բնականաբար կուզենք որ σ-ն լինի փոքր, որպեսզի Eθ∼ρ̂ [R(θ)]-ը
հնարավորինս մոտիկ լինի R(θ̂)-ին:
Վերցնենք նախնական բաշխումը հետևյալ կերպ՝
π = N(θ0, σ2
Ip), որտեղ θ0-ն պարամետրերի սկզբնական
արժեքն է։
Այժմ կիրառենք Կատոնիի գնահատականը՝
PS

Eθ∼ρ̂[R(θ)] ≤ Eθ∼ρ̂[r(θ)] +
λ
8n
+
KL(ρ̂||π) + log 1
δ
λ

≥ 1 − δ :
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
Պակ-Բայեսյան մոտեցում
Վերցնենք նախնական բաշխումը հետևյալ կերպ՝
π = N(θ0, σ2
Ip), որտեղ θ0-ն պարամետրերի սկզբնական
արժեքն է։
Այժմ կիրառենք Կատոնիի գնահատականը՝
PS

Eθ∼ρ̂[R(θ)] ≤ Eθ∼ρ̂[r(θ)] +
λ
8n
+
KL(ρ̂||π) + log 1
δ
λ

≥ 1 − δ :
Ունենք որ KL(ρ̂||π) =



θ̂ − θ0



2
/(2σ2
): Հետևաբար՝
PS

Eθ∼ρ̂[R(θ)] ≤ Eθ∼ρ̂[r(θ)] +
λ
8n
+



θ̂ − θ0



2
/(2σ2
) + log 1
δ
λ
| {z }
ϵ

≥ 1 − δ :
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
Պակ-Բայեսյան մոտեցում
Ունենք որ KL(ρ̂||π) =



θ̂ − θ0



2
/(2σ2
): Հետևաբար՝
PS

Eθ∼ρ̂[R(θ)] ≤ Eθ∼ρ̂[r(θ)] +
λ
8n
+



θ̂ − θ0



2
/(2σ2
) + log 1
δ
λ
| {z }
ϵ

≥ 1 − δ :
Կրկին վերցնենք δ = 0.01։ Անգամ, եթե լյամբդան ընտրենք
տվյալներից կախված, կստանանք հետևյալ պատկերը՝
σ Eθ∼ρ̂[r(θ)] ϵ
0.0001 0.004 ± 0.000 1172.378
0.001 0.004 ± 0.000 117.238
0.01 0.004 ± 0.000 11.724
0.1 0.160 ± 0.032 1.172
1 0.907 ± 0.014 0.117
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
Պակ-Բայեսյան մոտեցում
Կրկին վերցնենք δ = 0.01։ Անգամ, եթե լյամբդան ընտրենք
տվյալներից կախված, կստանանք հետևյալ պատկերը՝
σ Eθ∼ρ̂[r(θ)] ϵ
0.0001 0.004 ± 0.000 1172.378
0.001 0.004 ± 0.000 117.238
0.01 0.004 ± 0.000 11.724
0.1 0.160 ± 0.032 1.172
1 0.907 ± 0.014 0.117
Ինչպե՞ս լավացնել ադյունքները:
▶ Ընտրել տարբեր σ-ներ տարբեր θi-երի համար։2
2J. Langford and R. Caruana. (Not) Bounding the True Error. NIPS 2002.
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
Ձյուգեյթի և Ռոյի աշխատանքը
Իմաստալից Պակ-Բայեսյան գնահատականներ ստոխաստիկ
նեյրոնային ցանցերի համար, որոնք ունեն տվյալների քանակից
շատ պարամետրեր
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 9 / 19
Լանգֆորդի և Սիգերի3
Պակ-Բայեսյան
գնահատականը
Թեորեմ (Լանգֆորդ և Սիգեր)
Կամայական π ∈ P(Θ) նախնական բաշխման և δ ∈ (0, 1) թվի
համար, 0-1 կորստի ֆունկցիայի դեպքում
PS ∀ρ ∈ P(Θ), KL (Eθ∼ρ[r(θ)]∥Eθ∼ρ[R(θ)]) ≤
KL(ρ||π) + log 2n
δ

n − 1
!
≥ 1 − δ,
որտեղ p, q ∈ [0, 1] թվերի համար
KL (p∥q) ≜ KL (Ber(p)∥Ber(q)) = p log
q
p
+ (1 − p) log
1 − q
1 − p
:
3J. Langford and M. Seeger. Bounds for Averaging Classifiers. Tech. rep.
CMU-CS-01-102. Carnegie Mellon University, 2001.
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 10 / 19
KL (p∥q)-ից անցում q-ի վերին
գնահատականի
Լանգֆորդի և Սիգերի գնահատականում ստանում ենք որ
KL (p∥q) ≤ c տեսքի անհավասարություն։ Սրանից մեզ
անհրաժեշտ է ստանալ q-ի վերին գնահատական։ Սահմանենք՝
KL−1
(p||c) ≜ sup {q ∈ [0, 1] : KL (p∥q) ≤ c} : (2)
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 11 / 19
KL (p∥q)-ից անցում q-ի վերին
գնահատականի
Լանգֆորդի և Սիգերի գնահատականում ստանում ենք որ
KL (p∥q) ≤ c տեսքի անհավասարություն։ Սրանից մեզ
անհրաժեշտ է ստանալ q-ի վերին գնահատական։ Սահմանենք՝
KL−1
(p||c) ≜ sup {q ∈ [0, 1] : KL (p∥q) ≤ c} : (2)
Հետևաբար, Լանգֆոդի և Սիգերի գնահատականը կարելի էր
գրել նաև այսպես՝
Eθ∼ρ[R(θ)] ≤ KL−1
Eθ∼ρ[r(θ)]
KL(ρ||π) + log 2n
δ

n − 1
!
: (3)
Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 11 / 19
Գնահատականի մինիմիզացում
1 Ընտրել δ  0 թիվ և π նախնական բաշխում:
2 Տրված S ընտրանքի համար գտնել այն ρ բաշխումը որը
մինիմիզացնում է Պակ-Բայեսյան գնահատականը՝
ρ∗
(S) = argmin
ρ∈P(Θ)
KL−1
Eθ∼ρ[r(θ)]

More Related Content

Featured

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
 

Featured (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

PAC-Bayesian-generalization-bounds-seminar-4

  • 1. Պակ-Բայեսյան ընդհանրացման գնահատականներ Հանդիպում 4՝ Պակ-Բայեսյան գնահատականներ նեյրոնային ցանցերի դեպքում Հրայր Հարությունյան Դեկտեմբերի 8, 2021 Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 1 / 19
  • 2. Սեմինարների մասին Կանենք 5-6 սեմինար։ Չորեքշաբթի օրերին, երեկոյան ժամը 7-ին։ Ցանկացած պահի կարող եք հարց տալ կամ դիտողություն անել: Սեմինարները կտեսագրվեն, վիդեոները և սլայդները կտեղադրենք mlevn.org-ում։ Հայտարարությունները կանենք ML reading group Yerevan խմբում՝ https://groups.google.com/g/ml-reading-group-yerevan Տերմինների հայերեն թարգմանության մասին քննարկումները այստեղ՝ https://ml-hye.talkyard.net : Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 2 / 19
  • 3. Նախորդ սեմինարին… Վերհիշեցինք Կատոնիի գնահատականը, որ կամայական λ > 0 և δ ∈ (0, 1) համար PS ∀ρ ∈ P(Θ), Eθ∼ρ[R(θ)] ≤ Eθ∼ρ[r(θ)] + λ 8n + KL(ρ||π) + log 1 δ λ ≥ 1 − δ : Այնուհետև քննարկեցինք հետևյալ հարցերը՝ Ինչպե՞ս ընտրել լյամբդան, Ինչպե՞ս ստանալ միջինացված կանխատեսիչի ռիսկի գնահատական, Ինչպե՞ս ստանալ հետին բաշխման նմուշի ռիսկի գնահատական, Եվ թե ինչպես կարող են Պակ-Բայեսյան գնահատականները օգնել մոդելների ընտրության հացրում։ Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 3 / 19
  • 4. Այսօր Կտեսնենք թե ինչպես կարող ենք ստանալ իմաստալից Պակ-Բայեսյան գնահատականներ նեյրոնային ցանցերի դեպքում։ • Հիպոթեզների վերջավոր դասի դեպք։ • Ուսուցման արդյունքում պարամետրերի սկզբնակետից շեղվելու չափը որպես ընդհանրացման ցուցիչ։ • Ձյուգեյթի և Ռոյի հոդվածը1 ։ 1G. K. Dziugaite and D. M. Roy. Computing nonvacuous generalization bounds for deep (stochastic) neural networks with many more parameters than training data. UAI 2017. Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 4 / 19
  • 5. MNIST տվյալների բազմություն 60,000 հատ 28x28 չափսի նկար, որոնցից յուրաքանչյուրում մեկ ձեռագիր թվանշան է պատկերված։ Յուրաքանչյուր նկար ունի պիտակ, որը պատկերված թվանշանն է։ Ուսուցման բազմությունը պարունակում է 50,000 նկար։ Այս դեպքում X = [0, 1]28x28 , իսկ Y = {0, 1, . . . , 9}: Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 5 / 19
  • 6. Նեյրոնային ցանցեր L հատ շերտից բաղկացած նեյրոնային ցանց՝ fθ(x) = σL (WLσL−1 (· · · σ1 (W1x + b1) · · · ) + bL) , որտեղ σ1, . . . , σL-ը element-wise ֆունցիաներ են (ակտիվացիայի ֆունկցիա) և θ = (W1, b1, W2, b2, . . . , WL, bL): Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 6 / 19
  • 7. Նեյրոնային ցանցեր L հատ շերտից բաղկացած նեյրոնային ցանց՝ fθ(x) = σL (WLσL−1 (· · · σ1 (W1x + b1) · · · ) + bL) , որտեղ σ1, . . . , σL-ը element-wise ֆունցիաներ են (ակտիվացիայի ֆունկցիա) և θ = (W1, b1, W2, b2, . . . , WL, bL): MNIST-ի համար օրինակ. L = 2, x ∈ R784 , W1 ∈ R600x784 , b1 ∈ R600 , σ1(z) = max(z, 0), W2 ∈ R10x600 , b1 ∈ R10 , σ2(z) = z. fθ(x) = W2 max(W1x + b1, 0) + b2 ∈ R10 : Տրված θ-ի համար կարող ենք կառուցել հետևյալ կանխատեսիչը՝ hθ(x) = argmax c∈{0,1...,9} fθ(x)c+1 : Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 6 / 19
  • 8. Նեյրոնային ցանցերի վերջավոր բազմություն Նախորդ օրինակի դեպքում դիտարկենք հետևյալ բազմությունը՝ H = {hθ : X → Y | θ ∈ Rp } , որտեղ p-ն պարամետրերի քանակն է (մոտավորապես 477,000): Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
  • 9. Նեյրոնային ցանցերի վերջավոր բազմություն Նախորդ օրինակի դեպքում դիտարկենք հետևյալ բազմությունը՝ H = {hθ : X → Y | θ ∈ Rp } , որտեղ p-ն պարամետրերի քանակն է (մոտավորապես 477,000):  Գործնականում կարող ենք դիտարկել միայն այն θ վեկտորները, որոնց յուրաքանչյուր կոմպոնենտ կարող ենք ներկայացնել համակարգչում օգտագործելով առավելագույնը 32 բիթ։ Այս ենթաբազմությունը կունենա 32p տարր։ Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
  • 10. Նեյրոնային ցանցերի վերջավոր բազմություն  Գործնականում կարող ենք դիտարկել միայն այն θ վեկտորները, որոնց յուրաքանչյուր կոմպոնենտ կարող ենք ներկայացնել համակարգչում օգտագործելով առավելագույնը 32 բիթ։ Այս ենթաբազմությունը կունենա 32p տարր։ Վերցնենք կամայական ĥ ուսուցման ալգորիթմ, 0-1 կորստի ֆունկցիան և կիրառենք հիպոթեզների վերջավոր դասերի համար ստացած ռիսկի գնահատականը՝ P R(ĥ) ≥ r(ĥ) + s 1 2n log |H| δ ! ≤ δ : (1) Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
  • 11. Նեյրոնային ցանցերի վերջավոր բազմություն  Գործնականում կարող ենք դիտարկել միայն այն θ վեկտորները, որոնց յուրաքանչյուր կոմպոնենտ կարող ենք ներկայացնել համակարգչում օգտագործելով առավելագույնը 32 բիթ։ Այս ենթաբազմությունը կունենա 32p տարր։ Վերցնենք կամայական ĥ ուսուցման ալգորիթմ, 0-1 կորստի ֆունկցիան և կիրառենք հիպոթեզների վերջավոր դասերի համար ստացած ռիսկի գնահատականը՝ P R(ĥ) ≥ r(ĥ) + s 1 2n log 32p δ ! ≤ δ : (1) Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
  • 12. Նեյրոնային ցանցերի վերջավոր բազմություն  Գործնականում կարող ենք դիտարկել միայն այն θ վեկտորները, որոնց յուրաքանչյուր կոմպոնենտ կարող ենք ներկայացնել համակարգչում օգտագործելով առավելագույնը 32 բիթ։ Այս ենթաբազմությունը կունենա 32p տարր։ Վերցնենք կամայական ĥ ուսուցման ալգորիթմ, 0-1 կորստի ֆունկցիան և կիրառենք հիպոթեզների վերջավոր դասերի համար ստացած ռիսկի գնահատականը՝ P      R(ĥ) ≥ r(ĥ) + s p log(32) 2n + 1 2n log 1 δ | {z } ϵ      ≤ δ : (1) Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
  • 13. Նեյրոնային ցանցերի վերջավոր բազմություն Վերցնենք կամայական ĥ ուսուցման ալգորիթմ, 0-1 կորստի ֆունկցիան և կիրառենք հիպոթեզների վերջավոր դասերի համար ստացած ռիսկի գնահատականը՝ P      R(ĥ) ≥ r(ĥ) + s p log(32) 2n + 1 2n log 1 δ | {z } ϵ      ≤ δ : (1) Եթե ĥ-ը իրականացնենք ստոխաստիկ գրադիենտային անկումով և վերցնենք δ = 0.01, ապա կունենանք որ r(ĥ) ≈ 0.001, R(ĥ) ≈ 0.018, ϵ ≈ 4.06 : Ստացված գնահատականը կլինի իմաստալից միայն այն դեպքերում երբ p ≪ n. Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 7 / 19
  • 14. Պակ-Բայեսյան մոտեցում Դիցուք ունենք ինչ-որ գրադիենտային անկման ալգորիթմ θ̂(S)։ Դիտարկենք հետևյալ հետին բաշխումը՝ ρ̂(S) = N(θ̂(S), σ2 Ip)։ Մեր նպատակն է ստանալ Eθ∼ρ̂ [R(θ)] միջին ռիսկի արդյունավետ գնահատական։ ▶ Բնականաբար կուզենք որ σ-ն լինի փոքր, որպեսզի Eθ∼ρ̂ [R(θ)]-ը հնարավորինս մոտիկ լինի R(θ̂)-ին: Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
  • 15. Պակ-Բայեսյան մոտեցում Դիցուք ունենք ինչ-որ գրադիենտային անկման ալգորիթմ θ̂(S)։ Դիտարկենք հետևյալ հետին բաշխումը՝ ρ̂(S) = N(θ̂(S), σ2 Ip)։ Մեր նպատակն է ստանալ Eθ∼ρ̂ [R(θ)] միջին ռիսկի արդյունավետ գնահատական։ ▶ Բնականաբար կուզենք որ σ-ն լինի փոքր, որպեսզի Eθ∼ρ̂ [R(θ)]-ը հնարավորինս մոտիկ լինի R(θ̂)-ին: Վերցնենք նախնական բաշխումը հետևյալ կերպ՝ π = N(θ0, σ2 Ip), որտեղ θ0-ն պարամետրերի սկզբնական արժեքն է։ Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
  • 16. Պակ-Բայեսյան մոտեցում Դիցուք ունենք ինչ-որ գրադիենտային անկման ալգորիթմ θ̂(S)։ Դիտարկենք հետևյալ հետին բաշխումը՝ ρ̂(S) = N(θ̂(S), σ2 Ip)։ Մեր նպատակն է ստանալ Eθ∼ρ̂ [R(θ)] միջին ռիսկի արդյունավետ գնահատական։ ▶ Բնականաբար կուզենք որ σ-ն լինի փոքր, որպեսզի Eθ∼ρ̂ [R(θ)]-ը հնարավորինս մոտիկ լինի R(θ̂)-ին: Վերցնենք նախնական բաշխումը հետևյալ կերպ՝ π = N(θ0, σ2 Ip), որտեղ θ0-ն պարամետրերի սկզբնական արժեքն է։ Այժմ կիրառենք Կատոնիի գնահատականը՝ PS Eθ∼ρ̂[R(θ)] ≤ Eθ∼ρ̂[r(θ)] + λ 8n + KL(ρ̂||π) + log 1 δ λ ≥ 1 − δ : Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
  • 17. Պակ-Բայեսյան մոտեցում Վերցնենք նախնական բաշխումը հետևյալ կերպ՝ π = N(θ0, σ2 Ip), որտեղ θ0-ն պարամետրերի սկզբնական արժեքն է։ Այժմ կիրառենք Կատոնիի գնահատականը՝ PS Eθ∼ρ̂[R(θ)] ≤ Eθ∼ρ̂[r(θ)] + λ 8n + KL(ρ̂||π) + log 1 δ λ ≥ 1 − δ : Ունենք որ KL(ρ̂||π) = θ̂ − θ0 2 /(2σ2 ): Հետևաբար՝ PS Eθ∼ρ̂[R(θ)] ≤ Eθ∼ρ̂[r(θ)] + λ 8n + θ̂ − θ0 2 /(2σ2 ) + log 1 δ λ | {z } ϵ ≥ 1 − δ : Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
  • 18. Պակ-Բայեսյան մոտեցում Ունենք որ KL(ρ̂||π) = θ̂ − θ0 2 /(2σ2 ): Հետևաբար՝ PS Eθ∼ρ̂[R(θ)] ≤ Eθ∼ρ̂[r(θ)] + λ 8n + θ̂ − θ0 2 /(2σ2 ) + log 1 δ λ | {z } ϵ ≥ 1 − δ : Կրկին վերցնենք δ = 0.01։ Անգամ, եթե լյամբդան ընտրենք տվյալներից կախված, կստանանք հետևյալ պատկերը՝ σ Eθ∼ρ̂[r(θ)] ϵ 0.0001 0.004 ± 0.000 1172.378 0.001 0.004 ± 0.000 117.238 0.01 0.004 ± 0.000 11.724 0.1 0.160 ± 0.032 1.172 1 0.907 ± 0.014 0.117 Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
  • 19. Պակ-Բայեսյան մոտեցում Կրկին վերցնենք δ = 0.01։ Անգամ, եթե լյամբդան ընտրենք տվյալներից կախված, կստանանք հետևյալ պատկերը՝ σ Eθ∼ρ̂[r(θ)] ϵ 0.0001 0.004 ± 0.000 1172.378 0.001 0.004 ± 0.000 117.238 0.01 0.004 ± 0.000 11.724 0.1 0.160 ± 0.032 1.172 1 0.907 ± 0.014 0.117 Ինչպե՞ս լավացնել ադյունքները: ▶ Ընտրել տարբեր σ-ներ տարբեր θi-երի համար։2 2J. Langford and R. Caruana. (Not) Bounding the True Error. NIPS 2002. Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 8 / 19
  • 20. Ձյուգեյթի և Ռոյի աշխատանքը Իմաստալից Պակ-Բայեսյան գնահատականներ ստոխաստիկ նեյրոնային ցանցերի համար, որոնք ունեն տվյալների քանակից շատ պարամետրեր Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 9 / 19
  • 21. Լանգֆորդի և Սիգերի3 Պակ-Բայեսյան գնահատականը Թեորեմ (Լանգֆորդ և Սիգեր) Կամայական π ∈ P(Θ) նախնական բաշխման և δ ∈ (0, 1) թվի համար, 0-1 կորստի ֆունկցիայի դեպքում PS ∀ρ ∈ P(Θ), KL (Eθ∼ρ[r(θ)]∥Eθ∼ρ[R(θ)]) ≤ KL(ρ||π) + log 2n δ n − 1 ! ≥ 1 − δ, որտեղ p, q ∈ [0, 1] թվերի համար KL (p∥q) ≜ KL (Ber(p)∥Ber(q)) = p log q p + (1 − p) log 1 − q 1 − p : 3J. Langford and M. Seeger. Bounds for Averaging Classifiers. Tech. rep. CMU-CS-01-102. Carnegie Mellon University, 2001. Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 10 / 19
  • 22. KL (p∥q)-ից անցում q-ի վերին գնահատականի Լանգֆորդի և Սիգերի գնահատականում ստանում ենք որ KL (p∥q) ≤ c տեսքի անհավասարություն։ Սրանից մեզ անհրաժեշտ է ստանալ q-ի վերին գնահատական։ Սահմանենք՝ KL−1 (p||c) ≜ sup {q ∈ [0, 1] : KL (p∥q) ≤ c} : (2) Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 11 / 19
  • 23. KL (p∥q)-ից անցում q-ի վերին գնահատականի Լանգֆորդի և Սիգերի գնահատականում ստանում ենք որ KL (p∥q) ≤ c տեսքի անհավասարություն։ Սրանից մեզ անհրաժեշտ է ստանալ q-ի վերին գնահատական։ Սահմանենք՝ KL−1 (p||c) ≜ sup {q ∈ [0, 1] : KL (p∥q) ≤ c} : (2) Հետևաբար, Լանգֆոդի և Սիգերի գնահատականը կարելի էր գրել նաև այսպես՝ Eθ∼ρ[R(θ)] ≤ KL−1 Eθ∼ρ[r(θ)]
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29. KL(ρ||π) + log 2n δ n − 1 ! : (3) Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 11 / 19
  • 30. Գնահատականի մինիմիզացում 1 Ընտրել δ 0 թիվ և π նախնական բաշխում: 2 Տրված S ընտրանքի համար գտնել այն ρ բաշխումը որը մինիմիզացնում է Պակ-Բայեսյան գնահատականը՝ ρ∗ (S) = argmin ρ∈P(Θ) KL−1 Eθ∼ρ[r(θ)]
  • 31.
  • 32.
  • 33.
  • 34.
  • 35.
  • 36. KL(ρ||π) + log 2n δ n − 1 ! : Նկատողություն. Կատոնիի գնահատակի դեպքում օպտիմալ բաշխումը Գիբբսի բաշխումն էր, որի տեսքը գիտեինք։ Այս դեպքում ρ∗ (S)-ի տեսքը չգիտենք։ Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 12 / 19
  • 37. Ձյուգեյթի և Ռոյի հոդվածի հիմնական իդեաները Գնահատականի մինիմիզացիան կատարվում է ոչ թե ըստ բոլոր բաշխումների, այլ ըստ բոլոր բազմաչափ Գաուսյան բաշխումների, որոնք ունեն անկյունագծային կովարիացիոն մատրից։ Որպեսզի KL (ρ∥π)-ն անալիտիկ տեսք ունենա, π-ն նույնպես վերցնում են բազմաչափ Գաուսյան բաշխում անկյունագծային կովարիացիոն մատրիցով։ Գնահատականը մինիմիզացնելու համար օգտագործում են ստոխաստիկ գրադիենտային անկում։ Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 13 / 19
  • 38. Նախնական բաշխման մասին Նախնական բաշխումը ընտրվում է հետևյալ կերպ՝ π = N(θ0, λIp), որտեղ λ 0 : λ-ի ճիշտ ընտրության համար նախoրոք ընտրվում է լյամբդաների հետևյալ հաշվելի անվերջ բազմությունը՝ Λ = {c exp(−j/b) : j ∈ N} , որտեղ b-ն և c-ն ֆիքսված թվեր են : Երբ յուրաքանչյուր λj-ի համար գրում ենք Պակ-Բայեսյան գնահատականը 6δ π2j2 սխալվելու հավանականությամբ և օգտագործում պատահույթների միավորման անհավասարությունը (union bound) ըստ j-ի, ստանում ենք Պակ-Բայեսյան գնահատական δ սխալվելու հավանականությամբ, որը տեղի ունի միանգամից բոլոր λ ∈ Λ թվերի համար։ Գնահատականի օպտիմիզացիայի ընթացքում փնտրվում է լավագույն λ̃ ∈ R թիվը (j̃ = b log c λ̃ ), որը վերջում դիստկրետիզացվում է, այնպես որ լինի Λ-ից։ Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 14 / 19
  • 39. Հետին բաշխման մասին Հետին բաշխումը ընտրվում է հետևյալ բազմությունից՝ Nθ,s = N (θ, diag(s)) : θ ∈ Rp , s ∈ Rp + : Օպտիմիզացիան կատարվում է θ-ի և s-ի նկատմամբ միաժամանակ։ Սրանց ավելանում է նաև λ̃-ը՝ նախնական բաշխման պարամետրը։ Տրված հետին Nθ,s և նախնական N(θ0, λI) բաշխումների համար ϵ(θ, s, λ̃, δ) ≜ KL(Nθ,s||N(θ0, λI)) + log 2nπ2 j̃2 6δ n − 1 = 1 2(n − 1) 1 λ̃ ∥s∥1 − p + 1 λ̃ ∥θ − θ0∥ 2 2 + p log λ̃ − 1p · log s + 1 n − 1 log π2 n 3δ + 2 log b log c λ̃ : Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 15 / 19
  • 40. Օպտիմիզացիայի մասին Հասանք հետևյալ օպտիմիզացիայի խնդրին՝ minimize θ,s,λ̃ KL−1 (Eθ′∼Nθ,s [ r(θ′ ) ] ||ϵ(θ, s, λ̃, δ)) : Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 16 / 19
  • 41. Օպտիմիզացիայի մասին Հասանք հետևյալ օպտիմիզացիայի խնդրին՝ minimize θ,s,λ̃ KL−1 (Eθ′∼Nθ,s [ r(θ′ ) ] ||ϵ(θ, s, λ̃, δ)) : Պինկսեռի անհավասարությունից ունենք որ dTV(Ber(p), Ber(q)) ≤ √ 1 2 KL (Ber(p)∥Ber(q)) : Հետևաբար՝ |p − q| ≤ √ 1 2 KL (p∥q) : Քանի որ KL−1 (p||c) ≜ sup {q ∈ [0, 1] : KL (p∥q) ≤ c}, ապա KL−1 (p||c) ≤ sup { q ∈ [0, 1] : 2(p − q)2 ≤ c } ≤ p + √ c/2 : Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 16 / 19
  • 42. Օպտիմիզացիայի մասին Հասանք հետևյալ օպտիմիզացիայի խնդրին՝ minimize θ,s,λ̃ KL−1 (Eθ′∼Nθ,s [ r(θ′ ) ] ||ϵ(θ, s, λ̃, δ)) : Ունենալով որ KL−1 (p||c) ≤ p + √ c/2, անցնում են հետևյալ օպտիմիզացիայի խնդրին՝ minimize θ,s,λ̃ Eθ′∼Nθ,s [ r(θ′ ) ] + √ 1 2 ϵ(θ, s, λ̃, δ) : Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 16 / 19
  • 43. Օպտիմիզացիայի մասին Ունենալով որ KL−1 (p||c) ≤ p + √ c/2, անցնում են հետևյալ օպտիմիզացիայի խնդրին՝ minimize θ,s,λ̃ Eθ′∼Nθ,s [ r(θ′ ) ] + √ 1 2 ϵ(θ, s, λ̃, δ) : Վերևում Eθ′∼Nθ,s [r(θ′ )]-ը դիֆֆերենցելի չէ, քանի որ օգտագործված 0-1 կորստի ֆունկցիան դիֆֆերենցելի չէ։ ▶ Այս պատճառով դիտարկում են միայն բինար դասակարգման խնդիրներ՝ Y = {0, 1}, և փոխարինում ℓ0-1(y, ŷ) կորստի ֆունկցիան լոջիսթիկ կորստի ֆունկցիայով՝ ℓ̃(y, ŷ) = 1 log 2 log (1 + exp(−yŷ)) : ▶ Վերջինս ուռուցիկ ու դիֆֆերենցելի ֆունկցիա է, և ունենք որ ℓ0-1(y, ŷ) ≤ ℓ̃(y, ŷ) : Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 16 / 19
  • 44. Օպտիմիզացիայի մասին Այսպիսով հանգեցինք հետևյալ օպտիմիզացիայի խնդրին՝ minimize θ,s,λ̃ Eθ′∼Nθ,s [ r̃(θ′ ) ] + √ 1 2 ϵ(θ, s, λ̃, δ), որտեղ r̃-ը լոջիսթիկ կորստի ֆունկցիայով հաշված էմպիրիկ ռիսկն է։ Մնում է մաթսպասումը մոտարկել K հատ θ′ -ների ընտրանքով ստացված էմպիրիկ միջինով։ Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 16 / 19
  • 45. Հարթ մինիմումներ Ստացված ալգորիթմը կարելի է մեկնաբանել որպես հարթ լոկալ մինիմումներ որոնող ալգորիթմ։ ▶ Պակ-Բայեսյան գնահատականների շնորհիվ ստացանք կոնկրետ ուսուցման ալգորիթմ, որի համար կարող ենք ռիսկի հաջող գնահատականներ ստանալ։ Հարթ մինիմումների մասին4,5 Նմանատիկ ուսուցման ալգորիթմ՝ EntropySGD6 4S. Hochreiter and J. Schmidhuber. “Flat Minima”. Neural Comput. 9.1, pp. 1–42. 5G. E. Hinton and D. van Camp. “Keeping the Neural Networks Simple by Minimizing the Description Length of the Weights”. COLT ’93. 6P . Chaudhari, A. Choromanska, S. Soatto, Y. LeCun, C. Baldassi, C. Borgs, J. Chayes, L. Sagun, and R. Zecchina. “Entropy-SGD: Biasing Gradient Descent Into Wide Valleys”. ICLR 2017. Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 17 / 19
  • 46. Արդյունքներ Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 18 / 19
  • 47. Շնորհակալություն Հրայր Հարությունյան Պակ-Բայեսյան գնահատականներ Դեկտեմբերի 8, 2021 19 / 19