Wasserstein GAN 수학이해하기
임성빈
이슬라이드는Martin Arjovsky, Soumith Chintala, Léon Bottou 의
Wasserstein GAN 논문중Example 1 을해설하는자료입니다
참고사항
이자료는수학전공자를위해작성한자료가 아닙니다. 논문에기재된증
명의해설은이자료에없습니다
보다자세한설명을바라는분들을위해용어들을위키에링크시켰습니다
수학적인부분이더궁금하신분은아래메일로자유롭게 질문주세요!
e‑mail : sunnybenlim@gmail.com
1. 기호(Notation)
X : compact metric set
Metric 은위상수학(topology)에서에서나오는용어입니다. Distance 라고
도불리는데요. 다음성질들을만족하는거리함수d 가 존재하는걸 말합니다.
1. d(x, y) ≥ 0 : 거리함수니까 당연히0보다크거나같겠죠?
2. d(x, y) = 0 이면x = y 이다
3. 역으로x = y 이면d(x, y) = 0 이다
4. d(x, y) = d(y, x) : 대칭이다!
5. d(x, y) ≤ d(x, z) + d(z, y) : 삼각부등식이성립한다!
실수(R)나복소공간(C) 에서는절대값 ∣ ⋅ ∣이metric 입니다
d(x, y) = ∣x − y∣
유클리드공간(R ) 에선유클리드거리가 metric 입니다n
힐베르트공간(Hilbert space)( ) 에선내적(inner product) 으로metric
을정의합니다
d(u, v) = (u − v) ⋅ (u − v)
: 내적이정의된완비벡터공간(Complete vector space)
유클리드공간이대표적인힐베르트공간입니다
함수들의집합인L ‑공간 도대표적이죠
머신러닝에선Reproducing Kernel Hilbert Space 도많이쓰입니다
자세한부분은Wiki 를참조하세요
( )1/2
2
어떤공간에metric 개념이중요한이유는수렴(convergence) 이란개념을
정의내릴수있기 때문입니다
x   →  x ⇔ d(x , x) = 0
... 수학에선위상(topology)을유도하다(induce)는어려운표현을씁니다
n
n→∞
lim n
그런데...
한공간에정의내릴수있는metric 은한가지만있는게 아닙니다!
예를들어유클리드공간에서는유클리드거리말고 맨해튼거리같은다른
metric 으로거리를정의할수있습니다
함수공간에서는더욱다양하게 정의내릴수있습니다
L 거리
d (f, g) = ∥f − g∥ = ∣f(x) − g(x)∣dx
L 거리
d (f, g) = ∥f − g∥ = ∣f(x) − g(x)∣ dx
1
1 1 ∫
X
2
2 2 (∫
X
2
)
1/2
여러분의상상보다훨씬많습니다!
L 거리
d (f, g) = ∥f − g∥ = ∣f(x) − g(x)∣
W 거리(Sobolev norm)
∥f − g∥ = ∥∂ (f − g)∥
∞
∞ ∞
x∈X
sup
2
k
Wp
k
n=0
∑
k
x
n
2
f 과 f 의차이를제곱해서적분한값이0 으로수렴하게 만들수있으면
L ‑수렴한다고 합니다
∥f − f∥ = ∣f − f∣ dx → 0
n
2
n 2 (∫
a
b
n
2
)
1/2
f 이f 로모든x 에대해서ϵ 범위안에들어오면서수렴하게 만들수있으
면L ‑수렴또는균등수렴(uniformly converge)한다고 합니다
∥f − f∥ = ∣f(x) − f (x)∣ → 0
(전문가의딴지) 수렴안하는정의역의measure 가 0 이면됩니다
n
∞
n ∞
x∈[a,b]
sup n
f 과 f 의차이가 ϵ 보다큰영역이0으로수렴하면측도수렴(converge in
measure)한다고 합니다
ℓ = x : ∣f (x) − f(x)∣ > ϵ → 0
n
i
∑ i ∣{ n }∣
그래서...?
요컨데거리함수가 바뀌면수렴의방식이바뀔수있다는겁니다!
참고로각 수렴간에는비교가 가능합니다
d ‑수렴이d ‑수렴보다강하다(d is stronger than d )
d (x , x) → 0 ⟹ d (x , x) → 0
거꾸로성립하면약하다고 합니다(d is weaker than d )
둘다성립하면동등하다고 합니다(d and d are equivalent)
공간에따라차이가 있어서비교가 항상가능하진않습니다
그래서수학자가 필요합ㄴ... 읍읍
1 2 1 2
1 n 2 n
1 2
1 2
일례로유클리드와맨해튼거리는동등한관계입니다
d (x, y) → 0 ⟺ d (x, y) → 0
한줄증명:
n d (x, y) ≤ d (x, y) ≤ n d (x, y)
Euclid Manhattan
−1/2
Euclid Manhattan Euclid
하지만동등하지않은경우가 대부분입니다
수렴시킬대상이함수이거나확률분포인경우큰문제가 되죠
그래서어떤수렴인지정확하게 명시해야합니다
유한측도(finite measure) 를가진공간에선다음관계가 성립합니다. 하지
만역은성립하지않아동등한관계가 아닙니다
L ⇒ L ⇒  converge in measure
한줄증명:
∣{x : ∣f(x) − g(x)∣ > ϵ}∣ ≤ ∥f − g∥ ≤ ∥f − g∥
∞ 2
ϵ2
1
2
2
ϵ2
μ(X)
∞
2
참고로확률론에서다루는수렴은여러가지종류가 있습니다
균등수렴, 확률수렴, L ‑수렴, Weak‑* convergence ...
참고로WGAN 논문은분포수렴와동등한Wasserstein distance 를
다룹니다. 이metric 은확률분포들의공간 에서정의됩니다!
2
X : compact metric set
Definition.
A topological space X is called compact if each of its open covers
has a finite subcover.
(해석) : 위상공간 X 를덮는임의의열린덮개들이있을때, 그 중유한개의부
분덮개들을뽑아서X 를항상덮을수있으면compact 라부른다
참고로compact set 은수학을전공한학생들도가장헷갈려하는개념입니다. 머리가
아프다면잠깐 세수를하고 휴식을취하세요. 갈 길은머니... 그냥모르고 싶다면넘어가
도크게 상관은없어요. 아마도...?
도대체무슨말이냐고요?
저의미를보통Heine‑Borel 정리를이용해간접적으로설명합니다.
Heine‑Borel property.
If X is compact, then it is closed and bounded
Heine‑Borel 정리를통해해석하면X 가 compact 란건 경계가 있고
(bounded) 동시에경계를포함한다(closed) 는집합이란겁니다
수학에서정식용어는유계(bounded), 닫힌(closed) 입니다
경계?
경계가 있다? 경계를포함한다? 무슨말일까요?
경계가 있다(Bounded)
경계가 있다는건 무한대로뻗지않는다는걸 의미합니다. 집합안의아무점
에서나적당한거리안에X 의모든원소가 들어오면됩니다
참고로위그림에서N (x) 를x 의근방(Neighborhood)이라부릅니다δ
반면bounded 가 아닌집합을unbounded 라부르는데아무리큰거리를잡
아도X 의모든원소를포함할수없을때를말합니다.
다시말해compact 집합은이런일이일어나지않습니다
(데이터가 unbounded 라면컴퓨터로어떻게 표현할수있죠? )
경계를포함한다(Closed)
어떤집합의경계를포함한다는건 풀어서표현하면극한점(limit point)을모
두포함한다라고 설명합니다
즉경계를포함한다는건 아래x 같은극한점들이X 의원소라는겁니다∞
참고로경계는바깥 방향만말하는건 아닙니다
아래그림처럼x ∉ X 이면X 는경계를포함하지못한겁니다.∞
복잡해요...
정리하자면Compact 집합은두가지성질을만족해야합니다
경계가 있고!
경계를포함한다!
우리가 잘아는닫힌구간(closed interval)이나닫힌박스(closed box), 3차
원큐브(cube) 등compact 집합은다양한예가 있습니다.
경계를잘포함한다면사실어떤모양도가능합니다
저자들이compact 집합을가져온건 수학적인이유때문입니다
최대・ 최소의정리: 연속함수들이항상최대값, 최소값을가진다
모든확률변수X에대해조건부확률분포가 잘정의된다
완비공간(complete space)이다
... 증명은주변수학과 친구를붙잡고 물어봅시다
Σ : set of all the Borel subsets of X
Borel 집합은X 내에서측정가능(measurable) 한집합들을말합니다.
여기서측정가능의의미는P , P 같은확률분포로확률값이계산될수
있는집합을말합니다
연속함수의기대값을계산하기 위한수학적인최소조건 이됩니다
(전문가의딴지) X 위에정의된닫힌(closed) 집합들을포함하는가장작은σ‑대수를
Borel 대수라고 합니다. Borel 집합은이Borel 대수의원소입니다.
r g
사실눈으로관찰할수있는집합들은대게 측정가능한집합들이랍니다. 측정
불가능한(Non‑measurable) 집합들은컴퓨터로나타내는게 불가능해요
"If you can write it down, it's measurable!"
S.R.S. Varahdan, 2009년아벨상수상자
... 그러므로여러분도Borel set 이아닌것들은무시하도록합시다
Prob(X) denote the space of probability measures on X
확률측도(Probability measure) 란우리가 소위확률분포(Probability
distribution) 라불러온P 를말합니다
확률측도? 확률분포? 차이가 뭐죠?
두개의Definition 은다르지만실상같은용어입니다
확률측도P 는표본공간(sample space) Ω 위에정의된측도입니다
(Ω, P)
확률변수X 는ω 를X 상의원소x 로사상(mapping) 하는함수입니다
X : ω ↦ x ∈ X
확률분포는X 가 어떻게 mapping 되는지보여주는X 상의측도입니다
P(X (A)) = P(X ∈ A)−1
... 당최뭔소리인지모르겠으니예를들어보죠
동전던지기를해보겠습니다. 앞이나오는경우H, 뒤가 나오는경우엔T 라
하겠습니다.
Ω = {H, T}
이경우확률측도P 는Ω 위에서다음과 같이이항분포로정의됩니다
P(H) = p, P(T) = 1 − p
그리고 확률변수X 는H 와T 를각각 1 과 0 으로보내는걸로정의합니다
X(H) = 1, X(T) = 0
이때확률분포는다음과 같이X = {0, 1} 위에똑같이정의됩니다
P(X = 1) = p, P(X = 0) = 1 − p
고로확률측도는사실확률분포와전혀다르지않습니다
P(H) = P(X = 1), P(T) = P(X = 0)
확률분포를다른용어로X 의법(law of X) 이라고도부릅니다
단지확률값의측정을어떤공간에서하는지, 그리고 확률변수가 묵시적으로정의되어
있다는점에서차이가 있을뿐입니다. 앞으로는두용어를혼용해서쓰겠습니다.
우리가  seed 함수로샘플링을고정하는건 ω ∈ Ω 를하나뽑는것이고
 numpy.random 의특정분포로값을추출하는건 X(ω) 를뽑는것입니다
import numpy as np
np.random.seed(10) # w 를 고정
np.random.normal(mu,sigma) # X(w) 를 샘플링
헉헉... 이제네줄설명했네요. 그런데왜이리많이설명한것 같지...?
참고로논문을읽다보면inf 와sup 이라는용어들이튀어나오는데잠시설
명하겠습니다
inf A = max{lower bound of A}
Infimum 은the greatest lower bound 라고 부릅니다. 해석하자면하한
(lower bound) 중가장큰값(maximum) 입니다
sup A = min{upper bound of A}
Supremum 은the least upper bound 라고 부릅니다. 해석하자면상한
(upper bound)에서가장작은값(minimum) 입니다.
이개념들이필요한이유는모든집합이최소값 (혹은최대값)을가지지않지만
sup 과 inf 는항상존재하기 때문이죠
A = 1, , , …
inf A = 0, min A =?
{
2
1
3
1
}
... 뭐이런것까지머리아프게 정의했나싶지만수학전공자들이그래요...
아무튼이제필요한용어설명을끝냈으니본격적으로논문에서다루는네개
의distance 를설명하겠습니다
2. Different Distances
Total Variation (TV)
δ(P ,P ) = ∣P (A) −P (A)∣
Total Variation 은두확률측도의측정값이벌어질수있는값 중가장큰값
(또는앞에서설명한supremum) 을말합니다
r g
A∈Σ
sup r g
같은집합A 라하더라도두확률분포가 측정하는값은다를수있습니다. 이
때TV 는모든A ∈ Σ 에대해가장큰값을거리로정의한겁니다
δ(P ,P ) = ∣P (A) −P (A)∣r g
A∈Σ
sup r g
만약두확률분포의확률밀도함수가 서로겹치지않는다면, 다시말해확률분
포의support 의교집합이공집합이라면TV 는무조건 1입니다!
δ(P ,P ) = ∣0 − 1∣ = 1r g
그러므로Example 1 에서θ ≠ 0 인경우엔P 와P 는서로겹치지않은
확률분포이므로TV 가 1이되는것입니다
0 θ
Kullback‑Leibler & Jensen‑Shannon divergence
KL(P ∥P ) = log P (x)μ(dx)
JS(P ,P ) = KL P ∥ + KL P ∥
KL 과 JS 는워낙익숙한애들이죠?
r g ∫ (
P (x)g
P (x)r
) r
r g
2
1
( r
2
P +Pr g
)
2
1
( g
2
P +Pr g
)
그런데많이들헷갈려합니다만사실KL 은metric 은아닙니다. 대칭성과 삼
각부등식이깨지기 때문이지요.
1. d(x, y) ≥ 0
2. d(x, y) = 0 ⇔ x = y
3. d(x, y) ≠ d(y, x)
4. d(x, y) ≰ d(x, z) + d(z, y)
... 하지만Premetric 이라서괜찮은성질들을보유하고 있습니다!
그런데KL 은TV 보다strong 합니다!
KL(P ∥P) → 0  or  KL(P∥P ) → 0 ⇒ δ(P , P) → 0
심지어JS 는TV 랑equivalent 합니다!
JS(P ∥P) → 0 ⇔ δ(P , P) → 0
... 사실오래전부터알려진것들입니다(Rényi 의1961년도페이퍼참조)
n n n
n n
그 말은역으로TV 에서수렴하지않으면KL 이나JS 에서도수렴하지않는다
는얘기입니다
δ(P , P) ↛ 0 ⇒ KL(P ∥P) ↛ 0
이사실은Example 1 에서도볼수있습니다
n n
위에서도설명드렸지만P 과 P 은겹치지않습니다. 즉, θ ≠ 0 인경우r g
⎩⎪
⎨
⎪⎧P (x) ≠ 0 ⇒ P (x) = 00 θ
P (x) ≠ 0 ⇒ P (x) = 0θ 0
따라서P > 0 인곳에서log 값은∞ 가 됩니다
log = ∞
그러므로
θ
(
P (x)0
P (x)θ
)
KL(P ∥P )θ 0 = log P (x)μ(dx)∫
{x:P (x)≠0}θ
(
P (x)0
P (x)θ
) θ
= ∞ ⋅ P (x)μ(dx) = ∞∫ θ
그래서θ = 0 이되지않는한KL 값은무한대입니다. TV 에서와마찬가지로
θ 가 0 에가까워진다고 해서상황이나아지지않습니다
KL(P ∥P ) = KL(P ∥P ) =θ 0 0 ∞ {
∞
0
: θ ≠ 0
: θ = 0
이상황은JS 에서도똑같습니다. 다만, P = 에서분자에있는P
와P 둘중하나만0 이되겠지요?
m 2
P +Pθ 0
θ
0
⎩⎪⎪⎪
⎨
⎪⎪⎪⎧P (x) ≠ 0 ⇒ P (x) = 0 ⇒ P =0 θ m
2
P0
P (x) ≠ 0 ⇒ P (x) = 0 ⇒ P =θ 0 m
2
Pθ
KL P ∥P = log P (x)μ(dx) = log 2
KL P ∥P = log P (x)μ(dx) = log 2
그러므로θ ≠ 0 이면JS 는log 2 가 됩니다. 따라서
JS(P ,P ) =
( 0 m) ∫
P ≠00
(
P (x)/20
P (x)0
) 0
( θ m) ∫
P ≠0θ
(
P (x)/20
P (x)θ
) θ
θ 0 {
log 2
0
: θ ≠ 0
: θ = 0
결론적으로JS 는KL 처럼무한대가 되지는않습니다만TV 처럼θ ≠ 0 일
땐log 2 로일정한값만가지게 됩니다
이런일이일어나는이유는TV 나KL 이나JS 는두확률분포P , P 가 서로
다른영역에서측정된경우완전히다르다고 판단을내리게끔metric 이계산
되기 때문입니다.
즉두확률분포의차이를명탐정처럼깐깐하게(harsh) 본다는것이죠
r g
이게 상황에따라유리할때도있겠지만, GAN 에서의경우discriminator 의
학습이잘죽는원인이됩니다
이현상은Martin 에의해수학적으로증명되었습니다
그래서GAN 의학습에맞게 조금 유연하면서도수렴에포커스를맞춘다른
metric 이필요한것입니다
이제WGAN 의주인공인Wasserstein distance 를소개하겠습니다
믿기 힘들겠지만이제부터진짜에요(...)
Wasserstein distance 는러시아수학자Leonid Vaseršteĭn 의이름을딴
것으로Roland Dobrushin 교수가 1970년에확률론에도입했습니다
Wasserstein distance 의정의는이렇습니다
여기서Π(P, Q) 는두확률분포P, Q 의결합확률분포(joint distribution)
들을모은집합이고 γ 는그 중하나입니다. 즉모든결합확률분포Π(P, Q)
중에서d(X, Y ) 의기대값을가장작게 추정한값 을의미합니다
W(P, Q) = d(x, y)γ(dxdy)
γ∈Π(P,Q)
inf ∫
= E [d(X, Y )]
γ∈Π(P,Q)
inf γ
... 당최무슨말인지못알아듣겠어요(2)
그림을그려보죠. ω 를하나샘플링하면X(ω) 와Y (ω) 를뽑을수있습니
다. 이때두점간의거리d(X(ω), Y (ω)) 역시계산할수있죠
샘플링을계속할수록(X, Y ) 의결합확률분포γ 의윤곽이나오게 됩니다.
더불어서(P, Q) 는γ 의주변확률분포(marginal distribution) 가 됩니다
이때γ 가 두확률변수X, Y 의연관성(dependency)을어떻게 측정하느냐
에따라d(X, Y ) 의분포가 달라지게 됩니다
주의할점은P 와Q 는바뀌지않기 때문에각 X 와Y 가 분포하는모양은
변하지않습니다. 다만ω 에따라뽑히는경향이달라질뿐이지요
Wasserstein distance 는이렇게 여러가지γ 중에서d(X, Y ) 의기대값이
가장작게 나오는확률분포를취합니다!
이제Example 1 로돌아옵시다. 거의다왔으니조금만힘내세요
두확률변수(X, Y ) 가 각각 X ∼P , Y ∼P 라고 합시다. 각 ω 에대해
서X 와Y 는다음과 같이2차원공간으로매핑됩니다
X(ω) = (0, Z (ω)), Y (ω) = (θ, Z (ω))
0 θ
1 2
이때두점사이의거리는다음과 같이계산됩니다
d(X, Y ) = ∣θ − 0∣ + ∣Z (ω) − Z (ω)∣ ≥ ∣θ∣( 2
1 2 )1/2
즉d(X, Y ) 의기대값은어떤결합확률분포γ 를사용하든항상∣θ∣ 보다크
거나같습니다
E [d(X, Y )] ≥E [∣θ∣] = ∣θ∣
음... 그런데기대값이∣θ∣ 인상황이있을까요?
γ γ
네있습니다! 항상Z = Z 인분포를따른다면요
d(X, Y ) = ∣θ − 0∣ + ∣Z(ω) − Z(ω)∣ = ∣θ∣
1 2
( 2
)1/2
그래서우리는원하는결론을얻습니다
∴ W(P ,P ) = ∣θ∣0 θ
정리
TV, KL, JS 는(P ,P ) 가 서로겹치지않는상황에선불연속이됩니다
EM(Wasserstein distance) 은TV, KL, JS 보다약한(weak) metric
으로수렴을판정하는데무른(soft) 성질을가집니다
EM 은분포수렴과 동등합니다!
r g
그나저나분포수렴이뭔가요?
분포수렴은확률분포수렴종류중하나로서제일약한수렴입니다
확률분포의개별적인특징보다전체적인모양을중시하는수렴입니다
중심극한정리(Central Limit Theorem) 에서표본평균이정규분포로수
렴하는종류가 바로분포수렴입니다
X 의모든모멘트가 X 의모멘트로수렴하면분포수렴합니다
X 의누적확률밀도함수가 X 의누적확률밀도함수중연속인모든점
에서수렴하면분포수렴합니다
X 의Fourier transform 이수렴하면분포수렴합니다!
n
n
n
참고로Wasserstein distance 는Optimal transport 분야에서아주중요하
게 다뤄지는개념으로transport cost minimization 문제와관련있습니다.
쉽게 말하면두공간을어떻게 연결(coupling)시켰을때가장최적인경로
(geodesic) 를찾을수있는지결정하는수학문제입니다.
영상에서이분야가 어떻게 쓰이는지관심있는분은Gabriel Peyré 의슬라이
드를추천합니다
수학에관심있는사람은Cédric Villani 의책을봅시다!
나필즈메달받음! (2010년도수상)
주의: 대략998페이지(!)에육박하는분량
(부록) 논문에이상한주석이달려있어요
만약확률분포P 에대응하는, X 위에정의된확률밀도함수(Probability
density function) P 가 존재한다면다음과 같이쓸수있습니다
P(A) = P(x)μ(dx)
여기서μ 는X 상에존재하는레퍼런스측도입니다
∫
A
보통아래와같은Radon‑Nikodym 도함수로표현하기도합니다
P(x) =
참고로P(x) 가 존재하기 위한필요충분조건은확률분포P 가 레퍼런스측
도μ 에대해절대연속(absolute continuous)일때입니다
dμ
dP
절대연속?
μ(A) = 0 ⇒ P(A) = 0
μ 에서측정했을때0 이면확률분포P 에서측정해도0 인성질을말합니다
P 가 μ 의Negligible set 를유지한다고도표현합니다
확률밀도함수나확률질량함수를가지는분포는항상성립합니다!
확률질량함수는셈측도(Counting measure), 확률밀도함수는르베그 측도
(Lebesgue measure)를레퍼런스측도로가집니다
응? 확률밀도함수나질량함수를가지지않는확률분포도있나요?
그럼요! 하지만몰라도논문을읽는데전혀지장없습니다!
길고 긴 내용읽느라고생하셨습니다
후속편에선Martin 의다른논문과 WGAN 논문을함께설명하겠습니다!
to be continued...

Wasserstein GAN 수학 이해하기 I