NICE: Non-linear Independent Components Estimation Laurent Dinh, David Krueger, Yoshua Bengio. 2014.
Density estimation using Real NVP
Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio. 2017.
Glow: Generative Flow with Invertible 1x1 Convolutions
Diederik P. Kingma, Prafulla Dhariwal. 2018.
논문 리뷰 자료
오사카 대학 Nishida Geio군이 Normalization 관련기술 을 정리한 자료입니다.
Normalization이 왜 필요한지부터 시작해서
Batch, Weight, Layer Normalization별로 수식에 대한 설명과 함께
마지막으로 3방법의 비교를 잘 정리하였고
학습의 진행방법에 대한 설명을 Fisher Information Matrix를 이용했는데, 깊이 공부하실 분들에게만 필요할 듯 합니다.
One-stage Network(YOLO, SSD 등)의 문제점 예를 들어 근본적인 문제인 # of Hard positives(object) << # of Easy negatives(back ground) 또는 large object 와 small object 를 동시에 detect하는 경우 등과 같이 극단적인 Class 간 unbalance나 난이도에서 차이가 나는 문제가 동시에 존재함으로써 발생하는 문제를 해결하기 위하여 제시된 Focal loss를 class간 아주 극단적인 unbalance data에 대한 classification 문제(예를 들어 1:10이나 1:100)에 적용한 실험결과가 있어서 정리해봤습니다. 결과적으로 hyper parameter의 설정에 매우 민감하다는 실험결과와 잘만 활용할 경우, class간 unbalance를 해결하기 위한 data level의 sampling 방법이나 classifier level에서의 특별한 고려 없이 좋은 결과를 얻을 수 있다는 내용입니다.
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
본 논문에서는 Hidden layer 뒤에 추가적인 새로운 시각중지 벡터
(visual sentinel vector)를 갖는 LSTM의 확장형을 채택함으로서
- 시각신호로부터 필요 시 언어모델로 전환이 가능한
Adaptive attention encoder-decoder framework을 제안하였고
- 이로 인하여 “white”, “bird”, “stop,”과 같은 시각적 단어에 대해서는 좀 더 이미지에 집중하고, “top”, “of”, “on.”의 경우에는 시각중지를 사용함으로서 Image Captioning의 정확도를 향상
패턴을 인식하는 데 있어서 가장 기본적으로 알아야 하는 개념은 바로 Feature 공간입니다. 이미지 패턴 인식을 할 때에도 각 이미지를 Feature 공간 안에 배치한 후에 패턴을 인식하게 되는데, 불행히도 이미지는 고차원의 정보이기 때문에 우리가 실제로 느낄 수 있는 차원을 훨씬 뛰어넘는 공간에 배치 되어, 직관적인 패턴 분석이 많이 어렵습니다.
그렇기 때문에 PCA처럼 고차원 데이터를 저차원의 공간으로 Projection 하여 Visualization 하기 위한 수많은 연구들이 진행되어 왔고, 실제로 논문에서 실험 결과를 Visualization 하여 이해를 돕거나, 패턴을 분석하기 전에 데이터들이 어떠한 모양으로 분포하고 있는지에 대한 정보를 얻어 분석 방향을 결정하기도 하였습니다.
이번 세미나에서는 여러 Dimension Reduction 알고리즘들을 알아보고, 그 중에서도 좋은 성능을 자랑하는 알고리즘 중의 하나인 Nonlinear & Non-parametric Visualization 알고리즘인 t-SNE 알고리즘에 대해 살펴보겠습니다. 그리고 이러한 알고리즘들이 Dimension Reduction의 중요한 Point인 Global & Local 관계의 유지와 Manifold data의 Visualization을 얼마나 잘 수행하는지 알아보도록 하겠습니다.
EM 알고리즘을 jensen's inequality부터 천천히 잘 설명되어있다
이것을 보면, LDA의 Variational method로 학습하는 방식이 어느정도 이해가 갈 것이다.
옛날 Andrew Ng 선생님의 강의노트에서 발췌한 건데 5년전에 본 것을
아직도 찾아가면서 참고하면서 해야 된다는 게 그 강의가 얼마나 명강의였는지 새삼 느끼게 된다.
NICE: Non-linear Independent Components Estimation Laurent Dinh, David Krueger, Yoshua Bengio. 2014.
Density estimation using Real NVP
Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio. 2017.
Glow: Generative Flow with Invertible 1x1 Convolutions
Diederik P. Kingma, Prafulla Dhariwal. 2018.
논문 리뷰 자료
오사카 대학 Nishida Geio군이 Normalization 관련기술 을 정리한 자료입니다.
Normalization이 왜 필요한지부터 시작해서
Batch, Weight, Layer Normalization별로 수식에 대한 설명과 함께
마지막으로 3방법의 비교를 잘 정리하였고
학습의 진행방법에 대한 설명을 Fisher Information Matrix를 이용했는데, 깊이 공부하실 분들에게만 필요할 듯 합니다.
One-stage Network(YOLO, SSD 등)의 문제점 예를 들어 근본적인 문제인 # of Hard positives(object) << # of Easy negatives(back ground) 또는 large object 와 small object 를 동시에 detect하는 경우 등과 같이 극단적인 Class 간 unbalance나 난이도에서 차이가 나는 문제가 동시에 존재함으로써 발생하는 문제를 해결하기 위하여 제시된 Focal loss를 class간 아주 극단적인 unbalance data에 대한 classification 문제(예를 들어 1:10이나 1:100)에 적용한 실험결과가 있어서 정리해봤습니다. 결과적으로 hyper parameter의 설정에 매우 민감하다는 실험결과와 잘만 활용할 경우, class간 unbalance를 해결하기 위한 data level의 sampling 방법이나 classifier level에서의 특별한 고려 없이 좋은 결과를 얻을 수 있다는 내용입니다.
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
본 논문에서는 Hidden layer 뒤에 추가적인 새로운 시각중지 벡터
(visual sentinel vector)를 갖는 LSTM의 확장형을 채택함으로서
- 시각신호로부터 필요 시 언어모델로 전환이 가능한
Adaptive attention encoder-decoder framework을 제안하였고
- 이로 인하여 “white”, “bird”, “stop,”과 같은 시각적 단어에 대해서는 좀 더 이미지에 집중하고, “top”, “of”, “on.”의 경우에는 시각중지를 사용함으로서 Image Captioning의 정확도를 향상
패턴을 인식하는 데 있어서 가장 기본적으로 알아야 하는 개념은 바로 Feature 공간입니다. 이미지 패턴 인식을 할 때에도 각 이미지를 Feature 공간 안에 배치한 후에 패턴을 인식하게 되는데, 불행히도 이미지는 고차원의 정보이기 때문에 우리가 실제로 느낄 수 있는 차원을 훨씬 뛰어넘는 공간에 배치 되어, 직관적인 패턴 분석이 많이 어렵습니다.
그렇기 때문에 PCA처럼 고차원 데이터를 저차원의 공간으로 Projection 하여 Visualization 하기 위한 수많은 연구들이 진행되어 왔고, 실제로 논문에서 실험 결과를 Visualization 하여 이해를 돕거나, 패턴을 분석하기 전에 데이터들이 어떠한 모양으로 분포하고 있는지에 대한 정보를 얻어 분석 방향을 결정하기도 하였습니다.
이번 세미나에서는 여러 Dimension Reduction 알고리즘들을 알아보고, 그 중에서도 좋은 성능을 자랑하는 알고리즘 중의 하나인 Nonlinear & Non-parametric Visualization 알고리즘인 t-SNE 알고리즘에 대해 살펴보겠습니다. 그리고 이러한 알고리즘들이 Dimension Reduction의 중요한 Point인 Global & Local 관계의 유지와 Manifold data의 Visualization을 얼마나 잘 수행하는지 알아보도록 하겠습니다.
EM 알고리즘을 jensen's inequality부터 천천히 잘 설명되어있다
이것을 보면, LDA의 Variational method로 학습하는 방식이 어느정도 이해가 갈 것이다.
옛날 Andrew Ng 선생님의 강의노트에서 발췌한 건데 5년전에 본 것을
아직도 찾아가면서 참고하면서 해야 된다는 게 그 강의가 얼마나 명강의였는지 새삼 느끼게 된다.
This is a presentation that I gave to my research group. It is about probabilistic extensions to Principal Components Analysis, as proposed by Tipping and Bishop.
Machine Learning : Latent variable models for discrete data (Topic model ...)Yukara Ikemiya
Machine Learning, A Probabilistic Perspective
Chapter 27 : Latent variable models for discrete data
topic model, LDA, graph structure, relational data
text analysis
トピックモデル・テキスト分析・
이 발표에서는 위상학적 자료 분석(Topological Data Analysis)을 어떻게 하고, 그에 대한 통계적 추정을 어떻게 하는지 간단하게 소개한다. 위상학적 자료 분석은 포괄적으로는 자료에서 위상학적인 특성을 추출하는 분석 방법을 아우르는데, 대표적으로 persistent homology와 군집 나무(cluster tree) 등이 있다.
persistent homology는 자료를 여러 해상에서 관측하고 지속성 있게 나타나는 위상 특성을 추려냄으로써 분석하고, 군집 나무는 자료의 레벨 군집이 어떤 계층 구조를 생성하는지 봄으로써 자료를 분석한다. 자료로부터 추정된 persistent homology와 군집 나무는 자료 분포의 임의성에 의해 오차가 생기는데, 이를 통계적으로 정량화할 수 있다.
이 발표에서는 persistent homology와 군집 나무의 오차를 정량화함으로써 어떻게 통계적으로 유효한 신뢰 집합을 얻을 수 있는지 제시하고, 실제로 계산하는 방법도 알아본다.
2. 12.1 Factor analysis
• 이 전 장에서는 latent variable z = {1,2,..,K} 표현력의 한계
An alternative is to use a vector of real-valued latent variables,zi ∈R
• where W is a D×L matrix, known as the factor loading matrix, and Ψ is a D×D covariance matrix.
• We take Ψ to be diagonal, since the whole point of the model is to “force” zi to explain the correlation, rather than
“baking it in” to the observation’s covariance.
• The special case in which Ψ=σ2I is called probabilistic principal components analysis or PPCA.
• The reason for this name will become apparent later.
3. 12.1.1 FA is a low rank parameterization of an MVN
• FA can be thought of as a way of specifying a joint density model on x using a small number of parameters.
4. 12.1 Factor analysis
• The generative process, where L=1, D=2 and Ψ is diagonal, is illustrated in Figure 12.1.
• We take an isotropic Gaussian “spray can” and slide it along the 1d line defined by wzi +μ.
• This induces an ellongated (and hence correlated) Gaussian in 2d.
5. 12.1.2 Inference of the latent factors
•
latent factors z will reveal something interesting about the data.
xi(D차원)를 넣어서 L차원으로 매핑시킬 수 잇음
training set을 D차원에서 L차원으로 차원 축소
6. 12.1.2 Inference of the latent factors
• Example
• D =11차원(엔진크기, 실린더 수, 가격,...), N =328 개의 example(자동차 종류), L = 2
• 각 피쳐(엔진크기, 실린더 수,.. 11개)의 유닛 벡터 e1=(1,0,...,0), e2=(0,1,0,...,0)를 저차원 공간에 사영한 것이 파
란색 선 (biplot이라고 함)
• biplot 가까이 있는 빨간색점(차량)이 그 특성을 잘 가지고 있는 차
training set을 D차원에서 L차원으로 차원 축소 (빨간색 점)
7. 12.1.3 Unidentifiability
• Just like with mixture models, FA is also unidentifiable
• LDA 처럼 매번 분석시마다, z(토픽)의 순서가 바뀜
• 분석 능력에는 영향을 주진 않지만, 해석 능력에 영향을 줌
• 해결 방법
• Forcing W to be orthonormal Perhaps the cleanest solution to the identifiability problem is to force W to be
orthonormal, and to order the columns by decreasing variance of the corresponding latent factors. This is the
approach adopted by PCA, which we will discuss in Section 12.2.
• orthonormal 하다는 것은 벡터들이 서로 직교한다
• 직교성을 유지하려면,
8.
9. 12.1.4 Mixtures of factor analysers
•
let [the k’th linear subspace of dimensionality Lk]] be represented by Wk, for k=1:K.
• Suppose we have a latent indicator qi ∈{1,...,K} specifying which subspace we should use to generate the data.
• We then sample zi from a Gaussian prior and pass it through the Wk matrix (where k=qi), and add noise.
각 데이터 Xi가 k개의 FA에서 나왔다는 모델
(GMM과 비슷)
10. 12.1.5 EM for factor analysis models
Expected log likelihood
ESS(Expected Sufficient Statistics)
11. 12.1.5 EM for factor analysis models
• E- step
• M-step
12. 12.2 Principal components analysis (PCA)
• Consider the FA model where we constrain Ψ=σ2I, and W to be orthonormal.
• It can be shown (Tipping and Bishop 1999) that, as σ2 →0, this model reduces to classical (nonprobabilistic)principal
components analysis( PCA),
• The version where σ2 > 0 is known as probabilistic PCA(PPCA)
13.
14. proof sketch
• reconstruction error를 줄이는 W를 구하는 것 = z로 사영되는 데이터의 분산이 최대가 되는 W를 구하는 것
• z로 사영되는 데이터의 분산이 최대가 되는 W를 lagrange multiplier 최적화로 구해본다
• z로 사영되는 데이터의 분산이 최대가 되는 W를 구해봤더니 데이터의 empirical covariance matrix의 [첫번
째, 두번째, 세번쨰.. eigenvector]
15. proof of PCA
• wj ∈RD to denote the j’th principal direction
• xi ∈RD to denote the i’th high-dimensional observation,
• zi ∈RL to denote the i’th low-dimensional representation
• Let us start by estimating the best 1d solution,w1 ∈RD, and the corresponding projected points˜z1∈RN.
• So the optimal reconstruction weights are obtained by orthogonally projecting the data onto the first principal
direction
16. proof of PCA
x가 z = wx로 사영된 데이터 포인트의
분산
목적함수가 reconstruction error를 최소화하는 것에서 사영된 점들의 분산을 최대화하는 것으로 바뀌었다
direction that maximizes the variance is an
eigenvector of the covariance matrix.
17. proof of PCA
Optimizing wrt w1 and z1 gives the same solution as before.
The proof continues in this way. (Formally one can use induction.)
18. 12.2.3 Singular value decomposition (SVD)
• PCA는 SVD와 밀접한 관계가 있다
• SVD를 돌리면, PCA의 해 W를 구할 수 있다
• PCA는 결국 truncated SVD approximation와 같다
thin SVD
24. 12.2.5 EM algorithm for PCA
• PCA에서 Estep은 latent 변수 Z를 추론해 내는 것이고 FA EM에서 etep에서의 posterior의 평균을 쓴다
X가 W가 span하는 공간에 사영된 것
확률모델이 아니라 공분산 없다고 침
행렬 표현
25. 12.2.5 EM algorithm for PCA
•
linear regression 업데이트 수식과 매우 닯았죠
• linear regression이 데이터 점이 span하는 열공간에 y를 사영시키는 기하학적 의미 = 예측치와 y의 에러 최소화
(7.3.2)
• // E-step은 W의 열벡터가 span하는 열공간에 X를 사영시키는 것
Wt-1
26. 12.2.5 EM algorithm for PCA
• M-step
multi-output linear regression (Equation 7.89)
• linear regression에서 답 y가 벡터인 경우의 linear regression
• 사영된 zi를 피쳐벡터, xi를 답으로 하는 multi-output linear regression이다
• 파란색 막대에 사영된 zi를 파란색 막대(W)를 돌려서 답 x(초록색 점)과의 에러가 최소화 되는 막대 방향을 찾
는다.
27. 12.2.5 EM algorithm for PCA
• EM의 장점
• EM can be faster
• EM can be implemented in an online fashion, i.e., we can update our estimate of W
as the data streams in.
29. Conclusion
• FA는 정규분포의 x 을(D*D paramters), 더 작은 parameter 갯수(D*L)로 표현한다.
• PCA는 FA의 special 케이스이다
• PCA문제
의 해 W는 Z로 사영되는 데이터의 분산이 최대가 되게 하고 가장 큰
eigenvalue에 대응하는 eigenvectors이다
• SVD (X = USV’)에서 V는 X의 공분산 행렬의 eigenvectors이다. 그러므로 W=V