NICE: Non-linear Independent Components Estimation Laurent Dinh, David Krueger, Yoshua Bengio. 2014.
Density estimation using Real NVP
Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio. 2017.
Glow: Generative Flow with Invertible 1x1 Convolutions
Diederik P. Kingma, Prafulla Dhariwal. 2018.
논문 리뷰 자료
NICE: Non-linear Independent Components Estimation Laurent Dinh, David Krueger, Yoshua Bengio. 2014.
Density estimation using Real NVP
Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio. 2017.
Glow: Generative Flow with Invertible 1x1 Convolutions
Diederik P. Kingma, Prafulla Dhariwal. 2018.
논문 리뷰 자료
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
大規模データセットでの推論に便利なSVIの概要をまとめました.
SVIは確率的最適化の枠組みで行う変分ベイズ法です.
随時更新してます.
参考文献
[1]Matthew D Hoffman, David M Blei, Chong Wang, and John Paisley. Stochastic variational inference. The Journal of Machine Learning Research, Vol. 14, No. 1, pp. 1303–1347, 2013.
[2] 佐藤一誠. トピックモデルによる統計的意味解析. コロナ社, 2015.
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
인공신경망을 이용한 generative model로서 많은 관심을 받고 있는 Variational Autoencoder (VAE)를 보다 잘 이해하기 위해서, 여러 가지 재미있는 관점에서 바라봅니다. VAE 및 머신러닝 일반에 지식을 가지고 있는 청중을 대상으로 진행된 세미나 자료입니다. 현장에서 구두로 설명된 부분은 슬라이드의 회색 박스에 보충설명을 적어두었습니다.
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...홍배 김
InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets
오사카 대학 박사과정인 Takato Horii군이 작성한 자료
데이터 생성 모델로 우수한 GAN을 이용하여 비지도학습을 통해
"알기쉬게" 이미지의 정보를 표현하는 특징량을 "간단하게"획득하기
* 특징이 서로 얽혀있는 Physical space에서 서로 독립적인 Eigen space로 변환하는 것과 같은 원리
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
大規模データセットでの推論に便利なSVIの概要をまとめました.
SVIは確率的最適化の枠組みで行う変分ベイズ法です.
随時更新してます.
参考文献
[1]Matthew D Hoffman, David M Blei, Chong Wang, and John Paisley. Stochastic variational inference. The Journal of Machine Learning Research, Vol. 14, No. 1, pp. 1303–1347, 2013.
[2] 佐藤一誠. トピックモデルによる統計的意味解析. コロナ社, 2015.
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
인공신경망을 이용한 generative model로서 많은 관심을 받고 있는 Variational Autoencoder (VAE)를 보다 잘 이해하기 위해서, 여러 가지 재미있는 관점에서 바라봅니다. VAE 및 머신러닝 일반에 지식을 가지고 있는 청중을 대상으로 진행된 세미나 자료입니다. 현장에서 구두로 설명된 부분은 슬라이드의 회색 박스에 보충설명을 적어두었습니다.
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...홍배 김
InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets
오사카 대학 박사과정인 Takato Horii군이 작성한 자료
데이터 생성 모델로 우수한 GAN을 이용하여 비지도학습을 통해
"알기쉬게" 이미지의 정보를 표현하는 특징량을 "간단하게"획득하기
* 특징이 서로 얽혀있는 Physical space에서 서로 독립적인 Eigen space로 변환하는 것과 같은 원리
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
본 논문에서는 Hidden layer 뒤에 추가적인 새로운 시각중지 벡터
(visual sentinel vector)를 갖는 LSTM의 확장형을 채택함으로서
- 시각신호로부터 필요 시 언어모델로 전환이 가능한
Adaptive attention encoder-decoder framework을 제안하였고
- 이로 인하여 “white”, “bird”, “stop,”과 같은 시각적 단어에 대해서는 좀 더 이미지에 집중하고, “top”, “of”, “on.”의 경우에는 시각중지를 사용함으로서 Image Captioning의 정확도를 향상
오사카 대학 Nishida Geio군이 Normalization 관련기술 을 정리한 자료입니다.
Normalization이 왜 필요한지부터 시작해서
Batch, Weight, Layer Normalization별로 수식에 대한 설명과 함께
마지막으로 3방법의 비교를 잘 정리하였고
학습의 진행방법에 대한 설명을 Fisher Information Matrix를 이용했는데, 깊이 공부하실 분들에게만 필요할 듯 합니다.
Explanation on Tensorflow example -Deep mnist for expert홍배 김
you can find the exact and detailed network architecture of 'Deep mnist for expert' example of tensorflow's tutorial. I also added descriptions on the program for your better understanding.
One-stage Network(YOLO, SSD 등)의 문제점 예를 들어 근본적인 문제인 # of Hard positives(object) << # of Easy negatives(back ground) 또는 large object 와 small object 를 동시에 detect하는 경우 등과 같이 극단적인 Class 간 unbalance나 난이도에서 차이가 나는 문제가 동시에 존재함으로써 발생하는 문제를 해결하기 위하여 제시된 Focal loss를 class간 아주 극단적인 unbalance data에 대한 classification 문제(예를 들어 1:10이나 1:100)에 적용한 실험결과가 있어서 정리해봤습니다. 결과적으로 hyper parameter의 설정에 매우 민감하다는 실험결과와 잘만 활용할 경우, class간 unbalance를 해결하기 위한 data level의 sampling 방법이나 classifier level에서의 특별한 고려 없이 좋은 결과를 얻을 수 있다는 내용입니다.
패턴을 인식하는 데 있어서 가장 기본적으로 알아야 하는 개념은 바로 Feature 공간입니다. 이미지 패턴 인식을 할 때에도 각 이미지를 Feature 공간 안에 배치한 후에 패턴을 인식하게 되는데, 불행히도 이미지는 고차원의 정보이기 때문에 우리가 실제로 느낄 수 있는 차원을 훨씬 뛰어넘는 공간에 배치 되어, 직관적인 패턴 분석이 많이 어렵습니다.
그렇기 때문에 PCA처럼 고차원 데이터를 저차원의 공간으로 Projection 하여 Visualization 하기 위한 수많은 연구들이 진행되어 왔고, 실제로 논문에서 실험 결과를 Visualization 하여 이해를 돕거나, 패턴을 분석하기 전에 데이터들이 어떠한 모양으로 분포하고 있는지에 대한 정보를 얻어 분석 방향을 결정하기도 하였습니다.
이번 세미나에서는 여러 Dimension Reduction 알고리즘들을 알아보고, 그 중에서도 좋은 성능을 자랑하는 알고리즘 중의 하나인 Nonlinear & Non-parametric Visualization 알고리즘인 t-SNE 알고리즘에 대해 살펴보겠습니다. 그리고 이러한 알고리즘들이 Dimension Reduction의 중요한 Point인 Global & Local 관계의 유지와 Manifold data의 Visualization을 얼마나 잘 수행하는지 알아보도록 하겠습니다.
Generative model is nowadays a very good tool for Anomaly Detection. Thus I bring a interesting generative model 'Diffusion' for solving the anomaly detection task. Presentation consists of the concept of diffusion and method to use diffusion for anomaly detection.
Slides based on "Introduction to Machine Learning with Python" by Andreas Muller and Sarah Guido for Hongdae Machine Learning Study(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)
홍대 머신 러닝 스터디(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)의 "파이썬 라이브러리를 활용한 머신러닝"(옮긴이 박해선) 슬라이드 자료.
Coursera Machine Learning by Andrew NG 강의를 들으면서, 궁금했던 내용을 중심으로 정리.
내가 궁금했던건, 데이터를 분류하는 Decision boundary를 만들때...
- 왜 가중치(W)와 decision boundary가 직교해야 하는지?
- margin은 어떻게 계산하는지?
- margin은 어떻게 최대화 할 수 있는지?
- 실제로 margin을 최대화 하는 과정의 수식은 어떤지?
- 비선형 decision boundary를 찾기 위해서 어떻게 kernel을 이용하는지?...
http://blog.naver.com/freepsw/221032379891
Robot의 Gait optimization, Gesture Recognition, Optimal Control, Hyper parameter optimization, 신약 신소재 개발을 위한 optimal data sampling strategy등과 같은 ML분야에서 약방의 감초 같은 존재인 GP이지만 이해가 쉽지 않은 GP의 기본적인 이론 및 matlab code 소개
Anomaly detection using deep one class classifier홍배 김
- Anomaly detection의 다양한 방법을 소개하고
- Support Vector Data Description (SVDD)를 이용하여
cluster의 모델링을 쉽게 하도록 cluster의 형상을 단순화하고
boundary근방의 애매한 point를 처리하는 방법 소개
요즘 Image관련 Deep learning 관련 논문에서 많이 나오는
용어인 Invariance와 Equivariance의 차이를 알기쉽게 설명하는 자료를 만들어봤습니다. Image의 Transformation에 대해
Equivariant한 feature를 만들기 위하여 제안된 Group equivariant Convolutional. Neural Networks 와 Capsule Nets에 대하여 설명
Deep learning기법을 이상진단 등에 적용할 경우, 정상과 이상 data-set간의 심각한 unbalance가 문제. 본 논문에서는 GAN 기법을 이용하여 정상 data-set만의 Manifold(축약된 모델)를 찾아낸 후 Query data에 대하여 기 훈련된 GAN 모델로 Manifold로의 mapping을 수행함으로서 기 훈련된 정상 data-set과의 차이가 있는지 여부를 판단하여 Query data의 이상 유무를 결정하고 영상 내에 존재하는 이상 영역을 pixel-wise segmentation 하여 제시함.
4. Introduction
4
고차원 데이터의 시각화는 다양한 분야에서 중요한 과제
다양한 차원을 취급
예 : 유방암 관련 세포핵의 종류 → 30 종류
예 : 문서를 표현하는 단어벡터 → 수천 차원
지금까지 다양한 방법이 연구되어왔다
이미지 기반 기법(Image based)
Chernoff faces [Chernoff, 1973]
Pixel based technique [Keim, 2000]
차원 감소 기법(Dimension reduction)
Principal Component Analysis [Hotteling, 1993]
Multi Dimensional Scaling [Torgerson, 1952]
7. Introduction
고차원 데이터의 시각화는 다양한 분야에서 중요한 과제
다양한 차원을 취급
예 : 유방암 관련 세포핵의 종류 → 30 종류
예 : 문서를 표현하는 단어벡터 → 수천 차원
본논문의 목적
고차원 데이터 𝑋 = {𝑥1, 𝑥2, … , 𝑥 𝑛 }를 도시 가능한
저차원 데이터 𝑌 = {𝑦1, 𝑦2, … , 𝑦𝑛 } 로 표시
데이터의 Local한 구조뿐만 아니라 다양체(Manifold)와 같은
구조를 유지한 체 가시화
7
12. SNE – (1)
유사도 높음
𝑥 𝑘
12
유사도 낮음
Stochastic Neighbor Embedding (SNE)
고차원 공간에서 유클리드 거리(Euclidean distance)를 데이터 포인트의 유사성을
표현하는 조건부 확률(conditional probability)로 변환하는 방법
𝑥𝑗 의 𝑥𝑖 에 대한 유사도를 나타내는 조건부 확률
𝑥𝑖 를 중심으로 하는 가우스 분포(Gaussian distribution)의
밀도에 비례해 근방이 선택되도록
조건부 확률이 높다 → 데이터 포인트가 가깝다
조건부 확률이 낮다 → 데이터 포인트가 멀다
𝑥𝑖를 중심으로 하는 가우스 분포
𝑥𝑖 𝑥𝑗
13. SNE – (2)
Stochastic Neighbor Embedding (SNE)
데이터 점 𝑥𝑖 에 대한 데이터 점 𝑥𝑗 의 조건부 확률은
조건부 확률:𝑥𝑖 에 대한 𝑥𝑗 의 유사도 표현
두점간의 유사도 모델링화에만 주목 → 𝑝𝑖|𝑖 = 0
𝑥𝑖 : 고차원 데이터 점
𝑥𝑗 : 고차원 데이터 점
𝜎𝑖: 𝑥𝑖 를 중심으로 한 가우스 분포의 분산
13
고차원 공간에서 유클리드 거리(Euclidean distance)를 데이터 포인트의
유사성을 표현하는 조건부 확률(conditional probability)로 변환하는 방법
14. SNE – (3)
고차원 데이터 포인트에 대응하는 저차원 데이터 포인트를 정의
xi , xj
고차원 공간표현
맵점의 조건부 확률
14
yi , yj
저차원 공간표현(맵점)
두 점 사이의 유사성 모델링에만 주목 → 𝑞𝑖|𝑖 = 0
Map 포인트가 제대로 모델링 되었다면 𝑝𝑗 |𝑖 = 𝑞 𝑗| 𝑖
𝑝 𝑗| 𝑖 과 𝑞𝑗|𝑖 간의 KL거리를 최소화하도록 맵점을 탐사
15. SNE – (4)
구배법을 이용하여 KL 거리의 최소화를 수행
모든 데이터 포인트에 대한 KL 거리의 합
𝑃𝑖: 데이터 점 𝑥𝑖 대한 모든 데이터 점의 조건부 확률 분포
𝑄 𝑖: 맵점 𝑦𝑖대한 모든 맵점의 조건부 확률 분포
KL거리는 비대칭
맵상에서의 거리는 동일하게 가중되어있지 않다.
맵상에서 먼 점을 가까운 데이터 점에 대응 → cost large
맵상에서 가까운 점을 먼 데이터 점에 대응 → costsmall
15
맵상에서 Local한 구조를 유지한다.
16. SNE – (5)
16
데이터 점 𝑥𝑖 대한 가우스 분포의 분산 선택
단일 분산을 모든 데이터 점에 부여 → 부적절
밀도 높은 영역의 데이터 점 → 분산 소
밀도 얇은 영역의 데이터 점 → 분산 대
Perplexity scale에 의한 binary search의 도입
𝑃𝑒𝑟𝑝: 데이터 점 𝑥𝑖 의 유효한 근방의 개수의 척도
지정된 𝑃𝑒𝑟𝑝를 갖도록 𝜎𝑖 를설정
일반적으로는 5~50사이를 𝑃𝑒𝑟𝑝로서 설정
※𝜎𝑖 에 대해서 𝑃𝑒𝑟𝑝는 일정하게 증가
Perplexity를 정의
17. SNE – (6)
각 맵점의 구배는 놀랍도록 아주 심플
물리적인 구배의 해석
맵점 𝑦𝑖와 다른 맵점 𝑦𝑗間 사이의 스프링에 의한 합성력
스프링은 ( 𝑦𝑖 − 𝑦𝑗) 방향으로 작용
맵점이 너무 가까우면 → 스프링은 반발
맵점이 너무 멀면 → 스프링은 당김
스프링의 힘은stiffness와 길이에 비례한다
17
( pj|i qj|i pi| j qi| j ) ( yi yj )
데이터 점의 유사도과
맵점의 유사도의 불일치
맵상에서의 거리
18. SNE – (7)
구배법에 의한 update
1. 평균 0에 분산이 작은 등방성 가우스 분포로부터
무작위로 초기 맵점을 샘플링
2. Local minimum에 빠지지 않도록 모멘텀을 도입
𝑌(𝑡)
𝜂
𝛼 𝑡
∶ 시간 𝑡에서의 맵점
∶ learning rate
∶ 시간 𝑡에서의 모멘텀
학습 초기 단계에서는 업데이트 후 gaussian 노이즈를 추가
점차 노이즈의 분산을 작게局所解か脱出するのを手助けする
18
Local minimum으로부터 탈출하는 것을 도움
19. SNE – (8)
SNE의 약점
노이즈의 초기값과 감쇠율의 설정이 매우 중요
위에서 매개 변수가 학습속도와 모멘텀도 관계
매개 변수의 탐색에 상당한 시간이 소요
수렴이 보장된 다른 기법이 사용하기 쉽다
계산시간이 단축된 매개 변수의 탐색없이
좋은 결과를 얻을 수있는 최적화 기법이 필요
t-Distributed Stochastic
Neighbor Embedding
19
21. t-SNE
21
SNE : 상당히 합리적인 가시화를 실현하였으나
Cost ft’n의 최적화가 어려움
Crowding문제 (후술)로 인하여 처리가 곤란
t-SNE: 이러한 문제를 해결한 개량형 SNE
개선점
SNE의 cost ft'n을 대칭적 버젼을 사용
• 구배가 보다 심플해짐
저차원 공간(맵)상에서의 두점간의 유사도의 계산을
gaussian distribution이 아닌 Student-t distribution
기준으로
• Crowding문제와 최적화의 어려움을 경감
22. Symmetric SNE – (1)
SNE: 조건부 확률분포 𝑝 𝑗|𝑖와 𝑞 𝑗|𝑖의 KL 거리를 최소화
대체안:동시확률분포 𝑝 𝑗𝑖와 𝑞 𝑗𝑖의 KL 거리를 최소화
Cost ft’n은
22
조건부 확률분포의 경우와 마찬가지로 𝑝𝑖 𝑗 = 𝑞𝑖 𝑗 = 0
이경우를 Symmetric SNE라고 부름
분포가 임의의 𝑖 와 𝑗 에 대하여 대칭( 𝑝𝑖 𝑗 = 𝑝𝑗 𝑖 , 𝑞𝑖 𝑗 = 𝑞𝑗 𝑖 )
23. Symmetric SNE – (2)
Symmetric SNE의 맵점의 유사도
Symmetric SNE의 데이터점의 유사도
그러나 데이터점 𝑥𝑖 가 Out-lier시에 문제가 발생
(모든 데이터점에 대하여 가 클 경우)
23
24. Symmetric SNE – (3)
Out-lier에 의한 악영향
1. 데이터점 𝑥𝑖가 out-lier인 경우 → 가 커짐
2. 동시확률 𝑝𝑖𝑗가 상당히 작아짐
3. 맵점 𝑦𝑖의 cost ft’n로의 영향력이 작아짐
4. 맵점의 위치가 잘 정해지지 않음.
이를 방지하기 위해 데이터 점의 유사도 형태를 변경
이에 따라 모든 데이터점이 비용함수에 기여 !
Symmetric SNE의 구배는 보다 심플
ij
2n
i|jj|ip p
p ( 𝑛 은 데이터 점의 총수)
24
25. Crowding problem – (1)
2차원 공간상에서 3개를 등간격
본질적으로 10차원을 갖는 고차원 공간에서의 다양체(Manifold)
필기 숫자 문자 데이터 세트를 상상하면 된다
10차원 다양체에서의 거리를 정확하게 모델링 할 수 없다.
예 : 10 차원 다양체에서 상호 등간격인 11개의 데이터점
2차원 공간으로의 정확한 매핑은 불가능
차원수+1까지의 개수 밖에 일정한 간격으로 배치할 수 없다
???
25
2차원 공간상에서 4개를 등간격
26. Crowding problem – (2)
26
데이터점이 𝑥𝑖 의 주변에 균일하게 분포
이차원 공간의 space를 생각하면
𝑥𝑖 로부터 적당히 떨어진 점을 위한 space : 좁게
𝑥𝑖 로부터 가깝게 위치한 점을 위한 space : 넓게
→ 차원이 많을수록 등간격으로 위치하는 점은 증가
→ 작은 거리를 정확하게 표현하면
적당히 떨어진 점은 아주 멀리 배치된다
SNE에서는 상당히 떨어진 점에는 약간의 인력만
그러나 중심에는 상당히 많은 인력이 모여 버려서,
잠재적인 클러스터를 형성하는 것을 방해함
Crowding problem
27. Crowding problem – (3)
27
UNI-SNE [Cook et al., 2007]
작은 혼동비(confusion ratio)를 가진 균일 배경분포
모델(uniform background distribution model)의 도입
모든 스프링에 미세한 척력(repulsive force)을 추가
SNE보다 뛰어난 성능을 보여 주지만, 최적화가 어려움
UNI-SNE의 최적화
1. 일반 SNE으로 최적화
2. 혼합 비율을 약간 증가시켜 최적화
3. 클러스터를 형성하기 위한 갭(gap)이 생성된다
2개의 클러스터가 최적화 초기 단계에서 분리된 경우
그들을 다시 묶기 위한 힘은 없어진다
28. t-SNE – (1)
가우스 분포와 자유도 1의 t분포의 비교
보다멀리배치시킴
28
끝단이 퍼지는 다른 분포를 이용
고차원 공간 :가우스 분포유사도로 변환
저차원 공간 :자유도1의 t-분포 유사도로 변환
→ 적당히 떨어진 점을 맵에서 더 멀리 배치 가능
→ 데이터 점과 닮지 않은 점 사이의 인력을 제거 가능
보다 가깝게 배치시킴
29. t-SNE – (2)
자유도 1의 t분포를 이용한 맵점의 동시확률
1 + 𝑦𝑖 - 𝑦 𝑗
2 −1
로부터,맵상에서 큰거리
𝑦𝑖 − 𝑦𝑗 에 대하여 Inverse square rule 성립
멀리 떨어진 점에 의한 맵의 스케일 변화에 불변
클러스터 집합에 대해서도 동일하게 일어난다
t 분포는 사실 다양한 분산의 무한혼합 가우스분포
(infinite mixed Gaussian distribution)와 같다
표현력이 높으면서도 계산 비용도 낮음
29
자유도 1의 t분포를 이용하는 이유
31. 구배의 도출 – (1)
맵상의 동시확률
계산의 간소화를 위해 2개의 보조변수를 도입
고차원 공간상의 대칭 조건부 확률
KL거리에 기반한 cost ft’n
i jij
ij
i i j
pij pij qij pij
q
loglog
p
p log ij
C KL(P |Q)
dij yi yj
k l
𝑦𝑖 가 변경된 경우, 변하는 것은 𝑑𝑖 𝑗 , 𝑑 𝑗𝑖만
kl
2 1
Z (1 d )
31
33. t-SNE의 장점 – (1)
1. 유사하지 않음 점을 맵상에서 가까운 거리로
모델링한 경우 제대로 척력이 작용
SNE는 척력이 없다
UNI-SNE 는 인력에 비해 척력이 약함
UNI-SNE 는 맵상의 거리가 클 때 밖에 척력이
커지지 않는다.
33
34. t-SNE의 장점 – (2)
2. 척력이 너무 커지지 않는다.
UNI-SNE은 척력이 저차원 공간에서의 거리에 비례
데이터 점이 서로 상당히 멀리 떨어져 버린다
34
35. t-SNE의 장점 – (3)
t-SNE의 특징 정리
1. 데이터 점 사이의 거리가 큰 것을 유사하지 않은 점으로 모델링
2. 데이터 점 사이의 거리가 작은 것을 유사한 점으로 모델링
3. Cost ft’n의 최적화가 용이 (사전 매개 변수 탐색이 필요 없음)
35
36. t-SNE 알고리즘 – (1)
36
가장 단순한 알고리즘
이것만으로도 다른 방법에 비해 우수한 결과를 낸다.
37. t-SNE 알고리즘 – (2)
37
학습을 보다 효과적으로 하기 위한 두 가지 기법
1. Early Compression
최적화 시작할 때 맵상의 점을 밀집하도록 한다
비용 함수로 L2 norm regularization 항을 추가
클러스터가 예쁘게 분리되는 것을 도와줌
2. Early exaggeration
최적화 시작 시에 𝑝𝑖𝑗에 적당한 숫자(4)를 적용한다.
𝑞𝑖 𝑗 은 매우 작기 때문에 𝑝𝑖 𝑗 에 대응하기 위해 크게
움직인다
이에 따라 맵점이 널리 퍼지도록 만듬
클러스터가 Global한 구조를 쉽게 찾을 수 있다
학습효율을 높이기 위해 둘 중 어떤 것이라도 사용할 수 있다
38. t-SNE 알고리즘
38
실제 여기에서 다루어 진 매개 변수
Early exaggeration: 4를 처음에 50회
Iteration : 1000회
모멘텀 : 0.5 (𝑡 ≤ 250) 0.8 (𝑡 > 250)
Learning rate :100+Adaptive learning rate의한 최적화
Perplexity: 40
40. Experiments – (1)
아래 7개 방법과 비교
1. Sammon Mapping
2. Isomap
3. Locally Linear Embedding (LLE)
4. Curvilinear Components Analysis (CCA)
5. SNE
6. Maximum Variance Unfolding (MVU)
7. Laplacian Eigenmaps
여기서는 이상 3개만
40
41. Sammon Mapping
Sammon Mapping
고차원 공간에서의 거리와 투영된 이차원 공간에서
의 거리를 최대한 가깝게 만드는 차원 감소 기법
Cost ft’n을 다음과 같이 정의
구배법으로 update
𝑑∗ : 고차원 공간상의 거리𝑖 𝑗
𝑑 𝑖 𝑗 :저차원 공간상의 거리
Y
E
Y (t)
Y (t1)
𝑌(𝑡) ∶ 시간 t에서의 맵점
𝜂 ∶ L.R
Cost ft’n의 변화량 만큼만
41
42. Isomap – (1)
Isomap
k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리
(geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional
scaling)을 사용하여 저차원 공간에 투영한다
측지선 거리(geodesic distance) 란 ?
간단하게 말하면 "다양체에 따른 면상의 거리"
참고 :http://www.slideshare.net/kohta/risomap2차원 다양체 스위스롤
스위스롤을 펼치면
측지선 거리
42
43. k-neighborhood graph 란 ?
노드와 k개의이웃노드를직선거리에기반하여 directedlinks로연결한것
Isomap – (2)
𝑘 = 3인경우의neighborhoodgraph의예
참고 :http://www.slideshare.net/kohta/risomap
43
Isomap
k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리
(geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional
scaling)을 사용하여 저차원 공간에 투영한다
44. Isomap – (3)
어떻게 측지선 거리를 측정하나 ?
다양체에서도 가까운 지점 간에는 Euclidean distance 관계로
k-neighborhood graph를 작성함으로서 측지선 거리를
가까운 점의 Euclidean distance를 합쳐서 근사화
44参考:http://www.slideshare.net/kohta/risomap
Isomap
k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리
(geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional
scaling)을 사용하여 저차원 공간에 투영한다
다양체면을 k-NN graph로 근사 직선거리를 합쳐서 근사
45. 다차원 척도 구성법 (MDS) 이란 ?
거리 데이터만 주어졌을 때 그 거리를 재현하는 것처럼 좌표계를
역산하는 방법
Isomap – (4)
데
이
터
점
취
득
N
N
그
래
프
작
성
측
지
선
거
리
계
산
다
차
원
척
도
구
성
법
에
의
한
좌
표
취
득
산
포
도
상
에
시
각
화
45参考:http://www.slideshare.net/kohta/risomap
Isomap
k-nearest neighborhood graph를 이용하여 다양체의 측지선 거리
(geodesic distance)를 구해 다차원 척도 구성법(multi-dimensional
scaling)을 사용하여 저차원 공간에 투영한다
46. Locally Linear Embedding
Locally Linear Embedding
다양체는 좁은 범위에서 보면 선형 공간으로 간주 할 수있다
좁은 범위에서 구축한 선형모델을 매끄럽게 연결하면 다양체를
잘 표현할 수 있다
각 데이터 점 𝑥𝑖 을 그 근방의 점의 선형 결합으로
아래를 최소화하는 매개 변수 W을 구한다
매개 변수 W을 고정한 채로 저차원 좌표를 구한다
아래를 최소화하는 좌표 Y을 구한다
2
jN(i)W
arg min xi wij xj
𝑁(𝑖) : 𝑥𝑖 의 NN집합
제약조건 :
2
46
jN(i)Y
arg min yi wij yj
𝑦 𝑖: 저차원 공간표현
47. Experiments – (2)
47
이용하는 데이터셋
1. MNIST dataset
28 × 28 = 784 (pixel) 의 0~9까지의 필기 숫자
60000개 데이터로부터 랜덤하게 6000개 샘플링
2. Olivetti faces dataset
40인의 얼굴사진으로 1인당 10매 (400매)
92 × 112 = 10,304 (pixel)
3. COIL-20 dataset
20종류의 물체의 72방향에서 촬영한 사진(1440매)
32 × 32 = 1024 (pixel)
51. Experiments – (3)
51
실험의 절차
1. PCA에 의해 30차원으로 차원 압축
각 데이터 점 사이의 거리 계산 시간의 단축
Noise suppression
2. 각종 기법에 의해 2 차원으로 차원 압축
3. 분산도를 plot
각 데이터 세트는 레이블을 가지고 있지만 차원 압축
에는 전혀 사용하지 않는다
분산도의 색깔과 기호 선택에만 사용
52. Experiments – (4)
실험에 사용한 매개변수
Sammon Mapping
Newton법에 의한 최적화 500 Iteration
Isomap & LLE
NN 그래프에서 가장 접속수가 많은 데이터점 군만을 가시화
52