패턴을 인식하는 데 있어서 가장 기본적으로 알아야 하는 개념은 바로 Feature 공간입니다. 이미지 패턴 인식을 할 때에도 각 이미지를 Feature 공간 안에 배치한 후에 패턴을 인식하게 되는데, 불행히도 이미지는 고차원의 정보이기 때문에 우리가 실제로 느낄 수 있는 차원을 훨씬 뛰어넘는 공간에 배치 되어, 직관적인 패턴 분석이 많이 어렵습니다.
그렇기 때문에 PCA처럼 고차원 데이터를 저차원의 공간으로 Projection 하여 Visualization 하기 위한 수많은 연구들이 진행되어 왔고, 실제로 논문에서 실험 결과를 Visualization 하여 이해를 돕거나, 패턴을 분석하기 전에 데이터들이 어떠한 모양으로 분포하고 있는지에 대한 정보를 얻어 분석 방향을 결정하기도 하였습니다.
이번 세미나에서는 여러 Dimension Reduction 알고리즘들을 알아보고, 그 중에서도 좋은 성능을 자랑하는 알고리즘 중의 하나인 Nonlinear & Non-parametric Visualization 알고리즘인 t-SNE 알고리즘에 대해 살펴보겠습니다. 그리고 이러한 알고리즘들이 Dimension Reduction의 중요한 Point인 Global & Local 관계의 유지와 Manifold data의 Visualization을 얼마나 잘 수행하는지 알아보도록 하겠습니다.
오사카 대학 Nishida Geio군이 Normalization 관련기술 을 정리한 자료입니다.
Normalization이 왜 필요한지부터 시작해서
Batch, Weight, Layer Normalization별로 수식에 대한 설명과 함께
마지막으로 3방법의 비교를 잘 정리하였고
학습의 진행방법에 대한 설명을 Fisher Information Matrix를 이용했는데, 깊이 공부하실 분들에게만 필요할 듯 합니다.
오사카 대학 Nishida Geio군이 Normalization 관련기술 을 정리한 자료입니다.
Normalization이 왜 필요한지부터 시작해서
Batch, Weight, Layer Normalization별로 수식에 대한 설명과 함께
마지막으로 3방법의 비교를 잘 정리하였고
학습의 진행방법에 대한 설명을 Fisher Information Matrix를 이용했는데, 깊이 공부하실 분들에게만 필요할 듯 합니다.
One-stage Network(YOLO, SSD 등)의 문제점 예를 들어 근본적인 문제인 # of Hard positives(object) << # of Easy negatives(back ground) 또는 large object 와 small object 를 동시에 detect하는 경우 등과 같이 극단적인 Class 간 unbalance나 난이도에서 차이가 나는 문제가 동시에 존재함으로써 발생하는 문제를 해결하기 위하여 제시된 Focal loss를 class간 아주 극단적인 unbalance data에 대한 classification 문제(예를 들어 1:10이나 1:100)에 적용한 실험결과가 있어서 정리해봤습니다. 결과적으로 hyper parameter의 설정에 매우 민감하다는 실험결과와 잘만 활용할 경우, class간 unbalance를 해결하기 위한 data level의 sampling 방법이나 classifier level에서의 특별한 고려 없이 좋은 결과를 얻을 수 있다는 내용입니다.
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
본 논문에서는 Hidden layer 뒤에 추가적인 새로운 시각중지 벡터
(visual sentinel vector)를 갖는 LSTM의 확장형을 채택함으로서
- 시각신호로부터 필요 시 언어모델로 전환이 가능한
Adaptive attention encoder-decoder framework을 제안하였고
- 이로 인하여 “white”, “bird”, “stop,”과 같은 시각적 단어에 대해서는 좀 더 이미지에 집중하고, “top”, “of”, “on.”의 경우에는 시각중지를 사용함으로서 Image Captioning의 정확도를 향상
NICE: Non-linear Independent Components Estimation Laurent Dinh, David Krueger, Yoshua Bengio. 2014.
Density estimation using Real NVP
Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio. 2017.
Glow: Generative Flow with Invertible 1x1 Convolutions
Diederik P. Kingma, Prafulla Dhariwal. 2018.
논문 리뷰 자료
Coursera Machine Learning by Andrew NG 강의를 들으면서, 궁금했던 내용을 중심으로 정리.
내가 궁금했던건, 데이터를 분류하는 Decision boundary를 만들때...
- 왜 가중치(W)와 decision boundary가 직교해야 하는지?
- margin은 어떻게 계산하는지?
- margin은 어떻게 최대화 할 수 있는지?
- 실제로 margin을 최대화 하는 과정의 수식은 어떤지?
- 비선형 decision boundary를 찾기 위해서 어떻게 kernel을 이용하는지?...
http://blog.naver.com/freepsw/221032379891
One-stage Network(YOLO, SSD 등)의 문제점 예를 들어 근본적인 문제인 # of Hard positives(object) << # of Easy negatives(back ground) 또는 large object 와 small object 를 동시에 detect하는 경우 등과 같이 극단적인 Class 간 unbalance나 난이도에서 차이가 나는 문제가 동시에 존재함으로써 발생하는 문제를 해결하기 위하여 제시된 Focal loss를 class간 아주 극단적인 unbalance data에 대한 classification 문제(예를 들어 1:10이나 1:100)에 적용한 실험결과가 있어서 정리해봤습니다. 결과적으로 hyper parameter의 설정에 매우 민감하다는 실험결과와 잘만 활용할 경우, class간 unbalance를 해결하기 위한 data level의 sampling 방법이나 classifier level에서의 특별한 고려 없이 좋은 결과를 얻을 수 있다는 내용입니다.
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
본 논문에서는 Hidden layer 뒤에 추가적인 새로운 시각중지 벡터
(visual sentinel vector)를 갖는 LSTM의 확장형을 채택함으로서
- 시각신호로부터 필요 시 언어모델로 전환이 가능한
Adaptive attention encoder-decoder framework을 제안하였고
- 이로 인하여 “white”, “bird”, “stop,”과 같은 시각적 단어에 대해서는 좀 더 이미지에 집중하고, “top”, “of”, “on.”의 경우에는 시각중지를 사용함으로서 Image Captioning의 정확도를 향상
NICE: Non-linear Independent Components Estimation Laurent Dinh, David Krueger, Yoshua Bengio. 2014.
Density estimation using Real NVP
Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio. 2017.
Glow: Generative Flow with Invertible 1x1 Convolutions
Diederik P. Kingma, Prafulla Dhariwal. 2018.
논문 리뷰 자료
Coursera Machine Learning by Andrew NG 강의를 들으면서, 궁금했던 내용을 중심으로 정리.
내가 궁금했던건, 데이터를 분류하는 Decision boundary를 만들때...
- 왜 가중치(W)와 decision boundary가 직교해야 하는지?
- margin은 어떻게 계산하는지?
- margin은 어떻게 최대화 할 수 있는지?
- 실제로 margin을 최대화 하는 과정의 수식은 어떤지?
- 비선형 decision boundary를 찾기 위해서 어떻게 kernel을 이용하는지?...
http://blog.naver.com/freepsw/221032379891
Coursera Machine Learning (by Andrew Ng)_강의정리SANG WON PARK
단순히 공식으로 설명하지 않고, 실제 코드 및 샘플데이터를 이용하여 수식의 결과가 어떻게 적용되는지 자세하게 설명하고 있다.
처음 week1 ~ week4 까지는 김성훈 교수님의 "모두를 위한 딥러닝"에서 한번 이해했던 내용이라 좀 쉽게 진행했고, 나머지는 기초가 부족한 상황이라 다른 자료를 꽤 많이 참고하면서 학습해야 했다.
여러 도서나 강의를 이용하여 머신러닝을 학습하려고 했었는데, 이 강의만큼 나에게 맞는것은 없었던거 같다. 특히 Octave code를 이용한 실습자료는 나중에도 언제든 활용가능할 것 같다.
Week1
Linear Regression with One Variable
Linear Algebra - review
Week2
Linear Regression with Multiple Variables
Octave[incomplete]
Week3
Logistic Regression
Regularization
Week4
Neural Networks - Representation
Week5
Neural Networks - Learning
Week6
Advice for applying machine learning techniques
Machine Learning System Design
Week7
Support Vector Machines
Week8
Unsupervised Learning(Clustering)
Dimensionality Reduction
Week9
Anomaly Detection
Recommender Systems
Week10
Large Scale Machine Learning
Week11
Application Example - Photo OCR
Generative model is nowadays a very good tool for Anomaly Detection. Thus I bring a interesting generative model 'Diffusion' for solving the anomaly detection task. Presentation consists of the concept of diffusion and method to use diffusion for anomaly detection.
Slides based on "Introduction to Machine Learning with Python" by Andreas Muller and Sarah Guido for Hongdae Machine Learning Study(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)
홍대 머신 러닝 스터디(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)의 "파이썬 라이브러리를 활용한 머신러닝"(옮긴이 박해선) 슬라이드 자료.
PR-455: CoTracker: It is Better to Track TogetherHyeongmin Lee
이번 영상에서는 제가 PR 278번째로 소개드린 적 있었던 RAFT의 Point Tracking 버전 논문입니다. 보통 Object Traking은 주어진 bounding box를 track하는 task를 말하는데 본 논문에서는 첫 프레임에 주어진 point를 따라가는 task를 다루고 있습니다. 논문 제목에서 이야기 하듯이, 주어진 point 하나를 따라가는 것보다 여러 point를 함께 따라가면서 서로 정보를 주고받는 등의 interaction을 하는 것이 tracking 성능 향상에 도움이 된다는 것이 이 논문의 main idea입니다.
논문 링크: https://arxiv.org/abs/2307.07635
영상 링크: https://youtu.be/BDfTSm3_hys
PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...Hyeongmin Lee
This document summarizes research on using CLIP to perform end-to-end video clip retrieval. It presents CLIP4Clip, which uses a CLIP backbone pretrained on large image-text datasets to encode video clips and text queries into a shared embedding space. CLIP4Clip flattens patches from a video encoder into vectors and calculates similarity between video and text embeddings for retrieval. It is trained on HowTo100M video clips and outperforms prior work on benchmark datasets like MSR-VTT, achieving state-of-the-art video clip retrieval results.
PR-420: Scalable Model Compression by Entropy Penalized ReparameterizationHyeongmin Lee
제가 이번에 소개드릴 논문은 Scalable Model Compression by Entropy Penalized Reparameterization이라는 논문입니다. 이전에 꾸준히 Deep Learning을 이용한 이미지 및 비디오 압축에 대해 설명드렸던 바가 있는데, 이번에는 Neural Network의 Model Parameter들을 압축하는 방법에 관한 논문입니다.
논문 링크: https://arxiv.org/abs/1906.06624
영상 링크: https://youtu.be/LJ8WD5MKA2o
PR-409: Denoising Diffusion Probabilistic ModelsHyeongmin Lee
이번 논문은 요즘 핫한 Diffusion을 처음으로 유행시킨 Denoising Diffusion Probabilistic Models (DDPM) 입니다. ICML 2015년에 처음 제안된 Diffusion의 여러 실용적인 측면들을 멋지게 해결하여 그 유행의 시작을 알린 논문인데요, Generative Model의 여러 분야와 Diffusion, 그리고 DDPM에서는 무엇이 바뀌었는지 알아보도록 하겠습니다.
논문 링크: https://arxiv.org/abs/2006.11239
영상 링크: https://youtu.be/1j0W_lu55nc
PR-395: Variational Image Compression with a Scale HyperpriorHyeongmin Lee
제가 이번에 소개드릴 논문은 Variational Image Compression with a Scale Hyperprior라는 논문입니다. 지난 328번째 발표에 이어서 두번째 Deep Learning-based Image Compression이고, 지난번 발표때 다루지 못했던 Variational Autoencoder와의 관계와 이번 논문에서의 새 Contribution까지, Deep Learning을 이용한 Image Compression연구는 어떤 고민을 주로 하고 있는지 등을 전달해드리고자 노력하였습니다.
논문 링크: https://arxiv.org/abs/1802.01436
영상 링크: https://youtu.be/ne9ieHRsfCc
PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...Hyeongmin Lee
제가 이번에 소개드릴 논문은 NeRF와 같이 view synthesis를 하는 논문입니다. NeRF 이후로 NeRF의 문제점을 보완하기 위해 여러 방법들이 쏟아져 나왔는데요, 다른 한편으로는 발상의 전환을 통해 NeRF와 다른 방법을 활용하고자 하는 시도들도 있는 편입니다. 그러한 가장 대표적인 방법중 하나인 Neural Light Field Rendering 방식에 대해 설명드리겠습니다.
논문 링크: https://arxiv.org/abs/2106.02634
영상 링크: https://youtu.be/gxag8uvA2Sc
PR-376: Softmax Splatting for Video Frame InterpolationHyeongmin Lee
This document proposes a method called softmax splatting for video frame interpolation. It summarizes previous approaches like averaging frames and using optical flow. Softmax splatting uses optical flow to warp input frames and applies a softmax function to interpolate pixel values, assigning higher weights to pixels with smaller displacement. This allows pixels to be interpolated from multiple locations instead of just their forward flow mapping. The method uses a neural network to estimate optical flow and perform softmax splatting for high quality frame interpolation between input video frames.
PR-365: Fast object detection in compressed videoHyeongmin Lee
이번 PR12 365번째 논문으로 소개드릴 내용은 조금 특이한 접근법입니다. 우리가 실생활에서 접하는 대부분의 비디오는 Compressed 된 형태의 Video인데요, 실제 Computer Vision Task에서 input이 Compressed Video라는 가정을 하게 되면 생각보다 큰 이점을 얻을 수 있습니다. 바로 Compressed Video에는 Motion Vector가 포함되어있다는 점입니다. 이를 이용하면 생각보다 많은 것들을 할 수 있게 됩니다. 그 예시로 Object Detection의 연산량을 크게 줄인 case를 하나 소개드려보고자 합니다.
paper link: https://openaccess.thecvf.com/content_ICCV_2019/html/Wang_Fast_Object_Detection_in_Compressed_Video_ICCV_2019_paper.html
video link: https://youtu.be/9n6OtHtJvJ0
PR-340: DVC: An End-to-end Deep Video Compression FrameworkHyeongmin Lee
이번 PR12 340번째 논문으로 소개드릴 내용은 Deep Learning을 이용한 Video Compression에 관한 내용입니다. 바로 이전 논문으로 Deep Learning을 이용한 Image Compression에 대해 설명드렸었는데요, 시간 여유가 있으신 분들께서는 이전 영상 먼저 보시고 오는 것을 추천드립니다 :)
이전 영상: https://www.youtube.com/watch?v=rtuJqQDWmIA
paper link: https://arxiv.org/abs/1812.00101
youtube link: https://youtu.be/Dd8Gj2ZITkA
PR-328: End-to-End OptimizedImage CompressionHyeongmin Lee
PR 328번째 논문은 ICLR 2017에 발표된 "End-to-End OptimizedImage Compression"이라는 논문입니다.
이미지 압축에 대해 들어보신 적이 있으신가요? 이미지를 더 적은 비트, 즉 더 적은 용량의 데이터로 표현하기 위해 다양한 압축 방법이 제안되어 왔습니다. 가장 대표적인 기술이 JPEG이라고 할 수 있겠는데요, 이 논문에서는 End-to-End Deep Learning을 이용하여 이미지를 압축하는 기법을 제안합니다. 이 논문에서 제안한 방법과 더불어 이미지 압축에 필요한 기본 개념들까지 함께 정리하였으니 이미지 압축이라는 분야가 단순히 무엇인지 궁금하신 분들께서도 앞에서부터 차근차근 봐주시면 감사드리겠습니다 :)
paper link: https://arxiv.org/abs/1611.01704
youtube link: https://youtu.be/rtuJqQDWmIA
PR-315: Taming Transformers for High-Resolution Image SynthesisHyeongmin Lee
요즘 Transformer 구조를 language랑 vision 관계 없이 여기저기 적용해보려는 시도가 매우 다양하게 이루어지고 있는데요, 그래서 이번주 제 발표에서는 이를 High-resolution image synthesis에 활용한, CVPR 2021 Oral Session에서 발표될 논문 하나를 소개해보려고 합니다!
** 방송 기기 문제로 이번 영상은 아이패드 필기 없이 진행됩니다!! **
논문 링크: https://arxiv.org/abs/2012.09841
영상 링크: https://youtu.be/GcbT0IGt0xE
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisHyeongmin Lee
드디어 PR12 Season 4가 시작되었습니다! 제가 이번 시즌에서 발표하게 된 첫 논문은 ""NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis"라는 논문입니다. View Synthesis라는 Task는 몇 개의 시점에서 대상을 찍은 영상이 주어지면 주어지지 않은 위치와 방향에서 바라본 대상의 영상을 합성해내는 기술입니다. 이를 위해서 본 논문에서는 대상의 3D 정보를 통째로 Neural Network가 외우게 하는 방법을 선택했는데요, 이 방식은 Implicit Neural Representation이라는 이름으로 유명해지고 있는 추세고, 2D 이미지에 대해서도 적용하려는 접근들이 늘고 있습니다.
영상 링크: https://youtu.be/zkeh7Tt9tYQ
논문 링크: https://arxiv.org/abs/2003.08934
PR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical FlowHyeongmin Lee
이번 논문은 ECCV2020에서 Best Paper를 받은 논문으로, 기존 방법들과는 다르게 반복적인 Update를 통해 Optical Flow를 예측하여 꽤나 높은 성능을 기록한 논문입니다.
paper link: https://arxiv.org/pdf/2003.12039.pdf
video link: https://youtu.be/OnZIDatotZ4
이번에 다룰 논문은 "Learning by Analogy: Reliable Supervision From Transformations for Unsupervised Optical Flow Estimation"이라는 논문입니다. 얼마 전에 발표드렸던 FlowNet 논문처럼 이 논문도 Deep Learning을 통해 Optical Flow를 학습하는 방법입니다. 다른 점이 하나 있다면, Unsupervised 방식으로 학습이 진행된다는 점입니다. Supervised 방식 만큼이나 Unsupervised 방식으로 Optical Flow를 학습하는 연구 역시 이미 많이 진행이 되어 왔는데요, 오늘 소개 드릴 논문에서는 Data Augmentation을 통한 Consistency를 활용하여 성능을 높이는 방식을 채용한 경우를 소개드리고자 합니다.
영상 링크: 이번에 다룰 논문은 "Learning by Analogy: Reliable Supervision From Transformations for Unsupervised Optical Flow Estimation"이라는 논문입니다. 얼마 전에 발표드렸던 FlowNet 논문처럼 이 논문도 Deep Learning을 통해 Optical Flow를 학습하는 방법입니다. 다른 점이 하나 있다면, Unsupervised 방식으로 학습이 진행된다는 점입니다. Supervised 방식 만큼이나 Unsupervised 방식으로 Optical Flow를 학습하는 연구 역시 이미 많이 진행이 되어 왔는데요, 오늘 소개 드릴 논문에서는 Data Augmentation을 통한 Consistency를 활용하여 성능을 높이는 방식을 채용한 경우를 소개드리고자 합니다.
PR-252: Making Convolutional Networks Shift-Invariant AgainHyeongmin Lee
이번 논문은 Convolutional Neural Network에서 발생하는 Aliasing 문제를 지적하고, 이를 고전적인 신호처리 기법을 이용하여 해결하는 논문입니다.
Paper Link: https://arxiv.org/abs/1904.11486
Youtube Link: https://youtu.be/oTIBFH6M7YM
PR-240: Modulating Image Restoration with Continual Levels viaAdaptive Featu...Hyeongmin Lee
이번 논문은 Modulating Image Restoration with Continual Levels via Adaptive Feature Modification Layers로, Image Processing을 위해 학습된 Network가 여러 Noise Level에 대하여 동작할 수 있도록 Control 가능한 Parameter를 추가하는 방법론을 소개하는 논문입니다.
동영상 링크: https://youtu.be/WXGqYbKQzWY
PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...Hyeongmin Lee
이번 논문은, Video로부터 Unsupervised 방식을 통해 Flow, Depth, Camera Ego-motion까지 뽑아내는 GeoNet이라는 알고리즘입니다. Computer Vision에서 다루는 3D Geometry에 대해 간략히 설명 드린 후에 GeoNet 알고리즘을 소개하는 영상입니다.
PR-214: FlowNet: Learning Optical Flow with Convolutional NetworksHyeongmin Lee
제 PR12 첫번째 발표 논문은 FlowNet이라는 논문입니다.
Optical Flow는 비디오의 인접한 Frame에 대하여 각 Pixel이 첫 번째 Frame에서 두 번째 Frame으로 얼마나 이동했는지의 Vector를 모든 위치에 대하여 나타낸 Map입니다. Video에 Motion을 분석하는 일은 매우 중요하기 때문에, 이러한 Optical Flow 역시 굉장히 중요한 요소 중 하나인데요, 이번 영상에서는 고전적인 Computer Vision에서 쓰였던 다양한 Optical Flow 알고리즘들과, Deep Learning Based로 Optical Flow를 구하는 Neural Network인 FlowNet에 대하여 알아보겠습니다.
감사합니다!!
영상 링크: https://youtu.be/Z_t0shK98pM
논문 링크: http://openaccess.thecvf.com/content_iccv_2015/html/Dosovitskiy_FlowNet_Learning_Optical_ICCV_2015_paper.html
[PR12] Making Convolutional Networks Shift-Invariant AgainHyeongmin Lee
This document discusses anti-aliasing techniques for convolutional neural networks to improve shift-invariance. It first explains the concept of shift-invariance and how aliasing can occur from operations like max pooling and strided convolutions, making networks shift-variant. It then proposes applying anti-aliasing by blurring feature maps before pooling or downsampling to remove high-frequency components and make the representations more shift-equivariant and ultimately shift-invariant. Experimental results show this anti-aliasing approach improves consistency, accuracy, and performance on image translation tasks.
16. 03 History of Dimension Reduction
History
1936 Linear Discriminant Analysis (LDA)
1901 Principal Component Analysis (PCA) - Karl Pearson
- Ronald Fisher
2000 Isomap - Tenenbaum et al.
Locally Linear Embedding - Roweis et al.
2003 Stochastic Neighbor Embedding (SNE) - Geoffrey Hinton
2008 t-distributed SNE (t-SNE) - Laurens Matten
Linear Method
Nonlinear Method
1964 Multidimensional Scaling (MDS) - Kruskal
17. 03 History of Dimension Reduction
PCA
Dimension Reduction = 데이터들의 분포에 의해 생겨난, ‘의미론적인’축을 찾는 것
Linear한 분포에 대해서는 기가 막히게 잘 찾는다…!
18. 03 History of Dimension Reduction
PCA
Swiss Roll Data
19. 03 History of Dimension Reduction
PCA
Swiss Roll Data
20. 03 History of Dimension Reduction
PCA
Swiss Roll Data
21. 03 History of Dimension Reduction
PCA
Swiss Roll Data
We need Nonlinear Methods!!!
22. 03 History of Dimension Reduction
Nonlinear Method1: Multidimensional Scaling (MDS)
𝑥𝑖: 𝐻𝑖𝑔ℎ 𝐷𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛𝑎𝑙 𝑃𝑜𝑖𝑛𝑡
𝑦𝑖: 𝐿𝑜𝑤 𝐷𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛𝑎𝑙 𝑃𝑜𝑖𝑛𝑡
𝑦𝑖 = 𝑎𝑟𝑔𝑚𝑖𝑛
𝑦 𝑖
(
𝑗
(1 −
𝑦𝑖 − 𝑦𝑗
𝑥𝑖 − 𝑥𝑗
))
• High Dimensional 공간에서의 점들 간의 거리를 Low Dimensional 공간에서도 그대
로 유지하려는 방향의 Optimization
23. 03 History of Dimension Reduction
Nonlinear Method2: Isomap
• Manifold Data를 해석하기 위해, 각 점들의 거리를 다르게 정의
• 실제 Euclidean 거리 대신 Graph 상의 거리를 채택(해당 점까지 가기 위해 거쳐야
하는 Node의 최소 개수)
24. 03 History of Dimension Reduction
Nonlinear Method3: Locally Linear Embedding
• 중앙 점 𝑥𝑖가 주변의 neighborhood들의 Linear Combination으로 나타내어 질 수
있도록 하는 Weight들을 구한다.
• 이 Weight들이 Low Dimension Space에서도 유지될 수 있도록 Embedding한다.
• 좁은 범위에서 근사 된 Linear model을 매끄럽게 이어나가는 방식
25. 03 History of Dimension Reduction
Nonlinear Method: Result
• MDS의 경우, 모든 점을 전부 탐색해야 하기 때문에 시간이 매우 오래 걸리며, 사실
Euclidean Distance를 최소화 시킨다는 점에서 PCA와의 기능적 차이를 내지 못한다.
• Isomap과 LLE는 다른 알고리즘들에 비해 Swiss Roll 데이터를 매우 잘 표현하지만,
각 점이 주변의 Neighbor들만 고려하기 때문에 전체적인 구조를 반영하는 데 한계
가 있으며, Swiss Roll처럼 인위적으로 만들어진 데이터 이외에는 좋은 성능을 보여
주지 못한다는 단점이 있다.
27. 04 Stochastic Neighbor Embedding
High Dimensional Domain에서의 거리 함수
𝑝𝑗|𝑖 =
exp(−
𝑥𝑖 − 𝑥𝑗
2
2𝜎𝑖
2 )
𝑘≠𝑖 exp(−
𝑥𝑖 − 𝑥 𝑘
2
2𝜎𝑖
2 )
𝑝𝑗|𝑖 i번째 점을 기준으로 j번째 점이 가까운 정도. (j번째 점을 “나랑 가까운
점”이라고 판단할 확률)
• i번째 점을 중심으로 하는 Gaussian 분포의 조건부 확률을 채택
• 식에 등장하는 분산의 값은 뒤에서 따로 정의
28. 04 Stochastic Neighbor Embedding
Low Dimensional Domain에서의 거리 함수
𝑞𝑗|𝑖 =
exp(− 𝑦𝑖 − 𝑦𝑗
2
)
𝑘≠𝑖 exp(− 𝑦𝑖 − 𝑦 𝑘
2)
𝑞 𝑗|𝑖 i번째 점을 기준으로 j번째 점이 가까운 정도. (j번째 점을 “나랑 가까운
점”이라고 판단할 확률)
• High Dimension과 유사한 구조
• 논문에 따르면 Variance가 사라진 이유는 High에서 Low Dimension으로 떨
어지면서 손실된 정보의 일부로 볼 수 있기 때문이라고 한다.
• 우리의 목적은 𝑝𝑗|𝑖와 𝑞 𝑗|𝑖가 같아지도록 만드는 것이다.
29. 04 Stochastic Neighbor Embedding
Cost Function
𝐶 =
𝑖 𝑗
𝑝𝑗|𝑖 log
𝑝𝑗|𝑖
𝑞𝑗|𝑖
• Cost 함수로 KL divergence를 채택
• 함수의 구조가 비대칭이므로 다음과 같은 성질을 띤다.
High Dimension에서의 거리
𝑝𝑗|𝑖 𝑞 𝑗|𝑖
Low Dimension에서의 거리
멀다 작다 커야 한다 가까워야 한다.
가깝다 크다 더 커야 한다 더 가까워야 한다.
• 그렇기 때문에 이 Cost 함수로 Optimization을 하면 원하는 결과를 얻을 수
있게 된다.
30. 04 Stochastic Neighbor Embedding
분산 값의 채택과 Perplexity
𝑝𝑒𝑟𝑝 = 2 𝐻(𝑃)
𝐻(𝑃) = −
𝑗
𝑝𝑗|𝑖 log2 𝑝𝑗|𝑖
• Perplexity는 P의 Shannon Entropy인 H 값에 대해 2의 H제곱 한 값으로 정
의되는데, 실용적으로는 i번째 점 주변에 ‘그 점의 Neighbor’라고 할 수 있을
만큼 가까운 점들의 개수라고 해석할 수 있다.
• 우리는 이 Perplexity를 먼저 5~50의 상수로 정하고, 모든 점에 대해
Perplexity가 일정하게 유지되도록 하는 분산 값을 각각 할당해주게 된다.
33. 05 T-Distributed SNE
Symmetric SNE
• 앞에서 정의한 거리 함수는 Conditional Probability이기 때문에 Symmetric하
지 못하므로, Joint Probability를 사용
𝑞𝑖𝑗 =
exp(− 𝑦𝑖 − 𝑦𝑗
2
)
𝑘≠𝑙 exp(− 𝑦 𝑘 − 𝑦𝑙
2)
𝑝𝑖𝑗 =
exp(−
𝑥𝑖 − 𝑥𝑗
2
2𝜎2 )
𝑘≠𝑙 exp(−
𝑥 𝑘 − 𝑥𝑙
2
2𝜎2 )
34. 05 T-Distributed SNE
Symmetric SNE
• 문제점이 발생. 만약 i번째 점이 다른 점들 로부터 멀리 떨어진 outlier인 경
우 이전에는 분산 값이 커져서 괜찮았지만, 분산 값이 하나로 통일된 지금같
은 상황에서 Outlier에 대해 p 값이 비정상적으로 작게 나오는 현상 발생
• P를 다시 정의해야 한다.
𝑝𝑖𝑗 =
𝑝𝑗|𝑖 + 𝑝𝑖|𝑗
2𝑛
𝑡ℎ𝑒𝑛,
𝑗
𝑝𝑖𝑗 >
1
2𝑛
36. 05 T-Distributed SNE
The Crowding Problem
• 고차원에서 저차원으로 점을 Projection 하면, 거리의 멀고 가까운 개념이 붕
괴되는 경우가 있다.
• 예를 들어 3차원에서는 서로 다른 4개의 점이 서로와 같은 거리에 위치하도
록 할 수 있는데 2차원에서는 불가능
• 고차원에서 멀리 떨어져 있던 점은 저차원에서 더 멀게, 고차원에서 가까웠
던 점은 저차원에서 더 가깝게 만들어줄 인위적인 장치가 필요
38. 05 T-Distributed SNE
The student t-distribution
• 가까운 점의 q 값을 실제보다 저평가 더 가까워지려고 한다.
• 먼 점의 q 값을 실제보다 고평가 굳이 더 가까워지려고 하지 않는다.
(더 멀어진다.)
39. 05 T-Distributed SNE
Eventually, the derivative will be…
𝜕𝐶
𝜕𝑦𝑖
= 4
𝑗
(𝑝𝑖𝑗 − 𝑞𝑖𝑗) 𝑦𝑖 − 𝑦𝑗 1 + 𝑦𝑖 − 𝑦𝑗
2 −1
Weakness
• Student t-Distribution 때문에 데이터들이 Cluster 위주로 너무 잘 뭉치게 되
어, Visualization에는 좋지만 다른 용도로 쓰이거나 dimension 3이상의 공간
으로 Projection 시키기에는 좋지 않다.
• Convex Function이 아니기 때문에 완벽한 수렴이 보장되지는 않는다.