4. 4
Factor Analysis
요인분석 또는 인자분석 이라고 함
수많은 변수들 중에서 잠재된(Latent) 몇 개의 변수(요인)을 찾아내는 것
변수들 간의 상관관계를 고려하여 서로 유사한 변수들 끼리 묶어주는 방법
변수들 중에서 몇 개의 요인(Factor)에 의해 영향을 받는가 알아보는 것
Factor Analysis 목적
1) 입력변수들의 특성 파악
• 데이터 분석에 앞서 데이터를 이해하는 과정
2) 새로운 변수 생성
• Latent Variable을 추가하여 데이터 분석
3) 차원 축소
• Latent Variable로 차원 축소
5. 5
PCA vs FA
공통점
• Dimensionality Reduction
• 원래의 데이터로부터 새로운 변수들을 생성
차이점
1) 생성되는 변수의 수
• FA: 몇 개라고 지정할 수 없음. 데이터의 의미에 따라 다름 (3개, 4개, …)
• PCA: 보통 2개를 가짐.(PC1, PC2)
2) 생성된 변수들의 관계
• FA: Latent Variable들은 기본적으로 대등한 관계를 가짐 어떤 것이 더 중요하다는 것이 없음
• PCA: Target 변수를 고려함. Target을 잘 예측/분류하기 위하여 주성분(변수)들을 찾아냄
6. 6
Independent Component Analysis (ICA)
독립 성분 분석
Signal processing에서, 다변량의 신호를 하위 성분(subcomponent)로 분리하는 계산 방법
블라인드 음원 분리의 한 방법 대표적으로 Cocktail party Problem이 있음
7. 7
MANIFOLD
ManiFold, 다양체
Topological space의 일부
Locally Euclidean
위상수학과 기하학에서, 다양체(多樣體, 영어: manifold 매니폴드[*])는 국소적으로 유클리드 공간과 닮은 위상 공간이
다. 즉, 국소적으로는 유클리드 공간과 구별할 수 없으나, 대역적으로 독특한 위상수학적 구조를 가질 수 있다. –wiki-
원은 모든 점에 대해서 국소적으로 직선과 같은 구조를 가짐
따라서, 원은 1차원 다양체(ManiFold)
8. 8
Locally Linear Embedding (LLE)
로위스와 사울(Roweis, Saul)에 의해 2000년에 소개됨
Non-linear dimensionality reduction 중에 하나
머신러닝 가이드 p.169 참고
9. 9
MDS
PCA처럼 MDS역시 고차원 저차원의 선형 근사치를 구함
MDS 임베딩은 모든 점들 간의 거리를 보존
유클리드 공간에서는 PCA와 MDS가 동일
11. 11
t-SNE
t-Distributed Stochastic Neighbor Embedding
Non-linear dimensionality reduction 중에 하나
고차원 2, 3차원으로 축소해 Visualization하는데 유용하게 사용됨
비슷한 데이터는 근접하게, 다른 데이터는 멀리 떨어진 곳에 맵핑함