Chap06 dimensionality reduction

•

0 likes•452 views

종현 최

머신러닝 - 차원축소 이론입니다.

Technology

3
Dimensionality Reduction
Supervised
Dimensionality
Reduction
Un-supervised
Linear
Discriminant
Analysis
Linear
Non-Linear
•PCA
•MDS
Global
Local
•ISOMAP
Locally
Linear
Embedding

4
Factor Analysis
 요인분석 또는 인자분석 이라고 함
 수많은 변수들 중에서 잠재된(Latent) 몇 개의 변수(요인)을 찾아내는 것
 변수들 간의 상관관계를 고려하여 서로 유사한 변수들 끼리 묶어주는 방법
 변수들 중에서 몇 개의 요인(Factor)에 의해 영향을 받는가 알아보는 것
 Factor Analysis 목적
1) 입력변수들의 특성 파악
• 데이터 분석에 앞서 데이터를 이해하는 과정
2) 새로운 변수 생성
• Latent Variable을 추가하여 데이터 분석
3) 차원 축소
• Latent Variable로 차원 축소

5
PCA vs FA
 공통점
• Dimensionality Reduction
• 원래의 데이터로부터 새로운 변수들을 생성
 차이점
1) 생성되는 변수의 수
• FA: 몇 개라고 지정할 수 없음. 데이터의 의미에 따라 다름 (3개, 4개, …)
• PCA: 보통 2개를 가짐.(PC1, PC2)
2) 생성된 변수들의 관계
• FA: Latent Variable들은 기본적으로 대등한 관계를 가짐 어떤 것이 더 중요하다는 것이 없음
• PCA: Target 변수를 고려함. Target을 잘 예측/분류하기 위하여 주성분(변수)들을 찾아냄

6
Independent Component Analysis (ICA)
 독립 성분 분석
 Signal processing에서, 다변량의 신호를 하위 성분(subcomponent)로 분리하는 계산 방법
 블라인드 음원 분리의 한 방법  대표적으로 Cocktail party Problem이 있음

7
MANIFOLD
 ManiFold, 다양체
 Topological space의 일부
 Locally Euclidean
 위상수학과 기하학에서, 다양체(多樣體, 영어: manifold 매니폴드[*])는 국소적으로 유클리드 공간과 닮은 위상 공간이
다. 즉, 국소적으로는 유클리드 공간과 구별할 수 없으나, 대역적으로 독특한 위상수학적 구조를 가질 수 있다. –wiki-
 원은 모든 점에 대해서 국소적으로 직선과 같은 구조를 가짐
따라서, 원은 1차원 다양체(ManiFold)

8
Locally Linear Embedding (LLE)
 로위스와 사울(Roweis, Saul)에 의해 2000년에 소개됨
 Non-linear dimensionality reduction 중에 하나
 머신러닝 가이드 p.169 참고

9
MDS
 PCA처럼 MDS역시 고차원  저차원의 선형 근사치를 구함
 MDS 임베딩은 모든 점들 간의 거리를 보존
 유클리드 공간에서는 PCA와 MDS가 동일

10
ISOMAP
 Non-linear dimensionality reduction 중에 하나
 Euclidean distance 대신 Geodesic distance(측지선, 타원체상에 있는 두 측점사이의 타원체면을 따라 이루어진 거리)
를 이용하여 계산

11
t-SNE
 t-Distributed Stochastic Neighbor Embedding
 Non-linear dimensionality reduction 중에 하나
 고차원  2, 3차원으로 축소해 Visualization하는데 유용하게 사용됨
 비슷한 데이터는 근접하게, 다른 데이터는 멀리 떨어진 곳에 맵핑함

Recently uploaded

캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스

Console API (Kitworks Team Study 백혜인 발표자료)Wonjun Hwang

MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionKim Daeun

Merge (Kitworks Team Study 이성수 발표자료 240426)Wonjun Hwang

Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Kim Daeun

A future that integrates LLMs and LAMs (Symposium)Tae Young Lee

Recently uploaded (6)

캐드앤그래픽스 2024년 5월호 목차

Console API (Kitworks Team Study 백혜인 발표자료)

MOODv2 : Masked Image Modeling for Out-of-Distribution Detection

Merge (Kitworks Team Study 이성수 발표자료 240426)

Continual Active Learning for Efficient Adaptation of Machine LearningModels ...

A future that integrates LLMs and LAMs (Symposium)

Featured

Everything You Need To Know About ChatGPTExpeed Software

Product Design Trends in 2024 | Teenage EngineeringsPixeldarts

How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools

Featured (20)

Everything You Need To Know About ChatGPT

Product Design Trends in 2024 | Teenage Engineerings

How Race, Age and Gender Shape Attitudes Towards Mental Health

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

Skeleton Culture Code

PEPSICO Presentation to CAGNY Conference Feb 2024

Content Methodology: A Best Practices Report (Webinar)

How to Prepare For a Successful Job Search for 2024

Social Media Marketing Trends 2024 // The Global Indie Insights

Trends In Paid Search: Navigating The Digital Landscape In 2024

5 Public speaking tips from TED - Visualized summary

ChatGPT and the Future of Work - Clark Boyd

Getting into the tech field. what next

Google's Just Not That Into You: Understanding Core Updates & Search Intent

How to have difficult conversations

Introduction to Data Science

Time Management & Productivity - Best Practices

The six step guide to practical project management

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...

Chap06 dimensionality reduction

1. 최종현

2. 2 Dimensionality Reduction

3. 3 Dimensionality Reduction Supervised Dimensionality Reduction Un-supervised Linear Discriminant Analysis Linear Non-Linear •PCA •MDS Global Local •ISOMAP Locally Linear Embedding

4. 4 Factor Analysis  요인분석 또는 인자분석 이라고 함  수많은 변수들 중에서 잠재된(Latent) 몇 개의 변수(요인)을 찾아내는 것  변수들 간의 상관관계를 고려하여 서로 유사한 변수들 끼리 묶어주는 방법  변수들 중에서 몇 개의 요인(Factor)에 의해 영향을 받는가 알아보는 것  Factor Analysis 목적 1) 입력변수들의 특성 파악 • 데이터 분석에 앞서 데이터를 이해하는 과정 2) 새로운 변수 생성 • Latent Variable을 추가하여 데이터 분석 3) 차원 축소 • Latent Variable로 차원 축소

5. 5 PCA vs FA  공통점 • Dimensionality Reduction • 원래의 데이터로부터 새로운 변수들을 생성  차이점 1) 생성되는 변수의 수 • FA: 몇 개라고 지정할 수 없음. 데이터의 의미에 따라 다름 (3개, 4개, …) • PCA: 보통 2개를 가짐.(PC1, PC2) 2) 생성된 변수들의 관계 • FA: Latent Variable들은 기본적으로 대등한 관계를 가짐 어떤 것이 더 중요하다는 것이 없음 • PCA: Target 변수를 고려함. Target을 잘 예측/분류하기 위하여 주성분(변수)들을 찾아냄

6. 6 Independent Component Analysis (ICA)  독립 성분 분석  Signal processing에서, 다변량의 신호를 하위 성분(subcomponent)로 분리하는 계산 방법  블라인드 음원 분리의 한 방법  대표적으로 Cocktail party Problem이 있음

7. 7 MANIFOLD  ManiFold, 다양체  Topological space의 일부  Locally Euclidean  위상수학과 기하학에서, 다양체(多樣體, 영어: manifold 매니폴드[*])는 국소적으로 유클리드 공간과 닮은 위상 공간이 다. 즉, 국소적으로는 유클리드 공간과 구별할 수 없으나, 대역적으로 독특한 위상수학적 구조를 가질 수 있다. –wiki-  원은 모든 점에 대해서 국소적으로 직선과 같은 구조를 가짐 따라서, 원은 1차원 다양체(ManiFold)

8. 8 Locally Linear Embedding (LLE)  로위스와 사울(Roweis, Saul)에 의해 2000년에 소개됨  Non-linear dimensionality reduction 중에 하나  머신러닝 가이드 p.169 참고

9. 9 MDS  PCA처럼 MDS역시 고차원  저차원의 선형 근사치를 구함  MDS 임베딩은 모든 점들 간의 거리를 보존  유클리드 공간에서는 PCA와 MDS가 동일

10. 10 ISOMAP  Non-linear dimensionality reduction 중에 하나  Euclidean distance 대신 Geodesic distance(측지선, 타원체상에 있는 두 측점사이의 타원체면을 따라 이루어진 거리) 를 이용하여 계산

11. 11 t-SNE  t-Distributed Stochastic Neighbor Embedding  Non-linear dimensionality reduction 중에 하나  고차원  2, 3차원으로 축소해 Visualization하는데 유용하게 사용됨  비슷한 데이터는 근접하게, 다른 데이터는 멀리 떨어진 곳에 맵핑함

12. THANK YOU

Chap06 dimensionality reduction

Recommended

Recommended

More Related Content

Recently uploaded

Recently uploaded (6)

Featured

Featured (20)

Chap06 dimensionality reduction