오사카 대학 Nishida Geio군이 Normalization 관련기술 을 정리한 자료입니다.
Normalization이 왜 필요한지부터 시작해서
Batch, Weight, Layer Normalization별로 수식에 대한 설명과 함께
마지막으로 3방법의 비교를 잘 정리하였고
학습의 진행방법에 대한 설명을 Fisher Information Matrix를 이용했는데, 깊이 공부하실 분들에게만 필요할 듯 합니다.
패턴을 인식하는 데 있어서 가장 기본적으로 알아야 하는 개념은 바로 Feature 공간입니다. 이미지 패턴 인식을 할 때에도 각 이미지를 Feature 공간 안에 배치한 후에 패턴을 인식하게 되는데, 불행히도 이미지는 고차원의 정보이기 때문에 우리가 실제로 느낄 수 있는 차원을 훨씬 뛰어넘는 공간에 배치 되어, 직관적인 패턴 분석이 많이 어렵습니다.
그렇기 때문에 PCA처럼 고차원 데이터를 저차원의 공간으로 Projection 하여 Visualization 하기 위한 수많은 연구들이 진행되어 왔고, 실제로 논문에서 실험 결과를 Visualization 하여 이해를 돕거나, 패턴을 분석하기 전에 데이터들이 어떠한 모양으로 분포하고 있는지에 대한 정보를 얻어 분석 방향을 결정하기도 하였습니다.
이번 세미나에서는 여러 Dimension Reduction 알고리즘들을 알아보고, 그 중에서도 좋은 성능을 자랑하는 알고리즘 중의 하나인 Nonlinear & Non-parametric Visualization 알고리즘인 t-SNE 알고리즘에 대해 살펴보겠습니다. 그리고 이러한 알고리즘들이 Dimension Reduction의 중요한 Point인 Global & Local 관계의 유지와 Manifold data의 Visualization을 얼마나 잘 수행하는지 알아보도록 하겠습니다.
오사카 대학 Nishida Geio군이 Normalization 관련기술 을 정리한 자료입니다.
Normalization이 왜 필요한지부터 시작해서
Batch, Weight, Layer Normalization별로 수식에 대한 설명과 함께
마지막으로 3방법의 비교를 잘 정리하였고
학습의 진행방법에 대한 설명을 Fisher Information Matrix를 이용했는데, 깊이 공부하실 분들에게만 필요할 듯 합니다.
패턴을 인식하는 데 있어서 가장 기본적으로 알아야 하는 개념은 바로 Feature 공간입니다. 이미지 패턴 인식을 할 때에도 각 이미지를 Feature 공간 안에 배치한 후에 패턴을 인식하게 되는데, 불행히도 이미지는 고차원의 정보이기 때문에 우리가 실제로 느낄 수 있는 차원을 훨씬 뛰어넘는 공간에 배치 되어, 직관적인 패턴 분석이 많이 어렵습니다.
그렇기 때문에 PCA처럼 고차원 데이터를 저차원의 공간으로 Projection 하여 Visualization 하기 위한 수많은 연구들이 진행되어 왔고, 실제로 논문에서 실험 결과를 Visualization 하여 이해를 돕거나, 패턴을 분석하기 전에 데이터들이 어떠한 모양으로 분포하고 있는지에 대한 정보를 얻어 분석 방향을 결정하기도 하였습니다.
이번 세미나에서는 여러 Dimension Reduction 알고리즘들을 알아보고, 그 중에서도 좋은 성능을 자랑하는 알고리즘 중의 하나인 Nonlinear & Non-parametric Visualization 알고리즘인 t-SNE 알고리즘에 대해 살펴보겠습니다. 그리고 이러한 알고리즘들이 Dimension Reduction의 중요한 Point인 Global & Local 관계의 유지와 Manifold data의 Visualization을 얼마나 잘 수행하는지 알아보도록 하겠습니다.
Coursera Machine Learning (by Andrew Ng)_강의정리SANG WON PARK
단순히 공식으로 설명하지 않고, 실제 코드 및 샘플데이터를 이용하여 수식의 결과가 어떻게 적용되는지 자세하게 설명하고 있다.
처음 week1 ~ week4 까지는 김성훈 교수님의 "모두를 위한 딥러닝"에서 한번 이해했던 내용이라 좀 쉽게 진행했고, 나머지는 기초가 부족한 상황이라 다른 자료를 꽤 많이 참고하면서 학습해야 했다.
여러 도서나 강의를 이용하여 머신러닝을 학습하려고 했었는데, 이 강의만큼 나에게 맞는것은 없었던거 같다. 특히 Octave code를 이용한 실습자료는 나중에도 언제든 활용가능할 것 같다.
Week1
Linear Regression with One Variable
Linear Algebra - review
Week2
Linear Regression with Multiple Variables
Octave[incomplete]
Week3
Logistic Regression
Regularization
Week4
Neural Networks - Representation
Week5
Neural Networks - Learning
Week6
Advice for applying machine learning techniques
Machine Learning System Design
Week7
Support Vector Machines
Week8
Unsupervised Learning(Clustering)
Dimensionality Reduction
Week9
Anomaly Detection
Recommender Systems
Week10
Large Scale Machine Learning
Week11
Application Example - Photo OCR
Coursera Machine Learning (by Andrew Ng)_강의정리SANG WON PARK
단순히 공식으로 설명하지 않고, 실제 코드 및 샘플데이터를 이용하여 수식의 결과가 어떻게 적용되는지 자세하게 설명하고 있다.
처음 week1 ~ week4 까지는 김성훈 교수님의 "모두를 위한 딥러닝"에서 한번 이해했던 내용이라 좀 쉽게 진행했고, 나머지는 기초가 부족한 상황이라 다른 자료를 꽤 많이 참고하면서 학습해야 했다.
여러 도서나 강의를 이용하여 머신러닝을 학습하려고 했었는데, 이 강의만큼 나에게 맞는것은 없었던거 같다. 특히 Octave code를 이용한 실습자료는 나중에도 언제든 활용가능할 것 같다.
Week1
Linear Regression with One Variable
Linear Algebra - review
Week2
Linear Regression with Multiple Variables
Octave[incomplete]
Week3
Logistic Regression
Regularization
Week4
Neural Networks - Representation
Week5
Neural Networks - Learning
Week6
Advice for applying machine learning techniques
Machine Learning System Design
Week7
Support Vector Machines
Week8
Unsupervised Learning(Clustering)
Dimensionality Reduction
Week9
Anomaly Detection
Recommender Systems
Week10
Large Scale Machine Learning
Week11
Application Example - Photo OCR
2. 11 특수 기저 Intro
• 이 장은 우선 기저의 변경에 대해서 이야기를 시작하고 k-
스파스를 이용한 행렬 연산의 변환을 이야기 한다.
• k-스파스를 이용한 변환의 경우 큰 이미지나 동영상 등을
압축하면 그 시간이 다소 비현실적이다.
• 이 계산을 간략하게 해주는 역할로 특수 기저를 사용한다.
• 특수 기저로 다루는 내용은 크게 웨이브릿 변환과 푸리에
변환이다.
3. 11.1 가장 가까운
k-스파스 벡터
• Input : 벡터 b , 정수 k
• Output : b에 가장 가까운 k-스파스 벡터 b
• 이 계산은 compression by suppression이라는 프로시저
를 통해서 계산하여 압축할 수 있지만 결과는 알아보기 힘
듬.
~
423p. 이미지 424p. 이미지
4. 11.2 주어진 기저에 대한 표현이
k-스파스인 가장 가까운 벡터
• 앞과 같이 compression by supperssion에 의해 압축을
하게 되면 이미지를 알아보기 힘듬
• 이를 해결하기 위한 방법으로 주어진 기저로 된 표현이 스
파스인 가장 가까운 벡터를 구한다.
5. • 이제는 기저의 특수한 상황을 알아 보면 기저가
가 정규직교하는 경우에 대해서 알아본다.
• Q는 직교행렬이고 Q의 역행렬을 Q (Corollary 10.7.3에
의거)
Qx=b -> x=Q b
• 하지만 이 연산은 100만 화소의 경우나 동영상의 경우는 연산
을 해야 하는 양이 너무 많으므로 계산을 간략하게 하기 위하여
웨리브릿기저를 사용한다.
• 정규직교 기저의 장점 중에 norm(거리)를
보존한다.
• 그람-슈미트과정에 의해 정규직교 기저를
정의했다.
T
T
기저의 모든성분
벡터가 직교
직교기저
성분벡터의 norm = 1
정규직교기저
13. • 지금까지는 기저들을 표현하는데 norm의 값이 1이 아니기
때문에 정규직교 기저가 아니다
정규직교 기저가 되기 위해서는 norm의 값을 1로 만들어
야 하기 때문에 정규화계산을 하여 정규직교 기저로 만들
수 있다.
• 기존의 선형결합으로
여기서 벡터 에 벡터 의 스칼라 값을 나눠 주어 단위
벡터로 바꾸어 준다.
14. 11.4 다항식 평가와 인터
폴레이션
• 인터폴레이션의 정의 : 통계적 혹은 실험적으로 구해진 데
이터들(xi)로부터, 주어진 데이터를 만족하는 근사 함수
(f(x))를 구하고,
이 식을 이용하여 주어진 변수에 대한 함수 값을 구하는
일련의 과정을 의미
• 이고 이 모두 다를 경우,
이를 가역함수
15. 11.5 푸리에 변환(Fourier
transform)
• 정의 : 시간에 대한 함수 (혹은 신호) 를 함수를 구성하고
있는 주파수 성분으로 분해하는 작업
• 푸리에 변환의 직관적인 이해는 주기함수를 이루는 사인
파를 이용하여 각각의 주기함수들의 진폭과 주기, 강도등
을 중첩하여 하나의 파동으로 변환한다.
그림은 하나의 예
푸리에 변환 (그림출처: 위키피디아)
16. 11.6 이산 푸리에 변환
• 먼저 푸리에 급수의 각 항의 값을 이산적으로 풀어나 나열
하여 이해하기 위해서 n개의 스톱워치를 통해 설명
• 는 시간이 증가함에 따라 속도는 다르지만 반지름이
인 원을 따라 돈다.
• 일 때, 나열하여 주기가
n/k임을 확인할 수 있다.
• 기저 함수 샘플링
푸리에 계수
17. • 푸리에 역행렬은 푸리에 행렬과 모양이 비슷하여 행렬이
형태중에서 특수한 경우이다.
• 푸리에 역행렬의 핵심 :
• 패스트 푸리에 변환(FFT)
FFT 전제 조건 : n=2의 거듭제곱,
• FFT 알고리즘
1) 짝수번과 홀수번으로 나누어서 구성
2) 나눈 방정식을 다음과 같이 표현
18. 11.7 복소수의 필드에 대
한 내적
• 복소수 필드상의 벡터들의 내적
• 복소수 필드상의 자기자신과의 내적은 음이 아닌 실수다.
• 복소수 필드상의 norm