Chapter 15 Representation learning - 1

15장 표현 학습 (Representative learning)
김성두 인연준

210 3
아라비아식 표현
로마식 표현
사칙연산이라는 Task가 주어졌을 때
15 표현학습

210 3
70 72
로마 -> 아라비아
8 9
좋은 input = 좋은 input feature = 좋은 표현(representation)
어떤 task를 수행하기에 좋은 표현을 만드는 것 = 표현 학습
8 9
15 표현학습

전체를 하나의 분류기로 볼 수도 있지만
머신러닝의 관점으로 돌아오면
15 표현학습

검은 벽을 기준으로 나누면
로지스틱 회귀
분류라는 task에 사용될
표현들을 만들어줌
분류라는 task 수행
표현학습
15 표현학습

로지스틱 회귀
표현학습은 모든 은닉층에서의 표현이
분류라는 task를 좀 더 쉽게 하게끔 신경망을 훈련하는 것.
표현학습
위 모델에서
머신러닝에서
표현학습은 어떤 task를 좀 더 쉽게 만드는 표현을 훈련하는 것.
15 표현학습

좋은 표현 학습의 예시 1
선형 분리가 안되는 표현을 표현학습을 통해 선형 분리 가능하게 만들어준다
15 표현학습

좋은 표현 학습의 예시 2
밀도추정이 쉬워지는 표현을 학습하고 싶다.
밀도 추정
P(a, b, c, … z)
Joint probability를 구해야함
특성들이 독립이면 쉬움
15 표현학습

표현 학습
15 표현학습
두 가지를 먼저 다뤄봅니다

15.1 탐욕적 층별 비지도 사전훈련
Greedy layer-wise unsupervised pre-training
탐욕적 층별 비지도 사전훈련
어떻게 돌아가는지 배움에 앞서 몇 가지 질문을 해봅시다

그럼 이제 어떻게 돌아가는지 한번 보자!

Binary classification모델을 만들었다고 해보자
(Fully connected network)
𝑊1 𝑊2 𝑊3
표기의 편의상 bias는 생략

𝑊1 𝑊2 𝑊3
Pre-training을 안 하면
Weight 랜덤으로 초기화

𝑊1
1. 𝑾 𝟏 pre-training
Pre-training 하면

𝑊1 𝑊1
𝑇
Input : 𝑋 Label : 𝑋
𝐿(𝑋, 𝑋)를 cost function으로 stacked autoencoder 학습
Forward propagation
Back propagation 𝑊1, 𝑊1
𝑇
는 전치(transpose)관계
Tied weight 라고 부름

𝑊1 fixed

𝑊2
2. 𝑾 𝟐 pre-training

2. 𝑾 𝟐 pre-training
Fixed 𝑊1
𝑊2 𝑊2
𝑇
Forward propagation
Back propagation
𝐿(𝐴, 𝐴)를 cost function으로 stacked autoencoder 학습
Input : 𝑊1 𝑋 = 𝐴Input : 𝑋 label : 𝐴

𝑊2 fixed
2. 𝑾 𝟐 pre-training : pre-training 끝
𝑊1 fixed

3. fine tuning
Fixed 𝑊2Fixed 𝑊1
Forward propagation
𝑊3 랜덤 초기화
Input : 𝑋 label : Y
𝐿(𝑋, 𝑌)를 cost function으로 fully connected network 학습
Back propagation

Layer별로 weight를 학습, 다른 layer는 생각하지 않고 greedy하게 학습

그런데 비지도 사전훈련을 하면 무조건 좋아지는 건가?
ㄴㄴ. 좋아지기는 커녕 해가 되는 task들도 있음
그렇기 때문에 비지도 사전훈련을 할지 말지 결정하려면
언제, 왜 효과를 내는지를 알아야함!

15.1.1 비지도 사전훈련은 언제, 왜 효과가 있는가
이 논의의 대부분은 탐욕적 비지도 사전훈련에 국한 된 것
왜 효과가 있는가?
1. 비지도 사전훈련은 심층 신경망 매개변수들의 초기치를 잘 선택하면
모델에 현저한 정칙화 효과가 생길 수 있다.
2. 비지도 사전훈련은 입력 분포에 관한 학습이
입력에서 출력으로의 mapping에 관한 학습에 도움이 될 수 있다.
제대로 파악되지 않은 상태
1번보단 잘 파악된 상태이지만 수학적 이론적으로 파악 no

이 논의의 대부분은 탐욕적 비지도 사전훈련에 국한 된 것
뇌피셜 : Pre-training을 통해서 manifold를 찾는다
팩트 : pre-training이 추정 과정의 분산을 줄여준다
>> 매개변수들을 어떤 특정 영역으로 초기화해줘서 훈련 결과를 일관되게 해준다.

언제 효과가 있는가?
Pre-training을 더 깊은 신경망에 적용하면 test error의 평균과 분산이 가장 크게 줄었다.
하지만
위의 실험은 현대적인 기법들(ReLU, dropout, batch normalization 등)이 나오기 전에 행해진 것
현대적인 기법들에 대한 비지도 사전훈련의 효과는 파악이 덜된 상태
그리고 지금은 NLP쪽 제외하고는 거의 버려진 상태랍니다…

15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
고양이를 인식하는 신경망 X-ray를 인식하는 신경망
여기서 얻은 지식을 여기에 써먹을 수 있다
기본 컨셉

신경망 학습
고양이 사진 10만개
X-ray 사진 100개
그대로 그대로
얘는 랜덤 초기화

X-ray 사진 100개
얘는 랜덤 초기화
X-ray 사진이 많은 경우 모든 layer를 다시 training
X-ray 사진이 적은 경우 마지막 layer만 training
Pre-training

X-ray 사진 100개
이렇게 layer를 늘려서 학습도 가능!

단발 학습(one-shot learning) : Labeled data를 하나만 사용
주식회사 빅리더에 취업을 하게 된 네 사람
전종식 대표님께서 출입문에 얼굴인식 시스템을 만들고 싶다고 업무를 내려주셨다.

우리의 교재에 따르면
‘label당 대략 5000개 정도의 학습 데이터가 있어야 허용 성능을 보인다.’
라고 하였다.
근데 모든 직원들에게 본인 사진을 5000개씩 제출하라고 할 수는 없는 상황…
이럴 때 one-shot learning을 사용한다

사람 얼굴
이미지
훈련데이터
전이하려고 하는 task와 비슷한 도메인의 데이터로
파라미터 훈련
최종 분류층

전이할 내 얼굴
파라미터 그대로 적용
출입구에 인식된 내 얼굴 두 벡터의 유사도를 계산해서 특정 임계값보다 크면 Ok. 작으면 no
분류보다는 구분에 가깝다

전이되는 하는 task의 데이터가 많고
전이하려고 하는 task의 데이터가 적을 때
잘 작동
즉, 고양이 사진이 많고 X-ray 사진이 적을 때
X-ray 사진 100개
고양이 사진 10만개
그럼 언제 전이학습이 잘 적용될까?

왜 잘 작동?
많은 양의 고양이 사진을 학습함으로써
Low level feature을 학습할 수 있음
Low level feature : 윤곽, 커브, 물체의 일부분

Chapter 15 Representation learning - 1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Chapter 15 Representation learning - 1

Similar to Chapter 15 Representation learning - 1 (20)

More from KyeongUkJang

More from KyeongUkJang (20)

Chapter 15 Representation learning - 1