SlideShare a Scribd company logo
15장 표현 학습 (Representative learning)
김성두 인연준
210 3
아라비아식 표현
로마식 표현
사칙연산이라는 Task가 주어졌을 때
15 표현학습
210 3
70 72
로마 -> 아라비아
8 9
좋은 input = 좋은 input feature = 좋은 표현(representation)
어떤 task를 수행하기에 좋은 표현을 만드는 것 = 표현 학습
8 9
15 표현학습
전체를 하나의 분류기로 볼 수도 있지만
머신러닝의 관점으로 돌아오면
15 표현학습
검은 벽을 기준으로 나누면
로지스틱 회귀
분류라는 task에 사용될
표현들을 만들어줌
분류라는 task 수행
표현학습
15 표현학습
로지스틱 회귀
표현학습은 모든 은닉층에서의 표현이
분류라는 task를 좀 더 쉽게 하게끔 신경망을 훈련하는 것.
표현학습
위 모델에서
머신러닝에서
표현학습은 어떤 task를 좀 더 쉽게 만드는 표현을 훈련하는 것.
15 표현학습
좋은 표현 학습의 예시 1
선형 분리가 안되는 표현을 표현학습을 통해 선형 분리 가능하게 만들어준다
15 표현학습
좋은 표현 학습의 예시 2
밀도추정이 쉬워지는 표현을 학습하고 싶다.
밀도 추정
P(a, b, c, … z)
Joint probability를 구해야함
특성들이 독립이면 쉬움
15 표현학습
표현 학습
15 표현학습
두 가지를 먼저 다뤄봅니다
15.1 탐욕적 층별 비지도 사전훈련
Greedy layer-wise unsupervised pre-training
탐욕적 층별 비지도 사전훈련
어떻게 돌아가는지 배움에 앞서 몇 가지 질문을 해봅시다
15.1 탐욕적 층별 비지도 사전훈련
Greedy layer-wise unsupervised pre-training
탐욕적 층별 비지도 사전훈련
15.1 탐욕적 층별 비지도 사전훈련
Greedy layer-wise unsupervised pre-training
탐욕적 층별 비지도 사전훈련
그럼 이제 어떻게 돌아가는지 한번 보자!
15.1 탐욕적 층별 비지도 사전훈련
Binary classification모델을 만들었다고 해보자
(Fully connected network)
𝑊1 𝑊2 𝑊3
표기의 편의상 bias는 생략
15.1 탐욕적 층별 비지도 사전훈련
𝑊1 𝑊2 𝑊3
Pre-training을 안 하면
Weight 랜덤으로 초기화
15.1 탐욕적 층별 비지도 사전훈련
𝑊1
1. 𝑾 𝟏 pre-training
Pre-training 하면
15.1 탐욕적 층별 비지도 사전훈련
1. 𝑾 𝟏 pre-training
𝑊1 𝑊1
𝑇
Input : 𝑋 Label : 𝑋
𝐿(𝑋, 𝑋)를 cost function으로 stacked autoencoder 학습
Forward propagation
Back propagation 𝑊1, 𝑊1
𝑇
는 전치(transpose)관계
Tied weight 라고 부름
15.1 탐욕적 층별 비지도 사전훈련
𝑊1 fixed
1. 𝑾 𝟏 pre-training
15.1 탐욕적 층별 비지도 사전훈련
𝑊2
2. 𝑾 𝟐 pre-training
15.1 탐욕적 층별 비지도 사전훈련
2. 𝑾 𝟐 pre-training
Fixed 𝑊1
𝑊2 𝑊2
𝑇
Forward propagation
Back propagation
𝐿(𝐴, 𝐴)를 cost function으로 stacked autoencoder 학습
Input : 𝑊1 𝑋 = 𝐴Input : 𝑋 label : 𝐴
15.1 탐욕적 층별 비지도 사전훈련
𝑊2 fixed
2. 𝑾 𝟐 pre-training : pre-training 끝
𝑊1 fixed
15.1 탐욕적 층별 비지도 사전훈련
3. fine tuning
Fixed 𝑊2Fixed 𝑊1
Forward propagation
𝑊3 랜덤 초기화
Input : 𝑋 label : Y
𝐿(𝑋, 𝑌)를 cost function으로 fully connected network 학습
Back propagation
15.1 탐욕적 층별 비지도 사전훈련
Greedy layer-wise unsupervised pre-training
탐욕적 층별 비지도 사전훈련
Layer별로 weight를 학습, 다른 layer는 생각하지 않고 greedy하게 학습
15.1 탐욕적 층별 비지도 사전훈련
그런데 비지도 사전훈련을 하면 무조건 좋아지는 건가?
ㄴㄴ. 좋아지기는 커녕 해가 되는 task들도 있음
그렇기 때문에 비지도 사전훈련을 할지 말지 결정하려면
언제, 왜 효과를 내는지를 알아야함!
15.1.1 비지도 사전훈련은 언제, 왜 효과가 있는가
이 논의의 대부분은 탐욕적 비지도 사전훈련에 국한 된 것
왜 효과가 있는가?
1. 비지도 사전훈련은 심층 신경망 매개변수들의 초기치를 잘 선택하면
모델에 현저한 정칙화 효과가 생길 수 있다.
2. 비지도 사전훈련은 입력 분포에 관한 학습이
입력에서 출력으로의 mapping에 관한 학습에 도움이 될 수 있다.
제대로 파악되지 않은 상태
1번보단 잘 파악된 상태이지만 수학적 이론적으로 파악 no
15.1.1 비지도 사전훈련은 언제, 왜 효과가 있는가
이 논의의 대부분은 탐욕적 비지도 사전훈련에 국한 된 것
뇌피셜 : Pre-training을 통해서 manifold를 찾는다
팩트 : pre-training이 추정 과정의 분산을 줄여준다
>> 매개변수들을 어떤 특정 영역으로 초기화해줘서 훈련 결과를 일관되게 해준다.
15.1.1 비지도 사전훈련은 언제, 왜 효과가 있는가
언제 효과가 있는가?
Pre-training을 더 깊은 신경망에 적용하면 test error의 평균과 분산이 가장 크게 줄었다.
하지만
위의 실험은 현대적인 기법들(ReLU, dropout, batch normalization 등)이 나오기 전에 행해진 것
현대적인 기법들에 대한 비지도 사전훈련의 효과는 파악이 덜된 상태
그리고 지금은 NLP쪽 제외하고는 거의 버려진 상태랍니다…
15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
고양이를 인식하는 신경망 X-ray를 인식하는 신경망
여기서 얻은 지식을 여기에 써먹을 수 있다
기본 컨셉
15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
신경망 학습
고양이 사진 10만개
X-ray 사진 100개
그대로 그대로
얘는 랜덤 초기화
15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
X-ray 사진 100개
얘는 랜덤 초기화
X-ray 사진이 많은 경우 모든 layer를 다시 training
X-ray 사진이 적은 경우 마지막 layer만 training
Pre-training
15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
X-ray 사진 100개
이렇게 layer를 늘려서 학습도 가능!
15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
단발 학습(one-shot learning) : Labeled data를 하나만 사용
주식회사 빅리더에 취업을 하게 된 네 사람
전종식 대표님께서 출입문에 얼굴인식 시스템을 만들고 싶다고 업무를 내려주셨다.
15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
단발 학습(one-shot learning) : Labeled data를 하나만 사용
우리의 교재에 따르면
‘label당 대략 5000개 정도의 학습 데이터가 있어야 허용 성능을 보인다.’
라고 하였다.
근데 모든 직원들에게 본인 사진을 5000개씩 제출하라고 할 수는 없는 상황…
이럴 때 one-shot learning을 사용한다
15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
단발 학습(one-shot learning) : Labeled data를 하나만 사용
사람 얼굴
이미지
훈련데이터
전이하려고 하는 task와 비슷한 도메인의 데이터로
파라미터 훈련
최종 분류층
15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
단발 학습(one-shot learning) : Labeled data를 하나만 사용
전이할 내 얼굴
파라미터 그대로 적용
출입구에 인식된 내 얼굴 두 벡터의 유사도를 계산해서 특정 임계값보다 크면 Ok. 작으면 no
분류보다는 구분에 가깝다
15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
전이되는 하는 task의 데이터가 많고
전이하려고 하는 task의 데이터가 적을 때
잘 작동
즉, 고양이 사진이 많고 X-ray 사진이 적을 때
X-ray 사진 100개
고양이 사진 10만개
그럼 언제 전이학습이 잘 적용될까?
15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
왜 잘 작동?
많은 양의 고양이 사진을 학습함으로써
Low level feature을 학습할 수 있음
Low level feature : 윤곽, 커브, 물체의 일부분

More Related Content

What's hot

[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
Hyojun Jeon
 
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
Taehoon Kim
 
개인화 추천은 어디로 가고 있는가?
개인화 추천은 어디로 가고 있는가?개인화 추천은 어디로 가고 있는가?
개인화 추천은 어디로 가고 있는가?
choi kyumin
 
Jupyter notebook 이해하기
Jupyter notebook 이해하기 Jupyter notebook 이해하기
Jupyter notebook 이해하기
Yong Joon Moon
 
생성인공지능둘러보기.pdf
생성인공지능둘러보기.pdf생성인공지능둘러보기.pdf
생성인공지능둘러보기.pdf
Changwon National University
 
Data Science. Intro
Data Science. IntroData Science. Intro
Data Science. Intro
Seongyun Byeon
 
Trends_of_MLOps_tech_in_business
Trends_of_MLOps_tech_in_businessTrends_of_MLOps_tech_in_business
Trends_of_MLOps_tech_in_business
SANG WON PARK
 
구름 이야기(Feat. gcp) - 구글클라우드(GCP) 활용 사례
구름 이야기(Feat. gcp) - 구글클라우드(GCP) 활용 사례구름 이야기(Feat. gcp) - 구글클라우드(GCP) 활용 사례
구름 이야기(Feat. gcp) - 구글클라우드(GCP) 활용 사례
Seongyun Byeon
 
쉽게 쓰여진 Django
쉽게 쓰여진 Django쉽게 쓰여진 Django
쉽게 쓰여진 Django
Taehoon Kim
 
눈으로 듣는 음악 추천 시스템
눈으로 듣는 음악 추천 시스템눈으로 듣는 음악 추천 시스템
눈으로 듣는 음악 추천 시스템
if kakao
 
대용량 로그분석 Bigquery로 간단히 사용하기
대용량 로그분석 Bigquery로 간단히 사용하기대용량 로그분석 Bigquery로 간단히 사용하기
대용량 로그분석 Bigquery로 간단히 사용하기
Jaikwang Lee
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics
 
머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)
Byung-han Lee
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Seongyun Byeon
 
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
AWSKRUG - AWS한국사용자모임
 
Neural Language Generation Head to Toe
Neural Language Generation Head to Toe Neural Language Generation Head to Toe
Neural Language Generation Head to Toe
Hady Elsahar
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
Yongho Ha
 
오픈소스를 사용하고, 준비하는 개발자를 위한 가이드
오픈소스를 사용하고, 준비하는 개발자를 위한 가이드오픈소스를 사용하고, 준비하는 개발자를 위한 가이드
오픈소스를 사용하고, 준비하는 개발자를 위한 가이드
if kakao
 
[112]clova platform 인공지능을 엮는 기술
[112]clova platform 인공지능을 엮는 기술[112]clova platform 인공지능을 엮는 기술
[112]clova platform 인공지능을 엮는 기술
NAVER D2
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
DaeMyung Kang
 

What's hot (20)

[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
 
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
 
개인화 추천은 어디로 가고 있는가?
개인화 추천은 어디로 가고 있는가?개인화 추천은 어디로 가고 있는가?
개인화 추천은 어디로 가고 있는가?
 
Jupyter notebook 이해하기
Jupyter notebook 이해하기 Jupyter notebook 이해하기
Jupyter notebook 이해하기
 
생성인공지능둘러보기.pdf
생성인공지능둘러보기.pdf생성인공지능둘러보기.pdf
생성인공지능둘러보기.pdf
 
Data Science. Intro
Data Science. IntroData Science. Intro
Data Science. Intro
 
Trends_of_MLOps_tech_in_business
Trends_of_MLOps_tech_in_businessTrends_of_MLOps_tech_in_business
Trends_of_MLOps_tech_in_business
 
구름 이야기(Feat. gcp) - 구글클라우드(GCP) 활용 사례
구름 이야기(Feat. gcp) - 구글클라우드(GCP) 활용 사례구름 이야기(Feat. gcp) - 구글클라우드(GCP) 활용 사례
구름 이야기(Feat. gcp) - 구글클라우드(GCP) 활용 사례
 
쉽게 쓰여진 Django
쉽게 쓰여진 Django쉽게 쓰여진 Django
쉽게 쓰여진 Django
 
눈으로 듣는 음악 추천 시스템
눈으로 듣는 음악 추천 시스템눈으로 듣는 음악 추천 시스템
눈으로 듣는 음악 추천 시스템
 
대용량 로그분석 Bigquery로 간단히 사용하기
대용량 로그분석 Bigquery로 간단히 사용하기대용량 로그분석 Bigquery로 간단히 사용하기
대용량 로그분석 Bigquery로 간단히 사용하기
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
 
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
 
Neural Language Generation Head to Toe
Neural Language Generation Head to Toe Neural Language Generation Head to Toe
Neural Language Generation Head to Toe
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
 
오픈소스를 사용하고, 준비하는 개발자를 위한 가이드
오픈소스를 사용하고, 준비하는 개발자를 위한 가이드오픈소스를 사용하고, 준비하는 개발자를 위한 가이드
오픈소스를 사용하고, 준비하는 개발자를 위한 가이드
 
[112]clova platform 인공지능을 엮는 기술
[112]clova platform 인공지능을 엮는 기술[112]clova platform 인공지능을 엮는 기술
[112]clova platform 인공지능을 엮는 기술
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
 

Similar to Chapter 15 Representation learning - 1

Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터
JEEHYUN PAIK
 
Chapter 7 Regularization for deep learning - 2
Chapter 7 Regularization for deep learning - 2Chapter 7 Regularization for deep learning - 2
Chapter 7 Regularization for deep learning - 2
KyeongUkJang
 
스타트업 인턴 개발자 3달간의 고군분투기 김은향
스타트업 인턴 개발자 3달간의 고군분투기 김은향스타트업 인턴 개발자 3달간의 고군분투기 김은향
스타트업 인턴 개발자 3달간의 고군분투기 김은향
Eunhyang Kim
 
One-Shot Learning
One-Shot LearningOne-Shot Learning
One-Shot Learning
Jisung Kim
 
12.guiding a program by multiple patching hangul
12.guiding a program by multiple patching hangul12.guiding a program by multiple patching hangul
12.guiding a program by multiple patching hangul
re4lfl0w
 
10.continued reversing techniques in vb, use of decompilers and a basic anti ...
10.continued reversing techniques in vb, use of decompilers and a basic anti ...10.continued reversing techniques in vb, use of decompilers and a basic anti ...
10.continued reversing techniques in vb, use of decompilers and a basic anti ...
re4lfl0w
 
Machine translation survey vol2
Machine translation survey   vol2Machine translation survey   vol2
Machine translation survey vol2
gohyunwoong
 
03.basic nag removal header problems hangul
03.basic nag removal   header problems hangul03.basic nag removal   header problems hangul
03.basic nag removal header problems hangul
re4lfl0w
 
05.comparing on changes in cond jumps, animate overin, breakpoints hangul
05.comparing on changes in cond jumps, animate overin, breakpoints hangul05.comparing on changes in cond jumps, animate overin, breakpoints hangul
05.comparing on changes in cond jumps, animate overin, breakpoints hangul
re4lfl0w
 
현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점
현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점
현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점
Wonha Ryu
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go Introduction
Ildoo Kim
 
KERIS SW교육 연계 로봇 활용 심화과정 (중등)
KERIS SW교육 연계 로봇 활용 심화과정 (중등)KERIS SW교육 연계 로봇 활용 심화과정 (중등)
KERIS SW교육 연계 로봇 활용 심화과정 (중등)
Kwang-Hyun Park
 
carrier of_tricks_for_image_classification
carrier of_tricks_for_image_classificationcarrier of_tricks_for_image_classification
carrier of_tricks_for_image_classification
LEE HOSEONG
 
04.basic+aesthetic patching hangul
04.basic+aesthetic patching hangul04.basic+aesthetic patching hangul
04.basic+aesthetic patching hangul
re4lfl0w
 
랩탑으로 tensorflow 도전하기 - tutorial
랩탑으로 tensorflow 도전하기 - tutorial랩탑으로 tensorflow 도전하기 - tutorial
랩탑으로 tensorflow 도전하기 - tutorial
Lee Seungeun
 
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
Sangsu Song
 
Django Girls 12월 Meetup 발표 자료
Django Girls 12월 Meetup 발표 자료Django Girls 12월 Meetup 발표 자료
Django Girls 12월 Meetup 발표 자료
seungdols
 
19.debugger detected and anti anti-techniques hangul
19.debugger detected and anti anti-techniques hangul19.debugger detected and anti anti-techniques hangul
19.debugger detected and anti anti-techniques hangul
re4lfl0w
 
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
jdo
 
CNN 초보자가 만드는 초보자 가이드 (VGG 약간 포함)
CNN 초보자가 만드는 초보자 가이드 (VGG 약간 포함)CNN 초보자가 만드는 초보자 가이드 (VGG 약간 포함)
CNN 초보자가 만드는 초보자 가이드 (VGG 약간 포함)
Lee Seungeun
 

Similar to Chapter 15 Representation learning - 1 (20)

Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터
 
Chapter 7 Regularization for deep learning - 2
Chapter 7 Regularization for deep learning - 2Chapter 7 Regularization for deep learning - 2
Chapter 7 Regularization for deep learning - 2
 
스타트업 인턴 개발자 3달간의 고군분투기 김은향
스타트업 인턴 개발자 3달간의 고군분투기 김은향스타트업 인턴 개발자 3달간의 고군분투기 김은향
스타트업 인턴 개발자 3달간의 고군분투기 김은향
 
One-Shot Learning
One-Shot LearningOne-Shot Learning
One-Shot Learning
 
12.guiding a program by multiple patching hangul
12.guiding a program by multiple patching hangul12.guiding a program by multiple patching hangul
12.guiding a program by multiple patching hangul
 
10.continued reversing techniques in vb, use of decompilers and a basic anti ...
10.continued reversing techniques in vb, use of decompilers and a basic anti ...10.continued reversing techniques in vb, use of decompilers and a basic anti ...
10.continued reversing techniques in vb, use of decompilers and a basic anti ...
 
Machine translation survey vol2
Machine translation survey   vol2Machine translation survey   vol2
Machine translation survey vol2
 
03.basic nag removal header problems hangul
03.basic nag removal   header problems hangul03.basic nag removal   header problems hangul
03.basic nag removal header problems hangul
 
05.comparing on changes in cond jumps, animate overin, breakpoints hangul
05.comparing on changes in cond jumps, animate overin, breakpoints hangul05.comparing on changes in cond jumps, animate overin, breakpoints hangul
05.comparing on changes in cond jumps, animate overin, breakpoints hangul
 
현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점
현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점
현업 엔지니어의 시각에서 본 알고리즘 공부의 장점과 단점
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go Introduction
 
KERIS SW교육 연계 로봇 활용 심화과정 (중등)
KERIS SW교육 연계 로봇 활용 심화과정 (중등)KERIS SW교육 연계 로봇 활용 심화과정 (중등)
KERIS SW교육 연계 로봇 활용 심화과정 (중등)
 
carrier of_tricks_for_image_classification
carrier of_tricks_for_image_classificationcarrier of_tricks_for_image_classification
carrier of_tricks_for_image_classification
 
04.basic+aesthetic patching hangul
04.basic+aesthetic patching hangul04.basic+aesthetic patching hangul
04.basic+aesthetic patching hangul
 
랩탑으로 tensorflow 도전하기 - tutorial
랩탑으로 tensorflow 도전하기 - tutorial랩탑으로 tensorflow 도전하기 - tutorial
랩탑으로 tensorflow 도전하기 - tutorial
 
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
 
Django Girls 12월 Meetup 발표 자료
Django Girls 12월 Meetup 발표 자료Django Girls 12월 Meetup 발표 자료
Django Girls 12월 Meetup 발표 자료
 
19.debugger detected and anti anti-techniques hangul
19.debugger detected and anti anti-techniques hangul19.debugger detected and anti anti-techniques hangul
19.debugger detected and anti anti-techniques hangul
 
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
 
CNN 초보자가 만드는 초보자 가이드 (VGG 약간 포함)
CNN 초보자가 만드는 초보자 가이드 (VGG 약간 포함)CNN 초보자가 만드는 초보자 가이드 (VGG 약간 포함)
CNN 초보자가 만드는 초보자 가이드 (VGG 약간 포함)
 

More from KyeongUkJang

Photo wake up - 3d character animation from a single photo
Photo wake up - 3d character animation from a single photoPhoto wake up - 3d character animation from a single photo
Photo wake up - 3d character animation from a single photo
KyeongUkJang
 
AlphagoZero
AlphagoZeroAlphagoZero
AlphagoZero
KyeongUkJang
 
GoogLenet
GoogLenetGoogLenet
GoogLenet
KyeongUkJang
 
GAN - Generative Adversarial Nets
GAN - Generative Adversarial NetsGAN - Generative Adversarial Nets
GAN - Generative Adversarial Nets
KyeongUkJang
 
Distilling the knowledge in a neural network
Distilling the knowledge in a neural networkDistilling the knowledge in a neural network
Distilling the knowledge in a neural network
KyeongUkJang
 
Latent Dirichlet Allocation
Latent Dirichlet AllocationLatent Dirichlet Allocation
Latent Dirichlet Allocation
KyeongUkJang
 
Gaussian Mixture Model
Gaussian Mixture ModelGaussian Mixture Model
Gaussian Mixture Model
KyeongUkJang
 
CNN for sentence classification
CNN for sentence classificationCNN for sentence classification
CNN for sentence classification
KyeongUkJang
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE
KyeongUkJang
 
Playing atari with deep reinforcement learning
Playing atari with deep reinforcement learningPlaying atari with deep reinforcement learning
Playing atari with deep reinforcement learning
KyeongUkJang
 
Chapter 20 - GAN
Chapter 20 - GANChapter 20 - GAN
Chapter 20 - GAN
KyeongUkJang
 
Chapter 20 - VAE
Chapter 20 - VAEChapter 20 - VAE
Chapter 20 - VAE
KyeongUkJang
 
Chapter 20 Deep generative models
Chapter 20 Deep generative modelsChapter 20 Deep generative models
Chapter 20 Deep generative models
KyeongUkJang
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational Inference
KyeongUkJang
 
Natural Language Processing(NLP) - basic 2
Natural Language Processing(NLP) - basic 2Natural Language Processing(NLP) - basic 2
Natural Language Processing(NLP) - basic 2
KyeongUkJang
 
Natural Language Processing(NLP) - Basic
Natural Language Processing(NLP) - BasicNatural Language Processing(NLP) - Basic
Natural Language Processing(NLP) - Basic
KyeongUkJang
 
Chapter 17 monte carlo methods
Chapter 17 monte carlo methodsChapter 17 monte carlo methods
Chapter 17 monte carlo methods
KyeongUkJang
 
Chapter 16 structured probabilistic models for deep learning - 2
Chapter 16 structured probabilistic models for deep learning - 2Chapter 16 structured probabilistic models for deep learning - 2
Chapter 16 structured probabilistic models for deep learning - 2
KyeongUkJang
 
Chapter 16 structured probabilistic models for deep learning - 1
Chapter 16 structured probabilistic models for deep learning - 1Chapter 16 structured probabilistic models for deep learning - 1
Chapter 16 structured probabilistic models for deep learning - 1
KyeongUkJang
 

More from KyeongUkJang (20)

Photo wake up - 3d character animation from a single photo
Photo wake up - 3d character animation from a single photoPhoto wake up - 3d character animation from a single photo
Photo wake up - 3d character animation from a single photo
 
YOLO
YOLOYOLO
YOLO
 
AlphagoZero
AlphagoZeroAlphagoZero
AlphagoZero
 
GoogLenet
GoogLenetGoogLenet
GoogLenet
 
GAN - Generative Adversarial Nets
GAN - Generative Adversarial NetsGAN - Generative Adversarial Nets
GAN - Generative Adversarial Nets
 
Distilling the knowledge in a neural network
Distilling the knowledge in a neural networkDistilling the knowledge in a neural network
Distilling the knowledge in a neural network
 
Latent Dirichlet Allocation
Latent Dirichlet AllocationLatent Dirichlet Allocation
Latent Dirichlet Allocation
 
Gaussian Mixture Model
Gaussian Mixture ModelGaussian Mixture Model
Gaussian Mixture Model
 
CNN for sentence classification
CNN for sentence classificationCNN for sentence classification
CNN for sentence classification
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE
 
Playing atari with deep reinforcement learning
Playing atari with deep reinforcement learningPlaying atari with deep reinforcement learning
Playing atari with deep reinforcement learning
 
Chapter 20 - GAN
Chapter 20 - GANChapter 20 - GAN
Chapter 20 - GAN
 
Chapter 20 - VAE
Chapter 20 - VAEChapter 20 - VAE
Chapter 20 - VAE
 
Chapter 20 Deep generative models
Chapter 20 Deep generative modelsChapter 20 Deep generative models
Chapter 20 Deep generative models
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational Inference
 
Natural Language Processing(NLP) - basic 2
Natural Language Processing(NLP) - basic 2Natural Language Processing(NLP) - basic 2
Natural Language Processing(NLP) - basic 2
 
Natural Language Processing(NLP) - Basic
Natural Language Processing(NLP) - BasicNatural Language Processing(NLP) - Basic
Natural Language Processing(NLP) - Basic
 
Chapter 17 monte carlo methods
Chapter 17 monte carlo methodsChapter 17 monte carlo methods
Chapter 17 monte carlo methods
 
Chapter 16 structured probabilistic models for deep learning - 2
Chapter 16 structured probabilistic models for deep learning - 2Chapter 16 structured probabilistic models for deep learning - 2
Chapter 16 structured probabilistic models for deep learning - 2
 
Chapter 16 structured probabilistic models for deep learning - 1
Chapter 16 structured probabilistic models for deep learning - 1Chapter 16 structured probabilistic models for deep learning - 1
Chapter 16 structured probabilistic models for deep learning - 1
 

Chapter 15 Representation learning - 1

  • 1. 15장 표현 학습 (Representative learning) 김성두 인연준
  • 2. 210 3 아라비아식 표현 로마식 표현 사칙연산이라는 Task가 주어졌을 때 15 표현학습
  • 3. 210 3 70 72 로마 -> 아라비아 8 9 좋은 input = 좋은 input feature = 좋은 표현(representation) 어떤 task를 수행하기에 좋은 표현을 만드는 것 = 표현 학습 8 9 15 표현학습
  • 4. 전체를 하나의 분류기로 볼 수도 있지만 머신러닝의 관점으로 돌아오면 15 표현학습
  • 5. 검은 벽을 기준으로 나누면 로지스틱 회귀 분류라는 task에 사용될 표현들을 만들어줌 분류라는 task 수행 표현학습 15 표현학습
  • 6. 로지스틱 회귀 표현학습은 모든 은닉층에서의 표현이 분류라는 task를 좀 더 쉽게 하게끔 신경망을 훈련하는 것. 표현학습 위 모델에서 머신러닝에서 표현학습은 어떤 task를 좀 더 쉽게 만드는 표현을 훈련하는 것. 15 표현학습
  • 7. 좋은 표현 학습의 예시 1 선형 분리가 안되는 표현을 표현학습을 통해 선형 분리 가능하게 만들어준다 15 표현학습
  • 8. 좋은 표현 학습의 예시 2 밀도추정이 쉬워지는 표현을 학습하고 싶다. 밀도 추정 P(a, b, c, … z) Joint probability를 구해야함 특성들이 독립이면 쉬움 15 표현학습
  • 9. 표현 학습 15 표현학습 두 가지를 먼저 다뤄봅니다
  • 10. 15.1 탐욕적 층별 비지도 사전훈련 Greedy layer-wise unsupervised pre-training 탐욕적 층별 비지도 사전훈련 어떻게 돌아가는지 배움에 앞서 몇 가지 질문을 해봅시다
  • 11. 15.1 탐욕적 층별 비지도 사전훈련 Greedy layer-wise unsupervised pre-training 탐욕적 층별 비지도 사전훈련
  • 12. 15.1 탐욕적 층별 비지도 사전훈련 Greedy layer-wise unsupervised pre-training 탐욕적 층별 비지도 사전훈련 그럼 이제 어떻게 돌아가는지 한번 보자!
  • 13. 15.1 탐욕적 층별 비지도 사전훈련 Binary classification모델을 만들었다고 해보자 (Fully connected network) 𝑊1 𝑊2 𝑊3 표기의 편의상 bias는 생략
  • 14. 15.1 탐욕적 층별 비지도 사전훈련 𝑊1 𝑊2 𝑊3 Pre-training을 안 하면 Weight 랜덤으로 초기화
  • 15. 15.1 탐욕적 층별 비지도 사전훈련 𝑊1 1. 𝑾 𝟏 pre-training Pre-training 하면
  • 16. 15.1 탐욕적 층별 비지도 사전훈련 1. 𝑾 𝟏 pre-training 𝑊1 𝑊1 𝑇 Input : 𝑋 Label : 𝑋 𝐿(𝑋, 𝑋)를 cost function으로 stacked autoencoder 학습 Forward propagation Back propagation 𝑊1, 𝑊1 𝑇 는 전치(transpose)관계 Tied weight 라고 부름
  • 17. 15.1 탐욕적 층별 비지도 사전훈련 𝑊1 fixed 1. 𝑾 𝟏 pre-training
  • 18. 15.1 탐욕적 층별 비지도 사전훈련 𝑊2 2. 𝑾 𝟐 pre-training
  • 19. 15.1 탐욕적 층별 비지도 사전훈련 2. 𝑾 𝟐 pre-training Fixed 𝑊1 𝑊2 𝑊2 𝑇 Forward propagation Back propagation 𝐿(𝐴, 𝐴)를 cost function으로 stacked autoencoder 학습 Input : 𝑊1 𝑋 = 𝐴Input : 𝑋 label : 𝐴
  • 20. 15.1 탐욕적 층별 비지도 사전훈련 𝑊2 fixed 2. 𝑾 𝟐 pre-training : pre-training 끝 𝑊1 fixed
  • 21. 15.1 탐욕적 층별 비지도 사전훈련 3. fine tuning Fixed 𝑊2Fixed 𝑊1 Forward propagation 𝑊3 랜덤 초기화 Input : 𝑋 label : Y 𝐿(𝑋, 𝑌)를 cost function으로 fully connected network 학습 Back propagation
  • 22. 15.1 탐욕적 층별 비지도 사전훈련 Greedy layer-wise unsupervised pre-training 탐욕적 층별 비지도 사전훈련 Layer별로 weight를 학습, 다른 layer는 생각하지 않고 greedy하게 학습
  • 23. 15.1 탐욕적 층별 비지도 사전훈련 그런데 비지도 사전훈련을 하면 무조건 좋아지는 건가? ㄴㄴ. 좋아지기는 커녕 해가 되는 task들도 있음 그렇기 때문에 비지도 사전훈련을 할지 말지 결정하려면 언제, 왜 효과를 내는지를 알아야함!
  • 24. 15.1.1 비지도 사전훈련은 언제, 왜 효과가 있는가 이 논의의 대부분은 탐욕적 비지도 사전훈련에 국한 된 것 왜 효과가 있는가? 1. 비지도 사전훈련은 심층 신경망 매개변수들의 초기치를 잘 선택하면 모델에 현저한 정칙화 효과가 생길 수 있다. 2. 비지도 사전훈련은 입력 분포에 관한 학습이 입력에서 출력으로의 mapping에 관한 학습에 도움이 될 수 있다. 제대로 파악되지 않은 상태 1번보단 잘 파악된 상태이지만 수학적 이론적으로 파악 no
  • 25. 15.1.1 비지도 사전훈련은 언제, 왜 효과가 있는가 이 논의의 대부분은 탐욕적 비지도 사전훈련에 국한 된 것 뇌피셜 : Pre-training을 통해서 manifold를 찾는다 팩트 : pre-training이 추정 과정의 분산을 줄여준다 >> 매개변수들을 어떤 특정 영역으로 초기화해줘서 훈련 결과를 일관되게 해준다.
  • 26. 15.1.1 비지도 사전훈련은 언제, 왜 효과가 있는가 언제 효과가 있는가? Pre-training을 더 깊은 신경망에 적용하면 test error의 평균과 분산이 가장 크게 줄었다. 하지만 위의 실험은 현대적인 기법들(ReLU, dropout, batch normalization 등)이 나오기 전에 행해진 것 현대적인 기법들에 대한 비지도 사전훈련의 효과는 파악이 덜된 상태 그리고 지금은 NLP쪽 제외하고는 거의 버려진 상태랍니다…
  • 27. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation) 고양이를 인식하는 신경망 X-ray를 인식하는 신경망 여기서 얻은 지식을 여기에 써먹을 수 있다 기본 컨셉
  • 28. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation) 신경망 학습 고양이 사진 10만개 X-ray 사진 100개 그대로 그대로 얘는 랜덤 초기화
  • 29. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation) X-ray 사진 100개 얘는 랜덤 초기화 X-ray 사진이 많은 경우 모든 layer를 다시 training X-ray 사진이 적은 경우 마지막 layer만 training Pre-training
  • 30. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation) X-ray 사진 100개 이렇게 layer를 늘려서 학습도 가능!
  • 31. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation) 단발 학습(one-shot learning) : Labeled data를 하나만 사용 주식회사 빅리더에 취업을 하게 된 네 사람 전종식 대표님께서 출입문에 얼굴인식 시스템을 만들고 싶다고 업무를 내려주셨다.
  • 32. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation) 단발 학습(one-shot learning) : Labeled data를 하나만 사용 우리의 교재에 따르면 ‘label당 대략 5000개 정도의 학습 데이터가 있어야 허용 성능을 보인다.’ 라고 하였다. 근데 모든 직원들에게 본인 사진을 5000개씩 제출하라고 할 수는 없는 상황… 이럴 때 one-shot learning을 사용한다
  • 33. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation) 단발 학습(one-shot learning) : Labeled data를 하나만 사용 사람 얼굴 이미지 훈련데이터 전이하려고 하는 task와 비슷한 도메인의 데이터로 파라미터 훈련 최종 분류층
  • 34. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation) 단발 학습(one-shot learning) : Labeled data를 하나만 사용 전이할 내 얼굴 파라미터 그대로 적용 출입구에 인식된 내 얼굴 두 벡터의 유사도를 계산해서 특정 임계값보다 크면 Ok. 작으면 no 분류보다는 구분에 가깝다
  • 35. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation) 전이되는 하는 task의 데이터가 많고 전이하려고 하는 task의 데이터가 적을 때 잘 작동 즉, 고양이 사진이 많고 X-ray 사진이 적을 때 X-ray 사진 100개 고양이 사진 10만개 그럼 언제 전이학습이 잘 적용될까?
  • 36. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation) 왜 잘 작동? 많은 양의 고양이 사진을 학습함으로써 Low level feature을 학습할 수 있음 Low level feature : 윤곽, 커브, 물체의 일부분