SlideShare a Scribd company logo
1 of 11
알고리즘 중심의 머신러닝 가이드
13장 위원회의 결정: 앙상블 학
습
아꿈사 스터디
정민철(ccc612@gmail.com)
앙상블 학습
• 하나의 만능 알고리즘은 없다
• 서로 다른 여러개의 모델 혹은 학습자를 합성해 데이터에
대해 다른 결과 도출
• 여러 학습모델의 결과를 종합해 결정 => 결과가 비교적 좋
음
배깅 (bagging)
• 배깅: bootstrap aggregating
• bootstrap: 교차검증 샘플링 기법
• 집합 X에서 N개의 샘플을 임의로 뽑는다.
• 한번에 하나씩 뽑으며 뽑은 샘플은 다시 집어넣는다(중
복허용)
• 이런 샘플링 작업을 독립적으로 T번 수행하여 샘플 집합
을 T개 만든다.
• 이들을 이용해 검증을 수행하고 평균값을 최종 성능으로
취한다.
배깅 (bagging)
• 배깅은 bootstrap기법을 다중 분류기 생성 기법으로 확장한
것
• 다른 트레이닝 데이터 선정에 사용
• 분산을 줄이는 것이 목적
• 최종 결과는 다수결에 의해 종합
• 원본 데이터와 같은 양의 샘플을 뽑는다.
• 장점: 단순하지만 뛰어난 성능 제공,
• 단점: 전략적인 샘플링을 하는 부스팅에 비해 성능이 떨어
짐
부스팅(boosting)
• 정교한 재 샘플링 연산 사용해 트레이닝 데이터 생성
• 중복 샘플링 허용하지 않음
• 앞에서 생성된 학습자의 성능이 뒤에서 생성될 모델의 데이
터에 영향을 줌
• AdaBoost 알고리즘이 가장 널리 쓰임
• 결과는 각 학습자의 결과에 식별 성능을 가중치로 곱한 합
을 사용
에이다부스트
(AdaBoost, Adaptive boosting)
• 각기 다른 데이터에 강점을 가지는 학습자를 여러개 구축
• 이전 학습자의 에러에 따라 데이터에 부여되는 가중치
조정
• 잘 맞추면 => 가중치 하락, 못맞추면 => 가중치 상승
• 다음 학습자는 이전 학습자가 못맞춘 데이터를 더 많이
접하게 됨
에이다부스트
(AdaBoost, Adaptive boosting)
에이다부스트
(AdaBoost, Adaptive boosting)
• 책의 자료가 충분치 않아서 참고자료로 설명
http://www.cs.man.ac.uk/~stapenr5/boosting.pdf
랜덤 포레스트
(random forest)
• 랜덤하게 트레이닝 된 결정 트리를 여러개 만들어 숲을 만
든다.
• 여러개의 트리 생성 방법
• 트레이닝 데이터 선택: 부트스트랩
• 각 트리가 랜덤하게 선택된 입력값의 일부만 사용
랜덤 포레스트
(random forest)
• 의사결정 방법: 다수결
• 장점
• 트레이닝/모델 속도가 빠름 (계산 비용이 효율적이고 병
렬화가 쉬움)
• 부트스트랩 사용으로 추가적인 검증 데이터가 필요없음
• 크고 복잡한 데이터에서도 성능이 우수함
다른 앙상블 알고리즘
• 투표 방법
• 편중된 투표
• 다수결 투표 (다수결, 만장일치, 반 이상 찬성 등)
• 중앙값 사용 (브래깅 알고리즘)
• 전체 앙상블이 정답을 맞출 확률: 이항분포
• 혼합 전문가 알고리즘 (mixture of experts)
• 각 분류기가 예측한 값이 상관관계 게이트를 통해 가중치가
부여되어 합쳐짐
• 상관관계 게이트: 트리, 네트워크 형태로 구성 가능

More Related Content

What's hot

2.supervised learning(epoch#2)-2
2.supervised learning(epoch#2)-22.supervised learning(epoch#2)-2
2.supervised learning(epoch#2)-2Haesun Park
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝Haesun Park
 
5.model evaluation and improvement
5.model evaluation and improvement5.model evaluation and improvement
5.model evaluation and improvementHaesun Park
 
3.unsupervised learing(epoch#2)
3.unsupervised learing(epoch#2)3.unsupervised learing(epoch#2)
3.unsupervised learing(epoch#2)Haesun Park
 
2.supervised learning
2.supervised learning2.supervised learning
2.supervised learningHaesun Park
 
Deep learning tutorial with theano study - CH 3, CH 4
Deep learning tutorial with theano study - CH 3, CH 4Deep learning tutorial with theano study - CH 3, CH 4
Deep learning tutorial with theano study - CH 3, CH 4희수 박
 
Infra as a model service
Infra as a model serviceInfra as a model service
Infra as a model serviceTae Young Lee
 
5.model evaluation and improvement(epoch#2) 1
5.model evaluation and improvement(epoch#2) 15.model evaluation and improvement(epoch#2) 1
5.model evaluation and improvement(epoch#2) 1Haesun Park
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usageTae Young Lee
 
Create a solution including deep learning models
Create a solution including deep learning modelsCreate a solution including deep learning models
Create a solution including deep learning modelsTae Young Lee
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)SANG WON PARK
 
2.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-32.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-3Haesun Park
 
5.model evaluation and improvement(epoch#2) 2
5.model evaluation and improvement(epoch#2) 25.model evaluation and improvement(epoch#2) 2
5.model evaluation and improvement(epoch#2) 2Haesun Park
 
Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터JEEHYUN PAIK
 
4.representing data and engineering features
4.representing data and engineering features4.representing data and engineering features
4.representing data and engineering featuresHaesun Park
 
Siamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedSiamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedtaeseon ryu
 
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강Minji Kang
 
3.unsupervised learing
3.unsupervised learing3.unsupervised learing
3.unsupervised learingHaesun Park
 
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01Kwang Woo NAM
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 6장 결정 트리
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 6장 결정 트리[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 6장 결정 트리
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 6장 결정 트리Haesun Park
 

What's hot (20)

2.supervised learning(epoch#2)-2
2.supervised learning(epoch#2)-22.supervised learning(epoch#2)-2
2.supervised learning(epoch#2)-2
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
 
5.model evaluation and improvement
5.model evaluation and improvement5.model evaluation and improvement
5.model evaluation and improvement
 
3.unsupervised learing(epoch#2)
3.unsupervised learing(epoch#2)3.unsupervised learing(epoch#2)
3.unsupervised learing(epoch#2)
 
2.supervised learning
2.supervised learning2.supervised learning
2.supervised learning
 
Deep learning tutorial with theano study - CH 3, CH 4
Deep learning tutorial with theano study - CH 3, CH 4Deep learning tutorial with theano study - CH 3, CH 4
Deep learning tutorial with theano study - CH 3, CH 4
 
Infra as a model service
Infra as a model serviceInfra as a model service
Infra as a model service
 
5.model evaluation and improvement(epoch#2) 1
5.model evaluation and improvement(epoch#2) 15.model evaluation and improvement(epoch#2) 1
5.model evaluation and improvement(epoch#2) 1
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usage
 
Create a solution including deep learning models
Create a solution including deep learning modelsCreate a solution including deep learning models
Create a solution including deep learning models
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)
 
2.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-32.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-3
 
5.model evaluation and improvement(epoch#2) 2
5.model evaluation and improvement(epoch#2) 25.model evaluation and improvement(epoch#2) 2
5.model evaluation and improvement(epoch#2) 2
 
Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터
 
4.representing data and engineering features
4.representing data and engineering features4.representing data and engineering features
4.representing data and engineering features
 
Siamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedSiamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explained
 
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
 
3.unsupervised learing
3.unsupervised learing3.unsupervised learing
3.unsupervised learing
 
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 6장 결정 트리
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 6장 결정 트리[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 6장 결정 트리
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 6장 결정 트리
 

Similar to 13.앙상블학습

(Book summary) Ensemble method 2018summerml_study
(Book summary) Ensemble method 2018summerml_study(Book summary) Ensemble method 2018summerml_study
(Book summary) Ensemble method 2018summerml_studyMYEONGGYU LEE
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical MethodologyKyeongUkJang
 
Chapter 8 - optimization for training deep models
Chapter 8 - optimization for training deep modelsChapter 8 - optimization for training deep models
Chapter 8 - optimization for training deep modelsKyeongUkJang
 
K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링Edward Yoon
 

Similar to 13.앙상블학습 (6)

(Book summary) Ensemble method 2018summerml_study
(Book summary) Ensemble method 2018summerml_study(Book summary) Ensemble method 2018summerml_study
(Book summary) Ensemble method 2018summerml_study
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
Mahout
MahoutMahout
Mahout
 
Chapter 8 - optimization for training deep models
Chapter 8 - optimization for training deep modelsChapter 8 - optimization for training deep models
Chapter 8 - optimization for training deep models
 
K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링
 
DL from scratch(6)
DL from scratch(6)DL from scratch(6)
DL from scratch(6)
 

More from Minchul Jung

10장 진화학습
10장 진화학습10장 진화학습
10장 진화학습Minchul Jung
 
DDD Start! - 2장 아키텍처 개요
DDD Start! - 2장 아키텍처 개요DDD Start! - 2장 아키텍처 개요
DDD Start! - 2장 아키텍처 개요Minchul Jung
 
Ch9 프로세스의 메모리 구조
Ch9 프로세스의 메모리 구조Ch9 프로세스의 메모리 구조
Ch9 프로세스의 메모리 구조Minchul Jung
 
7부. 애플리케이션 입장에서의 성능 튜닝 (1~8장)
7부. 애플리케이션 입장에서의 성능 튜닝 (1~8장)7부. 애플리케이션 입장에서의 성능 튜닝 (1~8장)
7부. 애플리케이션 입장에서의 성능 튜닝 (1~8장)Minchul Jung
 
실무로 배우는 시스템 성능 최적화 - 4부. 프로세스 이해하기
실무로 배우는 시스템 성능 최적화 - 4부. 프로세스 이해하기실무로 배우는 시스템 성능 최적화 - 4부. 프로세스 이해하기
실무로 배우는 시스템 성능 최적화 - 4부. 프로세스 이해하기Minchul Jung
 
HTTP 완벽 가이드 / 20장 리다이렉션과 부하균형
HTTP 완벽 가이드 / 20장 리다이렉션과 부하균형HTTP 완벽 가이드 / 20장 리다이렉션과 부하균형
HTTP 완벽 가이드 / 20장 리다이렉션과 부하균형Minchul Jung
 
[Http완벽가이드] 9장 웹로봇
[Http완벽가이드] 9장 웹로봇[Http완벽가이드] 9장 웹로봇
[Http완벽가이드] 9장 웹로봇Minchul Jung
 
일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항
일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항
일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항Minchul Jung
 
Ch1 일래스틱서치 클러스터 시작
Ch1 일래스틱서치 클러스터 시작Ch1 일래스틱서치 클러스터 시작
Ch1 일래스틱서치 클러스터 시작Minchul Jung
 
Ch10.애플리케이션 서버의 병목_발견_방법
Ch10.애플리케이션 서버의 병목_발견_방법Ch10.애플리케이션 서버의 병목_발견_방법
Ch10.애플리케이션 서버의 병목_발견_방법Minchul Jung
 
Ch6 대용량서비스레퍼런스아키텍처 part.1
Ch6 대용량서비스레퍼런스아키텍처 part.1Ch6 대용량서비스레퍼런스아키텍처 part.1
Ch6 대용량서비스레퍼런스아키텍처 part.1Minchul Jung
 
Apprenticeship patterns 7
Apprenticeship patterns 7Apprenticeship patterns 7
Apprenticeship patterns 7Minchul Jung
 
Tools in android sdk
Tools in android sdkTools in android sdk
Tools in android sdkMinchul Jung
 

More from Minchul Jung (13)

10장 진화학습
10장 진화학습10장 진화학습
10장 진화학습
 
DDD Start! - 2장 아키텍처 개요
DDD Start! - 2장 아키텍처 개요DDD Start! - 2장 아키텍처 개요
DDD Start! - 2장 아키텍처 개요
 
Ch9 프로세스의 메모리 구조
Ch9 프로세스의 메모리 구조Ch9 프로세스의 메모리 구조
Ch9 프로세스의 메모리 구조
 
7부. 애플리케이션 입장에서의 성능 튜닝 (1~8장)
7부. 애플리케이션 입장에서의 성능 튜닝 (1~8장)7부. 애플리케이션 입장에서의 성능 튜닝 (1~8장)
7부. 애플리케이션 입장에서의 성능 튜닝 (1~8장)
 
실무로 배우는 시스템 성능 최적화 - 4부. 프로세스 이해하기
실무로 배우는 시스템 성능 최적화 - 4부. 프로세스 이해하기실무로 배우는 시스템 성능 최적화 - 4부. 프로세스 이해하기
실무로 배우는 시스템 성능 최적화 - 4부. 프로세스 이해하기
 
HTTP 완벽 가이드 / 20장 리다이렉션과 부하균형
HTTP 완벽 가이드 / 20장 리다이렉션과 부하균형HTTP 완벽 가이드 / 20장 리다이렉션과 부하균형
HTTP 완벽 가이드 / 20장 리다이렉션과 부하균형
 
[Http완벽가이드] 9장 웹로봇
[Http완벽가이드] 9장 웹로봇[Http완벽가이드] 9장 웹로봇
[Http완벽가이드] 9장 웹로봇
 
일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항
일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항
일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항
 
Ch1 일래스틱서치 클러스터 시작
Ch1 일래스틱서치 클러스터 시작Ch1 일래스틱서치 클러스터 시작
Ch1 일래스틱서치 클러스터 시작
 
Ch10.애플리케이션 서버의 병목_발견_방법
Ch10.애플리케이션 서버의 병목_발견_방법Ch10.애플리케이션 서버의 병목_발견_방법
Ch10.애플리케이션 서버의 병목_발견_방법
 
Ch6 대용량서비스레퍼런스아키텍처 part.1
Ch6 대용량서비스레퍼런스아키텍처 part.1Ch6 대용량서비스레퍼런스아키텍처 part.1
Ch6 대용량서비스레퍼런스아키텍처 part.1
 
Apprenticeship patterns 7
Apprenticeship patterns 7Apprenticeship patterns 7
Apprenticeship patterns 7
 
Tools in android sdk
Tools in android sdkTools in android sdk
Tools in android sdk
 

13.앙상블학습

  • 1. 알고리즘 중심의 머신러닝 가이드 13장 위원회의 결정: 앙상블 학 습 아꿈사 스터디 정민철(ccc612@gmail.com)
  • 2. 앙상블 학습 • 하나의 만능 알고리즘은 없다 • 서로 다른 여러개의 모델 혹은 학습자를 합성해 데이터에 대해 다른 결과 도출 • 여러 학습모델의 결과를 종합해 결정 => 결과가 비교적 좋 음
  • 3. 배깅 (bagging) • 배깅: bootstrap aggregating • bootstrap: 교차검증 샘플링 기법 • 집합 X에서 N개의 샘플을 임의로 뽑는다. • 한번에 하나씩 뽑으며 뽑은 샘플은 다시 집어넣는다(중 복허용) • 이런 샘플링 작업을 독립적으로 T번 수행하여 샘플 집합 을 T개 만든다. • 이들을 이용해 검증을 수행하고 평균값을 최종 성능으로 취한다.
  • 4. 배깅 (bagging) • 배깅은 bootstrap기법을 다중 분류기 생성 기법으로 확장한 것 • 다른 트레이닝 데이터 선정에 사용 • 분산을 줄이는 것이 목적 • 최종 결과는 다수결에 의해 종합 • 원본 데이터와 같은 양의 샘플을 뽑는다. • 장점: 단순하지만 뛰어난 성능 제공, • 단점: 전략적인 샘플링을 하는 부스팅에 비해 성능이 떨어 짐
  • 5. 부스팅(boosting) • 정교한 재 샘플링 연산 사용해 트레이닝 데이터 생성 • 중복 샘플링 허용하지 않음 • 앞에서 생성된 학습자의 성능이 뒤에서 생성될 모델의 데이 터에 영향을 줌 • AdaBoost 알고리즘이 가장 널리 쓰임 • 결과는 각 학습자의 결과에 식별 성능을 가중치로 곱한 합 을 사용
  • 6. 에이다부스트 (AdaBoost, Adaptive boosting) • 각기 다른 데이터에 강점을 가지는 학습자를 여러개 구축 • 이전 학습자의 에러에 따라 데이터에 부여되는 가중치 조정 • 잘 맞추면 => 가중치 하락, 못맞추면 => 가중치 상승 • 다음 학습자는 이전 학습자가 못맞춘 데이터를 더 많이 접하게 됨
  • 8. 에이다부스트 (AdaBoost, Adaptive boosting) • 책의 자료가 충분치 않아서 참고자료로 설명 http://www.cs.man.ac.uk/~stapenr5/boosting.pdf
  • 9. 랜덤 포레스트 (random forest) • 랜덤하게 트레이닝 된 결정 트리를 여러개 만들어 숲을 만 든다. • 여러개의 트리 생성 방법 • 트레이닝 데이터 선택: 부트스트랩 • 각 트리가 랜덤하게 선택된 입력값의 일부만 사용
  • 10. 랜덤 포레스트 (random forest) • 의사결정 방법: 다수결 • 장점 • 트레이닝/모델 속도가 빠름 (계산 비용이 효율적이고 병 렬화가 쉬움) • 부트스트랩 사용으로 추가적인 검증 데이터가 필요없음 • 크고 복잡한 데이터에서도 성능이 우수함
  • 11. 다른 앙상블 알고리즘 • 투표 방법 • 편중된 투표 • 다수결 투표 (다수결, 만장일치, 반 이상 찬성 등) • 중앙값 사용 (브래깅 알고리즘) • 전체 앙상블이 정답을 맞출 확률: 이항분포 • 혼합 전문가 알고리즘 (mixture of experts) • 각 분류기가 예측한 값이 상관관계 게이트를 통해 가중치가 부여되어 합쳐짐 • 상관관계 게이트: 트리, 네트워크 형태로 구성 가능