SlideShare a Scribd company logo
1 of 18
Titanic Kaggle Competetition
- jdo's titanic
도정찬
https://www.kaggle.com/dojeongchan/jdo-s-titanic
목차
 개요
 데이터 분석
 피처 처리
 베이스라인 모델 학습 및 평가
 하이퍼 파라미터 튜닝
 최적 분류기 성능 비교
 소감
개요
 KISTI 과학기술 빅데이터 분석가 양성과정 캐글 대회
 타이타닉 사망자 분류 문제
 목표 : 891 x 12 훈련 데이터로부터 사람의 생존 여부를 판단하라
 다양한 분류 모델들 간의 생존 여부 판별 성능 비교
 하이퍼 파라미터 튜닝 전, 후 생존 여부 판별 성능 비교
데이터 분석 - 1. 데이터 형태 확인
 제출 데이터 형태
 승객 Id와 생존 여부를 위주로
 훈련 데이터 형태
 승객 ID, 생존 여부, 선실 등급, 성별, 나이, 요금 등
데이터 분석 - 2. 기술 통계량 분석
 승객 ID를 제외한 변수들의 평균과 표준 편차, min, max 위주 확인
-> Fare의 Max가 512인 경우를 제외하고 큰 아웃라이어는 없어보임
데이터 분석 - 3. 널/결측치 확인
 결측치 처리 방법으로 결측치 행/열 제거, 다른 값으로 대체
 Age : 177 -> 정수형 데이터, 전체의 상당 부분을 차지하나 해당 열의 평균으로 대체
 Cabin : 687 -> 문자열 데이터이며, 전체 데이터의 상당 부분이 널 값이므로 해당 열을 제거
 Embarked : 2 -> 2개 뿐이므로 해당 행 삭제
데이터 분석 - 4. 변수 별 도수 분포 확인
 생존 여부는 549/342로 생존 하지 못한 경우가 많음
 성별은 577/314로 남성이 많음
-> 성별 생존 여부, 나이별 생존 여부, 선실 등급 별 생존 여부 위주로 살펴보기
데이터 분석 - 5. 그룹별 생존 여부 조회
 성별 생존 여부를 살펴보면 남성보다 여성의 생존률이 높음
 선실 등급별 생존 여부를 보면 선실 등급이 높을 수록 생존률이 높음
 승선 항에 따른 생존 여부는 3가지 범주 별로 비슷비슷한 경향을 보임
피처 처리
 열 제거 : 승객 번호, 선실, 이름과 같이 고유한 값을 갖는 경우 열 제거
 결측치 대치 : 정수형 데이터이나 큰 비율을 차지하는 나이는 평균 값으로 대치
 라벨 인코딩 : 제거 한 열 이외의 문자열 속성은 라벨 인코딩 수행
베이스 라인 모델 - 1. 모델 준비
 분류기에 사용가능한 다양한 모델들을 준비
 이전의 전처리한 데이터 셋을 훈련/테스트 셋으로 분리
베이스 라인 모델 - 2. 기본 데이터셋, 분류기 성능 비교
 각 분류기 별 분류 측정 지표 출력
-> 수치 값으로만 보기에는 다소 불편. 시각화 구현
베이스 라인 모델 - 3. 성능 비교
 각 디폴트 모델의 경우 로지스틱 회귀, LGBM, 아다부스트, 랜덤 포레스트 등의 모델들이 좋은 성능을 보임
 SVC의 경우 재현율과 정밀도 사이 차이가 큼. 재현율-정밀도 조정 필요 해 보임
하이퍼 파라미터 튜닝 - 1. 로지스틱 회귀 분석 모델
 디폴트 모델 중 가장 좋은 성능을 보인 4가지 모델 위주로 하이퍼 파라미터 조정
 로지스틱 회귀 분석 모델의 하이퍼 파라미터들
• 일부 파라미터사용
• penalty : l1, l2, elasticnet, none, default = l2
• class_weight : weight dict, "balanced", default = None (balanced 자동 가중치
조정)
• solver : 최적화기로 newton-cg, lbfgs, liblinear, sag, saga, default=lbfgs 제공
• max_iter : default=100
하이퍼 파라미터 튜닝 - 2. 랜덤 포레스트
 랜덤 포레스트 하이퍼 파라미터
•n_estimators : int, default = 100
•criterion : "giny", "entropy", default = "gini
•max_depth : int, default=None(None :expend until all leaves are pure or less than min_sample_split)
•min_saples_split : int or float, default = 2
•max_samples_leaf : int or float, default = 1
•max_featues : "auto", "sqrt", "log2", default="auto"(max_features_func(n_features),
auto=sqrt(n_feature))
하이퍼 파라미터 튜닝 - 3. 아다부스트
 아다부스트 분류기 하이퍼 파라미터
•baseestimator : class, default=None(DecisionTreeClassifier maxdepth=1)
•n_estimator : int, default = 50
•learning_rate : float, default = 1
하이퍼 파라미터 튜닝 - 4. LGBM 분류기
 LGBM 분류기 하이퍼 파라미터
•num_leaves : (maximum number of leaves in one tree) int, default=32
•learning_rate : float, defalut=0.1
•objective : default : regression/binary, multiclass, cross_entropy etc ...
•max_depth : int, default = -1
•min_data_in_leaf : int, default = 20
•num_iterations : int, default = 100
최적 분류기 성능 비교 - 기본 LGBM 와 최적 모델 위주로
 최적 LGBM 분류기 모델과 기본 모델을 비교하면, 교차 검증 결과 대부분의 평가 지표에서 성능 향상을 보임
 정확도, 정밀도, f1 score, roc auc score 가 다소 향상 됨.
 정밀도가 크게 뛰었으나 재현율은 다소 하락
소감
 다양한 기본 모델들 중 좋은 성능을 보이는 분류기 선정 -> 하이퍼 파라미터 튜닝
 캐글 대회 노트북 잘 정리하기
 추가적인 데이터 전처리 과정 수행 -> 최적 분류기 훈련 -> 피드백 -> 최종 결과 도출
 기존 목표
 아쉬운 부분
 시간 부족으로 다양한 전처리 단계를 추가 후 성능 비교하거나 스태킹 기법 등을 수행하지 못함
 하이퍼 파라미터 튜닝 중 LGBM의 경우 문서를 제대로 숙지하지 못해 중요한 하이퍼 파라미터들을 탐색해보지 못함

More Related Content

Similar to Titanic kaggle competition

데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)Jaimie Kwon (권재명)
 
발표자료 11장
발표자료 11장발표자료 11장
발표자료 11장Juhui Park
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템NAVER D2
 
2.supervised learning
2.supervised learning2.supervised learning
2.supervised learningHaesun Park
 
(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)MYEONGGYU LEE
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작DACON AI 데이콘
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)Seung-Woo Kang
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석simon park
 
tsfresh_suman2
tsfresh_suman2tsfresh_suman2
tsfresh_suman2suman_lim
 
생체 광학 데이터 분석 AI 경진대회 1위 수상작
생체 광학 데이터 분석 AI 경진대회 1위 수상작생체 광학 데이터 분석 AI 경진대회 1위 수상작
생체 광학 데이터 분석 AI 경진대회 1위 수상작DACON AI 데이콘
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)SANG WON PARK
 
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스정재 전
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLDKim Junghoon
 
[Metatron Discovery ex-pack] Anomaly Detection
[Metatron Discovery ex-pack] Anomaly Detection[Metatron Discovery ex-pack] Anomaly Detection
[Metatron Discovery ex-pack] Anomaly DetectionMetatron
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical MethodologyKyeongUkJang
 
Cnn 발표자료
Cnn 발표자료Cnn 발표자료
Cnn 발표자료종현 최
 
PR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesPR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesSunghoon Joo
 
통신사 고객 이탈분석
통신사 고객 이탈분석통신사 고객 이탈분석
통신사 고객 이탈분석DataScienceLab
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSGruter
 

Similar to Titanic kaggle competition (20)

데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
발표자료 11장
발표자료 11장발표자료 11장
발표자료 11장
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템
 
2.supervised learning
2.supervised learning2.supervised learning
2.supervised learning
 
(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석
 
tsfresh_suman2
tsfresh_suman2tsfresh_suman2
tsfresh_suman2
 
생체 광학 데이터 분석 AI 경진대회 1위 수상작
생체 광학 데이터 분석 AI 경진대회 1위 수상작생체 광학 데이터 분석 AI 경진대회 1위 수상작
생체 광학 데이터 분석 AI 경진대회 1위 수상작
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
 
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
타지키스탄 세관 신고 데이터 기반 위법물 탐지 서비스
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD
 
[Metatron Discovery ex-pack] Anomaly Detection
[Metatron Discovery ex-pack] Anomaly Detection[Metatron Discovery ex-pack] Anomaly Detection
[Metatron Discovery ex-pack] Anomaly Detection
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
Cnn 발표자료
Cnn 발표자료Cnn 발표자료
Cnn 발표자료
 
PR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesPR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of Samples
 
통신사 고객 이탈분석
통신사 고객 이탈분석통신사 고객 이탈분석
통신사 고객 이탈분석
 
Titanic data analysis
Titanic data analysisTitanic data analysis
Titanic data analysis
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
 

More from jdo

[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리jdo
 
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수jdo
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others
 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Othersjdo
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNetjdo
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNetjdo
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16
 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16jdo
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷jdo
 
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2jdo
 
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1jdo
 
[컴퓨터비전과 인공지능] 6. 역전파 2
[컴퓨터비전과 인공지능] 6. 역전파 2[컴퓨터비전과 인공지능] 6. 역전파 2
[컴퓨터비전과 인공지능] 6. 역전파 2jdo
 
[컴퓨터비전과 인공지능] 6. 역전파 1
[컴퓨터비전과 인공지능] 6. 역전파 1[컴퓨터비전과 인공지능] 6. 역전파 1
[컴퓨터비전과 인공지능] 6. 역전파 1jdo
 
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수jdo
 
[리트코드 문제 풀기] 연결 리스트
[리트코드 문제 풀기] 연결 리스트[리트코드 문제 풀기] 연결 리스트
[리트코드 문제 풀기] 연결 리스트jdo
 
[컴퓨터비전과 인공지능] 5. 신경망
[컴퓨터비전과 인공지능] 5. 신경망[컴퓨터비전과 인공지능] 5. 신경망
[컴퓨터비전과 인공지능] 5. 신경망jdo
 
[리트코드 문제 풀기] 배열
[리트코드 문제 풀기] 배열[리트코드 문제 풀기] 배열
[리트코드 문제 풀기] 배열jdo
 
[컴퓨터비전과 인공지능] 4. 최적화
[컴퓨터비전과 인공지능] 4. 최적화[컴퓨터비전과 인공지능] 4. 최적화
[컴퓨터비전과 인공지능] 4. 최적화jdo
 
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제jdo
 
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부jdo
 
1 2. 직선과 평면에서의 벡터 방정식
1 2. 직선과 평면에서의 벡터 방정식1 2. 직선과 평면에서의 벡터 방정식
1 2. 직선과 평면에서의 벡터 방정식jdo
 
1-1. 공학과 수학에서 벡터/ 내적 직교
1-1. 공학과 수학에서 벡터/ 내적 직교1-1. 공학과 수학에서 벡터/ 내적 직교
1-1. 공학과 수학에서 벡터/ 내적 직교jdo
 

More from jdo (20)

[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 2. 데이터 전처리
 
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
[컴퓨터비전과 인공지능] 10. 신경망 학습하기 파트 1 - 1. 활성화 함수
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others
 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 5 - Others
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 4 - ResNet
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 3 - GoogLeNet
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16
 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16 [컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 2 - ZFNet, VGG-16
 
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷
[컴퓨터비전과 인공지능] 8. 합성곱 신경망 아키텍처 1 - 알렉스넷
 
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 2
 
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1
[컴퓨터비전과 인공지능] 7. 합성곱 신경망 1
 
[컴퓨터비전과 인공지능] 6. 역전파 2
[컴퓨터비전과 인공지능] 6. 역전파 2[컴퓨터비전과 인공지능] 6. 역전파 2
[컴퓨터비전과 인공지능] 6. 역전파 2
 
[컴퓨터비전과 인공지능] 6. 역전파 1
[컴퓨터비전과 인공지능] 6. 역전파 1[컴퓨터비전과 인공지능] 6. 역전파 1
[컴퓨터비전과 인공지능] 6. 역전파 1
 
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수
[컴퓨터비전과 인공지능] 5. 신경망 2 - 신경망 근사화와 컨벡스 함수
 
[리트코드 문제 풀기] 연결 리스트
[리트코드 문제 풀기] 연결 리스트[리트코드 문제 풀기] 연결 리스트
[리트코드 문제 풀기] 연결 리스트
 
[컴퓨터비전과 인공지능] 5. 신경망
[컴퓨터비전과 인공지능] 5. 신경망[컴퓨터비전과 인공지능] 5. 신경망
[컴퓨터비전과 인공지능] 5. 신경망
 
[리트코드 문제 풀기] 배열
[리트코드 문제 풀기] 배열[리트코드 문제 풀기] 배열
[리트코드 문제 풀기] 배열
 
[컴퓨터비전과 인공지능] 4. 최적화
[컴퓨터비전과 인공지능] 4. 최적화[컴퓨터비전과 인공지능] 4. 최적화
[컴퓨터비전과 인공지능] 4. 최적화
 
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제
[컴퓨터비전과 인공지능] 3. 선형 분류기 : 손실 함수와 규제
 
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부
[컴퓨터비전과 인공지능] 3. 선형 분류 : 선형 분류기 일부
 
1 2. 직선과 평면에서의 벡터 방정식
1 2. 직선과 평면에서의 벡터 방정식1 2. 직선과 평면에서의 벡터 방정식
1 2. 직선과 평면에서의 벡터 방정식
 
1-1. 공학과 수학에서 벡터/ 내적 직교
1-1. 공학과 수학에서 벡터/ 내적 직교1-1. 공학과 수학에서 벡터/ 내적 직교
1-1. 공학과 수학에서 벡터/ 내적 직교
 

Titanic kaggle competition

  • 1. Titanic Kaggle Competetition - jdo's titanic 도정찬 https://www.kaggle.com/dojeongchan/jdo-s-titanic
  • 2. 목차  개요  데이터 분석  피처 처리  베이스라인 모델 학습 및 평가  하이퍼 파라미터 튜닝  최적 분류기 성능 비교  소감
  • 3. 개요  KISTI 과학기술 빅데이터 분석가 양성과정 캐글 대회  타이타닉 사망자 분류 문제  목표 : 891 x 12 훈련 데이터로부터 사람의 생존 여부를 판단하라  다양한 분류 모델들 간의 생존 여부 판별 성능 비교  하이퍼 파라미터 튜닝 전, 후 생존 여부 판별 성능 비교
  • 4. 데이터 분석 - 1. 데이터 형태 확인  제출 데이터 형태  승객 Id와 생존 여부를 위주로  훈련 데이터 형태  승객 ID, 생존 여부, 선실 등급, 성별, 나이, 요금 등
  • 5. 데이터 분석 - 2. 기술 통계량 분석  승객 ID를 제외한 변수들의 평균과 표준 편차, min, max 위주 확인 -> Fare의 Max가 512인 경우를 제외하고 큰 아웃라이어는 없어보임
  • 6. 데이터 분석 - 3. 널/결측치 확인  결측치 처리 방법으로 결측치 행/열 제거, 다른 값으로 대체  Age : 177 -> 정수형 데이터, 전체의 상당 부분을 차지하나 해당 열의 평균으로 대체  Cabin : 687 -> 문자열 데이터이며, 전체 데이터의 상당 부분이 널 값이므로 해당 열을 제거  Embarked : 2 -> 2개 뿐이므로 해당 행 삭제
  • 7. 데이터 분석 - 4. 변수 별 도수 분포 확인  생존 여부는 549/342로 생존 하지 못한 경우가 많음  성별은 577/314로 남성이 많음 -> 성별 생존 여부, 나이별 생존 여부, 선실 등급 별 생존 여부 위주로 살펴보기
  • 8. 데이터 분석 - 5. 그룹별 생존 여부 조회  성별 생존 여부를 살펴보면 남성보다 여성의 생존률이 높음  선실 등급별 생존 여부를 보면 선실 등급이 높을 수록 생존률이 높음  승선 항에 따른 생존 여부는 3가지 범주 별로 비슷비슷한 경향을 보임
  • 9. 피처 처리  열 제거 : 승객 번호, 선실, 이름과 같이 고유한 값을 갖는 경우 열 제거  결측치 대치 : 정수형 데이터이나 큰 비율을 차지하는 나이는 평균 값으로 대치  라벨 인코딩 : 제거 한 열 이외의 문자열 속성은 라벨 인코딩 수행
  • 10. 베이스 라인 모델 - 1. 모델 준비  분류기에 사용가능한 다양한 모델들을 준비  이전의 전처리한 데이터 셋을 훈련/테스트 셋으로 분리
  • 11. 베이스 라인 모델 - 2. 기본 데이터셋, 분류기 성능 비교  각 분류기 별 분류 측정 지표 출력 -> 수치 값으로만 보기에는 다소 불편. 시각화 구현
  • 12. 베이스 라인 모델 - 3. 성능 비교  각 디폴트 모델의 경우 로지스틱 회귀, LGBM, 아다부스트, 랜덤 포레스트 등의 모델들이 좋은 성능을 보임  SVC의 경우 재현율과 정밀도 사이 차이가 큼. 재현율-정밀도 조정 필요 해 보임
  • 13. 하이퍼 파라미터 튜닝 - 1. 로지스틱 회귀 분석 모델  디폴트 모델 중 가장 좋은 성능을 보인 4가지 모델 위주로 하이퍼 파라미터 조정  로지스틱 회귀 분석 모델의 하이퍼 파라미터들 • 일부 파라미터사용 • penalty : l1, l2, elasticnet, none, default = l2 • class_weight : weight dict, "balanced", default = None (balanced 자동 가중치 조정) • solver : 최적화기로 newton-cg, lbfgs, liblinear, sag, saga, default=lbfgs 제공 • max_iter : default=100
  • 14. 하이퍼 파라미터 튜닝 - 2. 랜덤 포레스트  랜덤 포레스트 하이퍼 파라미터 •n_estimators : int, default = 100 •criterion : "giny", "entropy", default = "gini •max_depth : int, default=None(None :expend until all leaves are pure or less than min_sample_split) •min_saples_split : int or float, default = 2 •max_samples_leaf : int or float, default = 1 •max_featues : "auto", "sqrt", "log2", default="auto"(max_features_func(n_features), auto=sqrt(n_feature))
  • 15. 하이퍼 파라미터 튜닝 - 3. 아다부스트  아다부스트 분류기 하이퍼 파라미터 •baseestimator : class, default=None(DecisionTreeClassifier maxdepth=1) •n_estimator : int, default = 50 •learning_rate : float, default = 1
  • 16. 하이퍼 파라미터 튜닝 - 4. LGBM 분류기  LGBM 분류기 하이퍼 파라미터 •num_leaves : (maximum number of leaves in one tree) int, default=32 •learning_rate : float, defalut=0.1 •objective : default : regression/binary, multiclass, cross_entropy etc ... •max_depth : int, default = -1 •min_data_in_leaf : int, default = 20 •num_iterations : int, default = 100
  • 17. 최적 분류기 성능 비교 - 기본 LGBM 와 최적 모델 위주로  최적 LGBM 분류기 모델과 기본 모델을 비교하면, 교차 검증 결과 대부분의 평가 지표에서 성능 향상을 보임  정확도, 정밀도, f1 score, roc auc score 가 다소 향상 됨.  정밀도가 크게 뛰었으나 재현율은 다소 하락
  • 18. 소감  다양한 기본 모델들 중 좋은 성능을 보이는 분류기 선정 -> 하이퍼 파라미터 튜닝  캐글 대회 노트북 잘 정리하기  추가적인 데이터 전처리 과정 수행 -> 최적 분류기 훈련 -> 피드백 -> 최종 결과 도출  기존 목표  아쉬운 부분  시간 부족으로 다양한 전처리 단계를 추가 후 성능 비교하거나 스태킹 기법 등을 수행하지 못함  하이퍼 파라미터 튜닝 중 LGBM의 경우 문서를 제대로 숙지하지 못해 중요한 하이퍼 파라미터들을 탐색해보지 못함