SlideShare a Scribd company logo
1 of 14
Download to read offline
https://dacon.io
Dacon 월간 데이콘 5
생체 광학 데이터 분석 AI 경진대회
팀명 idiot
목차
1
2
3
STEP 1
STEP 2
STEP 3
https://dacon.io 2
데이터 전처리
모델 구축 & 검증
결과 및 결언
데이터 전처리
모델 구축 & 검증
결과 및 결언
• 파라미터 튜닝
• bad_features
• 모델 구축 및 검증
• 라이브러리 및
데이터
• 데이터 전처리
https://dacon.io 3
1-1. 라이브러리 및 데이터
https://dacon.io 4
1-2. 데이터 전처리 (1)
- 광원 스펙트럼(이하 src)과 측정 스펙트럼(이하 dst) 최대값 1.0 고
정
- 동일 나노미터에서의 src값이 dst보다 작으면 값 삭제
- null_sum : id당 nan 개수에 대한 컬럼 생성
https://dacon.io 5
1-3. 데이터 전처리 (2)
- dst 를 측정거리(이하 rho)로 나눈 dst/rho 컬럼 생성
- 위와 동일한 맥락으로 각 스펙트럼에 대한 src/dst, src/dst/rho, log_src/dst/rho 컬럼 생성
https://dacon.io 6
1-4. 데이터 전처리 (3)
- 스펙트럼 모든 부분 범위의 src/dst, src/dst/rho, log_src/dst/rho mean 컬럼 생성
Ex1) mean_650_2
Ex2) log_mean/rho_650_2
EX3) log_mean/rho_650_3
Ex4) log_mean/rho_650_2/log_mean/rho_650_3’
…
= 650-660 스펙트럼의 src_mean/dst_mean
= 650-660 스펙트럼의 log_src_mean/dst_mean/rho_mean
= 650-670 스펙트럼의 log_src_mean/dst_mean/rho_mean
= Ex2/Ex3
https://dacon.io 7
1-5. 데이터 전처리 (4)
- 특정 스펙트럼에 대한 src와 dst 동일 값 유무 및 몫을 나타해주는 컬럼 생성
Ex) '650_src==650_dst’, '650_src//650_dst’
- 같은 행 내에 값이 다른 두 값을 나눈 컬럼 생성
Ex) ‘log_990_src/990_dst/rho/log_690_src/690_dst/rho‘
https://dacon.io 8
2-0. 모델 구축
- 데이터가 크기 때문에 속도와 메모리에서 효율적인 LGBM 사용
https://dacon.io
2-1. 파라미터 튜닝
- valid 내 inifinity값 nan으로 변
경
- train,test 로 다시 분리해 사용
- 5 FOLD
https://dacon.io 10
2-2. bad_features
- permutation을 미리 계산하여 각 타겟변수에 해당하는
안 좋은 피쳐들을 깃허브에 올려놓았습니다.
https://dacon.io 11
2-3. 모델 구축 및 검증
https://dacon.io 12
2-3. 모델 구축 및 검증
https://dacon.io 13
3. 결과 및 결언
- 처음해봐요님의 커널이 상당한 도움이 되었습니다.
- 스펙트럼과 그 범위에 따른 다양한 데이터를 만들어 학습한 것, 다양한 피
쳐와 permutation을 이용한 것이 점수 향상에 긍정적인 영향을 끼쳤다 생
각합니다.
THANK YOU
THANK YOU
https://dacon.io 14

More Related Content

What's hot

생체 광학 데이터 분석 AI 경진대회 1위 수상작
생체 광학 데이터 분석 AI 경진대회 1위 수상작생체 광학 데이터 분석 AI 경진대회 1위 수상작
생체 광학 데이터 분석 AI 경진대회 1위 수상작DACON AI 데이콘
 
천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명DACON AI 데이콘
 
천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명DACON AI 데이콘
 
천체 유형 분류 대회 2위 수상자 코드 설명
천체 유형 분류 대회 2위 수상자 코드 설명천체 유형 분류 대회 2위 수상자 코드 설명
천체 유형 분류 대회 2위 수상자 코드 설명DACON AI 데이콘
 
Yolo v2 urop 발표자료
Yolo v2 urop 발표자료Yolo v2 urop 발표자료
Yolo v2 urop 발표자료DaeHeeKim31
 
"Learning transferable architectures for scalable image recognition" Paper Re...
"Learning transferable architectures for scalable image recognition" Paper Re..."Learning transferable architectures for scalable image recognition" Paper Re...
"Learning transferable architectures for scalable image recognition" Paper Re...LEE HOSEONG
 
Yolo v1 urop 발표자료
Yolo v1 urop 발표자료Yolo v1 urop 발표자료
Yolo v1 urop 발표자료DaeHeeKim31
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션DACON AI 데이콘
 

What's hot (8)

생체 광학 데이터 분석 AI 경진대회 1위 수상작
생체 광학 데이터 분석 AI 경진대회 1위 수상작생체 광학 데이터 분석 AI 경진대회 1위 수상작
생체 광학 데이터 분석 AI 경진대회 1위 수상작
 
천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명
 
천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명
 
천체 유형 분류 대회 2위 수상자 코드 설명
천체 유형 분류 대회 2위 수상자 코드 설명천체 유형 분류 대회 2위 수상자 코드 설명
천체 유형 분류 대회 2위 수상자 코드 설명
 
Yolo v2 urop 발표자료
Yolo v2 urop 발표자료Yolo v2 urop 발표자료
Yolo v2 urop 발표자료
 
"Learning transferable architectures for scalable image recognition" Paper Re...
"Learning transferable architectures for scalable image recognition" Paper Re..."Learning transferable architectures for scalable image recognition" Paper Re...
"Learning transferable architectures for scalable image recognition" Paper Re...
 
Yolo v1 urop 발표자료
Yolo v1 urop 발표자료Yolo v1 urop 발표자료
Yolo v1 urop 발표자료
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션
 

Similar to 생체 광학 데이터 분석 AI 경진대회 4위 수상작

Super map idesktop교육교재심화
Super map idesktop교육교재심화Super map idesktop교육교재심화
Super map idesktop교육교재심화선경 김선경
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석simon park
 
20200309 (FSRI) deep-family_v2-br31_rabbit
20200309 (FSRI)  deep-family_v2-br31_rabbit20200309 (FSRI)  deep-family_v2-br31_rabbit
20200309 (FSRI) deep-family_v2-br31_rabbitjason min
 
원자력발전소 상태 판단 대회 2위 수상자 코드 설명
원자력발전소 상태 판단 대회 2위 수상자 코드 설명원자력발전소 상태 판단 대회 2위 수상자 코드 설명
원자력발전소 상태 판단 대회 2위 수상자 코드 설명DACON AI 데이콘
 
R 프로그램의 이해와 활용 v1.1
R 프로그램의 이해와 활용 v1.1R 프로그램의 이해와 활용 v1.1
R 프로그램의 이해와 활용 v1.1happychallenge
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum DNA
 
Cloudera Impala 1.0
Cloudera Impala 1.0Cloudera Impala 1.0
Cloudera Impala 1.0Minwoo Kim
 
원자력발전소 상태 판단 대회 1위 수상자 코드 설명
원자력발전소 상태 판단 대회 1위 수상자 코드 설명원자력발전소 상태 판단 대회 1위 수상자 코드 설명
원자력발전소 상태 판단 대회 1위 수상자 코드 설명DACON AI 데이콘
 
[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_spark[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_sparkNAVER D2
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection창기 문
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection창기 문
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등DACON AI 데이콘
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)SeungYong Baek
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작DACON AI 데이콘
 
Spark_Overview_qna
Spark_Overview_qnaSpark_Overview_qna
Spark_Overview_qna현철 박
 
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트Amazon Web Services Korea
 
프로그래밍 패러다임의 진화 및 Spring의 금융권 적용
프로그래밍 패러다임의 진화 및 Spring의 금융권 적용프로그래밍 패러다임의 진화 및 Spring의 금융권 적용
프로그래밍 패러다임의 진화 및 Spring의 금융권 적용중선 곽
 
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]MongoDB
 

Similar to 생체 광학 데이터 분석 AI 경진대회 4위 수상작 (20)

Super map idesktop교육교재심화
Super map idesktop교육교재심화Super map idesktop교육교재심화
Super map idesktop교육교재심화
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석
 
20200309 (FSRI) deep-family_v2-br31_rabbit
20200309 (FSRI)  deep-family_v2-br31_rabbit20200309 (FSRI)  deep-family_v2-br31_rabbit
20200309 (FSRI) deep-family_v2-br31_rabbit
 
원자력발전소 상태 판단 대회 2위 수상자 코드 설명
원자력발전소 상태 판단 대회 2위 수상자 코드 설명원자력발전소 상태 판단 대회 2위 수상자 코드 설명
원자력발전소 상태 판단 대회 2위 수상자 코드 설명
 
R 프로그램의 이해와 활용 v1.1
R 프로그램의 이해와 활용 v1.1R 프로그램의 이해와 활용 v1.1
R 프로그램의 이해와 활용 v1.1
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
 
Cloudera Impala 1.0
Cloudera Impala 1.0Cloudera Impala 1.0
Cloudera Impala 1.0
 
원자력발전소 상태 판단 대회 1위 수상자 코드 설명
원자력발전소 상태 판단 대회 1위 수상자 코드 설명원자력발전소 상태 판단 대회 1위 수상자 코드 설명
원자력발전소 상태 판단 대회 1위 수상자 코드 설명
 
Scala for play
Scala for playScala for play
Scala for play
 
[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_spark[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_spark
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
 
Spark sql
Spark sqlSpark sql
Spark sql
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
 
Spark_Overview_qna
Spark_Overview_qnaSpark_Overview_qna
Spark_Overview_qna
 
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
 
프로그래밍 패러다임의 진화 및 Spring의 금융권 적용
프로그래밍 패러다임의 진화 및 Spring의 금융권 적용프로그래밍 패러다임의 진화 및 Spring의 금융권 적용
프로그래밍 패러다임의 진화 및 Spring의 금융권 적용
 
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]
 

More from DACON AI 데이콘

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engDACON AI 데이콘
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korDACON AI 데이콘
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의DACON AI 데이콘
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상DACON AI 데이콘
 
생체 광학 데이터 분석 AI 경진대회 5위 수상작
생체 광학 데이터 분석 AI 경진대회 5위 수상작생체 광학 데이터 분석 AI 경진대회 5위 수상작
생체 광학 데이터 분석 AI 경진대회 5위 수상작DACON AI 데이콘
 

More from DACON AI 데이콘 (19)

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -eng
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -kor
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의
 
데이콘 뽀개기
데이콘 뽀개기데이콘 뽀개기
데이콘 뽀개기
 
Bittrader competition (1)
Bittrader competition (1)Bittrader competition (1)
Bittrader competition (1)
 
Bittrader competition
Bittrader competitionBittrader competition
Bittrader competition
 
Superbai
SuperbaiSuperbai
Superbai
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
 
20200923
2020092320200923
20200923
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상
 
생체 광학 데이터 분석 AI 경진대회 5위 수상작
생체 광학 데이터 분석 AI 경진대회 5위 수상작생체 광학 데이터 분석 AI 경진대회 5위 수상작
생체 광학 데이터 분석 AI 경진대회 5위 수상작
 

생체 광학 데이터 분석 AI 경진대회 4위 수상작

  • 1. https://dacon.io Dacon 월간 데이콘 5 생체 광학 데이터 분석 AI 경진대회 팀명 idiot
  • 2. 목차 1 2 3 STEP 1 STEP 2 STEP 3 https://dacon.io 2 데이터 전처리 모델 구축 & 검증 결과 및 결언 데이터 전처리 모델 구축 & 검증 결과 및 결언 • 파라미터 튜닝 • bad_features • 모델 구축 및 검증 • 라이브러리 및 데이터 • 데이터 전처리
  • 4. https://dacon.io 4 1-2. 데이터 전처리 (1) - 광원 스펙트럼(이하 src)과 측정 스펙트럼(이하 dst) 최대값 1.0 고 정 - 동일 나노미터에서의 src값이 dst보다 작으면 값 삭제 - null_sum : id당 nan 개수에 대한 컬럼 생성
  • 5. https://dacon.io 5 1-3. 데이터 전처리 (2) - dst 를 측정거리(이하 rho)로 나눈 dst/rho 컬럼 생성 - 위와 동일한 맥락으로 각 스펙트럼에 대한 src/dst, src/dst/rho, log_src/dst/rho 컬럼 생성
  • 6. https://dacon.io 6 1-4. 데이터 전처리 (3) - 스펙트럼 모든 부분 범위의 src/dst, src/dst/rho, log_src/dst/rho mean 컬럼 생성 Ex1) mean_650_2 Ex2) log_mean/rho_650_2 EX3) log_mean/rho_650_3 Ex4) log_mean/rho_650_2/log_mean/rho_650_3’ … = 650-660 스펙트럼의 src_mean/dst_mean = 650-660 스펙트럼의 log_src_mean/dst_mean/rho_mean = 650-670 스펙트럼의 log_src_mean/dst_mean/rho_mean = Ex2/Ex3
  • 7. https://dacon.io 7 1-5. 데이터 전처리 (4) - 특정 스펙트럼에 대한 src와 dst 동일 값 유무 및 몫을 나타해주는 컬럼 생성 Ex) '650_src==650_dst’, '650_src//650_dst’ - 같은 행 내에 값이 다른 두 값을 나눈 컬럼 생성 Ex) ‘log_990_src/990_dst/rho/log_690_src/690_dst/rho‘
  • 8. https://dacon.io 8 2-0. 모델 구축 - 데이터가 크기 때문에 속도와 메모리에서 효율적인 LGBM 사용
  • 9. https://dacon.io 2-1. 파라미터 튜닝 - valid 내 inifinity값 nan으로 변 경 - train,test 로 다시 분리해 사용 - 5 FOLD
  • 10. https://dacon.io 10 2-2. bad_features - permutation을 미리 계산하여 각 타겟변수에 해당하는 안 좋은 피쳐들을 깃허브에 올려놓았습니다.
  • 11. https://dacon.io 11 2-3. 모델 구축 및 검증
  • 12. https://dacon.io 12 2-3. 모델 구축 및 검증
  • 13. https://dacon.io 13 3. 결과 및 결언 - 처음해봐요님의 커널이 상당한 도움이 되었습니다. - 스펙트럼과 그 범위에 따른 다양한 데이터를 만들어 학습한 것, 다양한 피 쳐와 permutation을 이용한 것이 점수 향상에 긍정적인 영향을 끼쳤다 생 각합니다.