2. 목차
1
2
3
STEP 1
STEP 2
STEP 3
https://dacon.io 2
데이터 전처리
모델 구축 & 검증
결과 및 결언
데이터 전처리
모델 구축 & 검증
결과 및 결언
• 파라미터 튜닝
• bad_features
• 모델 구축 및 검증
• 라이브러리 및
데이터
• 데이터 전처리
4. https://dacon.io 4
1-2. 데이터 전처리 (1)
- 광원 스펙트럼(이하 src)과 측정 스펙트럼(이하 dst) 최대값 1.0 고
정
- 동일 나노미터에서의 src값이 dst보다 작으면 값 삭제
- null_sum : id당 nan 개수에 대한 컬럼 생성
5. https://dacon.io 5
1-3. 데이터 전처리 (2)
- dst 를 측정거리(이하 rho)로 나눈 dst/rho 컬럼 생성
- 위와 동일한 맥락으로 각 스펙트럼에 대한 src/dst, src/dst/rho, log_src/dst/rho 컬럼 생성
6. https://dacon.io 6
1-4. 데이터 전처리 (3)
- 스펙트럼 모든 부분 범위의 src/dst, src/dst/rho, log_src/dst/rho mean 컬럼 생성
Ex1) mean_650_2
Ex2) log_mean/rho_650_2
EX3) log_mean/rho_650_3
Ex4) log_mean/rho_650_2/log_mean/rho_650_3’
…
= 650-660 스펙트럼의 src_mean/dst_mean
= 650-660 스펙트럼의 log_src_mean/dst_mean/rho_mean
= 650-670 스펙트럼의 log_src_mean/dst_mean/rho_mean
= Ex2/Ex3
7. https://dacon.io 7
1-5. 데이터 전처리 (4)
- 특정 스펙트럼에 대한 src와 dst 동일 값 유무 및 몫을 나타해주는 컬럼 생성
Ex) '650_src==650_dst’, '650_src//650_dst’
- 같은 행 내에 값이 다른 두 값을 나눈 컬럼 생성
Ex) ‘log_990_src/990_dst/rho/log_690_src/690_dst/rho‘
13. https://dacon.io 13
3. 결과 및 결언
- 처음해봐요님의 커널이 상당한 도움이 되었습니다.
- 스펙트럼과 그 범위에 따른 다양한 데이터를 만들어 학습한 것, 다양한 피
쳐와 permutation을 이용한 것이 점수 향상에 긍정적인 영향을 끼쳤다 생
각합니다.