생체 광학 데이터 분석 AI 경진대회 4위 수상작

https://dacon.io
Dacon 월간 데이콘 5
생체 광학 데이터 분석 AI 경진대회
팀명 idiot

목차
1
2
3
STEP 1
STEP 2
STEP 3
https://dacon.io 2
데이터 전처리
모델 구축 & 검증
결과 및 결언
데이터 전처리
모델 구축 & 검증
결과 및 결언
• 파라미터 튜닝
• bad_features
• 모델 구축 및 검증
• 라이브러리 및
데이터
• 데이터 전처리

https://dacon.io 3
1-1. 라이브러리 및 데이터

https://dacon.io 4
1-2. 데이터 전처리 (1)
- 광원 스펙트럼(이하 src)과 측정 스펙트럼(이하 dst) 최대값 1.0 고
정
- 동일 나노미터에서의 src값이 dst보다 작으면 값 삭제
- null_sum : id당 nan 개수에 대한 컬럼 생성

https://dacon.io 5
1-3. 데이터 전처리 (2)
- dst 를 측정거리(이하 rho)로 나눈 dst/rho 컬럼 생성
- 위와 동일한 맥락으로 각 스펙트럼에 대한 src/dst, src/dst/rho, log_src/dst/rho 컬럼 생성

https://dacon.io 6
1-4. 데이터 전처리 (3)
- 스펙트럼 모든 부분 범위의 src/dst, src/dst/rho, log_src/dst/rho mean 컬럼 생성
Ex1) mean_650_2
Ex2) log_mean/rho_650_2
EX3) log_mean/rho_650_3
Ex4) log_mean/rho_650_2/log_mean/rho_650_3’
…
= 650-660 스펙트럼의 src_mean/dst_mean
= 650-660 스펙트럼의 log_src_mean/dst_mean/rho_mean
= 650-670 스펙트럼의 log_src_mean/dst_mean/rho_mean
= Ex2/Ex3

https://dacon.io 7
1-5. 데이터 전처리 (4)
- 특정 스펙트럼에 대한 src와 dst 동일 값 유무 및 몫을 나타해주는 컬럼 생성
Ex) '650_src==650_dst’, '650_src//650_dst’
- 같은 행 내에 값이 다른 두 값을 나눈 컬럼 생성
Ex) ‘log_990_src/990_dst/rho/log_690_src/690_dst/rho‘

https://dacon.io 8
2-0. 모델 구축
- 데이터가 크기 때문에 속도와 메모리에서 효율적인 LGBM 사용

https://dacon.io
2-1. 파라미터 튜닝
- valid 내 inifinity값 nan으로 변
경
- train,test 로 다시 분리해 사용
- 5 FOLD

https://dacon.io 10
2-2. bad_features
- permutation을 미리 계산하여 각 타겟변수에 해당하는
안 좋은 피쳐들을 깃허브에 올려놓았습니다.

https://dacon.io 11
2-3. 모델 구축 및 검증

https://dacon.io 12
2-3. 모델 구축 및 검증

https://dacon.io 13
3. 결과 및 결언
- 처음해봐요님의 커널이 상당한 도움이 되었습니다.
- 스펙트럼과 그 범위에 따른 다양한 데이터를 만들어 학습한 것, 다양한 피
쳐와 permutation을 이용한 것이 점수 향상에 긍정적인 영향을 끼쳤다 생
각합니다.

THANK YOU
THANK YOU
https://dacon.io 14

생체 광학 데이터 분석 AI 경진대회 4위 수상작

Recommended

Recommended

More Related Content

What's hot

What's hot (8)

Similar to 생체 광학 데이터 분석 AI 경진대회 4위 수상작

Similar to 생체 광학 데이터 분석 AI 경진대회 4위 수상작 (20)

More from DACON AI 데이콘

More from DACON AI 데이콘 (19)

생체 광학 데이터 분석 AI 경진대회 4위 수상작