spark 1.6을 기준으로 spark sql에 대해서 개략적으로 설명한 자료입니다. 발표 자료가 친절하지 않으나 한글로 된 자료가 없길래 혹시나 도움 되시는 분들이 있을까 하여 공유합니다.
발표자료 보다는 마지막 페이지의 참고자료들을 읽어보시기를 권장 드립니다.
출처만 남겨주시면 자유롭게 가져가셔서 사용하셔도 무방합니다.
spark 1.6을 기준으로 spark sql에 대해서 개략적으로 설명한 자료입니다. 발표 자료가 친절하지 않으나 한글로 된 자료가 없길래 혹시나 도움 되시는 분들이 있을까 하여 공유합니다.
발표자료 보다는 마지막 페이지의 참고자료들을 읽어보시기를 권장 드립니다.
출처만 남겨주시면 자유롭게 가져가셔서 사용하셔도 무방합니다.
Our GOAL
해외에는 이런 데이터 경쟁 플랫폼이 있습니다. 한국에는 없죠. 국내 공공기관 또는 개별 기업들이 스팟성으로 불투명한 대회를 벗어나 지속적으로 대회를 운영하는 플랫폼이 있으면 좋겠다고 생각했습니다. 우리는 지금 Fintech 기업들과 함께 금융 데이터와 상금을 제공하며, 데이터 과학자 와 데이터 엔지니어링을 포함하는 데이터 대회를 운영합니다.
There are these data competition platforms overseas, but in Korea, Domestic public organizations or individual companies are out of the opaque temporary contest I wanted to have a platform that consistently runs the competition. We now provide financial data and cash prizes with Fintech companies, we run the Data Competition included in Data Engineer and Data Scientists.
2. 목차
1
2
3
STEP 1
STEP 2
STEP 3
https://dacon.io 2
데이터 전처리
모델 구축 & 검증
결과 및 결언
데이터 전처리
모델 구축 & 검증
결과 및 결언
• 파라미터 튜닝
• bad_features
• 모델 구축 및 검증
• 라이브러리 및
데이터
• 데이터 전처리
4. https://dacon.io 4
1-2. 데이터 전처리 (1)
- 광원 스펙트럼(이하 src)과 측정 스펙트럼(이하 dst) 최대값 1.0 고
정
- 동일 나노미터에서의 src값이 dst보다 작으면 값 삭제
- null_sum : id당 nan 개수에 대한 컬럼 생성
5. https://dacon.io 5
1-3. 데이터 전처리 (2)
- dst 를 측정거리(이하 rho)로 나눈 dst/rho 컬럼 생성
- 위와 동일한 맥락으로 각 스펙트럼에 대한 src/dst, src/dst/rho, log_src/dst/rho 컬럼 생성
6. https://dacon.io 6
1-4. 데이터 전처리 (3)
- 스펙트럼 모든 부분 범위의 src/dst, src/dst/rho, log_src/dst/rho mean 컬럼 생성
Ex1) mean_650_2
Ex2) log_mean/rho_650_2
EX3) log_mean/rho_650_3
Ex4) log_mean/rho_650_2/log_mean/rho_650_3’
…
= 650-660 스펙트럼의 src_mean/dst_mean
= 650-660 스펙트럼의 log_src_mean/dst_mean/rho_mean
= 650-670 스펙트럼의 log_src_mean/dst_mean/rho_mean
= Ex2/Ex3
7. https://dacon.io 7
1-5. 데이터 전처리 (4)
- 특정 스펙트럼에 대한 src와 dst 동일 값 유무 및 몫을 나타해주는 컬럼 생성
Ex) '650_src==650_dst’, '650_src//650_dst’
- 같은 행 내에 값이 다른 두 값을 나눈 컬럼 생성
Ex) ‘log_990_src/990_dst/rho/log_690_src/690_dst/rho‘
13. https://dacon.io 13
3. 결과 및 결언
- 처음해봐요님의 커널이 상당한 도움이 되었습니다.
- 스펙트럼과 그 범위에 따른 다양한 데이터를 만들어 학습한 것, 다양한 피
쳐와 permutation을 이용한 것이 점수 향상에 긍정적인 영향을 끼쳤다 생
각합니다.