농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...Amazon Web Services Korea
메가마트는 데이터 분석 환경 기반 마련과 비용 및 성능 효율을 위해서 온프레미스 환경의 Exadata에서 AWS 환경으로 전환을 성공적으로 수행하였습니다. 대용량 데이터베이스 마이그레이션 프로젝트의 경험을 기반으로 클라우드 환경에서의 데이터 베이스 성능 확보 및 운영 효율을 위한 모범 사례를 소개합니다.
사례로 알아보는 MariaDB 마이그레이션
현대적인 IT 환경과 애플리케이션을 만들기 위해 우리는 오늘도 고민을 거듭합니다. 최근 들어 오픈소스 DB가 많은 업무에 적용되고 검증이 되면서, 점차 무거운 상용 데이터베이스를 가벼운 오픈소스 DB로 전환하는 움직임이 대기업의 미션 크리티컬 업무까지로 확산하고 있습니다. 이는 클라우드 환경 및 마이크로 서비스 개념 확산과도 일치하는 움직임입니다.
상용 DB를 MariaDB로 이관한 사례를 통해 마이그레이션의 과정과 효과를 살펴 볼 수 있습니다.
MariaDB로 이관하는 것은 어렵다는 생각을 막연히 가지고 계셨다면 본 자료를 통해 이기종 데이터베이스를 MariaDB로 마이그레이션 하는 작업이 어렵지 않게 수행될 수 있다는 점을 실제 사례를 통해 확인하시길 바랍니다.
웨비나 동영상
https://www.youtube.com/watch?v=xRsETZ5cKz8&t=52s
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 백발백준 팀에서는 아래와 같은 프로젝트를 진행했습니다.
백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
20기 유하준 한국외국어대학교 산업공학과
20기 안지완 중앙대학교 소프트웨어학과
20기 정태형 경기대학교 응용통계학과
20기 최윤서 숙명여자대학교 일반대학원 통계학과
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...Amazon Web Services Korea
메가마트는 데이터 분석 환경 기반 마련과 비용 및 성능 효율을 위해서 온프레미스 환경의 Exadata에서 AWS 환경으로 전환을 성공적으로 수행하였습니다. 대용량 데이터베이스 마이그레이션 프로젝트의 경험을 기반으로 클라우드 환경에서의 데이터 베이스 성능 확보 및 운영 효율을 위한 모범 사례를 소개합니다.
사례로 알아보는 MariaDB 마이그레이션
현대적인 IT 환경과 애플리케이션을 만들기 위해 우리는 오늘도 고민을 거듭합니다. 최근 들어 오픈소스 DB가 많은 업무에 적용되고 검증이 되면서, 점차 무거운 상용 데이터베이스를 가벼운 오픈소스 DB로 전환하는 움직임이 대기업의 미션 크리티컬 업무까지로 확산하고 있습니다. 이는 클라우드 환경 및 마이크로 서비스 개념 확산과도 일치하는 움직임입니다.
상용 DB를 MariaDB로 이관한 사례를 통해 마이그레이션의 과정과 효과를 살펴 볼 수 있습니다.
MariaDB로 이관하는 것은 어렵다는 생각을 막연히 가지고 계셨다면 본 자료를 통해 이기종 데이터베이스를 MariaDB로 마이그레이션 하는 작업이 어렵지 않게 수행될 수 있다는 점을 실제 사례를 통해 확인하시길 바랍니다.
웨비나 동영상
https://www.youtube.com/watch?v=xRsETZ5cKz8&t=52s
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 백발백준 팀에서는 아래와 같은 프로젝트를 진행했습니다.
백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
20기 유하준 한국외국어대학교 산업공학과
20기 안지완 중앙대학교 소프트웨어학과
20기 정태형 경기대학교 응용통계학과
20기 최윤서 숙명여자대학교 일반대학원 통계학과
Our GOAL
해외에는 이런 데이터 경쟁 플랫폼이 있습니다. 한국에는 없죠. 국내 공공기관 또는 개별 기업들이 스팟성으로 불투명한 대회를 벗어나 지속적으로 대회를 운영하는 플랫폼이 있으면 좋겠다고 생각했습니다. 우리는 지금 Fintech 기업들과 함께 금융 데이터와 상금을 제공하며, 데이터 과학자 와 데이터 엔지니어링을 포함하는 데이터 대회를 운영합니다.
There are these data competition platforms overseas, but in Korea, Domestic public organizations or individual companies are out of the opaque temporary contest I wanted to have a platform that consistently runs the competition. We now provide financial data and cash prizes with Fintech companies, we run the Data Competition included in Data Engineer and Data Scientists.
2. 1
2
3
STEP 1
STEP 2
STEP 3
https://dacon.io 2
데이터 전처리 & EDA
모델 구축 & 검증
결과 및 결언
데이터 전처리
• LightGBM
• K fold & Random Seed
• 예측 방법
• 데이터 전처리 결과
• 모델 구축 결과
• NAN, Object 데이터 처리
• PCA
• 표준화-Min-Max scaling
모델구축&검증
결과 및 결언
목차 데이터 다운로드
3. https://dacon.io 3
1. 데이터 전처리
▪ NAN, Object data 처리
- Dataset에 문자열과 NA 값이 포함되어 있음
- Dacon에서 제공한 data_loader_v2 를 사용하여 NA와 문자열 값을 0으로 대체
▪ Principal Component Analysis(PCA)
▪ 표준화 Min-Max Scaling
- Feature 간에 correlation 결과, high correlation feature 들이 많이 존재하였음
- Feature간 correlation 이 높은 것들을 선별하여 feature 삭제
- 데이터가 가진 feature의 스케일이 차이가 나는 경우 Feature 를 정규화 함
(데이터의 중요도를 동일하게 반영되도록 하기 위함)
데이터 다운로드
4. https://dacon.io 4
2. 모델 구축 및 검증
▪ 모델 선택
- 모델에 대해 각각 실험하여 성능 비교
- light GBM이 가장 좋은 성능을 보여 lightGBM을 모델로 선택
Random Forest XGBoost lightGBM
데이터 다운로드
5. https://dacon.io 5
2. 모델 구축 및 검증
- 하이퍼 파라미터 튜닝을 위해 K-fold 를 사용해 cross validation(CV) 함
- CV를 가장 좋게 만드는 하이퍼 파라미터를 선택
: n_estimator(Early stopping) 값을 작게 하여 overfitting 을 방지
: min_child_weight 의 값이 낮으면 over-fitting이 되어 CV 를 통해 값을 튜닝하여
over-fitting을 방지
: colsample_bytree 훈련 데이터에서 feature를 샘플링해주는 비율로, feature 선택
- Data split을 robust 하게 해주기위해 3개의 random seed를 사용
- 총 12개의 모델 생성
▪ 모델 최적화
데이터 다운로드
6. https://dacon.io 6
2. 모델 구축 및 검증
- 12개의 모델을 통해 test를 예측
- Hard voting 방식과 Soft voting인 Probability를 평균내는 방법을 사용하여 모델 예측
Hard voting Soft voting
▪ 모델 예측
데이터 다운로드
7. https://dacon.io 7
3. 결과 및 결언
▪ 데이터 전처리
- PCA, Feature 정규화, Min-Max Scaling은 성능 향상에 도움이 되지 않음
- Object와 NAN 값을 0으로 바꾸어 주는 전처리만 진행
▪ 모델 구축 및 검증
- Lgbm 모델 선택
: Random Forest, Xgboost, LightGBM 모델 비교 결과 lgbm의 성능이 가장 좋았음
- K-fold & Random seed를 사용한 모델 하이퍼 파라미터 튜닝
: Robust 한 모델을 만들기 위해 4Kfold * 3seed 총 12개의 모델을 만듬
: Early stopping 값을 작게 설정하여 over-fitting 방지
: min_child_weight 값을 CV를 통해 최적화 하여 over-fitting 방지
- Soft-voting 예측 방법 선택
: 예측 시 Hard-voting 방식과 Probability를 평균내는 Soft-voting 방식을 실험
: evaluation metric이 log-loss였기 때문에 probability를 평균내는 방식의 성능이 좋았음
- 12개의 모델의 예측을 평균 하는 방식으로 최종 결과물 제출
데이터 다운로드