This is the slide from my talk at FULokoja Ingressive meetup.
XGBoost is a decision-tree-based ensemble Machine Learning algorithm that uses a gradient boosting framework. In prediction problems involving unstructured and structured data (images, text, etc.) artificial neural networks tend to outperform all other algorithms or frameworks. However, when it comes to small-to-medium structured/tabular data, decision tree-based algorithms are considered best-in-class right now. XGBoost model has the best combination of prediction performance and processing time compared to other algorithms.
IT IS ABOUT MULTIPROCESSING,COMMUNICATION BETWEEN THE PROCESS THROUGH MESSAGE PASSING AND SHARED MEMORY.SYNCHRONIZATION MECHANISM AND SYNCHRONIZATION USING SEMAPHORE
UNIT II COMMUNICATION IN DISTRIBUTED SYSTEM 10
System Model – Inter process Communication – the API for internet protocols – External data representation and Multicast communication. Network virtualization: Overlay networks. Case study: MPI Remote Method Invocation And Objects: Remote Invocation – Introduction – Request-reply protocols – Remote procedure call – Remote method invocation. Case study: Java RMI – Group communication – Publish-subscribe systems – Message queues – Shared memory approaches – Distributed objects – Case study: Enterprise Java Beans -from objects to components.
This is the slide from my talk at FULokoja Ingressive meetup.
XGBoost is a decision-tree-based ensemble Machine Learning algorithm that uses a gradient boosting framework. In prediction problems involving unstructured and structured data (images, text, etc.) artificial neural networks tend to outperform all other algorithms or frameworks. However, when it comes to small-to-medium structured/tabular data, decision tree-based algorithms are considered best-in-class right now. XGBoost model has the best combination of prediction performance and processing time compared to other algorithms.
IT IS ABOUT MULTIPROCESSING,COMMUNICATION BETWEEN THE PROCESS THROUGH MESSAGE PASSING AND SHARED MEMORY.SYNCHRONIZATION MECHANISM AND SYNCHRONIZATION USING SEMAPHORE
UNIT II COMMUNICATION IN DISTRIBUTED SYSTEM 10
System Model – Inter process Communication – the API for internet protocols – External data representation and Multicast communication. Network virtualization: Overlay networks. Case study: MPI Remote Method Invocation And Objects: Remote Invocation – Introduction – Request-reply protocols – Remote procedure call – Remote method invocation. Case study: Java RMI – Group communication – Publish-subscribe systems – Message queues – Shared memory approaches – Distributed objects – Case study: Enterprise Java Beans -from objects to components.
- Powered by the open source machine learning software H2O.ai. Contributors welcome at: https://github.com/h2oai
- To view videos on H2O open source machine learning software, go to: https://www.youtube.com/user/0xdata
Fractal Tree Indexes : From Theory to PracticeTim Callaghan
Fractal Tree Indexes are compared to the indexing incumbent, B-trees. The capabilities are then shown what they bring to MySQL (in TokuDB) and MongoDB (in TokuMX).
Presented at Percona Live London 2013.
Issues in Decision Tree by Ravindra Singh Kushwaha B.Tech(IT) 2017-21 Chaudha...RavindraSinghKushwah1
Issues in Decision Tree
Overfitting
Incorporating Continuous-valued attributes
Attributes with many values
Handling attributes with costs
Handling examples with missing attribute values
Machine Learning
B.Tech(IT) 2017-21
Memory fragmentation by ofor williams danielOfor Williams
In computer storage, fragmentation is a phenomenon in which storage space is used inefficiently, reducing capacity or performance and often both. The exact consequences of fragmentation depend on the specific system of storage allocation in use and the particular form of fragmentation. In many cases, fragmentation leads to storage space being "wasted", and in that case the term also refers to the wasted space itself.
Todos los precios en grupo Ledacom S.A.S y/o Ledacom están sujetos a cambios sin previo aviso, la vigencia de precios, promociones y/o descuentos están determinados por el número de
existencias y/o fecha de caducidad de dichas publicaciones.
Cada producto contiene el respectivo número de parte y/o modelo del fabricante con el cual se podrá ver la información a detalle en la página de internet de la marca.
Grupo Ledacom S.A.S y/o Ledacom no se responsabiliza por omisiones, errores técnicos o interpretaciones incorrectas de las características de los productos contenidos en este sitio y/o en cualquier
publicación.
DeepLab V3+: Encoder-Decoder with Atrous Separable Convolution for Semantic I...Joonhyung Lee
A presentation introducting DeepLab V3+, the state-of-the-art architecture for semantic segmentation. It also includes detailed descriptions of how 2D multi-channel convolutions function, as well as giving a detailed explanation of depth-wise separable convolutions.
Basic of Decision Tree Learning. This slide includes definition of decision tree, basic example, basic construction of a decision tree, mathlab example
BIRCH (balanced iterative reducing and clustering using hierarchies) is an unsupervised data-mining algorithm used to perform hierarchical clustering over, particularly large data sets.
- Powered by the open source machine learning software H2O.ai. Contributors welcome at: https://github.com/h2oai
- To view videos on H2O open source machine learning software, go to: https://www.youtube.com/user/0xdata
Fractal Tree Indexes : From Theory to PracticeTim Callaghan
Fractal Tree Indexes are compared to the indexing incumbent, B-trees. The capabilities are then shown what they bring to MySQL (in TokuDB) and MongoDB (in TokuMX).
Presented at Percona Live London 2013.
Issues in Decision Tree by Ravindra Singh Kushwaha B.Tech(IT) 2017-21 Chaudha...RavindraSinghKushwah1
Issues in Decision Tree
Overfitting
Incorporating Continuous-valued attributes
Attributes with many values
Handling attributes with costs
Handling examples with missing attribute values
Machine Learning
B.Tech(IT) 2017-21
Memory fragmentation by ofor williams danielOfor Williams
In computer storage, fragmentation is a phenomenon in which storage space is used inefficiently, reducing capacity or performance and often both. The exact consequences of fragmentation depend on the specific system of storage allocation in use and the particular form of fragmentation. In many cases, fragmentation leads to storage space being "wasted", and in that case the term also refers to the wasted space itself.
Todos los precios en grupo Ledacom S.A.S y/o Ledacom están sujetos a cambios sin previo aviso, la vigencia de precios, promociones y/o descuentos están determinados por el número de
existencias y/o fecha de caducidad de dichas publicaciones.
Cada producto contiene el respectivo número de parte y/o modelo del fabricante con el cual se podrá ver la información a detalle en la página de internet de la marca.
Grupo Ledacom S.A.S y/o Ledacom no se responsabiliza por omisiones, errores técnicos o interpretaciones incorrectas de las características de los productos contenidos en este sitio y/o en cualquier
publicación.
DeepLab V3+: Encoder-Decoder with Atrous Separable Convolution for Semantic I...Joonhyung Lee
A presentation introducting DeepLab V3+, the state-of-the-art architecture for semantic segmentation. It also includes detailed descriptions of how 2D multi-channel convolutions function, as well as giving a detailed explanation of depth-wise separable convolutions.
Basic of Decision Tree Learning. This slide includes definition of decision tree, basic example, basic construction of a decision tree, mathlab example
BIRCH (balanced iterative reducing and clustering using hierarchies) is an unsupervised data-mining algorithm used to perform hierarchical clustering over, particularly large data sets.
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현BOAZ Bigdata
데이터 분석 프로젝트를 진행한 REC 팀에서는 아래와 같은 프로젝트를 진행했습니다.
캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
20기 김민혜 한양대학교 경영대학원 비즈니스 인포메틱스
20기 송여진 이화여자대학교 휴먼기계바이오공학부
20기 이은효 이화여자대학교 대학원 통계학과
20기 임세은 숙명여자대학교 사회심리학과
Imagination-Augmented Agents for Deep Reinforcement Learning성재 최
I will introduce a paper about I2A architecture made by deepmind. That is about Imagination-Augmented Agents for Deep Reinforcement Learning
This slide were presented at Deep Learning Study group in DAVIAN LAB.
Paper link: https://arxiv.org/abs/1707.06203
xgboost를 이해하기 위해서 찾아보다가 내가 궁금한 내용을 따로 정리하였으나, 역시 구체적인 수식은 아직 모르겠다.
요즘 Kaggle에서 유명한 Xgboost가 뭘까?
Ensemble중 하나인 Boosting기법?
Ensemble 유형인 Bagging과 Boosting 차이는?
왜 Ensemble이 low bias, high variance 모델인가?
Bias 와 Variance 관계는?
Boosting 기법은 어떤게 있나?
Xgboost에서 사용하는 CART 알고리즘은?
Our GOAL
해외에는 이런 데이터 경쟁 플랫폼이 있습니다. 한국에는 없죠. 국내 공공기관 또는 개별 기업들이 스팟성으로 불투명한 대회를 벗어나 지속적으로 대회를 운영하는 플랫폼이 있으면 좋겠다고 생각했습니다. 우리는 지금 Fintech 기업들과 함께 금융 데이터와 상금을 제공하며, 데이터 과학자 와 데이터 엔지니어링을 포함하는 데이터 대회를 운영합니다.
There are these data competition platforms overseas, but in Korea, Domestic public organizations or individual companies are out of the opaque temporary contest I wanted to have a platform that consistently runs the competition. We now provide financial data and cash prizes with Fintech companies, we run the Data Competition included in Data Engineer and Data Scientists.
2. 목차
1
2
3
STEP 1
STEP 2
STEP 3
https://dacon.io 2
데이터 전처리 & EDA
모델 구축 & 전략
결과 및 아쉬운 점
전처리 & EDA
(변수 생성 포함)
모델 구축 및 전략
결과 및 아쉬운 점
• 전략 및 프로세스
• 결과
• 아쉬운 점
• 이상치 제거
• 타겟 분포
• 타겟 vs features
• fiberID 빈도
• Sequence 관점
• 변수 생성
3. https://dacon.io 3
1. EDA 및 전처리
• fiberID를 제외한 모든 변수에 좌측 그래프와 같이 극단적인 이상치 존재
( 굉장히 멀리 떨어져 있는 천체로 추정 )
• 본격적인 분석에 앞서 학습에 방해가 되는 이상치를 제거하기로 결정
• Test 데이터의 최대, 최소값을 기준으로 이상치를 판단하여 423개 행 제거
1) 이상치 제거
• 클래스 불균형이 심한 상태
• Data augmentation, class weight 등의 방법이 필요할 것으로 예상
2) 타겟 분포
4. • fiberID는 범주형 변수이지만 Cardinality가 높아서 범주형으로 사용하기엔 부담이 있음
• 타입별 분포를 확인해본 결과, ID가 600 이상일 때 QSO가 분류되는 것을 확인하여
연속형 변수로의 가능성 확인
( LGBM 문서에도 Cardinality가 높을 경우 연속형 변수로 취급할 것을 권하고 있음)
• 기타 연속형 변수들은 타입에 따라 분포가 다른 것을 확인할 수 있었음.
1. EDA 및 전처리
3) 각 변수와 타겟 변수 간의 분포 확인
5. https://dacon.io 5
1. EDA 및 전처리
4) fiberID별 빈도 확인
• ‘특정 천체 유형에 특정 fiber를 자주 썼는지’에 대해 확인하기 위해 fiber 범주별로 빈도를 계산하
여 분포 확인
• 그래프 상으로는 Count에 따라 천체 유형이 추가로 분류되지 않았으나 모델 상에서는 약간의 개
선이 있어 사용
6. • 측정 방법 별로 다섯 가지의 파장을 연속으로 측정한 데이터이므로, 시계열로 해석할 수 있다고
판단
• 특성 간의 관계를 고려한 정보가 타겟 분류에 도움이 되리라는 가설을 세움
• 타입별로 유사한 그래프 형태를 띄고 있음
• 이러한 시계열적인 변수 관계를 고려한 변수를 생성하기로 결정
5) Sequence 데이터 관점으로 EDA
1. EDA 및 전처리
7. 추세 관련 정보
① 앞뒤 5포인트 간의 차까지 계산
② 같은 파장끼리의 차
③ 20개 포인트의 랭킹
Peak 관련 정보
① Peak 개수
② Peak prominence의 평균
③ Peak width의 평균 ( 0.3, 0.5, 0.6)
FiberID 범주별 빈도
① ID별 빈도 계산
• EDA를 바탕으로 다음과 같이 세 개 유형의 변수를 생성
• 결론적으로는 추세 관련 1번 변수가 약 0.05의 개선 효과를 주었고
• 나머지 변수들은 0.00x 규모의 미미한 개선 효과를 가져다 주었음
1. EDA 및 전처리
6) 변수 생성
8. https://dacon.io
2. 모델 구축 및 전략
① fiberID는 연속형 범주로 사용
② L1 정규화 파라미터로 조절
③ Xgboost, Light gbm만 사용
④ 4개의 변수 조합에서 나온 결과
를 스태킹 및 앙상블
① fiberID : 연속형 변수로 학습했을 때 log loss 0.05 감소
② 상관관계 높은 변수: 제거했을 때 log loss 증가.
③ 사용할 모델: Xgboost, Light gbm이 기타 모델들보다 log loss 0.01 이상 낮음
④ 변수 조합: Peak width를 ‘0.5만 사용한 경우’와 , ‘0.3과 0.6을 사용한 경우’,
diff 변수가 앞뒤 간의 차만 계산된 경우, 5포인트 전의 값의 차까지 변수로 한
경우가 CV 평균은 비슷하지만 fold별 점수 순위는 달라지는 현상 발견
Data ver1
0.3, 0.6
Data ver2
0.3, 0.6
lgb pred2
xgb pred1
xgb pred2
(5 fold + 2 seed 평균 + Data 버전별 평균)
Stacking
lgb pred2
xgb pred1
xgb pred2
Final
prediction
<전체 프로세스>
diff (Xt+1 –Xt)
Peak width 0.5 or 0.3, 0.6
diff(~ X5t+1 –Xt )
Peak width 0.5 or 0.3, 0.6
Ensemble :
scipy minimize 사용
Stacking:
xgb 사용
Data ver1 0.5
Data ver2 0.5
< EDA 및 실험을 통해 알게 된 정보 > < 도출 전략>
* Lgbm은 시간 등의 문제로 lgb pred2만 사용
9. https://dacon.io 9
3. 결과 및 결언
결과
1. 변수 생성을 통해 logloss 약 0.05 감소
2. 2 seed, 변수 조합 등을 통해 약 0.003 감소
3. Stacking & ensemble을 통해 약 0.0025 감소
4. 최종 private score 약 0.559로 2등 기록
결언
1. 변수를 섬세하게 선택할 시간이 없었으므로 변수 선택을 거치면 더 나은 성적을
기대할 수 있음
2. 점수는 순위권을 기록했지만 모델 훈련 시간이 오래 걸려 비효율적
3. 클래스 불균형 문제를 해결하는 방법을 모색할 필요가 있음
4. 딥러닝 모델 성적이 좋지 않았는데 더 섬세한 모델 구축을 시도할 가치가 있음