xgboost를 이해하기 위해서 찾아보다가 내가 궁금한 내용을 따로 정리하였으나, 역시 구체적인 수식은 아직 모르겠다.
요즘 Kaggle에서 유명한 Xgboost가 뭘까?
Ensemble중 하나인 Boosting기법?
Ensemble 유형인 Bagging과 Boosting 차이는?
왜 Ensemble이 low bias, high variance 모델인가?
Bias 와 Variance 관계는?
Boosting 기법은 어떤게 있나?
Xgboost에서 사용하는 CART 알고리즘은?
오사카 대학 Nishida Geio군이 Normalization 관련기술 을 정리한 자료입니다.
Normalization이 왜 필요한지부터 시작해서
Batch, Weight, Layer Normalization별로 수식에 대한 설명과 함께
마지막으로 3방법의 비교를 잘 정리하였고
학습의 진행방법에 대한 설명을 Fisher Information Matrix를 이용했는데, 깊이 공부하실 분들에게만 필요할 듯 합니다.
안녕하세요 딥논읽 입니다 오늘 소개드릴 논문은 'LayoutLM'입니다 !
여러 회사에서 스캔 된 문서의 텍스트를 추출하여 이해하는 기술에 대한 수요가 증가하고 있습니다. 하지만 뒷받침할 모델들이 많이 학습이 되지 않고 있는 상황입니다
문제는 이제 Label된 Dataset이 극도로 부족한데 이런 문제를 해결하기 위해서
Unlabel Dataset을 활용을 해야 하지만 연구가 충분히 이루어지지 못하고 있습니다
기존의 모델들은 OCR같은 사전에 학습된 CV모델만을 활용하거나 반대로 NLP 모델만 활용을 하고 있고 이 두 개 모델을 같이 활용된 pre-training 모델이 존재하지 않습니다
그래서 이 논문에서는 컴퓨터 비전과 NLP 를 동시에 사용하는 pre-training 모델을 사용하는 LayoutLM에 대해 제안합니다!
오늘 논문 리뷰는 딥논읽 자연어 처리팀 박희수 님이 자세한 리뷰 도와주셨습니다.
오늘도 많은 관심 미리 감사드립니다!
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용Susang Kim
도입
AI Chatbot 소개
Chatbot Ecosystem
Closed vs Open Domain
Rule Based vs AI
Chat IF Flow and Story Slot
AI기반의 학습을 위한 Data 구성 방법
Data를 구하는 법 / Train을 위한 Word Representation
Data의 구성 / Data Augmentation(Intent, NER)
자연어처리 위한 AI 적용 방안
Intent (Char-CNN) / QnA (Seq2Seq)
Named Entity Recognition (Bi-LSTM CRF) / Ontology (Graph DB)
Chatbot Service를 위한 Architecture 구성
Chatbot Architecture
NLP Architecture
Web Service Architecture
Bot builder / Chatbot API
Test Codes for Chatbot
실무에서 발생하는 문제와 해결 Tips
Ensemble and voting / Trigger / Synonym(N-Gram)
Tone Generator / Parallel processing / Response Speed
마무리
[설명 코드]
Text Augmentation / Slot Bot / QA Bot / Graph DB / Response Generator
xgboost를 이해하기 위해서 찾아보다가 내가 궁금한 내용을 따로 정리하였으나, 역시 구체적인 수식은 아직 모르겠다.
요즘 Kaggle에서 유명한 Xgboost가 뭘까?
Ensemble중 하나인 Boosting기법?
Ensemble 유형인 Bagging과 Boosting 차이는?
왜 Ensemble이 low bias, high variance 모델인가?
Bias 와 Variance 관계는?
Boosting 기법은 어떤게 있나?
Xgboost에서 사용하는 CART 알고리즘은?
오사카 대학 Nishida Geio군이 Normalization 관련기술 을 정리한 자료입니다.
Normalization이 왜 필요한지부터 시작해서
Batch, Weight, Layer Normalization별로 수식에 대한 설명과 함께
마지막으로 3방법의 비교를 잘 정리하였고
학습의 진행방법에 대한 설명을 Fisher Information Matrix를 이용했는데, 깊이 공부하실 분들에게만 필요할 듯 합니다.
안녕하세요 딥논읽 입니다 오늘 소개드릴 논문은 'LayoutLM'입니다 !
여러 회사에서 스캔 된 문서의 텍스트를 추출하여 이해하는 기술에 대한 수요가 증가하고 있습니다. 하지만 뒷받침할 모델들이 많이 학습이 되지 않고 있는 상황입니다
문제는 이제 Label된 Dataset이 극도로 부족한데 이런 문제를 해결하기 위해서
Unlabel Dataset을 활용을 해야 하지만 연구가 충분히 이루어지지 못하고 있습니다
기존의 모델들은 OCR같은 사전에 학습된 CV모델만을 활용하거나 반대로 NLP 모델만 활용을 하고 있고 이 두 개 모델을 같이 활용된 pre-training 모델이 존재하지 않습니다
그래서 이 논문에서는 컴퓨터 비전과 NLP 를 동시에 사용하는 pre-training 모델을 사용하는 LayoutLM에 대해 제안합니다!
오늘 논문 리뷰는 딥논읽 자연어 처리팀 박희수 님이 자세한 리뷰 도와주셨습니다.
오늘도 많은 관심 미리 감사드립니다!
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용Susang Kim
도입
AI Chatbot 소개
Chatbot Ecosystem
Closed vs Open Domain
Rule Based vs AI
Chat IF Flow and Story Slot
AI기반의 학습을 위한 Data 구성 방법
Data를 구하는 법 / Train을 위한 Word Representation
Data의 구성 / Data Augmentation(Intent, NER)
자연어처리 위한 AI 적용 방안
Intent (Char-CNN) / QnA (Seq2Seq)
Named Entity Recognition (Bi-LSTM CRF) / Ontology (Graph DB)
Chatbot Service를 위한 Architecture 구성
Chatbot Architecture
NLP Architecture
Web Service Architecture
Bot builder / Chatbot API
Test Codes for Chatbot
실무에서 발생하는 문제와 해결 Tips
Ensemble and voting / Trigger / Synonym(N-Gram)
Tone Generator / Parallel processing / Response Speed
마무리
[설명 코드]
Text Augmentation / Slot Bot / QA Bot / Graph DB / Response Generator
황은경(violet.blue) / kakao corp.(OSA)
---
오픈소스를 사용하면서 오픈소스 라이선스 의무사항을 지키고 있나요?
오픈소스를 준비하면서 (여러분의 프로젝트를 Github으로 오픈하기 위해) 어떤 오픈소스 라이선스로 배포해야 할지 알고 있나요?
오픈소스를 사용한다면 오픈소스 라이선스 의무사항을 준수하고,
오픈소스로 공개한다면 여러분의 코드를 보호하고 올바르게 사용되도록 하기 위해서 오픈소스 라이선스에 대한 이해가 필요합니다.
이 세션에서는 Apache, MIT, GPL 등의 오픈소스 라이선스 의무사항을 살펴보고, 오픈소스 분쟁사례를 통해 관련 리스크를 파악합니다. 더불어, 코드 공개 및 배포를 위한 오픈소스 라이선스의 양립성 및 주의사항을 확인하고, 카카오의 오픈소스 Guidance에 대해 소개합니다.
This document summarizes gradient boosting algorithms XGBoost and LightGBM. It covers decision trees, overfitting, regularization, feature engineering, parameter tuning, evaluation metrics, and comparisons between XGBoost and LightGBM. Key aspects discussed include XGBoost and LightGBM's tolerance of outliers, non-standardized features, collinear features, and NaN values. Parameter tuning, using RandomizedSearchCV and GridSearchCV, and ensembling models to optimize multiple metrics are also covered.
Learning to summarize from human feedbackharmonylab
公開URL:https://arxiv.org/abs/2009.01325
出典:Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano : Learning to summarize from human feedback, arXiv:2009.01325 (2020)
概要:言語モデルが強力になるにつれて、モデルの学習と評価は特定のタスクで使用されるデータとメトリクスによってボトルネックになることが多い。要約モデルでは人間が作成した参照要約を予測するように学習され、ROUGEによって評価されることが多い。しかし、これらのメトリクスと人間が本当に気にしている要約の品質との間にはズレが存在する。本研究では、大規模で高品質な人間のフィードバックデータセットを収集し、人間が好む要約を予測するモデルを学習する。そのモデルを報酬関数として使用して要約ポリシーをfine-tuneする。TL;DRデータセットにおいて本手法を適用したところ、人間の評価において参照要約よりも上回ることがわかった。
발표자: 최윤제(고려대 석사과정)
최윤제 (Yunjey Choi)는 고려대학교에서 컴퓨터공학을 전공하였으며, 현재는 석사과정으로 Machine Learning을 공부하고 있는 학생이다. 코딩을 좋아하며 이해한 것을 다른 사람들에게 공유하는 것을 좋아한다. 1년 간 TensorFlow를 사용하여 Deep Learning을 공부하였고 현재는 PyTorch를 사용하여 Generative Adversarial Network를 공부하고 있다. TensorFlow로 여러 논문들을 구현, PyTorch Tutorial을 만들어 Github에 공개한 이력을 갖고 있다.
개요:
Generative Adversarial Network(GAN)은 2014년 Ian Goodfellow에 의해 처음으로 제안되었으며, 적대적 학습을 통해 실제 데이터의 분포를 추정하는 생성 모델입니다. 최근 들어 GAN은 가장 인기있는 연구 분야로 떠오르고 있고 하루에도 수 많은 관련 논문들이 쏟아져 나오고 있습니다.
수 없이 쏟아져 나오고 있는 GAN 논문들을 다 읽기가 힘드신가요? 괜찮습니다. 기본적인 GAN만 완벽하게 이해한다면 새로 나오는 논문들도 쉽게 이해할 수 있습니다.
이번 발표를 통해 제가 GAN에 대해 알고 있는 모든 것들을 전달해드리고자 합니다. GAN을 아예 모르시는 분들, GAN에 대한 이론적인 내용이 궁금하셨던 분들, GAN을 어떻게 활용할 수 있을지 궁금하셨던 분들이 발표를 들으면 좋을 것 같습니다.
발표영상: https://youtu.be/odpjk7_tGY0
1. Two papers on unsupervised domain adaptation were presented at ICML2018: "Learning Semantic Representations for Unsupervised Domain Adaptation" and "CyCADA: Cycle-Consistent Adversarial Domain Adaptation".
2. The CyCADA paper uses cycle-consistent adversarial domain adaptation with cycle GAN to translate images at the pixel level while also aligning representations at the semantic level.
3. The semantic representation paper uses semantic alignment and introduces techniques like adding noise to improve over previous semantic alignment methods.
디지털 트랜스포메이션의 이해와 도입 사례 - Understanding of digital transformation and examples...Hakyong Kim
본 자료에서는 디지털 트랜스포메이션(DX)의 등장 배경에 대한 설명에서 시작하여 DX의 정의 및 동작 방식을 설명한다. 또한, 디지털 전환의 적용 대상이 무엇인지 설명하고 적용 대상별 주요 사례들을 소개한다. 마지막으로 디지털 트랜스포메이션에 있어서 기준이 되며 핵심적인 개념인 고객가치를 발굴하기 위한 접근법에 대해서 소개한다. (본 자료는 3~4시간 정도 진행되는 강의 내용을 1시간 30분 분량으로 압축해 놓은 것입니다.)
4분짜리 소개 동영상입니다. 보다 자세한 설명이 필요하신 분은 유튜브에서 시리즈로 게재되고 있는 <디지털 트랜스포메이션의 이해와 활용 사례 분석>을 검색해 주세요.
https://youtu.be/4dmRcrvJ8lE
JTS is a geometry library providing a Java implementation of the OGC Simple Features Specification. The code has been translated into a half-dozen languages including C++ (GEOS), .NET (NTS), and Javascript (JSTS).
As a Geometry library the foundation of JTS is the familiar point, line and polygon data structures. The true power of the library is the algorithms that drive our open source GIS industry. These JTS algorithms have been battle hardened with 18 years of real world use offering a balance between performance, computational stability that spells trust.
This talk covers new developments in the JTS library, focusing on performance improvements, and new features. We will also get an update from the development team, their experience at LocationTech, and efforts towards Java 18.9 compatibility.
We also look at what is next for JTS with plans for the future and a few wild ideas that inspire us to continue.
발표 영상: https://www.youtube.com/watch?v=Se62pRpk9A0
PDF로 받아서 보시면 더 깨끗하게 보실 수 있습니다.
지난 6개월 간 Diffusion model로 MVP를 만들면서 했던 최적화에 대한 고민과 MLops 경험을 공유합니다. 어제 DEVIEW에서 발표한 내용을 좀 더 이해하기 쉽게 수정했고, Diffusion model에 익숙치 않은 분들을 위해 전반부에 간략한 소개와 발전 과정을 정리했습니다.
최근에 Generative AI로 멋진 제품을 만들고자 하는 분들이 많아진 것 같습니다. 모두가 같은 기술에 접근할 수 있는 상황인 만큼 어떻게 다른 가치를 세상에 설득할 것인가 고민을 더 하게 되네요.
저희가 해왔던 시행 착오가 누군가에겐 도움이 되길 바랍니다!
https://symbiote-ai.com/
Semi-supervised learning aims to build accurate predictors using both labeled and unlabeled data. There are three main paradigms: transductive learning focuses on unlabeled data that are the test examples, active learning allows selecting unlabeled examples to label, and multi-view learning uses unlabeled data that have different feature sets. A popular multi-view method is co-training, which trains two classifiers simultaneously on different feature views and has them label each other's unlabeled data. Co-training assumes the views are conditionally independent and each is sufficient for prediction. It can be applied to tasks like web page and text classification.
This document provides an introduction to XGBoost, including:
1. XGBoost is an important machine learning library that is commonly used by winners of Kaggle competitions.
2. A quick example is shown using XGBoost to predict diabetes based on patient data, achieving good results with only 20 lines of simple code.
3. XGBoost works by creating an ensemble of decision trees through boosting, and focuses on explaining concepts at a high level rather than detailed algorithms.
황은경(violet.blue) / kakao corp.(OSA)
---
오픈소스를 사용하면서 오픈소스 라이선스 의무사항을 지키고 있나요?
오픈소스를 준비하면서 (여러분의 프로젝트를 Github으로 오픈하기 위해) 어떤 오픈소스 라이선스로 배포해야 할지 알고 있나요?
오픈소스를 사용한다면 오픈소스 라이선스 의무사항을 준수하고,
오픈소스로 공개한다면 여러분의 코드를 보호하고 올바르게 사용되도록 하기 위해서 오픈소스 라이선스에 대한 이해가 필요합니다.
이 세션에서는 Apache, MIT, GPL 등의 오픈소스 라이선스 의무사항을 살펴보고, 오픈소스 분쟁사례를 통해 관련 리스크를 파악합니다. 더불어, 코드 공개 및 배포를 위한 오픈소스 라이선스의 양립성 및 주의사항을 확인하고, 카카오의 오픈소스 Guidance에 대해 소개합니다.
This document summarizes gradient boosting algorithms XGBoost and LightGBM. It covers decision trees, overfitting, regularization, feature engineering, parameter tuning, evaluation metrics, and comparisons between XGBoost and LightGBM. Key aspects discussed include XGBoost and LightGBM's tolerance of outliers, non-standardized features, collinear features, and NaN values. Parameter tuning, using RandomizedSearchCV and GridSearchCV, and ensembling models to optimize multiple metrics are also covered.
Learning to summarize from human feedbackharmonylab
公開URL:https://arxiv.org/abs/2009.01325
出典:Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano : Learning to summarize from human feedback, arXiv:2009.01325 (2020)
概要:言語モデルが強力になるにつれて、モデルの学習と評価は特定のタスクで使用されるデータとメトリクスによってボトルネックになることが多い。要約モデルでは人間が作成した参照要約を予測するように学習され、ROUGEによって評価されることが多い。しかし、これらのメトリクスと人間が本当に気にしている要約の品質との間にはズレが存在する。本研究では、大規模で高品質な人間のフィードバックデータセットを収集し、人間が好む要約を予測するモデルを学習する。そのモデルを報酬関数として使用して要約ポリシーをfine-tuneする。TL;DRデータセットにおいて本手法を適用したところ、人間の評価において参照要約よりも上回ることがわかった。
발표자: 최윤제(고려대 석사과정)
최윤제 (Yunjey Choi)는 고려대학교에서 컴퓨터공학을 전공하였으며, 현재는 석사과정으로 Machine Learning을 공부하고 있는 학생이다. 코딩을 좋아하며 이해한 것을 다른 사람들에게 공유하는 것을 좋아한다. 1년 간 TensorFlow를 사용하여 Deep Learning을 공부하였고 현재는 PyTorch를 사용하여 Generative Adversarial Network를 공부하고 있다. TensorFlow로 여러 논문들을 구현, PyTorch Tutorial을 만들어 Github에 공개한 이력을 갖고 있다.
개요:
Generative Adversarial Network(GAN)은 2014년 Ian Goodfellow에 의해 처음으로 제안되었으며, 적대적 학습을 통해 실제 데이터의 분포를 추정하는 생성 모델입니다. 최근 들어 GAN은 가장 인기있는 연구 분야로 떠오르고 있고 하루에도 수 많은 관련 논문들이 쏟아져 나오고 있습니다.
수 없이 쏟아져 나오고 있는 GAN 논문들을 다 읽기가 힘드신가요? 괜찮습니다. 기본적인 GAN만 완벽하게 이해한다면 새로 나오는 논문들도 쉽게 이해할 수 있습니다.
이번 발표를 통해 제가 GAN에 대해 알고 있는 모든 것들을 전달해드리고자 합니다. GAN을 아예 모르시는 분들, GAN에 대한 이론적인 내용이 궁금하셨던 분들, GAN을 어떻게 활용할 수 있을지 궁금하셨던 분들이 발표를 들으면 좋을 것 같습니다.
발표영상: https://youtu.be/odpjk7_tGY0
1. Two papers on unsupervised domain adaptation were presented at ICML2018: "Learning Semantic Representations for Unsupervised Domain Adaptation" and "CyCADA: Cycle-Consistent Adversarial Domain Adaptation".
2. The CyCADA paper uses cycle-consistent adversarial domain adaptation with cycle GAN to translate images at the pixel level while also aligning representations at the semantic level.
3. The semantic representation paper uses semantic alignment and introduces techniques like adding noise to improve over previous semantic alignment methods.
디지털 트랜스포메이션의 이해와 도입 사례 - Understanding of digital transformation and examples...Hakyong Kim
본 자료에서는 디지털 트랜스포메이션(DX)의 등장 배경에 대한 설명에서 시작하여 DX의 정의 및 동작 방식을 설명한다. 또한, 디지털 전환의 적용 대상이 무엇인지 설명하고 적용 대상별 주요 사례들을 소개한다. 마지막으로 디지털 트랜스포메이션에 있어서 기준이 되며 핵심적인 개념인 고객가치를 발굴하기 위한 접근법에 대해서 소개한다. (본 자료는 3~4시간 정도 진행되는 강의 내용을 1시간 30분 분량으로 압축해 놓은 것입니다.)
4분짜리 소개 동영상입니다. 보다 자세한 설명이 필요하신 분은 유튜브에서 시리즈로 게재되고 있는 <디지털 트랜스포메이션의 이해와 활용 사례 분석>을 검색해 주세요.
https://youtu.be/4dmRcrvJ8lE
JTS is a geometry library providing a Java implementation of the OGC Simple Features Specification. The code has been translated into a half-dozen languages including C++ (GEOS), .NET (NTS), and Javascript (JSTS).
As a Geometry library the foundation of JTS is the familiar point, line and polygon data structures. The true power of the library is the algorithms that drive our open source GIS industry. These JTS algorithms have been battle hardened with 18 years of real world use offering a balance between performance, computational stability that spells trust.
This talk covers new developments in the JTS library, focusing on performance improvements, and new features. We will also get an update from the development team, their experience at LocationTech, and efforts towards Java 18.9 compatibility.
We also look at what is next for JTS with plans for the future and a few wild ideas that inspire us to continue.
발표 영상: https://www.youtube.com/watch?v=Se62pRpk9A0
PDF로 받아서 보시면 더 깨끗하게 보실 수 있습니다.
지난 6개월 간 Diffusion model로 MVP를 만들면서 했던 최적화에 대한 고민과 MLops 경험을 공유합니다. 어제 DEVIEW에서 발표한 내용을 좀 더 이해하기 쉽게 수정했고, Diffusion model에 익숙치 않은 분들을 위해 전반부에 간략한 소개와 발전 과정을 정리했습니다.
최근에 Generative AI로 멋진 제품을 만들고자 하는 분들이 많아진 것 같습니다. 모두가 같은 기술에 접근할 수 있는 상황인 만큼 어떻게 다른 가치를 세상에 설득할 것인가 고민을 더 하게 되네요.
저희가 해왔던 시행 착오가 누군가에겐 도움이 되길 바랍니다!
https://symbiote-ai.com/
Semi-supervised learning aims to build accurate predictors using both labeled and unlabeled data. There are three main paradigms: transductive learning focuses on unlabeled data that are the test examples, active learning allows selecting unlabeled examples to label, and multi-view learning uses unlabeled data that have different feature sets. A popular multi-view method is co-training, which trains two classifiers simultaneously on different feature views and has them label each other's unlabeled data. Co-training assumes the views are conditionally independent and each is sufficient for prediction. It can be applied to tasks like web page and text classification.
This document provides an introduction to XGBoost, including:
1. XGBoost is an important machine learning library that is commonly used by winners of Kaggle competitions.
2. A quick example is shown using XGBoost to predict diabetes based on patient data, achieving good results with only 20 lines of simple code.
3. XGBoost works by creating an ensemble of decision trees through boosting, and focuses on explaining concepts at a high level rather than detailed algorithms.
5. What is XGBoost?
XGBoost는 ‘Gradient Boosting algorithm’의 주요 라이브러리 중 하나
Gradient Boosting의 느린 속도와 overfitting 문제 해결
XGBoost의 특징
• GBM보다는 빠른 속도
• CART(Classification And Regression Tree)를 기반으로 한다.
(즉, 분류화 회귀 둘 다 가능하다)
• 병렬 처리(Parallelization)를 사용하기 때문에 학습과 분류가 빠르다.
• 유연성이 좋다. 다양한 custom 최적화 옵션을 제공한다.
• 욕심쟁이 알고리즘 (Greedy-algorithm)을 사용하여 자동 가지치기가 가능하
다. (overfitting을 줄여줌)
6. Basic Concept of XGBoost
기존 의사결정나무(Decision Tree)의 주요 원리
여러 기준에 따라 단일 분류를 제대로 하였는지 확인
7. XGBoost의 기본 원리
tree 1, 2와 같이 단일이 아닌 다중 의사결정나무 이용하여 점수 계산
y(score) = a*tree1(x) + b*tree2(x) + error (단, a,b는 트리의 비중 / a>0, b>0)
Ex) 하얀색 앞치마를 한 여성 = -1 + 0.9 = -0.1로 구분이 모호함
이러한 경우에는 a,b값을 통해 트리 비중 나누기 b>a이면 tree2에 비중을 두고 계산
8. Math Formula of XGBoost
기본 Gradient Boosting의 방법대로, round가 지날수록(t) 모델의 에러를 줄여감
XGBoost에서는 위 목적함수(Obj)의 오메가를 이용하여 트리의 비중을 조절한다.
오메가는 리프 개수 (gamma) + 리프 스코어 (L2 norm of leaf weight)로 구성됨
이를 통해, 오메가는 모델(f_t)의 복잡도를 결정함을 알 수 있음
10. 자료 출처
• XGBoost: A Scalable Tree Boosting System (Tianqi Chen & Carlos Guestrin /
University of Washington)
(http://dmlc.cs.washington.edu/data/pdf/XGBoostArxiv.pdf)
• XGBoost eXtreme Gradient Boosting github
(https://github.com/dmlc/xgboost)
• Understanding Gradient Boosting Machines
(https://towardsdatascience.com/understanding-gradient-boosting-machines-
9be756fe76ab)
• What is XGBOOST?
(https://www.kaggle.com/getting-started/145362)
• XGBoost 사용하기
(https://brunch.co.kr/@snobberys/137)