ATMTL23 - L'odysée d'un PMO vers un VMO par Elyes Dekhili et Karl MétivierAgile Montréal
"Explorer la transition majeure et les défis d'un PMO (Project Management Office) traditionnel vers un VMO (Value Management Office) au sein d'une structure de gestion par produit.
Cette transformation, entamée il y a plus d'un an et toujours en cours, offre une approche novatrice pour maximiser la valeur livrée au client.
Vous apprendrez comment aligner votre structure organisationnelle sur la valeur livrée, stimuler l'innovation et favoriser une culture d'excellence axée sur la satisfaction client."
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 BAOBAB 팀에서는 아래와 같은 프로젝트를 진행했습니다.
반려동물 미용업 모바일 서비스 분석
17기 강지민 숙명여자대학교 통계학과
17기 김나연 고려대학교 통계학과
17기 김지윤 성신여자대학교 융합보안공학과
17기 박이정 인하대학교 경영학과
17기 이세영 동덕여자대학교 국제경영/정보통계학과
MLOps and Data Quality: Deploying Reliable ML Models in ProductionProvectus
Looking to build a robust machine learning infrastructure to streamline MLOps? Learn from Provectus experts how to ensure the success of your MLOps initiative by implementing Data QA components in your ML infrastructure.
For most organizations, the development of multiple machine learning models, their deployment and maintenance in production are relatively new tasks. Join Provectus as we explain how to build an end-to-end infrastructure for machine learning, with a focus on data quality and metadata management, to standardize and streamline machine learning life cycle management (MLOps).
Agenda
- Data Quality and why it matters
- Challenges and solutions of Data Testing
- Challenges and solutions of Model Testing
- MLOps pipelines and why they matter
- How to expand validation pipelines for Data Quality
ATMTL23 - L'odysée d'un PMO vers un VMO par Elyes Dekhili et Karl MétivierAgile Montréal
"Explorer la transition majeure et les défis d'un PMO (Project Management Office) traditionnel vers un VMO (Value Management Office) au sein d'une structure de gestion par produit.
Cette transformation, entamée il y a plus d'un an et toujours en cours, offre une approche novatrice pour maximiser la valeur livrée au client.
Vous apprendrez comment aligner votre structure organisationnelle sur la valeur livrée, stimuler l'innovation et favoriser une culture d'excellence axée sur la satisfaction client."
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 BAOBAB 팀에서는 아래와 같은 프로젝트를 진행했습니다.
반려동물 미용업 모바일 서비스 분석
17기 강지민 숙명여자대학교 통계학과
17기 김나연 고려대학교 통계학과
17기 김지윤 성신여자대학교 융합보안공학과
17기 박이정 인하대학교 경영학과
17기 이세영 동덕여자대학교 국제경영/정보통계학과
MLOps and Data Quality: Deploying Reliable ML Models in ProductionProvectus
Looking to build a robust machine learning infrastructure to streamline MLOps? Learn from Provectus experts how to ensure the success of your MLOps initiative by implementing Data QA components in your ML infrastructure.
For most organizations, the development of multiple machine learning models, their deployment and maintenance in production are relatively new tasks. Join Provectus as we explain how to build an end-to-end infrastructure for machine learning, with a focus on data quality and metadata management, to standardize and streamline machine learning life cycle management (MLOps).
Agenda
- Data Quality and why it matters
- Challenges and solutions of Data Testing
- Challenges and solutions of Model Testing
- MLOps pipelines and why they matter
- How to expand validation pipelines for Data Quality
Nnstreamer stream pipeline for arbitrary neural networksNAVER Engineering
In the recent decade, we have witnessed widespread of deep neural networks and their applications. With the evolution of consumer electronics, the range of applicable devices for such deep neural networks is expanding as well to personal, mobile, or even wearable devices. The new challenge of such systems is to efficiently manage data streams between sensors (cameras, mics, radars, lidars, and so on), media filters, neural network models and their post processors, and applications. In order to tackle the challenge with less effort and more effect, we propose to implement general neural network supporting filters for Gstreamer, which is actively developed and tested at https://github.com/nnsuite/nnstreamer
With NNStreamer, neural network developers may easily configure streams with various sensors and models and execute the streams with high efficiency. Besides, media stream developers can now use deep neural networks as yet another media filters with much less efforts.
Understanding LLMOps-Large Language Model OperationsMy Gen Tec
The GPT (Generative Pre-trained Transformer) models created by OpenAI and the BERT (Bidirectional Encoder Representations from Transformers) models created by Google are two of the most well-known LLMOps. These models have produced cutting-edge outcomes in a variety of applications, including text summarization, chatbots, and language translation.
Andre Carpathy, a founding member of OpenAI, explains in "State of GPT" the process of training GPT, an emerging ecosystem of large language models. It starts with pre-training with large datasets that generate the base model through tokenization and translation. Andre also explains that the power of Llama, a smaller model, is more powerful than GPT3 despite containing fewer parameters. The speaker discusses the training of Transformer models for language modeling, followed by the evolution of base models that have arisen since GPT-2. The training process consists of pre-training, supervised fine-tuning, reward modeling, and reinforcement learning. The speaker also talks about improving the performance of Transformers by prompting them, using self-consistency, and prompt engineering. Finally, the speaker addresses the limitations of LLMs, including biases and reasoning errors, and suggests using them in low-stakes applications with human oversight.
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...BOAZ Bigdata
데이터 분석 프로젝트를 진행한 6시내고양포CAT몬 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Cat Anti-aging Project based StyleGAN2
18기 박규연 국민대학교 소프트웨어학부
18기 김가영 숙명여자대학교 통계학과
18기 서은유 동덕여자대학교 정보통계학과
18기 이기원 고려대학교 식품자원경제학과
웹 3.0 시대에서의 블록체인, 메타버스 및 대체불가 토큰(NFT) on AWS 사례 공유 [레벨 200] - 발표자: 이이구, CTO, ...Amazon Web Services Korea
메타보라는 웹 3.0 시대에서의 블록체인, 메타버스 및 대체불가 토큰(NFT) 등의 사업을 본격적으로 추진해 나가고 있습니다. NFT 생태계 전반에 대한 이해와 향후 비전 그리고 AWS 상에서 NFT를 포함한 다양한 블록체인 기반의 서비스를 출시하면서 겪었던 경험을 공유해 드릴 예정입니다.
블록체인 기반의 종합 엔터테인먼트 플랫폼 CUBE를 통해 Netmarble 게임을 포함한 다양한 게임들의 온보딩을 수행한 경험을 공유하고, 게임 서비스와 블록체인 및 CUBE 플랫폼 연동을 위한 Middleware 서비스에 대한 인프라 구조 및 운영 노하우를 공유해드립니다.
2020년 서울시에서 주최한 강소기업탐방 프로그램에서 발표한 자료 입니다.
학교를 졸업하고 software engineer로 취직을 하기까지의 여정을 다뤘습니다
1. 개발자가 나에게 맞을지 고민하기 위한 방법
2. 개발자로 취직하기 (이력서/면접 준비 팁)
3. 개발자로 취직한 후 우리가 하는 일
Robust MLOps with Open-Source: ModelDB, Docker, Jenkins, and PrometheusManasi Vartak
These are slides from Manasi Vartak's Strata Talk in March 2020 on Robust MLOps with Open-Source.
* Introduction to talk
* What is MLOps?
* Building an MLOps Pipeline
* Real-world Simulations
* Let’s fix the pipeline
* Wrap-up
서울시 챗봇팀이 개발한 ‘청년정책봇’은 시나리오 기반이 아닌 딥러닝 기반의 챗봇 서비스다. ETRI에서 개발한 KorBERT를 통해 언어 처리 모델을 대신하고, 형태소 분석 API를 통해 질문 문장에 대한 의도를 분석하였다. 카카오에서 배포한 khaii 형태소 분석기 적용을 통해 구문분석 정확도를 향상을 확인할 수 있었다. 또한, 위키 QA API를 통해 일반적인 질의응답을 위한 기능을 추가했다. 현재 상용화된 챗봇서비스의 대부분은 미리 구성된 시나리오(Flowchart)를 따라가는 방식을 활용하며, 자연어 처리 기술은 신뢰도가 낮아 사용되지 않고 있다. 그에 반해, ‘청년정책봇’은 cdQA 파이프라인을 접목해 유사도 높은 문서를 언어 처리 모델에 적용하는 방식으로 접근해 신뢰도를 높일 수 있었다. 기존 빌더를 통해, 상용화된 서비스 대비 두 가지 장점이 있다. 첫 번째 장점은 딥러닝 모델에 따른 발전 가능성으로써 ETRI KorBERT의 지속적인 개선에 따라 청년정책봇의 기계 독해 성능도 같이 개선된다는 것이다. 두 번째 장점은 서비스 지속 가능성으로써 cdQA 파이프라인에 기반해 주기적인 웹 크롤링을 통해 데이터 추가가 가능하기 때문에 소프트웨어 유지 보수에 필요한 자원을 최소화할 수 있다는 것이다. 청년정책 챗봇을 통해 cdQA 파이프라인과 ETRI BERT 모델을 활용해 기존의 데이터 인풋 제한을 극복하고 기계 독해에 대한 솔루션을 제시할 수 있었다.
H2O Driverless AI에 대한 소개와 IBM Power Systems 에서의 기능을 간략히 소개한 장표입니다.
In this presentation, IBM introduces H2O Driverless AI on IBM Power system to accelerate the speed of deep learning workflow .
Nnstreamer stream pipeline for arbitrary neural networksNAVER Engineering
In the recent decade, we have witnessed widespread of deep neural networks and their applications. With the evolution of consumer electronics, the range of applicable devices for such deep neural networks is expanding as well to personal, mobile, or even wearable devices. The new challenge of such systems is to efficiently manage data streams between sensors (cameras, mics, radars, lidars, and so on), media filters, neural network models and their post processors, and applications. In order to tackle the challenge with less effort and more effect, we propose to implement general neural network supporting filters for Gstreamer, which is actively developed and tested at https://github.com/nnsuite/nnstreamer
With NNStreamer, neural network developers may easily configure streams with various sensors and models and execute the streams with high efficiency. Besides, media stream developers can now use deep neural networks as yet another media filters with much less efforts.
Understanding LLMOps-Large Language Model OperationsMy Gen Tec
The GPT (Generative Pre-trained Transformer) models created by OpenAI and the BERT (Bidirectional Encoder Representations from Transformers) models created by Google are two of the most well-known LLMOps. These models have produced cutting-edge outcomes in a variety of applications, including text summarization, chatbots, and language translation.
Andre Carpathy, a founding member of OpenAI, explains in "State of GPT" the process of training GPT, an emerging ecosystem of large language models. It starts with pre-training with large datasets that generate the base model through tokenization and translation. Andre also explains that the power of Llama, a smaller model, is more powerful than GPT3 despite containing fewer parameters. The speaker discusses the training of Transformer models for language modeling, followed by the evolution of base models that have arisen since GPT-2. The training process consists of pre-training, supervised fine-tuning, reward modeling, and reinforcement learning. The speaker also talks about improving the performance of Transformers by prompting them, using self-consistency, and prompt engineering. Finally, the speaker addresses the limitations of LLMs, including biases and reasoning errors, and suggests using them in low-stakes applications with human oversight.
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...BOAZ Bigdata
데이터 분석 프로젝트를 진행한 6시내고양포CAT몬 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Cat Anti-aging Project based StyleGAN2
18기 박규연 국민대학교 소프트웨어학부
18기 김가영 숙명여자대학교 통계학과
18기 서은유 동덕여자대학교 정보통계학과
18기 이기원 고려대학교 식품자원경제학과
웹 3.0 시대에서의 블록체인, 메타버스 및 대체불가 토큰(NFT) on AWS 사례 공유 [레벨 200] - 발표자: 이이구, CTO, ...Amazon Web Services Korea
메타보라는 웹 3.0 시대에서의 블록체인, 메타버스 및 대체불가 토큰(NFT) 등의 사업을 본격적으로 추진해 나가고 있습니다. NFT 생태계 전반에 대한 이해와 향후 비전 그리고 AWS 상에서 NFT를 포함한 다양한 블록체인 기반의 서비스를 출시하면서 겪었던 경험을 공유해 드릴 예정입니다.
블록체인 기반의 종합 엔터테인먼트 플랫폼 CUBE를 통해 Netmarble 게임을 포함한 다양한 게임들의 온보딩을 수행한 경험을 공유하고, 게임 서비스와 블록체인 및 CUBE 플랫폼 연동을 위한 Middleware 서비스에 대한 인프라 구조 및 운영 노하우를 공유해드립니다.
2020년 서울시에서 주최한 강소기업탐방 프로그램에서 발표한 자료 입니다.
학교를 졸업하고 software engineer로 취직을 하기까지의 여정을 다뤘습니다
1. 개발자가 나에게 맞을지 고민하기 위한 방법
2. 개발자로 취직하기 (이력서/면접 준비 팁)
3. 개발자로 취직한 후 우리가 하는 일
Robust MLOps with Open-Source: ModelDB, Docker, Jenkins, and PrometheusManasi Vartak
These are slides from Manasi Vartak's Strata Talk in March 2020 on Robust MLOps with Open-Source.
* Introduction to talk
* What is MLOps?
* Building an MLOps Pipeline
* Real-world Simulations
* Let’s fix the pipeline
* Wrap-up
서울시 챗봇팀이 개발한 ‘청년정책봇’은 시나리오 기반이 아닌 딥러닝 기반의 챗봇 서비스다. ETRI에서 개발한 KorBERT를 통해 언어 처리 모델을 대신하고, 형태소 분석 API를 통해 질문 문장에 대한 의도를 분석하였다. 카카오에서 배포한 khaii 형태소 분석기 적용을 통해 구문분석 정확도를 향상을 확인할 수 있었다. 또한, 위키 QA API를 통해 일반적인 질의응답을 위한 기능을 추가했다. 현재 상용화된 챗봇서비스의 대부분은 미리 구성된 시나리오(Flowchart)를 따라가는 방식을 활용하며, 자연어 처리 기술은 신뢰도가 낮아 사용되지 않고 있다. 그에 반해, ‘청년정책봇’은 cdQA 파이프라인을 접목해 유사도 높은 문서를 언어 처리 모델에 적용하는 방식으로 접근해 신뢰도를 높일 수 있었다. 기존 빌더를 통해, 상용화된 서비스 대비 두 가지 장점이 있다. 첫 번째 장점은 딥러닝 모델에 따른 발전 가능성으로써 ETRI KorBERT의 지속적인 개선에 따라 청년정책봇의 기계 독해 성능도 같이 개선된다는 것이다. 두 번째 장점은 서비스 지속 가능성으로써 cdQA 파이프라인에 기반해 주기적인 웹 크롤링을 통해 데이터 추가가 가능하기 때문에 소프트웨어 유지 보수에 필요한 자원을 최소화할 수 있다는 것이다. 청년정책 챗봇을 통해 cdQA 파이프라인과 ETRI BERT 모델을 활용해 기존의 데이터 인풋 제한을 극복하고 기계 독해에 대한 솔루션을 제시할 수 있었다.
H2O Driverless AI에 대한 소개와 IBM Power Systems 에서의 기능을 간략히 소개한 장표입니다.
In this presentation, IBM introduces H2O Driverless AI on IBM Power system to accelerate the speed of deep learning workflow .
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...Amazon Web Services Korea
AWS의 빅데이터 서비스들이 데이터 파이프라인 상에서 어떻게 활용 되는지와 데이터 모델링과 플랫폼 구축을 100% 내재화 하여 AWS와 함께 고객기반 서비스의 경쟁력을 강화 해나가는 고객 사례를 전해 드립니다. 국내 뷰티산업을 리딩 하고 있는 아모레퍼시픽에서 온/오프라인 고객 정보를 AWS 기반의 Data Lake로 통합 하고 고객 관점의 데이터 서비스를 출시 하는데 속도를 높이고 있는 성공 스토리를 직접 전해 드립니다.
엔터프라이즈의 인공지능(AI)과 머신러닝(ML) 적용은 왜 어려울까요?
베스핀글로벌의 웨비나 자료를 통해서 성공적인 AI와 ML 적용 방법을 확인하세요.
[목차]
1. 디지털 트랜스포메이션의 큰 흐름
- Gartner 선정 미래를 이끌어 갈 기업
- 글로벌 금융 기업의 디지털 트랜스포메이션, 데이터를 바라보는 시각
- 빅데이터 & AI 활용 사례
2. 빅데이터 분석 시스템 도입하기
- 빅데이터 분석 시스템 미도입 이유
- 빅데이터 분석 시스템 도입 사례
3. 데이터 분석을 위한 Data Lake & Data Governance
- 데이터 분석의 한계와 Data Lake
- 클라우드 Migration
- Data Governance의 중요성
4. AI 적용하기
- Amazon AI 서비스
- 적용 사례
기업의 미래를 바꾸는 AI 플랫폼
[케이스 스터디를 통해 알아보는 실전 도입 전략]
Microsoft AI, Azure AI에 대한 설명과 데모를 바탕으로 AI의 이해를 도모하고 실제 사례를 통해 정확한 역할 및 필요성에 대해 살펴보겠습니다.
클라우드컨설팅-운영-관리까지 한번에!
베스핀글로벌의 클라우드팀은 깊은 지식과 전문성을 보유했습니다.
630여명 클라우드 전문가 / 1000여명 글로벌 클라우드 전문가 네트워크 / 한국, 중국, 북미, 유럽에 클라우드 전문 등
전문적이고 충분한 네트워크를 통해 글로벌 환경에도 유연하게 대응할 수 있습니다.
Kpmg ideation challenge: ING team (korean)JihyunSon2
안녕하세요, 전처리 담당 AI 프로젝트의 발표를 맡게 된 ING 팀의 손지현이라고 합니다. 우선 발표로 들어가기 전, 팀원 소개를 하고자 하는데요, 저희는 개발자 3명, 기획자 한 명으로 이루어졌습니다. 여기서 개발자이자 팀장님이신 심승철님께서 기술 Q&A를 맡기 위해, 저는 전반적인 발표를 맡기 위해 이 자리에 섰습니다.
우선 발표 콘텐츠를 설명 드리자면, 저희는 문제진단, 해결방안, 결과소개, 그리고 사업화, 이 네 가지로 발표를 나눴습니다. 하지만 문제진단을 하기 앞서, 간단하게 배경 설명을 해야 할 것 같은데요,
요즘 digital transformation이란 말이 뜨면서 사람들은 여러 분야에 관심을 가지게 되었는데, 여기서 저희가 집중하고자 하는 부분은
Big Data, 또는 데이터 산업입니다. 특히 AI의 학습에 쓰이는 데이터의 역할에 관심을 가지게 되었는데, 저희는 AI와 자동화 시스템을 통해 어떻게 이 분야를 더욱 효율적으로 바꿔나갈지를 고민하게 되었습니다.
AI의 학습과정을 보자면 이렇게 정리가 되는데요, 여기서 시간 소모가 가장 큰 과정이 바로 여기 pre-processing, 혹은 데이터 전처리라고 합니다. 데이터 전처리 과정을 설명 드리자면, AI가 학습과정에 많은 데이터가 필요한데, AI가 이해할 수 있는 형식으로 데이터를 가공하고 정제하는 과정이 바로 데이터 전처리입니다. 현재 대부분 수작업으로 진행되기 때문에 가장 많은 시간과 인력을 소모하고 있죠.
그렇다면 이 부분에다가 RPA에 적용한다면 어떨까? 저희 프로젝트의 주제를 간단히 말씀 드리자면, AI를 학습시키는데 AI를 사용하자는 결론에 도달하는 거죠.
데이터 전처리 시장을 조사한 바, 현재 amazon mechanical turk와 crowdworks라는 두 기업이 자리잡고 있는데, 이 두 기업은 전처리 된 데이터가 필요한 기업과 전처리를 하고자 하는 일반인 아르바이트를 연결시켜주는 플랫폼이라 생각하시면 됩니다. 하지만 여기서 세가지 문제를 발견했는데, 이것은 한정된 유저 인터페이스, 데이트의 신뢰성 부족, 그리고 수작업으로 인한 비효율적 시스템입니다.
예시를 보여드리자면, 이게 AMT의 인터페이스인데요, 보시다시피 영수증 내용을 AI가 이해하도록 바꾸기 위해 일일이 내용을 옮겨 적어야 하는 형식입니다. 인터페이스도 웹으로만 접근 가능한거라 접근성도 안 좋고 상당히 번거롭죠.
그렇다면 저희가 생각해낸 솔루션들은? 첫째, 간편한 안드로이드 유저인터페이스를 만들고 UI/UX를 고칠 것, 둘째, 교차 인증 및 게이미피케이션 기능을 추가해서 정확도를 높일 것, 그리고 마지막으로 데이터전처리에 딥러닝 AI를 기반해서 사용자의 효율 및 정확성을 확보하는 것입니다. 특히 세번째가 중요한데, 제가 앞서 말씀 드린 AI를 이용해서 AI를 학습시킨다 개념에 들어간다고 생각하시면 됩니다.
앞에 두 솔루션을 설명 드리자면, UI/UX를 기존의 상품에 비해 사용자가 사용하기 편하게 고치고자 노력했습니다. 곧 제품시연 때 직접 체감하실 수 있을 것이라 믿고 다음 솔루션으로 넘어가겠습니다. 기존의 상품들의 경우, 본인의 성과를 체크하는 기능은 있어도 본인의 성과를 다른 작업자들과 비교하는 기능이 없었으며, 그나마 crowdworks에는 소수의 상위랭커 리스트만 있었습니다. 저희는 상대적 위치, 예를 들어 여기 상위 13%다, 등을 알려주며 사람들이 더욱 열심히 작업을 하도록 자극시키는 게이미피케이션 요소를 추가하고자 했습니다.
자, 마지막으로 가장 중요한 RPA의 응용으로 넘어갈텐데, 제품 시연이랑 함께 설명을 드리겠습니다. 저희 제품은 이미지 라벨링 자동화, 문자 라벨링 자동화, 그리고 음성 라벨링 자동화 이렇게 세 가지로 구성되어됩니다. 이미지 라벨링 자동화의 경우를 확인한다면 AI가 미리 이미지를 분석하고 확인한 다음, 세 가지 가능성을 제안한다면 사용자는 단순히 저 중 하나를 고르는 형식입니다. 다음 문자 라벨링의 경우, 아까 AMT 사진이랑 상당히 비교가 되는데, AI가 미리 문자를 인식해서 적어놓은 상태로 사용자는 단순히 맞는지 틀린지만 확인하고, 틀린 것들만 수정하는 형식입니다. 세번째도 두번째와 비슷한데, 이렇게 영상이 나왔을 때 AI가 인식하고 적어내린 것들을 작업자가 수정하는 형식입니다. 제품 시연을 넘어가기 전에 마지막으로 한 부분으로 보여드릴텐데요, 여기서 보시는 점수와 활동 내역은 사용자가 자신이 했던 것 일의 내역을 보고 자극될 수 있도록 시각화되어있는, 앞서 말씀드린 게이미피케이션의 일부라고 보시면 됩니다. 이 차트는 사용자가 했던 활동을 실시간 반영하며, 본인이 했던 것을 좀 더 예쁘게 볼 수 있도록 디자인되어있습니다.
이제 사업화를 할 시에 고려해야 할 것들을 몇 가지 제시하겠습니다. 제일 중요하다고 여긴 것들 은 시스템의 간편화, 경쟁업체의 고객화, 그리고 홍보였습니다. 간편화의 경우 특히 급여지급의 간편화가 필요한데, 복잡한 payment system을 가져 작업자의 의욕을 꺾었던 이전 서비스에 비해 저희는 카카오페이 등의 금융앱과의 제휴를 통해 인센티브 비용을 쉽게 제공하고자 합니다. 또, 이미 자리잡아있는 경쟁업체와 경쟁을 하기보다는 저희 RPA 솔루션을 제공하는 등의 협업을 생각했습니다. 마지막으로 홍보가 가장 중요한데, 일반인들도 작업자로써 활동할 수 있도록 데이터 전처리 플랫폼을 게임 광고, 가상화폐 대체 광고 등으로 가시화하는 것이 중요하다 생각합니다.
그렇다면 마지막으로 몇 가지 참고 장표들을 보여드릴 텐데요, 이 장표의 내용들은 안타깝게도 시간제한상 설명을 드리기 어렵지만 혹시나 저희 프로젝트에 대해서 궁금하실 분들을 위해 따로 마련해드렸습니다. 혹시 Q&A 때 알고 싶으신 점들이 있다면 언제든지 질문하시길 바랍니다.
이로써 발표를 마치겠습니다.
감사합니다.
클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...Amazon Web Services Korea
제조업의 디지털 혁신을 위해 오퍼레이션 및 고객 데이터 등을 분석하고, 이를 경영 전략에 활용하는 것이 점점 중요해 지고 있습니다. 본 세션에서는 제조업 현장에서 클라우드를 도입하는 다양한 국내외 사례를 통해 스마트 프로덕트를 기획하는 단계부터 생산에 이르기까지 다양한 과정을 거치면서 어떻게 클라우드를 활용하여 혁신을 이루어 내었는지 삼성중공업, 현대 건설 기계 및 GS칼텍스 등 국내 사례 위주로 소개 합니다.
1. AI를 쉽고 빠르게 할 수
있는 AutoML
- H2O Driverless AI
2020 1Q
권오윤 영업대표
010-4995-6649
(OyunKwon@kr.ibm.com)
2. Welcome to the Waitless World - 2 -
기업에서의 AI 채택에 대한 걸림돌
AI 전문 인력 부족
~100
Data science experts in the
world
Time for a data scientist to
build a model
Months
느린 개발 속도
Black box models
AI에 대한 신뢰 부족
“미국에서만도 분석 전문가의 인력 부족이 19만명에 달한다.”
“2024년이 되면 부족한 전문가는 25만명까지 늘어난다.”
Data is a Team Sport
3. Welcome to the Waitless World - 3 -
H2O.ai 회사 개요
Company Founded in Silicon Valley in 2012
Funded: Series D, Investors: Wells Fargo, NVIDIA, Nexus Ventures, Paxion
Ventures, Barclays, Goldman Sachs, Ping An Global
Products • H2O Open Source Machine Learning (18,000 organizations)
• H2O Driverless AI – Automatic Machine Learning
Leadership Leader in Gartner MQ Machine Learning and Data Science Platform
Team 170+ AI expertise (Kaggle Grandmasters/expert data scientists, Distributed
Computing, Visualization)
Global Mountain View, NYC, London, Prague, India, Singapore, France
4. Welcome to the Waitless World
AI와 ML의 선두주자인 H2O.ai
Gartner Machine Learning
and Data Science Platform
The Forrester Wave™:
Automation Solutions, Q2 2019
Top 3 Artificial Intelligence (AI)
and Machine Learning (ML)
Software Solution
"Excellent marks for product
roadmap and vision."
“The industry standard”
“Its vision of creating an AI
and ML tool that ultimately aims
to allow almost everyone within
the business to create their own
predictive models”
“H2O.ai’s future is automated
machine learning”
“…is best for companies that
want to delight data scientists”
5. Welcome to the Waitless World
Growing Worldwide H2O AI Community
18,000 Companies Using H2O
200,000 Data Scientists 120K Meetup Members
H2O World – NYC, London, SF
Thousands attending live and online
6.
7. Welcome to the Waitless World
AutoML이란?
Automated Machine Learning (AutoML) – 실제 사회에서 발생하는 다양한 문제들에 머신러닝을
적용하기 위한 모든 프로세스를 자동화 해주는 것을 의미
보통의 머신러닝 어플리케이션에서는 Data Scientist들이
1) 적절한 데이터의 전처리
2) 파생변수의 생성
3) 변수의 추출
4) 변수의 선택
등의 방법을 적용하여 데이터 셋을 수정한다.
이러한 전처리 과정을 통한 모델링 과정에서 Data Scientist들은
1) 적절한 알고리즘의 선택
2) 하이퍼 파라메터의 최적화를 수행하여 최종 머신러닝을 통해 만들어지는 모델에서 최적의
예측결과를 내도록 한다.
8. Welcome to the Waitless World
AI 모델 개발의 3가지 어려움
Basic Encoding
Feature Generation
Advanced Encoding
Talent: Feature Engineering
Algorithm Selection
Parameter Tuning
Time: Model Building
Model Ensembles
Pipeline Generation
Model Explainabilty
Trust: Model Deployment
Model Documentation
• 많은 시간 소요
• 고급 스킬 셋의 필요
• 특히 새로운 파생
변수의 생성은 높은
레벨의 스킬과 경험을
요구
• 많은 시간 소요
• 알고리즘과
파라메터등에 대한
고급의 지식이 필요함
• 모델을 Ensemble하는
것도 고급 스킬로
분류됨
• 많은 시간이 소요
• 모델을 Deploy하는데는 IT base의
스킬 셋이 필요
• 어떻게 예측 모델이 결정을 하게
되었는지 설명하는 것은
신뢰측면에서 매우 중요
(특히 의사결정권자들과 감사하는
입장에서)
이러한 전체의 프로세스는 수많은 반복이 필요하고 몇 주에서 몇 달까지 시간이 소요될 수 있습니다.
9. Welcome to the Waitless World
Driverless AI 는 기업에게 AI를 전달
Time
Time to Insight
Talent
Kaggle Grandmasters
Top 10
Data Science Experts
GPU Accelerated ML
Automatic Pipelines
Months
to Hours
Trust
Explainability
and Transparency
MLI
Auto Doc
Auto Visualization
10. Welcome to the Waitless World - 10 -
전형적인 machine learning의 workflow
“Data Scientist 영역”
반복적, 장시간 중노동
“IT 영역”
ETL, data cleaning, encoding, etc
“개발자 영역”
App coding 및
튜닝
Business
Prediction
11. Welcome to the Waitless World - 11 -
Data Science와 ML workflow의 자동화
H2O Driverless AI
“Feature engineering부터 app까지”
Business
Prediction
“IT 영역”
ETL, data cleaning, encoding, etc
12. Welcome to the Waitless World
H2O Driverless AI: “Expert Data Scientist in a Box”
SQL
Local
Amazon S3
HDFS
X Y
Automatic
Scoring Pipeline
Machine learning
설명
Deploy Low-
latency
Scoring to
Production
Modelling
Dataset
Model Recipes:
• i.i.d. Data
• Time-series
• NLP
• More on the way
Advanced
Feature
Engineering
Algorithm Model
Tuning
+ +
Survival of the Fittest
Automatic Machine Learning
데이터의 형태나
Outliers 혹은 빠진
자료등을 이해
Powered by GPU Acceleration
1
Drag and drop data
2
자동화된 시각화
Best practice model recipes와
CPU/GPU 연산능력을 이용하여,
진보된 feature engineering과
parameter tuning을 포함한
수천개의 가능성 있는 모델들에
걸쳐 반복 훈련
3
자동화된 Machine Learning
Feature transformation과
models를 포함한, low-latency
Python 또는 Java로 구현된
Automatic Scoring Pipelines를
deploy
4
자동화된 소스코드 생성
어디서든 데이터를
가져올 수 있음
(Local or Cloud)
Google BigQuery
Azure Blog Storage
Snowflake
Automatic Model
Documentation
5
BYOR – Scorer, Transformer, Model+
13. Welcome to the Waitless World
H2O Driverless AI의 주요 특장점
1. 자동화된 파생 변수 생성
2. 설명 가능한 Machine Learning (MLI)
3. TensorFlow를 이용한 자연어 분석 (NLP)
4. Time Series 데이터 분석
5. 자동화된 시각화
6. 자동화된 소스코드 생성
7. 자동화된 분석 문서 생성
8. NVIDIA GPU Acceleration
9. Bring-Your-Own Recipes (Customized ML)
14. Welcome to the Waitless World
장기적 관점에서의 H2O Driverless AI
다른 자동화된 ML 플랫폼과는
다르게 Driverless AI는 더
나은 비전과 아키텍쳐를
제시합니다.
은행, 보험, 생산라인 그리고
병원등의 사업의 업계를
선두하는 곳들에 의해
로드맵이 만들어 집니다.
더 많은 데이터를 다룰 수
있도록 디자인 되었으며,
어떤 데이터도 H2O플랫폼
위에서 사용 가능합니다.
하나의 ML 플랫폼으로 수많은 Data Scientist의 AI를 확장가능
Confidential and property of H2O.ai. All rights reserved
15. Welcome to the Waitless World - 15 -
신뢰와 규제 준수를 위한 업계 선두의 Interpretability
규제 뿐만 아니라
디버깅을 위해 필요한
Interpretability
사유 부호(reason
code)와 모델
interpretability를 영어
평문으로 생성
각 prediction에 대한
사유 부호 생성에 K-
Lime, LOCO, partial
dependence 등의
기술을 지원
16. Welcome to the Waitless World - 16 -
Low-latency Model들의 편리한 배치 활용
독립된 prediction program의 자동 생성
Python 및 Java로 된 “scoring-pipeline”
자동 생성
편리한 inferencing
새로운 model 생성시 편리한 update
복잡한 big data model에 대해 최적화된
scoring code
최말단 및 모바일 등 어떤 디바이스에서나
배치 가능한 간결한 scoring code
실시간 app을 만족시키는 millisecond
단위의 반응 속도
17. Welcome to the Waitless World - 17 -
H2O DriverlessAI : 손쉽고 직관적인 machine learning
18. Welcome to the Waitless World
AutoML: H2O DAI – 산업별 사례
시간절약, 비용절약, 경쟁적인 이점
Wholesale / Commercial
Banking
• 고객 분석 (KYC)
• 돈세탁 방지 (AML)
Card / Payments Business
• 사기 거래
• 공모 사기
• 실시간 분석
• 신용도 평가
Retail Banking
• 예금 사기
• 고객이탈 예측
• 자동 여신 평가
Financial Services
• 암 초기 진단
• 약품 추천
• 개인화된 처방 조치
• 의료 청구 사기 발견
• 독감 예측
• 불법 약물 처방 발견
• 응급초지 관련 관리
• 원격 환자 관리
• 임상실험 예측
Healthcare
• 관리 예측
• 고객 이탈 방지
• 고객데이터에 입각한 관리
• 원장 데이터 관리
• 지능적인 광고 추천
• 개인화된 프로그램 추천
Telecom
• 개인화된 광고
• 신용관리
• 사기 감지
• 최선의 추천
• 고객 관리
• 스마트 프로파일링
• 고객 행동 예측
• 고객에게 상품 추천
Marketing and Retail
20. Welcome to the Waitless World - 20 -
Use case : 금융 사기 탐지
Venkatesh Ramanathan
Senior Data Scientist, PayPal
Driverless AI는 10년
경력의 feature
engineering 전문가에
필적
사기 행위 탐지
정확도를 0.89에서
0.947로 6% 향상
H2O4GPU with
Driverless AI
사용으로 6배 속도
향상
“Driverless AI는
feature 및 모델 성능
측면에서 놀라운
결과를 만들어내고
있습니다.”
21. Welcome to the Waitless World - 21 -
Use case : 마케팅 최적화
“Driverless AI는 우리의
Intelligent Marketing Cloud
로 고객에게 접근하는데 큰
도움을 주었습니다. AI를 하기
위한 AI는 우리 시스템을
날마다 향상시켜 주고
있습니다.”
Martin Stein
Chief Product Officer
다른 부동산 디지털
마케팅 솔루션보다
2.5배 뛰어난 효과
한 G5 고객사는 연간
디지털 마케팅 비용
$500K를
절감하면서도 웹
트래픽을 3배로 늘림
10배 빠른 모델 생성
22. Welcome to the Waitless World - 22 -
Use case : 매출 예측 및 수급 관리
“H2O Driverless AI feature
engineering은 제가 본 것 중
최고입니다. 그리고 scoring
pipeline 생성은 제게는 아마
최고의 플러스입니다. 시간을
크게 줄여주었거든요.”
Robert Coop
Sr. Data Scientist
Stanley Black & Decker
1명의 data
scientist로 25% 시간
절약
제조 생산 라인을
위한 모델 튜닝과
훈련에 1달의 시간
단축
Forecast 정확성
향상을 통해 미래
고객 주문을 위한
필요 부품 및
원자재를 정확히 예측
23. Welcome to the Waitless World
$ head -n 2 creditcard_train.csv
"Time","V1","V2","V3","V4","V5","V6","V7","V8","V9","V10","V11","V12","V13","V14","V15","V16","V17","V18","V19","V20","V
21","V22","V23","V24","V25","V26","V27","V28","Amount","Class"
0,-1.3598071336738,-0.0727811733098497,2.53634673796914,1.37815522427443,-
0.338320769942518,0.462387777762292,0.239598554061257,0.0986979012610507,0.363786969611213,0.09079417197
89316,-0.551599533260813,-0.617800855762348,-0.991389847235408,-0.311169353699879,1.46817697209427,-
0.470400525259478,0.207971241929242,0.0257905801985591,0.403992960255733,0.251412098239705,-
0.018306777944153,0.277837575558899,-0.110473910188767,0.0669280749146731,0.128539358273528,-
0.189114843888824,0.133558376740387,-0.0210530534538215,149.62,"0"
H2O DAI를 이용한 credit card fraud detection 정확도
Data source : https://www.kaggle.com/mlg-ulb/creditcardfraud/home
Test 상세 : https://hwengineer.blogspot.com/2018/12/h2o-driverless-ai-kaggle-creditcard.html
Kaggle에서 제공되는 실제 신용카드 사기 dataset을 이용하여 H2O DAI의 실제 정확도 측정
전체 거래 (28만건 이상) 중 사기거래(Class=“1”)는 492건 (0.173%)
Test dataset 3천건 중 실제 사기거래는 4건 (row_num : 588, 871, 874, 921)
24. Welcome to the Waitless World
$ head -n 2 creditcard_train.csv
"Time","V1","V2","V3","V4","V5","V6","V7","V8","V9","V10","V11","V12","V13","V14","V15","V16","V17","V18","V19","V20","V
21","V22","V23","V24","V25","V26","V27","V28","Amount","Class"
0,-1.3598071336738,-0.0727811733098497,2.53634673796914,1.37815522427443,-
0.338320769942518,0.462387777762292,0.239598554061257,0.0986979012610507,0.363786969611213,0.09079417197
89316,-0.551599533260813,-0.617800855762348,-0.991389847235408,-0.311169353699879,1.46817697209427,-
0.470400525259478,0.207971241929242,0.0257905801985591,0.403992960255733,0.251412098239705,-
0.018306777944153,0.277837575558899,-0.110473910188767,0.0669280749146731,0.128539358273528,-
0.189114843888824,0.133558376740387,-0.0210530534538215,149.62,"0"
H2O DAI를 이용한 credit card fraud detection 정확도
Data source : https://www.kaggle.com/mlg-ulb/creditcardfraud/home
Test 상세 : https://hwengineer.blogspot.com/2018/12/h2o-driverless-ai-kaggle-creditcard.html
Kaggle에서 제공되는 실제 신용카드 사기 dataset을 이용하여 H2O DAI의 실제 정확도 측정
전체 거래 (28만건 이상) 중 사기거래(Class=“1”)는 492건 (0.173%)
Test dataset 3천건 중 실제 사기거래는 4건 (row_num : 588, 871, 874, 921)
25. Welcome to the Waitless World
H2O DAI를 이용한 제조업 관련 data 예측
Data source : https://www.kaggle.com/burakhmmtgl/predict-molecular-properties/home
Test 상세 : http://hwengineer.blogspot.com/2019/01/h2o-driverless.html
Kaggle에서 제공되는 실제 분자 구조 및 에너지 dataset을 이용하여 H2O DAI의 실제 정확도 측정
JSON format의 비정형 string을 자동 feature engineering을 통해 분석하여 분자 에너지 값을 예측
JSON 파일은 간단한 python code를 이용해 CSV로 전환
{
'En': 37.801,
'atoms': [
{'type': 'O', 'xyz': [0.3387, 0.9262, 0.46]},
{'type': 'O', 'xyz': [3.4786, -1.7069, -0.3119]},
{'type': 'N', 'xyz': [-2.2359, -0.7251, 0.027]},
{'type': 'C', 'xyz': [-0.7783, -1.1579, 0.0914]},
{'type': 'C', 'xyz': [0.1368, -0.0961, -0.5161]},
...
{'type': 'H', 'xyz': [1.5832, 2.901, 1.6404]}
],
'id': 1,
'shapeM': [259.66, 4.28, 3.04, 1.21, 1.75, 2.55,
0.16, -3.13, -0.22, -2.18, -0.56, 0.21, 0.17, 0.09]
}
26. Welcome to the Waitless World
H2O DAI를 이용한 개인별 매출액 예측
Data source : https://www.kaggle.com/mehdidag/black-friday/home
Kaggle에서 제공되는 실제 Black Friday 고객별 매출 dataset을 이용하여 H2O DAI의 실제 정확도 측정
6만6천건의 12개 칼럼 (고객의 직업, 거주지, 상품 카테고리 등)으로 구성된 dataset으로 매출액 예측
User_ID Product_ID Gender Age Occupation
City_
Category
Stay_In_
Current_City_Years
Marital_
Status
Product_
Category_1
Product_
Category_2
Product_
Category_3
Purchase
1001559 P0096442 M 36-45 8 A 1 0 4 5 12 1454
1001560 P00328442 F 26-35 3 B 2 0 5 14 6888
1001560 P00347642 F 26-35 3 B 2 0 1 6 3833
1001560 P00296042 F 26-35 3 B 2 0 8 13 16 4252
1001560 P00350942 F 26-35 3 B 2 0 3 4 5 13378
1001560 P00090942 F 26-35 3 B 2 0 1 2 14 19442
1001560 P00262442 F 26-35 3 B 2 0 4 5 2173
27. Welcome to the Waitless World
H2O DAI를 이용한 개인별 매출액 예측
Data source : https://www.kaggle.com/mehdidag/black-friday/home
Kaggle에서 제공되는 실제 Black Friday 고객별 매출 dataset을 이용하여 H2O DAI의 실제 정확도 측정
6만6천건의 12개 칼럼 (고객의 직업, 거주지, 상품 카테고리 등)으로 구성된 dataset으로 매출액 예측
User_ID Product_ID Gender Age Occupation
City_
Category
Stay_In_
Current_City_Years
Marital_
Status
Product_
Category_1
Product_
Category_2
Product_
Category_3
Purchase
1001559 P0096442 M 36-45 8 A 1 0 4 5 12 1454
1001560 P00328442 F 26-35 3 B 2 0 5 14 6888
1001560 P00347642 F 26-35 3 B 2 0 1 6 3833
1001560 P00296042 F 26-35 3 B 2 0 8 13 16 4252
1001560 P00350942 F 26-35 3 B 2 0 3 4 5 13378
1001560 P00090942 F 26-35 3 B 2 0 1 2 14 19442
1001560 P00262442 F 26-35 3 B 2 0 4 5 2173
28. Welcome to the Waitless World - 28 -
H2O DriverlessAI : PayPal에서도 IBM GPU 서버를 사용
Source : https://youtu.be/r9S3xchrzlY
29. Welcome to the Waitless World - 29 -
Why H2O Driverless AI on IBM AC922 ?
High Speed Data Transfer
9.5x
Big Data Scale
2.6xMore RAM Max I/O bandwidth
30x
GPU Accelerated ML
NVLink와 PCIe Gen4를 탑재한 POWER9 프로세서
Faster on GPUs
High Speed Data Transfer
1.5x
Big Data Scale
2xData Ingest Feature Engineering
5x
GPU Accelerated ML
Time Series
30. Welcome to the Waitless World - 30 -
H2O DriverlessAI의 CPU 및 GPU 사용 형태
Fri Oct 5 03:36:45 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.26 Driver Version: 396.26 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla P100-SXM2... On | 00000002:01:00.0 Off | 0 |
| N/A 34C P0 64W / 300W | 455MiB / 16280MiB | 40% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla P100-SXM2... On | 00000003:01:00.0 Off | 0 |
| N/A 36C P0 77W / 300W | 455MiB / 16280MiB | 38% Default |
+-------------------------------+----------------------+----------------------+
| 2 Tesla P100-SXM2... On | 0000000A:01:00.0 Off | 0 |
| N/A 32C P0 71W / 300W | 455MiB / 16280MiB | 40% Default |
+-------------------------------+----------------------+----------------------+
| 3 Tesla P100-SXM2... On | 0000000B:01:00.0 Off | 0 |
| N/A 36C P0 64W / 300W | 455MiB / 16280MiB | 38% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 94004 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 1 94011 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 2 94044 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 3 94126 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
+-----------------------------------------------------------------------------+
H2O DAI의 병목은 GPU 성능이나 GPU 메모리가 아니라 연결 대역폭
31. Welcome to the Waitless World - 31 -
1개 brick의 NVLink 만으로는 불충분
H2O DAI의 뛰어난
multi-GPU 활용
100GB/s를 훨씬
초과하는 대역폭
필요
x86 GPU 서버에서는
1개 brick의
NVLink만을 사용
50GB/s에 불과
AC922 서버에서는
3개 brick의 NVLink를
1개로 통합
150GB/s
DtoD는 물론,
HtoD/DtoH도 동일
32. Welcome to the Waitless World
NVLink 아키텍처의 비교
• CPU와 GPU간은 PCIe로 연결 (32GB/sec)
• 4개 GPU끼리 NVLink * 1 link로 연결 (50GB/sec)
• 다른 socket의 GPU 4개와의 연결은 2-hop 구조
• CPU와 GPU간을 NVLink * 3 link로 연결 (150GB/sec)
• 2개 GPU끼리 NVLink * 3 link로 연결 (150GB/sec)
• 다른 socket의 GPU 2개와의 연결은 64GB/s(4 byte *
16GHz)의 SMP X bus로 연결
CPU-GPU 간의 NVLink, 그리고 NVLink *3 = 150 GB/sec가 AC922의 특장점
POWER9
GPUGPU NVLink
150 GB/s
50 GB/s
50 GB/s
32 GB/s 32 GB/s
x86 GPU AC922
64 GB/s
POWER9
GPUGPU NVLink
150 GB/s