3. Data Science waves
?
Source : https://blog.exploratory.io/data-science-by-you-dawn-of-third-wave-e89f2999d994
4. Gartner : Democratized by Augmented ML
democratized AI will be one of the major trends which will shape our future
technologies.
5. Democratization already?
+38,000 명
현재, 고등학생이 ML 문제
푸는 수준은 3년전
연구자들 수준…
Source : https://www.youtube.com/watch?v=ZZXnecufXPU
딥러닝개발비용 < 신발값
caffe 설치 10위안,cnn 층당 5위안,
rnn 층당 8위안 - 중국 중관춘 (실리콘밸리)
6. Academy & OSG : Automatic Machine Learning
참고 : Efficient and Robust Automated Machine Learning,
Feurer et al., Advances in Neural Information
Processing Systems 28 (NIPS 2015).
Data Scientist community 에서 활발히 쓰이는 scikit-learn 과
유사한 coding style
Parameter Search Space 를 자동으로 찾아 줌
CRAN Package 마다 다른 I/F를 갖는 algorithm 들의 wrapping
다양한 Algorithm 들을 포함하고 있음 (>160)
(반) 자동화 이나 이전보다 훨씬 효율적인 분석 작업 가능
• 전처리 (결측치, 변환 등) 및 후처리 작업
• Hyper-parameter tuning
• Learning-curve 등 모델링 중 관찰 데이터
참고 : https://mlr-org.github.io/mlr-tutorial/release/html/task/index.html
참고 : efficient neural architecture search
(https://arxiv.org/abs/1806.10282)
[network morphing 과정] [자동화된 NN 성능]
Auto-keras
7. Enterprise Needs : Scaling Data Science
The small pool of data scientists and large
amount of time needed to research, construct,
and deploy models leaves many businesses
unable to quickly deliver time-sensitive projects.
Predictive Algorithm Demand
Unmet Demand for Data
Science
Supply of
Internal Resources
Time
HIGH COSTS
HIGH TURNOVER
SLOW, COSTLY
INTEGRATION
LESS INSIGHTS
10. DataRobot의 해답
Data Scientist 의 생산성 효율화, 기업 내 AI 적용 분야 확산
Hacking
Skills
Math
&
Stats
Domain
Expertise
Do much more
with little to no
coding
+
Expanded
modeling
toolkit
12. DataRobot 솔루션의 특징 (1/4)
축적된 분석 지식과 기술
Jeremy Achin
CEO & Co-Founder
Highest: 20th
Xavier Conort
Chief Data
Scientist
Highest: 1st
Tom de Godoy
CTO & Co-Founder
Highest: 20th
Owen
Zhang
Product
Advisor
Highest: 1st
Sergey
Yurgenson
Data Scientist
Highest: 1st
The top ranked Data Scientists in the world
MASTER MASTER MASTER MASTER MASTER
The best technologies in the world
Amanda Schierz
Data Scientist
Current: 1st Female, 1st in
UKMASTER
14. DataRobot 솔루션의 특징 (3/4)
설명 가능성 : 모든 Algorithm 각각에 대해 데이터 기반, 설명 제시
[Feature Impact] [Feature Effect] [Prediction Explanation]
• 각 변수들의 중요도는 어떻게 다른가?
• 중요도의 순위는 업무 지식과 일치하는가?
• 새로운 insight가 있는가?
• 각 변수는 Target 과 어떤 관계인가?
• 함수 관계는 업무 지식을 반영하고 있는가?
• 새로운 Insight가 있는가?
• 예측은 어떤 근거로 생성되는가?
• 모델의 예측 값은 신뢰할 만 한가?
15. DataRobot 솔루션의 특징 (4/4)
API 를 통한 연동
Application server
Prediction worker
RestAPI, R/Python
Model
Factory
Automatic
Model
Refresh
Model
Diags & Viz
Feature
Engineering
App.
Integration
API를 활용한 분석 관련 다양한 작업 가능
Notebook Web UIConsole
17. Live Demo Data
대출 Risk 모델링
Problem
대출 신청자의 Profile 기반으로
최적화된 승인/거절에 활용하기 위한
Default Risk를 예측 모델
Data
• 대출 정보 (신청액, 상환 기간)
• 개인 정보 (직장, 연봉, 주소 등)
• 과거 신용 정보 (계좌수 등)
[LeadingTree 사례]
20. Largest US
Supermarket chain
Largest US for-profit
Healthcare System
3 of the Top 5 US
Banks
World’s largest
Retailer
3 of Top 5 global
Reinsurers
2 of the worlds largest
Biotechs
2 of Top 10 Global
Telecom providers
3 Major League
Baseball teams
Largest US
Pharmacy chain
Largest mobile
payments app
2 of the largest Hedge
Funds by AUM
Federal & Public
Sector Agencies
One Platform Used Across Every Industry