Industrialize Machine Learning
Christophe Rannou
@ChrisRannou
Machine Learning Services
October 23, 2019
Machine Learning Service
2
USE CASE PROJECTS TECHNICAL PROJECTS
INFRASTRUCTURE
DATA SCIENTISTS DEVOPS
ML PLATFORM
ML TOOLS
4 Engineers 4 Engineers
What is
Machine
Learning
3
What is Machine Learning ?
4
What is Machine Learning ?
5
𝑓 𝑥 = 𝑦
What is Machine Learning ?
6
Homère 𝐻𝑜𝑚𝑒𝑟
Example: image recognition
7
What’s machine learning?
𝐻𝑜𝑚è𝑟𝑒 𝐻𝑜𝑚𝑒𝑟
What is Machine Learning ?
8
Algorithme de ML
Homère
𝑓
Homer
Homer
Homer
Homère
What is Machine Learning ?
9
Train Query
Known data Algorithm result unknown data predicted result
Known result
What is Machine Learning ?
10
𝑓 =
0.99
0.01
𝑓 =
0.03
0.97
𝑓 𝑥 =
𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑡𝑜 𝑏𝑒 𝐻𝑜𝑚𝑒𝑟
𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑡𝑜 𝑏𝑒 𝐻𝑜𝑚è𝑟𝑒
?
?
Use cases
11
Electricity Comsuption Forecast
12
Temperature Anomaly
13
VOIP Monitoring
14
And others
15
Disk failure prediction
Storage capacity planning
Network forecast
Fraud detection
Spam
Phishing
Cloud capacity planning
Data leak
Machine
Learning
Developmen
t Process
16
Machine Learning Development Process
17
https://www.maddyness.com/2018/07/20/comment-se-structure-le-secteur-du-machine-learning/
Iteration
Data sources
Insights
Prepared data
Optimization
Product
Trained model
Data collection
Data preparation
Model research
Best model selection
Deployment
Data collection
 Need to learn and understand business data
• Meet people
 Feature Extraction
• Challenging and Fun
18
Data Preparation
Adapt Data
• Scale
• Encode
Reproduce
• Retrain
• Serving
1919
Algorithm Selection
Optimization
• Hyperparameter optimization
• Local history / Difficult to share experiments
• Time consuming
2020
Model Deployment
Develop an API
• Handle numerous frameworks/languages
• Various hardware
Service Monitoring
Performance monitoring
• Inherently non-deterministic
2121
Why Industrialize ML
Standardize workflows and tools
Democratize & Accelerate ML
Provide a nice user experience
Abstract cumbersome tasks
Manage model lifecycle
Quick Win/ Fast Fail
2222
OVHCloud
AutoML
23
OVHcloud AutoML
Self service Platform
Build & Deploy models at scale
Multiple workflows
UI to discover
Python-cli to automate
2424
OVHcloud AutoML
25
https://www.maddyness.com/2018/07/20/comment-se-structure-le-secteur-du-machine-learning/
Iteration
Data sources
Insights
Prepared data
Optimization
Product
Trained model
Data collection
Data preparation
Model research
Best model selection
Deployment
OVHcloud AutoML
26
Data Preparation
2727
Parser PreprocessorRaw
Features
Algorithm Selection
2828
Training
2929
Model Deployment
3030
Serving API
Client App
Client App
Batch
Single
Monitoring
Refocus on High Value tasks
Data Collection
Problem Definition
Feature Extraction
Feedback loops
Business Indicators
31
Demo
32
OVHCloud Serving Engine
One platform does not fit all
• Specific algorithms
• Unsupported transformations
• Unsupported tasks (unsupervised)
• Focused on low complexity/high value
33
Provide isolated components
• Serving only
Labs
Platform open to public for free
https://ovh.to/fhvncu6
What’s next ?
Opensourcing
Serving Engine
https://ovh.to/nCPHhVW
34
Thank you.
@ChrisRannou

Industrialize Machine Learning

Editor's Notes

  • #2 ADRIEN
  • #3 ADRIEN Equipe crée en 2017 2 metiers representé : Data Scientist qui s’occupe des projets internes Devops developpement nouvelle feature, maintien operatielle de l’infra Concentré autour de la plaform de machine learning qu’on va vous presenter.
  • #5 MAEL Qu’est ce que le Machine learning ? => Une illustration Illustra tion d’un example de la vie courante : moteur de recomandation
  • #6 MAEL Qu’est ce que le Machine learning ? = croisement entre la l’informatique et les statistiques = approximation de fonctions Fonction générée automatiquement à partir des données
  • #7 MAEL Pourquoi utiliser le machine learning pour résoudre les pb ? => Quand la fonction peut être amenée à varier au cours du temps (moteur de recommendation et phénomènes de mode) Quand les problemes sont trop complexes pour être algorithmiquement décrits Exemple : reconnaissance d’image. : Homer Simpson VS Homère Odyssée
  • #9 MAEL Données labellisées en entrée d’algorithme de ML
  • #10 MAEL
  • #11 MAEL Une fois l’algorithme entrainé : Demande de prédiction sur des images qu’il n’a jamais vu auparavant
  • #13 ADRIEN 1 DC Ca consomme beaucoup Avec notre historique de consommation et d’autre données Objectif : Négocier les contrats avec EDF
  • #14 ADRIEN Historiquement : fait avec des seuils Cependant => sonne tous le temps car bcp de rack/salles Permet de repérer plus facilement des anomalies
  • #15 ADRIEN Allocation dynamique de ressources pour l'ouverture des lignes de VOIP => permet d'économiser de l'argent en rapport avec les couts prévisibles
  • #16 ADRIEN Plein d’autres Du coup, 1er projet long, apprednre plein chose Puis le deuxieme, un peu moin long, beaucoup de choses identiques On a remarqué qui avait toujours les meme etapes.
  • #18 MAEL Projets de ML = Processus itératif On va voir que plusieurs profils et compétences sont nécessaires au fils des différentes étapes
  • #19 MAEL Datascientist a bcp de valeur à cette phase => Impossible à automatiser car depend énormément du métier
  • #20 MAEL Prends du temps et c’est pas fun Grid search sur l’algorithm On test plein de chose, on tweak. Il faut maintenir un historique de ce qu’on a déjà testé, etc
  • #21 MAEL Prends du temps et c’est pas fun Grid search sur l’algorithm On test plein de chose, on tweak. Il faut maintenir un historique de ce qu’on a déjà testé, etc
  • #22 MAEL Developper un moyen de communiquer avec son model Long si on a plusieurs back-end Rajouter du monitoring de service et de perfomance Besoin d’avoir des competences en DataOps Documenter les hyperparametre si on veut re-entrainer un nouveau model dans les meme conditions.
  • #23 MAEL Uniformiser les workflow / les outils utiliser Démocratiser le ML Perdre du temps là où il y a de la valeur Standardizer le déploiement d'API
  • #25 ADRIEN Platform en acces libre en intene chez OVH L’object c’est d’avoirun outils commun qui permet de builder, experimenter et deployer nos models de machine learning a lechelle d’ovh Tenter d’avoir une bonne user experience
  • #26 ADRIEN
  • #27 ADRIEN
  • #28 Automatic & Scalable Preprocessing Customizable dataset Reproducible results
  • #29 Smarter than Grid Search Distributed workers to accelerate results Different worker topology Experiment history
  • #30 MAEL Prends du temps et c’est pas fun Grid search sur l’algorithm On test plein de chose, on tweak. Il faut maintenir un historique de ce qu’on a déjà testé, etc
  • #31 Monitored API with Metrics And Logs High Availability Model Performance Metrics Multi backend: PMML, Tensorflow, ONNX Standard Format Input / Output API
  • #32 MAEL En résumé voilà la phase qu’il reste à accomplir : Se concentrer sur le besoin metier et sur la valeur ajoutée du datascientist
  • #35 MAEL Si on revient sur les valeurs d’OVH : SMART Le R = Réversible Le T = Transparent Volonté de mettre à disposition le fruit de notre travail afin d’en faire profiter le plus grand nombre et d’obtenir des retours sur l’ergonomie d’utilisation
  • #36 MAEL