More Related Content Similar to Matinale - Levez la malédiction du passage de l'IA en production (20) More from OCTO Technology (20) Matinale - Levez la malédiction du passage de l'IA en production1. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
1
2. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
01 _ L’IA
02 _ Bonnes pratiques méthodologiques d’exploration
03 _ De l’exploration à la production
04 _ L’intégration de l’IA dans le SI
05 _ Quelle organisation ?
_ Pause
06 _ Data Driver
07 _ REX Optimisation de Campagne Marketing
08 _ REX Total
09 _ Takeaway
Agenda
2
4. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Machine Learning
Deep Learning
Apprentissage
supervisé
Traitement du
langage naturel
Chat bot
Apprentissage
non-supervisé
Apprentissage
par renforcement
Computer
vision
Analyse
prédictive
Data Science
Cognitif, etc.
4
AI / MACHINE LEARNING / DATA SCIENCE ?
5. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 5
DATA SCIENCE : Un chemin vers l'intelligence artificielle
Utilisateurs
Prédiction / Décisions
Retours
I.A.
6. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 6
Dans les faits
Datalab
Méthode
d’apprentissage
Données
Lecture
Développe
Application
Intégration
Modèle
Production
Prédictions
Retours
Lecture
7. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 7
Le hype est-il bon pour vous
Source : Hype Gartner - Juillet 2017
Temps
EspérancedeValeur
Désillusion
8. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Le dessus de l’iceberg
Intelligence
Artificielle
Collecte de donnée
Infrastructure
Supervision
Expérience utilisateur
Outils d’analyse
Gestion des processus
Usine de développementCraftsmanship
9. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 9
Le hype est-il bon pour vous
Source : Hype Gartner - août 2018
Temps
EspérancedeValeur
Perte d’investissement :
- humain
- argent
- temps
Optimal
10. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Phase de
consolidation
10
Mieux que la hype
Source : Hype Gartner - août 2018
Temps
EspérancedeValeur
Investissement
Nécessaire
11. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 11
Viser plusieurs objectifs atteignables
Source : Hype Gartner - août 2018
Temps
EspérancedeValeur
Itération
Itération
Itération
Itération
12. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Commencer petit pour mieux grandir
12
14. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Les projets d’IA sont complexes
> Mode exploratoire
+ Les résultats ne sont pas garantis
Les projets seront amenés à échouer plusieurs fois avant de réussir
.. Incertitude
> Science : Concepts & Algorithmes
> Technologie : Big Data
> Business : nouveaux usages
14
15. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 15
Le problème d’IA
Données
> Trouver une représentation qui permet à
nos algos de comparer / raisonner
Mythes
> One size fits all
> Toujours plus de données
Les challenges
> Disponibilité des données
> Reproductibilité des environnements
Quelle représentation ?
Un objectif métier mesurable et activable
> Trouver une cible métier mesurable avec un
levier opérationnel
Mythes
> Machine learning c’est magique
> Ma solution c’est le deep learning
Les challenges
> Attention au hors-sol
> Silotage
Quel objectif ?
16. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Mauvais pattern de méthodologie
Le POC sans fin
16
Un portfolio qui grandit avec des POCs:
Chaque jour un nouveau POC sans passage en prod
17. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Construire, Observer, Évaluer, Recommencer
17
Entraîner le
modèle IA
Étudier le
problème
Analyser les
erreurs
Evaluer la
solution
18. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Casser les silos
Étudier le
problème
Les data scientists et les métiers doivent définir et travailler ensemble
sur la problématique dès le début
18
19. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Casser les silos
Étudier le
problème
Pour réduire le Time To Market, éviter les POCs jetables,
rencontrer les utilisateurs le plutôt possible !
19
20. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
● Data sets < 2 To (now)
● Machine learning, AI,
machine vision
● Impose la réplication de
données sur les workers
Où est mon Data Lake ?
20
Data intensive CPU intensive
● Data sets > 2 To
● Jointure & filtrage
généralement complexes
● Partitionnement horizontal
de la donnée sur le cluster
Traitements ETL
&
Traitements Données
IA
Une architecture IA qui favorise le passage à l’échelle
DataLake
DataLab
21. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 21
Dans la recherche de la valeur dans mes données
Régression linéaire
Méthodes ensemblistes
Deep Learning
22. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Evaluer sa solution, c’est bien choisir sa métrique
22
Evaluer la
solution
90% de justesse pour un algorithme
qui retourne toujours la même chose
!!!
C’est logique vue que le jeux de test
ne contient que 10% du chiffre 5
Seuil
Pourcentage
Précision
Rappel
0 faux positifs
0 faux négatifs
23. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Les résultats de l’évaluation peuvent amener à changer de
stratégie
Afin d’améliorer les résultats de notre modèle, suite à l’évaluation, …
… nous serons amenés à explorer plus nos données, …
… à réduire la dimensionnalité ou à entreprendre d’autres modélisations
Cela afin de réduire l’impact du bruit.
Les données qui apportent du bruit
ont un impact direct sur la frontière
de décision.
L’utilisation de validation croisée
peut réduire l’impact de ce bruit.
23
24. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
● Entrer en mode debugging. Afficher vos
faux positifs et vos faux négatifs
● Est ce que vous êtes en train de
sur-apprendre sur le jeux d’entraînement ?
● Est ce que vous êtes en train de
sous-apprendre ?
● Est ce que vous avez assez de signal ?
● Est ce que vous avez beaucoup,ou peu de
descripteurs ?
Analyser les erreurs
24
Analyser les
erreurs
Evaluer la
solution
25. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Construire, Observer, Évaluer, Recommencer
25
Entraîner le
modèle IA
Étudier le
problème
Evaluer la
solution
Analyser les
erreurs
Est ce que ça peut remplacer un être humain ? Est ce que ça va accélérer le travail d’un être
humain ? De combien ? Est ce que ça vaut le coup ? D’autres KPIs ? D’autres données ?
26. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Construire, Observer, Évaluer, Recommencer
26
Entraîner le
modèle IA
Étudier le
problème
Analyser les
erreurs
Evaluer la
solution
Est ce que ça peut remplacer un être humain ? Est ce que ça va accélérer le travail d’un être
humain ? De combien ? Est ce que ça vaut le coup ? D’autres KPIs ? D’autres données ?Si oui, alors !
27. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Construire, Observer, Évaluer, Recommencer
27
Entraîner le
modèle ML
Étudier le
problème
Analyser les
erreurs
Evaluer la
solution
Est ce que ça peut remplacer un être humain ? Est ce que ça va accélérer le travail d’un être
humain ? De combien ? Est ce que ça vaut le coup ? D’autres KPIs ? D’autres données ?Si oui, alors :
28. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Ne faites pas ça chez vous
● Introduire trop de nouveauté d’un seul coup : apporter une expertise technique ou
une méthodologie qui au final n’est pas adaptée à l’équipe
● Faire un POC et partir sur un autre sans transmettre les NO GO
● Différents points de vue sur le label (une image catégorisée différemment par
plusieurs experts métier)
● Forcer l’utilisation de l’IA alors qu’une approche plus simple conviendrait
● Fuite des données de test dans les données d’entraînement
28
30. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
L’objectif d’une organisation Data
Science est…
◉ de concevoir et opérer
◉ des services innovants à forte
valeur métier
◉ grâce à la mise en oeuvre
d’algorithmes exploitant les
données
L’organisation Data Science au
service de l’entreprise
30
31. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
On industrialise un modèle de Data Science pour sécuriser la Valeur
apportée
Mais aussi capitaliser sur toute la chaîne de production de ce modèle
La Data Science : un workflow simple, au départ...
31
● Quid de la valeur métier apportée ?
○ Elle peut devenir un élément clé business
○ Perdre cet acquis factuel peut s’avérer dramatique
Donnée Modèle Valeur
32. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Objectif : du code [de data science]
maintenable, évolutif, fiable, reproductible et
partageable
“Reproducibility is a minimum necessary condition for
a finding to be believable and informative.”
Bollen et al. 2015
32
Pourquoi industrialiser ?
33. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Objectif : amener le modèle en production en
optimisant le compromis Valeur / SLA
33
Pourquoi industrialiser ?
34. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
la donnée
34
35. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Pyramide de maturité de la donnée
35
Dataviz
Search
Statistiques - KPIs
Entreprise
Data-aware
Entreprise
Data-driven
IA
“ Je stocke, organise et
documente ma donnée ”
“ Je réalise automatiquement des tâches
complexes,
apprises de la donnée ”
“ J’effectue des recherches et
analyses interactives sur ma donnée,
grâce à un outillage avancé ”
“ J’analyse des données pour
me connaître ”
36. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Machine Learning sur pilotis
36
Dataviz
Search
Statistiques - KPIs
“ Dois-je démarrer avec de l’IA avancée sur ce
sujet ? ”
“ Comment évaluer la valeur Métier ? ”
Hype is in the air
IA
37. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Juste ce qu’il faut de Machine Learning
37
Dataviz
Search
Statistiques - KPIs
“ Dois-je démarrer avec de l’IA avancée sur ce
sujet ? ”
“ Comment évaluer la valeur Métier ? ”
Construire prioritairement les fondations
de la donnée
◉ Les construire vite si le
périmètre est réduit
◉ Les construire solides en vue
de leur pérennité
◉ On créera potentiellement
beaucoup de valeur avant
d’atteindre la zone IA
Hype il y aura de
toutes façons
Statistiques - KPIs
Dataviz
Search
IA
38. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
le projet
38
39. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Funnel de projet Data Science - V0
Cadrage de MVP
“ Exploration de possibilités ”
Développement de MVP
“ Test et feedbacks du terrain ”
Industrialisation & Déploiement
“ Délivrer de la valeur ”
Identification des Use Cases
“ Vision partagée & portefeuille ”
Qualification de Use Cases
“ Qualifier la cible métier et la donnée ”
Activités Equipe
Experts fonctionnels
Data scientists
Data engineers & DevOps
39
Principe : “Simplicity - the art of maximizing the amount of work not done - is
essential”
Pratique : Essayer vite avec de la donnée et un modèle simples, avoir
rapidement du feedback
40. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Principe : “Simplicity - the art of maximizing the amount of work not done - is
essential”
Pratique : Essayer vite avec de la donnée et un modèle simples, avoir
rapidement du feedback
Identification des Use Cases
“ Vision partagée & portefeuille ”
Cadrage de MVP
“ Exploration de possibilités ”
Développement de MVP
“ Test et feedbacks du terrain ”
Industrialisation & Deployment
“ Délivrer de la valeur ”
Qualification de Use Cases
“ Qualifier la cible métier et la donnée ”
Activités Equipe
Experts fonctionnels
Data scientists
Data engineers & DevOps
40
Funnel de projet Data Science - V1 Pattern Feature Team
Principe : “Simplicity - the art of maximizing the amount of work not done - is
essential”
Pratique : Essayer vite avec de la donnée et un modèle simples, avoir
rapidement du feedback
Prévoir nombre d’itérations et de pivots fonctionnels et techniques
41. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Identification des Use Cases
“ Vision partagée & portefeuille ”
Cadrage de MVP
“ Exploration de possibilités ”
Développement de MVP
“ Test et feedbacks du terrain ”
Industrialisation & Deployment
“ Délivrer de la valeur ”
Qualification de Use Cases
“ Qualifier la cible métier et la donnée ”
Activités Equipe
Experts fonctionnels
Data scientists
Data engineers & DevOps
41
Funnel de projet Data Science - V2 Pattern Silver Bullet
Enchaîner avec un POC+ qui vise à renforcer le SLA de manière itérative
Rester ouvert aux pivots
42. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
42
Un POC+ ?
Cadrage
- Dispo.
data...
- Qualif.
data...
POC+
M
D
S
IT
D
S
IT
M
Prise de conscience
(awareness)
Task Force
Cracker la PROD
Intégration de Flux
POC
M
D
S
IT
Branché sur la PROD !
43. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
“ Délivrer vite du résultat, on
industrialisera / testera / outillera plus
tard ”
● Ca marche pour le POC mais
pas au-delà
“ Trop coûteux et frein à la
production ”
● Le coût ne fera que s’accroître,
on accumule de la dette sur un
applicatif à forte complexité itérations
It. 1 It. 2 It. N
Effort d’Industrialisation
Effort de Production
A
N
TIPA
TTERN
43
Industrialisation, très en amont du MVP Data Science
Perte de levier de capitalisation
Dette croissante et désendettement vite insurmontable
Perte de productivité difficilement vendable
44. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
“ Délivrer vite du résultat, on
industrialisera / testera / outillera plus
tard ”
● Ca marche pour le POC mais
pas au-delà
“ Trop coûteux et frein à la
production ”
● Le coût ne fera que s’accroître,
on accumule de la dette sur un
applicatif à forte complexité
A
N
TIPA
TTERN
44
Industrialisation, très en amont du MVP Data Science
Perte de levier de capitalisation
Dette croissante et désendettement vite insurmontable
Perte de productivité difficilement vendable
45. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Industrialisation, très en amont du MVP Data Science
● Un MVP focus sur la qualité
● La Viabilité du MVP est une
caractéristique alliant qualité
acceptable et capitalisable
● La seule garantie de la qualité
s’obtient par l’industrialisation
● L’effort d’industrialisation est plus
important en début de cycle de
vie (première itérations) itérations
It. 1 It. 2 It. N
Effort d’Industrialisation
Effort de Production
BO
N
PA
TTERN
45
Par capitalisation,
la part d’industrialisation diminue avec le temps
baisse du coût d’initialisation de nouveaux projets DS
46. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
les pratiques
46
47. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Technique - Critères/Patterns d’Industrialisation
IA et Code, même combat
● Les algorithmes de Data Science sont d’abord du code
● Le passage à l’échelle de la Data Science obéit aux mêmes règles techniques que le Code
● Sécuriser, tester, automatiser, capitaliser, partager…
● … pour mieux innover, produire, apporter de la valeur, propager
Bonnes pratiques techniques pour réussir l’industrialisation de l’IA
● Industrialisation du développement
● Rationalisation des technologies utilisées
● Rationalisation des Code / Architecture / Conception
● Maîtrise des Environnements
● Outillage adéquat catalyseur de productivité
● Gouvernance de la donnée
Bonnes pratiques techniques pour réussir la diffusion de l’IA
● Ecosystème et outillage orientés collaboration et partage
● Favoriser le bootstrap des futures projets IA
47
il y a bon nombre de challenges
48. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
48
◉ Un modèle de ML, c’est d’abord du code
◉ Doit obéir aux standards d’industrialisation du code
◉ Moyennant les bonnes adaptations dans chaque composante et
chaque étape de l’industrialisation
◉ Bannir les cycles en V, générateurs de tunnels
◉ Adopter les pratiques de Craftsmanship
< Nettoyer, Tester, Documenter, Versionner, Packager, …
◉ Avec des stratégies et un outillage adaptés pour soutenir les pratiques
Data Scientists, le Craftsmanship vous sauvera
49. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Réutilisation
Comment mettre à profit les travaux ?
49
Canevas d’Industrialisation
Acquisition
Quelles
données ?
Entraînement
Quel(s) modèle(s) ?
Cycle de vie
Quand ré-entraîner le modèle ?
Exposition
Comment consommer mon modèle ?
Impacts
Quels effets ?
Exploration Exploitation
Capitalisation
Cycle de production du Data Scientist
Monitoring
Quelles métriques suivre ?
50. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
les outils
50
51. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Un écosystème d’outils riche et intriqué,
orienté partage et capitalisation
51
Notebook
Librairies
Standard
Intégration
Continue
Supervision
Technique
Pipeline
Déploiement
Partage /
Collaboration
Interactifs
Versioning
Bibliothèque
de Modèles
Registre de
Containers
Environnement de
Développement
Intégré (IDE)
Bibliothèque de
Modules (Core)
Gestion de Projet
Agile
IDETests
Entraînements
Accep.
Intégr.
Unit.
Containeri-
sation
Exploitation
52. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Accélérer la mise en oeuvre jusqu’à la PROD
52
idéalement,
un outil permettant une intégration de cet écosystème
Méfiance vis-à-vis des outils qui donnent l'impression d'industrialisation (ticket d'entrée bas, clic bouton, ...)
54. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
“Je voudrais régler tous mes problèmes de
data quality”
54
On part en Croisade
Le ML c’est pas de la magie
55. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
“Je voudrais régler tous mes problèmes de
data quality”
55
On part en Croisade
Le ML c’est pas de la magie
Impossible !
56. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
“Je voudrais régler tous mes problèmes de
data quality”
“J’utiliserais bien mon infra top mammouth
pour scaler et justifier mes investissements”
56
On part en Croisade
Le ML c’est pas de la magie
Impossible !
57. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
“Je voudrais régler tous mes problèmes de
data quality”
“J’utiliserais bien mon infra top mammouth
pour scaler et justifier mes investissements”
57
On part en Croisade
Le ML c’est pas de la magie
Impossible !
Faux problème
58. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
“Je voudrais régler tous mes problèmes de
data quality”
“J’utiliserais bien mon infra top mammouth
pour scaler et justifier mes investissements”
“Ça serait sympa de prédire [...] grâce aux
données twitter croisées avec la météo”
58
On part en Croisade
Le ML c’est pas de la magie
Impossible !
Faux problème
59. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
“Je voudrais régler tous mes problèmes de
data quality”
“J’utiliserais bien mon infra top mammouth
pour scaler et justifier mes investissements”
“Ça serait sympa de prédire [...] grâce aux
données twitter croisées avec la météo”
59
On part en Croisade
Le ML c’est pas de la magie
Impossible !
Faux problème
Adhérence externe
60. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
“Je voudrais régler tous mes problèmes de
data quality”
“J’utiliserais bien mon infra top mammouth
pour scaler et justifier mes investissements”
“Ça serait sympa de prédire [...] grâce aux
données twitter croisées avec la météo”
“J’ai absolument besoin de temps réel pour
prédire des alertes au fil de l’eau”
60
On part en Croisade
Le ML c’est pas de la magie
Impossible !
Faux problème
Adhérence externe
61. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
“Je voudrais régler tous mes problèmes de
data quality”
“J’utiliserais bien mon infra top mammouth
pour scaler et justifier mes investissements”
“Ça serait sympa de prédire [...] grâce aux
données twitter croisées avec la météo”
“J’ai absolument besoin de temps réel pour
prédire des alertes au fil de l’eau”
61
On part en Croisade
Le ML c’est pas de la magie
Impossible !
Faux problème
Non prioritaire
Adhérence externe
62. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 62
YAGNI !!!!!!
*You Ain’t Gonna Need It
63. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
De quoi ai-je besoin pour réussir ?
Si je ne l’ai pas, comment je fais sans ?
63
Les questions à se poser
64. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 64
Quels sont mes vrais
problèmes ?
Spoiler Alert : la donnée
65. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 65
Une source = une probabilité d’erreur
(qualité, SLA non-atteint, etc…)
Vrais problèmes d’intégration
f1 ... f10
NA NAs... x
x ... x
NA NAs... NA
x NAs... x
x ... x
x ... x
x ... x
x ... NA
Source 1
66. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 66
Deux sources =
proba1 * proba2 * Σ différences
Vrais problèmes d’intégration
Source 2 Source 1
f1 ... f10
NA NAs... x
x ... x
NA NAs... NA
x NAs... x
x ... x
x ... x
x ... x
x ... NA
*différences : temporalités différentes, jointures
complexes, qualités variables, SLAs différents
67. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 67
Vrais problèmes d’intégration
f1 f2 f3 f4 ... f127
x x NA NA NAs... NA
x x x x ... NA
NA NA NA x NAs... NA
x x NA NA NAs... NA
NA NA NA x ... NA
x x NA x NA NA
NA x x NA NA NA
x NA x NA ... NA
Source 2 Source 1 Source 3
temporalités différentes :
◉ source 1 : date à la journée
◉ source 2 : trimestre
◉ source 3 : date sans timezone
jointures complexes :
◉ par produit, par client, par mois, si produit encore
présent
qualités variables :
◉ source 1 : saisie manuelle
◉ source 2 : logiciel propriétaire sans doc
◉ source 3 : log serveur
SLAs différents :
◉ source 1 : à peu près OK 4 jours sur 7
◉ source 2 : pas de SLA
◉ source 3 : KO 3 jours par mois pour mise à jour
68. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 68
Vrais problèmes d’intégration
f1 f2 f3 f4 ... f127
x x NA NA NAs... NA
x x x x ... NA
NA NA NA x NAs... NA
x x NA NA NAs... NA
NA NA NA x ... NA
x x NA x NA NA
NA x x NA NA NA
x NA x NA ... NA
Source 2 Source 1 Source 3
Fit / Predict
BOUM
BOUM
BOUM
BOUM
69. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 69
La donnée venant de flux de production
rendra chaotique le comportement de
n’importe quel système de production de ML
◉ Impossible d’anticiper tous les problèmes liés à la
donnée
◉ Un snapshot n’est pas représentatif de la réalité
◉ La data-gouvernance ne sera jamais à la hauteur
(au début)
Vrais problèmes d’intégration
f1 f2 f3 f4 ... f127
x x NA NA NAs... NA
x x x x ... NA
NA NA NA x NAs... NA
x x NA NA NAs... NA
NA NA NA x ... NA
x x NA x NA NA
NA x x NA NA NA
x NA x NA ... NA
Source 2 Source 1 Source 3
70. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 70
Et si je rajoutais de la
complexité ?!
f1 f2 f3 f4 ... f127
x x NA NA NAs... NA
x x x x ... NA
NA NA NA x NAs... NA
x x NA NA NAs... NA
NA NA NA x ... NA
x x NA x NA NA
NA x x NA NA NA
x NA x NA ... NA
Source 2 Source 1 Source 3
71. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 71
KISS !!!!!!
*Keep It Simple, Stupid
72. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Brancher le modèle le plus vite possible aux flux de
production
◉ Modèle simple (Baseline)
72
Top Priorité
73. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Brancher le modèle le plus vite possible aux flux de
production
◉ Modèle simple (Baseline)
◉ Batch pour 90% des cas
73
Top Priorité
74. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Brancher le modèle le plus vite possible aux flux de
production
◉ Modèle simple (Baseline)
◉ Batch pour 90% des cas
◉ Exporter un CSV / une table
74
Top Priorité
75. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Brancher le modèle le plus vite possible aux flux de
production
◉ Modèle simple (Baseline)
◉ Batch pour 90% des cas
◉ Exporter un CSV / une table
◉ Favoriser la compréhension du modèle au
détriment de sa performance
75
Top Priorité
76. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Brancher le modèle le plus vite possible aux flux de
production
◉ Modèle simple (Baseline)
◉ Batch pour 90% des cas
◉ Exporter un CSV / une table
◉ Favoriser la compréhension du modèle au
détriment de sa performance
◉ Séparer le SLA d’entraînement des SLA de
prédictions
76
Top Priorité
77. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Passer à l’échelle l’infrastructure pour “scaler”
Automatiser la prise de décision importante
Concurrencer Google sur du Speech to Text
77
Baisser les
exigences au
démarrage
Challenge de la DSI
78. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Passer à l’échelle l’infrastructure pour “scaler’”
Automatiser la prise de décision importante
Concurrencer Google sur du Speech to Text
Avoir des milliers de petits modèles déployés
qui décrivent son métier
78
Baisser les
exigences au
démarrage
Challenge de la DSI
79. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
79
Baisser le coût d’entrée de l’I.A. dans le SI
Temps
Investissement
SLA
Efforts de suivi
Plus de
maturité
80. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Suivre des métriques pour compenser (KPIs
de Data Science avec un sens métier)
Calculer le ROI du modèle pour connaître la
valeur
Rembourser sa dette régulièrement :
réentraîner / élaguer / automatiser
80
Piloter, Ajuster, Rembourser
La maturité vient avec
l’usage
81. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 81
Prendre le
temps
d’intégrer
82. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Un niveau de disponibilité élevé passe par
une phase d’industrialisation coûteuse
Plus l’application est complexe, plus
l’industrialisation est coûteuse
Mutualiser ce qui coûte cher
82
ça prendra du temps
83. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 83
80% du temps du projet est
souvent utilisé pour développer
seulement la partie Machine
Learning
Sous-estimer le temps d’intégration
84. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Commencer
l’intégration le plus
tôt possible !
84
Développer un software
c’est 80% du temps
+
80 % supplémentaires pour
faire l’intégration
86. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Chaque activité porte des intérêts et une culture
spécifique. Elle est naturellement aveugle aux autres
enjeux
Ces écarts se retrouvent fréquemment dans les
structures organisationnelles cloisonnées par activité
Le risque récurrent : Une guerre des trônes
Expertise
Métier
Science
Maths &
Stats
IT
Informatique
DATA
SCIENCE
A
N
TIPA
TTERN
86
L’échec de la collaboration se traduit souvent par une guerre des trônes
→ Chaque activité défend son pré carré, collaborant mal avec les autres
La domination éventuelle d’une activité se renforce et ne permet pas d’atteindre l’objectif global
à long terme
87. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Constat
◉ Les Data Scientists occupent un rôle central et
prééminent
◉ L’IT intervient comme support et intégrateur
◉ Le métier est intégré à la data science, voire directement
piloté par les Data Scientist
Conséquences
◉ Bon alignement data science ↔ métier,
< Risque d’aveuglement par les seules métriques si les enjeux
métiers ne sont pas entièrement portés par les Data Scientists
◉ Pas d’appropriation croisée des enjeux IT et Data Science
< Perte d’efficacité et coût de maintenance
Organisation typique des projets Data Science
Data
Scientist
Métier
IT
FTs Data Science
87
A
N
TIPA
TTERN
88. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Chaque activité porte des intérêts et une culture
spécifique. Elle est naturellement aveugle aux autres
enjeux
Ces écarts se retrouvent fréquemment dans les
structures organisationnelles cloisonnées par activité
Le risque récurrent : Une guerre des trônes
Expertise
Métier
Science
Maths &
Stats
IT
Informatique
DATA
SCIENCE
88
A
N
TIPA
TTERN
L’échec de la collaboration se traduit souvent par une guerre des trônes
→ Chaque activité défend son pré carré, collaborant mal avec les autres
La domination éventuelle d’une activité se renforce et ne permet pas d’atteindre l’objectif global
à long terme
89. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Le principal enjeu organisationnel en Data Science est la
collaboration équilibrée des trois fonctions
Intégrer Science, Métier et IT
Expertise
Métier
Science
Maths &
Stats
Data
analysis
IT
Informatique
DATA
SCIENCE
Logiciel
classique
Machine
learning La Data Science nécessite une réunion de compétences,
portées par plusieurs personnes
BO
N
PA
TTERN
89
IT
Métier / POs
Data
Scientists
● Associer ces 3 profils au quotidien, dans des équipes ayant des objectifs communs
→ Feature Teams
● La réussite organisationnelle se mesure par l’appropriation collective de l’ensemble des enjeux
90. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Intégrer Science, Métier et IT
Expertise
Métier
Science
Maths &
Stats
Data
analysis
IT
Informatique
DATA
SCIENCE
Logiciel
classique
Machine
learning
90
IT
Métier / POs
Data
Scientists
Attention au mythe du super Data Scientist polyvalent !
A
N
TIPA
TTERN
Risques
◉ Manque de capitalisation IT
◉ Peu de visibilité des enjeux IT
◉ Et leurs impacts sur les enjeux
business (qualité des KPIs…)
91. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Communautés de pratiques IT & FT de Data Science
◉ Capitalisation IT
◉ Visibilité des enjeux IT
◉ Meilleure intégration dans les enjeux
business (qualité des KPIs…)
◉ Capitalisation IA,
communautarisation, challenges
internes, ...
Communauté
Data Science
FT FT FT FT
Communautés
IT
91
POs
Création de communautés de pratiques transversales aux Feature Teams
IT, Data Science, Ops
Fonctionnant comme des component teams
Des communautés inscrites dans l’organisation à animer avec des rituels spécifiques
93. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Data Driver - Équiper nos équipes I.A.
Les applications I.A. évoluent rapidement et nécessitent les meilleures
pratiques de développement logiciel couplées avec le devops et
l’agilité
Notre challenge : assurer le déploiement en continu et la
reproductibilité des applications I.A.
93
94. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Intégrez avec les
technologies de déploiement
continu à l’état de l’art
Créez vos
workflows de data
science pilotant
vos cas d’usage
94
Nos projets avec Data Driver - Développer et Industrialiser
Créez le cœur de
votre bibliothèque
de data science
Testez & déployez
dans
l’environnement de
containers Docker
de Data Driver
Industrialisez et partagez vos
composants centraux avec
les outils de tests unitaires et
des distributions Python
Industrialisez vos cas d’usage
avec des tests d’acceptance
orientés métier
96. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
De quoi je vais vous parler ?
96
Notre solution pour automatiser et optimiser le processus d’actions dans le cadre des campagnes de
marketing
๏ Un projet d’innovation est un projet à caractère itératif. Vous ne pouvez
pas tout prévoir à l’avance (conception, data model, recette, scénario
de test)
๏ Il faut dès le début comprendre les métriques métier et affiner
l’apprentissage de ses algorithmes sur ces dernières.
๏ Un algorithme d’apprentissage n’apprend pas à résoudre vos problèmes,
il n’apprend que ce que vous lui dites et donnez à apprendre.
97. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
De quoi je vais vous parler ?
97
Nous avons rencontré nos utilisateurs, les analystes, dès le début du processus.
๏ Un projet d’innovation est un projet à caractère itératif. Vous ne pouvez
pas tout prévoir à l’avance (conception, data model, recette, scénario
de test)
๏ Il faut dès le début comprendre les métriques métier et affiner
l’apprentissage de ses algorithmes sur ces dernières.
๏ Un algorithme d’apprentissage n’apprend pas à résoudre vos problèmes,
il n’apprend que ce que vous lui dites et donnez à apprendre.
98. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Notre problématique en bref
98
Si je contacte Mme Y sur
WhatsApp pour une carte de
crédit à -10%, elle ne va pas
être appétente.
Si je contacte un senior
par courrier pour un prêt
perso à 2%, elle va me
rapporter 1000€.
Si j’envoie un SMS à M. X
pour une assurance à -5%,
il va me rapporter 5000€.
Quel client contacter sur quel canal, pour quel produit, sur quelle promotion tout en
optimisant les gains ?
99. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Campagne Uplift : clients les plus sensibles à une action
OCTO TECHNOLOGY > THERE IS A BETTER WAY 99
Uplift (X)
P
R
(Y | X) - P
T
(Y | X)
Modélisation
Action marketing
Sélection clients max{X}
Uplift(X)
+
Descripteurs clients
• Socio-démo
• Activité du compte
• Historique relations
X
Historique campagnes
A
Historique
d'achats
Y
+• Relancés
• Témoins
➢ séparés aléatoirement
Evaluation
100. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Différences méthodologiques d’une approche uplift
◉ Données expériences contrôlées
< Sélection aléatoire de témoins
< Données de qualité chez notre client
OCTO TECHNOLOGY > THERE IS A BETTER WAY 100
Relancés Témoins
Population
UPLIFT = PR
- PT
AUUC
UPLIFT◉ Des métriques d’évaluation différentes
> Comparaison entre Relancés et Témoins
> Valorisation en euros des scores
◉ Des techniques de modélisation différentes
> Plusieurs méthodes
> S’appuient sur les modèles classiques avec une
surcouche
101. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Notre solution
101
Feature
Engineering
Entraînement
de classifieur
binaire
Construction de
bandes de ROI
Feature
Engineering
Prédiction des
probabilités de
prise
Affectation aux
bandes de ROI
Optimisation
sous contraintes
Construction de
groupes
témoins
Modèle
entraîné
Bandes
de ROI
Entraînement
Prediction
102. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
POC 1 : une régression logistique pour qualifier l’impact
d’une action marketing
102
Feature
Engineering
Entraînement
de classifieur
binaire
Feature
Engineering
Prédiction des
probabilités de
prise
Modèle
entraîné
Prediction
Entraînement
103. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
POC 2 : affectation des clients dans des bandes de ROI selon des
critères métiers
103
Feature
Engineering
Entraînement
de classifieur
binaire
Construction de
bandes de ROI
Feature
Engineering
Prédiction des
probabilités de
prise
Affectation aux
bandes de ROI
Modèle
entraîné
Bandes
de ROI
Entraînement
Prediction
104. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
POC 3 : Optimisation sous contraintes pour déterminer la liste des
clients à contacter
104
Construction de
bandes de ROI
Affectation aux
bndes de ROI
Optimisation
sous contraintes
Bandes
de ROI
Entraînement
Prediction
105. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
POC 4 : calcul de la taille du groupe témoins idéale
105
Optimisation
sous contraintes
Construction de
groupes
témoins
Entraînement
Prediction
106. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Les POC sur l’Espagne
106
107. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Tester en réel
◉ Notre solution est comparée aux campagnes réelles
précédentes à l’aide de plusieurs métriques:
< Argent rapporté par les clients dans les bandes à fort
ROI
< ROI prédit pour la campagnes et ROI réel
< Une dizaine d’autres métriques moins importantes…
◉ Les métriques sont persistées dans un fichier de
reporting
Outil client
Notre outil
Exemple de résultats
108. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Le déploiement
108
109. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 109
Le déploiement
110. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 110
Le déploiement
111. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
◉ Nous avons fourni une usine de modèles
et les outils pour évaluer ses derniers
avec des KPI métiers.
◉ Nous avons délivré notre solution à
plusieurs équipes dans le monde avec
la possibilité de prendre en main le
produit et de ré-entraîner les modèles
sur leurs données.
Producteur/ ConsommateurUne usine de modélisation de
campagnes marketing
Equipe 1
Equipe 2
Equipe 3
Packaging python
$ git clone
$ pip install -e
le_package
112. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
◉ Plus de 17 milles lignes de code
◉ 233 tests unitaires
◉ 12 tests d’intégration
◉ 93% de couverture de test
◉ 5 tests end-to-end
◉ 30 pages de doc
◉ Plus de 500 jours hommes
Mais notre solution c’est surtout
112
113. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
L’équipe
113
116. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable
Intelligence
Artificielle
Collecte de donnée
Infrastructure
Supervision
Expérience utilisateur
Outils d’analyse
Gestion des processus
Usine de développementCraftsmanship
l’appréhension de la face cachée de
l’IA est le secret d’un passage en
production réussi