Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Matinale - Levez la malédiction du passage de l'IA en production

513 views

Published on

Quels sont les obstacles légaux, technologiques, méthodologiques ou culturels qui compliquent la mise en production de l’IA dans les entreprises autres que les Géants du Web ?
Pour mieux appréhender les difficultés de l’industrialisation de ce type d’applications, une prise de recul est nécessaire.
Lors de cette Matinale, nous détaillerons les grands thèmes du passage des modèles de Machine Learning du Datalab à la production via l’industrialisation :
- Quelles sont les différences fondamentales entre une application classique et de l’IA ?
- Quelles sont les bonnes pratiques méthodologiques dans la phase d’exploration des modèles ?
- Comment faciliter le passage de la recherche à la production ?
- Comment intégrer une application de Machine Learning dans le Système d’Information ?
Nous vous présenterons des retours d’expérience sur deux cas concrets :
- Optimisation de campagnes marketing
- Maintenance prédictive de machines industrielles - Total

Published in: Technology
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Matinale - Levez la malédiction du passage de l'IA en production

  1. 1. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 1
  2. 2. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 01 _ L’IA 02 _ Bonnes pratiques méthodologiques d’exploration 03 _ De l’exploration à la production 04 _ L’intégration de l’IA dans le SI 05 _ Quelle organisation ? _ Pause 06 _ Data Driver 07 _ REX Optimisation de Campagne Marketing 08 _ REX Total 09 _ Takeaway Agenda 2
  3. 3. 01l’IA
  4. 4. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Machine Learning Deep Learning Apprentissage supervisé Traitement du langage naturel Chat bot Apprentissage non-supervisé Apprentissage par renforcement Computer vision Analyse prédictive Data Science Cognitif, etc. 4 AI / MACHINE LEARNING / DATA SCIENCE ?
  5. 5. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 5 DATA SCIENCE : Un chemin vers l'intelligence artificielle Utilisateurs Prédiction / Décisions Retours I.A.
  6. 6. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 6 Dans les faits Datalab Méthode d’apprentissage Données Lecture Développe Application Intégration Modèle Production Prédictions Retours Lecture
  7. 7. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 7 Le hype est-il bon pour vous Source : Hype Gartner - Juillet 2017 Temps EspérancedeValeur Désillusion
  8. 8. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Le dessus de l’iceberg Intelligence Artificielle Collecte de donnée Infrastructure Supervision Expérience utilisateur Outils d’analyse Gestion des processus Usine de développementCraftsmanship
  9. 9. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 9 Le hype est-il bon pour vous Source : Hype Gartner - août 2018 Temps EspérancedeValeur Perte d’investissement : - humain - argent - temps Optimal
  10. 10. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Phase de consolidation 10 Mieux que la hype Source : Hype Gartner - août 2018 Temps EspérancedeValeur Investissement Nécessaire
  11. 11. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 11 Viser plusieurs objectifs atteignables Source : Hype Gartner - août 2018 Temps EspérancedeValeur Itération Itération Itération Itération
  12. 12. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Commencer petit pour mieux grandir 12
  13. 13. 02 Bonnes pratiques méthodologiques d’exploration
  14. 14. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Les projets d’IA sont complexes > Mode exploratoire + Les résultats ne sont pas garantis Les projets seront amenés à échouer plusieurs fois avant de réussir .. Incertitude > Science : Concepts & Algorithmes > Technologie : Big Data > Business : nouveaux usages 14
  15. 15. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 15 Le problème d’IA Données > Trouver une représentation qui permet à nos algos de comparer / raisonner Mythes > One size fits all > Toujours plus de données Les challenges > Disponibilité des données > Reproductibilité des environnements Quelle représentation ? Un objectif métier mesurable et activable > Trouver une cible métier mesurable avec un levier opérationnel Mythes > Machine learning c’est magique > Ma solution c’est le deep learning Les challenges > Attention au hors-sol > Silotage Quel objectif ?
  16. 16. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Mauvais pattern de méthodologie Le POC sans fin 16 Un portfolio qui grandit avec des POCs: Chaque jour un nouveau POC sans passage en prod
  17. 17. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Construire, Observer, Évaluer, Recommencer 17 Entraîner le modèle IA Étudier le problème Analyser les erreurs Evaluer la solution
  18. 18. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Casser les silos Étudier le problème Les data scientists et les métiers doivent définir et travailler ensemble sur la problématique dès le début 18
  19. 19. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Casser les silos Étudier le problème Pour réduire le Time To Market, éviter les POCs jetables, rencontrer les utilisateurs le plutôt possible ! 19
  20. 20. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable ● Data sets < 2 To (now) ● Machine learning, AI, machine vision ● Impose la réplication de données sur les workers Où est mon Data Lake ? 20 Data intensive CPU intensive ● Data sets > 2 To ● Jointure & filtrage généralement complexes ● Partitionnement horizontal de la donnée sur le cluster Traitements ETL & Traitements Données IA Une architecture IA qui favorise le passage à l’échelle DataLake DataLab
  21. 21. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 21 Dans la recherche de la valeur dans mes données Régression linéaire Méthodes ensemblistes Deep Learning
  22. 22. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Evaluer sa solution, c’est bien choisir sa métrique 22 Evaluer la solution 90% de justesse pour un algorithme qui retourne toujours la même chose !!! C’est logique vue que le jeux de test ne contient que 10% du chiffre 5 Seuil Pourcentage Précision Rappel 0 faux positifs 0 faux négatifs
  23. 23. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Les résultats de l’évaluation peuvent amener à changer de stratégie Afin d’améliorer les résultats de notre modèle, suite à l’évaluation, … … nous serons amenés à explorer plus nos données, … … à réduire la dimensionnalité ou à entreprendre d’autres modélisations Cela afin de réduire l’impact du bruit. Les données qui apportent du bruit ont un impact direct sur la frontière de décision. L’utilisation de validation croisée peut réduire l’impact de ce bruit. 23
  24. 24. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable ● Entrer en mode debugging. Afficher vos faux positifs et vos faux négatifs ● Est ce que vous êtes en train de sur-apprendre sur le jeux d’entraînement ? ● Est ce que vous êtes en train de sous-apprendre ? ● Est ce que vous avez assez de signal ? ● Est ce que vous avez beaucoup,ou peu de descripteurs ? Analyser les erreurs 24 Analyser les erreurs Evaluer la solution
  25. 25. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Construire, Observer, Évaluer, Recommencer 25 Entraîner le modèle IA Étudier le problème Evaluer la solution Analyser les erreurs Est ce que ça peut remplacer un être humain ? Est ce que ça va accélérer le travail d’un être humain ? De combien ? Est ce que ça vaut le coup ? D’autres KPIs ? D’autres données ?
  26. 26. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Construire, Observer, Évaluer, Recommencer 26 Entraîner le modèle IA Étudier le problème Analyser les erreurs Evaluer la solution Est ce que ça peut remplacer un être humain ? Est ce que ça va accélérer le travail d’un être humain ? De combien ? Est ce que ça vaut le coup ? D’autres KPIs ? D’autres données ?Si oui, alors !
  27. 27. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Construire, Observer, Évaluer, Recommencer 27 Entraîner le modèle ML Étudier le problème Analyser les erreurs Evaluer la solution Est ce que ça peut remplacer un être humain ? Est ce que ça va accélérer le travail d’un être humain ? De combien ? Est ce que ça vaut le coup ? D’autres KPIs ? D’autres données ?Si oui, alors :
  28. 28. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Ne faites pas ça chez vous ● Introduire trop de nouveauté d’un seul coup : apporter une expertise technique ou une méthodologie qui au final n’est pas adaptée à l’équipe ● Faire un POC et partir sur un autre sans transmettre les NO GO ● Différents points de vue sur le label (une image catégorisée différemment par plusieurs experts métier) ● Forcer l’utilisation de l’IA alors qu’une approche plus simple conviendrait ● Fuite des données de test dans les données d’entraînement 28
  29. 29. de l’exploration à la production 03
  30. 30. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable L’objectif d’une organisation Data Science est… ◉ de concevoir et opérer ◉ des services innovants à forte valeur métier ◉ grâce à la mise en oeuvre d’algorithmes exploitant les données L’organisation Data Science au service de l’entreprise 30
  31. 31. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable On industrialise un modèle de Data Science pour sécuriser la Valeur apportée Mais aussi capitaliser sur toute la chaîne de production de ce modèle La Data Science : un workflow simple, au départ... 31 ● Quid de la valeur métier apportée ? ○ Elle peut devenir un élément clé business ○ Perdre cet acquis factuel peut s’avérer dramatique Donnée Modèle Valeur
  32. 32. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Objectif : du code [de data science] maintenable, évolutif, fiable, reproductible et partageable “Reproducibility is a minimum necessary condition for a finding to be believable and informative.” Bollen et al. 2015 32 Pourquoi industrialiser ?
  33. 33. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Objectif : amener le modèle en production en optimisant le compromis Valeur / SLA 33 Pourquoi industrialiser ?
  34. 34. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable la donnée 34
  35. 35. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Pyramide de maturité de la donnée 35 Dataviz Search Statistiques - KPIs Entreprise Data-aware Entreprise Data-driven IA “ Je stocke, organise et documente ma donnée ” “ Je réalise automatiquement des tâches complexes, apprises de la donnée ” “ J’effectue des recherches et analyses interactives sur ma donnée, grâce à un outillage avancé ” “ J’analyse des données pour me connaître ”
  36. 36. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Machine Learning sur pilotis 36 Dataviz Search Statistiques - KPIs “ Dois-je démarrer avec de l’IA avancée sur ce sujet ? ” “ Comment évaluer la valeur Métier ? ” Hype is in the air IA
  37. 37. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Juste ce qu’il faut de Machine Learning 37 Dataviz Search Statistiques - KPIs “ Dois-je démarrer avec de l’IA avancée sur ce sujet ? ” “ Comment évaluer la valeur Métier ? ” Construire prioritairement les fondations de la donnée ◉ Les construire vite si le périmètre est réduit ◉ Les construire solides en vue de leur pérennité ◉ On créera potentiellement beaucoup de valeur avant d’atteindre la zone IA Hype il y aura de toutes façons Statistiques - KPIs Dataviz Search IA
  38. 38. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable le projet 38
  39. 39. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Funnel de projet Data Science - V0 Cadrage de MVP “ Exploration de possibilités ” Développement de MVP “ Test et feedbacks du terrain ” Industrialisation & Déploiement “ Délivrer de la valeur ” Identification des Use Cases “ Vision partagée & portefeuille ” Qualification de Use Cases “ Qualifier la cible métier et la donnée ” Activités Equipe Experts fonctionnels Data scientists Data engineers & DevOps 39 Principe : “Simplicity - the art of maximizing the amount of work not done - is essential” Pratique : Essayer vite avec de la donnée et un modèle simples, avoir rapidement du feedback
  40. 40. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Principe : “Simplicity - the art of maximizing the amount of work not done - is essential” Pratique : Essayer vite avec de la donnée et un modèle simples, avoir rapidement du feedback Identification des Use Cases “ Vision partagée & portefeuille ” Cadrage de MVP “ Exploration de possibilités ” Développement de MVP “ Test et feedbacks du terrain ” Industrialisation & Deployment “ Délivrer de la valeur ” Qualification de Use Cases “ Qualifier la cible métier et la donnée ” Activités Equipe Experts fonctionnels Data scientists Data engineers & DevOps 40 Funnel de projet Data Science - V1 Pattern Feature Team Principe : “Simplicity - the art of maximizing the amount of work not done - is essential” Pratique : Essayer vite avec de la donnée et un modèle simples, avoir rapidement du feedback Prévoir nombre d’itérations et de pivots fonctionnels et techniques
  41. 41. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Identification des Use Cases “ Vision partagée & portefeuille ” Cadrage de MVP “ Exploration de possibilités ” Développement de MVP “ Test et feedbacks du terrain ” Industrialisation & Deployment “ Délivrer de la valeur ” Qualification de Use Cases “ Qualifier la cible métier et la donnée ” Activités Equipe Experts fonctionnels Data scientists Data engineers & DevOps 41 Funnel de projet Data Science - V2 Pattern Silver Bullet Enchaîner avec un POC+ qui vise à renforcer le SLA de manière itérative Rester ouvert aux pivots
  42. 42. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 42 Un POC+ ? Cadrage - Dispo. data... - Qualif. data... POC+ M D S IT D S IT M Prise de conscience (awareness) Task Force Cracker la PROD Intégration de Flux POC M D S IT Branché sur la PROD !
  43. 43. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable “ Délivrer vite du résultat, on industrialisera / testera / outillera plus tard ” ● Ca marche pour le POC mais pas au-delà “ Trop coûteux et frein à la production ” ● Le coût ne fera que s’accroître, on accumule de la dette sur un applicatif à forte complexité itérations It. 1 It. 2 It. N Effort d’Industrialisation Effort de Production A N TIPA TTERN 43 Industrialisation, très en amont du MVP Data Science Perte de levier de capitalisation Dette croissante et désendettement vite insurmontable Perte de productivité difficilement vendable
  44. 44. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable “ Délivrer vite du résultat, on industrialisera / testera / outillera plus tard ” ● Ca marche pour le POC mais pas au-delà “ Trop coûteux et frein à la production ” ● Le coût ne fera que s’accroître, on accumule de la dette sur un applicatif à forte complexité A N TIPA TTERN 44 Industrialisation, très en amont du MVP Data Science Perte de levier de capitalisation Dette croissante et désendettement vite insurmontable Perte de productivité difficilement vendable
  45. 45. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Industrialisation, très en amont du MVP Data Science ● Un MVP focus sur la qualité ● La Viabilité du MVP est une caractéristique alliant qualité acceptable et capitalisable ● La seule garantie de la qualité s’obtient par l’industrialisation ● L’effort d’industrialisation est plus important en début de cycle de vie (première itérations) itérations It. 1 It. 2 It. N Effort d’Industrialisation Effort de Production BO N PA TTERN 45 Par capitalisation, la part d’industrialisation diminue avec le temps baisse du coût d’initialisation de nouveaux projets DS
  46. 46. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable les pratiques 46
  47. 47. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Technique - Critères/Patterns d’Industrialisation IA et Code, même combat ● Les algorithmes de Data Science sont d’abord du code ● Le passage à l’échelle de la Data Science obéit aux mêmes règles techniques que le Code ● Sécuriser, tester, automatiser, capitaliser, partager… ● … pour mieux innover, produire, apporter de la valeur, propager Bonnes pratiques techniques pour réussir l’industrialisation de l’IA ● Industrialisation du développement ● Rationalisation des technologies utilisées ● Rationalisation des Code / Architecture / Conception ● Maîtrise des Environnements ● Outillage adéquat catalyseur de productivité ● Gouvernance de la donnée Bonnes pratiques techniques pour réussir la diffusion de l’IA ● Ecosystème et outillage orientés collaboration et partage ● Favoriser le bootstrap des futures projets IA 47 il y a bon nombre de challenges
  48. 48. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 48 ◉ Un modèle de ML, c’est d’abord du code ◉ Doit obéir aux standards d’industrialisation du code ◉ Moyennant les bonnes adaptations dans chaque composante et chaque étape de l’industrialisation ◉ Bannir les cycles en V, générateurs de tunnels ◉ Adopter les pratiques de Craftsmanship < Nettoyer, Tester, Documenter, Versionner, Packager, … ◉ Avec des stratégies et un outillage adaptés pour soutenir les pratiques Data Scientists, le Craftsmanship vous sauvera
  49. 49. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Réutilisation Comment mettre à profit les travaux ? 49 Canevas d’Industrialisation Acquisition Quelles données ? Entraînement Quel(s) modèle(s) ? Cycle de vie Quand ré-entraîner le modèle ? Exposition Comment consommer mon modèle ? Impacts Quels effets ? Exploration Exploitation Capitalisation Cycle de production du Data Scientist Monitoring Quelles métriques suivre ?
  50. 50. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable les outils 50
  51. 51. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Un écosystème d’outils riche et intriqué, orienté partage et capitalisation 51 Notebook Librairies Standard Intégration Continue Supervision Technique Pipeline Déploiement Partage / Collaboration Interactifs Versioning Bibliothèque de Modèles Registre de Containers Environnement de Développement Intégré (IDE) Bibliothèque de Modules (Core) Gestion de Projet Agile IDETests Entraînements Accep. Intégr. Unit. Containeri- sation Exploitation
  52. 52. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Accélérer la mise en oeuvre jusqu’à la PROD 52 idéalement, un outil permettant une intégration de cet écosystème Méfiance vis-à-vis des outils qui donnent l'impression d'industrialisation (ticket d'entrée bas, clic bouton, ...)
  53. 53. 04 l’intégration de Machine Learning dans le SI
  54. 54. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable “Je voudrais régler tous mes problèmes de data quality” 54 On part en Croisade Le ML c’est pas de la magie
  55. 55. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable “Je voudrais régler tous mes problèmes de data quality” 55 On part en Croisade Le ML c’est pas de la magie Impossible !
  56. 56. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable “Je voudrais régler tous mes problèmes de data quality” “J’utiliserais bien mon infra top mammouth pour scaler et justifier mes investissements” 56 On part en Croisade Le ML c’est pas de la magie Impossible !
  57. 57. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable “Je voudrais régler tous mes problèmes de data quality” “J’utiliserais bien mon infra top mammouth pour scaler et justifier mes investissements” 57 On part en Croisade Le ML c’est pas de la magie Impossible ! Faux problème
  58. 58. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable “Je voudrais régler tous mes problèmes de data quality” “J’utiliserais bien mon infra top mammouth pour scaler et justifier mes investissements” “Ça serait sympa de prédire [...] grâce aux données twitter croisées avec la météo” 58 On part en Croisade Le ML c’est pas de la magie Impossible ! Faux problème
  59. 59. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable “Je voudrais régler tous mes problèmes de data quality” “J’utiliserais bien mon infra top mammouth pour scaler et justifier mes investissements” “Ça serait sympa de prédire [...] grâce aux données twitter croisées avec la météo” 59 On part en Croisade Le ML c’est pas de la magie Impossible ! Faux problème Adhérence externe
  60. 60. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable “Je voudrais régler tous mes problèmes de data quality” “J’utiliserais bien mon infra top mammouth pour scaler et justifier mes investissements” “Ça serait sympa de prédire [...] grâce aux données twitter croisées avec la météo” “J’ai absolument besoin de temps réel pour prédire des alertes au fil de l’eau” 60 On part en Croisade Le ML c’est pas de la magie Impossible ! Faux problème Adhérence externe
  61. 61. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable “Je voudrais régler tous mes problèmes de data quality” “J’utiliserais bien mon infra top mammouth pour scaler et justifier mes investissements” “Ça serait sympa de prédire [...] grâce aux données twitter croisées avec la météo” “J’ai absolument besoin de temps réel pour prédire des alertes au fil de l’eau” 61 On part en Croisade Le ML c’est pas de la magie Impossible ! Faux problème Non prioritaire Adhérence externe
  62. 62. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 62 YAGNI !!!!!! *You Ain’t Gonna Need It
  63. 63. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable De quoi ai-je besoin pour réussir ? Si je ne l’ai pas, comment je fais sans ? 63 Les questions à se poser
  64. 64. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 64 Quels sont mes vrais problèmes ? Spoiler Alert : la donnée
  65. 65. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 65 Une source = une probabilité d’erreur (qualité, SLA non-atteint, etc…) Vrais problèmes d’intégration f1 ... f10 NA NAs... x x ... x NA NAs... NA x NAs... x x ... x x ... x x ... x x ... NA Source 1
  66. 66. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 66 Deux sources = proba1 * proba2 * Σ différences Vrais problèmes d’intégration Source 2 Source 1 f1 ... f10 NA NAs... x x ... x NA NAs... NA x NAs... x x ... x x ... x x ... x x ... NA *différences : temporalités différentes, jointures complexes, qualités variables, SLAs différents
  67. 67. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 67 Vrais problèmes d’intégration f1 f2 f3 f4 ... f127 x x NA NA NAs... NA x x x x ... NA NA NA NA x NAs... NA x x NA NA NAs... NA NA NA NA x ... NA x x NA x NA NA NA x x NA NA NA x NA x NA ... NA Source 2 Source 1 Source 3 temporalités différentes : ◉ source 1 : date à la journée ◉ source 2 : trimestre ◉ source 3 : date sans timezone jointures complexes : ◉ par produit, par client, par mois, si produit encore présent qualités variables : ◉ source 1 : saisie manuelle ◉ source 2 : logiciel propriétaire sans doc ◉ source 3 : log serveur SLAs différents : ◉ source 1 : à peu près OK 4 jours sur 7 ◉ source 2 : pas de SLA ◉ source 3 : KO 3 jours par mois pour mise à jour
  68. 68. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 68 Vrais problèmes d’intégration f1 f2 f3 f4 ... f127 x x NA NA NAs... NA x x x x ... NA NA NA NA x NAs... NA x x NA NA NAs... NA NA NA NA x ... NA x x NA x NA NA NA x x NA NA NA x NA x NA ... NA Source 2 Source 1 Source 3 Fit / Predict BOUM BOUM BOUM BOUM
  69. 69. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 69 La donnée venant de flux de production rendra chaotique le comportement de n’importe quel système de production de ML ◉ Impossible d’anticiper tous les problèmes liés à la donnée ◉ Un snapshot n’est pas représentatif de la réalité ◉ La data-gouvernance ne sera jamais à la hauteur (au début) Vrais problèmes d’intégration f1 f2 f3 f4 ... f127 x x NA NA NAs... NA x x x x ... NA NA NA NA x NAs... NA x x NA NA NAs... NA NA NA NA x ... NA x x NA x NA NA NA x x NA NA NA x NA x NA ... NA Source 2 Source 1 Source 3
  70. 70. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 70 Et si je rajoutais de la complexité ?! f1 f2 f3 f4 ... f127 x x NA NA NAs... NA x x x x ... NA NA NA NA x NAs... NA x x NA NA NAs... NA NA NA NA x ... NA x x NA x NA NA NA x x NA NA NA x NA x NA ... NA Source 2 Source 1 Source 3
  71. 71. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 71 KISS !!!!!! *Keep It Simple, Stupid
  72. 72. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Brancher le modèle le plus vite possible aux flux de production ◉ Modèle simple (Baseline) 72 Top Priorité
  73. 73. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Brancher le modèle le plus vite possible aux flux de production ◉ Modèle simple (Baseline) ◉ Batch pour 90% des cas 73 Top Priorité
  74. 74. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Brancher le modèle le plus vite possible aux flux de production ◉ Modèle simple (Baseline) ◉ Batch pour 90% des cas ◉ Exporter un CSV / une table 74 Top Priorité
  75. 75. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Brancher le modèle le plus vite possible aux flux de production ◉ Modèle simple (Baseline) ◉ Batch pour 90% des cas ◉ Exporter un CSV / une table ◉ Favoriser la compréhension du modèle au détriment de sa performance 75 Top Priorité
  76. 76. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Brancher le modèle le plus vite possible aux flux de production ◉ Modèle simple (Baseline) ◉ Batch pour 90% des cas ◉ Exporter un CSV / une table ◉ Favoriser la compréhension du modèle au détriment de sa performance ◉ Séparer le SLA d’entraînement des SLA de prédictions 76 Top Priorité
  77. 77. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Passer à l’échelle l’infrastructure pour “scaler” Automatiser la prise de décision importante Concurrencer Google sur du Speech to Text 77 Baisser les exigences au démarrage Challenge de la DSI
  78. 78. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Passer à l’échelle l’infrastructure pour “scaler’” Automatiser la prise de décision importante Concurrencer Google sur du Speech to Text Avoir des milliers de petits modèles déployés qui décrivent son métier 78 Baisser les exigences au démarrage Challenge de la DSI
  79. 79. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 79 Baisser le coût d’entrée de l’I.A. dans le SI Temps Investissement SLA Efforts de suivi Plus de maturité
  80. 80. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Suivre des métriques pour compenser (KPIs de Data Science avec un sens métier) Calculer le ROI du modèle pour connaître la valeur Rembourser sa dette régulièrement : réentraîner / élaguer / automatiser 80 Piloter, Ajuster, Rembourser La maturité vient avec l’usage
  81. 81. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 81 Prendre le temps d’intégrer
  82. 82. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Un niveau de disponibilité élevé passe par une phase d’industrialisation coûteuse Plus l’application est complexe, plus l’industrialisation est coûteuse Mutualiser ce qui coûte cher 82 ça prendra du temps
  83. 83. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 83 80% du temps du projet est souvent utilisé pour développer seulement la partie Machine Learning Sous-estimer le temps d’intégration
  84. 84. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Commencer l’intégration le plus tôt possible ! 84 Développer un software c’est 80% du temps + 80 % supplémentaires pour faire l’intégration
  85. 85. 05 quelle organisation ?
  86. 86. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Chaque activité porte des intérêts et une culture spécifique. Elle est naturellement aveugle aux autres enjeux Ces écarts se retrouvent fréquemment dans les structures organisationnelles cloisonnées par activité Le risque récurrent : Une guerre des trônes Expertise Métier Science Maths & Stats IT Informatique DATA SCIENCE A N TIPA TTERN 86 L’échec de la collaboration se traduit souvent par une guerre des trônes → Chaque activité défend son pré carré, collaborant mal avec les autres La domination éventuelle d’une activité se renforce et ne permet pas d’atteindre l’objectif global à long terme
  87. 87. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Constat ◉ Les Data Scientists occupent un rôle central et prééminent ◉ L’IT intervient comme support et intégrateur ◉ Le métier est intégré à la data science, voire directement piloté par les Data Scientist Conséquences ◉ Bon alignement data science ↔ métier, < Risque d’aveuglement par les seules métriques si les enjeux métiers ne sont pas entièrement portés par les Data Scientists ◉ Pas d’appropriation croisée des enjeux IT et Data Science < Perte d’efficacité et coût de maintenance Organisation typique des projets Data Science Data Scientist Métier IT FTs Data Science 87 A N TIPA TTERN
  88. 88. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Chaque activité porte des intérêts et une culture spécifique. Elle est naturellement aveugle aux autres enjeux Ces écarts se retrouvent fréquemment dans les structures organisationnelles cloisonnées par activité Le risque récurrent : Une guerre des trônes Expertise Métier Science Maths & Stats IT Informatique DATA SCIENCE 88 A N TIPA TTERN L’échec de la collaboration se traduit souvent par une guerre des trônes → Chaque activité défend son pré carré, collaborant mal avec les autres La domination éventuelle d’une activité se renforce et ne permet pas d’atteindre l’objectif global à long terme
  89. 89. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Le principal enjeu organisationnel en Data Science est la collaboration équilibrée des trois fonctions Intégrer Science, Métier et IT Expertise Métier Science Maths & Stats Data analysis IT Informatique DATA SCIENCE Logiciel classique Machine learning La Data Science nécessite une réunion de compétences, portées par plusieurs personnes BO N PA TTERN 89 IT Métier / POs Data Scientists ● Associer ces 3 profils au quotidien, dans des équipes ayant des objectifs communs → Feature Teams ● La réussite organisationnelle se mesure par l’appropriation collective de l’ensemble des enjeux
  90. 90. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Intégrer Science, Métier et IT Expertise Métier Science Maths & Stats Data analysis IT Informatique DATA SCIENCE Logiciel classique Machine learning 90 IT Métier / POs Data Scientists Attention au mythe du super Data Scientist polyvalent ! A N TIPA TTERN Risques ◉ Manque de capitalisation IT ◉ Peu de visibilité des enjeux IT ◉ Et leurs impacts sur les enjeux business (qualité des KPIs…)
  91. 91. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Communautés de pratiques IT & FT de Data Science ◉ Capitalisation IT ◉ Visibilité des enjeux IT ◉ Meilleure intégration dans les enjeux business (qualité des KPIs…) ◉ Capitalisation IA, communautarisation, challenges internes, ... Communauté Data Science FT FT FT FT Communautés IT 91 POs Création de communautés de pratiques transversales aux Feature Teams IT, Data Science, Ops Fonctionnant comme des component teams Des communautés inscrites dans l’organisation à animer avec des rituels spécifiques
  92. 92. 06Data Driver
  93. 93. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Data Driver - Équiper nos équipes I.A. Les applications I.A. évoluent rapidement et nécessitent les meilleures pratiques de développement logiciel couplées avec le devops et l’agilité Notre challenge : assurer le déploiement en continu et la reproductibilité des applications I.A. 93
  94. 94. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Intégrez avec les technologies de déploiement continu à l’état de l’art Créez vos workflows de data science pilotant vos cas d’usage 94 Nos projets avec Data Driver - Développer et Industrialiser Créez le cœur de votre bibliothèque de data science Testez & déployez dans l’environnement de containers Docker de Data Driver Industrialisez et partagez vos composants centraux avec les outils de tests unitaires et des distributions Python Industrialisez vos cas d’usage avec des tests d’acceptance orientés métier
  95. 95. REX Optimisation de Campagne Marketing 07
  96. 96. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable De quoi je vais vous parler ? 96 Notre solution pour automatiser et optimiser le processus d’actions dans le cadre des campagnes de marketing ๏ Un projet d’innovation est un projet à caractère itératif. Vous ne pouvez pas tout prévoir à l’avance (conception, data model, recette, scénario de test) ๏ Il faut dès le début comprendre les métriques métier et affiner l’apprentissage de ses algorithmes sur ces dernières. ๏ Un algorithme d’apprentissage n’apprend pas à résoudre vos problèmes, il n’apprend que ce que vous lui dites et donnez à apprendre.
  97. 97. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable De quoi je vais vous parler ? 97 Nous avons rencontré nos utilisateurs, les analystes, dès le début du processus. ๏ Un projet d’innovation est un projet à caractère itératif. Vous ne pouvez pas tout prévoir à l’avance (conception, data model, recette, scénario de test) ๏ Il faut dès le début comprendre les métriques métier et affiner l’apprentissage de ses algorithmes sur ces dernières. ๏ Un algorithme d’apprentissage n’apprend pas à résoudre vos problèmes, il n’apprend que ce que vous lui dites et donnez à apprendre.
  98. 98. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Notre problématique en bref 98 Si je contacte Mme Y sur WhatsApp pour une carte de crédit à -10%, elle ne va pas être appétente. Si je contacte un senior par courrier pour un prêt perso à 2%, elle va me rapporter 1000€. Si j’envoie un SMS à M. X pour une assurance à -5%, il va me rapporter 5000€. Quel client contacter sur quel canal, pour quel produit, sur quelle promotion tout en optimisant les gains ?
  99. 99. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Campagne Uplift : clients les plus sensibles à une action OCTO TECHNOLOGY > THERE IS A BETTER WAY 99 Uplift (X) P R (Y | X) - P T (Y | X) Modélisation Action marketing Sélection clients max{X} Uplift(X) + Descripteurs clients • Socio-démo • Activité du compte • Historique relations X Historique campagnes A Historique d'achats Y +• Relancés • Témoins ➢ séparés aléatoirement Evaluation
  100. 100. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Différences méthodologiques d’une approche uplift ◉ Données expériences contrôlées < Sélection aléatoire de témoins < Données de qualité chez notre client OCTO TECHNOLOGY > THERE IS A BETTER WAY 100 Relancés Témoins Population UPLIFT = PR - PT AUUC UPLIFT◉ Des métriques d’évaluation différentes > Comparaison entre Relancés et Témoins > Valorisation en euros des scores ◉ Des techniques de modélisation différentes > Plusieurs méthodes > S’appuient sur les modèles classiques avec une surcouche
  101. 101. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Notre solution 101 Feature Engineering Entraînement de classifieur binaire Construction de bandes de ROI Feature Engineering Prédiction des probabilités de prise Affectation aux bandes de ROI Optimisation sous contraintes Construction de groupes témoins Modèle entraîné Bandes de ROI Entraînement Prediction
  102. 102. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable POC 1 : une régression logistique pour qualifier l’impact d’une action marketing 102 Feature Engineering Entraînement de classifieur binaire Feature Engineering Prédiction des probabilités de prise Modèle entraîné Prediction Entraînement
  103. 103. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable POC 2 : affectation des clients dans des bandes de ROI selon des critères métiers 103 Feature Engineering Entraînement de classifieur binaire Construction de bandes de ROI Feature Engineering Prédiction des probabilités de prise Affectation aux bandes de ROI Modèle entraîné Bandes de ROI Entraînement Prediction
  104. 104. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable POC 3 : Optimisation sous contraintes pour déterminer la liste des clients à contacter 104 Construction de bandes de ROI Affectation aux bndes de ROI Optimisation sous contraintes Bandes de ROI Entraînement Prediction
  105. 105. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable POC 4 : calcul de la taille du groupe témoins idéale 105 Optimisation sous contraintes Construction de groupes témoins Entraînement Prediction
  106. 106. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Les POC sur l’Espagne 106
  107. 107. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Tester en réel ◉ Notre solution est comparée aux campagnes réelles précédentes à l’aide de plusieurs métriques: < Argent rapporté par les clients dans les bandes à fort ROI < ROI prédit pour la campagnes et ROI réel < Une dizaine d’autres métriques moins importantes… ◉ Les métriques sont persistées dans un fichier de reporting Outil client Notre outil Exemple de résultats
  108. 108. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Le déploiement 108
  109. 109. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 109 Le déploiement
  110. 110. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable 110 Le déploiement
  111. 111. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable ◉ Nous avons fourni une usine de modèles et les outils pour évaluer ses derniers avec des KPI métiers. ◉ Nous avons délivré notre solution à plusieurs équipes dans le monde avec la possibilité de prendre en main le produit et de ré-entraîner les modèles sur leurs données. Producteur/ ConsommateurUne usine de modélisation de campagnes marketing Equipe 1 Equipe 2 Equipe 3 Packaging python $ git clone $ pip install -e le_package
  112. 112. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable ◉ Plus de 17 milles lignes de code ◉ 233 tests unitaires ◉ 12 tests d’intégration ◉ 93% de couverture de test ◉ 5 tests end-to-end ◉ 30 pages de doc ◉ Plus de 500 jours hommes Mais notre solution c’est surtout 112
  113. 113. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable L’équipe 113
  114. 114. REX 08
  115. 115. takeaway 09
  116. 116. OCTO © 2018 - Reproduction interdite sans autorisation écrite préalable Intelligence Artificielle Collecte de donnée Infrastructure Supervision Expérience utilisateur Outils d’analyse Gestion des processus Usine de développementCraftsmanship l’appréhension de la face cachée de l’IA est le secret d’un passage en production réussi
  117. 117. 117

×