Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !

678 views

Published on

Présentation du talk de Frederic Petit.

Mettre en place un Datalab, c'est simple, il suffit d'installer un cluster Hadoop ! Et bien non : 3 mois après le lancement de projet, toujours pas d'Hadoop mais des data-scientists heureux et productifs !
La recette d'un bon datalab : étudier les données, assurer leur qualité et qualifier des use cases métier précis.

Published in: Technology
  • Be the first to comment

La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !

  1. 1. @Madgicweb #LaDuckConf Initier un Datalab : rien à voir avec ce que j’imaginais ! La Duck Conf – 29/01 #LaDuckConf
  2. 2. @Madgicweb #LaDuckConf 2 Frédéric @Madgicweb Responsable du département ARCHITECTURE & DONNEES @mutuelleMNT @Groupe_VYV D’ENTREPRISED’ENTREPRISE
  3. 3. @Madgicweb #LaDuckConf 3 Intelligence artificielle BIG DATA DataLake
  4. 4. @Madgicweb #LaDuckConf 4 Des indicateurs « Rétroviseur » au « prédictif » Ordonnancé (Mensuel / Hebdomadaire) Extract-Transform-Load Intelligence Biologique Temps réel (Indicateur / Calcul) Extract-Load-Transform Intelligence Artificielle
  5. 5. @Madgicweb #LaDuckConf #OnPremise Réponses à l’Appel d’offre
  6. 6. @Madgicweb #LaDuckConf 6 Sponsoring #DataLake #Ingestion #Cluster #IA #DataViz #API #Streaming ??? MOI SPONSOR
  7. 7. @Madgicweb #LaDuckConf 7 Le maillon faible Pourquoi ? Quoi ? Quel but ? Avec qui ? Quelles données ? Quelle valeur ? En phase avec la stratégie ? Le ROI ? … Comment ?
  8. 8. @Madgicweb #LaDuckConf 8 Back to basic Des bases à maitriser ! MACHINE LEARNING (Apprentissage) DATA GOUVERNANCE Data Mining (Corrélation) Data Analysis (Analyse) Data Analyitics (Collecte) BIG DATA (Passage à l’échelle) DATA SCIENCE
  9. 9. @Madgicweb #LaDuckConf 9 C’est parti !!! Ihssane RSA Anne-Marie Décisionnel Wiame Data Scientiste Brieuc Data Scientist Patrice Décisionnel Philippe RDE DATALAB …
  10. 10. @Madgicweb #LaDuckConf 10 Définir les fondamentaux du Datalab Former : Se familiariser avec les outils de « Data Science » proposés par la communauté Opensource. Explorer les algorithmes. Coder. Expérimenter : Collecter, analyser et estimer l’effort de traitement des données de l’entreprise (Accès, qualité, utilité…). Evaluer leurs potentiels. Valoriser : Communiquer régulièrement sur la valeur apportée par nos travaux et nos initiatives. Développer : Fonder une communauté pluridisciplinaire autour de cas concrets estampillés « Data Driven ». 1 Quel but ? Quoi ? Avec qui ? Quelle valeur ?
  11. 11. @Madgicweb #LaDuckConf 11 Identifier des cas d’usage stratégiques Offres MNT Recommandation Attrition Fraude 2
  12. 12. @Madgicweb #LaDuckConf 12 Obtenir l’outillage minimum nécessaire 256 GO RAM 1 To Disque 32 vCPU R Studio Jupyter Spark CSV Connecteur BDD 3
  13. 13. @Madgicweb #LaDuckConf 13 Le grand principe GO Sources Big Matrice Algorithme Machine learning Matrice de normalité et détection d’atypisme Local Outlier Factor (Unspervised / Dimensionality Reduction) Variationnal Auto-Encoder (Supervised / Regression) Isolation Forest (Supervised /Classification) Spectral Ranking Anomaly (Unsupervised / Clusturing)
  14. 14. @Madgicweb #LaDuckConf 14 Premières difficultés • Accessibilité des données (BASES PROGICIEL, DÉMATÉRIALISATION, RÉGLEMENTATION, …) • Qualité des données (GARDAGE IN – GARBAGE OUT) • Véracité de la donnée (NON MISE À JOUR, SYSTÈME AUTORITAIRE) • Historiser les changements des modèles de donnée (SAVOIR FAIRE UN LIEN D’UNE DONNÉE SUR PLUSIEURS ANNÉES D’HISTORIQUE) • Disponibilité des intervenants (LE DATALAB N’EST PAS UN PROJET MAIS UNE EXPÉRIMENTATION) • Consommer des « Data Set » de plus en plus volumineux (NOTRE SIMPLE SERVEUR N’EST PAS PÉRENNE)
  15. 15. @Madgicweb #LaDuckConf 15 Premiers échecs enseignements Recommandation Attrition Fraude Choix des algorithmes Qualité de la donnée L’intelligence artificielle ne fait pas tout
  16. 16. @Madgicweb #LaDuckConf 16 • Identifier les données de chaque système applicatif. • Corréler une même donnée présente dans plusieurs systèmes applicatifs. • Analyser les traitements intra-système applicatif afin d'estimer la fraîcheur de la donnée et l’autorité du système applicatif sur cette donnée. Lier les données brutes aux informations générées. • Estampiller les données (métadonnées) afin de cadrer leurs utilisations (Ex : RGPD). • Déterminer les règles d’accès suivant l’appelant et le traitement. S’appuyer sur la gouvernance de donnée Initiative 1
  17. 17. @Madgicweb #LaDuckConf 17 Se focaliser sur un seul sujet : LA FRAUDE S’appuyer sur les règles de gestion existantes Augmenter les performances à l’aide d’intelligence Artificielle Interpréter les résultats, adapter les processus d’investigation et améliorer le dispositif global 1 2 3 > > > Initiative 2
  18. 18. @Madgicweb #LaDuckConf 18 Bilan Former : Lancement de la Datalab Academy et formation des équipes aux fondamentaux de la « Data Science ». Expérimenter : Identification des sources utiles, application d’une gouvernance de la donnée. Création d’algorithmes d’extraction, de raffinage et de traitement de la donnée. Valoriser : L’outil facilite l’identification d’atypisme part la cellule de fraude. Le taux de détection, de comportements abusifs avérés, augmente. Développer : Collaboration forte avec les métiers. (Itératif) Sensibilisation au travers de présentations. Quel but ? Quoi ? Avec qui ? Quelle valeur ?
  19. 19. @Madgicweb #LaDuckConf 19 Timeline Juin Juillet Août Septembre Octobre Novembre Décembre Janvier < Sensibilisation au BigData Equipe Décisionnel motivée COMEX Approche #DALAKE (Data-Platform) Appel d’offre BigData Projet de gouvernance de donnée débuté COMEX Approche #DATALAB Lancement du DATALAB Identification des besoins métiers Livraison du serveur Extraction et raffinage des données identifiées pour les cas d’usage POC Churn V2 Etude d’algorithme de Data-Science & Datalab Academy Focaliser sur la Fraude Premier succès. Présentation COMEXArrêts Lancement de la Data-Platform DIVE Gouvernance de donnée Session spécifique
  20. 20. @Madgicweb #LaDuckConf 20 Création de la Data Platform Restitution DataMart Services Processing Jobs Datalake Services Extraction Sources Gouvernance DataLab HDFS DIVE* * Données et indicateurs de la vie de l’entreprise Dictionnaire des données ?
  21. 21. @Madgicweb #LaDuckConf 21 Une approche Data-Centric malgré nous Data is the center of the universe; applications are ephemeral. Réétudier la conception : • Formaliser la structure d’un objet métier (création d’un modèle unique partagé VERSUS un modèle spécifique à chaque système applicatif). • Identifier chaque fonctionnalité et le système applicatif en charge du traitement de cette règle métier. Assurer l’intégrité : • Gouverner des sources de données faisant autorités sur l’information afin d’établir une source unique de vérité. Augmenter sa part de responsabilité : • Sécuriser l’accès à la donnée. • Être en capacité de se justifier. Adapter ses interfaces de restitution : • Donner l'accès à la donnée sous plusieurs formats et méthodes (Pull, Push, Evènementiel, Extraction par fichier) http://datacentricmanifesto.org/
  22. 22. @Madgicweb #LaDuckConf 22 Take Away Si je pouvais conseiller le Frédéric que j’étais ! • La plateforme n’est pas la priorité (Mais sans, ça va être compliqué) • Fait le avec le métier • Identifie rapidement la matière première dont tu disposes et sa complexité de raffinage en t’appuyant sur la gouvernance de la donnée • Focalise-toi sur un seul sujet afin d’éviter de transformer tes « data-set » en « data-swamp » • Ne t’attends pas à un miracle, la data-science c’est pas magique • Utilise des méthodes pragmatique car par définition le « Datalab » expérimente et se trompe@Madgicweb

×