Pour une meilleure visualisation préférez la version PowerPoint dispo içi : https://onedrive.live.com/redir?resid=89CAF7C6BA090178!420&authkey=!AK7aYz7rKgR_c1g&ithint=file%2cpptx
-----------------------------------------------------------------------------------
Vue d'ensemble de ce qu'est un Data Scientist en 2016
Overview of what is a Data Scientist in 2016
2. Le métier de Data Scientist
Thomas Delecroix 2016
Les origines du Data Scientist
Les compétences du Data Scientist
Le Data Scientist dans l’organisation
Le Workflow du Data Scientist
Résumé
4. Les origines du Data Scientist
• Statisticien ?
• Informaticien ?
• Ingénieur ?
• Analyste ?
Tous exploitent les données…
Alors le Data Scientist,
qu’est-ce que c’est ?
Thomas Delecroix 2016
6. Évolution de l'intérêt pour le terme « Data Scientist »
Thomas Delecroix 2016
Source :
Au 11/02/2016
2012 : « Data Scientist : The Sexiest Job of the 21st Century »
8. Compétences du Data Scientist
Thomas Delecroix 2016
MATHS & STATS
☆ Machine Learning
☆ Modélisation statistique
☆ Plan d'expérience
☆ Inférence bayésienne
☆ Apprentissage supervisé :
arbres de décision , forêt
aléatoire , la régression
logistique
☆ Apprentissage non
supervisé : classification,
réduction de dimensions
☆ Optimisation : algorithme
du gradient et variantes
PROGRAMMATION & BASES DE
DONNEES
☆ Fondamentaux d'informatique
☆ Langage de script par exemple Python
☆ Packages de calcul statistique (ex : R)
☆ Bases de données: SQL et NoSQL
☆ Algèbre relationnelle
☆ Bases de données parallèles et
traitement des requêtes parallèles
☆ Concepts MapReduce
☆ Reducer personnalisés
☆ Hadoop et Hive/Pig
☆ Expérience avec xaaS comme AWS
DOMAINE DE
CONNAISSANCES &
QUALITES HUMAINES
☆ Passionné par l'entreprise
☆ Curieux sur les données
☆ Persuasif & convainquant
☆ Hacker dans l’âme
☆ Résolveur de problèmes
☆ Stratégique, proactive,
créatif, innovant et
collaboratif
COMMUNICATION & VISUALISATION
☆ Apte à coopérer avec les managers seniors
☆ Compétences en story telling
☆ Traduire des concepts pilotés par les données en
décisions et actions
☆ Design visuel
☆ Packages R comme ggplot ou lattice
☆ La connaissance d’un outil de visualisation
comme Flare, d3.js ou Tableau
Expertise
mathématique
Sens du Business
& de la stratégie
Compétences
en « Hacking »
DATA
SCIENCE
9. Dimension mathématique & statistique
• Niveau de signification, correction de biais, calcul de probabilités
• Algo prédictifs, clustering
• Quelle différence entre statisticien et Data Scientist ?
Thomas Delecroix 2016
“Il déniche de nouvelles sources de données : Open Data, API
tierces, données payantes, logs, etc… ”
10. Dimension technologique/informatique
• Excel, BO, SAS… OK mais pas suffisant
• Programmer afin de s’affranchir des limites logicielles
• Plusieurs langages
• Passage à l’échelle (scaling)
• Machines et leurs limites
• Parallélisations de traitements (cluster)
• Notions d’optimisation
Thomas Delecroix 2016
11. Dimension technologique/informatique
Thomas Delecroix 2016
“Le Data Scientist ne connaîtra pas tous les rouages d’un langage, il
relève plus d’un hacker, c’est à dire qu’il aura tendance à bricoler, à
prototyper, à se débrouiller pour obtenir ce qu’il veut, coûte que coûte ”
• L’écosystème Big Data & Data Science est en cours de construction, il
faudra donc jongler en permanence entre les différents langages
• Tout cela motive ce profil de « bidouilleur » et de « détective » qui
doit arriver à ses fins au détriment de la manière ou des conventions
12. Dimension Business
• Comprendre le business, analyser les enjeux
commerciaux/risques de son secteur
• Comprendre les subtilités
• Construire des applications « data products » ,
prototyper rapidement & expérimenter en mode
agile
• Tourné vers l’action et non sur une étude
ponctuelle
• Bonne communication (graphique, présentations
dynamiques, animations, story teller)
• Collaboration avec les managers & décideurs
Thomas Delecroix 2016
13. Alors, mouton à 5 pattes ?
« Non ce ne sont pas des licornes, ce ne sont ni des intellectuels, ni des thésards
qui ont échoués mais tout simplement des personnes avec des compétences en
statistiques acquises au cours de leur parcours scolaire. Ils utilisent Hadoop, des
modèles prédictifs et des graphes et c’est généralement ce qui les distingue des
analystes BI. Enfin, ils ont pour objectif de créer des applications métiers. Les
modèles prédictifs et les technologies qu’ils utilisent sont en
permanente évolution, ce qui les amène à travailler sur un
mode proche de celui de chercheurs en sciences
expérimentales, par élaborations successives de
prototypes, donnant parfois la fausse impression de se
faire plaisir avec les dernières technologies en vogue. »
Thomas Delecroix 2016
James Kobielus, Big Data Evangelist chez IBM :
16. Recrutement ?
• Data scientist superstar : trop cher donc constitution d’une équipe pluridisciplinaire,
c’est le Data Lab
• Il s’agit d’1 ou +ieurs équipes selon la taille de l’entreprise, travaillant en mode agile
sur des projets stratégiques, innovants et créateurs de valeur pour l’entreprise à
court et moyen terme (Quick Win)
• Ce sont des
• Architectes logiciels : conception de systèmes prédictifs
• Analystes métiers : identification des use case
• Data scientist : optimisation de processus d’apprentissage automatiques et conception des
modèles prédictifs
• Développeurs back/front : réalisation des systèmes conçus par les architectes et data scientists
• Designers web : représentations graphiques dynamiques des résultats d’analyses
Thomas Delecroix 2016
17. L’échec doit être envisagé comme une étape normale et inévitable de
l’acquisition de connaissance par l’expérimentation
Le Data Lab
Thomas Delecroix 2016
Il ne faut pas sous-estimer l’importance des qualités humaines
18. Rattachement du Data Lab dans l’organisation
Thomas Delecroix 2016
• Idéal : rattachement transverse à l’orga
• Risque : inopérant & sans pouvoir réel
sur l’orientation stratégique des métiers
• Important : adhésion des métiers pour
tester les prototypes innovants dans des
conditions réelles
Data Lab
Département
Métier IT
Innovation
Organisation
Le Data Lab doit être sponsorisé auprès du comité exécutif. Le rôle du Data Chief Officer
est précisément de faciliter le déploiement des innovations à toute l’entreprise
19. Le Workflow du Data Scientist
Le métier de Data Scientist
21. • Besoin / opportunité métier => formulation plus rigoureuse
potentiellement implémentable dans un modèle prédictif
• Penser produit c’est se demander ce que l’on veut impacter au
niveau des métiers ?
=> la/les variable(s) cible(s) souvent novatrice.
=> variables prédictives grâce à la connaissance des
métiers et du marketing sur nos clients.
=> comment mesurer le succès d’une prédiction ?
Thomas Delecroix 2016
Imaginer un produit ou un service
40. Le métier de Data Scientist
Plusieurs facettes
Mise en place d’un Data Lab : le Data
Scientist polycéphale
3 activités principales :
Conception de services prédictifs innovants
Conception de prototypes de services
prédictifs.
Conseil auprès des équipes métiers
Thomas Delecroix 2016
43. Recrutement & Formation
Thomas Delecroix 2016
Formations professionnelles :
• Certains ont des catalogues de formations
bien étoffés mais…
• Il faut pouvoir mettre activement cet
apprentissage en pratique
• Participer à des concours de Data Science
est le meilleur moyen
• L’autoformation est une brique du métier
pour rester constemment à jour, on peut la
réaliser grâce à de nombreux MOOC comme
openclassrooms, Coursera, edX
• Cours de référence : « L’apprentissage
automatique » de Andrew Ng de l’université
de Standford
Filières académiques :
• Telecom ParisTech (master Spécialisé Big Data)
• Université Pierre et Marie Curie (filière Big
Data du Master de Mathéatiques et
Applications)
• ENSAE : spécialisation Data science
• ENSAI : master Big Data
• ENS Cachan : M2 MVA Mathématiques /
Vision / Apprentissage
• Polytech Lille génie informatique et statistique
• Lille 1 : Master Ingénierie Statistique et
Numérique)
44. Lien vers le site web de la société >
Thomas Delecroix 2016
Editor's Notes
En 2008
Au début le temre « Data Scientist » a été inventé lors d’une converstion privé entre DJ et Jeff
DJ Patil à Gauche (à l’époque LinkedIn) aujourd’hui « U.S. Chief Data Scientist » au bureau de Politique des sciences et technologies de la Maison Blanche
Jeff Hammerbacher (à l’époque Facebook) aujourd’hui « Fondateur & Chief Scientist » chez Cloudera
Pour info, ces deux là ont été classé 2ième au classement « the most powerfull Data Scientist » du magazine forbes
Le buzz word Data Scientist
Le travail le plus sexy du 21ième siècle nécessite un mélange de compétences pluridisciplinaires à la confluence des mathématiques , des statistiques , de l'informatique , de la com’ et du business.
Trouver un Data Scientist est difficile . Trouver des personnes qui comprennent ce qu’est un Data Scientist, est tout aussi difficile .
Voici donc un mémode ce qu’est vraiment un Data Scientist moderne
Une des différence entre un statisticien et un data scientist dans son acceptation moderne est que…
Le Data Scientist accorde moins d’importance à la pureté statistique d’un indicateur ou d’un algorithme qu’à son utilité Business
A ce stade la créativité et la curiosité sont essentielles pour incorporer les bons facteurs dans un modèle et pour partir à lan chasse aux données endogènes
1)C’est içi que le terme scientist prend tout son sens…
2)Les contraintes 3V l’amène à devoir utiliser un éventail de technologies et de languages de programmation bien plus vaste que par le passé
3) Récupérer maîtrisés pour récupérer, agréger, nettoyer, transformer, prototyper et modéliser. PHP pour scraping
Agréger : SQL
3) Familier des problématiques de
Néttoyer : Bash/Shell
Transformer : Python/Ruby
Prototyper : ?
Modéliser : Python, C++
(Hadoop, Spark, Python)
6) Hadoop, Grid
7) pour les temps de calculs
Alors, en quoi est-il différent des informaticiens ?
Google est mon amis
Adepte de openclass rooms (ancien site du zéro)
Beaucoup d’attente de la part de ce nouveau métier
2) pour en extraire les informations pertinentes pour son entreprise
3) pour obtenir un feedback rapide des utilisateurs
Exemple : Un système de recommandation de produit n’a pas de raison d’être s’il demeure à l’état expérimentation interne, il faut le confronter au client, le lancer en production et l’améliorer en temps réel
4) La complexité des données manipulées implique une bonne communication et un esprit de synthèse pour convaincre ses collaborateurs et son management de la pertinence de ses analyses (graphique, présentations dynamiques, animations => story telling)
5)Aide à la décision
Ce sont des hommes, des femmes, ayant un Background Statistique, ce sont des utilisateurs curieux des nouvelles technologies informatiques qui veulent profondément améliorer les métiers avec et pour eux. Ils travaillent dans un environnement mouvant, expérimental, à la pointe de la technologie ce qui donne la fausse impression d’être testeur de nouveaux gadgets
2) Nouveau métier donc profils rares : Connaissez-vous une personne qui a 10 années d’expérience sur Hadoop ou en NoSQL
Formations & diplômes sous-dimensionnés mais Il est possible de se former à Hadoop, à des méthodes stats ou des langages (R ou Python par exemple)
Concours et/ou reconversions (DBA, développeurs, BI, Web’A)
3) L’imagination est plus importante que le savoir » - A. Einstein. (Kaggle.com, datascience.net)
Ils sont tous data scientist, le data scientist du point 2 est à prendre au sens strict
curiosité, sociabilité, enthousiasme à l’idée de quitter les sentiers battus
Prérequis indispensables :
Large autonomie technique (administrateur de sa machine pour installer des composants sans avoir de lourds processus de validation)
Favoriser les échanges et la réutilisation de code
Conditions de travail : créativité individuelle & échange d’idées (espace production calme & espace brainstorming
Instaurer une culture de l’expérimentation et du prototypage
plutôt que de créer des planifications détaillées/ des gestions
lourdes de projets en décalage avec les projets IT innovants.
De cette question vont découler les… On peut citer le churn/attrition sur un service : La variable cible « le client se désabonne » se transforme en « A partir de quand un client se désintéresse d’un service ? »
combinaison de différentes données parfois inexploitées pour leur conférer de la valeur ajoutée
test, seuil, efficacité, ROI
Le management doit savoir que l’élaboration d’un modèle prédictif implique de travailler sur un mode expérimental et qu’une grande part du code développé sera jetable
(Un leader c’est quelqu’un qui montre ce qu’il est possible de faire)
La réticence du management à abandonner les démarches traditionnelles, rigoureusement et planifiées au profit d’une approche plus agile et plus expérimentale de l’IT qui n’est que la contrepartie de l’innovation authentique, reste à l’heure actuelle l’un des principaux freins aux projet de data science
Volume suffisant ?
Quel coût ?
Peut-on en acheter? (organisme tiers, recensement, etc…)
Précision suffisante ?
Sources d’erreurs ? Correction ? Y’a-t-’il un biais ?
Représentativité des données ?
Richesse des données ? Rareté de l’évènement à prédire ?
Formats ? Technologies utilisées ?
CSV, DB, fichier plats, XML, log, Hadoop
transaction et log web par exemple
Compétences des personnes ?
Enjeux informatiques : Réticences de l’IT à ouvrir les accès par souci de stabilité des applications
Enjeux politiques : Données libres de droit ? Législation ? Lieu de stockage géographique des données ? (vie privée, désanonymisation)
Homogénéiser les formats des différentes sources & Différentes unités
Nettoyer les données pour
supprimer les enregistrements comportant des données manquantes
ou les combler avec des estimations
ou les combler avec des sources tierces
Mise à l’échelle
Croisement de données
Choix d’un nombre restreint de variables prédictives
Feature engineering : utilisation de l’expertise métier pour imaginer de nouvelles variables prédictives. Le feature engineering fait appelle à la créativité et la connaissance métier des data scientist => partie noble et grtifiante de leur métier en contraste avec la préparation de données, brainstorming
Potentiellement réduction dimensionnelle
Choix de l’algorithme d’apprentissage selon le type de variable cible, Analyse factorielle, Random forest
Modèle paramétrique ou non ?
l’intuition et l’expérience sont de mise. Identification d’un problème à un autre sur lequel la méthode a fait ses preuves
Apprentissage « on line » ou d’apprentissage statique ? Enrichissement permanent en fonction de l’accroissement du volume des données ou données figées
La visualisation intervient à toute les étapes. De l’étude d’opportunité au retour sur investissement en passant par la récolte et l’analyse. Elle est au service de la communication et de la pédagogie
Il faut par conséquent l’adapter à notre publique
Avec les web’dev : vocabulaire technique HTML5, JavaScript, D3.JS
D3 est une synthèse de l’ensemble des langages que nous devons aborder avec les web developpers, il synthétise HTML5, CSS3, Javascript, Jquery, SVG
Avec les utilisateurs métiers nous utiliserons des plutôt des graphiques statiques ou dynamiques pour le développement d’application back office
Avec les clients, il faut penser produit pour développer une application front office. Customer centric
Plus que de l’interface homme-machine appelée UI, il faudra prendre en compte une dimension « UX », acronymie de User Experience est centré sur le l’utilisateur et son utilisation par son feedback
Ex système de recommandation de produits, de parrainage, de lien social
Avec ses pairs, graphs technique (corrélation, ROC, des représentations graphiques de random forest etc…)
Monté en complexité de manière incrémentale et en accord avec les parties prenantes du projet
Démarche agile pour mener rapidement de bout en bout une solution simple & fonctionnelle.
Types d’optimisation :
Sur paramètres
Sur la taille des échantillons
Ajustement de la complexité
Exclusion de valeurs aberrantes
Omissions de variables prédictives
Création de nouvelles variables
Pénalisation des observations trop bruitées
Une analyse n’est jamais définitive et devra être challengée en permanence
L’optimisation déborde sur le déploiement
(3.1) compromis apprentissage/précision des prédictions
(3.3) éviter le surapprentissage
(3.4) biais
(5) biais insoupçonnés, découverte de l’indisponibilité des données a posteriori
2 problèmes
1 Passage à l’échelle : dans un contexte Big Data la réalité dépasse les volumes de conception & test => réécriture pour gain de fiabilité & performance. (2) Python => Java, SQL=>Hive, Scikit-Learn=>Mahout
2 Industrialisation : tous les algo ne sont pas parallélisables.
Toute la chaîne doit être industrialisée collecte, nettoyage, transformation, enrichissement, représentation graphique
Une nouvelle classe d’outils de productivité qui facilite l’industrialisation existe, ex :
Sears : groupe de distribution américain ayant un centre de 75 981 m2 à Toronto
Ils veulent aller plus loin que le stockage des bons d’achat et personnaliser les magasins. Leur process de pricing prenait 5 semaines avec des logiques de batch. Ils ne pouvaient pas le faire tourner souvent et impossible de différencier les prix selon les magasins. Ils ont tout descendu sur Hadoop, Le processus, de 5 semaines est tombé à 3 jours ;
Exemple français avec Veolia qui met des capteurs sur les compteurs pour éviter les fuites et les fraudes. Toutes les heures ils ont une vue instantanée sur leur réseau. Ainsi la plupart du temps ça ne sert à rien, mais en cas de problème, ils sont capables d’agir vite et aussi de prévenir le client final et lui permettre d’agir en conséquence. Ils contruisent la ville intélligente de demain sur base du Big Data
The climate Corp, est une startup fondée par des anciens de Google et ils proposent des assurances personnalisées et à distance aux agriculteurs, grâce à des capteurs, pour suivre les risques sur une récolte. Pour les sinistres c’est facile aussi, il y a une mesure. Cette Startup a été rachetée près d’un milliard de $ par Monsanto.
Infinity : toujours de l’assurance, ils récupèrent toutes les données de déclaration de fraudes et en déduisent les signes avant-coureurs. Exemple : si vous déclarez que la voiture à brûlé mais il n’y avait rien à l’intérieur, donc cela permet de faire du scoring beaucoup plus précis et sans lancer des enquêtes pour rien car ça coûte cher. 85% des cas transmis au service des enquêtes sont un succès donc il y a un gain rapide de ROI. Text Mining
William Dibble, senior vice president of Infinity Property & Casualty Co : « There’s no end to what data analytics is capable of doing. Every time we come up with ideas, holy mackerel, it just leads to others! »
Programmation informatique, analyste statistique, analyste métier & marketing
Difficile de trouver des profils complets donc
1) veille technologique sur les outils IT, avancées algorithmiques ou nouvelles méthodes d’analyse statistique
2) avec workflow : collecte de données, préparation des données, modélisation, visualisation, optimisation
3) anticipation des phénomènes sociaux ou économiques en apparence aléatoires.
Concours de data science : Kaggle, datascience.net
Ex : En 2007 1M$ proposé par NetFlix en 2007 pour le meilleurs system de recommandation de film (remporté par 7 ingénieures en 2009)