Le métier de data scientist // The job of data scientist

Le Metier de
Data Scientist
Thomas Delecroix - 2016

Le métier de Data Scientist
Thomas Delecroix 2016
Les origines du Data Scientist
Les compétences du Data Scientist
Le Data Scientist dans l’organisation
Le Workflow du Data Scientist
Résumé

• Statisticien ?
• Informaticien ?
• Ingénieur ?
• Analyste ?
Tous exploitent les données…
Alors le Data Scientist,
qu’est-ce que c’est ?

Évolution de l'intérêt pour le terme « Data Scientist »
Source :
Au 11/02/2016
2012 : « Data Scientist : The Sexiest Job of the 21st Century »

Les compétences du Data Scientist

Compétences du Data Scientist
MATHS & STATS
☆ Machine Learning
☆ Modélisation statistique
☆ Plan d'expérience
☆ Inférence bayésienne
☆ Apprentissage supervisé :
arbres de décision , forêt
aléatoire , la régression
logistique
☆ Apprentissage non
supervisé : classification,
réduction de dimensions
☆ Optimisation : algorithme
du gradient et variantes
PROGRAMMATION & BASES DE
DONNEES
☆ Fondamentaux d'informatique
☆ Langage de script par exemple Python
☆ Packages de calcul statistique (ex : R)
☆ Bases de données: SQL et NoSQL
☆ Algèbre relationnelle
☆ Bases de données parallèles et
traitement des requêtes parallèles
☆ Concepts MapReduce
☆ Reducer personnalisés
☆ Hadoop et Hive/Pig
☆ Expérience avec xaaS comme AWS
DOMAINE DE
CONNAISSANCES &
QUALITES HUMAINES
☆ Passionné par l'entreprise
☆ Curieux sur les données
☆ Persuasif & convainquant
☆ Hacker dans l’âme
☆ Résolveur de problèmes
☆ Stratégique, proactive,
créatif, innovant et
collaboratif
COMMUNICATION & VISUALISATION
☆ Apte à coopérer avec les managers seniors
☆ Compétences en story telling
☆ Traduire des concepts pilotés par les données en
décisions et actions
☆ Design visuel
☆ Packages R comme ggplot ou lattice
☆ La connaissance d’un outil de visualisation
comme Flare, d3.js ou Tableau
Expertise
mathématique
Sens du Business
& de la stratégie
Compétences
en « Hacking »
DATA
SCIENCE

Dimension mathématique & statistique
• Niveau de signification, correction de biais, calcul de probabilités
• Algo prédictifs, clustering
• Quelle différence entre statisticien et Data Scientist ?
“Il déniche de nouvelles sources de données : Open Data, API
tierces, données payantes, logs, etc… ”

Dimension technologique/informatique
• Excel, BO, SAS… OK mais pas suffisant
• Programmer afin de s’affranchir des limites logicielles
• Plusieurs langages
• Passage à l’échelle (scaling)
• Machines et leurs limites
• Parallélisations de traitements (cluster)
• Notions d’optimisation

Dimension technologique/informatique
“Le Data Scientist ne connaîtra pas tous les rouages d’un langage, il
relève plus d’un hacker, c’est à dire qu’il aura tendance à bricoler, à
prototyper, à se débrouiller pour obtenir ce qu’il veut, coûte que coûte ”
• L’écosystème Big Data & Data Science est en cours de construction, il
faudra donc jongler en permanence entre les différents langages
• Tout cela motive ce profil de « bidouilleur » et de « détective » qui
doit arriver à ses fins au détriment de la manière ou des conventions

Dimension Business
• Comprendre le business, analyser les enjeux
commerciaux/risques de son secteur
• Comprendre les subtilités
• Construire des applications « data products » ,
prototyper rapidement & expérimenter en mode
agile
• Tourné vers l’action et non sur une étude
ponctuelle
• Bonne communication (graphique, présentations
dynamiques, animations, story teller)
• Collaboration avec les managers & décideurs

Alors, mouton à 5 pattes ?
« Non ce ne sont pas des licornes, ce ne sont ni des intellectuels, ni des thésards
qui ont échoués mais tout simplement des personnes avec des compétences en
statistiques acquises au cours de leur parcours scolaire. Ils utilisent Hadoop, des
modèles prédictifs et des graphes et c’est généralement ce qui les distingue des
analystes BI. Enfin, ils ont pour objectif de créer des applications métiers. Les
modèles prédictifs et les technologies qu’ils utilisent sont en
permanente évolution, ce qui les amène à travailler sur un
mode proche de celui de chercheurs en sciences
expérimentales, par élaborations successives de
prototypes, donnant parfois la fausse impression de se
faire plaisir avec les dernières technologies en vogue. »
James Kobielus, Big Data Evangelist chez IBM :

Le Data Scientist dans l’organisation

Recrutement & Formation
•Qui ?
•Quel cursus ? •Où ? •Qualité ?

Recrutement ?
• Data scientist superstar : trop cher donc constitution d’une équipe pluridisciplinaire,
c’est le Data Lab
• Il s’agit d’1 ou +ieurs équipes selon la taille de l’entreprise, travaillant en mode agile
sur des projets stratégiques, innovants et créateurs de valeur pour l’entreprise à
court et moyen terme (Quick Win)
• Ce sont des
• Architectes logiciels : conception de systèmes prédictifs
• Analystes métiers : identification des use case
• Data scientist : optimisation de processus d’apprentissage automatiques et conception des
modèles prédictifs
• Développeurs back/front : réalisation des systèmes conçus par les architectes et data scientists
• Designers web : représentations graphiques dynamiques des résultats d’analyses

L’échec doit être envisagé comme une étape normale et inévitable de
l’acquisition de connaissance par l’expérimentation
Le Data Lab
Il ne faut pas sous-estimer l’importance des qualités humaines

Rattachement du Data Lab dans l’organisation
• Idéal : rattachement transverse à l’orga
• Risque : inopérant & sans pouvoir réel
sur l’orientation stratégique des métiers
• Important : adhésion des métiers pour
tester les prototypes innovants dans des
conditions réelles
Data Lab
Département
Métier IT
Innovation
Organisation
Le Data Lab doit être sponsorisé auprès du comité exécutif. Le rôle du Data Chief Officer
est précisément de faciliter le déploiement des innovations à toute l’entreprise

Le Workflow du Data Scientist

Workflow
Imaginer un produit
Collecter les données
Préparer les données
Modélisation
Visualisation
Optimisation
Industrialisation

• Besoin / opportunité métier => formulation plus rigoureuse
potentiellement implémentable dans un modèle prédictif
• Penser produit c’est se demander ce que l’on veut impacter au
niveau des métiers ?
=> la/les variable(s) cible(s) souvent novatrice.
=> variables prédictives grâce à la connaissance des
métiers et du marketing sur nos clients.
=> comment mesurer le succès d’une prédiction ?
Imaginer un produit ou un service

Imaginer un produit ou un service

Disponibilité des données ?

Qualité des données ?

Techniques ?

Enjeux politiques ? Enjeux juridiques ?

Préparation des données
Homogénéiser
Nettoyer
Mise à l’échelle
Croisement

Modélisation
« Better data outweighs clever maths »
Feature ingineering

Visualisation
Une image
vaut
mille mots

Visualisation avec les Web’dev

Visualisation avec les métiers

Visualisation avec ses clients

Visualisation avec ses pairs

Optimisation

Déploiement
Scaling
Industrialisation

Déploiement

Quelques « Succès story » de Data Scientist

En résumé

Plusieurs facettes
Mise en place d’un Data Lab : le Data
Scientist polycéphale
3 activités principales :
Conception de services prédictifs innovants
Conception de prototypes de services
prédictifs.
Conseil auprès des équipes métiers

http://thomasdelecroix.com/

Bonus

Recrutement & Formation
Formations professionnelles :
• Certains ont des catalogues de formations
bien étoffés mais…
• Il faut pouvoir mettre activement cet
apprentissage en pratique
• Participer à des concours de Data Science
est le meilleur moyen
• L’autoformation est une brique du métier
pour rester constemment à jour, on peut la
réaliser grâce à de nombreux MOOC comme
openclassrooms, Coursera, edX
• Cours de référence : « L’apprentissage
automatique » de Andrew Ng de l’université
de Standford
Filières académiques :
• Telecom ParisTech (master Spécialisé Big Data)
• Université Pierre et Marie Curie (filière Big
Data du Master de Mathéatiques et
Applications)
• ENSAE : spécialisation Data science
• ENSAI : master Big Data
• ENS Cachan : M2 MVA Mathématiques /
Vision / Apprentissage
• Polytech Lille génie informatique et statistique
• Lille 1 : Master Ingénierie Statistique et
Numérique)

Lien vers le site web de la société >

Le métier de data scientist // The job of data scientist

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Le métier de data scientist // The job of data scientist

Editor's Notes