• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Data scientist: le job le plus sexy du 21ème siècle
 

Data scientist: le job le plus sexy du 21ème siècle

on

  • 679 views

Article publié sur le site LesEchos.fr: Analyse critique d'un article de la HBR d'Octobre 2012: "Data scientist : The Sexiest Job of the 21st Century de Thomas H.Davenport (Professor à la Harvard ...

Article publié sur le site LesEchos.fr: Analyse critique d'un article de la HBR d'Octobre 2012: "Data scientist : The Sexiest Job of the 21st Century de Thomas H.Davenport (Professor à la Harvard Business school) et D.J Pati (Data Scientist pour Greylock Partners)".

Statistics

Views

Total Views
679
Views on SlideShare
679
Embed Views
0

Actions

Likes
2
Downloads
2
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Data scientist: le job le plus sexy du 21ème siècle Data scientist: le job le plus sexy du 21ème siècle Document Transcript

    • 30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos Page 1 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle 1 TweeterTweeter 22 Like 13 28/02/2013 | Bruno TEBOUL | Tendances-innovation | Tribune | Lu 2265 fois | aucun commentaire Data Scientist: le job le plus sexy du 21ème siècle ? LE CERCLE. Analyse critique d'un article de la HBR d'Octobre 2012: "Data scientist : The Sexiest Job of the 21st Century de Thomas H.Davenport (Professor à la Harvard Business school) et D.J Pati (Data Scientist pour Greylock Partners)". Tout d’abord, attardons-nous un peu sur le titre de l’article qui peut surpendre pour un article de la HBR et semble quelque peu exagéré voire galvaudé tant l’oxymoron formé par « scientist » et « sexiest » est perceptible, excessif voire « cousu de fil blanc ». En effet, l’archétype du scientifique comme du geek et sa représentation ne correspond pas vraiment à une description glamour ou sexy, mais c’est plutôt aux antipodes que nous renvoie l’opinion publique à propos des geeks… Certes, les auteurs jouent sur ce paradoxe pour réhabiliter l’image du technico-scientifique, qu’est le Data Scientist et ainsi accélérer également son intégration, sa réhabilitation au sein des entreprises américaines plus ouvertes semble-t-il à ce type de profils, surtout en Californie. A la différence de l’entreprise française, lieu où les mathématiciens, statisticiens, économètres et autres linguistes souffrent d’un déficit d’image certain et de préjugés encore aujourd’hui. Sans détour, ni langue de bois, nous pouvons affirmer que les DRH ont toujours autant de réticence et d’appréhension envers les universitaires (docteurs), les polytechniciens, les normaliens (mises à part quelques groupes dans l’industrie ou les Telcos) plutôt qu’à l’égard des Centraliens, HEC, ESSEC, ESCP, Sciences Po ou même Enarques. A une certaine époque, on pouvait argumenter en disant que nos docteurs, nos X, ou nos normaliens étaient peu ou prou préparés au monde du travail et notamment au secteur privé. L’Université, l’Ecole Polytechnique et la Rue d’Ulm ont déployé beaucoup d’efforts pédagogiques et financiers ces dernières années pour permettre à leurs diplômés d’être connectés voire immergés en entreprise au cours de leur cursus d’excellence et ainsi pouvoir « sortir de leur laboratoire », « quitter leur paillasse » pour comprendre les enjeux business, le management... Mais pour autant la « force du préjugé » demeure. Un autre facteur d’influence négatif relayé largement par les médias explique le désarroi des recruteurs face aux profils de scientifiques. En effet, depuis le scandale de la crise financière, des bulles spéculatives liées à l’utilisation des mathématiques appliquées au monde de la finance et des marchés boursiers. Le monde des « matheux » s’est vu assimilé à la dérive des mathématiques appliquées au service d’une spéculation folle qui a conduit à la crise actuelle. Nombre de traders pris dans la tourmente de cette dérive spéculative et de ses conséquences funestes furent très médiatisés et accusés de détourner les mathématiques au service de la cupidité. Et l’on a longtemps considéré que les mathématiques, par la complexité et les lacunes de leurs formules d'évaluation du risque, furent largement responsables de la crise financière qui a secoué le monde à partir de septembre 2008. L’école française de mathématique fut mise en cause directement car les étudiants de ces cursus spécialisés en mathématiques financières ont offert une caution scientifique à des règles du jeu pathogènes. Nicole El Karoui, RECHERCHER SUR LE CERCLE Mots-Clés Auteur ENTREPRENEUR TENDANCES-INNOVATION ShareShare 34 ÉCRIT PAR Bruno TEBOUL PhD Candidate. Université Paris Dauphine. VOIR SON PROFIL SES 3 DERNIERS ARTICLES 05/04/2013 | 20:33 Text Mining, Sentiment Analysis, Big Data. 15/03/2013 | 17:07 "Big Ads" ou le déluge publicitaire… 12/03/2013 | 12:04 Big Data: une révolution managériale ? TOUS SES ARTICLES PUBLIEZ VOS ARTICLES BONJOUR BRUNO TEBOUL Déconnexion PUBLIER UNE CONTRIBUTION Mon profil public Mon compte Modifier mon profil Mode d'emploi LE CERCLE LES ECHOS SUR TWITTER
    • 30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos Page 2 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle professeur de mathématiques appliquées et responsable du Mastère Probabilités et Finances co-délivré par l’université Paris VI et l’École Polytechnique fut mise en cause personnellement, car c’est de son mastère que sont sortis bon nombre des « quants » (quantitative analysts) qui ont ensuite gravi les échelons du « trading » dans les grandes banques comme Goldman Sachs, Lehman Brothers, BNP Paribas ou la Société Générale, ainsi que dans les agences de notation et les Hedge Funds. Le Professseur El Karoui rappelle pour sa défense que le rôle de l’analyse mathématique appliquée à la finance est « une simple aide à la décision, comme un ordinateur. Il faut que chacun prenne ses responsabilités. Observez bien la sociologie des banques, vous verrez que ce ne sont pas les mathématiciens qui décident. Nous avions tous averti que le risque lié aux dérivés de crédit (CDO et CDS) augmenterait de manière non linéaire en fonction de la quantité d’opérations, mais qui nous a écoutés ? Face à la cupidité, ce qui a manqué le plus, ce ne sont pas les modèles, c’est le pragmatisme et le bon sens ». La presse du monde entier s’est alors déchaînée sur les matheux, du Wall Street Journal au Monde en passant par le magazine Wired. Pour l’accusation, les ingénieurs financiers formés à la française ont contribué à pousser vers l’abîme la finance américaine puis, par contagion, la finance mondiale, en proposant aux dirigeants de ces institutions des modèles mathématiques qui étaient censés neutraliser le risque contenu dans les produits financiers, et qui n’ont pas tenu leurs promesses. Car la crise de la fin des années 2000 a bien été déclenchée par une innovation des années 90, le dérivé de crédit, un produit dérivé dont le sous-jacent est une créance ou un titre représentatif d’une créance (obligation). CF article de Felix Salmon dans Wired le 23/02/09 “Recipe for Disaster: The Formula That Killed Wall Street” (ici la fameuse “fonction gaussienne de copule de David X.Li). L'article proposait une séduisante formule pour estimer les risques liés aux investissements hypothécaires. L'évaluation de ces risques a toujours été un problème insoluble, parce que les corrélations entre les décisions individuelles, les variations des marchés, les changements de valeurs des immeubles suites à des transformations de l'environnement rural ou urbain transforme la science des corrélations des investissements à risques en une science appliquée très incertaine et dont les effets seront dévastateurs. Comme ne pas penser et évoquer ici le postulat de la Théorie du Chaos (« l’effet papillon ») et donc de la dépendance sensitive aux conditions initiales : une très petite variation quantitative locale (de l’ordre d’un dixième de un pourcent) peut provoquer de grandes modifications qualitatives sur l’ensemble de l’évolution du système. C’est ce que Lorenz a illustré dans une conférence en 1979 dont le titre était « Predictability: does the flap of a butterfly’s wing in Brazil set off a tornado in Texas?. Il semble que le confort adopté par la finance en matière de modélisation emprunte de physique brownienne soit mise à mal et sans doute beaucoup trop controversée pour perdurer… La formule de Li offrait pourtant une brillante simplification et permettait d'attribuer un simple coefficient de risque sur les investissements basé sur les prix d'un instrument financier connu en anglais sous l’acronyme CDS (Credit Default Swap) qui signifie « garanties contre les cessations de paiement ». Mais au lieu d'étudier les variations de taux de cessations de paiement comme base pour évaluer les risques, les compagnies financières utilisèrent les variations du prix des CDS comme base d'évaluation des risques, en postulant que si les cessations de paiement augmentent, le prix des CDS augmenterait aussi. Ils oubliaient un détail: les données dont ils disposaient reposaient sur une période historique où les prix de l'immobilier avaient toujours été à la hausse ! Le résultat, on le connait : la formule de Li a permis de donner une qualification de triple A (investissements sans risques) à des fonds hypothécaires qui ne méritaient pas cette notation et qui entraîna inévitablement le fameux boom immobilier: à la fin de 2001, il existait un marché des CDS évalué à 920 milliards de dollars. A la fin de 2007, le chiffre avait explosé dépassant les 60 000 milliards de dollars. Dès lors, nous considérons que la comparaison qu’opèrent Devenport et Patil entre les « Quants » et les Data Scientist est plutôt malheureuse, car les « Quants » ont cristallisés pour des années encore l’image de jeunes irresponsables avides et cupides. A l’origine et même responsables de la diabolisation des mathématiques appliquées, ils continuent toutefois à faire rêver certains étudiants en quête de fortune… Par ailleurs, les étudiants sortis d’une grande école d’ingénieur et qui cumulent un diplôme en statistique sont attirés par d’autres carrières plus classiques, plus rémunératrices qu’une mission de « Data Scientist ». La plupart ayant à cœur et à l’esprit de choisir entre l’INSEE, un grand corps d’état ou bien de démarrer une carrière dans la Silicon Valley, et même partir dans le monde de la banque et de la finance car très rémunérateur… D’autre part, la fonction de « Data Scientist » est souvent assimilée à la fonction de Data Miner ou Data Cruncher, mais version 2.0, alors qu’elle est selon nous le produit de l’évolution de l’entreprise face aux défis de la digitalisation et où la ressource première est bien l’information ou en tout cas la transformation du bruit en information pertinente, en connaissance. En effet, nous pensons qu’avec l’avènement du quaternaire (économie du numérique) et la virtualisation des biens, des services, de la communication : l’enjeu est bien de traiter, d’analyser, d’exploiter les données de plus en plus nombreuses, complexes et d’en tirer une véritable valeur ajoutée pour aider les dirigeants à prendre de bonnes décisions et à optimiser leur modèle d’organisation et de gouvernance. Thomas R. Davenport et D.J Patil nous rappellent en introduction de leur article que dans les années 1990 à Wall Street on s’arrachait à prix d’or les « Quants », ces analystes quantitatifs en salles de marchés, formés dans les meilleures universités américaines et qui constituaient les profils les plus prisés et les plus recherchés à l’époque à la bourse de New-York. Ce sont ces « Quants » qui prenaient en charge les considérations mathématiques qui intervenaient dans les choix des traders. La complexité des produits vendus engendrait déjà une difficulté croissante du métier de trader. De plus, le sujet était réellement difficile du point de vue mathématique et s'avèrait très dynamique. Les Quants devaient donc se tenir au courant des avancées les plus récentes dans le domaine des mathématiques financières, et rendre toujours plus sûre l'évaluation des différents produits comme suit : • l'incorporation des nouveaux produits aux logiciels de pricing existants et la maintenance technique de ces logiciels, • l’étude et l’implémentation de nouveaux modèles de taux ou d'autres sous-jacents, • l’étude et l’implémentation de nouvelles techniques numériques, • la couverture des produits utilisés, à savoir les techniques permettant d’éliminer le risque associé à un produit L’expérience client : (re)définition bit.ly/15TJmC3 Le Cercle Les Echos @CercleLesEchos Étendre Conciliation vie privée/vie professionnelle : une affaire de femmes ? bit.ly/15TJmBY Le Cercle Les Echos @CercleLesEchos Étendre La priorité au logiciel libre est-elle légitime ? bit.ly/15TCepc Le Cercle Les Echos @CercleLesEchos Étendre Gérer une fortune au féminin bit.ly/15TCgxd Le Cercle Les Echos @CercleLesEchos Qui dirige l'Europe ? bit.ly/13dGrrL Le Cercle Les Echos @CercleLesEchos Étendre The Resource Hope bit.ly/13dzdE8 Le Cercle Les Echos @CercleLesEchos 29m 29m 1h 1h 28 Juin 28 Juin Tweets SuivreSuivre @CercleLesEchos@CercleLesEchos Tweeter à @CercleLesEchos …LUS …COMMENTÉS AUJOURD'HUI, LES ARTICLES LES PLUS... Jean-Yves Archer | Finances| Tribune L'oral très contrasté de DSK au Sénat Jean-Charles Guibert | Organisation| Tribune Pour leur compétitivité, les PME doivent pratiquer l’Open Innovation Marc Traverson | Autres| Tribune L’exemplarité, inévitable outil du management OFCE | Europe| La Croatie dans l’Union européenne : une entrée sans fanfare Christophe Nguyen | RH| La Qualité de Vie au Travail (QVT) en période de crise : moins importante que la compétitivité ? ABONNEZ-VOUS AU FLUX RSS SUIVEZ-NOUS AVEC TWITTER
    • 30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos Page 3 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle donné. Il semblerait qu’aujourd’hui à l’ère du digital et du déluge informationnel (Big Data), les entreprises soient désormais en recherche d’experts capables de traiter l’infobésité et d’en tirer toute la quintessence décisionnelle et managériale tant attendue : c’est ainsi que le besoin en Data Scientist est né ! La situation est telle aux Etats-Unis que les auteurs évoquent le cas de Greylock Partners, la fameuse société de capital-risque où travaille D.J Patil, et qui a soutenu Facebook et LinkedIn. En affirmant leur réelle préoccupation quant à l’ampleur de la pénurie de talent aux US, de ce type de scientifiques capables de traiter ce phénomène « Big Data » que Greylock Partners a décidé de créer une structure désormais dédiée à ce type de recrutement et capable de canaliser ces rares ressources vers les entreprises de leur portefeuille. Ce concept et titre de Data Scientist aurait été inventé dès 2008 et forgé à partir du concept de « Data Science » (par analogie avec « Computer Science ») par D.J Patil et Jeff Hammerbacher, alors tous deux en charge du data management et de la data analyse chez LinkedIn et Facebook. Période durant laquelle ils eurent l’idée de se rencontrer régulièrement pour échanger sur leur métier et leur méthode d’investigation des données de plus en plus complexe et s’apparentant grandement à la démarche scientifique. Les Data Scientists apparaissent comme des acteurs clés en entreprise pouvant réaliser toutes les possibilités offertes par le déluge informationnel. Ils apportent une méthodologie, une approche très structurée, trouvent des modèles statistiques convaincants et ainsi conseillent les dirigeants sur les stratégies en matière de portefeuille produits, de stratégie marketing et commerciale et les orientent dans leur processus de décision. Les auteurs n’hésitent pas à comparer le travail du Data Scientist à celui d’un véritable scientifique, en prenant l’exemple d’un Data Scientist qui travaille sur des problèmes de fraude et dont l’analyse des données s’apparenterait de manière analogue à un problème de type séquençage de l'ADN. Les auteurs pensent sans doute au séquençage de nouvelle génération (en anglais « next generation sequencing ») qui est un ensemble de méthodes apparues à partir de 2005 pour réaliser du séquençage à très haut débit. Il se caractérise par l'utilisation d'approches massivement parallèles, permettant de séquencer des centaines de milliers de fragments simultanément. Depuis le séquençage du premier génome en 1995, la production de données de séquençage d'ADN a révolutionné les possibilités de compréhension du vivant par la biologie moléculaire. Avec l'arrivée des technologies de séquençage à très haut-débit, on assiste aujourd'hui à une explosion des volumes de données avec un doublement des bases de données de séquence tous les 6 mois et une augmentation du débit d'acquisition d'un facteur 1000. Ce déluge de données ouvre de nouvelles perspectives scientifiques notamment dans le domaine de la « méta- génomique » qui vise à caractériser l'ensemble des génomes bactériens d'un écosystème complexe: il est désormais possible de quantifier les génomes, gènes et fonctions de ces écosystèmes. En effet, ce traitement est un traitement « Big Data » qui constitue un défi majeur tant en matière d'optimisation des calculs qu'en matière de stockage et de leur mise à disposition aux biologistes. Mais la comparaison entre la lutte contre la fraude et la génomique et le super-séquençage du génome s’arrête là et tient au fait que le traitement massif parallèle des données est rendu possible par l’utilisation notamment d’une petite invention logicielle due à Yahoo ! (framework open source) Hadoop et de l’invention de Google (un framework open source) voulant optimiser sa puissance d’indexation: MapReduce. Autre point que les auteurs passent sous silence : l’effort à consentir pour maitriser la programmation MapReduce explicite (sans scripts) sous Hadoop semble relativement longue. En effet, une durée comprise entre 6 mois à 1 an ne semble pas surestimée s’il s’agit d’acquérir une expérience significative. On estime à ce jour en France à une petite centaine de personnes les « data scientists » potentiels et donc possédant de réelles compétences informatiques et statistiques. En ce qui concerne les langages de plus haut niveau Pig, Hive QL on peut estimer à quelques semaines le temps de formation et d’apprentissage nécessaires pour parvenir à un niveau de compétences suffisant, vu la proximité avec les langages existants. En donnant ces estimations, nous présupposons plusieurs problèmes et paradoxes ignorés par les auteurs de l’article : - l’explosion des données non-struturées a permis aux géants Yahoo ! et Google de créer les outils nécessaires à ce traitement de l’infobésité via des technologies et des process nouveaux et peu maîtrisés encore, faisant la part belle au logiciel libre (Hadoop et MapReduce), - la plupart des DSI des grands groupes sont encore réticents quant à l’utilisation de ces technologies jugées encore « exotiques » dès lors que l’on parle de « framework applicatif open source », - les solutions logicielles packagées par les grands éditeurs atteignent des prix exhorbitants versus l’approche « open source » des 2 briques indispensables au traitement du Big Data (Hadoop & MapReduce) elles-mêmes ré- utilisées par les grands éditeurs de logiciels, - bon nombre de grandes entreprises sont encore équipées de solution de CRM et de BI classiques et ne perçoivent toujours pas le sens (signification et direction) de la révolution imposée par ce tsunami des data non struturées à la fois techniquement et humainement, - expliquer et comprendre comment dans les entreprises, les data miners ou data crunchers d’hier devront sans aucun doute évoluer vers la « data science » pour pénétrer les mystères du Big Data, - comment accompagner cette transformation du traitement des données qui implique une transformation des méthodes et process de travail et qui conclut à une transformation organisationnelle et managériale en entreprise, - enfin, il n’existe pas de formation ou de cursus universitaire type « Data Scientist », - point spécifique à la France : les grandes écoles ne semblent pas vouloir répondre à cette demande et sont encore hermétiques à l’idée de former des ingénieurs-statisticiens (type X/ENSAE par exemple) et devenir « Data Scientist », - les étudiants eux-mêmes sont peu enclins aujourd’hui à opter pour ce type de job et de position « trop jeune » en entreprise, - l’effet de « mode » autour du phénomène Big Data semblerait desservir les intérêts pour le métier de « Data Le Cercle Les Echos Like You like this. You and 6,748 others like Le Cercle Les Echos. Facebook social plugin NUAGE DE TAGS 2012 Allemagne Banque BCE Chine Chômage Compétitivité conjoncture CriseCroissance Dette dette publique Developpement durable démocratie développement Economie Emploi Energie Entreprise Environnement Etats- Unis Euro EuropeFiscalite France grèce Hollande Immobilier Industrie Innovation Internet Management Marketing nucléaire PME Politique Politique économique présidentielle Santé société
    • 30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos Page 4 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle Scientist ». Pourtant dans cet article, Davenport et Patil se demandent comment repérer, attirer et développer ses nouveaux talents qui devraient combiner une formation scientifique de type PhD (sciences dures ou appliquées) avec un diplôme de statisticien dans le meilleur des cas ? Le Data Scientist serait un « oiseau rare », perçu souvent comme un « martien » qui devra s’intégrer dans une entreprise où les méthodes et les process seront bousculés par l’approche scientifique et la culture « data-driven » de ce nouveau profil… Patil a été lui-même Head of Data Product pour le géant américain des réseaux sociaux professionnels Linkedin avant de devenir le Data Scientist en chef chez Greylock Partners. Et il raconte alors l’histoire du recrutement et de la difficile intégration de Jonathan Goldman (titulaire d'un doctorat en physique de Stanford) embauché en Juin 2006 par Linkedin. Le réseau social professionnel était encore une start-up et la compagnie comptait un peu moins de 8 millions de comptes utilisateurs (membres actifs). Le nombre de nouveaux membres grandissait rapidement alors que les membres déjà inscrits ne développaient pas suffisamment leur réseau de contact (peu d’invitations d’amis ou de collègues par les membres…), ce qui est le « facteur clé de succès » de tout réseau social. En effet, les utilisateurs de l’époque montraient peu de connexions avec les autres membres du réseau, alors que le niveau d’inscription individuelle sur le site augmentait… C’est pour cette raison que Jonathan Goldman fut surpris par les faibles inter-connexions entre membres du réseau Linkedin, et ne comprenait pas pourquoi un tel phénomène n’avait pas davantage intrigué la direction de Linkedin… Lui avait déjà perçu la grande richesse d’informations disponibles sur les membres inscrits, mais tâtonnait en terme d’analyse : alors il continua à chercher, analysa les connexions entre membres, forma des hypothèses, testa des intuitions, trouva des modèles permettant de prédire les types de connexions entre membres en fonction des critères relatif à l’entreprise, l’école fréquentée… pour proposer un moyen infaillible de développer les inter-connexions entre membres. Il fallait être capable de suggérer aux membres des profils de personnes connues par un membre en lien avec son secteur d’activité, son entreprise, ses diplômes, son lieu d’habitation. Toutes ces données cruciales pour mieux connaitre les profils de chaque membre et par conséquent les classer par cluster cohérent. Mais l'équipe d'ingénierie de LinkedIn, pris dans les défis techniques liés à l’évolution de la plate-forme (scalabilité du site) semblaient peu intéressés par les découvertes de Goldman. Certains de ses collègues furent même ouvertement dédaigneux aux idées du jeune Data Scientist selon Patil… Heureusement, Reid Hoffman, co-fondateur de LinkedIn et PDG de l'époque, avait foi dans la puissance de l'analyse statistique en raison de son expérience chez PayPal (plateforme de paiement appartenant à e-Bay) et il avait accordé à Goldman une vraie confiance et un fort degré d'autonomie. Il donna à Goldman un moyen de contourner le cycle classique des mises à jour du site, l’évolution des cycles de publications, en un mot contourner le webmastering officiel du site, en testant des petits modules sous la forme d'annonces publiées sur les pages les plus populaires du site. Grâce à cette initiative et cette culture « test and learn », Goldman a commencé à tester avec succès la présentation de profils (en mode « push ») en affinité avec chaque utilisateur pris individuellement. Ces profils étaient sensés être connus par les membres destinataires de ces propositions de connexion. Par phase successive, itération après itération Goldman arriva à trouver un modèle d’annonce personnalisée pour chaque membre Linkedin en proposant de montrer les trois meilleurs profils le plus en affinité avec chaque utilisateur basé sur son profil, son parcours professionnel, sa carrière décrit dans sa fiche Linkedin (type « CV détaillé »). En quelques jours, quelque chose de remarquable se produisit : le taux de clic sur ces annonces était le plus élevé du site, du jamais vu depuis l’arrivée de Goldman. Les annonces générèrent un taux de clic de 30% plus élevé que le taux obtenu par les autres bannières invitant à visiter d'autres pages du site. Ces annonces générèrent au final des dizaines de millions de nouvelles pages vues pour Linkedin et ont contribué à son incroyable succès aujourd’hui. Aussi, Goldman continua à améliorer la façon dont les suggestions de profils furent recommandées aux membres, s’inspirant des idées de réseautage telles que « la théorie du triangle fermé » (« triangle closing »), l'idée selon laquelle si vous connaissez « Larry et Sue », il y a de grandes chances que « Larry et Sue » se connaissent aussi ! Toutefois on peut regretter que les auteurs de donnent pas de définition claire et distincte du « Data Scientist », et ne dresse pas de portrait ou de profil type de ce nouveau métier en pleine pénurie ! Les prévisions les plus pessimistes estiment qu’il manquera environ 100 000 Data Scientists en 2020 aux Etats-Unis pour répondre aux besoins analytiques des entreprises. En généralisant ces estimations au monde entier et en incluant les professions périphériques (data miners, spécialistes BI…), ce sont plus d’un million de spécialistes qu’il conviendra de former dans les dix prochaines années. Des analystes de Gartner ont appliqué une méthode d’analyse textuelle pour dresser le profil type du Data Scientist. Sans surprise, les premiers titulaires de ce nouveau métier doivent savoir travailler en groupe, maîtriser la gestion des Big Data et s’appuyer sur une réelle maîtrise de la communication. Mais qu’englobe exactement le terme « Data Scientist » ? Les analystes de Gartner ont tenté de répondre à cette question en appliquant les techniques d’analyse textuelle à un grand nombre de descriptions de postes et d’offres d’emplois publiées dans la presse, puis de comparer les résultats ainsi obtenus pour les termes « Data Scientist », « statisticien » et « expert en Business Intelligence ». Les mots clés les plus fréquemment utilisés pour les Data Scientists sont : expérience, équipe, Hadoop, modélisation, analyse… Les trois compétences principales qui se dégagent sont le management de données, la modélisation analytique et l’analyse métier. D’autres termes apparaissent également fréquemment : communication, collaboration, créativité. Le même type d’approche a été conduit par la société Indeed.com (moteur de recherche d’offres d’emploi) qui publie le résultat de son étude en décembre 2011 (cf graphe « Indeed.com » infra): - les offres d’emplois comportant l’expression exacte « Data Scientist » sont pratiquement inexistantes avant 2010. - la croissance des offres d’emploi de « Data Scientist » sont montés en flèche à partir de Février 2010 et jusqu’en décembre 2011 (date de publication de l’étude) pour dépasser les 6500% !
    • 30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos Page 5 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle Et pour cause, puisqu’il faudra attendre Mars 2011 pour que le phénomène « Big Data » soit révélé et évangélisé auprès des entreprises américaines avec la parution du rapport McKinsey... A ce stade, il nous semble important de nous pencher sur le profil et la rémunération des Data Scientist, sujet sur lesquels Davenport et Patil sont silencieux. Pour ce faire, nous avons repéré une étude disponible sur le web réalisée par l'éditeur SiSense (spécialiste de BI Agile et qui se définit le spécialiste du logiciel d’analytics Big Data). Cette étude a été mené au mois de juillet 2012 et constitue une vaste enquête en ligne qui permis à plus de 400 professionnels de répondre à une série de questions afin de comprendre : Qui sont les professionnels de la data analyse ? Où travaillent-ils ? Quel est leur niveau de rémunération ? Quelles sont les perspectives du secteur ? Et enfin qui sont les Data Scientists ? Source : Etude SiSense 2012 Cette étude a mis en évidence que 48 % des répondants étaient basés en Amérique du Nord et seulement 24 % en Europe. L’étude révèle que les salaires des professionnels de l'analyse de données sont globalement assez élevés, même si l'écart-type est important et surtout le niveau est très inférieur en Europe par rapport aux US. Un analyste de données gagnera en moyenne 55 000 dollars, un Vice-Président Analytics gagnera en moyenne 132 000 dollars. Un « Data Scientist » sera entre les deux avec une moyenne de 89 000 dollars, soit 61 % de plus qu'un « Data Analyst ». L’effet de mode et la dite pénurie aura donc un effet haussier sur le salaire. La localisation géographique a également un effet sur la rémunération. Les professionnels de la donnée gagnent en moyenne 32 000 dollars seulement en Asie, et 96 000 dollars aux Etats-Unis, soit le triple ! Le Canada est assez proche des Etats-Unis avec un salaire moyen de 82 000 dollars et l'Europe dans la moyenne avec 64 000 dollars.Concernant les intitulés de postes, seuls 7 % des répondants à l'enquête portent le titre exact de « Data Scientist ». La majorité se nomment « Business Analyst » pour 34 %, ou « Data Analyst » pour 27 %. Selon SiSense, une des raisons de la faible proportion de Data Scientist serait l'absence de définition claire de cette profession. N'oublions pas également que ces nouveaux termes datent de 2008 seulement. Si le métier de Data Scientist prend de l'ampleur et gagne en reconnaissance, la part des professionnels qui en adopteront le titre ira grandissante. Même si l'aide à la décision et l'analyse de données datent maintenant de quelques décennies, le marché semble en forte croissance puisque 33 % des professionnels ayant répondu à cette étude affichent moins de 3 années d'expérience professionnelle. Et ils ne sont pas sur-diplômés : 47 % des répondants ne disposent au maximum que d'un « bachelor », correspondant à la licence en France. Seuls 5 % des professionnels de la donnée sont des docteurs (PhD). Mais attention parmi les Data Scientists, le pourcentage de docteurs (PhD) monte à 35 %.D’après une étude d’EMC, les experts de la Business Intelligence ne formeront pas les futurs Data Scientists. Seuls 12% seront des transfuges de la BI: « While most BI professionals do their analysis and data processing in Excel, data science professionals are using SQL, advanced statistical packages, and NoSQL databases ». Les entreprises attendent visiblement (à 34%) que les bataillons d’étudiants informatiques correctement formés s’échappent de leurs écoles d’ingénieurs pour prendre leur programme Big Data en main. Les experts métiers suivent à 27%, l’étudiant « lambda » à 24%. Les professionnels de la donnée travaillent dans de petites équipes : 65 % des répondants travaillent dans des équipes de moins de six personnes, mais pour les grandes sociétés, de plus de 1 milliard de dollars de chiffre d'affaires, une équipe de plus de 50 professionnels de la donnée est constituée dans 30 % d'entre elles. Après avoir vu leurs salaires progresser en 2012 (pour 61 % des répondants), les perspectives semblent encore meilleures pour 2013. En effet, 78 % des répondants anticipent une augmentation de salaire en 2013; ils sont même 25 % à espérer voir leur salaire augmenter de plus de 10 % l'an prochain. A présent, nous aimerions distinguer entre les fonctions de Data Miner et de Data Scientist. Davenport et Patil n’ayant pas jugés utile d’opérer cette démarche, afin d’éclairer la définition du nouveau métier de Data Scientist et marquer fonctionnellement la rupture avec les professions de l’ancienne ou actuelle génération d’analyste de données. Il semblerait qu’une majorité d’auteurs s’intéressant au « job description » des Data Scientist passent sous silence cette distinction, ou bien l’ignore, ou alors considère que le Data Scientist s’inscrit dans une continuité linéaire de l’évolution de la fonction de Data Miner et qu’un simple changement de titre ou de dénomination suffirait à appréhender le déluge informationnel avec une rigueur scientifique et une vision stratégique. Or cette approche distinctive sur le plan conceptuel est aussi cruciale que celle qui consiste à distinguer le CRM, la BI traditionnelle, les données structurées avec le Big Data, les données non structurées, la BI Agile ! Commençons par redéfinir le rôle du Data Miner et ce qu’est le Data Mining. Le Data Miner gère et optimise l’ensemble des outils permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des informations riches à partir des données de l’entreprise, notamment des données historiques, de découvrir des modèles implicites dans les données. Ils peuvent permettre par exemple dans le secteur de la distribution, à un magasin de dégager des profils de client et des achats types et de prévoir ainsi les ventes futures sur l’analyse des transactions passées. Il permet d’augmenter ainsi la valeur des données contenues dans le DataWarehouse. Les outils d’aide à la décision, qu’ils soient relationnels ou OLAP, laissent l’initiative à l’utilisateur, qui choisit les éléments qu’il veut observer ou analyser. Au contraire, dans le cas du Data Mining, le système a l’initiative et découvre lui-même les associations entre données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ou à poser des hypothèses. Il est alors possible de prédire l’avenir, par exemple le comportement d’un client, et de détecter, dans le passé, les données inusuelles, exceptionnelles. Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul un utilisateur connaissant le métier peut déterminer si les modèles, les règles, les tendances trouvées par l’outil sont pertinents, intéressantes et utiles à l’entreprise. Le succès du concept de Data Warehouse et le nombre croissant de bases de données décisionnelles disponibles dans les entreprises, dynamise fortement l'offre Data Mining. Le terme de Data Mining
    • 30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos Page 6 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle signifie littéralement forage de données. Comme dans tout forage, son but est de pouvoir extraire un élément : la connaissance. Ces concepts s’appuient sur le constat qu’il existe au sein de chaque entreprise des informations cachées dans le gisement de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, de faire apparaître des connaissances. Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les données en connaissances. L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est de remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation. Le Data Miner utilise donc des méthodes statistiques bien établies, mais aussi des développements récents issus de la modélisation informatique. Sans prétendre à l’exhaustivité, on distinguera les méthodes exploratoires où il s’agit pour le Data Miner de découvrir des structures ou des comportements inattendus, de la recherche de modèles prédictifs où une « réponse » est à prédire. On dit alors que le Data Miner mène une « exploration non supervisée » car il utilise des techniques de projection orthogonale sur des sous-espaces : analyse en composantes principales, analyse des correspondances, permettent de réduire efficacement la dimension du point de vue du nombre de variables. Les méthodes de classification visent à former des groupes homogènes d’unités en maximisant des critères liés à la dispersion (« k-means »). Des extensions non-linéaires (« splines », « noyaux », etc.) étendent le champ de ces méthodes classiques. Mais il peut également employer la méthode de recherche de règles d’association qui est une des innovations du Data Mining : introduite en 1993 par des chercheurs en base de données d’IBM, elle a pour but de rechercher des conjonctions significatives d’évènements. Typiquement une règle de décision s’exprime sous la forme : si (A et B) alors C mais il s’agit d’une règle probabiliste et non déterministe. On définit le support de la règle comme la probabilité d’observer à la fois la prémisse X et la conclusion Y : P(X∩Y) et la confiance comme P(Y/X). Parmi les règles ayant un support et une confiance minimale on s’intéressera à celles où P(Y/X) est très supérieur à P(Y). Les premières applications ont concerné les achats dans les grandes surfaces : parmi les milliers de références disponibles et les millions de croisements, identifier les achats concomitants qui correspondent à des fréquences importantes. Cette méthode s’étend bien au-delà de ce type d’application. L’originalité tient essentiellement à la complexité algorithmique du problème. Enfin, le Data Miner peut procéder à des prédictions ou « apprentissage supervisé ». Inutile d’évoquer ici les techniques de régression bien connues. La méthode la plus typique est certainement celle des arbres de décision : pour prédire une réponse Y, qu’elle soit numérique ou qualitative, on cherche tout d’abord la meilleure partition de l’ensemble des données (en général en deux sous-ensembles) issue d’une partition effectuées sur les prédicteurs et on itère dans chacun des sous-ensembles : la croissance exponentielle de l’arbre est contrôlée par des critères d’arrêt de type coût-complexité ainsi que par l’usage de données de validation qui permettent d’éliminer les branches non pertinentes. Cette technique conduit à des règles de décision très lisibles, d’où son succès, et hiérarchise les facteurs explicatifs. A l’opposé en termes de lisibilité, les logiciels de Data Mining proposent souvent des méthodes hautement non-linéaires comme les réseaux de neurones, les machines à vecteurs de support (SVM). Même si les règles de décision ont une forme mathématique explicite, celle-ci est en général très complexe et ces méthodes sont utilisées comme des boîtes noires. Une autre approche consiste à complexifier des méthodes simples : les arbres de décision étant souvent instables, le Data Miner va en utiliser plusieurs obtenus sur des données « ré-échantillonnées » par « bootstrap » : la décision finale s’obtient par une procédure de vote s’il s’agit d’un problème de classification, ou de moyenne pour un problème de régression : c’est le « bagging ». Citons également le « boosting », qui consiste à améliorer des procédures. Toutes ces méthodes d’analyse ou de « forage des données » par le Data Miner sont aujourd’hui utiles pour optimiser la connaissance client à partir des données structurées, mais ne suffisent plus dans un contexte de tsunami informationnel. Le rôle du Data Scientist va être justement de traiter ce phénomène, en étant capable d’extraire tout le sens et la direction de l’information non structurée provenant du web, des réseaux sociaux, du mobile, de fichiers multimédia (son, photo, vidéo) par une transformation des data brutes (raw data) en connaissance actionnable… Le Data Scientist peut tout d’abord exister et travailler aux côtés de Data Miners et même gérer un périmètre métier, fonctionnel, et technique déconnecté des missions des Data Miners classiques, cantonnés aux traitements des datas structurées dans des environnements connus de l’IT et du métier (au service du CRM, du marketing, du commercial…). Le Data Scientist pourrait être en charge dans le cas d’une banque ou d’une compagnie d’assurance d’assurer le scoring prédictif de la fraude, ou anticiper le départ de clients stratégiques par modélisation statistique avancée. Les Data Miners eux resteraient en charge de l’analyse, du scoring bancaire clients, de la segmentation comportementale et de la gestion de la base de connaissance standard (via les données structurées de l’entreprise). L’intérêt de recruter un Data Scientist pour lui confier le rôle et les missions d’un Data Miner n’a donc aucun sens. Le Data Scientist doit pouvoir travailler en toute autonomie et en exploitant pleinement ces compétences en modélisation statistique, en exploitation et analyse des bases de données, pour faire de la segmentation clients, produits à la demande. Il doit maitriser totalement le framework Map-Reduce, utiliser et comprendre les langages Perl ou Python ou Java voir Pig qui s’impose. Bien entendu, il va devoir travailler avec les BDD SQL ou NoSQL, et enfin il devra devenir le Michel-Ange de la Data Viz pour être tout à fait complet…On voit bien que le profil de Data Scientist est très pointu, et qu’à l’heure actuelle, très peu de candidats peuvent répondre à ces nombreuses exigences et compétences tout aussi récentes, nouvelles que rares… Et nous pensons que ce profil de Data Scientist conduira inévitablement à créer et recruter un poste clé pour l’Exécutif de demain au sein de grands groupes : le Chief Data Officer à ne pas confondre avec son homologue le « Chief Digital Officer ». Car avec une telle position, le problème du « HIPPO » ne se posera plus dans les organisations qui n’auront pas levé ce préjugé : le Chief Data Officer fera partie intégrante de la « C-suite » et sera considéré comme tel par ses homologues CMO, CTO... Un profil que le cabinet de recrutement de cadres dirigeants Russell Reynolds Associates voit comme critique pour les grands groupes et dont les embauches vont commencer dès 2013. Et il ne s'agit pas d’un nouveau CIO ou CTO mais bien d'un nouveau poste à la jonction du marketing et l’IT. Leur
    • 30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos Page 7 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle Bruno du Teilleul L’expérience client : (re)définition Jérôme Lanoy Les 6 grands principes de l'innovation design (partie I) – Pour positionner, innovez ! Olivier Mathiot Identifier les raisons de la croissance et réinventer les règles de fonctionnement des entreprises Vihan Sharma, Acxiom Les bénéfices multiples d’une solution de marketing personnalisé PUBLIER CE COMMENTAIRE hypothèse est qu'en 2015 la moitié des Fortune 100 auront recruté leur Chief Data Officer… À LIRE ÉGALEMENT COMMENTER L'ARTICLE Il vous reste 2000 caractère(s) pour écrire votre commentaire. POLITIQUE Élections 2012 Vie politique ÉCONOMIE & SOCIÉTÉ Politique éco & Conjoncture International Société Social Immobilier Recherche & Innovation Énergies & Environnement Assos & Fondations Recherche éco Dossiers spéciaux LES ECONOMISTES DE PROJECT SYNDICATE Joseph E. Stiglitz Nouriel Roubini Kenneth Rogoff J. Bradford DeLong Jeffrey D. Sachs Dominique Moïsi Autres auteurs ENTREPRISES & MARCHÉS Finance & Marchés High Tech & Médias Industrie Management Services Dossiers spéciaux Stage d'été ENTREPRENEUR Création d'entreprise Social RH Fiscalité Juridique Compta-finances Marketing Internet Développement Innovation Patrimoine LE CERCLE + Vidéos Livres Abécédaire Sites web PLAN DU SITE Le Cercle Les Echos Aide Nous contacter Charte d'utilisation C.G.U/C.G.V Les Echos Investir Enjeux Les Echos Capital Finance Les Echos Entrepreneur Bilansgratuits Eurostaf Conférences Salon des Entrepreneurs Les Echos
    • 30/06/13 10:11Data Scientist: le job le plus sexy du 21ème siècle ? | Le Cercle Les Echos Page 8 sur 8http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle de la Franchise L'Institut Les Echos Les Echos Formation Série limitée Les Echos ePaper LeCrible.fr Radio Classique Connaissance des Arts La Fugue