Big Data : buzz ou opportunité ?

palais des
congrès
Paris

7, 8 et 9
février 2012

Big Data
Buzz ou opportunité pour les entreprises ?
Code Session : RDI203

Bernard Ourghanlian
Directeur Technique et Sécurité
Microsoft France

In 2011, the amount of information created and replicated
will surpass 1.8 zettabytes (1.8 trillion gigabytes) -
growing by a factor of 9 in just five years. […] and more
than doubling every two years. That's nearly as many bits
of information in the digital universe as stars in our
physical universe.

John Gantz and David Reinsel
Extracting Value from Chaos

Explosion généralisée des
données

―[by 2020] data use is ―Flickr members ―AT&T has about 19 ―We now have well
expected to grow by upload more than petabytes of data over a thousand
as much as 44 3,000 images every transferred through customers in the ever-
minute, and yesterday their networks each growing EMC
times, amounting to
yeoaaron uploaded day.‖ Petabyte Club.
some 35.2ZB the five billionth They—or frequently
(zettabytes—a billion photo…‖ many more—
terabytes) globally.‖ petabytes of EMC
storage in production.
By 2012 or so, we're
forecasting that we'll
have to start a
new, informal club—
the EMC Exabyte
Club.‖

La nature changeante de la
recherche
Des milliers d’années auparavant – Science expérimentale
 Description des phénomènes naturels
Les quelques derniers siècles – Science théorique . 2

 Lois de Newton, équations de Maxwell a 4 G c2
a2
Les dernières décennies – Science computationnelle a 3

 Simulation de phénomènes complexes
Aujourd’hui – Science centrée sur les données
 Unifier la théorie, l’expérience et la simulation
 En utilisant l’exploration et la fouille de données
 Données capturées par des instruments
 Données générées par des simulations
 Données générées par des réseaux de capteurs
 Données générées par les humains

Le quatrième paradigme
Modèles complexes
 Interactions multidisciplinaires
 Larges échelles temporelles et spatiales
Large ensemble de données
multidisciplinaires
 Flux temps réel
 Structuré et non structuré
Communautés distribuées
 Organisations virtuelles
 Socialisation et management
Diverses attentes
 Centrées client ou infrastructure

http://research.microsoft.com/en-us/collaboration/fourthparadigm/

Pourtant, Big Data ce n’est pas
que cela…

Il y d’autres dimensions au phénomène
Big Data…

4/10/201

Les besoins en diminution de temps de
latence augmentent de plus en plus
Réordonnancer la flotte

Contrôle réglementaire

Opérations, Administration
et maintenance
Transactionnel
OLTP Contrôle de
niveau de service
Value At
Risk

0 micro- milli- seconde minute heure jour semaine

• Le temps effectif pour comprendre a été considérablement réduit
• Poussé par des facteurs réglementaires et de calcul de risque dans de
nombreuses industries

La hiérarchie de la
connaissance
Structure / Valeur

Compréhension
Connaissance
Action
Valeur
Information
Donnée
Signal Nous voulons transformer le « signal » en « valeur »

Effort / Latence

Cycle de vie standard de
l’analyse de données (Entrepôt
de données)

Temps 

Souvent des semaines voire des mois

Le cycle de vie de l’analyse de
données en environnement Big
Data

Temps 

Jours à semaines

La hiérarchie de la
connaissance
Structure / Valeur

Connaissance

Information
Donnée
Signal

Effort / Latence

Objectif : Repenser l’équation signal –
valeur
• Trouver une nouvelle valeur
Structure / Valeur

• Réduire de façon spectaculaire
Connaissance le temps de création de valeur
Valeur
Information

Donnée Ceci n’a pas grand-chose à voir avec la taille de la donnée !

… mais … de nouveaux signaux peuvent se
Signal trouver dans les « données ambiantes »

Effort / Latence

Perspicacité et création de sens
Perspicacité
1. La capacité à discerner la véritable nature d'une situation ; la pénétration.
2. L'acte ou le résultat de saisir la nature intime ou cachée des choses ou de
percevoir d’une manière intuitive.

Création de sens
Le processus par lequel les individus (ou les organisations) créent une
compréhension afin qu'ils puissent agir de façon raisonnée et éclairée.

Création de sens sur un plus large
spectre Les systèmes existants permettent
de donner du sens à des données
Structure / Valeur

modélisées

Connaissance
Information
Donnée
Signal Il y a une énorme valeur potentielle dans le
fait de donner un sens aux données ambiantes

Effort / Latence

Le rôle des technologies « Big
Data »
Les technologies « Big Data » tout à la fois recréent et
complémentent les workflows d’analyse existants en :
 Simplifiant la production d’information structurée à partir de
sources de données « ambiantes » émergentes (Signal 
Donnée  Information)
 Permettant rapidement la création de sens à partir de
données non enrichies et non modélisées
 Permettant l’analyse à l’échelle sur des données
« ambiantes »
 Permettant la création de modèles à partir de données

« ambiantes »

Le monde des données
(relationelles) est en train de
changer
Passage à
Temps réel l’échelle

Relational Data

Non Scructurées

Qu’est-ce que Big Data ?

Types de données Gros volume de données
 100aine TO à 10aine de PO
Nouvelles questions et
non traditionnelles
nouvelles inférences
 Non structurées  Quelle est la popularité de mon produit ?
 Schéma relationnel faible  Quelle est la meilleure publicité à servir ?
 Texte, Images, Vidéos, Logs  Est-ce une transaction frauduleuse ?
Big Data

Nouvelles Technologies
 Cadre de traitement distribué
Nouvelles sources de
parallèle
 Facile à faire passer à Nouvelle économie données
 Capteurs
l’échelle sur du hardware  Traitement à large échelle et  Terminaux
standard analyse à un coût sans  Applications traditionnelles
 Modèles de programmation précédent (hardware et  Serveurs Web
de style MapReduce software)  Données publiques

Qu’est-ce que Big Data ?

Big Data consiste avant tout à réduire le temps
pour comprendre en permettant aux utilisateurs de
poser des questions ad-hoc sur des données
non structurées et souvent mal
comprises

Les pionniers de Big Data :
Twitter
Problème : Exemple : Twitter Concepts clés :
 Stocke 12 TO de données/jour  Stocke les données telles quelles ;
• Nécessité de stocker de  Analyse pour : les conserve comme des fichiers
très grands volumes de journaux non structurés, n’essaye
TENDANCES :
nouvelles données tous Justin Bieber
pas de les analyser et de les stocker
dans un entrepôt de données
les jours Egypt

• Nécessité de fournir plus Snowpocalypse  Traite des très gros volumes de
données rapidement grâce à des
de valeur que de REPERTITION GEOGRAPHIQUE : requêtes ad-hoc et programmées
seulement stocker et
retrouver les tweets Ramifications:
QU INFLUENCE RETWEETS? • Dans un mode de tweeters et
d’analyse rapide, Twitter peut
fournir une meilleure alerte
IDENTIFICATION DES SPAMS :
• Akshf#$/lajsdf
précoce pour un conflit régional
ou une épidémie qu’une
surveillance classique

Systèmes de gestion des
risques
Problème :
• La surveillance et les
QUE POUVEZ-VOUS VRAIMENT ESPERER DE VOTRE
simulations fournissent une
PORTEFEUILLE ?
grande quantité de données
utiles pour la gestion des
risques mais il est impossible SIMULATION DU PERTES FUTURES PORTEFEUILLE
de les traiter toutes DOMMAGE ATTENDUES ASSURE
PREVISIONNEL • Prix des contrats, gestion • Millions
• +20 milliards de risque, affectation de d’emplacements
d’évaluations de capital, structure prix du avec des
risque transfert de paramètres
risque, conformité affectant la stabilité
réglementaire structurelle
• Requêtes complexes
basées sur les contrats
actuels

Ramifications:
MODELE DE CATASTROPHE
• La possibilité d’exécuter des centaines de
Simulations de douzaines de simulations sur une douzaine de types de périls et
types de périls dans différentes de calculer le risque pour chaque adresse
zones géographiques individuelle dans un portefeuille

Analyse de Sentiment
QUI A DIT QUOI ? QUAND ? OU ? POURQUOI ?
Problème :
• Les conversations client peuvent Sentiment
survenir n’importe où et les propos
négatifs peuvent rapidement « partir en
vrille »
Blogs

REPARTITION REPARTITION
Twitter GÉOGRAPHIQUE DÉMOGRAPHIQUE

Facebook

Ramifications :
• Une analyse de sentiment en temps réel vous
News
permet de non seulement connaitre ce qui a
été dit mais aussi qui l’a dit, vous fournissant
YouTube ainsi les informations dont vous avez besoin
pour participer à la conversation

Scénarios clients Big Data
Industrie Scénario
 Modélisation des risques
 Analyse des menaces
Services financiers  Détection des fraudes
 Surveillance du trading
 Analyse et notation de crédit
 Moteurs de recommandation
 Ciblage publicitaire
Web & E-Tailing  Qualité de la recherche
 Détection des abus et de la fraude au clic
 Analyse des transactions du point de vente
Distribution  Taux de roulement des clients
 Analyse de sentiment
 Prévention des désabonnements
 Optimisation des performances réseau
Télécommunications  Analyse des détails des appels
 Analyse de réseau pour prédire les défaillances

Gouvernement  Détection de fraude et cyber-sécurité

Général  ETL et moteur de traitement

Stratégie Big Data de Microsoft

Se connecter facilement • Données privées, publiques et dérivées
au monde des données • Données Microsoft

Se connecter aux • Management intégré, qualité des
données structurées et données, nettoyage, outils ETL
non structurées • Connecteurs pour déplacement de données

• Utilisation des outils BI familiers
La BI pour tous (Excel, Power*)

Nouvelles expériences • Visualisation des données
d’analyse • Analyse prédictive

Microsoft Big Data
Accessible à tous les utilisateurs en
supportant de nouveaux types de données

Hadoop : la face visible de Big Data
Permet l’analyse de données semi et non cructurées distribuées sur un cluster standard

Basé sur le papier MapReduce de Google et sur le Google
File system (GFS)
Programs = Séquence de tâches « map » et « reduce »
Simplifie l’écriture d’applications distribuées
Hautement tolérante aux pannes – copies multiples
Déplace les calculs au plus près des données
Implémenté en Java et optimisé pour Linux

33

L’écosystème Hadoop
HBase / Cassandra
Oozie
Outils BI traditionnels (Bases de données orientées colonnes
(Workflow)
et NoSQL)

Hive Karmasphere
Pig (Data Flow) (Warehouse and (Outil de Apache Mahout Flume Sqoop
Data Access) développement)
Zookeeper (Coordination)

Avro (Sérialisation)
HBase (Base de données orientée colonne)

MapReduce (Ordonnancement des tâches / Système d’Exécusion)

Hadoop = MapReduce + HDFS
HDFS
(Hadoop Distributed File System)

Stratégie Hadoop Microsoft

Notre propre
distribution de Hadoop
Optimisée pour
Windows et Azure
Focalisation sur les
développeurs .NET
Differentiation à travers • Performance et passage à l’échelle
le support de • Haute disponibilité
l’entreprise • Facilité d’utilisation

Hadoop as a Service : Azure
Elastic Map Reduce
Facturation basée sur la tâche
Facile à administrer
Pas d’installation
Support d’une large variété de types de jobs
 Machine Learning (mahout), Graph Mining (Pegasus),
HIVE, Pig, Java, JS, etc.
IHM grandement simplifiée
GO
Bon marché Rapide

Exemple : Big Data chez Yahoo!

Cas d’usage :
Analyse d’un très gros volume de
données non structurées en
provenance de journaux Web
SSAS Cube de 24 TO
Analyse ad hoc des journaux Web
pour prototyper des patterns
Les données Hadoop alimentent
un gros cube de 24 TO

Hadoop sur Windows

BIG DATA Démocratiser Big Data via l’intégration avec l’offre BI de Microsoft
POUR TOUS Fournir de nouveaux services Big Data à valeur ajoutée pour les
DIFFERENTIATION

développeurs

PRÊT POUR Choix du déploiement sur Windows Server + Windows Azure
L’ENTERPRISE Intégration avec les composants Windows (AD, System Center)

Installation et configuration faciles d’Hadoop sur Windows
ACCES PLUS Programmation simplifiée avec l’intégration de .Net et Javascript
LARGE
Intégration avec les fonctionnalités de Data Warehousing de SQL
Server
Contributions proposées en retour à la communauté

Les annonces Big Data lors de
PASS
BIG DATA Driver ODBC pour Hive et Add-in Hive pour Excel
POUR TOUS Intégration avec Microsoft PowerPivot

PRÊT POUR Distribution Hadoop pour Windows Server et Azure
L’ENTERPRISE Partenariat stratégique avec Hortonworks

ACCES PLUS Framework JavaScript pour Hadoop
LARGE Disponibilité de la version finale des connecteurs Hadoop pour SQL
Server et PDW

Vision : Créer une nouvelle
plateforme de données Big Data
OPERATIONELLE MOBILE
SELF-SERVICE ANALYSE TEMPS-REEL
PREDICTIVE COLLABORATIVE

ENRICHISSEMENT DES DONNEES ET PLACE DE MARCHE
DECOUVRIR TRANSFORMER PARTAGER
ET ET ET
RECOMMANDER NETTOYER GOUVERNER

GESTION DES DONNEES

RELATIONNEL NON RELATIONNEL MULTIDIMENSIONNEL STREAMING

Solution Big Data de Microsoft
Power View Excel avec Analyse prédictive BI intégré
Outils utilisateur final familiers
PowerPivot

SSAS SSRS

Platerfome BI

Hadoop Connecteurs

SQL Server

Capteurs Terminaux Bots Crawlers
ERP CRM LOB APPs
Données non structurées et stucturées

Hadoop sur Windows
Coeur d’Hadoop Hadoop HDFS
Hadoop Common (utilitaires, sécurité, sérialisation des flux)
Moteur MapReduce Hadoop
Programmer et Apache Pig
requêter Apache Hive (y compris le support de Thrift)
Framework Javascript et Webshell for Hadoop
Kit Azure (pour Visual Studio)
Clustering & Déploiement Cluster et outil d’installation
Management Surveillance et management du cluster basé web standard d’Hadoop
Portail Azure pour Elastic Map Reduce (intégré avec le portail Azure)
Drivers & Driver ODBC Hive
Connectors Add-in Excel Hive pour Microsoft Office
Connecteur Apache SQOOP pour SQL Server et PDW
Installers & MSI pour les composants Serveur (Hadoop et systèmes reliés) (MSI)
Loaders MSI pour les composants Client (Driver Hive et Add-in, Kit Azure Kit pour VS
Moteurs de chargement en volume FTP et HTTP

Microsoft France
39, quai du président Roosevelt
92130 Issy-Les-Moulineaux

www.microsoft.com/france

Big Data : buzz ou opportunité ?

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (19)

Similar to Big Data : buzz ou opportunité ?

Similar to Big Data : buzz ou opportunité ? (20)

More from Microsoft Ideas

More from Microsoft Ideas (20)

Big Data : buzz ou opportunité ?