Big data est un sujet d'actualité! Dans cette session, nous reviendrons sur ce que l'on entend par Big Data, où ce sujet trouve sa source et quelles ont été les premières approches. Nous verrons ensuite des projets actuellement menés par Microsoft sur ce domaine.
2. Big Data
Buzz ou opportunité pour les entreprises ?
Code Session : RDI203
Bernard Ourghanlian
Directeur Technique et Sécurité
Microsoft France
3. In 2011, the amount of information created and replicated
will surpass 1.8 zettabytes (1.8 trillion gigabytes) -
growing by a factor of 9 in just five years. […] and more
than doubling every two years. That's nearly as many bits
of information in the digital universe as stars in our
physical universe.
John Gantz and David Reinsel
Extracting Value from Chaos
4. Explosion généralisée des
données
―[by 2020] data use is ―Flickr members ―AT&T has about 19 ―We now have well
expected to grow by upload more than petabytes of data over a thousand
as much as 44 3,000 images every transferred through customers in the ever-
minute, and yesterday their networks each growing EMC
times, amounting to
yeoaaron uploaded day.‖ Petabyte Club.
some 35.2ZB the five billionth They—or frequently
(zettabytes—a billion photo…‖ many more—
terabytes) globally.‖ petabytes of EMC
storage in production.
By 2012 or so, we're
forecasting that we'll
have to start a
new, informal club—
the EMC Exabyte
Club.‖
5.
6. La nature changeante de la
recherche
Des milliers d’années auparavant – Science expérimentale
Description des phénomènes naturels
Les quelques derniers siècles – Science théorique . 2
Lois de Newton, équations de Maxwell a 4 G c2
a2
Les dernières décennies – Science computationnelle a 3
Simulation de phénomènes complexes
Aujourd’hui – Science centrée sur les données
Unifier la théorie, l’expérience et la simulation
En utilisant l’exploration et la fouille de données
Données capturées par des instruments
Données générées par des simulations
Données générées par des réseaux de capteurs
Données générées par les humains
7. Le quatrième paradigme
Modèles complexes
Interactions multidisciplinaires
Larges échelles temporelles et spatiales
Large ensemble de données
multidisciplinaires
Flux temps réel
Structuré et non structuré
Communautés distribuées
Organisations virtuelles
Socialisation et management
Diverses attentes
Centrées client ou infrastructure
http://research.microsoft.com/en-us/collaboration/fourthparadigm/
8. Pourtant, Big Data ce n’est pas
que cela…
Il y d’autres dimensions au phénomène
Big Data…
4/10/201
9. Les besoins en diminution de temps de
latence augmentent de plus en plus
Réordonnancer la flotte
Contrôle réglementaire
Opérations, Administration
et maintenance
Transactionnel
OLTP Contrôle de
niveau de service
Value At
Risk
0 micro- milli- seconde minute heure jour semaine
• Le temps effectif pour comprendre a été considérablement réduit
• Poussé par des facteurs réglementaires et de calcul de risque dans de
nombreuses industries
10. La hiérarchie de la
connaissance
Structure / Valeur
Compréhension
Connaissance
Action
Valeur
Information
Donnée
Signal Nous voulons transformer le « signal » en « valeur »
Effort / Latence
11. Cycle de vie standard de
l’analyse de données (Entrepôt
de données)
Temps
Souvent des semaines voire des mois
12. Le cycle de vie de l’analyse de
données en environnement Big
Data
Temps
Jours à semaines
13. La hiérarchie de la
connaissance
Structure / Valeur
Connaissance
Information
Donnée
Signal
Effort / Latence
14. Objectif : Repenser l’équation signal –
valeur
• Trouver une nouvelle valeur
Structure / Valeur
• Réduire de façon spectaculaire
Connaissance le temps de création de valeur
Valeur
Information
Donnée Ceci n’a pas grand-chose à voir avec la taille de la donnée !
… mais … de nouveaux signaux peuvent se
Signal trouver dans les « données ambiantes »
Effort / Latence
15. Perspicacité et création de sens
Perspicacité
1. La capacité à discerner la véritable nature d'une situation ; la pénétration.
2. L'acte ou le résultat de saisir la nature intime ou cachée des choses ou de
percevoir d’une manière intuitive.
Création de sens
Le processus par lequel les individus (ou les organisations) créent une
compréhension afin qu'ils puissent agir de façon raisonnée et éclairée.
16. Création de sens sur un plus large
spectre Les systèmes existants permettent
de donner du sens à des données
Structure / Valeur
modélisées
Connaissance
Information
Donnée
Signal Il y a une énorme valeur potentielle dans le
fait de donner un sens aux données ambiantes
Effort / Latence
17. Le rôle des technologies « Big
Data »
Les technologies « Big Data » tout à la fois recréent et
complémentent les workflows d’analyse existants en :
Simplifiant la production d’information structurée à partir de
sources de données « ambiantes » émergentes (Signal
Donnée Information)
Permettant rapidement la création de sens à partir de
données non enrichies et non modélisées
Permettant l’analyse à l’échelle sur des données
« ambiantes »
Permettant la création de modèles à partir de données
« ambiantes »
18. Le monde des données
(relationelles) est en train de
changer
Passage à
Temps réel l’échelle
Relational Data
Non Scructurées
19. Qu’est-ce que Big Data ?
Types de données Gros volume de données
100aine TO à 10aine de PO
Nouvelles questions et
non traditionnelles
nouvelles inférences
Non structurées Quelle est la popularité de mon produit ?
Schéma relationnel faible Quelle est la meilleure publicité à servir ?
Texte, Images, Vidéos, Logs Est-ce une transaction frauduleuse ?
Big Data
Nouvelles Technologies
Cadre de traitement distribué
Nouvelles sources de
parallèle
Facile à faire passer à Nouvelle économie données
Capteurs
l’échelle sur du hardware Traitement à large échelle et Terminaux
standard analyse à un coût sans Applications traditionnelles
Modèles de programmation précédent (hardware et Serveurs Web
de style MapReduce software) Données publiques
20. Qu’est-ce que Big Data ?
Big Data consiste avant tout à réduire le temps
pour comprendre en permettant aux utilisateurs de
poser des questions ad-hoc sur des données
non structurées et souvent mal
comprises
21. Les pionniers de Big Data :
Twitter
Problème : Exemple : Twitter Concepts clés :
Stocke 12 TO de données/jour Stocke les données telles quelles ;
• Nécessité de stocker de Analyse pour : les conserve comme des fichiers
très grands volumes de journaux non structurés, n’essaye
TENDANCES :
nouvelles données tous Justin Bieber
pas de les analyser et de les stocker
dans un entrepôt de données
les jours Egypt
• Nécessité de fournir plus Snowpocalypse Traite des très gros volumes de
données rapidement grâce à des
de valeur que de REPERTITION GEOGRAPHIQUE : requêtes ad-hoc et programmées
seulement stocker et
retrouver les tweets Ramifications:
QU INFLUENCE RETWEETS? • Dans un mode de tweeters et
d’analyse rapide, Twitter peut
fournir une meilleure alerte
IDENTIFICATION DES SPAMS :
• Akshf#$/lajsdf
précoce pour un conflit régional
ou une épidémie qu’une
surveillance classique
22. Systèmes de gestion des
risques
Problème :
• La surveillance et les
QUE POUVEZ-VOUS VRAIMENT ESPERER DE VOTRE
simulations fournissent une
PORTEFEUILLE ?
grande quantité de données
utiles pour la gestion des
risques mais il est impossible SIMULATION DU PERTES FUTURES PORTEFEUILLE
de les traiter toutes DOMMAGE ATTENDUES ASSURE
PREVISIONNEL • Prix des contrats, gestion • Millions
• +20 milliards de risque, affectation de d’emplacements
d’évaluations de capital, structure prix du avec des
risque transfert de paramètres
risque, conformité affectant la stabilité
réglementaire structurelle
• Requêtes complexes
basées sur les contrats
actuels
Ramifications:
MODELE DE CATASTROPHE
• La possibilité d’exécuter des centaines de
Simulations de douzaines de simulations sur une douzaine de types de périls et
types de périls dans différentes de calculer le risque pour chaque adresse
zones géographiques individuelle dans un portefeuille
23. Analyse de Sentiment
QUI A DIT QUOI ? QUAND ? OU ? POURQUOI ?
Problème :
• Les conversations client peuvent Sentiment
survenir n’importe où et les propos
négatifs peuvent rapidement « partir en
vrille »
Blogs
REPARTITION REPARTITION
Twitter GÉOGRAPHIQUE DÉMOGRAPHIQUE
Facebook
Ramifications :
• Une analyse de sentiment en temps réel vous
News
permet de non seulement connaitre ce qui a
été dit mais aussi qui l’a dit, vous fournissant
YouTube ainsi les informations dont vous avez besoin
pour participer à la conversation
24. Scénarios clients Big Data
Industrie Scénario
Modélisation des risques
Analyse des menaces
Services financiers Détection des fraudes
Surveillance du trading
Analyse et notation de crédit
Moteurs de recommandation
Ciblage publicitaire
Web & E-Tailing Qualité de la recherche
Détection des abus et de la fraude au clic
Analyse des transactions du point de vente
Distribution Taux de roulement des clients
Analyse de sentiment
Prévention des désabonnements
Optimisation des performances réseau
Télécommunications Analyse des détails des appels
Analyse de réseau pour prédire les défaillances
Gouvernement Détection de fraude et cyber-sécurité
Général ETL et moteur de traitement
25. Stratégie Big Data de Microsoft
Se connecter facilement • Données privées, publiques et dérivées
au monde des données • Données Microsoft
Se connecter aux • Management intégré, qualité des
données structurées et données, nettoyage, outils ETL
non structurées • Connecteurs pour déplacement de données
• Utilisation des outils BI familiers
La BI pour tous (Excel, Power*)
Nouvelles expériences • Visualisation des données
d’analyse • Analyse prédictive
27. Hadoop : la face visible de Big Data
Permet l’analyse de données semi et non cructurées distribuées sur un cluster standard
Basé sur le papier MapReduce de Google et sur le Google
File system (GFS)
Programs = Séquence de tâches « map » et « reduce »
Simplifie l’écriture d’applications distribuées
Hautement tolérante aux pannes – copies multiples
Déplace les calculs au plus près des données
Implémenté en Java et optimisé pour Linux
33
28. L’écosystème Hadoop
HBase / Cassandra
Oozie
Outils BI traditionnels (Bases de données orientées colonnes
(Workflow)
et NoSQL)
Hive Karmasphere
Pig (Data Flow) (Warehouse and (Outil de Apache Mahout Flume Sqoop
Data Access) développement)
Zookeeper (Coordination)
Avro (Sérialisation)
HBase (Base de données orientée colonne)
MapReduce (Ordonnancement des tâches / Système d’Exécusion)
Hadoop = MapReduce + HDFS
HDFS
(Hadoop Distributed File System)
29. Stratégie Hadoop Microsoft
Notre propre
distribution de Hadoop
Optimisée pour
Windows et Azure
Focalisation sur les
développeurs .NET
Differentiation à travers • Performance et passage à l’échelle
le support de • Haute disponibilité
l’entreprise • Facilité d’utilisation
30. Hadoop as a Service : Azure
Elastic Map Reduce
Facturation basée sur la tâche
Facile à administrer
Pas d’installation
Support d’une large variété de types de jobs
Machine Learning (mahout), Graph Mining (Pegasus),
HIVE, Pig, Java, JS, etc.
IHM grandement simplifiée
GO
Bon marché Rapide
32. Exemple : Big Data chez Yahoo!
Cas d’usage :
Analyse d’un très gros volume de
données non structurées en
provenance de journaux Web
SSAS Cube de 24 TO
Analyse ad hoc des journaux Web
pour prototyper des patterns
Les données Hadoop alimentent
un gros cube de 24 TO
33. Hadoop sur Windows
BIG DATA Démocratiser Big Data via l’intégration avec l’offre BI de Microsoft
POUR TOUS Fournir de nouveaux services Big Data à valeur ajoutée pour les
DIFFERENTIATION
développeurs
PRÊT POUR Choix du déploiement sur Windows Server + Windows Azure
L’ENTERPRISE Intégration avec les composants Windows (AD, System Center)
Installation et configuration faciles d’Hadoop sur Windows
ACCES PLUS Programmation simplifiée avec l’intégration de .Net et Javascript
LARGE
Intégration avec les fonctionnalités de Data Warehousing de SQL
Server
Contributions proposées en retour à la communauté
34. Les annonces Big Data lors de
PASS
BIG DATA Driver ODBC pour Hive et Add-in Hive pour Excel
POUR TOUS Intégration avec Microsoft PowerPivot
PRÊT POUR Distribution Hadoop pour Windows Server et Azure
L’ENTERPRISE Partenariat stratégique avec Hortonworks
ACCES PLUS Framework JavaScript pour Hadoop
LARGE Disponibilité de la version finale des connecteurs Hadoop pour SQL
Server et PDW
35. Vision : Créer une nouvelle
plateforme de données Big Data
OPERATIONELLE MOBILE
SELF-SERVICE ANALYSE TEMPS-REEL
PREDICTIVE COLLABORATIVE
ENRICHISSEMENT DES DONNEES ET PLACE DE MARCHE
DECOUVRIR TRANSFORMER PARTAGER
ET ET ET
RECOMMANDER NETTOYER GOUVERNER
GESTION DES DONNEES
RELATIONNEL NON RELATIONNEL MULTIDIMENSIONNEL STREAMING
36. Solution Big Data de Microsoft
Power View Excel avec Analyse prédictive BI intégré
Outils utilisateur final familiers
PowerPivot
SSAS SSRS
Platerfome BI
Hadoop Connecteurs
SQL Server
Capteurs Terminaux Bots Crawlers
ERP CRM LOB APPs
Données non structurées et stucturées
37. Hadoop sur Windows
Coeur d’Hadoop Hadoop HDFS
Hadoop Common (utilitaires, sécurité, sérialisation des flux)
Moteur MapReduce Hadoop
Programmer et Apache Pig
requêter Apache Hive (y compris le support de Thrift)
Framework Javascript et Webshell for Hadoop
Kit Azure (pour Visual Studio)
Clustering & Déploiement Cluster et outil d’installation
Management Surveillance et management du cluster basé web standard d’Hadoop
Portail Azure pour Elastic Map Reduce (intégré avec le portail Azure)
Drivers & Driver ODBC Hive
Connectors Add-in Excel Hive pour Microsoft Office
Connecteur Apache SQOOP pour SQL Server et PDW
Installers & MSI pour les composants Serveur (Hadoop et systèmes reliés) (MSI)
Loaders MSI pour les composants Client (Driver Hive et Add-in, Kit Azure Kit pour VS
Moteurs de chargement en volume FTP et HTTP