SlideShare a Scribd company logo
1 of 45
palais des
congrès
Paris




7, 8 et 9
février 2012
BIG DATA: HADOOP MAP / REDUCE
SUR WINDOWS ET WINDOWS
AZURE

        • Yann SCHWARTZ yschwartz@kobojo.com
        • Benjamin Guinebertière (DPE) www.benjguin.com
        • Pierre Lagarde (DPE) pierlag@microsoft.com
Agenda

  Intro BigData / Hadoop
  Exemple pour comprendre
  Exemple pratique
  Q&A
En 10 ANS L'UNIVERS NUMERIQUE
VA CROITRE DE x44
DE 0.9 à 35.2 Zetta-octets


                New Bytes of Information in 2010
                         Source: IDC, as reported in The Economist, Feb 25, 2010
Traditional e-commerce data
flow
New exploratory e-commerce data
flow




                        Batch
Qui fait quoi ?

  Développeurs BigData
  Data Analyste
  Community Manager




  Lanceur de démo 
Démo

Lancement du scénario Kobojo
Présentation Scénario
Ce qui caractérise BigData


                                                                     Nouveaux outils
   Nouvelles source de
        données

                                 Très gros volume
                                        Stockage
                                           ou
     Données non                          Flux                      Nouvelle économie
     relationnelles




                         Nouvelles questions + nouveaux résultats

Les 4V du BIG DATA: VOLUME, VELOCITY, VARIABILITY, AND VARIETY
Cassandra              Hadoop                BackType              MR/GFS                  SimpleDB
      Hive                   Oozie                 Hadoop                Bigtable                Dynamo
      Scribe                 PigLatin              Pig HBase             Dremel                  EC2/EMR/S3
      Hadoop                 …                     Cassandra             …                       …




                                                    [ Isotope | Azure | Excel | BI | SQL DW]




L'écosystème BigData
Scalable machine learning and data mining [Mahout]
Statistical modeling and analysis [R]
Coordination and workflow [Oozie, Cascading]
Data integration and transformation [SQOOP, Flume]
Social network analytics and petascale graph learning [Pegasus]
Real-time stream analytics and business intelligence merged with petascale computation [Storm/BackType]
Scale-out caching and storage [Cassandra, HBase, Riak, Redis, Couchbase, S3]
Cloud-oriented data warehousing, pattern discovery, and transformation [Hive, Pig]
Hadoop (Wikipedia)

  Hadoop est un framework Java libre destiné aux
  applications distribuées et à la gestion intensive des
  données. Il permet aux applications de travailler avec des
  milliers de nœuds et des pétaoctets de données.




                                      Source : http://fr.wikipedia.org/wiki/Hadoop
Relationel ou MapReduce ?

                             Traditional RDBMS             MapReduce
Data Size                    Des Megabytes aux Terabytes   Des Gigabytes aux Petabytes
Access                       Interactive and Batch         Batch
Updates                      Read / Write many times       Write once, Read many times
Structure                    Static Schema                 Dynamic Schema
Integrity                    High (ACID)                   Low
Scaling                      Nonlinear                     Linear




Reference: Tom White’s Hadoop: The Definitive Guide
L'architecture d'Hadoop


                                                                 Task      Task
                                                               tracker   tracker


                              Map Reduce                         Job
                                Layer                          tracker


                                    HDFS                       Name
                                    Layer                      node


                                                               Data      Data
                                                               node      node

   Reference: http://en.wikipedia.org/wiki/File:Hadoop_1.png
Positionnement d'Hadoop en
entreprise


                                                HADOOP
                                          [Azure and Enterprise]


  Java OM        Streaming OM   HiveQL                   PigLatin               .NET/C#/F#           (T)SQL




                                             OCEAN OF DATA
             NOSQL              [unstructured, semi-structured, structured]                  ETL




                                            HDFS




 EIS / ERP           RDBMS                  File System                       OData [RSS]          Azure Storage
COMPTONS LES MOTS
Exemple: comptage de mots

  Map:
    Pour chaque mot trouvé

       Émettre <<le mot>>, 1

  Shuffle (magiquement géré par le Framework)
  Reduce
    Pour toutes les occurrences reçues clef, valeur (même

     clef)
       Comptage += valeur

       Émettre clef, comptage
En Linq




 … et pour la montée en charge?
Map/Reduce: principe




     Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
Map/Reduce - JavaScript
Map/Reduce - Java
Map/Reduce – C#
Et sur quelles machines ?
Démo - JavaScript


                     distcp    HDFS




                                                 Sort/filter
                                                                                    JavaScript M/R
                                                                           from("books")
Azure Storage                                                                .mapReduce("file.js", "word, count:long")
                                                                             .orderBy("count DESC")
                                                                             .take(10)
                                                                             .to("top10")



                                                               HDFS File



                                                                               Graph.bar(data)
     Azure Storage




                 Excel           SQL Server
           HIVE ODBC Driver   HIVE ODBC Driver
                                   SQOOP
Démo

Comptons les mots
Au-delà de Map Reduce
  Map Reduce représente le noyau des traitement
   Vocabulaire élémentaire de traitement

   Très simple - Trop simple ?

   Un algorithme nécessite beaucoup de phases de
    map/reduce

  Besoin d'exprimer des jobs MR à plus haut niveau:
    Expression d'une série de traitements (flux de
     données)
    Plus proche d'une expression familière

       Pseudo SQL : Hive

       Dataflow impératif : Pig Latin
PIG LATIN
 records = LOAD 'avs://input/ncdc/micro-tab/sample.txt'
  AS (year:chararray, temperature:int, quality:int);

 filtered_records = FILTER records BY temperature != 9999 AND
   (quality == 0 OR quality == 1 OR quality == 4 OR quality == 5
 OR quality == 9);

 grouped_records = GROUP filtered_records BY year;

 max_temp = FOREACH grouped_records GENERATE group,
 MAX(filtered_records.temperature);

 STORE max_temp INTO 'avs://temperatures' USING
 PigStorage();
PIG LATIN - Opérateurs

 Les opérateurs
       LOAD
       FILTER
       GROUP / COGROUP
       JOIN
       CROSS
       UNION
       SORT
       FOREACH...GENERATE
PIG

  Définition de fonctions utilisateur (UDF)
   Traitement spécifique

   Exprimable en Java/Python/Javascript

   Extensibilité du langage



  Caractéristiques
    Moins rapide que Map/Reduce
    Beaucoup moins de code
    "Modèle mental" moins tordu
    Les performances s'améliorent à chaque release
Autres langages

  Cascalog
    DSL basé sur Clojure
    Unifié (un seul langage pour les scripts et les UDF)
    Bien plus expressif que Pig
    Coût d'entrée assez élevé (fonctionnel, et Clojure...)
Au-delà de Map Reduce
  Map Reduce représente le noyau des traitement
   Vocabulaire élémentaire de traitement

   Très simple - Trop simple ?

   Un algorithme nécessite beaucoup de phases de
    map/reduce

  Besoin d'exprimer des jobs MR à plus haut niveau:
    Expression d'une série de traitements (flux de
     données)
    Plus proche d'une expression familière

       Pseudo SQL : Hive

       Dataflow impératif : Pig Latin
Optimiser un job MR

  Adapter vos données au traitement
    Pré traitement / post traitement

    Filtrer en amont

    Cascade de traitements



  Compression
    Arbitrer entre IO disque et réseau / CPU

    Plusieurs algorithmes disponibles

       gzip, lzo, bzip2



  Compresser comment ?
    Les données en entrée et sortie (coût de stockage

     moindre)
Optimiser un job MR
  Gestion de la mémoire
   Hadoop sait travailler en mémoire et fichier

     …mais il vaut mieux limiter le spilling

      Map: limiter le nombre de spills lors du tri
      Reduce : favoriser le traitement en mémoire

      Comme toujours pour l’analyse de performances:
          …Mesurer
          Modifier
          Itérer…
Schéma de la démo
Mahout

  Explication de la démarche
  Explication de l'algorithme
    Critères globaux
Lien Hadoop vers BI MS

  Résultat dans Hive et lecture
    Dans Excel

    Dans SSIS



  Excel Hive Connector
  Lien avec SQL Server
Démo
Optimisations / Best Practices

  Idem relationnel (index par exemple)
  Bien comprendre la "forme" des données
    Simple beaucoup de données

    Complexe sur peu de données
Ecosystème au dessus
d'Hadoop
  Lucene sur Hadoop
  Hbase
  Mahout
  …
Livre sur Windows Azure

                    Premier ouvrage rédigé en
                    Français
                    Sur l’intégralité de la
                    plateforme Windows Azure

                    Disponible dès aujourd’hui!
                    Consultation et achat
                    possible sur le stand (52)
                    des éditions ENI
Des ressources Windows Azure
gratuites

  Testez Windows Azure   Abonnés MSDN, vous
  gratuitement pendant   bénéficiez de
  90 jours               Windows Azure
     http://aka.ms/        http://aka.ms/
      tester-azure-90j       activer-azure-msdn
Pour aller plus loin

                                               Prochaines sessions des Dev Camps
  Chaque semaine, les                            10
                                                          Live     Open Data - Développer des applications riches avec le
                                               février
  DevCamps                                      2012

                                                 16
                                                         Meeting   protocole Open Data


  ALM, Azure, Windows Phone, HTML5, OpenData   février
                                                          Live
                                                         Meeting
                                                                   Azure series - Développer des applications sociales sur
                                                                   la plateforme Windows Azure
                                                2012
  http://msdn.microsoft.com/fr-fr/devcamp
                                                 17
                                                          Live     Comprendre le canvas avec Galactic et la librairie
                                               février
                                                         Meeting   three.js
                                                2012

  Téléchargement, ressources                     21
                                               février
                                                          Live     La production automatisée de code avec CodeFluent
                                                         Meeting   Entities
  et toolkits : RdV sur MSDN                    2012

                                               2 mars     Live     Comprendre et mettre en oeuvre le toolkit Azure pour
  http://msdn.microsoft.com/fr-fr/              2012     Meeting   Windows Phone 7, iOS et Android

                                               6 mars     Live
                                                                   Nuget et ALM
                                                2012     Meeting

  Les offres à connaître                       9 mars
                                                2012
                                                          Live
                                                         Meeting
                                                                   Kinect - Bien gérer la vie de son capteur


         90 jours d’essai gratuit de Windows   13 mars
                                                2012
                                                          Live
                                                         Meeting
                                                                   Sharepoint series - Automatisation des tests

         Azure                                 14 mars    Live     TFS Health Check - vérifier la bonne santé de votre
          www.windowsazure.fr                   2012     Meeting   plateforme de développement

                                               15 mars    Live     Azure series - Développer pour les téléphones, les
                                                2012     Meeting   tablettes et le cloud avec Visual Studio 2010
         Jusqu’à 35% de réduction sur Visual   16 mars    Live     Applications METRO design - Désossage en règle d'un
         Studio Pro, avec l’abonnement MSDN     2012     Meeting   template METRO javascript

                                               20 mars    Live     Retour d'expérience LightSwitch, Optimisation de
          www.visualstudio.fr                   2012     Meeting   l'accès aux données, Intégration Silverlight

                                               23 mars    Live     OAuth - la clé de l'utilisation des réseaux sociaux dans
                                                2012     Meeting   votre application
Q&R

 http://aka.ms/benjguinhadoop
 http://blogs.msdn.com/windowsazurefrance

More Related Content

What's hot

Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big dataacogoluegnes
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.ithibnico
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQLAntoine Augusti
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingVictor Coustenoble
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introOlivier Mallassi
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5Amal Abid
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 

What's hot (20)

Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 
NoSQL et Big Data
NoSQL et Big DataNoSQL et Big Data
NoSQL et Big Data
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifié
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.it
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark Streaming
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
 
Hadoop
HadoopHadoop
Hadoop
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 

Viewers also liked

Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQLebiznext
 
Introduction to Cassandra (June 2010)
Introduction to Cassandra (June 2010)Introduction to Cassandra (June 2010)
Introduction to Cassandra (June 2010)gdusbabek
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataArrow Group
 
Architectures techniques NoSQL
Architectures techniques NoSQLArchitectures techniques NoSQL
Architectures techniques NoSQLOCTO Technology
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Hatim CHAHDI
 

Viewers also liked (9)

Les modèles NoSQL
Les modèles NoSQLLes modèles NoSQL
Les modèles NoSQL
 
Introduction to Cassandra (June 2010)
Introduction to Cassandra (June 2010)Introduction to Cassandra (June 2010)
Introduction to Cassandra (June 2010)
 
NoSQL: Introducción a las Bases de Datos no estructuradas
NoSQL: Introducción a las Bases de Datos no estructuradasNoSQL: Introducción a las Bases de Datos no estructuradas
NoSQL: Introducción a las Bases de Datos no estructuradas
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
NoSQL databases
NoSQL databasesNoSQL databases
NoSQL databases
 
Architectures techniques NoSQL
Architectures techniques NoSQLArchitectures techniques NoSQL
Architectures techniques NoSQL
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
 
Une introduction à HBase
Une introduction à HBaseUne introduction à HBase
Une introduction à HBase
 
Les BD NoSQL
Les BD NoSQLLes BD NoSQL
Les BD NoSQL
 

Similar to Big Data: Hadoop Map / Reduce sur Windows et Windows Azure

GTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLGTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLMichaël Figuière
 
Gtug nantes big table et nosql
Gtug nantes   big table et nosqlGtug nantes   big table et nosql
Gtug nantes big table et nosqlGDG Nantes
 
Plongée dans la plateforme hadoop
Plongée dans la plateforme hadoopPlongée dans la plateforme hadoop
Plongée dans la plateforme hadooppkernevez
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestoneServices
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoopPatrick Bury
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoopPatrick Bury
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
 
Distributed programing (hadoop &amp;&amp; java) version finale.pptx
Distributed programing  (hadoop &amp;&amp; java) version finale.pptxDistributed programing  (hadoop &amp;&amp; java) version finale.pptx
Distributed programing (hadoop &amp;&amp; java) version finale.pptxAhmed rebai
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCERTyou Formation
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Microsoft Décideurs IT
 
Bases de données no sql.pdf
Bases de données no sql.pdfBases de données no sql.pdf
Bases de données no sql.pdfZkSadrati
 

Similar to Big Data: Hadoop Map / Reduce sur Windows et Windows Azure (20)

GTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLGTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQL
 
Gtug nantes big table et nosql
Gtug nantes   big table et nosqlGtug nantes   big table et nosql
Gtug nantes big table et nosql
 
Plongée dans la plateforme hadoop
Plongée dans la plateforme hadoopPlongée dans la plateforme hadoop
Plongée dans la plateforme hadoop
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantes
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoop
 
10 big data hadoop
10 big data hadoop10 big data hadoop
10 big data hadoop
 
Afterwork hadoop
Afterwork hadoopAfterwork hadoop
Afterwork hadoop
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
Hadoop
HadoopHadoop
Hadoop
 
Distributed programing (hadoop &amp;&amp; java) version finale.pptx
Distributed programing  (hadoop &amp;&amp; java) version finale.pptxDistributed programing  (hadoop &amp;&amp; java) version finale.pptx
Distributed programing (hadoop &amp;&amp; java) version finale.pptx
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
 
L'avenir de LAMP
L'avenir de LAMPL'avenir de LAMP
L'avenir de LAMP
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Hadoop
HadoopHadoop
Hadoop
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 
mix-it 2011
mix-it 2011mix-it 2011
mix-it 2011
 
Bases de données no sql.pdf
Bases de données no sql.pdfBases de données no sql.pdf
Bases de données no sql.pdf
 

More from Microsoft

Uwp + Xamarin : Du nouveau en terre du milieu
Uwp + Xamarin : Du nouveau en terre du milieuUwp + Xamarin : Du nouveau en terre du milieu
Uwp + Xamarin : Du nouveau en terre du milieuMicrosoft
 
La Blockchain pas à PaaS
La Blockchain pas à PaaSLa Blockchain pas à PaaS
La Blockchain pas à PaaSMicrosoft
 
Tester, Monitorer et Déployer son application mobile
Tester, Monitorer et Déployer son application mobileTester, Monitorer et Déployer son application mobile
Tester, Monitorer et Déployer son application mobileMicrosoft
 
Windows 10, un an après – Nouveautés & Démo
Windows 10, un an après – Nouveautés & Démo Windows 10, un an après – Nouveautés & Démo
Windows 10, un an après – Nouveautés & Démo Microsoft
 
Prenez votre pied avec les bots et cognitive services.
Prenez votre pied avec les bots et cognitive services.Prenez votre pied avec les bots et cognitive services.
Prenez votre pied avec les bots et cognitive services.Microsoft
 
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...Microsoft
 
Créer un bot de A à Z
Créer un bot de A à ZCréer un bot de A à Z
Créer un bot de A à ZMicrosoft
 
Microsoft Composition, pierre angulaire de vos applications ?
Microsoft Composition, pierre angulaire de vos applications ?Microsoft Composition, pierre angulaire de vos applications ?
Microsoft Composition, pierre angulaire de vos applications ?Microsoft
 
Les nouveautés SQL Server 2016
Les nouveautés SQL Server 2016Les nouveautés SQL Server 2016
Les nouveautés SQL Server 2016Microsoft
 
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?Microsoft
 
Administration et supervision depuis le Cloud avec Azure Logs Analytics
Administration et supervision depuis le Cloud avec Azure Logs AnalyticsAdministration et supervision depuis le Cloud avec Azure Logs Analytics
Administration et supervision depuis le Cloud avec Azure Logs AnalyticsMicrosoft
 
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...Microsoft
 
Plan de Reprise d'Activité avec Azure Site Recovery
Plan de Reprise d'Activité avec Azure Site RecoveryPlan de Reprise d'Activité avec Azure Site Recovery
Plan de Reprise d'Activité avec Azure Site RecoveryMicrosoft
 
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...Microsoft
 
Transformation de la représentation : De la VR à la RA, aller & retour.
Transformation de la représentation : De la VR à la RA, aller & retour.Transformation de la représentation : De la VR à la RA, aller & retour.
Transformation de la représentation : De la VR à la RA, aller & retour.Microsoft
 
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...Microsoft
 
Introduction à ASP.NET Core
Introduction à ASP.NET CoreIntroduction à ASP.NET Core
Introduction à ASP.NET CoreMicrosoft
 
Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?Microsoft
 
Comment développer sur la console Xbox One avec une application Universal Win...
Comment développer sur la console Xbox One avec une application Universal Win...Comment développer sur la console Xbox One avec une application Universal Win...
Comment développer sur la console Xbox One avec une application Universal Win...Microsoft
 
Azure Service Fabric pour les développeurs
Azure Service Fabric pour les développeursAzure Service Fabric pour les développeurs
Azure Service Fabric pour les développeursMicrosoft
 

More from Microsoft (20)

Uwp + Xamarin : Du nouveau en terre du milieu
Uwp + Xamarin : Du nouveau en terre du milieuUwp + Xamarin : Du nouveau en terre du milieu
Uwp + Xamarin : Du nouveau en terre du milieu
 
La Blockchain pas à PaaS
La Blockchain pas à PaaSLa Blockchain pas à PaaS
La Blockchain pas à PaaS
 
Tester, Monitorer et Déployer son application mobile
Tester, Monitorer et Déployer son application mobileTester, Monitorer et Déployer son application mobile
Tester, Monitorer et Déployer son application mobile
 
Windows 10, un an après – Nouveautés & Démo
Windows 10, un an après – Nouveautés & Démo Windows 10, un an après – Nouveautés & Démo
Windows 10, un an après – Nouveautés & Démo
 
Prenez votre pied avec les bots et cognitive services.
Prenez votre pied avec les bots et cognitive services.Prenez votre pied avec les bots et cognitive services.
Prenez votre pied avec les bots et cognitive services.
 
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...
 
Créer un bot de A à Z
Créer un bot de A à ZCréer un bot de A à Z
Créer un bot de A à Z
 
Microsoft Composition, pierre angulaire de vos applications ?
Microsoft Composition, pierre angulaire de vos applications ?Microsoft Composition, pierre angulaire de vos applications ?
Microsoft Composition, pierre angulaire de vos applications ?
 
Les nouveautés SQL Server 2016
Les nouveautés SQL Server 2016Les nouveautés SQL Server 2016
Les nouveautés SQL Server 2016
 
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?
 
Administration et supervision depuis le Cloud avec Azure Logs Analytics
Administration et supervision depuis le Cloud avec Azure Logs AnalyticsAdministration et supervision depuis le Cloud avec Azure Logs Analytics
Administration et supervision depuis le Cloud avec Azure Logs Analytics
 
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...
 
Plan de Reprise d'Activité avec Azure Site Recovery
Plan de Reprise d'Activité avec Azure Site RecoveryPlan de Reprise d'Activité avec Azure Site Recovery
Plan de Reprise d'Activité avec Azure Site Recovery
 
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...
 
Transformation de la représentation : De la VR à la RA, aller & retour.
Transformation de la représentation : De la VR à la RA, aller & retour.Transformation de la représentation : De la VR à la RA, aller & retour.
Transformation de la représentation : De la VR à la RA, aller & retour.
 
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...
 
Introduction à ASP.NET Core
Introduction à ASP.NET CoreIntroduction à ASP.NET Core
Introduction à ASP.NET Core
 
Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?
 
Comment développer sur la console Xbox One avec une application Universal Win...
Comment développer sur la console Xbox One avec une application Universal Win...Comment développer sur la console Xbox One avec une application Universal Win...
Comment développer sur la console Xbox One avec une application Universal Win...
 
Azure Service Fabric pour les développeurs
Azure Service Fabric pour les développeursAzure Service Fabric pour les développeurs
Azure Service Fabric pour les développeurs
 

Big Data: Hadoop Map / Reduce sur Windows et Windows Azure

  • 1. palais des congrès Paris 7, 8 et 9 février 2012
  • 2. BIG DATA: HADOOP MAP / REDUCE SUR WINDOWS ET WINDOWS AZURE • Yann SCHWARTZ yschwartz@kobojo.com • Benjamin Guinebertière (DPE) www.benjguin.com • Pierre Lagarde (DPE) pierlag@microsoft.com
  • 3. Agenda Intro BigData / Hadoop Exemple pour comprendre Exemple pratique Q&A
  • 4. En 10 ANS L'UNIVERS NUMERIQUE VA CROITRE DE x44 DE 0.9 à 35.2 Zetta-octets New Bytes of Information in 2010 Source: IDC, as reported in The Economist, Feb 25, 2010
  • 5.
  • 7. New exploratory e-commerce data flow Batch
  • 8. Qui fait quoi ? Développeurs BigData Data Analyste Community Manager Lanceur de démo 
  • 11. Ce qui caractérise BigData Nouveaux outils Nouvelles source de données Très gros volume Stockage ou Données non Flux Nouvelle économie relationnelles Nouvelles questions + nouveaux résultats Les 4V du BIG DATA: VOLUME, VELOCITY, VARIABILITY, AND VARIETY
  • 12. Cassandra Hadoop BackType MR/GFS SimpleDB Hive Oozie Hadoop Bigtable Dynamo Scribe PigLatin Pig HBase Dremel EC2/EMR/S3 Hadoop … Cassandra … … [ Isotope | Azure | Excel | BI | SQL DW] L'écosystème BigData Scalable machine learning and data mining [Mahout] Statistical modeling and analysis [R] Coordination and workflow [Oozie, Cascading] Data integration and transformation [SQOOP, Flume] Social network analytics and petascale graph learning [Pegasus] Real-time stream analytics and business intelligence merged with petascale computation [Storm/BackType] Scale-out caching and storage [Cassandra, HBase, Riak, Redis, Couchbase, S3] Cloud-oriented data warehousing, pattern discovery, and transformation [Hive, Pig]
  • 13. Hadoop (Wikipedia) Hadoop est un framework Java libre destiné aux applications distribuées et à la gestion intensive des données. Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Source : http://fr.wikipedia.org/wiki/Hadoop
  • 14. Relationel ou MapReduce ? Traditional RDBMS MapReduce Data Size Des Megabytes aux Terabytes Des Gigabytes aux Petabytes Access Interactive and Batch Batch Updates Read / Write many times Write once, Read many times Structure Static Schema Dynamic Schema Integrity High (ACID) Low Scaling Nonlinear Linear Reference: Tom White’s Hadoop: The Definitive Guide
  • 15. L'architecture d'Hadoop Task Task tracker tracker Map Reduce Job Layer tracker HDFS Name Layer node Data Data node node Reference: http://en.wikipedia.org/wiki/File:Hadoop_1.png
  • 16. Positionnement d'Hadoop en entreprise HADOOP [Azure and Enterprise] Java OM Streaming OM HiveQL PigLatin .NET/C#/F# (T)SQL OCEAN OF DATA NOSQL [unstructured, semi-structured, structured] ETL HDFS EIS / ERP RDBMS File System OData [RSS] Azure Storage
  • 18. Exemple: comptage de mots Map:  Pour chaque mot trouvé  Émettre <<le mot>>, 1 Shuffle (magiquement géré par le Framework) Reduce  Pour toutes les occurrences reçues clef, valeur (même clef)  Comptage += valeur  Émettre clef, comptage
  • 19. En Linq … et pour la montée en charge?
  • 20. Map/Reduce: principe Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
  • 24. Et sur quelles machines ?
  • 25. Démo - JavaScript distcp HDFS Sort/filter JavaScript M/R from("books") Azure Storage .mapReduce("file.js", "word, count:long") .orderBy("count DESC") .take(10) .to("top10") HDFS File Graph.bar(data) Azure Storage Excel SQL Server HIVE ODBC Driver HIVE ODBC Driver SQOOP
  • 27. Au-delà de Map Reduce Map Reduce représente le noyau des traitement  Vocabulaire élémentaire de traitement  Très simple - Trop simple ?  Un algorithme nécessite beaucoup de phases de map/reduce Besoin d'exprimer des jobs MR à plus haut niveau:  Expression d'une série de traitements (flux de données)  Plus proche d'une expression familière  Pseudo SQL : Hive  Dataflow impératif : Pig Latin
  • 28. PIG LATIN records = LOAD 'avs://input/ncdc/micro-tab/sample.txt' AS (year:chararray, temperature:int, quality:int); filtered_records = FILTER records BY temperature != 9999 AND (quality == 0 OR quality == 1 OR quality == 4 OR quality == 5 OR quality == 9); grouped_records = GROUP filtered_records BY year; max_temp = FOREACH grouped_records GENERATE group, MAX(filtered_records.temperature); STORE max_temp INTO 'avs://temperatures' USING PigStorage();
  • 29. PIG LATIN - Opérateurs Les opérateurs LOAD FILTER GROUP / COGROUP JOIN CROSS UNION SORT FOREACH...GENERATE
  • 30. PIG Définition de fonctions utilisateur (UDF)  Traitement spécifique  Exprimable en Java/Python/Javascript  Extensibilité du langage Caractéristiques  Moins rapide que Map/Reduce  Beaucoup moins de code  "Modèle mental" moins tordu  Les performances s'améliorent à chaque release
  • 31. Autres langages Cascalog  DSL basé sur Clojure  Unifié (un seul langage pour les scripts et les UDF)  Bien plus expressif que Pig  Coût d'entrée assez élevé (fonctionnel, et Clojure...)
  • 32. Au-delà de Map Reduce Map Reduce représente le noyau des traitement  Vocabulaire élémentaire de traitement  Très simple - Trop simple ?  Un algorithme nécessite beaucoup de phases de map/reduce Besoin d'exprimer des jobs MR à plus haut niveau:  Expression d'une série de traitements (flux de données)  Plus proche d'une expression familière  Pseudo SQL : Hive  Dataflow impératif : Pig Latin
  • 33. Optimiser un job MR Adapter vos données au traitement  Pré traitement / post traitement  Filtrer en amont  Cascade de traitements Compression  Arbitrer entre IO disque et réseau / CPU  Plusieurs algorithmes disponibles  gzip, lzo, bzip2 Compresser comment ?  Les données en entrée et sortie (coût de stockage moindre)
  • 34. Optimiser un job MR Gestion de la mémoire  Hadoop sait travailler en mémoire et fichier …mais il vaut mieux limiter le spilling Map: limiter le nombre de spills lors du tri Reduce : favoriser le traitement en mémoire Comme toujours pour l’analyse de performances: …Mesurer Modifier Itérer…
  • 35. Schéma de la démo
  • 36. Mahout Explication de la démarche Explication de l'algorithme  Critères globaux
  • 37. Lien Hadoop vers BI MS Résultat dans Hive et lecture  Dans Excel  Dans SSIS Excel Hive Connector Lien avec SQL Server
  • 38. Démo
  • 39. Optimisations / Best Practices Idem relationnel (index par exemple) Bien comprendre la "forme" des données  Simple beaucoup de données  Complexe sur peu de données
  • 40. Ecosystème au dessus d'Hadoop Lucene sur Hadoop Hbase Mahout …
  • 41.
  • 42. Livre sur Windows Azure Premier ouvrage rédigé en Français Sur l’intégralité de la plateforme Windows Azure Disponible dès aujourd’hui! Consultation et achat possible sur le stand (52) des éditions ENI
  • 43. Des ressources Windows Azure gratuites Testez Windows Azure Abonnés MSDN, vous gratuitement pendant bénéficiez de 90 jours Windows Azure  http://aka.ms/  http://aka.ms/ tester-azure-90j activer-azure-msdn
  • 44. Pour aller plus loin Prochaines sessions des Dev Camps Chaque semaine, les 10 Live Open Data - Développer des applications riches avec le février DevCamps 2012 16 Meeting protocole Open Data ALM, Azure, Windows Phone, HTML5, OpenData février Live Meeting Azure series - Développer des applications sociales sur la plateforme Windows Azure 2012 http://msdn.microsoft.com/fr-fr/devcamp 17 Live Comprendre le canvas avec Galactic et la librairie février Meeting three.js 2012 Téléchargement, ressources 21 février Live La production automatisée de code avec CodeFluent Meeting Entities et toolkits : RdV sur MSDN 2012 2 mars Live Comprendre et mettre en oeuvre le toolkit Azure pour http://msdn.microsoft.com/fr-fr/ 2012 Meeting Windows Phone 7, iOS et Android 6 mars Live Nuget et ALM 2012 Meeting Les offres à connaître 9 mars 2012 Live Meeting Kinect - Bien gérer la vie de son capteur 90 jours d’essai gratuit de Windows 13 mars 2012 Live Meeting Sharepoint series - Automatisation des tests Azure 14 mars Live TFS Health Check - vérifier la bonne santé de votre www.windowsazure.fr 2012 Meeting plateforme de développement 15 mars Live Azure series - Développer pour les téléphones, les 2012 Meeting tablettes et le cloud avec Visual Studio 2010 Jusqu’à 35% de réduction sur Visual 16 mars Live Applications METRO design - Désossage en règle d'un Studio Pro, avec l’abonnement MSDN 2012 Meeting template METRO javascript 20 mars Live Retour d'expérience LightSwitch, Optimisation de www.visualstudio.fr 2012 Meeting l'accès aux données, Intégration Silverlight 23 mars Live OAuth - la clé de l'utilisation des réseaux sociaux dans 2012 Meeting votre application

Editor's Notes

  1. Much of that data is in traditional databases and data warehouses, and those kinds of data – product orders, new customer records, etc. – grow at a more linear rate. What’s driving the exponential growth is often less structured data. This is in the form of log files, images, video, sensor or device output, and public data. Much of this data never makes it into a relational database, and the technologies used to process this kind of data go by the names “Data Intensive Scalable Computing”, “Large Scale Data Analytics”, or the more trendy term “Big Data”.In the past, much of this kind of data was simply archived, or even thrown out after a relatively short time. But now, it’s economically feasible to not only store, but process and gain insight from this kind of data.Increasing Data VolumesAccording to Gartner, the current annual growth of WW information volume is 59% and continues to rise.  This data explosion is being driven by the full range of traditional and non-traditional sources like sensors, devices, bots and crawlers.  According to an IDC report, the volume of digital records is forecasted to hit 1.2M Zetabytes (1021 bytes) this year – and predicted to grow 44x over the next decade.   Increasing Data ComplexityHistorically, the data has been largely structured in type; however the real growth is coming from non-structured data.  The success of search engine providers and e-retailers who unlocked the value of click-stream data has debunked the myth that 80% of unstructured data has no value.  The requirement to analyze and mine unstructured and structured data together is increasingly on the agenda for many enterprises today.  Increasing Analysis ComplexityIncreasing analysis complexity comes hand in hand with Increased Data Complexity.  For example, image processing for facial recognition, search engine classification of videos and use of click-stream data for behavioral analytics.  Models for transactional data are mature and well understood and have driven the value behind the last two decades of Data Warehousing and BI.  The models governing complex data and behavioral interactions are in their infancy.   Increasing Demand for New InsightsDespite the growth in useful information, we also know that the number of users in an organization who have access to Business Intelligence tools and capabilities is less than 20%.  This fact combined with the real time nature of data is given rise to demand for real-time and predictive analytics by an increasingly larger user population.  Changing EconomicsCloud computing and commodity hardware have radically reduced the acquisition cost of computational and storage capacity. The decreasing cost of distributed compute, memory and storage is fundamentally changing the economics of data processing.  The rise of the Data Warehouse appliance has more than halved the cost per terabyte of EDW systems over the past 3yrs.  Cloud Data Warehouse systems hold the promise of a 10x TCO advantage over traditional on-premises systems. Emerging TechnologiesEasy to scale commodity hardware is being complimented by new distributed parallel processing frameworks and tools, which combined are providing a rich and inexpensive platform for tackling massive data processing tasks.  MapReduce style programming models are enabling new types of analytics that were not practical or possible with SQL.    The maturity and commercialization of several open source software products has paved the way for their inclusion in product evaluations for larger scale software projects. The cloud model puts another layer of abstraction between the user and the infrastructure and application platform layer further reducing barriers to adoption of technologies like Hadoop.
  2. http://nosql.mypopescu.com/post/9621746531/a-definition-of-big-dataKEY POINT: Hadoop is part of the solution -
  3. Hadoop is an AND, not an OR. But it requires a certain philosophy that MSFT has not historically embraced. A key benefit of Hadoop is the large, vibrant open source community around it. To succeed, Microsoft needs to not only acknowledge but thrive in this community.(1/3 des employé font de l&apos;Haddop)(1/3 des employés font de l&apos;Hadoop)Historiquement Google est a l&apos;initiative de ce type de traitement
  4. BIG self service BIBillions+ of data itemsUnstructured, semi-structured, log dataReal-time feedsNew analysis types leveraging large server clusters Leverage the Hadoop ecosystem and ride its momentumIW centric designGive business users direct access to the Big Data storeDeliver IW-centric experiences optimized for unstructured and semi-structured queriesCreate, enrich, visualize and share big data sets through fun and immersive experiencesDo it all in the tool they already use - ExcelIncrease the number of questions, reduce the cost of exploratory mining to zeroLeverage new class of analytics and visualizationEnable new types of questions with new types of data and visualizationsLeverage analysis of text, sentiment, clickstream, time windows, classification, clusteringVisualize big data in impactful ways: tag clouds, graphs, timelines, tree maps, etc. Natural extension of our BI platformMaintain a consistent semantic model, consistent expression languageProvide an iterative, experimental, business-driven workflow from the desktop to the Big Data clusterBuild on existing IW skills with the Microsoft BI platform (Excel, PowerPivot, Crescent)Optimized for cloudIntegrate with Azure DataMarket to connect to Bing and other public data sourcesHost big data sets on Azure , integrated with MyDataLeverage Isotope to run analytics clusters
  5. Isotope is the all-up effort around Microsoft and Hadoop. It includes several components:A full distribution of Apache Hadoop that runs on standard windows hardware.A full version of Apache Hadoop that runs on the Azure cloudConnectors from Hadoop (any Hadoop, not just Microsoft’s) to Microsoft’s key products – SQL, Excel, PDW, etc.Jscript shell for live scripting of Hadoop from the browserAdmin, monitoring, and authoring tools to make Microsoft Hadoop best-in-class
  6. privatestaticvoidCountTopNWords() { string sourceContent = null;Console.WriteLine(&quot;Reading source file...&quot;);using (Stream sourceStream = WebRequest.Create(context.sourceFileUrl) .GetResponse().GetResponseStream()) { using (var reader = new StreamReader(sourceStream)) {sourceContent = reader.ReadToEnd(); } } string[] words = Regex.Split(sourceContent.ToLower(), &quot;[^a-zàäâéèëêïîöôùüûç]&quot;); var result = words .Where(x =&gt; x.Length &gt; 5) .GroupBy(x =&gt; x) .Select(x =&gt; new {word = x.Key, nb = x.Count()}) .OrderByDescending(x =&gt; x.nb) .Take(context.NbOfWords);Console.OutputEncoding = Encoding.UTF8;foreach(var r in result) {Console.WriteLine(&quot;{0}\\t\\t{1}&quot;, r.word, r.nb); } }