BigData et Hadoop
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

BigData et Hadoop

  • 1,126 views
Uploaded on

Description des enjeux liés au Big Data et découverte d'un outil sur mesure pour ce volume de données : Hadoop

Description des enjeux liés au Big Data et découverte d'un outil sur mesure pour ce volume de données : Hadoop

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,126
On Slideshare
1,047
From Embeds
79
Number of Embeds
1

Actions

Shares
Downloads
48
Comments
0
Likes
0

Embeds 79

http://www.entreprise-marketing.fr 79

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Qu’est-ce que le Big Data ?
  • 2. De plus en plus interconnecté Le monde change
  • 3. 2 milliards 4.6 milliards utilisateurs d’Internet téléphones cellulaires Le monde change
  • 4. De plus en plus interconnecté De plus en plus instrumentalisé Le monde change
  • 5. Web 3.0 L'Internet des objets représente l'extension d'Internet à des choses et à des lieux dans le monde physique. Alors qu'Internet ne se prolonge habituellement pas au-delà du monde électronique, l'internet des objets (IdO) a pour but de l'étendre au monde réel en associant des étiquettes munies de codes, de puces RFID ou d'URLs aux objets ou aux lieux. Ces étiquettes pourront être lues par des dispositifs mobiles sans fil, ce qui devrait favoriser l’émergence de la réalité augmentée.
  • 6. Le monde change De plus en plus interconnecté De plus en plus intelligent De plus en plus instrumentalisé
  • 7. Qu’est ce que le Big Data ?
  • 8. Qu’est ce que le Big Data ? Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis
  • 9. Caractéristiques 44x plus de données en une décennie L’information grandit à une vitesse incroyable !
  • 10. Caractéristiques 20% 80% 80% des données sont non structurées
  • 11. Deux types de Big Data Données en mouvement Le reste • Tweets / Posts Facebook • Données boursières • Capteurs : Signes vitaux d’un nouveau-né • Historique de données en mouvement • Données non structurées : formulaires ... • Données structurées depuis des systèmes disparates
  • 12. Exemples de Big Data 100 TB de données / jour 230 M de tweets / jour 294 M de courriels / jour 50 Petabytes de données dans le domaine de la santé
  • 13. Examples • Analyse multicanal du sentiment et de l’expérience utilisateur • Détecter les signes inquiétants d’un patient dans les hôpitaux afin d’intervenir à temps • Prendre des décisions risquées basées sur les données transactionnelles en temps réel • Identifier les criminels et menaces depuis de nombreuses sources vidéos, audio et flux de données • Prédire les modèles climatiques afin de choisir un emplacement optimisé pour les éoliennes
  • 14. Comment analyser ces données et en extraire l’essentiel ?
  • 15. Challenges Ranger 10TB sur 1 noeud : sur 100 noeuds : 2.5 jours 35 min
  • 16. Challenges Gros noeuds implique un cout élevé Grand nombre de noeuds bon marché impliquent un gros nombre d’erreurs Plusieurs Noeuds bon marché Système Fault-tolerant automatique
  • 17. Challenges On a besoin d’un nouveau modèle de traitement parallèle pour des clusters de machines
  • 18. À la rescousse
  • 19. Map Reduce Publié par Google en . Rendu populaire par le projet Apache Hadoop Utilisé par : 2004
  • 20. Map Reduce
  • 21. Map Reduce
  • 22. Philosophie • Masque la complexité • Rends le processus évolutif (scalability) • Le rend peu onéreux
  • 23. Coeur de Hadoop Map Reduce HDFS Système de fichier distribué Planification / Execution
  • 24. Coeur de Hadoop Map Reduce Système de fichier distribué Planification / Execution HDFS • Name Node garde les métadonnées • Fichiers coupés en blocs de 64 MB • Blocs répliqués sur 3 Data Node
  • 25. Coeur de Hadoop Map Reduce Système de fichier distribué Planification / Execution HDFS • Name Node garde les métadonnées • Fichiers coupés en blocs de 64 MB • Blocs répliqués sur 3 Data Node • Job tracker distribue les taches et gères les erreurs • Tâches assignées selon les données locales • Task Tracker peut exécuter plusieurs tâches
  • 26. Coeur de Hadoop Job Tracker Name Node Data Node Task Tracker Client
  • 27. Suite HadoopZookeeper Avro Pig (ETL) Hive (BI) Sqoop (RDBMS) MapReduce HDFS
  • 28. Pig
  • 29. Hive
  • 30. Coeur de HadoopZookeeper Avro Mahout HBase Cassandra MapReduce HDFS
  • 31. Des Questions ?
  • 32. a Storm is coming ...