Successfully reported this slideshow.
Your SlideShare is downloading. ×

Cours Big Data Part I

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Big data
Big data
Loading in …3
×

Check these out next

1 of 40 Ad

More Related Content

Slideshows for you (20)

Similar to Cours Big Data Part I (20)

Advertisement

Recently uploaded (20)

Cours Big Data Part I

  1. 1. ESSALIFI Mohamed Faiçal mf.essalifi@gmail.com 1 by Alexey Evmenkov
  2. 2. 2 I. Introduction • Pourquoi Big Data? • Historique • Les fournisseurs du Big Data (Hortonworks, Cloudera, Microsoft HDInsight, MapR,…) II. Les composantes principales de Hadoop • L'architecture Hadoop • HDFS • MapReduce • YARN • MySQL vs MongoDB • Hive • Autres…… III. Planifier son cluster Hadoop • Choisir le bon matériel • Réseau • Atelier 1 : Mise en place d'une architecture Hadoop • Atelier 2 : Manipuler les fichiers de configuration IV. Gestion de Clusters • Stocker les données dans HDFS • Le Namenode et le Datanode • Commandes HDFS • Atelier 3 : Rajouter et retirer des « Cluster Nodes » • Atelier 4 : Optimiser un Cluster V. Manipuler les données • Manipuler les données avec différents formats de fichiers • Créer des bases de données et des tables Hive • Analyser les données avec Pig (script) • Transformer les ensembles de données avec Pig et Hive • Traitement parallèle avec Impala • Réduire le temps d'accès aux données avec Shark • Atelier 5 : Import d’un CSV et manipulation via Hive • Atelier 6 : Analyser les données avec Pig • Atelier 7 : Activer Impala et Shark pour des requêtes plus rapides Table de matière
  3. 3. 3 1.1. Pourquoi Big Data? 1 : Introduction 2 : Les composantes principales de Hadoop 3 : Les fournisseurs du Big Data 4 : Planifier son cluster Hadoop 5 : Gestion de Clusters 6 : Manipuler les données
  4. 4. 4 Introduction
  5. 5. 5 C’est quoi une transformation digitale Votre Site Web E-Commerce Réseaux sociauxInteraction INTRODUCTION DATA BIG DATA
  6. 6. 6 C’est quoi une transformation digitale Votre Site Web E-Commerce Réseaux sociauxInteraction INTRODUCTION DATA BIG DATA
  7. 7. 7 C’est quoi une transformation digitale INTRODUCTION DATA BIG DATA Transformation digitale
  8. 8. 8 Donnée C’est quoi une transformation digitale INTRODUCTION DATA BIG DATA
  9. 9. 9 Donnée C’est quoi une transformation digitale INTRODUCTION DATA BIG DATA
  10. 10. 10 C’est quoi une transformation digitale INTRODUCTION DATA BIG DATA Prediction
  11. 11. 11 Les données le nouveau pétrole INTRODUCTION DATA BIG DATA
  12. 12. 12 Big Data analysis of the 2012 US presidential elections
  13. 13. 13 Big Data analysis of the 2012 US presidential elections
  14. 14. 14 Les données le nouveau pétrole INTRODUCTION DATA BIG DATA
  15. 15. 15 Les données le nouveau pétrole INTRODUCTION DATA BIG DATA Où se trouve les sources de ce nouveau pétrole?
  16. 16. 16 Big Data Source : Internet INTRODUCTION DATA BIG DATA
  17. 17. 17 Big Data Source : Open Data INTRODUCTION DATA BIG DATA https://fr.wikipedia.org/wiki/Open_data L'ouverture des données (open data) représente à la fois un mouvement, une philosophie d'accès à l'information et une pratique de publication de données librement accessibles et exploitables.
  18. 18. 18 Big Data Source : Open Data https://fr.wikipedia.org/wiki/Open_data INTRODUCTION DATA BIG DATA
  19. 19. 19 Big Data Source : Open Data INTRODUCTION DATA BIG DATA
  20. 20. 20 Big Data Source : Open Data INTRODUCTION DATA BIG DATA
  21. 21. 21 Pourquoi le Big Data? INTRODUCTION DATA BIG DATA
  22. 22. 22 Pourquoi le Big Data? INTRODUCTION DATA BIG DATA
  23. 23. 23 Big Data INTRODUCTION DATA BIG DATA Concept Donnée Analyse et Innovation ? Valeur Et prediction
  24. 24. 24 Big Data (éthique, déontologique et sociétal) INTRODUCTION DATA BIG DATA Concept Donnée Analyse et Innovation éthique, déontologique et sociétal Valeur Et prediction
  25. 25. 25 Big Data (Pour quel domaine) INTRODUCTION DATA BIG DATA Partout Finance Gestion de stock SanteEnergie
  26. 26. 26 Big Data (Pour quel domaine) INTRODUCTION DATA BIG DATA 5 exemples concrets d’application du Big Data http://www.data-business.fr/5-exemples-concrets-dapplication-du-big-data/ 1. Le Big Data prédit les conflits mondiaux L’outil GDELT (Global Database of Events, Languages and Tones), développé par l’université de Georgetown et accessible de manière open source, compile toutes les actualités (communiqués de presse, articles, discours…) parues depuis 1979. Il applique ensuite des techniques d’analyse sémantique et des algorithmes auto-apprenants pour faciliter la compréhension des événements récents et des principes de cause à effet pour arriver à prédire les conflits mondiaux. 2. Le Big Data aide la recherche contre le cancer Project Data Sphere met à disposition de tous des données de tests cliniques passés pour permettre à chacun de conduire ses propres analyses, et, dans l’esprit du Crowd-Innovation, d’améliorer les méthodes ou de découvrir des corrélations encore inconnues. 3. Le Big Data nous aide à comprendre le monde L’entreprise Kaggle, qui met à disposition sa communauté de 150 000 data-scientists pour aider les entreprises à résoudre des défis liés à l’analyse de données, vient de lancer un concours visant à définir un algorithme capable de comprendre les facteurs qui influencent la création d’un boson de Higgs lors de la collision de deux atomes. Le projet est mandaté par le CERN et a été élaboré par deux chercheurs du CNRS. 4. Le Big Data permet de gérer les catastrophes naturelles En utilisant des outils de tracking, d’analyse sémantique et de visualisation en temps réel, l’Organisation Mondiale de la Migration a pu assister les forces locales en dégageant les urgences sanitaires, la localisation des ressources clés et en optimisant l’allocation des ressources sur le terrain lors du typhon qui a frappé les Philippines en 2013 5. Le Big Data aide à éradiquer les épidémies Des scientifiques de l’université de Bringhma Youns essaient de simuler la localisation des mouches tsé-tsé dans le but d’aider à contrôler la propagation d’épidémises. De la même manière, la police de Chicago utilise le Big Data et la visualisation de données pour contrôler les populations de rats dans la ville.
  27. 27. 27 Big Data (Pour quel domaine) INTRODUCTION DATA BIG DATA BIG DATA. Neuf jours avant que la propagation d'Ebola soit officiellement déclarée par l'OMS le 23 mars comme étant une épidémie, un groupe de chercheurs et de spécialistes informatiques à Boston avait déjà remarqué la diffusion du virus de la fièvre hémorragique en Guinée. http://www.sciencesetavenir.fr/sante/les-big-data-nouvel-outil-contre-les- epidemies-comme-ebola_28006 Le Big Data réconcilie « l’assuré et son assureur » « pay how you drive », c'est-à-dire l'utilisation de la télématique pour moduler la prime en fonction du comportement au volant, débarque à peine en France et n'a pas vraiment décollé aux Etat-Unis. http://www.lebigdata.fr/business/sante
  28. 28. 28 1.2. Historique? 1 : Introduction 2 : Les composantes principales de Hadoop 3 : Les fournisseurs du Big Data 4 : Planifier son cluster Hadoop 5 : Gestion de Clusters 6 : Manipuler les données
  29. 29. 29 Historique des Technologies Big Data INTRODUCTION DATA BIG DATA
  30. 30. 30 Historique des Technologies Big Data INTRODUCTION DATA BIG DATA Cluster partagé
  31. 31. 31 Historique des Technologies Big Data INTRODUCTION DATA BIG DATA Google Nutch Project Haut Disponibilité ?????? Réplication ???? Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet. L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus : récupération des données, analyse des documents, recherche, etc. Doug Cutting est l'initiateur et le coordinateur de ce projet. Il est entièrement développé en langage Java, mais les données qu'il manipule sont dans un format de données indépendant de tout langage de programmation. En juin 2003 a été présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant 100 millions de documents.
  32. 32. 32 Historique des Technologies Big Data INTRODUCTION DATA BIG DATA Google GFS Base sur la réplication
  33. 33. 33 Historique des Technologies Big Data INTRODUCTION DATA BIG DATA Google Map Reduce Dispatching de charge
  34. 34. 34 Historique des Technologies Big Data INTRODUCTION DATA BIG DATA Yahoo! Hadoop
  35. 35. 35 Historique des Technologies Big Data INTRODUCTION DATA BIG DATA
  36. 36. 36 1.3. Les fournisseurs du Big Data 1 : Introduction 2 : Les composantes principales de Hadoop 3 : Les fournisseurs du Big Data 4 : Planifier son cluster Hadoop 5 : Gestion de Clusters 6 : Manipuler les données
  37. 37. 37 Solution Big Data INTRODUCTION DATA BIG DATA
  38. 38. 38 Hortonworks Cloudera Microsoft HDInsight Les fournisseurs du Big Data
  39. 39. 39 HortonWorks vs Cloudera
  40. 40. 40 Q and A ESSALIFI Mohamed Faiçal Mf.essalifi@gmail.com 40

×