Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Cours Big Data Chap4 - Spark

2,490 views

Published on

Apache Spark
Cours Big Data - Chap4 - GI3 - ENIS

Published in: Data & Analytics
  • DOWNLOAD THAT BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book that can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer that is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story That Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money That the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths that Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Download or read that Ebooks here ... ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • If you want to download or read this book, Copy link or url below in the New tab ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • If you want to download or read this book, copy link or url below in the New tab ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • If you want to download or read this book, Copy link or url below in the New tab ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Cours Big Data Chap4 - Spark

  1. 1. Amal ABID – Cours GI3 ENIS 1 Chapitre 4 Spark
  2. 2. • Framework de conception et d'exécution Map/Reduce. • Originellement (2014) un projet de l'université de Berkeley en Californie, désormais un logiciel libre de la fondation Apache. • Licence Apache. • Trois modes d'exécution:  Cluster Spark natif.  Hadoop (YARN).  Mesos (Spark natif + scheduler Mesos). • C’est un moteur MapReduce plus évolué, plus rapide pour les tâches impliquant de multiples maps et/ou reduce.  Utilisation de la mémoire pour optimiser les traitements.  Des API’s pour faciliter et optimiser les étapes d’analyses. Spark : Présentation 2
  3. 3. Spark : Plus rapide Amal ABID – Cours GI3 ENIS 3
  4. 4. • Spark est développé en Scala et supporte quatre langages: Scala, Java, Python (PySpark), R (SparkR). • Une liste d’Operaters pour faciliter la manipulation des données au travers des RDD’S.  Map, filter, groupBy, sort, join, leftOuterJoin, rightOuterJoin, reduce, count, reduceByKey, groupByKey, first, union, cross, sample, cogroup, take, partionBy, pipe, save,… Spark : Facile à utiliser (1/2) 4
  5. 5. 5Amal ABID – Cours GI3 ENIS Spark : Facile à utiliser (2/2)
  6. 6. Spark : Architecture 6Amal ABID – Cours GI3 ENIS • Spark est capable de déterminer quand il aura besoin de sérialiser les données / les réorganiser; et ne le fait que quand c'est nécessaire. • On peut également explicitement lui demander de conserver des données en RAM, parce qu'on sait qu'elles seront nécessaires entre plusieurs instances d'écriture disque.
  7. 7. • Au centre du paradigme employé par Spark, on trouve la notion de RDD, pour Resilient Distributed Datasets. • Il s'agit de larges hashmaps stockées en mémoire et sur lesquelles on peut appliquer des traitements. • Ils sont:  Distribués.  Partitionnés (pour permettre à plusieurs noeuds de traiter les données).  Redondés (limite le risque de perte de données).  En lecture seule: un traitement appliqué à un RDD donne lieu à la création d'un nouveau RDD. • Deux types d'opérations possibles sur les RDDs:  Une transformation: une opération qui modifie les données d'un RDD. Elle donne lieu à la création d'un nouveau RDD. Les transformations fonctionnent en mode d'évaluation lazy: elles ne sont exécutées que quand on a véritablement besoin d'accéder aux données. "map" est un exemple de transformation.  Une action: elles accèdent aux données d'un RDD, et nécessitent donc son évaluation (toutes les transformations ayant donné lieu à la création de ce RDD sont exécutées l'une aprés l'autre). "saveAsTextFile" (qui permet de sauver le contenu d'un RDD) ou "count" (qui renvoie le nombre d'éléments dans un RDD) sont des exemples d'actions. Spark : Architecture - RDD
  8. 8. • Les applications Spark s’exécutent comme un ensemble de processus indépendants sur un cluster, coordonnés par un objet SparkContext du programme principal, appelé Driver Program. • Pour s’exécuter sur un cluster, le SparkContext se connecte à un Cluster Manager, qui peut être soit un gestionnaire standalone de Spark, soit YARN ou Mesos, pour l’allocation de ressources aux applictions. • Une fois connecté, Spark lance des executors sur les nœuds du cluster, des processus qui lancent des traitements et stockent les données pour les applications. • Il envoie ensuite le code de l’application (Jar ou ficher python) aux executors. SparkContext envoie ensuite les Tasks aux executors pour qu’ils les lancent. Spark : Architecture - Exécution
  9. 9. Spark : Un framework analytique Amal ABID – Cours GI3 ENIS 9
  10. 10. Spark : Avantages 10 Amal ABID – Cours GI3 ENIS • Performances supérieures à celles de Hadoop pour une large quantité de problèmes; et presque universellement au moins équivalentes pour le reste. • API simple et bien documentée; très simple à utiliser. Paradigme plus souple qui permet un développement conceptuellement plus simple. • Très intégrable avec d'autres solutions; peut très facilement lire des données depuis de nombreuses sources, et propose des couches d'interconnexion très faciles à utiliser pour le reste (API dédiée Spark Streaming, Spark SQL). • APIs dédiées pour le traitement de problèmes en machine learning (Spark MLlib) et graphes (Spark GraphX).
  11. 11. Spark : Performances 11 Amal ABID – Cours GI3 ENIS • Fortement dépendantes du problème mais d'une manière générale supérieures à Hadoop. Dans le cas de problèmes complexes, effectuant de nombreuses opérations sur les données et notamment sur les mêmes données antérieures, fortement supérieures (jusqu'à 100x plus rapide). • Même sans travailler plusieurs fois sur les mêmes données ou sans persistance explicite particulière, le paradigme de programme parallélisé en graphe acyclique couplé aux RDDs et leurs propriétés permet des améliorations notables (~10x) pour de nombreux problèmes dépassant le cadre rigide du simple map/shuffle/reduce lancé une fois.
  12. 12. Spark : Inconvénients 12 Amal ABID – Cours GI3 ENIS • Spark consomme beaucoup plus de mémoire vive que Hadoop, puisqu'il est susceptible de garder une multitude de RDDs en mémoire. Les serveurs nécessitent ainsi plus de RAM. • Il est moins mature que Hadoop. • Son cluster manager (« Spark Master ») est encore assez immature et laisse à désirer en terme de déploiement / haute disponibilité / fonctionnalités additionnelles du même type; dans les faits, il est souvent déployé via Yarn, et souvent sur un cluster Hadoop existant.
  13. 13. Spark : Usage /Manipulation (1/5) 13 Amal ABID – Cours GI3 ENIS
  14. 14. 14 Amal ABID – Cours GI3 ENIS Spark : Usage /Manipulation (2/5)
  15. 15. 15 Amal ABID – Cours GI3 ENIS Spark : Usage /Manipulation (3/5)
  16. 16. 16 Amal ABID – Cours GI3 ENIS Spark : Usage /Manipulation (4/5)
  17. 17. 17 Amal ABID – Cours GI3 ENIS La manipulation de l’exemple "Word Count" est fournie en "TP Spark" sous la VM Cloudera où Spark est installé et prêt à l’utilisation. Spark : Usage /Manipulation (5/5)

×