Hadoop 2.0 - The Next Level

930 views

Published on

In 2010 stellten die Entwickler von Hadoop fest, dass bei sehr große Clustern (4.000 Knoten und mehr) das bisherige MapReduce Framework nicht mehr richtig skaliert.
Deshalb wurde dieses komplett überarbeitet.
Das Ergebnis war YARN (Yet Another Resource Negotiator).
Neben einer besseren Skalierbarkeit erzeugte YARN weitere positive Nebeneffekte.
Im Oktober 2013 wurde YARN mit dem Hadoop 2.0 Release veröffentlicht.
Was es mit YARN auf sich hat - und welche zusätzlichen Änderungen in Hadoop 2.0 eingeflossen sind - zeigt diese Session.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
930
On SlideShare
0
From Embeds
0
Number of Embeds
39
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Hadoop 2.0 - The Next Level

  1. 1. Hadoop 2.0 The Next Level Sascha Dittmann Twitter: @SaschaDittmann Blog: http://www.sascha-dittmann.de
  2. 2. Hadoop 2.0 - Was ist Neu? • Apache Hadoop YARN + HDFS 2.0 • Apache Tez • Apache Hive v0.12 und die Stinger Initiative • Apache Ambari v1.4.1 • Apache HBase v0.96
  3. 3. Apache Hadoop YARN Das neue Hadoop Daten-Betriebssystem
  4. 4. Yet Another Resource Negotiator (YARN)
  5. 5. Architektur von Hadoop 1.x JobTracker • Globale Ablaufplanung • Globale Ressourcenverwaltung TaskTracker • Lokale Aufgabenverwaltung
  6. 6. Grenzen von Hadoop 1.x Skalierbarkeit • Max. Clustergröße ~5.000 Knoten • Max. Parallele Aufgaben ~40.000 • Grobe Aufgabenverteilung Integriertes MapReduce Framework • Nicht-Optimale Ressourcennutzung • Fehlende Unterstützung für Alternative Verarbeitung
  7. 7. Architektur von Hadoop 2.x ResourceManager • Globale Job-Ablaufplanung • Globale, Erweiterbare Ressourcenverwaltung NodeManager • Lokale Ressourcenverwaltung
  8. 8. Architektur von Hadoop 2.x ApplicationMaster • Framework-Spezifische Instanz • Fordert Ressourcen beim ResourceManager an • Verantwortlich für die Ausfallsicherheit Container • Verwenden gemeinsam genutzte Ressourcen
  9. 9. Daten-Betriebssystem für Hadoop 2.0 Flexibel Effizient Verteilt Neue Verarbeitungsmodel Verdoppelt Verarbeitung Stabile, verlässliche, verteilte Basis Native Datenverarbeitung IN Hadoop BATCH MapReduce INTERAKTIV Tez ONLINE HBase STREAMING Storm, S4, … GRAPH Giraph MICROSOFT REEF SAS LASR, HPA YARN: Cluster Ressourcenverwaltung HDFS2: Redundanter, Verlässlicher Speicher ANDERE
  10. 10. HDFS 2.0 Next Generation Architecture
  11. 11. HDFS 2.0 – Was ist Neu? • NameNode Hochverfügbarkeit • HDFS Federation • HDFS Snapshots Point-In-Time Wiederherstellung • NFSv3 Lese-/Schreibzugriff • Verschlüsselung für das HDFS Data Transfer Protokol • ...
  12. 12. Veränderte Anforderungen Stapelverarbeitung Interaktive Zugriffe • Hoher Durchsatz • Sequentielle Datenzugriffe • Schnelle Zugriffszeiten • Wahlfreier / Direkter Zugriffe
  13. 13. Data Nodes - Speichermedien • Bestimmte Speichermedien nutzen • Dateien Cachen
  14. 14. Quorum Journal Management Before QJM Shared Edits • Shared Storage • Grenzen: Spezielle Hardware, Komplexe Konfiguration… JournalNode QJM JournalNode JournalNode Read Write • Quorum schickt das Log an spez. Dienste (JournalNodes) • Paxos-ähnliches Protokol NameNode NameNode JournalNodes Active • Leichtgewichtig, Kann z.B. auf NN, JT oder RM installiert werden • Empfohlene Anzahl: 3 oder 5 DataNode Block Reports to Active & Standby DataNode ... .. Standby DataNode
  15. 15. Apache Tez Ein neues Kapitel der Datenverarbeitung in Hadoop
  16. 16. Hive/Pig Queries Classic (MapReduce) Job 1 Apache Tez Mapper Mapper Reducer Job 2 Mapper Mapper Job Mapper Mapper Reducer Reducer Reducer Job 3 Mapper Mapper Reducer Mapper Join
  17. 17. Apache Hive v0.12
  18. 18. Hive – Was ist Neu? • HiveQL angleichen an andere SQL-Sprachen • Skalierverhalten • Geschwindigkeit (100mal schneller als V1.x)
  19. 19. Demo Hive Speed Test
  20. 20. Apache Ambari v1.4.1
  21. 21. Ambari – Was ist Neu? • YARN Unterstützung (Konfiguration & Überwachung) • NameNode HA Unterstützung • JDK 7 • Vereinfachte Installation • SCCM als Client •…
  22. 22. YARN Unterstützung
  23. 23. Apache HBase v0.96
  24. 24. HBase – Was ist Neu? • Läuft jetzt aus Windows • Verringerte MeantimeToRecover <1 Min • Snapshots • Metrics Framework • Intergration Testing Infrastruktur •…
  25. 25. Ressourcen • HDInsight Video-Podcast RSS: http://feeds.feedburner.com/HDInsightPodcast YouTube: http://www.youtube.com/user/HDInsightPodcast • Windows Azure HDInsight http://www.windowsazure.com/en-us/services/hdinsight/ • HDP for Windows http://hortonworks.com/products/hdp-windows/ • Meine HDInsight Blog Posts http://www.sascha-dittmann.de/?tag=/HDInsight
  26. 26. Vielen Dank! Sascha Dittmann Twitter: @SaschaDittmann Blog: http://www.sascha-dittmann.de

×