Your SlideShare is downloading. ×
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Services für Windows Azure
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Services für Windows Azure

571
views

Published on

Wir leben in einem Datenzeitalter! Nach Schätzungen in 2006, betrug das weltweite "Datenuniversum" ca. 0.18 Zettabytes (1 ZB => 10 hoch 21 Bytes bzw. 1 Mrd. Terabytes). In 2011 hatte sich dieses …

Wir leben in einem Datenzeitalter! Nach Schätzungen in 2006, betrug das weltweite "Datenuniversum" ca. 0.18 Zettabytes (1 ZB => 10 hoch 21 Bytes bzw. 1 Mrd. Terabytes). In 2011 hatte sich dieses Volumen sogar verzehnfacht (1,8 Zettabytes). Somit wird in vielen Anwendungsszenarien das Thema Big Data und Big Processing immer wichtiger.

Klassische relationale Datenbanksysteme, sowie Statistik und Visualisierungstools, sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die massiv parallel auf bis zu hunderten oder tausenden von Prozessoren bzw. Servern arbeitet.

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
571
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Apache Hadoop-based Services für Windows AzureSascha DittmannSoftware Developer / Solution ArchitectTwitter: @SaschaDittmannBlog: http://www.sascha-dittmann.de
  • 2. Apache Hadoop & Co Zookeeper Pig
  • 3. Hadoop Distributed File System Cluster Startvorgang
  • 4. Hadoop Distributed File System Ausfall des Namenodes (Failover)
  • 5. Hadoop Distributed File System Benuteranfrage ① ② ② ②
  • 6. Hadoop Distributed File System Portable Operating System Interface (POSIX) Replikation auf mehrere Datenknotenjs> #ls input/ncdcFound 9 itemsdrwxr-xr-x - Sascha supergroup 0 2012-04-24 13:01 /user/Sascha/input/ncdc/_distcp_logs_g0dedndrwxr-xr-x - Sascha supergroup 0 2012-04-24 12:04 /user/Sascha/input/ncdc/_distcp_logs_ofj0u6drwxr-xr-x - Sascha supergroup 0 2012-04-24 13:09 /user/Sascha/input/ncdc/alldrwxr-xr-x - Sascha supergroup 0 2012-04-24 13:01 /user/Sascha/input/ncdc/all2drwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/metadatadrwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/microdrwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/micro-tab-rw-r--r-- 3 Sascha supergroup 529 2012-04-23 13:06 /user/Sascha/input/ncdc/sample.txt-rw-r--r-- 3 Sascha supergroup 168 2012-04-23 13:06 /user/Sascha/input/ncdc/sample.txt.gz
  • 7. Map/Reduce DataNode DataNode DataNode 0067011990999991950051507004+68750 0043011990999991950051512004+68750 0043011990999991950051518004+68750 0043012650999991949032412004+62300 0043012650999991949032418004+62300 1949,0 1952,-11 1950,22 Map Map Map 1950,55 1950,33 Sort Sort Sort 1949,0 1950,[22,33,55] Shuffle Shuffle Shuffle 1952,-11 Reduce 1949,0 1950,55 1952,-11
  • 8. Map/Reduce DataNode DataNode DataNode 0067011990999991950051507004+68750 0043011990999991950051512004+68750 0043011990999991950051518004+68750 0043012650999991949032412004+62300 0043012650999991949032418004+62300 1949,0 1952,-11 1950,22 Map Map Map 1950,55 1950,33 1949,0 1952,-11 Combine Combine Combine 1950,55 1950,33 Sort Sort Sort 1949,0 1950,[33,55] Shuffle Shuffle Shuffle 1952,-11 Reduce 1949,0 1950,55 1952,-11
  • 9. RDBMS vs. Map/Reduce RDBMS Map/ReduceDatenmenge Gigabytes PetabytesZugriff Interaktiv und Batch BatchLese- / Schreibzugriffe Viele Lese- und Einmaliges Schreiben Schreibzugriffe Viele LesezugriffeDatenstruktur Statisches Schema Dynamisches SchemaDatenintegrität Hoch NiedrigSkalierverhalten Nicht-Linear Linear
  • 10. Apache Hadoop & Co Zookeeper Pig
  • 11. Demos Hadoop Dashboard Interactive Console Remote Desktop Nutzung des WA Storage Map/Reduce via JavaScript C# Streaming Power Pivot
  • 12. Cloud BloggersDie Blogs der deutschen Cloud Computing-CommunityLink: http://cloudbloggers.de