• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Big Data mit Apache Hadoop
 

Big Data mit Apache Hadoop

on

  • 1,879 views

 

Statistics

Views

Total Views
1,879
Views on SlideShare
1,597
Embed Views
282

Actions

Likes
3
Downloads
36
Comments
0

21 Embeds 282

http://mapredit.blogspot.de 106
http://mapredit.blogspot.com 75
http://mapredit.blogspot.in 52
http://mapredit.blogspot.fr 13
http://mapredit.blogspot.co.uk 5
http://mapredit.blogspot.kr 5
http://mapredit.blogspot.nl 4
http://mapredit.blogspot.tw 4
http://mapredit.blogspot.ru 2
http://mapredit.blogspot.co.il 2
http://mapredit.blogspot.ca 2
http://www.linkedin.com 2
http://mapredit.blogspot.com.au 2
http://mapredit.blogspot.ae 1
http://mapredit.blogspot.gr 1
http://mapredit.blogspot.it 1
http://mapredit.blogspot.hk 1
http://mapredit.blogspot.se 1
http://mapredit.blogspot.co.at 1
http://mapredit.blogspot.com.es 1
http://mapredit.blogspot.ch 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial LicenseCC Attribution-NonCommercial License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Big Data mit Apache Hadoop Big Data mit Apache Hadoop Presentation Transcript

    • “Big Data” mit Apache Hadoop Alexander LorenzCustomer Operations Engineer, Cloudera INC Muenchen, 18. April 2012 1
    • HerausforderungenGröße Veränderungen Struktur 2
    • Beispiele• Web Logs • Verbindungsdaten• RFID • Astronomie• Social Networks • Genetik• Webseiten • Überwachung• Dokumente • Medizin• Such-Indices • Bilder,Videos 3
    • Datenmengen• Ebay: 5 PB, Search Optimization• Facebook: 30 PB, Logs, Reports• Walmart, 2.5 PB, Customer Transactions http://wiki.apache.org/hadoop/PoweredBy http://en.wikipedia.org/wiki/Big_data 4
    • 10 Petabyteshttp://blog.backblaze.com/2011/01/05/10-petabytes-visualized/ 5
    • Etwas GeschichteDateisystem GFS HDFSVerarbeitung MapReduce MapReduce RealTime BigTable HBase Lizenz nicht offen Apache 6
    • Apache Hadoop• Software Framework für grosse Mengen an unstrukturierten Daten• Apache-Lizenz• Zwei Kern-Komponenten • HDFS: Verteilte Datenspeicherung • MapReduce:Verteilte Datenverarbeitung 7
    • Hadoop ClusterData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data Node Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network 8
    • Wo?• Eigenes Rechenzentrum• Dienstleister des Vertrauens• Cloud-Dienstleister • Amazon • Rackspace 9
    • Hadoop Distributed File System DateiBlock Block Block Block Block Block Block Data Node Data Node Data Node 10
    • MapReduce DatenRDBMS Query DatenHadoop Query 11
    • Eigenschaften HDFS MapReduce Verteilung ✔ ✔Ausfallsicherheit ✔ ✔ Skalierbarkeit ✔ ✔ 12
    • Hadoop-Ökosystem SQL Scripts HBase Whirr Hive Pig Oozie MapReduce Avro Java API HDFS eeper Zook Sqoop Flume Connectors Hue RDBMS Logs ... Mahout 13
    • Cloudera• 2009 in Palo Alto gegründet• Clouderas Distribution Including Hadoop • CDH4 Beta 1 verfügbar• > 200 Angestellte weltweit• Training, Consulting, Support, Development• Enterprise Tools 14
    • Cloudera Manager• Automated Deployment • Reporting• Monitoring • Support Integration• Service Management• Log Management• Events and Alerts 15
    • Anwendungsbeispiele 16
    • Risiko Management• Problem: Bewertung von Kunden und Projekten• Lösung: Finanzhistorie, Kommunikation, Mustererkennung• Anwender: Banken,Versicherungen 17
    • Empfehlungen• Problem: Passende Produkte für Kunden empfehlen• Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse• Anwender: eCommerce, Advertising 18
    • Graph-Analyse• Problem: Flaschenhälse oder Fehler in Netzwerken im Voraus erkennen• Lösung: Netzwerkverkehr auswerten und statistisch aufbereiten• Anwender: Rechenzentren, Telcos, Multiserverbetreiber, Portale 19
    • Gefahrenerkennung• Problem: Spam, Kreditkartenmissbrauch• Lösung: Mustererkennung, Klassifizierung, heuristische Analyse• Anwender: ISPs, Banken 20
    • Textanalysen• Problem: Bedeutung von Text erkennen• Lösung: Schlüsselworte, Zusammenhänge erkennen• Anwender: eCommerce 21
    • Danke!• alexander@cloudera.com• Twitter: @mapredit• Blog: mapredit.blogspot.com• http://www.cloudera.com/• http://apache.hadoop.org/• http://www.shs-viveon.com 22