Sascha Dittmann, Ernst & Young: Big Data in der Cloud1. *
Sascha Dittmann
Software Developer / Solution Architect
Twitter: @SaschaDittmann
Blog: http://www.sascha-dittmann.de
2. * Seit über 13 Jahren:
* Software Developer
* Solution Architect
* Seit über 7 Jahren:
* Trainer für technische Trainings
* Sprecher auf Konferenzen
* IT Consulting
*
4. 180.000.000.000.000.000.000
= 0,18 ZB (Zettabytes) - Stand 2006
1.800.000.000.000.000.000.000
= 1,8 ZB (Zettabytes) - Stand 2011
*
Quelle: IDC – Analyze the Future
6. Atomicy Basically
Consistecy Available
Isolation Soft State
Durabilty Eventually Consistent
*
8. DataNode DataNode DataNode
0067011990999991950051507004+68750
0043011990999991950051512004+68750
0043011990999991950051518004+68750
0043012650999991949032412004+62300
0043012650999991949032418004+62300
1949,0
1952,-11
Map Map Map 1950,22
1950,55
1950,33
Sort Sort Sort 1949,0
1950,[22,33,55]
Shuffle Shuffle Shuffle 1952,-11
Reduce
1949,0
1950,55
1952,-11
*
9. DataNode DataNode DataNode
0067011990999991950051507004+68750
0043011990999991950051512004+68750
0043011990999991950051518004+68750
0043012650999991949032412004+62300
0043012650999991949032418004+62300
1949,0
1952,-11
Map Map Map 1950,22
1950,55
1950,33
1949,0 1952,-11
Combine Combine Combine 1950,55 1950,33
Sort Sort Sort 1949,0
1950,[33,55]
Shuffle Shuffle Shuffle 1952,-11
Reduce
1949,0
1950,55
1952,-11
*
10. RDBMS Map/Reduce
Datenmenge Gigabytes Petabytes
Zugriff Interaktiv und Batch Batch
Lese- / Schreibzugriffe Viele Lese- und Einmaliges Schreiben
Schreibzugriffe Viele Lesezugriffe
Datenstruktur Statisches Schema Dynamisches Schema
Datenintegrität Hoch Niedrig
Skalierverhalten Nicht-Linear Linear
*