Prezentarea oferă o privire de ansamblu despre ecosistemul Hadoop și a fost prezentată în data de 10.10.2015, în cadrul unui eveniment intern.
Cuprins:
1.Big Data
2.Ce este Hadoop?
3.Distribuții Hadoop
4.Probleme de business rezolvate cu Hadoop
5.Structură Hadoop
6.Exemplu proces Map-Reduce
7.Componente ale ecosistemului Hadoop
8.Va fi înlocuit mediul relațional de Hadoop?
9. Demo (nu apare în prezentare)
10. Întrebări și Răspunsuri (nu apare în prezentare)
2. Cuprins
1. Big Data
2. Ce este Hadoop?
3. Distribuții Hadoop
4. Probleme de business rezolvate cu Hadoop
5. Structură Hadoop
6. Exemplu proces Map-Reduce
7. Componente ale ecosistemului Hadoop
8. Va fi înlocuit mediul relațional de Hadoop?
9. Demo
10.Întrebări și Răspunsuri
6. Hadoop
GOOGLE – YAHOO! – APACHE
• Procesează seturi de date de dimensiuni foarte mari
• Suportă diverse interogări interactive peste seturi foarte mari de
date cu Hive on Tez,
• Suportă procesări de date în timp real cu Apache Storm,
• Stochează date în baze de date non-relaționale precum Hbase
Sursă imagine: http://bigdataanalyticsnews.com/
9. Probleme de business
1. Managementul riscului
2. Sistem de recomandare
3. Targetarea prin reclame
4. Calitatea căutărilor pe internet
5. Analiza tranzacțiilor în online
6. Comportamentul consumatorului
10. Structură Hadoop
Bazat pe 2 componente principale +
alte librării/componente:
- Open source data storage: HDFS
- API de procesare: Map-Reduce
- Librării/componente: Hbase, Hive,
Pig etc.
Sursă imagine: http://opensourceforu.efytimes.com/
17. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
bloc de date distribuit, modalitate de stocare
a datelor.HDFS:
18. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Zookeeper:
serviciu centralizat de
administrare configurări
19. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Flume: unealtă ce mută sau colectează date în HDFS.
20. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Sqoop: asigură schimb de date între Hadoop și
mediul relațional și viceversa.
21. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Hbase: bază de date non-relațională, lider în segmentul
NOSQL-Hadoop.
22. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
un model de programare ce exploatează
seturile distribuite de blocuri de date pentru a
maximiza procesarea locală a seturilor de date
foarte mari.
MapReduce:
23. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
YARN: tehnologie de administrare a clusterului ( Yet Another Resource
Negociator )
24. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Presto: SQL query engine pentru rularea interogărilor analitice
interactive peste surse de date de orice dimensiuni ( GB la PB ).
26. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
HCatalog: sistem de management al metadatelor, stochează
informații de schemă.
27. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Spark: engine rapid pentru procesare big data, cu module integrate
pentru streaming, machine learning, procesare de grafuri.
28. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Tez: engine framework ce permite task-uri complexe
‘directed-acyclic-graph’ pentru procesarea de date.
29. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Mahout: mediu scalabil de machine learning și data mining.
30. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Pig: limbaj pentru analiza seturilor mari de date și a
proceselor aferente.
31. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Hive:
instrastructură data warehouse peste Hadoop destinată în special
analizelor, interogărilor de date.
32. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Ambari:
framework pentru administrare, monitorizare, realizare diferite
operațiuni pe procese în cadrul clusterului.
33. Î: Va fi înlocuit mediul relațional
de Hadoop?