SlideShare a Scribd company logo
1 of 37
Introducere în
ecosistemul Hadoop
Prezentare realizată de Andrei Postolache
Cuprins
1. Big Data
2. Ce este Hadoop?
3. Distribuții Hadoop
4. Probleme de business rezolvate cu Hadoop
5. Structură Hadoop
6. Exemplu proces Map-Reduce
7. Componente ale ecosistemului Hadoop
8. Va fi înlocuit mediul relațional de Hadoop?
9. Demo
10.Întrebări și Răspunsuri
Big Data ?!
Sursă imagine: http://bigdataanalyticsnews.com/
Cei 3 “V”
Sursă imagine: http://bigdatabloggin.blogspot.ro/
Hadoop ?!
Sursă imagine: http://www.cotdp.com/
Hadoop
GOOGLE – YAHOO! – APACHE
• Procesează seturi de date de dimensiuni foarte mari
• Suportă diverse interogări interactive peste seturi foarte mari de
date cu Hive on Tez,
• Suportă procesări de date în timp real cu Apache Storm,
• Stochează date în baze de date non-relaționale precum Hbase
Sursă imagine: http://bigdataanalyticsnews.com/
Distribuții Hadoop
Distribuții Hadoop
Probleme de business
1. Managementul riscului
2. Sistem de recomandare
3. Targetarea prin reclame
4. Calitatea căutărilor pe internet
5. Analiza tranzacțiilor în online
6. Comportamentul consumatorului
Structură Hadoop
Bazat pe 2 componente principale +
alte librării/componente:
- Open source data storage: HDFS
- API de procesare: Map-Reduce
- Librării/componente: Hbase, Hive,
Pig etc.
Sursă imagine: http://opensourceforu.efytimes.com/
Map Reduce - Word Count Process
Map Reduce - Word Count Process
Map Reduce - Word Count Process
Map Reduce - Word Count Process
Map Reduce - Word Count Process
Componente Hadoop
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
bloc de date distribuit, modalitate de stocare
a datelor.HDFS:
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Zookeeper:
serviciu centralizat de
administrare configurări
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Flume: unealtă ce mută sau colectează date în HDFS.
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Sqoop: asigură schimb de date între Hadoop și
mediul relațional și viceversa.
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Hbase: bază de date non-relațională, lider în segmentul
NOSQL-Hadoop.
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
un model de programare ce exploatează
seturile distribuite de blocuri de date pentru a
maximiza procesarea locală a seturilor de date
foarte mari.
MapReduce:
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
YARN: tehnologie de administrare a clusterului ( Yet Another Resource
Negociator )
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Presto: SQL query engine pentru rularea interogărilor analitice
interactive peste surse de date de orice dimensiuni ( GB la PB ).
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Impala: SQL query engine distribuit.
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
HCatalog: sistem de management al metadatelor, stochează
informații de schemă.
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Spark: engine rapid pentru procesare big data, cu module integrate
pentru streaming, machine learning, procesare de grafuri.
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Tez: engine framework ce permite task-uri complexe
‘directed-acyclic-graph’ pentru procesarea de date.
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Mahout: mediu scalabil de machine learning și data mining.
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Pig: limbaj pentru analiza seturilor mari de date și a
proceselor aferente.
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Hive:
instrastructură data warehouse peste Hadoop destinată în special
analizelor, interogărilor de date.
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
Ambari:
framework pentru administrare, monitorizare, realizare diferite
operațiuni pe procese în cadrul clusterului.
Î: Va fi înlocuit mediul relațional
de Hadoop?
R: NU!
DEMO
IMPORT TABEL DIN SQL SERVER ÎN HIVE FOLOSIND SQOOP
DISTRIBUȚIA HORTONWORKS
OVERVIEW HUE + AMBARI
Întrebări și Răspunsuri
Vă mulțumesc!

More Related Content

Similar to Introducere în ecosistemul Hadoop

Web 2016 (09/13) Procesarea datelor XML & HTML. Simple API for XML. Procesări...
Web 2016 (09/13) Procesarea datelor XML & HTML. Simple API for XML. Procesări...Web 2016 (09/13) Procesarea datelor XML & HTML. Simple API for XML. Procesări...
Web 2016 (09/13) Procesarea datelor XML & HTML. Simple API for XML. Procesări...Sabin Buraga
 
Medii de dezvoltare node.js npm
Medii de dezvoltare node.js  npmMedii de dezvoltare node.js  npm
Medii de dezvoltare node.js npmDmitrii Stoian
 
WADe 2014—2015 (07/12): Semantic Web—Arhitectura aplicaţiilor RDF. Iniţiativa...
WADe 2014—2015 (07/12): Semantic Web—Arhitectura aplicaţiilor RDF. Iniţiativa...WADe 2014—2015 (07/12): Semantic Web—Arhitectura aplicaţiilor RDF. Iniţiativa...
WADe 2014—2015 (07/12): Semantic Web—Arhitectura aplicaţiilor RDF. Iniţiativa...Sabin Buraga
 

Similar to Introducere în ecosistemul Hadoop (8)

Web 2016 (09/13) Procesarea datelor XML & HTML. Simple API for XML. Procesări...
Web 2016 (09/13) Procesarea datelor XML & HTML. Simple API for XML. Procesări...Web 2016 (09/13) Procesarea datelor XML & HTML. Simple API for XML. Procesări...
Web 2016 (09/13) Procesarea datelor XML & HTML. Simple API for XML. Procesări...
 
Stroia_Laurentiu
Stroia_LaurentiuStroia_Laurentiu
Stroia_Laurentiu
 
Medii de dezvoltare node.js npm
Medii de dezvoltare node.js  npmMedii de dezvoltare node.js  npm
Medii de dezvoltare node.js npm
 
Pptpw
PptpwPptpw
Pptpw
 
XAMPP
XAMPPXAMPP
XAMPP
 
XAMPP
XAMPPXAMPP
XAMPP
 
XAMPP
XAMPPXAMPP
XAMPP
 
WADe 2014—2015 (07/12): Semantic Web—Arhitectura aplicaţiilor RDF. Iniţiativa...
WADe 2014—2015 (07/12): Semantic Web—Arhitectura aplicaţiilor RDF. Iniţiativa...WADe 2014—2015 (07/12): Semantic Web—Arhitectura aplicaţiilor RDF. Iniţiativa...
WADe 2014—2015 (07/12): Semantic Web—Arhitectura aplicaţiilor RDF. Iniţiativa...
 

Introducere în ecosistemul Hadoop

  • 1. Introducere în ecosistemul Hadoop Prezentare realizată de Andrei Postolache
  • 2. Cuprins 1. Big Data 2. Ce este Hadoop? 3. Distribuții Hadoop 4. Probleme de business rezolvate cu Hadoop 5. Structură Hadoop 6. Exemplu proces Map-Reduce 7. Componente ale ecosistemului Hadoop 8. Va fi înlocuit mediul relațional de Hadoop? 9. Demo 10.Întrebări și Răspunsuri
  • 3. Big Data ?! Sursă imagine: http://bigdataanalyticsnews.com/
  • 4. Cei 3 “V” Sursă imagine: http://bigdatabloggin.blogspot.ro/
  • 5. Hadoop ?! Sursă imagine: http://www.cotdp.com/
  • 6. Hadoop GOOGLE – YAHOO! – APACHE • Procesează seturi de date de dimensiuni foarte mari • Suportă diverse interogări interactive peste seturi foarte mari de date cu Hive on Tez, • Suportă procesări de date în timp real cu Apache Storm, • Stochează date în baze de date non-relaționale precum Hbase Sursă imagine: http://bigdataanalyticsnews.com/
  • 9. Probleme de business 1. Managementul riscului 2. Sistem de recomandare 3. Targetarea prin reclame 4. Calitatea căutărilor pe internet 5. Analiza tranzacțiilor în online 6. Comportamentul consumatorului
  • 10. Structură Hadoop Bazat pe 2 componente principale + alte librării/componente: - Open source data storage: HDFS - API de procesare: Map-Reduce - Librării/componente: Hbase, Hive, Pig etc. Sursă imagine: http://opensourceforu.efytimes.com/
  • 11. Map Reduce - Word Count Process
  • 12. Map Reduce - Word Count Process
  • 13. Map Reduce - Word Count Process
  • 14. Map Reduce - Word Count Process
  • 15. Map Reduce - Word Count Process
  • 16. Componente Hadoop Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53
  • 17. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 bloc de date distribuit, modalitate de stocare a datelor.HDFS:
  • 18. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Zookeeper: serviciu centralizat de administrare configurări
  • 19. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Flume: unealtă ce mută sau colectează date în HDFS.
  • 20. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Sqoop: asigură schimb de date între Hadoop și mediul relațional și viceversa.
  • 21. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Hbase: bază de date non-relațională, lider în segmentul NOSQL-Hadoop.
  • 22. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 un model de programare ce exploatează seturile distribuite de blocuri de date pentru a maximiza procesarea locală a seturilor de date foarte mari. MapReduce:
  • 23. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 YARN: tehnologie de administrare a clusterului ( Yet Another Resource Negociator )
  • 24. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Presto: SQL query engine pentru rularea interogărilor analitice interactive peste surse de date de orice dimensiuni ( GB la PB ).
  • 25. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Impala: SQL query engine distribuit.
  • 26. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 HCatalog: sistem de management al metadatelor, stochează informații de schemă.
  • 27. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Spark: engine rapid pentru procesare big data, cu module integrate pentru streaming, machine learning, procesare de grafuri.
  • 28. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Tez: engine framework ce permite task-uri complexe ‘directed-acyclic-graph’ pentru procesarea de date.
  • 29. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Mahout: mediu scalabil de machine learning și data mining.
  • 30. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Pig: limbaj pentru analiza seturilor mari de date și a proceselor aferente.
  • 31. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Hive: instrastructură data warehouse peste Hadoop destinată în special analizelor, interogărilor de date.
  • 32. Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53 Ambari: framework pentru administrare, monitorizare, realizare diferite operațiuni pe procese în cadrul clusterului.
  • 33. Î: Va fi înlocuit mediul relațional de Hadoop?
  • 35. DEMO IMPORT TABEL DIN SQL SERVER ÎN HIVE FOLOSIND SQOOP DISTRIBUȚIA HORTONWORKS OVERVIEW HUE + AMBARI