Introducere în ecosistemul Hadoop

Introducere în
ecosistemul Hadoop
Prezentare realizată de Andrei Postolache

Cuprins
1. Big Data
2. Ce este Hadoop?
3. Distribuții Hadoop
4. Probleme de business rezolvate cu Hadoop
5. Structură Hadoop
6. Exemplu proces Map-Reduce
7. Componente ale ecosistemului Hadoop
8. Va fi înlocuit mediul relațional de Hadoop?
9. Demo
10.Întrebări și Răspunsuri

Big Data ?!
Sursă imagine: http://bigdataanalyticsnews.com/

Cei 3 “V”
Sursă imagine: http://bigdatabloggin.blogspot.ro/

Hadoop ?!
Sursă imagine: http://www.cotdp.com/

Hadoop
GOOGLE – YAHOO! – APACHE
• Procesează seturi de date de dimensiuni foarte mari
• Suportă diverse interogări interactive peste seturi foarte mari de
date cu Hive on Tez,
• Suportă procesări de date în timp real cu Apache Storm,
• Stochează date în baze de date non-relaționale precum Hbase
Sursă imagine: http://bigdataanalyticsnews.com/

Probleme de business
1. Managementul riscului
2. Sistem de recomandare
3. Targetarea prin reclame
4. Calitatea căutărilor pe internet
5. Analiza tranzacțiilor în online
6. Comportamentul consumatorului

Structură Hadoop
Bazat pe 2 componente principale +
alte librării/componente:
- Open source data storage: HDFS
- API de procesare: Map-Reduce
- Librării/componente: Hbase, Hive,
Pig etc.
Sursă imagine: http://opensourceforu.efytimes.com/

Map Reduce - Word Count Process

Componente Hadoop
Sursă imagine: Dayong Du – Apache Hive Essentials, Editura Packt Publishing, Birmingham, 2015, pag. 53

bloc de date distribuit, modalitate de stocare
a datelor.HDFS:

Zookeeper:
serviciu centralizat de
administrare configurări

Flume: unealtă ce mută sau colectează date în HDFS.

Sqoop: asigură schimb de date între Hadoop și
mediul relațional și viceversa.

Hbase: bază de date non-relațională, lider în segmentul
NOSQL-Hadoop.

un model de programare ce exploatează
seturile distribuite de blocuri de date pentru a
maximiza procesarea locală a seturilor de date
foarte mari.
MapReduce:

YARN: tehnologie de administrare a clusterului ( Yet Another Resource
Negociator )

Presto: SQL query engine pentru rularea interogărilor analitice
interactive peste surse de date de orice dimensiuni ( GB la PB ).

Impala: SQL query engine distribuit.

HCatalog: sistem de management al metadatelor, stochează
informații de schemă.

Spark: engine rapid pentru procesare big data, cu module integrate
pentru streaming, machine learning, procesare de grafuri.

Tez: engine framework ce permite task-uri complexe
‘directed-acyclic-graph’ pentru procesarea de date.

Mahout: mediu scalabil de machine learning și data mining.

Pig: limbaj pentru analiza seturilor mari de date și a
proceselor aferente.

Hive:
instrastructură data warehouse peste Hadoop destinată în special
analizelor, interogărilor de date.

Ambari:
framework pentru administrare, monitorizare, realizare diferite
operațiuni pe procese în cadrul clusterului.

Î: Va fi înlocuit mediul relațional
de Hadoop?

DEMO
IMPORT TABEL DIN SQL SERVER ÎN HIVE FOLOSIND SQOOP
DISTRIBUȚIA HORTONWORKS
OVERVIEW HUE + AMBARI

Introducere în ecosistemul Hadoop

Recommended

Recommended

More Related Content

Similar to Introducere în ecosistemul Hadoop

Similar to Introducere în ecosistemul Hadoop (8)

Introducere în ecosistemul Hadoop