SlideShare a Scribd company logo
1 of 22
Download to read offline
BIG DATA
A Developer’s Perspective
Cuprins
Introducere generala
- Prezentare Big Data
- Hadoop
Studiu de caz
- Arhitectura
- Procesare date
Despre
Apetit tot mai mare pentru stocare si prelucrare de date
● Facebook - 7 PB/luna in crestere
● NYSE - 5 TB/zi
● LHC - 40 TB/sec -> 300 MB/sec, 30 PB/an
Scalare
Verticala
- Adaugarea de CPU, Memorie,
alte resurse unui singur sistem
- Folosit in virtualizare -
eficientizare in utilizarea
resurselor
- Supercalculatoare
- Nu ofera redundanta
Orizontala
- Distribuirea procesarii pe masini
diferite
- Introduce complexitate prin
mecanisme aditionale de
management al unui cluster
- Asigura redundanta
Hadoop
Istoric
2006 - prima versiune lansata
2011 - versiunea 1.0.0 lansat ca
proiect Apache
2016 - versiunea 2.2.8
Ecosistem
● Common, Yarn, HDFS
● Pig, Hive, Spark - procesare de
date
● Hbase, Cassandra, Solr - NoSql
● Flume, Kafka (queue)
● Zookeeper - coordonare sarcini
distribuite
Solutii Hadoop
Hosted:
● Cloudera CDH
● Hortonworks
● MapR
Cloud:
● Amazon EMR
● Google Data Proc
● Microsoft Azure
● IBM, ...
Hbase - nosql
PROS
- Inspirat din Google/Bigtable
- Schema flexibila
- Versionare pentru coloane
- Scalabilitate liniara
- Acces rapid la elemente - PK
- Suport pentru operatii atomice
(row)
- Util pentru algoritmi map-reduce
CONS
- Fara Tranzactii
- Rapoarte, agregari de date in
timp real
Procesarea datelor
Batch:
● MapReduce
● Apache Tez
Streaming:
● Apache Spark
● Apache Storm
● Samza
Algoritmul MapReduce
Fisier Fiecare linie este
trimisa la un singur
mapper
Map Shuffle Reduce
Configurare Cluster
Hadoop
● Namenode (1)
● Datanode
Yarn
● Resource Manager
● Node Manager
Proiect
Business workflow
Agentie Turism
Booking System (GDS)
Hotel
Client
Procesator Plati
Analiza Bookings & Payments
Dunning (FAX)
Recuperare comisioane
Arhitectura
Load Balancer
Web 1 Web 2
Data Node
* HBase
* Solr
Data Node
* HBase
* Solr
Data Node
* HBase
* Solr
NameNode
MySQL
CLOUDERA MANAGER
Batch Processing
● Incarcare unui Batch (Payment, Booking)
● Procesare, Curatare, Standardizare
● Indexare
● Deduplicare
● Realizare de grupare, totaluri, matching
Importul Datelor
HDFS
HBaseSCRIPT
Sharefile
SFTP
Other
Locations
MapReduce
0
100
101
200
Copy to
HDFS
MapReduce
Standardizarea datelor
CLIENT
Reprezentarea datelor in HBase:
ECS META
MapReduce
Standardization
JOB
● Datele originale din document sunt pastrate in familia CLIENT
● Datele sunt corectate si standardizate in familia ECS
● Alte procese folosesc doar datele din ECS
Other Jobs
De-duplicarea si gruparea datelor
● Booking-urile provin de la cateva
sisteme:
○ BCK
○ GDS
○ DTR
● Se realizeaza o grupare in functie
de datele de inceput/final
● Se alege un record care va fi
considerat primary
● Payment-urile sunt atribuite unui booking
primary
● Se realizeaza totaluri
● Se creeaza dunning-uri
PIG
Data Processing made easy
● Limbaj High Level
● Usor de paralelizat
joined = JOIN filtered_b1 BY (cid, record_locator),
filtered_b2 BY (cid, record_locator),
USING 'skewed' PARALLEL 36;
matched = GROUP matched_only BY b1_rowkey
PARALLEL 50;
Rapoarte ● Solr - cautare
● MySQL
○ Agregare date
○ Small Data - user info, forms
Big Data
“Torture the data and it will
confess anything”
Ronald Coase - Economist
Thanks!
Gabriel Petchesi
gabriel.petchesi@e-spres-oh.com
Sorin Florea
sorin.florea@e-spres-oh.com
[e-spres-oh]
http://e-spres-oh.com
Q & A

More Related Content

Viewers also liked

Media pitch - Sam JL Shaw
Media pitch - Sam JL Shaw Media pitch - Sam JL Shaw
Media pitch - Sam JL Shaw Samuel_Shaw
 
Spanish Fort 3rd Qtr 2016
Spanish Fort 3rd Qtr 2016Spanish Fort 3rd Qtr 2016
Spanish Fort 3rd Qtr 2016David Williams
 
Practica de windows
Practica de windows Practica de windows
Practica de windows Norman Lucero
 
Digitala utbildningar - mycket förmånliga priser
Digitala utbildningar - mycket förmånliga priserDigitala utbildningar - mycket förmånliga priser
Digitala utbildningar - mycket förmånliga priserMonica Ivesköld
 
ECMT463_FinalDraft
ECMT463_FinalDraftECMT463_FinalDraft
ECMT463_FinalDraftLalit Datta
 
I guerra mundial
I guerra mundialI guerra mundial
I guerra mundialoasjf
 
Sonia chable. ada5 bloque1-2semestre.xlsx
Sonia chable. ada5 bloque1-2semestre.xlsxSonia chable. ada5 bloque1-2semestre.xlsx
Sonia chable. ada5 bloque1-2semestre.xlsxSomassiel Ortiz
 
Act 2 en parejas
Act 2 en parejasAct 2 en parejas
Act 2 en parejasAlondra BV
 

Viewers also liked (15)

Informática
InformáticaInformática
Informática
 
Media pitch - Sam JL Shaw
Media pitch - Sam JL Shaw Media pitch - Sam JL Shaw
Media pitch - Sam JL Shaw
 
Spanish Fort 3rd Qtr 2016
Spanish Fort 3rd Qtr 2016Spanish Fort 3rd Qtr 2016
Spanish Fort 3rd Qtr 2016
 
Practica de windows
Practica de windows Practica de windows
Practica de windows
 
Digitala utbildningar - mycket förmånliga priser
Digitala utbildningar - mycket förmånliga priserDigitala utbildningar - mycket förmånliga priser
Digitala utbildningar - mycket förmånliga priser
 
Freedom - POS
Freedom - POSFreedom - POS
Freedom - POS
 
ECMT463_FinalDraft
ECMT463_FinalDraftECMT463_FinalDraft
ECMT463_FinalDraft
 
OduyeluCV-1
OduyeluCV-1OduyeluCV-1
OduyeluCV-1
 
Paisajes
PaisajesPaisajes
Paisajes
 
Structure of english
Structure of englishStructure of english
Structure of english
 
Ecología
EcologíaEcología
Ecología
 
I guerra mundial
I guerra mundialI guerra mundial
I guerra mundial
 
Sonia chable. ada5 bloque1-2semestre.xlsx
Sonia chable. ada5 bloque1-2semestre.xlsxSonia chable. ada5 bloque1-2semestre.xlsx
Sonia chable. ada5 bloque1-2semestre.xlsx
 
Presidente correa 2
Presidente correa 2Presidente correa 2
Presidente correa 2
 
Act 2 en parejas
Act 2 en parejasAct 2 en parejas
Act 2 en parejas
 

Similar to Big Data - A Developer_s Perspective

Prezentare proiect GiSHEO - Marian Neagu
Prezentare proiect GiSHEO - Marian NeaguPrezentare proiect GiSHEO - Marian Neagu
Prezentare proiect GiSHEO - Marian Neaguvasile33
 
Alternative Open Source pentru mediul de afaceri-19mar2010
Alternative Open Source pentru mediul de afaceri-19mar2010Alternative Open Source pentru mediul de afaceri-19mar2010
Alternative Open Source pentru mediul de afaceri-19mar2010Agora Group
 
Ro IT Webinar - Masina Virtuala, calatorie catre cloud
Ro IT Webinar - Masina Virtuala, calatorie catre cloudRo IT Webinar - Masina Virtuala, calatorie catre cloud
Ro IT Webinar - Masina Virtuala, calatorie catre cloudMarius Zaharia
 
Amelia_proiect
Amelia_proiectAmelia_proiect
Amelia_proiectamelia87c
 
Innovation in Publishing - HTML5 and Cloud Computing
Innovation in Publishing - HTML5 and Cloud ComputingInnovation in Publishing - HTML5 and Cloud Computing
Innovation in Publishing - HTML5 and Cloud ComputingMihai Dan Nadas
 
LOAD 2014 - Prezentare Spearhead
LOAD 2014 - Prezentare SpearheadLOAD 2014 - Prezentare Spearhead
LOAD 2014 - Prezentare SpearheadSilviu Cojocaru
 
Ioan Eugen Stan - Introducere HBase
Ioan Eugen Stan -  Introducere HBaseIoan Eugen Stan -  Introducere HBase
Ioan Eugen Stan - Introducere HBaseAsociatia ProLinux
 
Introducere în ecosistemul Hadoop
Introducere în ecosistemul HadoopIntroducere în ecosistemul Hadoop
Introducere în ecosistemul HadoopAndrei Postolache
 
Dell - 21 aprilie 2011
Dell - 21 aprilie 2011Dell - 21 aprilie 2011
Dell - 21 aprilie 2011Agora Group
 
Drupal Global Training Days - 31 May 2014
Drupal Global Training Days  - 31 May 2014Drupal Global Training Days  - 31 May 2014
Drupal Global Training Days - 31 May 2014romancri
 

Similar to Big Data - A Developer_s Perspective (15)

Hadoop - Intro
Hadoop - IntroHadoop - Intro
Hadoop - Intro
 
Redis si Resque
Redis si ResqueRedis si Resque
Redis si Resque
 
Prezentare proiect GiSHEO - Marian Neagu
Prezentare proiect GiSHEO - Marian NeaguPrezentare proiect GiSHEO - Marian Neagu
Prezentare proiect GiSHEO - Marian Neagu
 
Baze de date NoSQL
Baze de date NoSQLBaze de date NoSQL
Baze de date NoSQL
 
Alternative Open Source pentru mediul de afaceri-19mar2010
Alternative Open Source pentru mediul de afaceri-19mar2010Alternative Open Source pentru mediul de afaceri-19mar2010
Alternative Open Source pentru mediul de afaceri-19mar2010
 
Ro IT Webinar - Masina Virtuala, calatorie catre cloud
Ro IT Webinar - Masina Virtuala, calatorie catre cloudRo IT Webinar - Masina Virtuala, calatorie catre cloud
Ro IT Webinar - Masina Virtuala, calatorie catre cloud
 
Amelia_proiect
Amelia_proiectAmelia_proiect
Amelia_proiect
 
Innovation in Publishing - HTML5 and Cloud Computing
Innovation in Publishing - HTML5 and Cloud ComputingInnovation in Publishing - HTML5 and Cloud Computing
Innovation in Publishing - HTML5 and Cloud Computing
 
LOAD 2014 - Prezentare Spearhead
LOAD 2014 - Prezentare SpearheadLOAD 2014 - Prezentare Spearhead
LOAD 2014 - Prezentare Spearhead
 
Ioan Eugen Stan - Introducere HBase
Ioan Eugen Stan -  Introducere HBaseIoan Eugen Stan -  Introducere HBase
Ioan Eugen Stan - Introducere HBase
 
NoSql
NoSqlNoSql
NoSql
 
Introducere în ecosistemul Hadoop
Introducere în ecosistemul HadoopIntroducere în ecosistemul Hadoop
Introducere în ecosistemul Hadoop
 
27ian2011 trend
27ian2011   trend27ian2011   trend
27ian2011 trend
 
Dell - 21 aprilie 2011
Dell - 21 aprilie 2011Dell - 21 aprilie 2011
Dell - 21 aprilie 2011
 
Drupal Global Training Days - 31 May 2014
Drupal Global Training Days  - 31 May 2014Drupal Global Training Days  - 31 May 2014
Drupal Global Training Days - 31 May 2014
 

Big Data - A Developer_s Perspective