3. Despre
Apetit tot mai mare pentru stocare si prelucrare de date
● Facebook - 7 PB/luna in crestere
● NYSE - 5 TB/zi
● LHC - 40 TB/sec -> 300 MB/sec, 30 PB/an
4. Scalare
Verticala
- Adaugarea de CPU, Memorie,
alte resurse unui singur sistem
- Folosit in virtualizare -
eficientizare in utilizarea
resurselor
- Supercalculatoare
- Nu ofera redundanta
Orizontala
- Distribuirea procesarii pe masini
diferite
- Introduce complexitate prin
mecanisme aditionale de
management al unui cluster
- Asigura redundanta
5. Hadoop
Istoric
2006 - prima versiune lansata
2011 - versiunea 1.0.0 lansat ca
proiect Apache
2016 - versiunea 2.2.8
Ecosistem
● Common, Yarn, HDFS
● Pig, Hive, Spark - procesare de
date
● Hbase, Cassandra, Solr - NoSql
● Flume, Kafka (queue)
● Zookeeper - coordonare sarcini
distribuite
7. Hbase - nosql
PROS
- Inspirat din Google/Bigtable
- Schema flexibila
- Versionare pentru coloane
- Scalabilitate liniara
- Acces rapid la elemente - PK
- Suport pentru operatii atomice
(row)
- Util pentru algoritmi map-reduce
CONS
- Fara Tranzactii
- Rapoarte, agregari de date in
timp real
16. Standardizarea datelor
CLIENT
Reprezentarea datelor in HBase:
ECS META
MapReduce
Standardization
JOB
● Datele originale din document sunt pastrate in familia CLIENT
● Datele sunt corectate si standardizate in familia ECS
● Alte procese folosesc doar datele din ECS
Other Jobs
17. De-duplicarea si gruparea datelor
● Booking-urile provin de la cateva
sisteme:
○ BCK
○ GDS
○ DTR
● Se realizeaza o grupare in functie
de datele de inceput/final
● Se alege un record care va fi
considerat primary
● Payment-urile sunt atribuite unui booking
primary
● Se realizeaza totaluri
● Se creeaza dunning-uri
18. PIG
Data Processing made easy
● Limbaj High Level
● Usor de paralelizat
joined = JOIN filtered_b1 BY (cid, record_locator),
filtered_b2 BY (cid, record_locator),
USING 'skewed' PARALLEL 36;
matched = GROUP matched_only BY b1_rowkey
PARALLEL 50;
19. Rapoarte ● Solr - cautare
● MySQL
○ Agregare date
○ Small Data - user info, forms