SlideShare a Scribd company logo
Databases in
Hadoop
Steven Goris, Joni Verzelen, Lies Haemels
Korte inhoud
● HBase
● Accumulo
● Giraph
Data opslaan op HBASE vs HDFS
HBASE
● Lage latency
● Snelle random lees- en schrijfoperaties
● Geeft snel toegang tot één enkele rij
HDFS
● Gemaakt voor batch processing
● Snelle sequentiële lees- en schrijfoperaties
HBase
Belangrijkste features
● Column family store
o Linear & modular scalability
o Automatic sharding & replication
o Versioning
● Automatic failover
● Werkt met HDFS als filesystem
● Hadoop integratie
Column family store
● Schema-less
● Scalability
● Cellen met lege waarden kunnen weggelaten worden
● family -- column name = key -- value
● Tabellen worden opgeslagen per column family
o ↳hierdoor moet bij queries op familie niet alles
worden gescand
o Kolommen kunnen één keer voorkomen per familie
● Families zorgen ervoor dat er verder gedenormaliseerd
kan worden dan in klassieke SQL
Column family store
Opslagformaat
Versioning
standaard worden 3 versies
bijgehouden,
geïdentificieerd met een
timestamp
Column family store
Resultaat
rowid User:
name
User:
e-mail
Social:
friend
Social:
friend
Social:
classmate
u1 Ricky ricky@yahoo.com u10 u13
u2 Sam u10 u15
Opmerking: dubbele kolommen niet mogelijk in HBASE
➜ bij het toevoegen van een al bestaande kolom wordt de bestaande waarde
vervangen
Column family store
Toepassing sales
HBase in HUE
Insert new row
HBase in HUE
Rows:
HBase in HUE
● Column family store
o Per rij de kolommen en de celdata zelf
o Rows kunnen verschillen in kolommen
o Elke kolom heeft een familie
One row:
HBase architecture
Namenodes
• Houdt mappenstructuur van files bij
• Zegt waar op de cluster de files staan
HStore
Beperkt aantal regions/
RegionServer (~100) om
werkgeheugen te sparen
(~2MB/family/region zonder
data)
HStore
HStore HStore
HStore HStore
HStore HStore
Startup
Master assigns regions to
regionservers
HStore HStore
HStore HStore
HStore HStore
HStore HStore
Automatic sharding
Regions worden gesplitst en
herverdeeld door de master
als ze te groot worden
Load balancing
HStore HStore
HStore HStore
Hearthbeat
HStore HStore
HStore HStore
Failove
r
Hearthbeat
Master reassigns
regions to other
regionserver
Accumulo features
● Afkomstig van NSA
● Column family store
● Realtime analytics
● ACL (acces control list) op elke rij
o Included in HBase 0.98
● User database voor authenticatie
o Hbase: Kerberos (protocol using secret-key
cryptografie)
● Auto sharding
Accumulo: nadelen
● Geen replicatie
● Maximum één master (SPOF)
Apache Giraph
● Graph processing tool
● Map-only job in hadoop
● Alle berekeningen gebeuren in memory
Graph processing
● vertices en edges
● WWW, Facebook, Twitter, wegennetwerk
● werkt iteratief
PageRank
1. iedere vertice begint met dezelfde
PageRank
1
2
3
PageRank
2. elke vertice stuurt een evenredig deel van
zijn PageRank naar zijn buren
PageRank
3. elke vertex telt de waardes die hij binnen
krijgt op, en dit wordt zijn nieuwe waarde
1
1,5
0,5
PageRank
n. dit wordt herhaald tot dat de wijzigingen
aan de PageRank zo klein is dat het niet meer
uitmaakt
PageRank met MapReduce
● sorteert bij elke iteratie al de vertexes
● schrijft elke iteratie weg naar de harde schijf
● en leest ze dan weer in...
PageRank met Giraph
● alles gebeurt op de mappers
Wie doet wat?

More Related Content

Recently uploaded

Recently uploaded (7)

Synergie tussen AGOL en FME. Opbouw van relaties tussen OTL-objecten en AWV L...
Synergie tussen AGOL en FME. Opbouw van relaties tussen OTL-objecten en AWV L...Synergie tussen AGOL en FME. Opbouw van relaties tussen OTL-objecten en AWV L...
Synergie tussen AGOL en FME. Opbouw van relaties tussen OTL-objecten en AWV L...
 
Validatie en Extractie van BIM-modellen met FME en Cadac Control
Validatie en Extractie van BIM-modellen met FME en Cadac ControlValidatie en Extractie van BIM-modellen met FME en Cadac Control
Validatie en Extractie van BIM-modellen met FME en Cadac Control
 
Inrichting van de FME Flow Server. Hoe creëer je een goed doordachte governan...
Inrichting van de FME Flow Server. Hoe creëer je een goed doordachte governan...Inrichting van de FME Flow Server. Hoe creëer je een goed doordachte governan...
Inrichting van de FME Flow Server. Hoe creëer je een goed doordachte governan...
 
Automatische lokalisatie van schematische tekeningen van spoorwegnetwerk door...
Automatische lokalisatie van schematische tekeningen van spoorwegnetwerk door...Automatische lokalisatie van schematische tekeningen van spoorwegnetwerk door...
Automatische lokalisatie van schematische tekeningen van spoorwegnetwerk door...
 
Van inschrijving tot CRM: Efficiënte Automatisering met FME Flow en Teamleade...
Van inschrijving tot CRM: Efficiënte Automatisering met FME Flow en Teamleade...Van inschrijving tot CRM: Efficiënte Automatisering met FME Flow en Teamleade...
Van inschrijving tot CRM: Efficiënte Automatisering met FME Flow en Teamleade...
 
What's New in FME 2024: belangrijkste functies te delen die uw operationele e...
What's New in FME 2024: belangrijkste functies te delen die uw operationele e...What's New in FME 2024: belangrijkste functies te delen die uw operationele e...
What's New in FME 2024: belangrijkste functies te delen die uw operationele e...
 
FME FlowAutomations: meer dan een keten van workspaces
FME FlowAutomations: meer dan een keten van workspacesFME FlowAutomations: meer dan een keten van workspaces
FME FlowAutomations: meer dan een keten van workspaces
 

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

Databases in hadoop