• Save
Hadoop als extensie op het dwh
Upcoming SlideShare
Loading in...5
×
 

Hadoop als extensie op het dwh

on

  • 448 views

 

Statistics

Views

Total Views
448
Views on SlideShare
448
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Hadoop als extensie op het dwh Hadoop als extensie op het dwh Presentation Transcript

  • Baarn, 5 juli 2012
  • Hadoop als extensie op het DWH Agenda • Misvattingen • (korte) Intro Hadoop • Hadoop & BI • Demo logparsing met Hadoop • Showcase Datameer • Stappenplan • Vragen 6-7-2012 2
  • Hadoop als extensie op het DWH Misvattingen Meest gehoorde bezwaren • Hadoop is alleen voor de Googles, Linked-ins en Facebooks (Bol.com’s) van deze wereld • Alleen Java programmeurs kunnen met Hadoop omgaan • Informatievoorziening obv Hadoop is een stap achteruit tov zwaarbevochte DWH principes • BI moet zich alleen met geregistreerde transacties bezighouden (en dus gestructureerde data) • Hadoop is (gelukkig) over 2 jaar weer voorbij 6-7-2012 3
  • Hadoop als extensie op het DWH Intro Hadoop Kenmerken • Gedistribueerde opslag & verwerking • Linux & Java • Generiek platform voor (on)gestructureerde data • Open source • Bewezen technologie • Uitgebreid ecosysteem & community • Commodity hardware • Horizontale schaalbaarheid 6-7-2012 4
  • Hadoop als extensie op het DWH Intro Hadoop Verticale schaalbaarheid 6-7-2012 5
  • Hadoop als extensie op het DWH Intro Hadoop Horizontale schaalbaarheid 6-7-2012 6
  • Hadoop als extensie op het DWH Intro Hadoop In de praktijk… 6-7-2012 7
  • Hadoop als extensie op het DWH Intro Hadoop Datatypen Structured  Quasi-structured TimeþUser-IDþIPþAdvertiser-IDþOrder-IDþAd-IDþCreative-ID 08-15-2010þ89419260238675þ83.247.15.106þ1372803þ4742705þ227713994 213.75.28.33 063xxx7160 17/Apr/2012:02:00:58 GET /web/Mijn-Hi/Mijn-Profiel.htm 200 31972 213.75.60.15 063x8x1x14 17/Apr/2012:02:01:00 GET/web/form?ff=87202&formelement=91536 &pageid=26114&orgurl=&gotourl=&autologin=false&fromaw=true&errorurl=https%3A%2F%2Fwww.h 213.75.60.158 06xxx51014 17/Apr/2012:02:02:38 POST /amserver/UI/Logout 302 - - Mozilla/5.0 Data types (compatible; PRTG Network Monitor (www.paessler.com); Windows)  Unstructured Beste BI-ers, 20 september is de volgende pentaho expertise avond. De avond zal in het teken komen staan van CDE/CDF. Julien zal ons zijn ervaringen delen.  Semi-structured Verder zijn er nog een aantal zaken binnen PDI die schreeuwen om bekend te worden bij iedereen die Pentaho gebruikt. Als laatste zullen we de VLC vorderingen op het gebied van social BI (koppeling social media met BI) bespreken. <configuration> We starten om 17:45 met een hapje en de avond zelf start om 18:30 <property> Meld je aan door een reply op deze mail! Tot dan <name>dfs.replication</name> <value>1</value> Peter Consultant </property> </configuration> Fascinatio Boulevard 562-4 2909 VA Capelle aan den IJssel T: +31(0)10 20 20 544 6-7-2012 8
  • Hadoop als extensie op het DWH Intro Hadoop General purpose computing platform entity ext. indexing Textual ETL search metadata filtering Data types aggregatie datamart ETL datamining BI tools reporting clickstream rules analyse datamining behavioural targeting matching fraude recommendation detectie graph analyse 6-7-2012 9
  • Hadoop als extensie op het DWH Hadoop & BI Relevantie van BI… Relevante data BI BI 6-7-2012 10
  • Hadoop als extensie op het DWH Hadoop & BI BI Hadoop – Aantal nieuwe abonnees – Waar haakten potentiële nieuwe abonnees af? – Aantal telefonische – Welke bellers zijn er ook beroepen service desk vooraf on-line geweest? (wat zegt dat over de site) – Aantal verkochte smart – Hoe gebruiken klanten product/service XX mijn product exact? – Aantal unieke bezoekers – Zijn dezelfde bezoekers na per dag 3 maanden nog actief? 6-7-2012 11
  • Hadoop als extensie op het DWH Hadoop & BI SQL MapReduce – Concurrent – Batch (+) – Wachttijd < 2 min. – 1 min. tot …. – Schema on write – Schema on read – Beperkte mogelijkheden – Pluggable by design – Beperkte onderst. tekst – Alle data – Schaalt verticaal – Schaalt horizontaal – Iedereen kan het – ... – Dé taal van BI tools –… 6-7-2012 12
  • Hadoop als extensie op het DWH Hadoop & BI MapReduce INPUT mapper 1 1 mapper 2 2 reducer 1 OUTPUT 3 3 mapper 3 2 4 3 ….. ….. ….. mapper n nK = file offset, V = record K = stad, V = 1 K = stad, V = som(1,1,…) 6-7-2012 13
  • Hadoop als extensie op het DWH Hadoop & BI Mapper code Wat zet ik op mijn lijstje? - Filteren - Transformeren Reduce code Wat wil ik met het lijstje? - Aggregreren - Joinen
  • Hadoop als extensie op het DWH Hadoop & BI SQL MapReduce – Concurrent – Batch (+) – Wachttijd < 1 min. – 1 min. tot …. – Schema on write – Schema on read – Beperkte mogelijkheden – Pluggable by design – Geen tekst – Alle data – Schaalt verticaal – Schaalt horizontaal – Iedereen kan het – Iedereen kan het !! – De taal van onze tools 6-7-2012 15
  • Hadoop als extensie op het DWH Demo Hive – vertaalt: Select search_term, collection, results from gsa_log; – naar: Stap 1. File uploaden Stap 2. Metadata aanmaken (regular expression) Stap 3. Analyseren 6-7-2012 16
  • Hadoop als extensie op het DWH Demo Zoekgedrag: Apache webserverlog GSA 2,5 GB 6,8 miljoen regels 10.3.36.13 - - [01/May/2012:00:02:12 -2300] "GET /search?q=15+wat&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe=UT 10.3.36.13 - - [01/May/2012:00:02:12 -2300] "GET /search?q=15+wat&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe= 8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.13,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HTTP/1.1" 20 8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.13,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HTTP/1.1" 20 10.3.37.34 - - [01/May/2012:00:02:09 -2300] "GET /search?q=neem+je&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe=U 10.3.37.34 - - [01/May/2012:00:02:09 -2300] "GET /search?q=neem+je&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe 8&ud=1&output=xml_no_dtd&num=10&tlen=90&site=Forum&start=280&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HT 8&ud=1&output=xml_no_dtd&num=10&tlen=90&site=Forum&start=280&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HT 12911 378 0.17 12911 378 0.17 10.3.36.32 - - [01/May/2012:00:02:04 -2300] "GET /search?q=via+mijnkpn+op+het&access=p&filter=0&getfields=*&client=default_frontend&ent 10.3.36.32 - - [01/May/2012:00:02:04 -2300] "GET /search?q=via+mijnxxx+op+het&access=p&filter=0&getfields=*&client=default_fronte 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a H 385 0.12 =UTF-8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.184&sort=date:D:L:d1&entqrm=0&ents 10.3.36.32 - - [01/May/2012:00:02:00 -2300] "GET /search?q=15+at+kpn&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe= 200 3143 385 0.12 8&ud=1&output=xml_no_dtd&num=10&tlen=90&site=Forum&start=340&ip=10.3.36.32,10.68.61.162&sort=date:D:L:d1&entqrm=0&entsp=a HT 10.3.36.32 - - [01/May/2012:00:02:00 -2300] "GET /search?q=15+at+xxx&access=p&filter=0&getfields=*&client=default_frontend&entqr=3& 13347 729 0.19 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=10&ip=10.3.36.32,10.68.61.162&tlen=90&site=Forum&start=340&sort=date:D:L:d1&entqrm=0& 10.3.37.34 - - [01/May/2012:00:01:58 -2300] "GET /search?q=tot+drie&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe=UT 200 13347 729 0.19 8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HTTP/1.1" 20 10.3.37.34 - - [01/May/2012:00:01:58 -2300] "GET /search?q=tot+drie&access=p&filter=0&client=default_frontend&entqr=3&oe=UTF-8&ie=U 10.3.36.32 - - [01/May/2012:00:01:55 -2300] "GET /search?q=neem+voor+het&access=p&filter=0&getfields=*&client=default_frontend&entqr=3 8&ud=1&output=xml_no_dtd&num=2&getfields=*&site=Glas_and_GlasFaq&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.162&sort=date:D:L:d1&entqrm=0&entsp=a H 3568 71 0.03 492 0.11 10.3.36.32 - - [01/May/2012:00:01:55 -2300] "GET /search?q=neem+voor+het&access=p&filter=0&getfields=*&client=default_frontend&en 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.162&sort=date:D:L:d1&entqrm=0&entsp=a H 492 0.11 6-7-2012 17
  • Hadoop als extensie op het DWH Demo Zoekgedrag: Apache webserverlog GSA - Wat zijn de meest gevraagde zoektermen per dag? - Welke vaak gebruikte zoektermen leveren geen zoekresultaten op? DEMO 6-7-2012 18
  • Hadoop als extensie op het DWH Hadoop & BI SQL MapReduce – Concurrent – Batch (+) – Wachttijd < 1 min. – 1 min. tot …. – Schema on write – Schema on read – Beperkte mogelijkheden – Pluggable by design – Geen tekst – Alle data – Schaalt verticaal – Schaalt horizontaal – Iedereen kan het – Iedereen kan het !! – Dé taal van onze tools – ‘Hadoop made easy’ = kwestie van tijd 6-7-2012 19
  • Hadoop als extensie op het DWH Showcase Datameer De race is on…..de beste analytics and visualisation tool direct op Hadoop – Datameer – Hadapt – Karmasphere – IBM Bigsheets / many eyes – Splunk 6-7-2012 20
  • Hadoop als extensie op het DWH Showcase Datameer En visualisaties 6-7-2012 21
  • Hadoop als extensie op het DWH Stappenplan Stappenplan – Formeer taskgroup (BI, Linux, Java én de BUSINESS) – Identificeer relevante bronnen – Start met 2 tot nodes (cloud, desktops, oude servers) – Start POC – Stel realistische doelen – Verbreed gebruikersgroep – Schaal horizontaal (Hadoop werkt als een magneet) 6-7-2012 22
  • Hadoop als extensie op het DWH Vragen Zijn er vragen….. 6-7-2012 23
  • Hadoop als extensie op het DWH Uw spreker: - Jasper Knulst - Jasper.knulst@incentro.com - Twitter: @jknulst - Download de whitepaper ‘De Stand van Hadoop’ http://www.incentro.com/nl/case/incentro-whitepaper-de-stand-van-hadoop 6-7-2012 24