Baarn, 5 juli 2012
Hadoop als extensie op het DWH      Agenda      •   Misvattingen      •   (korte) Intro Hadoop      •   Hadoop & BI      •...
Hadoop als extensie op het DWH                  Misvattingen         Meest gehoorde bezwaren      • Hadoop is alleen voor ...
Hadoop als extensie op het DWH              Intro Hadoop         Kenmerken    •   Gedistribueerde opslag & verwerking    •...
Hadoop als extensie op het DWH                                 Intro Hadoop      Verticale schaalbaarheid      6-7-2012   ...
Hadoop als extensie op het DWH                                   Intro Hadoop      Horizontale schaalbaarheid      6-7-201...
Hadoop als extensie op het DWH                                 Intro Hadoop      In de praktijk…      6-7-2012            ...
Hadoop als extensie op het DWH                                                                          Intro Hadoop      ...
Hadoop als extensie op het DWH                Intro Hadoop   General purpose computing platform                           ...
Hadoop als extensie op het DWH                                                       Hadoop & BI   Relevantie van BI…     ...
Hadoop als extensie op het DWH                                                Hadoop & BI       BI                        ...
Hadoop als extensie op het DWH                                       Hadoop & BI       SQL                       MapReduce...
Hadoop als extensie op het DWH                                                          Hadoop & BI                       ...
Hadoop als extensie op het DWH                                          Hadoop & BI                     Mapper code    Wat...
Hadoop als extensie op het DWH            Hadoop & BI       SQL                         MapReduce    – Concurrent         ...
Hadoop als extensie op het DWH                          Demo       Hive     – vertaalt:            Select search_term, col...
Hadoop als extensie op het DWH                                                                              Demo   Zoekged...
Hadoop als extensie op het DWH                 Demo   Zoekgedrag: Apache webserverlog GSA   - Wat zijn de meest gevraagde ...
Hadoop als extensie op het DWH            Hadoop & BI       SQL                       MapReduce    – Concurrent           ...
Hadoop als extensie op het DWH          Showcase Datameer   De race is on…..de beste analytics and visualisation tool   di...
Hadoop als extensie op het DWH   Showcase Datameer       En visualisaties      6-7-2012                                   ...
Hadoop als extensie op het DWH                      Stappenplan       Stappenplan   – Formeer taskgroup (BI, Linux, Java é...
Hadoop als extensie op het DWH   Vragen       Zijn er vragen…..      6-7-2012                            23
Hadoop als extensie op het DWH   Uw spreker:   - Jasper Knulst   - Jasper.knulst@incentro.com   - Twitter: @jknulst   - Do...
Upcoming SlideShare
Loading in...5
×

Hadoop als extensie op het dwh

357

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
357
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Hadoop als extensie op het dwh

  1. 1. Baarn, 5 juli 2012
  2. 2. Hadoop als extensie op het DWH Agenda • Misvattingen • (korte) Intro Hadoop • Hadoop & BI • Demo logparsing met Hadoop • Showcase Datameer • Stappenplan • Vragen 6-7-2012 2
  3. 3. Hadoop als extensie op het DWH Misvattingen Meest gehoorde bezwaren • Hadoop is alleen voor de Googles, Linked-ins en Facebooks (Bol.com’s) van deze wereld • Alleen Java programmeurs kunnen met Hadoop omgaan • Informatievoorziening obv Hadoop is een stap achteruit tov zwaarbevochte DWH principes • BI moet zich alleen met geregistreerde transacties bezighouden (en dus gestructureerde data) • Hadoop is (gelukkig) over 2 jaar weer voorbij 6-7-2012 3
  4. 4. Hadoop als extensie op het DWH Intro Hadoop Kenmerken • Gedistribueerde opslag & verwerking • Linux & Java • Generiek platform voor (on)gestructureerde data • Open source • Bewezen technologie • Uitgebreid ecosysteem & community • Commodity hardware • Horizontale schaalbaarheid 6-7-2012 4
  5. 5. Hadoop als extensie op het DWH Intro Hadoop Verticale schaalbaarheid 6-7-2012 5
  6. 6. Hadoop als extensie op het DWH Intro Hadoop Horizontale schaalbaarheid 6-7-2012 6
  7. 7. Hadoop als extensie op het DWH Intro Hadoop In de praktijk… 6-7-2012 7
  8. 8. Hadoop als extensie op het DWH Intro Hadoop Datatypen Structured  Quasi-structured TimeþUser-IDþIPþAdvertiser-IDþOrder-IDþAd-IDþCreative-ID 08-15-2010þ89419260238675þ83.247.15.106þ1372803þ4742705þ227713994 213.75.28.33 063xxx7160 17/Apr/2012:02:00:58 GET /web/Mijn-Hi/Mijn-Profiel.htm 200 31972 213.75.60.15 063x8x1x14 17/Apr/2012:02:01:00 GET/web/form?ff=87202&formelement=91536 &pageid=26114&orgurl=&gotourl=&autologin=false&fromaw=true&errorurl=https%3A%2F%2Fwww.h 213.75.60.158 06xxx51014 17/Apr/2012:02:02:38 POST /amserver/UI/Logout 302 - - Mozilla/5.0 Data types (compatible; PRTG Network Monitor (www.paessler.com); Windows)  Unstructured Beste BI-ers, 20 september is de volgende pentaho expertise avond. De avond zal in het teken komen staan van CDE/CDF. Julien zal ons zijn ervaringen delen.  Semi-structured Verder zijn er nog een aantal zaken binnen PDI die schreeuwen om bekend te worden bij iedereen die Pentaho gebruikt. Als laatste zullen we de VLC vorderingen op het gebied van social BI (koppeling social media met BI) bespreken. <configuration> We starten om 17:45 met een hapje en de avond zelf start om 18:30 <property> Meld je aan door een reply op deze mail! Tot dan <name>dfs.replication</name> <value>1</value> Peter Consultant </property> </configuration> Fascinatio Boulevard 562-4 2909 VA Capelle aan den IJssel T: +31(0)10 20 20 544 6-7-2012 8
  9. 9. Hadoop als extensie op het DWH Intro Hadoop General purpose computing platform entity ext. indexing Textual ETL search metadata filtering Data types aggregatie datamart ETL datamining BI tools reporting clickstream rules analyse datamining behavioural targeting matching fraude recommendation detectie graph analyse 6-7-2012 9
  10. 10. Hadoop als extensie op het DWH Hadoop & BI Relevantie van BI… Relevante data BI BI 6-7-2012 10
  11. 11. Hadoop als extensie op het DWH Hadoop & BI BI Hadoop – Aantal nieuwe abonnees – Waar haakten potentiële nieuwe abonnees af? – Aantal telefonische – Welke bellers zijn er ook beroepen service desk vooraf on-line geweest? (wat zegt dat over de site) – Aantal verkochte smart – Hoe gebruiken klanten product/service XX mijn product exact? – Aantal unieke bezoekers – Zijn dezelfde bezoekers na per dag 3 maanden nog actief? 6-7-2012 11
  12. 12. Hadoop als extensie op het DWH Hadoop & BI SQL MapReduce – Concurrent – Batch (+) – Wachttijd < 2 min. – 1 min. tot …. – Schema on write – Schema on read – Beperkte mogelijkheden – Pluggable by design – Beperkte onderst. tekst – Alle data – Schaalt verticaal – Schaalt horizontaal – Iedereen kan het – ... – Dé taal van BI tools –… 6-7-2012 12
  13. 13. Hadoop als extensie op het DWH Hadoop & BI MapReduce INPUT mapper 1 1 mapper 2 2 reducer 1 OUTPUT 3 3 mapper 3 2 4 3 ….. ….. ….. mapper n nK = file offset, V = record K = stad, V = 1 K = stad, V = som(1,1,…) 6-7-2012 13
  14. 14. Hadoop als extensie op het DWH Hadoop & BI Mapper code Wat zet ik op mijn lijstje? - Filteren - Transformeren Reduce code Wat wil ik met het lijstje? - Aggregreren - Joinen
  15. 15. Hadoop als extensie op het DWH Hadoop & BI SQL MapReduce – Concurrent – Batch (+) – Wachttijd < 1 min. – 1 min. tot …. – Schema on write – Schema on read – Beperkte mogelijkheden – Pluggable by design – Geen tekst – Alle data – Schaalt verticaal – Schaalt horizontaal – Iedereen kan het – Iedereen kan het !! – De taal van onze tools 6-7-2012 15
  16. 16. Hadoop als extensie op het DWH Demo Hive – vertaalt: Select search_term, collection, results from gsa_log; – naar: Stap 1. File uploaden Stap 2. Metadata aanmaken (regular expression) Stap 3. Analyseren 6-7-2012 16
  17. 17. Hadoop als extensie op het DWH Demo Zoekgedrag: Apache webserverlog GSA 2,5 GB 6,8 miljoen regels 10.3.36.13 - - [01/May/2012:00:02:12 -2300] "GET /search?q=15+wat&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe=UT 10.3.36.13 - - [01/May/2012:00:02:12 -2300] "GET /search?q=15+wat&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe= 8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.13,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HTTP/1.1" 20 8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.13,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HTTP/1.1" 20 10.3.37.34 - - [01/May/2012:00:02:09 -2300] "GET /search?q=neem+je&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe=U 10.3.37.34 - - [01/May/2012:00:02:09 -2300] "GET /search?q=neem+je&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe 8&ud=1&output=xml_no_dtd&num=10&tlen=90&site=Forum&start=280&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HT 8&ud=1&output=xml_no_dtd&num=10&tlen=90&site=Forum&start=280&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HT 12911 378 0.17 12911 378 0.17 10.3.36.32 - - [01/May/2012:00:02:04 -2300] "GET /search?q=via+mijnkpn+op+het&access=p&filter=0&getfields=*&client=default_frontend&ent 10.3.36.32 - - [01/May/2012:00:02:04 -2300] "GET /search?q=via+mijnxxx+op+het&access=p&filter=0&getfields=*&client=default_fronte 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a H 385 0.12 =UTF-8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.184&sort=date:D:L:d1&entqrm=0&ents 10.3.36.32 - - [01/May/2012:00:02:00 -2300] "GET /search?q=15+at+kpn&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe= 200 3143 385 0.12 8&ud=1&output=xml_no_dtd&num=10&tlen=90&site=Forum&start=340&ip=10.3.36.32,10.68.61.162&sort=date:D:L:d1&entqrm=0&entsp=a HT 10.3.36.32 - - [01/May/2012:00:02:00 -2300] "GET /search?q=15+at+xxx&access=p&filter=0&getfields=*&client=default_frontend&entqr=3& 13347 729 0.19 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=10&ip=10.3.36.32,10.68.61.162&tlen=90&site=Forum&start=340&sort=date:D:L:d1&entqrm=0& 10.3.37.34 - - [01/May/2012:00:01:58 -2300] "GET /search?q=tot+drie&access=p&filter=0&getfields=*&client=default_frontend&entqr=3&oe=UT 200 13347 729 0.19 8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a HTTP/1.1" 20 10.3.37.34 - - [01/May/2012:00:01:58 -2300] "GET /search?q=tot+drie&access=p&filter=0&client=default_frontend&entqr=3&oe=UTF-8&ie=U 10.3.36.32 - - [01/May/2012:00:01:55 -2300] "GET /search?q=neem+voor+het&access=p&filter=0&getfields=*&client=default_frontend&entqr=3 8&ud=1&output=xml_no_dtd&num=2&getfields=*&site=Glas_and_GlasFaq&ip=10.3.37.34,10.68.61.184&sort=date:D:L:d1&entqrm=0&entsp=a 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.162&sort=date:D:L:d1&entqrm=0&entsp=a H 3568 71 0.03 492 0.11 10.3.36.32 - - [01/May/2012:00:01:55 -2300] "GET /search?q=neem+voor+het&access=p&filter=0&getfields=*&client=default_frontend&en 8&ie=UTF-8&ud=1&output=xml_no_dtd&num=2&site=Glas_and_GlasFaq&ip=10.3.36.32,10.68.61.162&sort=date:D:L:d1&entqrm=0&entsp=a H 492 0.11 6-7-2012 17
  18. 18. Hadoop als extensie op het DWH Demo Zoekgedrag: Apache webserverlog GSA - Wat zijn de meest gevraagde zoektermen per dag? - Welke vaak gebruikte zoektermen leveren geen zoekresultaten op? DEMO 6-7-2012 18
  19. 19. Hadoop als extensie op het DWH Hadoop & BI SQL MapReduce – Concurrent – Batch (+) – Wachttijd < 1 min. – 1 min. tot …. – Schema on write – Schema on read – Beperkte mogelijkheden – Pluggable by design – Geen tekst – Alle data – Schaalt verticaal – Schaalt horizontaal – Iedereen kan het – Iedereen kan het !! – Dé taal van onze tools – ‘Hadoop made easy’ = kwestie van tijd 6-7-2012 19
  20. 20. Hadoop als extensie op het DWH Showcase Datameer De race is on…..de beste analytics and visualisation tool direct op Hadoop – Datameer – Hadapt – Karmasphere – IBM Bigsheets / many eyes – Splunk 6-7-2012 20
  21. 21. Hadoop als extensie op het DWH Showcase Datameer En visualisaties 6-7-2012 21
  22. 22. Hadoop als extensie op het DWH Stappenplan Stappenplan – Formeer taskgroup (BI, Linux, Java én de BUSINESS) – Identificeer relevante bronnen – Start met 2 tot nodes (cloud, desktops, oude servers) – Start POC – Stel realistische doelen – Verbreed gebruikersgroep – Schaal horizontaal (Hadoop werkt als een magneet) 6-7-2012 22
  23. 23. Hadoop als extensie op het DWH Vragen Zijn er vragen….. 6-7-2012 23
  24. 24. Hadoop als extensie op het DWH Uw spreker: - Jasper Knulst - Jasper.knulst@incentro.com - Twitter: @jknulst - Download de whitepaper ‘De Stand van Hadoop’ http://www.incentro.com/nl/case/incentro-whitepaper-de-stand-van-hadoop 6-7-2012 24

×