Academiejaar 2012-2013

2e examenperiode - juni

”HARNESSING A GAME-CHANGING ASSET”
THE ECONOMIST

Eindwerk voorgedragen d...
Academiejaar 2012-2013

2e examenperiode - juni

”HARNESSING A GAME-CHANGING ASSET”
THE ECONOMIST

Eindwerk voorgedragen d...
"Ik, Natan Meekers, verklaar dat, voor zover ik er weet van heb, deze scriptie geen materiaal
bevat dat ooit in eender wel...
Inhoudsopgave
1

Dankwoord ..................................................................................................
8

Aanpak....................................................................................................................
1

DANKWOORD

Graag betuig ik mijn dank aan iedereen die heeft bijgedragen tot de realisatie van dit eindwerk en
project. ...
2

VOORWOORD

Tijdens het tweede jaar van mijn studie Informatica Management en -systemen, moest ik voor het
vak ‘Methoden...
3

ABSTRACT

Wanneer we kijken naar de veranderingen die plaatsvinden binnen Business Intelligence, is er
duidelijk nood a...
4

INLEIDING

Big Data is een term waar je de laatste tijd véél over hoort. Het was dé term van het jaar 2012 in de
wereld...
De explosie aan ‘uniek’ gegenereerde data vindt zijn oorsprong in drie domeinen:
‘Social’

‘Mobile’

‘Cloud’

De snelle op...
5

DEFINITIE

Big Data is de grootste hype van de laatste jaren. Het is moeilijk om de term in één definitie te
verklaren ...
6
6.1

Situering Big Data
Big Data & Performance Management

Performance Management is een overkoepelende term voor het ge...
6.2

BIG DATA & BUSINESS INTELLIGENCE

Steeds meer organisaties tonen interesse in Big Data en gaan de uitdaging aan om de...
Daarnaast wordt er door Social-Mobile-Cloud zoveel data gegenereerd dat er, naast de huidige
oplossingen, nieuwe en andere...
6.2.3

SITUERING

Het BI landschap op de dag van vandaag:

Figuur 3 - BI landschap (door Convergent-Consulting)

Als we he...
6.2.4

BIG DATA RAFFINADERIJ

Wanneer je als bedrijf begint met het implementeren van BD systemen, kan je als het ware een...
6.2.4.1
OPHALEN EN LADEN
Gebruik makende van verschillende database- en ETL tools, wordt de data opgehaald en in Hadoop
in...
7
7.1

INNOVATIE, UITDAGINGEN & OPPORTUNITEITEN
INNOVATIE

Wanneer je als bedrijf denkt over het implementeren van een BD ...
7.1.1

HADOOP

STACK

De Hadoop stack is veel uitgebreider dan hieronder weergegeven. Deze componenten zijn de
belangrijks...
7.1.1.1
HADOOP CORE
Hadoop, een open source project van Apache, is een framework dat het mogelijk maakt om de
verwerking v...
De ideale opstelling voor een cluster is: 1 disk per CPU core (met normale kloksnelheid) met +/- 4 GB
ram. Wanneer je HBas...
7.1.1.3
ZOOKEEPER
ZooKeeper is een gecentraliseerde tool voor het onderhouden van: cluster configuratie, naamgeving,
distr...
7.1.2 CLOUDERA

VS.

HORTONWORKS DATA PLATFORM (HDP)

Cloudera is vanaf het begin dé open-source Hadoop verdeler geweest o...
7.1.3

SAS VISUAL ANALYTICS

Tijdens mijn stage heb ik een opleiding gevolgd om met Visual Analytics (VA) te leren werken....
VA biedt de schaalbaarheid van Hadoop, de intuïtieve dashboarding mogelijkheden zoals Tableau of
Qlikview die aanbieden, z...
Onderstaande afbeelding geeft ons een overzicht van de verschillende gebruikers op het platform en
laat zien hoe VA ook vo...
7.2
7.2.1

UITDAGINGEN
DATA

SILO’S SAMENBRENGEN

Door alle data silo’s samen te voegen alsook de verschillende soorten an...
7.3
7.3.1

OPPORTUNITEITEN
DATA-GEDREVEN

ORGANISATIE

Data wordt steeds belangrijker. Er wordt wel eens gezegd dat data d...
8

AANPAK

Aangezien Big Data een relatief ‘nieuw’ onderwerp is, zeker in België, wordt er tot op de dag van
vandaag weini...
8.1.3

SOCIALE MEDIA

In onze huidige maatschappij speelt Sociale Media een steeds meer belangrijke rol. Vooral LinkedIn,
...
8.1.4

VIRTUELE MACHINE

Cloudera en Hortonworks hebben beide een virtuele machine (VM) aangemaakt die je gemakkelijk kan
...
8.3

ONTWIKKEL USE CASES

Nu de opportuniteit geselecteerd is, stel je use cases op die nodig zijn om het project uit te v...
9

USE CASES

9.1

MISDAAD PREVENTIE MEMPHIS

Memphis was een slechte stad om in te wonen. De criminaliteitscijfers liepen...
9.2

PRESIDENTSVERKIEZING US

Op dinsdag 6 november 2012 is Barack Obama verkozen voor een tweede termijn als president. V...
Alles wat er over een persoon gevonden kan worden, is gebruikt om voorspellende analyses te maken
om nieuwe kiezers te vin...
9.3

DETECTIE

FRAUDULEUZE TRANSACTIES
Platformen, zoals PayPal, om online te betalen moeten transacties van veel meer bro...
9.4

VESTAS

WINDTURBINES
Het Deense bedrijf Vestas, dat Windturbines verkoopt, moest iets ondernemen om ervoor te zorgen ...
10 CASE – FOD JUSTITIE
Bij FOD Justitie is niet alles gelopen zoals verwacht. Sinds november was ik in dialoog met hen ove...
11 CASE – ADSWIZZ
Eind mei ben ik aan een project begonnen bij Adswizz in samenwerking met mijn externe begeleider
(DataCr...
12 CONCLUSIE
12.1 ALGEMEEN
Big Data valt onder het Business Intelligence en Analytical Intelligence domein van Performance...
12.2 PERSOONLIJK
De afgelopen maanden ben ik druk bezig geweest met mezelf wegwijs te maken in het Big Data verhaal.
Dat w...
13 VERKLARENDE WOORDENLIJST
[1] OPEN-SOURCE
Software waarvan de broncode wordt vrijgegeven. Gebruikers hebben de mogelijkh...
14 AFKORTINGEN
PM

PERFORMANCE MANAGEMENT

BI

BUSINESS INTELLIGENCE

BD

BIG DATA

ETL/ELT

EXTRACT, TRANSFORM AND LOAD /...
16 BIJLAGE
16.1 BIG

DATA POSTER
Voor het vak Performance Management moesten wij voor onze paper een poster ontwerpen. Aan...
16.2 ADSWIZZ-

STREAMING AD INJECTION
Een overzicht van de methode die Adswizz gebruikt om advertenties te injecteren in w...
17 BIBLIOGRAFIE
[1] ANTUNOVIĆ, M. Build Optimal Hadoop Cluster. Atlantbh, 2012.
Opgeroepen in Oktober 2012 van:
<http://ww...
[15] DEUTSCHER, M. Big Data deep dive conclusion: the future of analytics. Sillicon Angle, 2013.
Opgeroepen in April 2013 ...
[31] LYNCH, M. Barack Obama's Big Data won the US election. Computerworld, Nov 2012.
Opgeroepen in November 2012 van:
<htt...
[42] IE. Big Data Innovation Summit. Innovation Enterprise, 2013.
Opgeroepen in Mei 2013 van:
<theinnovationenterprise.com...
18 AUTEUR
Meekers Natan
Vennestraat 26, B-1980 Zemst-Laar
MOBIEL: +32 498 08 78 90
EMAIL: natan@meekers.eu
Natan Meekers
@...
Thesis Big Data
Upcoming SlideShare
Loading in...5
×

Thesis Big Data

1,009

Published on

Thesis I wrote in my final year of my higher education

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,009
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
49
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Thesis Big Data

  1. 1. Academiejaar 2012-2013 2e examenperiode - juni ”HARNESSING A GAME-CHANGING ASSET” THE ECONOMIST Eindwerk voorgedragen door < Natan Meekers > < Professionele bachelor > Technologie & Design BIG DATA Interne promotor: < Dhr. Chris Vandermeiren > Externe promotor: < Dhr. Geert Van Landeghem > tot het behalen van het diploma Hoger Onderwijs | één cyclus | volledig leerplan | Bachelor in het Informaticamanagement en de multimedia | | in het studiegebied Technologie & Design |
  2. 2. Academiejaar 2012-2013 2e examenperiode - juni ”HARNESSING A GAME-CHANGING ASSET” THE ECONOMIST Eindwerk voorgedragen door < Natan Meekers > < Professionele bachelor > Technologie & Design BIG DATA Interne promotor: < Dhr. Chris Vandermeiren > Externe promotor: < Dhr. Geert Van Landeghem > tot het behalen van het diploma Hoger Onderwijs | één cyclus | volledig leerplan | Bachelor in het Informaticamanagement en de multimedia | | in het studiegebied Technologie & Design |
  3. 3. "Ik, Natan Meekers, verklaar dat, voor zover ik er weet van heb, deze scriptie geen materiaal bevat dat ooit in eender welke instelling is gebruikt om een diploma, van welke aard ook, te behalen of dat eerder werd gepubliceerd of geschreven door een ander persoon, behalve daar waar deze scriptie referenties bevat naar andere werken.”
  4. 4. Inhoudsopgave 1 Dankwoord ....................................................................................................................................... 1 2 Voorwoord ....................................................................................................................................... 2 3 Abstract ............................................................................................................................................ 3 4 Inleiding ............................................................................................................................................ 4 5 Definitie ............................................................................................................................................ 6 6 Situering Big Data ............................................................................................................................. 7 6.1 Big Data & Performance Management .................................................................................... 7 6.2 Big Data & Business Intelligence .............................................................................................. 8 6.2.1 6.2.2 Big Data ............................................................................................................................ 9 6.2.3 Situering ......................................................................................................................... 10 6.2.4 7 Business Intelligence ........................................................................................................ 8 Big Data Raffinaderij....................................................................................................... 11 Innovatie, uitdagingen & opportuniteiten ..................................................................................... 13 7.1 Innovatie................................................................................................................................. 13 7.1.1 Hadoop stack .................................................................................................................. 14 7.1.2 Cloudera vs. Hortonworks Data Platform (HDP) ............................................................ 18 7.1.3 SAS Visual Analytics ........................................................................................................ 19 7.2 Uitdagingen ............................................................................................................................ 22 7.2.1 Data silo’s samenbrengen .............................................................................................. 22 7.2.2 Data complexiteit ........................................................................................................... 22 7.2.3 Nieuwe skills ................................................................................................................... 22 7.2.4 Privacy ............................................................................................................................ 22 7.3 Opportuniteiten ..................................................................................................................... 23 7.3.1 Data-gedreven organisatie ............................................................................................. 23 7.3.2 Uitgebreidere analytische mogelijkheden ..................................................................... 23 7.3.3 Interactie met klanten .................................................................................................... 23 7.3.4 Detecteren van fraude ................................................................................................... 23 7.3.5 Andere ............................................................................................................................ 23
  5. 5. 8 Aanpak............................................................................................................................................ 24 8.1 Onderzoek naar Big Data ....................................................................................................... 24 8.1.1 Events ............................................................................................................................. 24 8.1.2 Webinars ........................................................................................................................ 24 8.1.3 Sociale Media ................................................................................................................. 25 8.1.4 Virtuele Machine ............................................................................................................ 26 8.2 Formuleer opportuniteiten .................................................................................................... 26 8.3 Ontwikkel Use Cases .............................................................................................................. 27 8.4 Identificeer huidige- en toekomstige capaciteiten ................................................................ 27 8.5 Zet een testomgeving op........................................................................................................ 27 8.6 Evalueer .................................................................................................................................. 27 9 Use Cases........................................................................................................................................ 28 9.1 Misdaad Preventie Memphis ................................................................................................. 28 9.2 Presidentsverkiezing US ......................................................................................................... 29 9.3 Detectie frauduleuze transacties ........................................................................................... 31 9.4 Vestas windturbines ............................................................................................................... 32 10 Case – FOD Justitie ..................................................................................................................... 33 11 Case – Adswizz............................................................................................................................ 34 12 Conclusie .................................................................................................................................... 35 12.1 Algemeen ............................................................................................................................... 35 12.2 Persoonlijk .............................................................................................................................. 36 13 Verklarende woordenlijst ........................................................................................................... 37 14 Bijlage ......................................................................................................................................... 39 14.1 Big data poster ....................................................................................................................... 39 14.2 Adswizz- streaming ad injection............................................................................................. 40 15 Bibliografie ................................................................................................................................. 41 16 Auteur......................................................................................................................................... 45
  6. 6. 1 DANKWOORD Graag betuig ik mijn dank aan iedereen die heeft bijgedragen tot de realisatie van dit eindwerk en project. In de eerste plaats wil ik mijn ouders bedanken voor de mogelijkheden en ondersteuning die zij mij hebben gegeven. Hun enthousiasme en geloof in mij hebben mij sterk gemotiveerd. Ik wil mijn interne promotor, Dhr. Chris Vandermeiren, bedanken voor zijn wijze raad, opvolging en begeleiding doorheen het hele traject. Zijn geloof in mij heeft mij extra aangespoord om mijn best te doen. Ook wil ik me richten tot Mevr. Ilse Bracke en Dhr. Hans Tubbax voor hun enthousiasme en aanmoedigingen om bij mijn eerste voorstel te blijven toen ik aan het twijfelen was. Bijzondere dank gaat uit naar mijn externe promotor, Dhr. Geert Van Landeghem van DataCrunchers. Toen ik hem contacteerde om te vragen of ik op hem mocht ‘terugvallen’ wanneer ik vast zat, had ik nooit de begeleiding, tijdsinvestering en het materiaal verwacht, waarin hij heeft voorzien. De keren dat ik op kantoor van hem en medewerkers opleiding heb gekregen, hebben enorm bijgedragen om vertrouwd te geraken in het Big Data verhaal. Toen ik hem om raad vroeg in verband met het project bij Justitie dat zéér traag vooruit ging, heeft hij mij op zeer korte termijn aan een nieuw en interessant project geholpen. De organisatoren en leden van de Meetup groep ‘BigData.be’ wil ik ook graag bedanken voor de verschillende Big Data Meetups. Elke keer opnieuw waren het leerrijke presentaties en interessante gesprekken waaruit ik veel heb bijgeleerd. Speciaal dank gaat uit naar Daan Gerits voor het delen van opinies en gedachten, als antwoord op mijn vragen in de LinkedIn groep. Graag vernoem ik ook Dries Van Nieuwenhuyse die spontaan heeft aangeboden mijn eindwerk na te lezen. Zijn feedback en raad hebben mij geholpen inhoudelijke en structurele verbeteringen aan te brengen. Ook alle andere mensen, die ik niet bij naam heb genoemd maar toch hebben bijgedragen, wil ik bedanken voor die dingen die mij geholpen hebben mijn bachelorproef tot een goed einde te brengen. Natan Meekers Thomas More 1
  7. 7. 2 VOORWOORD Tijdens het tweede jaar van mijn studie Informatica Management en -systemen, moest ik voor het vak ‘Methoden voor onderzoek en rapportering’ een thesis voorstel uitwerken. Aangezien ik voor de afstudeerrichting ‘Performance Management’ gekozen heb, en mij wil specialiseren in Business Intelligence, ben ik op zoek gegaan naar een interessant en relevant onderwerp in diezelfde richting. Op het jaarlijkse Business Intelligence congres, dat georganiseerd wordt door het BICC van de hogeschool, heb ik met een heel aantal bedrijfsmensen gesproken over verschillende mogelijke onderwerpen. Dit soort events zijn een uitstekende opportuniteit om contacten te leggen en raad te vragen aan professionals en bedrijven. Zij hebben immers ervaring en kennen de markt. Zo ben ik in gesprek geraakt met Dhr. F. Verscheure die als Lifecycle Management Consultant werkt bij SAS Belgium & Luxemburg. Hij bracht mij op het idee om een eindwerk te maken rond Hadoop. Na wat opzoekwerk werd mij al snel duidelijk dat de term Big Data en Hadoop nauw samen gaan. Hadoop, een open source project van Apache, is een framework dat het mogelijk maakt om de verwerking van zeer grote en complexe datasets te verspreiden over computer clusters die bestaan uit commodity 1 hardware. Zo kunnen bedrijven complexe vragen stellen en nieuwe inzichten bekomen in zeer korte tijd op basis van alle beschikbare data. Ik was meteen overtuigd om over Big Data een eindwerk te maken. Met de populariteit van Social, Mobile en Cloud, geloof ik dat Big Data een steeds grotere en belangrijkere rol zal gaan spelen. Tijdens een eerste gesprek met mijn mentor, Dhr. Chris Vandermeiren, werd het al snel duidelijk dat de technologie gewoon testen niet voldoende was. Om het eindwerk relevant en waardevol te maken, moest ik op zoek gaan naar een bedrijf dat met Big Data problematiek te maken heeft. Zo ben ik terechtgekomen bij het FOD Justitie. Zij zitten met een aantal problemen waarvoor Big Data een mooie oplossing kan bieden:    Er zijn héél veel vragen van de business die snel opgelost moeten worden. Het bouwen van datawarehouses duurt te lang. De data zit verspreid over verschillende data silo’s van de verschillende instanties. Hun situatie is voor mij een uitstekende kans om te kijken naar de mogelijkheden van Hadoop en andere open-source tools die de oplossing zullen bieden voor hun problemen. 1 Betaalbaar, normale hardware Natan Meekers Thomas More 2
  8. 8. 3 ABSTRACT Wanneer we kijken naar de veranderingen die plaatsvinden binnen Business Intelligence, is er duidelijk nood aan innovatieve technologieën en nieuwe methodologieën. Met dit eindwerk wil ik de focus leggen op volgende aspecten:    Wat is Big Data en hoe kaderen we dit binnen Performance Management en Business Intelligence? Welke innovaties, uitdagingen en opportuniteiten brengt het met zich mee? Hoe pak je een Big Data project concreet aan? Welke stappen moet je volgen? Welke skills zijn nodig? Om de relevantie van mijn eindwerk naar bedrijven toe te verhogen, zou ik de theorie toepassen op een business case bij FOD Justitie. De Federale Overheidsdienst Justitie (FOD Justitie) bestaat uit verschillende instanties en houdt zich bezig met de rechtsorde in alle stadia: wetgeving, preventie, handhaving … Hun cel ‘Data Management’ is sinds twee jaar bezig met Business Intelligence en Datawarehousing. Van hen wordt verwacht dat ze alle vragen die van de verschillende gerechtsinstellingen komen, zo snel mogelijk beantwoorden. Echter, het bouwen van een datawarehouse kost tijd en de vragen die van de verschillende instanties komen, stapelen zich snel op. Momenteel zijn er zoveel vragen die beantwoord moeten worden, dat de cel Data Management voor de komende 10 jaar? al werkt heeft. Daarbij komt dat het departement slechts 8? werknemers in dienst heeft en dat de vereiste data verspreid zit over verschillende data silo’s bij de verschillende instanties. Sinds twee jaar is Justitie ook bezig met een Business Intelligence project in samenwerking met LACO. Mede door de investering in dit BI project staat het hoger management niet te springen om nu een Big Data project te gaan financieren. Echter, door veelheid aan procedures en een trage en moeilijke communicatie, kan ik het slechts suggestief toepassen in de resterende tijdframe. Om mijn theoretische kennis toch toe te passen in de praktijk, ben ik via mijn externe begeleider terecht gekomen bij Adswizz op een interessant Big Data project. Adswizz injecteert advertenties in radio web streams en genereert zo 75GB aan weblogs per maand. Binnenkort krijgen ze er een grote Amerikaanse klant bij waardoor dat volume 100x groter zal worden. Ook willen ze extra data gaan verzamelen over luisteraars zodat ze advertenties kunnen gaan personaliseren. Dat wil zeggen dat verzamelde data in real-time geanalyseerd moet worden om dan een meer relevante advertentie te injecteren in een bepaalde webstream. Momenteel gebruiken zij Amazon S3 en EMR en ontwikkelen ze scripts in Pig om hun data te manipuleren. Ik zal hen helpen bij het ontwikkelen van Pig scripts die data verzamelen, aggregeren en wegschrijven naar Hbase. Rapporten worden opgebouwd op basis hiervan. Natan Meekers Thomas More 3
  9. 9. 4 INLEIDING Big Data is een term waar je de laatste tijd véél over hoort. Het was dé term van het jaar 2012 in de wereld van Business Intelligence en zal komende jaren op grote schaal worden opgenomen door bedrijven. (Gartner, 2013) "After a few years of experimentation and early adopter successes, 2013 will be the year of larger scale adoption of big data technologies." GARTNER, 2013 In onze huidige economie is de grootste waarde gebaseerd op kennis, en gegevens zijn van zéér groot strategisch belang. De data die nodig is om tot deze kennis te komen is afkomstig uit diverse bronnen en bestaat uit verschillende types zoals: data uit legacy systemen, online transactie gegevens, sensoren die klimaatgegevens verzamelen, gps-tracking signalen, berichten geplaatst op sociale media, log bestanden… Vandaag de dag creëren we ongeveer 900.000 Terabytes aan data per dag (IBM, 2012). Dat wil zeggen dat ongeveer 90% van de data over de hele wereld gegenereerd is in de laatste twee jaar. Figuur 1 - Big Data sources Natan Meekers Thomas More 4
  10. 10. De explosie aan ‘uniek’ gegenereerde data vindt zijn oorsprong in drie domeinen: ‘Social’ ‘Mobile’ ‘Cloud’ De snelle opkomst van deze drie domeinen heeft heel wat veranderingen teweeg gebracht: sociale veranderingen gaan veel sneller dan vroeger (zie “Arabisch Lente”) en de informatiestroom is nu omgekeerd. Waar vroeger informatie afkomstig was van slechts een beperkt aantal kanalen, beschikt nu iedereen over de mogelijkheid om op alle mogelijke momenten en plaatsen informatie te delen. (Hunt, 2013) Deze grote hoeveelheid informatie die nu beschikbaar wordt, biedt veel mogelijkheden aan maar ook veel uitdagingen. Het wordt steeds moeilijker om relevante en nuttige informatie uit deze enorme massa te filteren. Veel organisaties hebben het al moeilijk om hun kritieke gegevens te beheren en te analyseren omdat deze verspreid zitten over de verschillende informatiesystemen en/of departementen, laat staan dat ze dan klaar zijn om, of beschikken over de mogelijkheden om relevante informatie te extraheren uit voorgaande genoemde domeinen. (Jernevad, 2012) Daarbij komt dat het “on-the-fly” analyseren (voor bv. Fraude-detectie bij transacties) en het betrekken van externe bronnen met ongestructureerde data, steeds essentiëler wordt voor bedrijven. Natan Meekers Thomas More 5
  11. 11. 5 DEFINITIE Big Data is de grootste hype van de laatste jaren. Het is moeilijk om de term in één definitie te verklaren aangezien er zoveel verschillende standpunten zijn over wat er nu juist verstaan wordt onder Big Data. De term ‘Big Data’ is misschien misleidend omdat hij letterlijk betekent: grote volumes data. Echter in de praktijk wordt Big Data niet persé bepaald door grote volumes van data maar ook door andere factoren zoals: de snelheid waarmee de data binnenkomt, de variëteit aan data - gestructureerd of ongestructureerd - en de externe datasets die men wil betrekken bij analyses. Volgende definitie van Gartner, die Big Data als de 3 V’s omschrijft, is de meest algemeen aangenomen definitie: "Big data in general is defined as high Volume, Velocity and Variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making." GARTNER, 2012 In deze definitie merken we direct verschillende aspecten die de term Big Data omschrijven:    Het data aspect: volume, variëteit en snelheid. Het technologische aspect: kosteneffectieve manier om de data op te slaan en te verwerken. Het analytische aspect: data anders bekijken voor verbeterde inzichten en besluitvorming. Ondanks deze definitie de meest algemeen aangenomen definitie is, zijn er nog steeds andere visies over wat Big Data nu juist betekent. Volgende omschrijving is naar mijn mening een mooie aanvulling op de definitie van Gartner: "Big Data is indeed Volume, Velocity and Variety. But these are again consequences of how you structure your data. In my opinion Big Data is also about the way you look at your data, which is enabled by a collection of technologies. The fact that you can restructure your data at any time and enrich it with any kind of additional data sources allows us to get information out which we never thought was possible" DAAN GERITS, 2013 Samengevat: ondanks de term laat uitschijnen dat het gaat over grote data volumes, omschrijft de term meer het geheel. Het omvat de steeds sneller groeiende en complexer wordende datasets, die ervoor gezorgd hebben dat er nieuwe technologieën ontwikkeld zijn. Die bieden op hun beurt nieuwe mogelijkheden aan om enorm grote datasets op te slaan en te herstructureren en om externe data te betrekken bij analyses om zo tot nieuwe inzichten en een verbeterde besluitvorming te komen. Natan Meekers Thomas More 6
  12. 12. 6 6.1 Situering Big Data Big Data & Performance Management Performance Management is een overkoepelende term voor het geheel van processen, methoden, toepassingen en technologieën die een organisatie gebruikt om haar prestaties op te volgen, te beheren en te sturen (Nieuwenhuyse, 2011). Performance Management omvat vier ‘intelligence’ domeinen: het Strategische, Financiële, Analytische en Business domein. Big Data valt voornamelijk onder Business Intelligence maar kan ook voor een deel ook onder Analytical Intelligence gerekend worden. Business Intelligence GESTRUCTUREERDEONGESTRUCTUREERDE- ANALYSEREN GEHERSTRUCTUREERDE- SOCIALE MEDIA PERFORMANCE MANAGEMENT GPS & SENSOR SIGNALEN RAPPORTEREN DATA PDF, TEXT DOCUMENTEN EN FOTO'S VOORSPELLEN LOG FILES BIG DATA Analytical Intelligence Figuur 2 - Situering Big Data binnen Performance Management Natan Meekers Thomas More 7
  13. 13. 6.2 BIG DATA & BUSINESS INTELLIGENCE Steeds meer organisaties tonen interesse in Big Data en gaan de uitdaging aan om deze rijke bron aan informatie te benutten. Big Data biedt enorme verbeteringen en nieuwe mogelijkheden aan t.o.v. de klassieke Business Intelligence tools; het kan zelfs sommige van deze tools vervangen. Hierdoor is het niet meer voor iedereen duidelijk hoe we BD en BI nu juist moeten bekijken ten opzichte van elkaar. In dit hoofdstuk wil ik een beeld scheppen hoe we ze juist moeten bekijken en waar we BD kunnen situeren in het huidige BI landschap. 6.2.1 BUSINESS INTELLIGENCE Business Intelligence is een overkoepelende term voor de methodes, technologieën en tools die data verzamelen, opslaan, analyseren en rapporteren om bedrijven tot een verbeterde besluitvorming te laten komen. Een definitie voor Business Intelligence door Gartner: “Business intelligence (BI) is an umbrella term that includes the applications, infrastructure and tools, and best practices that enable access to and analysis of information to improve and optimize decisions and performance” GARTNER, 2012 De missie van BI is dus om te antwoorden op Business vragen en te kijken naar de prestaties in het verleden. Om die missie zo goed mogelijk te vervullen, zien we dat er een aantal elementen zijn waar meer aandacht aan besteed moet worden: 1. SNELHEID: Vertraging proberen te vermijden wanneer het gaat om het bedienen van klanten, reageren op veranderingen in de markt en het optimaliseren van processen. 2. ‘AGILITY’: Het coördineren en beheren van processen en activiteiten doorheen de hele organisatie om beter te kunnen inspelen op bijgestuurde input. 3. INTELLIGENCE: Aanpassen naar een meer voorspellende en proactieve instelling door gebruik te maken van meerdere data bronnen en het continu bijsturen van processen en beslissingen. 4. EFFECTIVITEIT: De kosten beter beheren en de productiviteit verhogen om het succes van de business te ondersteunen. De scope van BI is gelimiteerd tot gestructureerde data. Alles wat in een datawarehouse terecht komt via ETL, kan gebruikt worden. Alle ongestructureerde data, die op dit moment tot 80% bedraagt, blijft onbruikbaar terwijl er toch heel veel informatie en patronen in verstopt zitten. De vernieuwingen die BD brengt, zijn dus hoognodig en essentieel voor bedrijven want BD helpt bedrijven om ruwe databronnen te transformeren tot een bruikbaar formaat. Pas dan kan deze data gebruikt worden in analyses om zo tot nieuwe inzichten te komen. Natan Meekers Thomas More 8
  14. 14. Daarnaast wordt er door Social-Mobile-Cloud zoveel data gegenereerd dat er, naast de huidige oplossingen, nieuwe en andere methodes moesten komen om ondersteuning te bieden bij de nieuwe problemen waar wordt tegenaan gelopen. Nu alles veel groter kan en iedereen veel groter wil, moet je als bedrijf opletten dat je niet ‘verdrinkt’ in de hoeveelheid data die je gaat verzamelen en opslaan. Ook daar zullen deze nieuwe technologieën bedrijven in ondersteunen. Onderstaande tabel schept een duidelijk beeld hoe de focus in BI zich verplaatst om te kunnen blijven voldoen aan de eisen van de business en om te kunnen inspelen op de snel veranderende markt. BI IN HET VERLEDEN EN HEDEN BI IN HET HEDEN EN DE TOEKOMST Klein, gebruikersgroepen per departement die afhankelijk zijn van IT Implementaties overheen het hele bedrijf met ‘selfservice’ functionaliteiten ETL processen voorzien extracten van specifiek opgevraagde data; deze transformeren voor specifiek gebruik. ELT en andere ETL alternatieven, toegang tot Big Data - ruwe data- en meer gedetailleerde data afkomstig van verschillende bronnen Focus op gestructureerde data voor rapporten en ad hoc query analyses. Nood aan een uitgebreider scala van zoek, query en andere tools; rijke meta data voor semigestructureerde data Alleen historische views op de data Views en analyses op de data voor zowel het verleden, heden als de toekomst 6.2.2 BIG DATA Zoals al in het vorige hoofdstuk aangehaald, is de meest algemeen aangenomen en complete definitie van Big Data: "Big data in general is defined as high volume, velocity and variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making." GARTNER, 2012 Als we definities vergelijken, wordt het al snel duidelijk dat BD geen vervanger is en dit ook nooit kan zijn, noch worden voor BI. BI is een overkoepelende term die ruim omschrijft hoe bedrijven informatie uit hun data kunnen halen en BD in zijn geheel, zal daar altijd toe behoren. Natan Meekers Thomas More 9
  15. 15. 6.2.3 SITUERING Het BI landschap op de dag van vandaag: Figuur 3 - BI landschap (door Convergent-Consulting) Als we het huidige BI landschap bekijken, merken we al snel op dat Big Data een stap verder gaat dan de klassieke BI:     Verder dan relationeel: de stroom van semi- en ongestructureerde data (sensor, M2M, …) creëren de vraag naar niet-relationele, gedistribueerde databases. Verder dan structuur: de huidige BI metadata structuur kan niet om met de complexiteit van de data. Verder dan het Datawarehouse: nood aan een nieuwe manier om data op te slaan en te verwerken (HDFS, HBase, MapReduce) Verder dan historiek: het implementeren van modellen om uitzonderingen of patronen te ontdekken als ze voorkomen i.p.v. steeds te werken op historische data. Voorlopig zal BD de klassieke BI architectuur en tools ondersteunen en aanvullen (Big Data raffinaderij), maar naarmate deze systemen en methoden meer vertrouwd geraken en real-time analyses en rapporteringen nog essentiëler worden, zullen ze in steeds meer bedrijven aan aantal van de klassieke BI-tools vervangen. Natan Meekers Thomas More 10
  16. 16. 6.2.4 BIG DATA RAFFINADERIJ Wanneer je als bedrijf begint met het implementeren van BD systemen, kan je als het ware een soort data raffinaderij bouwen die ondersteuning biedt voor de klassieke BI architectuur en de toepassingen die al up-and-running zijn. Figuur 4 – Big Data ondersteunt Business Intelligence (door Hortonworks) Op bovenstaande figuur zien we hoe een BD raffinaderij kan instaan om data uit verschillende bronnen te verzamelen en te verwerken zodat die mee gebruikt kan worden in de huidige BI architectuur bij bedrijven. Of dat nu gestructureerde data is - zoals database records -, of ongestructureerde data - zoals documenten -, of zelfs semigestructureerd data - zoals log data in een tekstbestand -, maakt voor Hadoop niet uit. Hadoop is in staat om al deze types data gelijktijdig te verwerken en te analyseren. Dat is ook de voornaamste functie van een Hadoop gebaseerde data raffinaderij. Natan Meekers Thomas More 11
  17. 17. 6.2.4.1 OPHALEN EN LADEN Gebruik makende van verschillende database- en ETL tools, wordt de data opgehaald en in Hadoop ingeladen. Hadoop speelt hierin een belangrijke rol omdat het data, afkomstig uit verschillende bronnen en van verschillende types, kan omzetten tot een formaat dat waardevol is voor de business. 6.2.4.2 OPSLAG Het Hadoop Distributed File System (HDFS) verdeelt de data in blokken (vb. 128MB) en verspreidt deze over de verschillende nodes van een cluster2. Elke blok data wordt minimaal 3 keer opgeslagen wat het mogelijk maakt om een data blok in parallel te verwerken. Op die manier is het systeem ook foutentolerant. Wanneer er een machine defect geraakt, kan een andere machine, die dezelfde data blok bevat, de taak overnemen. 6.2.4.3 PROCESSING De verwerking van die data gebeurt door MapReduce, een framework dat het mogelijk maakt om enorme datasets in parallel te verwerken door taken op te delen (Map), die te laten verwerken door de nodes, en achteraf de resultaten weer samen te voegen (Reduce). Doordat elke blok data verschillende keren is opgeslagen, voorziet het HDFS in een high-availability omgeving, die kan opgebouwd worden uit commodity hardware. Om gestructureerde datasets op te slaan, wordt er vaak gebruik gemaakt van HBase of Cassandra (NoSQL databanken). 2 Verzameling van servers bestaande uit commodity hardware Natan Meekers Thomas More 12
  18. 18. 7 7.1 INNOVATIE, UITDAGINGEN & OPPORTUNITEITEN INNOVATIE Wanneer je als bedrijf denkt over het implementeren van een BD oplossing, zijn er enkele vragen die je jezelf moet stellen als je een bepaald systeem overweegt. 1. 2. 3. 4. Kan dit systeem om met grote hoeveelheden data en is het schaalbaar? Kan dit systeem om met zowel gestructureerde als semi- en ongestructureerde data? Kan dit systeem om met data die aan hoge snelheid binnenkomt? Kan dit systeem om met complexiteit? (data centers in verschillende locaties) De zoektocht naar een geschikt systeem is niet gemakkelijk. Elk bedrijf wil natuurlijk een mix van volgende drie factoren om met hun nieuwe BD systeem zo dicht mogelijk bij het BD ‘Bulls-Eye’ te komen. Schaalbaarheid en performantie Kosteneffectiviteit BD ‘Bulls-Eye’ Operationeel gemak Figuur 5 - Big Data Bulls-Eye Omdat de snelheid, waarmee de data moet omgezet worden naar informatie, steeds essentiëler wordt, moeten IT en business-users beter gaan samenwerken. Dat is een insteek die je terugvindt bij vele leveranciers. De manier waarop hun oplossing gebouwd is, is gefocust op een verbeterde samenwerking tussen business & IT en een goede balans tussen agility en controle. Natan Meekers Thomas More 13
  19. 19. 7.1.1 HADOOP STACK De Hadoop stack is veel uitgebreider dan hieronder weergegeven. Deze componenten zijn de belangrijkste en meest gebruikte en die zal ik dan ook iets uitgebreider bespreken. Enkele van de voornaamste voordelen die het Hadoop ecosysteem ons biedt zijn de volgende:  Schaalbaarheid  Performantie: hoe groter het volume van de data die verwerkt moet worden, hoe duidelijker het wordt dat de manier waarop Hadoop werkt, veel performanter is dan bvb. een appliance .  Kosteneffectief: door de manier waarop Hadoop werkt, volstaat het om met commodity hardware te werken en besparen we op die manier ook op energie omdat deze hardware minder energie verbruikt.  Fouten-tolerant: alle data blokken zijn meerdere keren verspreid over verschillende machines en zodra er een machine wegvalt, zal Hadoop een nieuwe kopie aanmaken op een andere.  Pushen van algoritmes naar de data in plaats van de data naar het algoritme te brengen  Gedistribueerde verwerking Project R (Statistics) Mahout (Machine learning) Figuur 6 - Hadoop ecosysteem Natan Meekers Thomas More 14
  20. 20. 7.1.1.1 HADOOP CORE Hadoop, een open source project van Apache, is een framework dat het mogelijk maakt om de verwerking van zeer grote en complexe datasets te verspreiden over computer clusters die bestaan uit commodity3 hardware. Het is zo ontworpen dat je clusters kan schalen tot duizenden machines, die elk voorzien in opslag en verwerking. De Hadoop core bestaat uit twee componenten: Hadoop Distributed File System (HDFS) en MapReduce. Deze twee zijn zo ontworpen dat ze perfect op elkaar afgestemd zijn en samen worden uitgerold. Dat is het meest significante punt van Hadoop want zo beschik je over de mogelijkheid om algoritmes naar de data te pushen in plaats van de data naar het algoritme te brengen. Figuur 7 – Werking van Hadoop Op bovenstaande afbeelding zien we hoe data verspreid wordt over verschillende nodes van een cluster en hoe MapReduce jobs verdeelt en de resultaten weer samenvoegt om tot het eindresultaat te komen. Het is belangrijk om te weten hoe Hadoop werkt wanneer je begint na te denken over hardware vereisten. MapReduce gebruikt in een ideale situatie slechts één ‘Map’ voor één disk omdat het geoptimaliseerd is voor sequentieel lezen van disks. Dat is ook de reden waarom virtuele omgevingen worden afgeraden: wanneer je in een virtuele omgeving werkt, is het moeilijk om te verzekeren dat elk proces maar één disk gebruikt. 3 Betaalbaar, normale hardware. Natan Meekers Thomas More 15
  21. 21. De ideale opstelling voor een cluster is: 1 disk per CPU core (met normale kloksnelheid) met +/- 4 GB ram. Wanneer je HBase of Cassandra gebruikt, kan het zijn dat je meer geheugen nodig hebt. Voor het OS kan je best een aparte disk voorzien. Wanneer je in het geval van deze setup kiest voor servers met 2 CPU’s, kan je best ook twee keer zoveel disks voorzien. Meer dan twee CPU’s per node is niet aangeraden omdat de meerprijs voor zulke machines niet gelijk opgaat met de extra performantie. Voorbeeld van de kleinst mogelijke cluster opstelling: master 2* 4 cores 24GB RAM 4 * 2TB HD 1Gbit RHEL 5/6 slave - workload 4 cores 24GB RAM 4 * 2TB HD 1Gbit RHEL 5/6 slave - cluster 4 cores 24GB RAM 4 * 2TB HD 1Gbit RHEL 5/6 slave - cluster 4 cores 24GB RAM 4 * 2TB HD 1Gbit RHEL 5/6 slave - cluster 4 cores 24GB RAM 4 * 2TB HD 1Gbit RHEL 5/6 Figuur 8 - Basic cluster setup 7.1.1.2 HBASE HBase is een gedistribueerde, kolom-georiënteerde database die behoort tot de NoSQL databases. NoSQL staat voor ‘Not Only SQL’ waarmee men wil duiden op het feit dat er ook NoSQL systemen zijn die de gebruiker toelaten om SQL query’s in te voeren. Grote voordelen zijn dat ze horizontaal schaalbaar zijn en dat ze performanter zijn voor bepaalde data modellen. Het wordt dus gebruikt wanneer je zeer grote tabellen moet opslaan die bestaan uit miljarden rijen en miljoenen kolommen. HBase maakt het mogelijk om data random in real-time te lezen en te schrijven. De reden dat je tabellen kan aanmaken met miljoenen kolommen en miljarden rijen is dat alle lege cellen geen plaats in nemen (sparse-lead). Ook kan je ten allen tijde, zonder al te veel moeite, extra kolommen gaan invoegen. Hbase heeft ook een hoge through-put. Je kan tot 20000 records per second schrijven. Natan Meekers Thomas More 16
  22. 22. 7.1.1.3 ZOOKEEPER ZooKeeper is een gecentraliseerde tool voor het onderhouden van: cluster configuratie, naamgeving, distributie synchronisatie, en nog andere groep services. Alle services die ZooKeeper aanbiedt, worden gebruikt door één of andere gedistribueerde applicatie. 7.1.1.4 PIG Pig is een platform voor het manipuleren van grote data sets. Het bestaat uit een ‘high-level’ taal waarin je programma’s kan schrijven om data te analyseren. Het grote voordeel van Pig is dat de structuur van de programma’s vatbaar is om parallel uit te voeren. Dat maakt het mogelijk dat we met Pig programma’s zeer grote data sets kunnen manipuleren. Een ander groot voordeel is dat je Pig programma’s lokaal kan schrijven en testen op een extract van de data. Zo kun je programma’s in iteratieve stappen opbouwen om ze zo optimaal mogelijk te maken om achteraf uit te voeren op een grote data set. Ook kunnen gebruikers hun eigen functies schrijven en die toevoegen aan de Pig library, waarna je die functies gewoon kan opvragen in al je andere programma’s. 7.1.1.5 HIVE Hive is een Data warehouse systeem dat ontwikkeld is op Hadoop en voorziet in een mechanisme dat structuur kan projecteren op data en die dan opvragen door middel van HiveQL, een taal die op SQL lijkt. Hive zorgt er dus voor dat je gemakkelijk data kan aggregeren, ad-hoc query’s kan uitvoeren en analyses op grote data sets. Natan Meekers Thomas More 17
  23. 23. 7.1.2 CLOUDERA VS. HORTONWORKS DATA PLATFORM (HDP) Cloudera is vanaf het begin dé open-source Hadoop verdeler geweest omwille van:    Hadoop experts Grote bijdrage aan de Hadoop open-source community Goede start Daar heeft Yahoo!, gesteund door Benchmark Capital, in het najaar van 2011 verandering in gebracht door een team Hadoop-ingenieurs af te splitsen en onder te brengen in een nieuw bedrijf: Hortonworks. Deze ingenieurs bleken dé grootste bijdrage geleverd te hebben aan Apache Hadoop en hebben zo één van de grootste, meest innovatieve Hadoop implementaties gebouwd. Hortonworks verklaart dat het HDP 100% open-source is en altijd gratis zal zijn! ... dit in tegenstelling tot Cloudera. Zo proberen ze, net als RedHat in de tijd van Linux, Cloudera’s eerste plaats in te nemen door 100% open-source te blijven. Bij Cloudera moet je betalen voor de Management Suite en die bevat belangrijke administratieve tools voor configuratie- en resource management. Figuur 9 - HDP integratie mogelijkheden Hortonworks heeft de krachten gebundeld met verschillende partners om de integratie met een zo breed mogelijk scala aan andere applicaties te verzekeren. Hortonworks zit dus niet stil. Onlangs hebben ze aangekondigd dat ze het HDP ook voor Windows Server beschikbaar hebben gemaakt en dat ze nu ook samenwerken met OpenStack4 om Hadoop daarop beschikbaar te maken. 4 OpenStack levert open source cloud software voor het bouwen van een private of publieke cloud. Natan Meekers Thomas More 18
  24. 24. 7.1.3 SAS VISUAL ANALYTICS Tijdens mijn stage heb ik een opleiding gevolgd om met Visual Analytics (VA) te leren werken. Daarom zal ik het hier kort bespreken. Voor mij is het de combinatie van onderstaande vijf factoren die VA tot een uniek platform maken: 1. 2. 3. 4. 5. Hadoop (HDFS) voor de data-opslag SAS LASR® voor speed-of-thought computing (in-memory) Visueel sterke data-exploratie modus en data-visualisatie interface Sterke voorspellende analytische mogelijkheden (forecasting) Mobile ondersteuning & ‘Selfservice’ BI Figuur 10 - SAS Visual Analytics word-cloud Natan Meekers Thomas More 19
  25. 25. VA biedt de schaalbaarheid van Hadoop, de intuïtieve dashboarding mogelijkheden zoals Tableau of Qlikview die aanbieden, zeer snelle in-memory analytics en natuurlijk het uitgebreide scala aan analytische- & forecasting-mogelijkheden, waarvoor SAS bekend staat. De nieuwe mogelijkheden die VA ons biedt, maken het bouwen van cubes en vooraf definiëren van dimensies overbodig. Het berekenen, aggregeren en analyseren van data gebeurt nu on-the-fly. Voorlopig gebruikt VA altijd een LASR server. Dit kan een enkele machine zijn of een gedistribueerde omgeving. In het tweede geval worden LASR servers en de analyses geparallelliseerd. Maar SAS voert nu ook onderzoek naar het draaien van Visual Analytics op andere technologieën zoals een Teradata of Greenplum appliance. Figuur 11 - SAS Visual Analytics gedistribueerde omgeving Met de massive parallel processing (MPP) voor geavanceerde analyses (mining, forcasting, …) in het geheugen, biedt SAS een alternatief aan voor MapReduce; dit gaat volgens hen een stuk verder dan datgene wat MapReduce aanbiedt. Natan Meekers Thomas More 20
  26. 26. Onderstaande afbeelding geeft ons een overzicht van de verschillende gebruikers op het platform en laat zien hoe VA ook voldoet aan de eisen voor het steeds meer populair wordende selfservice BI gebeuren. Bedrijven verlangen naar Agile BI platformen waar business users zelf kunnen spelen met de data en waar IT het platform onderhoudt en beheert en de data prepareert. Figuur 12 - VA gebruikersgroepen en hun functionaliteiten Gecreëerde rapporten kunnen zowel op het web bekeken worden als op mobiele apparaten. Business users kunnen opmerkingen maken op rapporten, waarna geassocieerde personen (analyst/report designer) op de hoogte worden gebracht en kunnen interageren. Natan Meekers Thomas More 21
  27. 27. 7.2 7.2.1 UITDAGINGEN DATA SILO’S SAMENBRENGEN Door alle data silo’s samen te voegen alsook de verschillende soorten analisten (marktonderzoekers en traditionele analisten), kunnen we nieuwe verbanden ontdekken tussen deze data en onopgeloste vraagstukken, beantwoorden. 7.2.2 DATA COMPLEXITEIT Dit is waarschijnlijk de meest voor de hand liggende uitdaging. Met alle data die nu beschikbaar is, moeten bedrijven gaan opletten dat ze niet verdrinken in de data die ze willen verzamelen en opslaan. Niet alleen de grote hoeveelheden data draagt bij aan de complexiteit, maar ook de variëteit: semi gestructureerde en ongestructureerde data. 7.2.3 NIEUWE SKILLS Uit een onderzoek van SAS in samenwerking met Bloomberg Businessweek Research Services blijkt dat vele organisaties moeilijkheden hebben bij het implementeren of gebruiken van analytics. Sinds de opkomst van Big Data is Business Analytics dan ook in populariteit en belang toegenomen. De nieuwe platformen laten ons immers beschikken over de mogelijkheid om verborgen patronen en verbanden te ontdekken. De vraag naar analytische skills is dus enorm toegenomen en dat zal het blijven doen. Zo zijn bedrijven ook op zoek naar nieuwe profielen zoals Data Scientists, die bedrijven moeten helpen om verbanden te zoeken in data. Door het tekort aan opgeleide personen met voldoende analtyische kennis, is het vinden van zulke profielen, of zelfs het opleiden ervan, voor een groot aantal bedrijven al een uitdaging. Niet alleen hebben bedrijven nood aan analytische skills, maar ook Hadoop gecertifieerde personen en Linux experts zijn nodig voor het opzetten en onderhouden van de onderliggende architectuur. 7.2.4 PRIVACY Rekening houden met privacy issues bij het verzamelen van persoonlijke data van klanten wanneer men op die manier beter en persoonlijker wil inspelen op hen. Dit is een topic dat weer wat gevoeliger ligt omdat er geen duidelijke grens is tot waar bedrijven mogen gaan in het op zoek gaan en verzamelen van gegevens over klanten. Natan Meekers Thomas More 22
  28. 28. 7.3 7.3.1 OPPORTUNITEITEN DATA-GEDREVEN ORGANISATIE Data wordt steeds belangrijker. Er wordt wel eens gezegd dat data de ‘new oil’ is van de 21 ste eeuw. Bedrijven moeten dus op zoek gaan naar alle mogelijke soorten bronnen om data uit te verzamelen en te betrekken bij analyses zodat toekomstige beslissingen gebaseerd kunnen worden op verkregen informatie en nieuw ontdekte patronen. 7.3.2 UITGEBREIDERE ANALYTISCHE MOGELIJKHEDEN Doordat de opslag van data goedkoper is en de verwerking van grote hoeveelheden geen enkel probleem meer vormt, kun je als bedrijf meer ‘advanced analytics’ gaan toepassen. Datamining en voorspellende analyses zoals forecasting kunnen ingezet worden om complexere problemen aan te pakken waarvan men vroeger dacht dat ze onmogelijk op te lossen waren. 7.3.3 INTERACTIE MET KLANTEN Het hele gegeven van Social-Mobile-Cloud genereert zoveel data, dat we nu over de mogelijkheid beschikken om klantenprofielen op te stellen en hen persoonlijk aan te spreken. Dit kan door consequent data bij te houden (van sociale media, mobile app gebruik .....) en die te gaan analyseren. Je verzamelt bijvoorbeeld gegevens van personen die je website bezoeken. Op basis daarvan kan je een gepersonaliseerde website laten zien. Concreet: een verschillende layout voor mannen en vrouwen of het tonen van andere producten op basis van leeftijdscategorieën. 7.3.4 DETECTEREN VAN FRAUDE Nu er meer data beschikbaar is en die data sneller verwerkt kan worden, kun je als bedrijf werken naar een real-time Big Data architectuur, die op basis van vooropgestelde regels nagaat of een transactie mogelijk frauduleus is terwijl die wordt uitgevoerd. Door de vernieuwingen die Big Data met zich meebrengt, kun je als bedrijf alle beschikbare data betrekken bij analyses in plaats van een extract van de laatste jaren. Blijf op zoek gaan naar nieuwe patronen die wijzen op mogelijk frauduleuze transacties. Verifieer de gefilterde transacties om na te gaan of er geen valse positieven in voorkomen want anders verlies je misschien klanten. Deze modellen worden opgebouwd door data scientists die op zoek gaan naar mogelijke verbanden tussen data. 7.3.5 ANDERE Er zijn nog zoveel andere opportuniteiten die Big Data ons kan bieden. Het is niet mogelijk om ze allemaal te definiëren omdat ze voor elke sector specifiek zijn. Elke dag worden er nieuwe opportuniteiten ontdekt. De kunst is creatief te zijn in het op zoek gaan naar manieren om Big Data te gebruiken en zo een concurrentieel voordeel op te bouwen. Natan Meekers Thomas More 23
  29. 29. 8 AANPAK Aangezien Big Data een relatief ‘nieuw’ onderwerp is, zeker in België, wordt er tot op de dag van vandaag weinig of geen aandacht aan besteed in het hoger onderwijs. In dit hoofdstuk stel ik een stappenplan op om bedrijven, die met Big Data willen beginnen, te helpen. 8.1 ONDERZOEK NAAR BIG DATA Big Data is nieuw en er zijn verschillende percepties van het begrip. Het gaat niet alleen om grote volumes van data. Door onderzoek te doen, leer je wat er allemaal verstaan wordt onder dit begrip. Tijdens de lessen van Performance Management pasten we de ‘flipped-class’ methode toe. Gedurende een aantal weken mochten we werken aan een paper over een nieuwe ontwikkeling binnen Performance Management. Zo heb ik mij in die periode kunnen verdiepen in Big Data door hienrnaar onderzoek te doen; deze paper heeft als basis gediend voor dit eindwerk. 8.1.1 EVENTS Events zijn een uitstekende plaats om contacten te leggen met mensen die gemeenschappelijke interesses hebben. Een goed netwerk is volgens mij dan ook essentieel voor een IT ’er; wanneer je kennis of informatie zoekt over een bepaald onderwerp, kan je altijd iemand uit je netwerk contacteren. LinkedIn, websites van consultancy bedrijven en nieuwsbrieven van vendors (IBM, MS, ..) zijn goede kanalen om op de hoogte te blijven van georganiseerde events. Als je een beetje sociaal vaardig en communicatief bent, en wat lef hebt, is het niet moeilijk om contacten te leggen met mensen om op die manier je netwerk uit te breiden. 8.1.2 WEBINARS Webinars zijn een relatief nieuw concept om informatie te delen. Deze worden voornamelijk georganiseerd door bedrijven die hun klanten en prospecten op een eenvoudige manier van informatie willen voorzien. Wanneer je ingeschreven bent voor een webinar, wordt je een link toegestuurd waarmee je kan inloggen op het moment dat de webinar plaatsvindt. Wanneer je inlogt, krijg je toegang tot audio en video. In sommige webinars kan je ook zelf interactief deelnemen aan de sessie, als je over een headset beschikt. Tijdens andere webinars kan je vragen stellen via een chat module; deze worden dan achteraf behandeld. Het interessante aan dit concept is dat je je niet hoeft te verplaatsen en dat je op een relatief korte tijd, meestal ongeveer één uur, veel informatie krijgt en over de mogelijkheid beschikt om vragen te stellen. Als er tijd tekort is om alle vragen te beantwoorden, worden de overige vragen vaak beantwoord via email. Natan Meekers Thomas More 24
  30. 30. 8.1.3 SOCIALE MEDIA In onze huidige maatschappij speelt Sociale Media een steeds meer belangrijke rol. Vooral LinkedIn, Twitter, en Meetup zijn erg populair voor professionele doeleinden. Figuur 13 - Sociale media om je netwerk uit te bouwen Via Twitter kan je je abonneren op kanalen van bedrijven en/of personen die jou interesseren. Als je je abonneert op een Twitter kanaal waar jouw interesse naar uitgaat, ontvang je telkens de nieuwste Tweets op je persoonlijk dashboard. Het abonneren op Twitter kanalen van ‘thought- en inspirational leaders’ heeft als voordeel dat je op de hoogte blijft van populaire topics en nieuwe, interessante ontwikkelingen. Op LinkedIn bouw je je eigen professionele netwerk van contacten en kan je je inschrijven op groepen. Deze groepen kunnen door iedereen opgericht worden en hebben als doel mensen met dezelfde interesse met elkaar in contact te brengen en meningen en ervaringen te kunnen delen. Door middel van polls en discussies worden ideeën tussen groepsleden uitgewisseld. Meetup, een minder bekend platform, is interessant om in contact te komen met mensen die dezelfde interesses hebben. Natan Meekers Thomas More 25
  31. 31. 8.1.4 VIRTUELE MACHINE Cloudera en Hortonworks hebben beide een virtuele machine (VM) aangemaakt die je gemakkelijk kan afspelen op je eigen systeem om op die manier kennis te maken met Hadoop en services. De VM van Hortonworks bevat ook tutorials voor Pig en Hive om te leren hoe scripts worden opgebouwd en uitgevoerd. Figuur 14 - Hortonworks VM interface 8.2 FORMULEER OPPORTUNITEITEN Je kan vertrekken vanuit een analyse van je bedrijf en die problemen formuleren die tot nu toe te moeilijk of te duur waren om op te lossen. In samenwerking met analisten, data scientists, marketeers en andere business users kan je opportuniteiten of problemen identificeren die het best passen bij jouw bedrijf en die nog nooit zijn aangepakt. Uit die lijst van geformuleerde opportuniteiten neem je best degene waarvan je redelijk zeker bent dat je een acceptabele ROI zal krijgen. Natan Meekers Thomas More 26
  32. 32. 8.3 ONTWIKKEL USE CASES Nu de opportuniteit geselecteerd is, stel je use cases op die nodig zijn om het project uit te voeren. Schematiseer de datastromen om na te gaan welke technologieën nodig zijn om het geformuleerde probleem op te lossen. Ga na welke data verzameld en opgeslagen moeten worden en welke je beter weg laat. Ook al is opslag goedkoper geworden, het kost nog steeds geld en daarom is het nuttig om goed na te denken welke data tot nieuwe inzichten kunnen leiden en die op te slaan. Ga na welke analytische query’s er nodig zijn en welke algoritmes gebruikt zullen worden om de gewenste resultaten te verkrijgen. 8.4 IDENTIFICEER HUIDIGE- EN TOEKOMSTIGE CAPACITEITEN Als de use cases zijn opgesteld, is het goed om na te gaan welke extra data kwaliteitseisen gedefinieerd moeten worden voor het verzamelen, cleanen en aggregeren van data. Ook op gebied van hardware is het goed om na te gaan aan welke vereisten het systeem moet voldoen: schaalbaar, fouten tolerant, performant … Zoals eerder vermeld is het voor Hadoop clusters niet aangeraden om servers te kopen met meer dan 2 CPU’s omdat die direct een prijsklasse hoger zijn en dat loopt niet gelijk op met de extra performantie. In de meeste opstellingen wordt er gebruik gemaakt van één 2TB disk per CPU core, maar er zijn ook al clusters die draaien met 3TB schijven per core. Een node met 2 quad core processors heeft dus 8 disks om data op te slaan en 1 disk voor het OS. 8.5 ZET EEN TESTOMGEVING OP Nu ook de capaciteiten geïdentificeerd en geformuleerd zijn, kan je beginnen met het opzetten van een testomgeving of kiezen voor een cloud oplossing zoals Amazon. Zeker voor een POC is dat heel gemakkelijk en veel kosten efficiënter dan het opzetten van een eigen omgeving. Wanneer je een eigen architectuur opzet, is het slim om te kijken naar gelijkaardige bedrijven om te zien wat voor setup zij gebruiken. Verder zijn er verschillende blogs van Yahoo! Hadoop ingenieurs geven concrete tips geven over het opzetten van een cluster. Denk ook al na over hoe de data gevisualiseerd zal worden zodat die gemakkelijk te begrijpen is voor alle business users. 8.6 EVALUEER Interpreteer de resultaten en ga na of deze kunnen kloppen. Is de doorlooptijd om de vraag te beantwoorden korten dan voorheen? Of is het resultaat nauwkeuriger? Meet ook de ROI en ga na wat de ROI is op korte en lange termijn. Breidt het project uit met meer cases en ga na wat voor jou bedrijf de beste opportuniteiten zijn om uit te werken. Natan Meekers Thomas More 27
  33. 33. 9 USE CASES 9.1 MISDAAD PREVENTIE MEMPHIS Memphis was een slechte stad om in te wonen. De criminaliteitscijfers liepen zo hoog op dat er iets moest gebeuren. Enkele wetenschappers van de Universiteit van Memphis hebben het Memphis Police Department (MPD) benaderd met het voorstel om alle data, die tot nog toe in silo’s zat opgesloten, te ‘bevrijden’ en te combineren met real-time data om zo patronen te ontdekken. De wetenschappers zijn de data gaan analyseren met het statistische programma SPSS en is vervolgens omgedoopt tot Operatie Blue CRUSH doordat het door IMB is aangekocht. Dankzij de analyses heeft het politie departement meer inzicht gekregen in de plaats en tijd van de incidenten. Door deze inzichten kan MPD hun patrouilles nu effectiever en efficiënter inzetten. HISTORISCHE INPUT REAL-TIME INPUT OUTPUT Politierapporten Verkeerspatronen Real-time Soorten criminaliteit Jaargetijde Grootste kans misdaad Locatie misdaad Temperatuur Optimale inzet politiekrachten Tijdstip misdaad (pv) Regen Weersomstandigheden Evenementen (?) Verkeersinformatie Integratie met 911 Overige bijzonderheden GSM-locatie verdachten Soorten criminelen (strafbladen) Arrestatiebevelen Crime-scene Terugkerende patronen (loon-uitbetaaldag) Het resultaat van dit project kan niet ontkent worden:    30% minder zware criminaliteit 15% minder gewelddelicten Hogere veroordelingsgraad (16%  70%) door betere bewijslast (op heterdaad betrapt) Het Big Data systeem Blue CRUSH is een zelf lerend systeem dat beter wordt doordat er meer informatie beschikbaar komt en er meer feedback ingevoerd wordt. Deze oplossing kan nu ook zonder al te veel aanpassingen gebruikt worden door andere politiedepartementen die hier ook nood aan hebben. Natan Meekers Thomas More 28
  34. 34. 9.2 PRESIDENTSVERKIEZING US Op dinsdag 6 november 2012 is Barack Obama verkozen voor een tweede termijn als president. Volgens verschillende bronnen heeft Obama zijn overwinning te danken aan het gebruik van Big Data in zijn campagne. President Obama’s campagne was één van de meeste verfijnde en gesofistikeerde digitale operaties waarbij geen enkele veronderstelling als vanzelfsprekend werd aangenomen. Zijn campagne werd bedacht en geleid door data analisten die niets aan toeval overlieten. Ze moedigden supporters aan om hun persoonlijke gegevens te delen, opmerkingen, foto’s en video’s te posten en om te doneren. Dat was slechts het begin. Vanuit hun veelzijdige campagnestrategie positie zijn ze verder gegaan door webmasters deze data te laten gebruiken om bezoekers te leiden naar andere campagne-media zoals Obama’s Facebook-pagina en Youtube kanaal. Een ander voorbeeld toont ook aan dat data van steeds groter belang is bij politiek: Obama heeft een wedstrijd opgesteld om te dineren met Jessica Parker en heeft zich gericht naar een beperkte groep van personen die ook aangetrokken zijn door zijn de Republikeinen, celebraties en die houden van dineren. Deze specifieke groep bestaat en heeft veel geld waardoor er op deze manier ook extra inkomsten verkregen kunnen worden. Natan Meekers Thomas More 29
  35. 35. Alles wat er over een persoon gevonden kan worden, is gebruikt om voorspellende analyses te maken om nieuwe kiezers te vinden maar ook om te bepalen welke boodschappen de aandacht trekt van bepaalde personen en welke types van personen door deze boodschappen overtuigd geraken. Het is duidelijk dat de zeer dure advertenties op tv en radio er niet langer voor zorgen dat je de verkiezingen wint. Het zijn de nauwkeurig uitgezochte, kleinschalige en op maat gemaakte boodschappen voor een specifieke doelgroep of persoon die maken dat een gebruiker zich aangesproken voelt en mogelijk een stem wordt. Obama’s team is zelfs zo ver gegaan dat de campagne voerders die thuis langsgaan, verschillende boodschappen klaar hadden afhankelijk voor welk familielid de deur zou open doen. NATE SILVER Een ander opvallend verhaal is dat van Nate Silver. Hij is een statisticus die een gewaagde voorspelling heeft gemaakt over de uitslag van de verkiezingen in de US. Nate Silver deed ook een voorspelling over het aantal stemmen dat beide kandidaten zouden halen: 332 voor Obama en 206 voor Romney. Deze cijfers komen 100% overeen met de echte resultaten. Uit beide verhalen blijkt maar weer dat er heel veel data is die we op de juiste manier moeten gaan gebruiken om tot nieuwe inzichten en voorspellingen te komen en welke mogelijkheden we krijgen om doelen te bereiken die vroeger onmogelijk leken. Natan Meekers Thomas More 30
  36. 36. 9.3 DETECTIE FRAUDULEUZE TRANSACTIES Platformen, zoals PayPal, om online te betalen moeten transacties van veel meer bronnen verwerken dan de gewone creditkaart bedrijven. PayPal moet uit de 90 miljoen browsers en mobiele apparaten die bijna constant connecteren naar de online betaal service, de mogelijke frauduleuze transacties identificeren. Door deze uitdaging hebben ze systemen ontworpen die frauduleuze activiteiten kunnen identificeren en die afhandelen voordat deze transacties begonnen zijn. Ook de andere grote spelers op de markt van online transacties hebben speciale geavanceerde analytische tools en servers gebouwd om patronen van frauduleuze activiteiten te ontdekken. PayPal heeft zo een ‘Fraude Management Filter’ ontworpen die zoekt naar betalingen en andere soorten transacties waarvan de bron verdacht is, de grootte van het bedrag of eender welke andere factor die een winkelier kan opgeven en maakt dat deze transacties goedgekeurd moeten worden. Maar er zijn meer factoren die kunnen helpen in het verfijnen van de bestaande modellen om fraude te voorkomen. Zo kunnen ook IP adressen, browser informatie en andere technische data dienen in het ontdekken van nieuwe patronen. Het gebruik van deze nieuwe technieken en tools zijn een enorme vooruitgang op de manieren die hiervoor gebruikt werden. Nu kunnen er continu, real-time analyses uitgevoerd worden op zéér grote datasets. Vroeger werden er samples gebruikt van de data die dan ’s nachts werd geanalyseerd voor het maken van fraude-detectie modellen. In deze snel veranderende wereld volstaan deze modellen simpel weg niet meer. Data die geregistreerd wordt door transacties via deze online betalings-platformen bieden veel meer mogelijkheden dan het detecteren van alleen fraude. Door het combineren van klantgegevens, transacties, zoekopdrachten, aankopen, likes & dislikes (sociale media), … kunnen bedrijven nieuwe geavanceerde marketing modellen opstellen en voorspellende analyses maken voor het verkopen van nieuwe producten en services. Natan Meekers Thomas More 31
  37. 37. 9.4 VESTAS WINDTURBINES Het Deense bedrijf Vestas, dat Windturbines verkoopt, moest iets ondernemen om ervoor te zorgen dat het voor bleef op de concurrerende firma’s. Om dat te doen zijn ze Big Data analytische software van IBM gaan gebruiken: ‘BigInsight’ in samenwerking met een krachtige IBM supercomputer: ‘Firestorm’. Met deze nieuwe technologieën willen ze Petabytes aan gestructureerde en ongestructureerde data van weerrapporten, satteliet foto’s, geospatial en sensor data, ontbossingsmappen en weersvoorspellingsmodellen analyseren. Klanten willen weten hoeveel energie een windturbine zal opbrengen en wat hun Return On Investment (ROI) zal zijn vooraleer ze overgaan tot het aankopen en plaatsen van een windturbine. Met deze nieuwe technologieën kunnen ze de vragen van de klant zeer snel beantwoorden en hen helpen om hun doelen voor hernieuwbare energie te behalen. Als de turbines geplaatst zijn en operationeel zijn, zullen Vestas ingenieurs de nieuwe software gebruiken om de opbrengst van de turbine te simuleren, analyseren hoe elk blad van de schroef op weersomstandigheden reageert en bepalen wat het beste tijdstip is om de turbine stil te leggen voor onderhoud. Vestas is één van de bedrijven die weer aantoont hoe grote organisaties Big Data kunnen gebruiken om slimmere beslissingen te maken. Deze beslissingen hebben een sterke invloed op de groei van je bedrijf aangezien je de moeilijkste problemen kan aanpakken. De mogelijkheid om inzichten te krijgen in de grote hoeveelheden data die bedrijven ter beschikking hebben, heeft het potentieel om een bedrijf of industrie voor goed te veranderen. Natan Meekers Thomas More 32
  38. 38. 10 CASE – FOD JUSTITIE Bij FOD Justitie is niet alles gelopen zoals verwacht. Sinds november was ik in dialoog met hen over de scope en vereisten van het project dat ik zou uitvoeren. Zij zouden voorzien in hardware en data, ik zou het systeem operationeel maken en een vraag van de business proberen te beantwoorden met het nieuwe systeem . Ondanks ik mijn praktisch gedeelte daar niet kon uitwerken, heb ik er veel uit geleerd. Wanneer een bedrijf te groot wordt, loopt het risico om zoveel procedures te creëren, dat sommige processen onnodig ingewikkeld worden. Zo heb ik twee weken moeten wachten vooraleer SAS Enterprise Guide als package op mijn pc beschikbaar was. Die aanvraag moest via de helpdesk geïnitieerd worden: een ticket aanmaken, wachten tot het ticket geaccepteerd is, wachten tot alle voorgaande tickets afgewerkt zijn en dan wachten tot je eigen ticket succesvol afgewerkt is. In tussentijd heb ik via e-mail en telefoon contact gezocht met IT om er zeker van te zijn dat het daarna niet nog eens zo lang zou duren om de servers klaar te maken. Ik merkte al snel dat er traag geantwoord werd op mijn mails en telefonisch kreeg ik geen contact meer. Dan ben ik op zoek gegaan naar een ander project. Ik heb mijn interne begeleider bij FOD Justitie op de hoogte gebracht van mijn beslissing en heb gezegd dat ik in juni nog een aantal dagen kom werken op de Visual Analytics server. Deze demo server heeft SAS voorzien en wordt nu door niemand gebruikt. Het opzetten van een Big Data architectuur ter ondersteuning van de klassieke BI zal verbetering brengen op volgende vlakken:       Eén centrale data ‘repository’ waar alle data van alle justitiehuizen in samenvloeit. Verrijken van interne data met externe data zoals verkeersinformatie en klimaatgegevens. Toepassen van datamining om verbanden te zoeken tussen data. Data modellen projecteren op data. Uitgebreidere mogelijkheden om tekst analyses en Natural Language Processing uit te voeren. Penitentie gegevens gaan analyseren die rechters kunnen helpen om gepaste sancties uit te delen. Natan Meekers Thomas More 33
  39. 39. 11 CASE – ADSWIZZ Eind mei ben ik aan een project begonnen bij Adswizz in samenwerking met mijn externe begeleider (DataCrunchers). Adswizz injecteert advertenties in radio web streams en genereert zo 75GB aan weblogs per maand. Binnenkort krijgen ze er een grote Amerikaanse klant bij waardoor dat volume 100x groter zal worden. Ook willen ze extra data verzamelen over luisteraars zodat ze advertenties kunnen gaan personaliseren. Dat wil zeggen dat verzamelde data in real-time geanalyseerd moet worden om dan een meer relevante advertentie te injecteren in een bepaalde webstream. Momenteel gebruiken zij Scribe om hun data te verplaatsen naar Amazon S3 storage. Ontwikkelde Pig scripts worden gelanceerd op Amazon ’s Elastic MapReduce (EMR) om te testen hoe ze performen op de volledige data set in plaats van een lokaal extract. De data van één maand kopiëren van S3 naar EMR duurt ongeveer 4 minuten. In EMR wordt er dan een cluster online gebracht van 20 nodes. Het aantal nodes kan je zelf kiezen. De data wordt met de huidige Pig scripts in 4 uur verwerkt. Deze scripts moeten dus nog geoptimaliseerd worden want dit zou moeten lukken in 1 à 2 uur. Wanneer het Pig script is uitgevoerd, wordt het resultaat weggeschreven naar S3, de data verwijderd en de cluster weer offline gebracht. Mijn rol in dit project is het helpen ontwikkelen van Pig scripts die data verzamelen, aggregeren en wegschrijven naar HBase. De huidige rapporten worden opgebouwd op basis van de data in HBase. De informatie over dit project is beperkt omdat ik hier pas eind mei kon opstarten. Dit komt door de moeilijkheden die er waren bij Justitie. Tijdens de presentatie van dit eindwerk kan de jury meer gedetailleerde informatie verwachten over het praktische gedeelte van dit project. Ik zal laten zien hoe Pig scripts zijn opgebouwd en uitleggen hoe ze worden uitgevoerd. Ook zal ik met de iPad een aantal rapporten laten zien die ik in Visual Analytics heb gebouwd. Natan Meekers Thomas More 34
  40. 40. 12 CONCLUSIE 12.1 ALGEMEEN Big Data valt onder het Business Intelligence en Analytical Intelligence domein van Performance Management. Het meet onze prestaties in het verleden (BI) en het kan ons ook door middel van geavanceerde analyses (‘predictive analytics’) inzicht geven in de toekomst. Doorheen dit eindwerk is het duidelijk geworden dat Big Data een grote toegevoegde waarde biedt voor bedrijven: meer inzicht in klanten om ze persoonlijker te bedienen, sneller (en nieuwe) inzichten verwerven, geld uitsparen, uitvoeren van fraude en risico analyses, … Dat is de reden waarom steeds meer bedrijven een ‘data-driven’ richting uitgaan. De mogelijkheid om meer data sneller te verwerken en daarbij externe databronnen te betrekken, maakt dat bedrijven beschikken over veel nieuwe opportuniteiten waarmee ze een concurrentievoordeel kunnen opbouwen. Big Data projecten eisen nieuwe skills waarin een bedrijf zal moeten investeren. Vooral de vraag naar analytische profielen zal sterk stijgen. De ROI is moeilijk te bepalen voor veel Big Data projecten maar ondertussen bestaan er al veel use cases waaruit je inspiratie kan opdoen en die je zekerheid geven dat je project iets zal opleveren. Ondanks de vele use cases, die voornamelijk uit de VS afkomstig zijn, heb ik gemerkt dat er op de Belgische markt nog maar weinig vraag is naar Big Data expertise. Het zal dus voor Big Data consultants een uitdaging zijn om aan bedrijven de meerwaarde en voordelen aan te tonen om een project op te starten. Maar over het algemeen zien we dat in België vernieuwingen altijd wat later doorbreken. Ik geloof dus dat Big Data de komende jaren op grote schaal zal geïmplementeerd worden. Bedrijven beginnen best met een POC of Pilot project om vanuit één probleem of vraag een oplossing of antwoord te geven door middel van Big Data. Wanneer zo een case succesvol is uitgewerkt, kan men stilaan uitbreiden door meer cases aan te pakken en creatief te zoeken naar nieuwe opportuniteiten. Pas wel op voor de grote fout die vele mensen maken: ‘Big Data is no silver bullet’ ! Alle dingen die mogelijk zijn met het verzamelen en opslaan van data tot het uitvoeren van de geavanceerde analyses, vereisen de juiste skills en expertise om succes te garanderen. Big Data systemen werken niet autonoom en hebben nog steeds begeleiding nodig van mensen die begrijpen wat er gebeurt en die de resultaten kunnen evalueren. Suggesties voor verder werk: dieper ingaan op ‘the analytics’ van Big Data en nagaan hoe we creatief kunnen zijn met data. Op die manier kan een profiel opgesteld worden van vereiste skills en hoe ze ontwikkeld kunnen worden om bedrijven beter te helpen bij Big Data projecten en succes te garanderen. Natan Meekers Thomas More 35
  41. 41. 12.2 PERSOONLIJK De afgelopen maanden ben ik druk bezig geweest met mezelf wegwijs te maken in het Big Data verhaal. Dat was niet altijd gemakkelijk omdat het allemaal nieuwe materie is. Door verschillende kanalen te gebruiken, heb ik veel bijgeleerd en heb ik goede contacten kunnen leggen. Die kan ik raadplegen als ik hulp nodig heb voor de praktijk. Big Data is een zeer uitgebreid en veelomvattend onderwerp en het was niet gemakkelijk om het compact uit te leggen. Voor het praktische gedeelte heb ik wat tegenslag gehad maar daar heb ik ook veel uit geleerd. Ondanks de noodzaak van verandering van project op het allerlaatste moment (5 werkdagen voor de deadline van dit eindwerk) heb ik niet opgegeven. Tot in juni blijf ik er aan verder werken zodat ik een meer uitgebreid praktisch gedeelte kan presenteren. Natan Meekers Thomas More 36
  42. 42. 13 VERKLARENDE WOORDENLIJST [1] OPEN-SOURCE Software waarvan de broncode wordt vrijgegeven. Gebruikers hebben de mogelijkheid om de software te bestuderen, aan te passen en verbeteringen aan te brengen. De code van opensource software komt vaak tot stand door de samenwerking van individuele programmeurs uit een open-source community [2] Commodity hardware Computer hardware die gemakkelijk te verkrijgen en betaalbaar is. [3] Appliance Een machine die speciaal ontworpen is om een bepaalde taak uit te voeren. [4] Node Een computer die is aangesloten op een bepaald netwerk. Een verzameling van nodes vormt een cluster. [5] Legacy systemen Bronsystemen zoals ERP, CRM of andere applicaties met gegevens in een databank. [6] Scope Het bereik van een project. Overeengekomen werk dat voltooid moet worden om tot het eindresultaat te komen. [7] Amazon S3 Service die de mogelijkheid aanbiedt om data op te slaan in de cloud. [8] Amazon EMR Elastic MapReduce is een web service die bedrijven de mogelijkheid aanbiedt om enorme hoeveelheden data op een gemakkelijke en kosten-efficiënte manier te analyseren. [9] on-the-fly In real-time. Uitvoeren terwijl het gebeurt. [10] speed-of-thought Zeer snel. Natan Meekers Thomas More 37
  43. 43. 14 AFKORTINGEN PM PERFORMANCE MANAGEMENT BI BUSINESS INTELLIGENCE BD BIG DATA ETL/ELT EXTRACT, TRANSFORM AND LOAD / EXTRACT, LOAD AND TRANSFORM. EMR ELASTIC MAPREDUCE POC PROOF OF CONCEPT HDFS HADOOP DISTRIBUTED FILE SYSTEM VA VISUAL ANALYTICS HDP HORTONWORKS DATA PLATFORM MPP MASSIVE PARALLEL PROCESSING ROI RETURN ON INVESTMENT Natan Meekers Thomas More 38
  44. 44. 16 BIJLAGE 16.1 BIG DATA POSTER Voor het vak Performance Management moesten wij voor onze paper een poster ontwerpen. Aan de hand van die poster mochten wij onze paper presenteren op het Performance Management event dat georganiseerd was door het BICC van onze hogeschool. Natan Meekers Thomas More 39
  45. 45. 16.2 ADSWIZZ- STREAMING AD INJECTION Een overzicht van de methode die Adswizz gebruikt om advertenties te injecteren in webstreams. Natan Meekers Thomas More 40
  46. 46. 17 BIBLIOGRAFIE [1] ANTUNOVIĆ, M. Build Optimal Hadoop Cluster. Atlantbh, 2012. Opgeroepen in Oktober 2012 van: <http://www.atlantbh.com/how-to-build-optimal-hadoop-cluster/>. [2] APACHE. Hadoop™. Apache.org, 2012. Opgeroepen in Oktober 2012 van: <http://hadoop.apache.org/>. [3] ASAY M.. Becoming Red Hat: Cloudera and Hortonworks' Big Data death match™. The Register, 2013. Opgeroepen in Februari 2013 van: < http://www.theregister.co.uk/2012/08/17/community_hadoop/>. [4] COX, R. Hortonworks shows out at OpenStack summit. Sillicon Angle, 2013. Opgeroepen in April 2013 van: <http://siliconangle.com/blog/2013/04/17/hortonworks-shows-out-at-openstack-summit-while-cloudera-stays-athome/> [5] CROLS, J. Storm is coming: are you ready for big data? Ferranti Computer Systems. Belgium, p. 8. 2012. [6] DATA SCIENCE SERIES. Scoping out your Big Data analytics project. Datameer. 2013. Opgeroepen in April 2013 van: <http://info.datameer.com/rs/datameer/images/Project_plan.pdf?mkt_tok=3RkMMJWWfF9wsRokv6rIZKXon jHpfsX56egrWaa1lMI%2F0ER3fOvrPUfGjI4FRMpjI%2BSLDwEYGJlv6SgFSrbEMaJn2bgIUhE%3D>. [7] DEAN. Facing the challenges of Big Data. YARC, 2013. Opgeroepen in April 2013 van: < http://yarcdata.com/blog/?p=413/>. [8] HOWARD, P. Sybase IQ 15.4. Bloor Research. USA, p. 17. 2012. [9] IBM. What is Big Data. Bringing big data to the enterprise, 2012. Opgeroepen in Oktober 2012 van: <http://www-01.ibm.com/software/data/bigdata/>. [10] IBM CORPORATION. Recognize the many faces of fraud. IBM Corporation. USA, p. 8. 2010. [11] IBM CORPORATION. Understanding Big Data. IBM Corporation. USA, p. 166. 2011. [12] IBM GLOBAL BUSINESS SERVICES. Analytics: The real-world use of big data. IBM Institute for Business Value. USA, p. 22. 2012. [13] JERNEVAD, M. Trends that empower. Projectplace International. Stockholm, p. 13. 2012. [14] LEI, S. Setting Up a Hadoop Cluster. National University of Signapore. Signapore, p. 6. 2009. Natan Meekers Thomas More 41
  47. 47. [15] DEUTSCHER, M. Big Data deep dive conclusion: the future of analytics. Sillicon Angle, 2013. Opgeroepen in April 2013 van: < http://siliconangle.com/blog/2013/03/28/big-data-deep-dive-conclusion-the-future-of-analytics//>. [16] MCKINSEY. The next frontier for innovation, competition and productivity. McKinsey Global Institute. [S.l.], p. 156. 2011. [17] NUCLEUS RESEARCH. Big Data: Beyond the buzzwords. Nucleus Research. USA, p. 3. 2011. [18] OFFERMAN, A. Hadoop: raamwerk voor de grote jongens. Tweakers, 21 fev. 2012. Opgeroepen in Oktober 2012 van: <http://tweakers.net/reviews/2475/2/hadoop-raamwerk-voor-de-grote-jongens-wat-is-hadoop.html> [19] RAMAMURTHY, B. MapReduce & Hadoop Distributed File System. University Buffalo. Buffalo, p. 39. 2012. [20] SAS INSITUTE. Banks, Big Data and High-Performance Analytics. SAS Institute. USA, p. 16. 2012. [21] SAS INSTITUTE. Big Data for the Next Big Idea in Financial Services. SAS Institute. USA, p. 13. 2012. [22] SAS INSTITUTE. High Performance Analytics at the speed of right. Sas Institute. USA, p. 32. 2012. [23] THE APACHE SOFTWARE FOUNDATION. What is Hadoop. Hadoop Apache, 3 20 2012. Opgeroepen in Oktober 2012 van: <http://hadoop.apache.org/>. [24] TURNER, J. Hadoop: What it is, how it works, and what it can do. O'Reilly Radar, 12 jan. 2011. Opgeroepen in Oktober 2012 van: <http://radar.oreilly.com/2011/01/what-is-hadoop.html>. [25] URBANI, J. Reasoning-Hadoop. Vrije Universiteit - Faculty of Sciences. Amsterdam, p. 87. 2009. [26] EVELSON, B. Advanced Data Visualization Platforms. SAS Institue, 2012. Opgeroepen in Maart 2013 van: <http://radar.oreilly.com/2011/01/what-is-hadoop.html>. [27] ZWANENVELD, A. Big Data: Misdaadpreventie Memphis Police Dept. , Juli 2012. Opgeroepen in November 2012 van: <http://www.webanalisten.nl/big-data-voorbeeld-misdaadpreventie-memphis-police-dept>. [28] BADGER, E. How to catch a criminal with data. , Maart 2012. Opgeroepen in November 2012 van: <http://www.theatlanticcities.com/technology/2012/03/how-catch-criminal-data/1477/>. [29] HONAN, D. The 2012 Election: A big win for Big Data , Nov 2012. Opgeroepen in November 2012 van: <http://bigthink.com/think-tank/the-2012-election-a-big-win-for-big-data>. [30] HOWARD, A. In the 2012 election, Big Data-driven analysis & campains were the winners. O'Reilly, Nov 2012. Opgeroepen in November 2012 van: <http://strata.oreilly.com/2012/11/2012-election-big-data-journalism-obama-data-campaign.html>. Natan Meekers Thomas More 42
  48. 48. [31] LYNCH, M. Barack Obama's Big Data won the US election. Computerworld, Nov 2012. Opgeroepen in November 2012 van: <http://www.computerworld.com/s/article/9233587/Barack_Obama_39_s_Big_Data_won_the_US_election>. [31] SILVER, N. Five Thirty Eight (538). NY Times , Nov 2012. Opgeroepen in November 2012 van: <http://fivethirtyeight.blogs.nytimes.com/> [32] HARDING, L. Numbers nerd Nata Silver’s forcasts prove all right on election night. Guardian, Nov 2012. Opgeroepen in November 2012 van: <http://www.guardian.co.uk/world/2012/nov/07/nate-silver-election-forecasts-right> [33] ECONOMIST, T. Big Data: Chrunching the numbers. The Economist, Mei 2012. Opgeroepen in November 2012 van: <http://www.economist.com/node/21554743> [34] SIMS, D. Big Data thwarts fraud. Strata O'Reilly, Feb 2011. Opgeroepen in November 2012 van: <http://strata.oreilly.com/2011/02/big-data-fraud-protection-payment.html> [35] IBM. Vestas Wind Systems turn to IBM Big Data Analytics for smarter wind energy. IBM, Okt 2011. Opgeroepen in November 2012 van: <http://www-03.ibm.com/press/us/en/pressrelease/35737.wss> [36] IBM. IBM helps Vestas turn cliate Big Data into Capital. IBM, Okt 2011. Opgeroepen in November 2012 van: <http://www.ibmbigdatahub.com/video/ibm-helps-vestas-turn-climate-big-data-capital> [37] LAMONICA, M. IBM's Big Data helps Vestas wind turbines crank. CNET News, Okt 2011. Opgeroepen in November 2012 van: <http://news.cnet.com/8301-11128_3-20125284-54/ibms-big-data-helps-vestas-wind-turbines-crank/> [38] HARISH & VIJAY, Introduction to Big Data & Hadoop Ecosystem Part 1-2-3. Cloudstory.in, Apr 2012. Opgeroepen in November 2012 van: <http://cloudstory.in/2012/04/introduction-to-big-data-hadoop-ecosystem-part-1-2-3/> [39] GARTNER. 42 Percent of IT Leaders Have Invested in Big Data or Plan to Do So. Gartner, 2013. Opgeroepen in Maart 2013 van: <http://www.gartner.com/newsroom/id/2366515> [40] HORTONWORKS. Modern Data Architecture and Hadoop. Hortonworks, 2013: Opgeroepen in Maart 2013 van: <http://hortonworks.com/hadoop-modern-data-architecture> [41] HUNT, I. The CIA on Big Data. SiSense, 2013. Opgeroepen in April 2013 van: <www.sisense.com/blog/bruno/2013/03/27/recaps-gigaom-structure-data-gartner-bi-and-analytics-summit> Natan Meekers Thomas More 43
  49. 49. [42] IE. Big Data Innovation Summit. Innovation Enterprise, 2013. Opgeroepen in Mei 2013 van: <theinnovationenterprise.com/summits/big-data-innovation-summit-april-2013-san-francisco/schedule> [43] INTEL. Getting started with Big Data. Intel, 2013. Opgeroepen in Mei 2013 van: <http://www.intel.com/content/dam/www/public/us/en/documents/guides/getting-started-with-hadoopplanning-guide.pdf [44] JEDRAS, J. SAS takes aim at SAP with in-memory analytics. IT World Canada, 2013. Opgeroepen in Mei 2013 van: <http://www.itworldcanada.com/news/sas-takes-aim-at-sap-with-in-memory-analytics/147049 [45] KELLY, J. The Hadoop Wars: Cloudera and Hortonworks’ Death Match for Mindshare. Wikibon, 2013. Opgeroepen in Mei 2013 van: <http://wikibon.org/wiki/v/The_Hadoop_Wars:_Cloudera_and_Hortonworks%E2%80%99_Death_Match_for_Mind share> [46] KELLY, K. Big Data vs. Tradition Business Intelligence. SmartDataCollective, 2012. Opgeroepen in Mei 2013 van: <http://smartdatacollective.com/node/84546> [47] MEHRA, G. Using Big Data to Prevent Ecommerce Fraud. Practical eCommerce, 2013. Opgeroepen in Mei 2013 van: <http://www.practicalecommerce.com/articles/4031-Using-Big-Data-to-Prevent-Ecommerce-Fraud> [48] VAN NIEUWENHUYSE, D. (2011). Performance Management. Leuven: LannooCampes. [49] PITTMAN, D. Friday Data Flick: Uses of Big Data and Hadoop as Data Warehouse. IBM Big Data Hub, 2013. Opgeroepen in Mei 2013 van: <http://www.ibmbigdatahub.com/blog/friday-data-flick-uses-big-data-and-hadoop-datawarehouse?utm_source=feedly&utm_medium=feed&utm_campaign=Feed:+netezza/allblogs+(Netezza+Blogs++All+Posts)> [50] RADDING, A. Big Data Drives surging interest in Business Intelligence. BigFatFinancialBlog, 2013. Opgeroepen in Mei 2013 van: <http://bigfatfinanceblog.com/2013/02/21/big-data-drives-surging-interest-in-business-intelligence/> [51] WALLACE, D. Big Data management for retail banks. SAS Institute, 2012. Opgeroepen in Mei 2013 van: <http://www.sas.com/knowledge-exchange/risk/integrated-risk/big-data-management-for-retail-banks> Natan Meekers Thomas More 44
  50. 50. 18 AUTEUR Meekers Natan Vennestraat 26, B-1980 Zemst-Laar MOBIEL: +32 498 08 78 90 EMAIL: natan@meekers.eu Natan Meekers @NatanMeekers http://natan.meekers.eu EXTERNE PROMOTOR Manager & Big Data consultant at DataCrunchers Van Landeghem Geert Steenweg van Grembergen 27, B-9200 Dendermonde MOBIEL: +32 477 75 95 33 EMAIL: info@datacrunchers.eu Geert Van Landeghem @gvanlandeghem Natan Meekers Thomas More 45

×