BOSA.be
INTEC Brussel
2018-08-21
Bart Hanssens
FOD BOSA Digitale Transformatie
Big Data &
Open Data
• Data
• Enkele begrippen
• Big Data
• Wat is het + voorbeelden
• Open Data
• Wat is het + voorbeelden
• Vragen ?
Agenda
2
Data
3
• (Elektronische) gegevens
• Foto’s, documenten, kaarten, meetgegevens …
• Gestructureerd of ongestructureerd
Wat is data ?
4
• Metadata is ook data
• Gegevens die iets meer vertellen over andere gegevens
• Vaak gebruikt om iets te zoeken
• Bijvoorbeeld:
• Data: een YouTube video
• Metadata: de titel, datum, naam van de artiest, …
Wat is metadata ?
5
• Data opslaan / opvragen kost wat:
• Tijd, geld, ruimte
• Data verzamelen is niet genoeg
• Bedoeling van data verzamelen is om er iets mee te doen
• Correct analyseren van data kan heel moeilijk zijn
• Beveiliging van data is belangrijk
• Zeker als er data over personen worden bewaard / verwerkt
Aandachtspunten (meta)data
6
Big Data
7
Grootte Data (ongeveer)
Zettabyte ZB 15 ZB: alle data op het internet
Exabyte EB 2 EB: (per dag) nieuwe data over hele wereld
Petabyte PB 4 PB: (per dag) data op Facebook
Terabyte TB 8 TB: grootste harde schijf voor thuis
Gigabyte GB 60 GB: Wikipedia in het Engels (zonder historiek)
3 GB: (per uur) Netflix film in HD kwaliteit
1 GB: (per maand) limiet goedkoop GSM-abonnement
Megabyte MB 2 MB: PowerPoint presentatie
Kilobyte kB 3 KB: A4-pagina tekst
Byte B 280
Wat is veel data ?
8
Type Prijs per GB (ongeveer) Max. leessnelheid (ongeveer)
Harde schijf 0.03 EUR 250 MB/s
USB stick 0.2 EUR 150 MB/s
SSD m.2 0.3 EUR 3 500 MB/s
DDR4 RAM 10 EUR 25 600 MB/s
Vergelijking geheugen en opslag
9
Type Opmerking Max. snelheid (praktijk)
4G 5 MB/s
Wifi (n) 5 GHz 30 MB/s
Wifi (ac) 90 MB/s
Ethernet (Gigabit) 115 MB/s
Ethernet (10 GbE) 1 150 MB/s
MAREA Netwerkkabel Oost-USA - Spanje 20 000 000 MB/s
Vergelijking downloadsnelheid
10
In teksten over Big Data wordt vaak gesproken over “V”’s:
• Volume: veel gegevens
• Velocity: snel te verwerken
• Variety: verschillende structuren en bronnen
Tegenwoordig worden er nog bijkomende“V”’s vermeld:
• Value: de waarde
• …
De “V”s van Big Data
11
• Produceren en opslaan van gegevens wordt goedkoper
• Steeds meer “persoonlijke” diensten gebaseerd op data
• Google: reclame gebaseerd op zoekopdrachten
• Netflix: suggesties voor films
• TomTom: snellere verkeersroutes op basis van file-informatie
• “Internet of Things”, “Smart City”, “Connected Cars”
• Steeds meer communicatie tussen machines onderling
Waarom steeds meer (big) data ?
12
• Overal sensoren, die (vaak) verbonden zijn:
• Smartphones met GPS, camera en bewegingssensor
• Meters luchtkwaliteit, straling, …
• Alarmsystemen, domotica
• Camera’s en detectoren in het verkeer
• (zelfrijdende) auto’s
• Sensoren in industriële machines
Internet of Things
13
• Online en sociale media
• Twitter, Facebook, Google, …
• Wetenschap
• Weer en klimaat, fysica, astronomie
• Banken en industrie
• Beurs, verzekeringen, chemie, gezondheidszorg
• Mobiliteit en transport
• Vlotter verkeer, zelfrijdende auto’s
• Sport
Toepassingen
14
• Voordelen en nadelen
• “Als het product gratis is, dan ben jij het product”
• Vaak de bedoeling om iets te verkopen op basis van
• Welke apps je gebruikt en wanneer
• Waar je je bevindt en met wie
• Welke pagina’s, videos … je bekijkt en deelt
• Welke dingen je al online gekocht hebt
• …
Voorbeeld: sociale media en online platformen
15
• Grote hoeveelheid foto’s en metingen
• Aarde: foto’s van gebouwen, temperatuur
• Ruimte: sterren, planeten
• USA: 25+ PB data, code en voorbeelden NASA
• https://open.nasa.gov/open-data
• België:
• Landbouw: groei van gewassen (https://watchitgrow.be)
• Terrascope platform (https://terrascope.be)
Voorbeeld: satellietgegevens
16
Voorbeeld: hoe groen is mijn gemeente ?
17
• Auto’s en vrachtwagens registreren situatie op de weg
• Putten, ijs, gladde wegen, …
• Informatie wordt gedeeld
• Waarschuwing naar auto’s in de buurt
• Melding naar beheerder van de weg (sneeuwruimers…)
• Vb: « BADA » project Volvo / Scania in Zweden
• http://www.nvfnorden.org/library/Files/Per-
Olof%20Svensk_BADA%207%20June%202017.pdf
Voorbeeld: verbeteren situatie autowegen
18
• Veel mensen hebben GSM/smartphones altijd bij de hand
• Staan in verbinding met antennes
• Operatoren kunnen analyses maken voor evenementen
• Via welke weg reizen de bezoekers
• Hoe lang blijven ze ter plaatse
• Vb: Proximus MyAnalytics
• https://www.proximusanalytics.be
• Geanonimiseerde rapporten (tegen betaling)
• Enkel data van Proximus (schatting voor andere operatoren)
Voorbeeld: bezoekers evenement op basis van GSM
19
Voorbeeld: huldiging Rode Duivels
20
• « Wordt het leven duurder in België ? »
• Aankopen zoals eten / drinken, maar ook brandstof, kleren
• Heeft indirect invloed op indexering (verhoging) huur
• O.a. gescande artikelen aan de kassa’s van supermarkten
• Vergelijking niet altijd even eenvoudig
• Seizoensproducten, zelfde product met andere code …
• https://statbel.fgov.be/nl/over-
statbel/methodologie/analyses
Voorbeeld: consumptieprijsindex Statbel
21
• Formule 1
• 100 – 300 sensoren per F1-auto
• Snelheid, bandenspanning, remmen, brandstof …
• Voetbal: FC Barcelona
• (big) data analytics
• Sportieve prestaties en gepersonaliseerde interactie fans
Voorbeeld: sport
22
• CERN “Large Hadron Collider” deeltjesversneller
• 10 PB/seconde, maar “slechts” 30 PB/jaar wordt bijgehouden
• https://home.cern/about/computing/processing-what-record
• NASA “Square Kilometre Array” telescoop
• Klaar in 2024 ? 1 EB/dag, minstens 200 PB jaar bijhouden
• https://www.skatelescope.org
Voorbeeld: wetenschap
23
Analyseren en visualiseren van data
24
• Opslag van gegevens wordt steeds goedkoper
• Maar niet alles is even nuttig voor een bepaalde analyse
• Ook niet altijd duidelijk wat wel / geen invloed heeft
• Vaak gedaan om iets te voorspellen of te verbeteren
• Voorspellen weer, luchtkwaliteit, verkoop, …
• Detecteren van fraude
• Samenstellen van nieuwe materialen en geneesmiddelen
Analyseren van data
25
• Machines “trainen” om bepaalde patronen te herkennen
• Beelden: herkennen personen, verkeersborden, kankercellen
• Teksten en producten: automatisch indelen in categorieën
• Veel onderzoek naar ML door grote IT-bedrijven
• https://www.tensorflow.org (Google)
• http://www.paddlepaddle.org (Baidu)
• http://torch.ch (Facebook)
• https://www.ibm.com/watson (IBM)
Machine learning
26
• Bijvoorbeeld via “notebooks” of “dashboards”
• Online alternatief voor rapporten en documenten
• Vooral populair bij onderzoekers
• Kan ook zonder big data gebruikt worden
• Vaak geschreven in Python, “R” en/of Javascript
• http://shiny.rstudio.com
• http://jupyter.org
Visualisatie van gegevens
27
Big Data platformen
28
Wanneer Big Data / hoe onderdelen kiezen ?
29
• Big Data enkel zinvol voor grote hoeveelheden data
• Terabytes of meer
• Heel veel verschillende componenten
• Evolueren nog steeds erg snel
• Moeten niet allemaal gebruikt worden
• Geen systeem dat voor elke situatie perfect is
• Ingewikkelde zoekopdrachten of niet ?
• Gestructureerde data of niet ?
• Koppeling met andere systemen ?
Apache Hadoop
30
Hadoop Big Data platform
31
• Niet het enige platform, maar wel heel populair
• Bestaat uit verschillende componenten
• HDFS, MapReduce, …
• Java open source: gratis op eigen servers te gebruiken
• Commercieel pakket: Cloudera, MapR, Hortonworks …
• Installatie op eigen machines of “in the cloud”
• Amazon, Google, Microsoft, Oracle, SAP …
• Let op: niet gratis, kosten om data in/uit systeem te halen …
Hadoop HDFS, vereenvoudigd
32
HDFS
Apache Hadoop HDFS
33
• Gedistribueerd file system
• (deel van) schijven op aparte systemen gedragen zich als 1
• Geoptimaliseerd voor grote “batch” leesoperaties
• Niet voor kleine “random” schrijfoperaties
• Kan gebruikt worden met heel veel “gewone” schijven
• Zelfs met duizenden machines, tienduizenden schijven
• Honderden petabytes
• Data wordt automatisch verdeeld en gekopieerd
• Detectie + snel herstellen van fouten (vb: kapotte schijf)
Waarom data verdelen over meerdere systemen ?
34
• Lezen / schrijven van data is niet oneindig snel
• Werk verdelen over verschillende machines
• Vermijden dat gebruikers te lang moeten wachten
• Herstellen van problemen makkelijker maken
• Machines en netwerken kunnen tijdelijk falen of kapot gaan
MapReduce
35
• Manier om taken parallel uit te voeren
• Vb: tellen van woorden, zoeken
• Voor heel grote hoeveelheden data
• (veel) meer dan in het geheugen past
• Bedoeld voor taken waar alle data 1 keer gelezen wordt
• Berekeningen verdelen
• Zo dicht mogelijk bij de data uitvoeren
• Vermijden dat data heen en weer wordt gestuurd
• Resultaten combineren
Apache HBase
36
• Database die bovenop HDFS kan draaien
• Voor zeer grote databases (miljarden rijen)
• Geen volledige vervanging van “klassieke” databases
• Geen ingewikkelde queries
• Niet veel structuur
• Postgresql, Oracle… hebben ook andere mogelijkheden
Enkele andere componenten
37
• Apache Cassandra
• Ook een database
• “altijd beschikbaar” belangrijker dan “altijd dezelfde data”
• Apache Hive
• SQL-achtige taal bovenop Hadoop
• Makkelijker maken om Hadoop te gebruiken
Vereenvoudigd overzicht
38
HDFS
HBase
Map
Reduce
API
API
Hive
• Apache open source
• https://projects.apache.org/projects.html?category#big-data
• http://hadoop.apache.org
• http://spark.apache.org
• Big Data Community:
• http://bigdata.be
• Jaarlijks Data Science evenement:
• https://datasciencebe.com
Enkele big data / data science linken
39
Apache Spark
40
Apache Spark kenmerken
41
• Kan bovenop HDFS kan draaien of apart
• Alternatief voor MapReduce
• Spark kan verwerkingen in geheugen uitvoeren
• Veel sneller voor kleinere hoeveelheden data
• Geschikter om meerdere keren door zelfde data te lopen
Open Data
42
• Data zonder gevoelige / persoonlijke informatie
• Wel: statistieken,
• Niet: medisch dossier
• In een makkelijk te verwerken formaat
• Vb: tabellen in MS-Excel, CSV, XML …
• Door iedereen gratis te hergebruiken
• Ook voor commerciële doeleinden
Wat is Open Data ?
43
Open
Data
Big
Data
Open Data en Big Data
44
• Big data is niet altijd open data
• Vb: veel big data in bedrijven is niet publiek, of niet gratis
• Open data is niet altijd big data
• Vb: lijst van scholen in Brussel is kort
Open Data en Big Data (2)
45
• Meestal overheidsdiensten
• Steden, Gewesten, federale overheid …
• Worden via belastingen betaald door de burgers en bedrijven
• Verplichtingen opgelegd door Europese Unie
• Soms ook bedrijven
• Vb: bedrijven die fietsen of auto’s verhuren
• Vaak ook personen / vrijwilligers
• Vb: WikiPedia, OpenStreetMap, …
Wie publiceert open data ?
46
• Vooral steden publiceren adresinformatie
• Pleinen, zwembaden, …
• Kaartgegevens
• Gemeentegrenzen, 3D-kaart Vlaanderen, …
• Heel veel statistieken
• Bevolking per gemeente, gemiddelde prijzen, …
Over welke soort data gaat het ?
47
• Combineren met andere data
• Artikels schrijven
• Vb: gemiddelde prijs huis/appartement per gemeente
• Websites bouwen
• Vb: https://ici.brussels/nl
• Apps bouwen
• Vb: “Top Baby Names”: populaire voornamen
Wat kan je er mee doen ?
48
Voorbeeld: website Limburg in Cijfers
49
• Verschillende formaten worden door elkaar gebruikt
• CSV, MS-Excel, XML, JSON…
• Mogelijk ook verschillende informatie per streek
• Soms is bronvermelding verplicht, soms niet
• Vaak ook geen garantie op beschikbaarheid / updates
• Geen contract
Aandachtspunten open data
50
• Open data portaal:
• https://data.gov.be
• Jaarlijks open data evenement:
• http://www.openbelgium.be
• OpenKnowledge community:
• https://www.openknowledge.be
Enkele open data linken
51
Vragen ?
52
BOSA.be
@BartHanssens
bart.hanssens@bosa.fgov.be
opendata@belgium.be
Bedankt !

Big Data en Open Data

  • 1.
    BOSA.be INTEC Brussel 2018-08-21 Bart Hanssens FODBOSA Digitale Transformatie Big Data & Open Data
  • 2.
    • Data • Enkelebegrippen • Big Data • Wat is het + voorbeelden • Open Data • Wat is het + voorbeelden • Vragen ? Agenda 2
  • 3.
  • 4.
    • (Elektronische) gegevens •Foto’s, documenten, kaarten, meetgegevens … • Gestructureerd of ongestructureerd Wat is data ? 4
  • 5.
    • Metadata isook data • Gegevens die iets meer vertellen over andere gegevens • Vaak gebruikt om iets te zoeken • Bijvoorbeeld: • Data: een YouTube video • Metadata: de titel, datum, naam van de artiest, … Wat is metadata ? 5
  • 6.
    • Data opslaan/ opvragen kost wat: • Tijd, geld, ruimte • Data verzamelen is niet genoeg • Bedoeling van data verzamelen is om er iets mee te doen • Correct analyseren van data kan heel moeilijk zijn • Beveiliging van data is belangrijk • Zeker als er data over personen worden bewaard / verwerkt Aandachtspunten (meta)data 6
  • 7.
  • 8.
    Grootte Data (ongeveer) ZettabyteZB 15 ZB: alle data op het internet Exabyte EB 2 EB: (per dag) nieuwe data over hele wereld Petabyte PB 4 PB: (per dag) data op Facebook Terabyte TB 8 TB: grootste harde schijf voor thuis Gigabyte GB 60 GB: Wikipedia in het Engels (zonder historiek) 3 GB: (per uur) Netflix film in HD kwaliteit 1 GB: (per maand) limiet goedkoop GSM-abonnement Megabyte MB 2 MB: PowerPoint presentatie Kilobyte kB 3 KB: A4-pagina tekst Byte B 280 Wat is veel data ? 8
  • 9.
    Type Prijs perGB (ongeveer) Max. leessnelheid (ongeveer) Harde schijf 0.03 EUR 250 MB/s USB stick 0.2 EUR 150 MB/s SSD m.2 0.3 EUR 3 500 MB/s DDR4 RAM 10 EUR 25 600 MB/s Vergelijking geheugen en opslag 9
  • 10.
    Type Opmerking Max.snelheid (praktijk) 4G 5 MB/s Wifi (n) 5 GHz 30 MB/s Wifi (ac) 90 MB/s Ethernet (Gigabit) 115 MB/s Ethernet (10 GbE) 1 150 MB/s MAREA Netwerkkabel Oost-USA - Spanje 20 000 000 MB/s Vergelijking downloadsnelheid 10
  • 11.
    In teksten overBig Data wordt vaak gesproken over “V”’s: • Volume: veel gegevens • Velocity: snel te verwerken • Variety: verschillende structuren en bronnen Tegenwoordig worden er nog bijkomende“V”’s vermeld: • Value: de waarde • … De “V”s van Big Data 11
  • 12.
    • Produceren enopslaan van gegevens wordt goedkoper • Steeds meer “persoonlijke” diensten gebaseerd op data • Google: reclame gebaseerd op zoekopdrachten • Netflix: suggesties voor films • TomTom: snellere verkeersroutes op basis van file-informatie • “Internet of Things”, “Smart City”, “Connected Cars” • Steeds meer communicatie tussen machines onderling Waarom steeds meer (big) data ? 12
  • 13.
    • Overal sensoren,die (vaak) verbonden zijn: • Smartphones met GPS, camera en bewegingssensor • Meters luchtkwaliteit, straling, … • Alarmsystemen, domotica • Camera’s en detectoren in het verkeer • (zelfrijdende) auto’s • Sensoren in industriële machines Internet of Things 13
  • 14.
    • Online ensociale media • Twitter, Facebook, Google, … • Wetenschap • Weer en klimaat, fysica, astronomie • Banken en industrie • Beurs, verzekeringen, chemie, gezondheidszorg • Mobiliteit en transport • Vlotter verkeer, zelfrijdende auto’s • Sport Toepassingen 14
  • 15.
    • Voordelen ennadelen • “Als het product gratis is, dan ben jij het product” • Vaak de bedoeling om iets te verkopen op basis van • Welke apps je gebruikt en wanneer • Waar je je bevindt en met wie • Welke pagina’s, videos … je bekijkt en deelt • Welke dingen je al online gekocht hebt • … Voorbeeld: sociale media en online platformen 15
  • 16.
    • Grote hoeveelheidfoto’s en metingen • Aarde: foto’s van gebouwen, temperatuur • Ruimte: sterren, planeten • USA: 25+ PB data, code en voorbeelden NASA • https://open.nasa.gov/open-data • België: • Landbouw: groei van gewassen (https://watchitgrow.be) • Terrascope platform (https://terrascope.be) Voorbeeld: satellietgegevens 16
  • 17.
    Voorbeeld: hoe groenis mijn gemeente ? 17
  • 18.
    • Auto’s envrachtwagens registreren situatie op de weg • Putten, ijs, gladde wegen, … • Informatie wordt gedeeld • Waarschuwing naar auto’s in de buurt • Melding naar beheerder van de weg (sneeuwruimers…) • Vb: « BADA » project Volvo / Scania in Zweden • http://www.nvfnorden.org/library/Files/Per- Olof%20Svensk_BADA%207%20June%202017.pdf Voorbeeld: verbeteren situatie autowegen 18
  • 19.
    • Veel mensenhebben GSM/smartphones altijd bij de hand • Staan in verbinding met antennes • Operatoren kunnen analyses maken voor evenementen • Via welke weg reizen de bezoekers • Hoe lang blijven ze ter plaatse • Vb: Proximus MyAnalytics • https://www.proximusanalytics.be • Geanonimiseerde rapporten (tegen betaling) • Enkel data van Proximus (schatting voor andere operatoren) Voorbeeld: bezoekers evenement op basis van GSM 19
  • 20.
  • 21.
    • « Wordthet leven duurder in België ? » • Aankopen zoals eten / drinken, maar ook brandstof, kleren • Heeft indirect invloed op indexering (verhoging) huur • O.a. gescande artikelen aan de kassa’s van supermarkten • Vergelijking niet altijd even eenvoudig • Seizoensproducten, zelfde product met andere code … • https://statbel.fgov.be/nl/over- statbel/methodologie/analyses Voorbeeld: consumptieprijsindex Statbel 21
  • 22.
    • Formule 1 •100 – 300 sensoren per F1-auto • Snelheid, bandenspanning, remmen, brandstof … • Voetbal: FC Barcelona • (big) data analytics • Sportieve prestaties en gepersonaliseerde interactie fans Voorbeeld: sport 22
  • 23.
    • CERN “LargeHadron Collider” deeltjesversneller • 10 PB/seconde, maar “slechts” 30 PB/jaar wordt bijgehouden • https://home.cern/about/computing/processing-what-record • NASA “Square Kilometre Array” telescoop • Klaar in 2024 ? 1 EB/dag, minstens 200 PB jaar bijhouden • https://www.skatelescope.org Voorbeeld: wetenschap 23
  • 24.
  • 25.
    • Opslag vangegevens wordt steeds goedkoper • Maar niet alles is even nuttig voor een bepaalde analyse • Ook niet altijd duidelijk wat wel / geen invloed heeft • Vaak gedaan om iets te voorspellen of te verbeteren • Voorspellen weer, luchtkwaliteit, verkoop, … • Detecteren van fraude • Samenstellen van nieuwe materialen en geneesmiddelen Analyseren van data 25
  • 26.
    • Machines “trainen”om bepaalde patronen te herkennen • Beelden: herkennen personen, verkeersborden, kankercellen • Teksten en producten: automatisch indelen in categorieën • Veel onderzoek naar ML door grote IT-bedrijven • https://www.tensorflow.org (Google) • http://www.paddlepaddle.org (Baidu) • http://torch.ch (Facebook) • https://www.ibm.com/watson (IBM) Machine learning 26
  • 27.
    • Bijvoorbeeld via“notebooks” of “dashboards” • Online alternatief voor rapporten en documenten • Vooral populair bij onderzoekers • Kan ook zonder big data gebruikt worden • Vaak geschreven in Python, “R” en/of Javascript • http://shiny.rstudio.com • http://jupyter.org Visualisatie van gegevens 27
  • 28.
  • 29.
    Wanneer Big Data/ hoe onderdelen kiezen ? 29 • Big Data enkel zinvol voor grote hoeveelheden data • Terabytes of meer • Heel veel verschillende componenten • Evolueren nog steeds erg snel • Moeten niet allemaal gebruikt worden • Geen systeem dat voor elke situatie perfect is • Ingewikkelde zoekopdrachten of niet ? • Gestructureerde data of niet ? • Koppeling met andere systemen ?
  • 30.
  • 31.
    Hadoop Big Dataplatform 31 • Niet het enige platform, maar wel heel populair • Bestaat uit verschillende componenten • HDFS, MapReduce, … • Java open source: gratis op eigen servers te gebruiken • Commercieel pakket: Cloudera, MapR, Hortonworks … • Installatie op eigen machines of “in the cloud” • Amazon, Google, Microsoft, Oracle, SAP … • Let op: niet gratis, kosten om data in/uit systeem te halen …
  • 32.
  • 33.
    Apache Hadoop HDFS 33 •Gedistribueerd file system • (deel van) schijven op aparte systemen gedragen zich als 1 • Geoptimaliseerd voor grote “batch” leesoperaties • Niet voor kleine “random” schrijfoperaties • Kan gebruikt worden met heel veel “gewone” schijven • Zelfs met duizenden machines, tienduizenden schijven • Honderden petabytes • Data wordt automatisch verdeeld en gekopieerd • Detectie + snel herstellen van fouten (vb: kapotte schijf)
  • 34.
    Waarom data verdelenover meerdere systemen ? 34 • Lezen / schrijven van data is niet oneindig snel • Werk verdelen over verschillende machines • Vermijden dat gebruikers te lang moeten wachten • Herstellen van problemen makkelijker maken • Machines en netwerken kunnen tijdelijk falen of kapot gaan
  • 35.
    MapReduce 35 • Manier omtaken parallel uit te voeren • Vb: tellen van woorden, zoeken • Voor heel grote hoeveelheden data • (veel) meer dan in het geheugen past • Bedoeld voor taken waar alle data 1 keer gelezen wordt • Berekeningen verdelen • Zo dicht mogelijk bij de data uitvoeren • Vermijden dat data heen en weer wordt gestuurd • Resultaten combineren
  • 36.
    Apache HBase 36 • Databasedie bovenop HDFS kan draaien • Voor zeer grote databases (miljarden rijen) • Geen volledige vervanging van “klassieke” databases • Geen ingewikkelde queries • Niet veel structuur • Postgresql, Oracle… hebben ook andere mogelijkheden
  • 37.
    Enkele andere componenten 37 •Apache Cassandra • Ook een database • “altijd beschikbaar” belangrijker dan “altijd dezelfde data” • Apache Hive • SQL-achtige taal bovenop Hadoop • Makkelijker maken om Hadoop te gebruiken
  • 38.
  • 39.
    • Apache opensource • https://projects.apache.org/projects.html?category#big-data • http://hadoop.apache.org • http://spark.apache.org • Big Data Community: • http://bigdata.be • Jaarlijks Data Science evenement: • https://datasciencebe.com Enkele big data / data science linken 39
  • 40.
  • 41.
    Apache Spark kenmerken 41 •Kan bovenop HDFS kan draaien of apart • Alternatief voor MapReduce • Spark kan verwerkingen in geheugen uitvoeren • Veel sneller voor kleinere hoeveelheden data • Geschikter om meerdere keren door zelfde data te lopen
  • 42.
  • 43.
    • Data zondergevoelige / persoonlijke informatie • Wel: statistieken, • Niet: medisch dossier • In een makkelijk te verwerken formaat • Vb: tabellen in MS-Excel, CSV, XML … • Door iedereen gratis te hergebruiken • Ook voor commerciële doeleinden Wat is Open Data ? 43
  • 44.
  • 45.
    • Big datais niet altijd open data • Vb: veel big data in bedrijven is niet publiek, of niet gratis • Open data is niet altijd big data • Vb: lijst van scholen in Brussel is kort Open Data en Big Data (2) 45
  • 46.
    • Meestal overheidsdiensten •Steden, Gewesten, federale overheid … • Worden via belastingen betaald door de burgers en bedrijven • Verplichtingen opgelegd door Europese Unie • Soms ook bedrijven • Vb: bedrijven die fietsen of auto’s verhuren • Vaak ook personen / vrijwilligers • Vb: WikiPedia, OpenStreetMap, … Wie publiceert open data ? 46
  • 47.
    • Vooral stedenpubliceren adresinformatie • Pleinen, zwembaden, … • Kaartgegevens • Gemeentegrenzen, 3D-kaart Vlaanderen, … • Heel veel statistieken • Bevolking per gemeente, gemiddelde prijzen, … Over welke soort data gaat het ? 47
  • 48.
    • Combineren metandere data • Artikels schrijven • Vb: gemiddelde prijs huis/appartement per gemeente • Websites bouwen • Vb: https://ici.brussels/nl • Apps bouwen • Vb: “Top Baby Names”: populaire voornamen Wat kan je er mee doen ? 48
  • 49.
  • 50.
    • Verschillende formatenworden door elkaar gebruikt • CSV, MS-Excel, XML, JSON… • Mogelijk ook verschillende informatie per streek • Soms is bronvermelding verplicht, soms niet • Vaak ook geen garantie op beschikbaarheid / updates • Geen contract Aandachtspunten open data 50
  • 51.
    • Open dataportaal: • https://data.gov.be • Jaarlijks open data evenement: • http://www.openbelgium.be • OpenKnowledge community: • https://www.openknowledge.be Enkele open data linken 51
  • 52.
  • 53.