Successfully reported this slideshow.
Your SlideShare is downloading. ×

Big Data en Open Data

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Open Data
Open Data
Loading in …3
×

Check these out next

1 of 53 Ad

More Related Content

Slideshows for you (11)

Similar to Big Data en Open Data (20)

Advertisement

More from Bart Hanssens (20)

Recently uploaded (20)

Advertisement

Big Data en Open Data

  1. 1. BOSA.be INTEC Brussel 2018-08-21 Bart Hanssens FOD BOSA Digitale Transformatie Big Data & Open Data
  2. 2. • Data • Enkele begrippen • Big Data • Wat is het + voorbeelden • Open Data • Wat is het + voorbeelden • Vragen ? Agenda 2
  3. 3. Data 3
  4. 4. • (Elektronische) gegevens • Foto’s, documenten, kaarten, meetgegevens … • Gestructureerd of ongestructureerd Wat is data ? 4
  5. 5. • Metadata is ook data • Gegevens die iets meer vertellen over andere gegevens • Vaak gebruikt om iets te zoeken • Bijvoorbeeld: • Data: een YouTube video • Metadata: de titel, datum, naam van de artiest, … Wat is metadata ? 5
  6. 6. • Data opslaan / opvragen kost wat: • Tijd, geld, ruimte • Data verzamelen is niet genoeg • Bedoeling van data verzamelen is om er iets mee te doen • Correct analyseren van data kan heel moeilijk zijn • Beveiliging van data is belangrijk • Zeker als er data over personen worden bewaard / verwerkt Aandachtspunten (meta)data 6
  7. 7. Big Data 7
  8. 8. Grootte Data (ongeveer) Zettabyte ZB 15 ZB: alle data op het internet Exabyte EB 2 EB: (per dag) nieuwe data over hele wereld Petabyte PB 4 PB: (per dag) data op Facebook Terabyte TB 8 TB: grootste harde schijf voor thuis Gigabyte GB 60 GB: Wikipedia in het Engels (zonder historiek) 3 GB: (per uur) Netflix film in HD kwaliteit 1 GB: (per maand) limiet goedkoop GSM-abonnement Megabyte MB 2 MB: PowerPoint presentatie Kilobyte kB 3 KB: A4-pagina tekst Byte B 280 Wat is veel data ? 8
  9. 9. Type Prijs per GB (ongeveer) Max. leessnelheid (ongeveer) Harde schijf 0.03 EUR 250 MB/s USB stick 0.2 EUR 150 MB/s SSD m.2 0.3 EUR 3 500 MB/s DDR4 RAM 10 EUR 25 600 MB/s Vergelijking geheugen en opslag 9
  10. 10. Type Opmerking Max. snelheid (praktijk) 4G 5 MB/s Wifi (n) 5 GHz 30 MB/s Wifi (ac) 90 MB/s Ethernet (Gigabit) 115 MB/s Ethernet (10 GbE) 1 150 MB/s MAREA Netwerkkabel Oost-USA - Spanje 20 000 000 MB/s Vergelijking downloadsnelheid 10
  11. 11. In teksten over Big Data wordt vaak gesproken over “V”’s: • Volume: veel gegevens • Velocity: snel te verwerken • Variety: verschillende structuren en bronnen Tegenwoordig worden er nog bijkomende“V”’s vermeld: • Value: de waarde • … De “V”s van Big Data 11
  12. 12. • Produceren en opslaan van gegevens wordt goedkoper • Steeds meer “persoonlijke” diensten gebaseerd op data • Google: reclame gebaseerd op zoekopdrachten • Netflix: suggesties voor films • TomTom: snellere verkeersroutes op basis van file-informatie • “Internet of Things”, “Smart City”, “Connected Cars” • Steeds meer communicatie tussen machines onderling Waarom steeds meer (big) data ? 12
  13. 13. • Overal sensoren, die (vaak) verbonden zijn: • Smartphones met GPS, camera en bewegingssensor • Meters luchtkwaliteit, straling, … • Alarmsystemen, domotica • Camera’s en detectoren in het verkeer • (zelfrijdende) auto’s • Sensoren in industriële machines Internet of Things 13
  14. 14. • Online en sociale media • Twitter, Facebook, Google, … • Wetenschap • Weer en klimaat, fysica, astronomie • Banken en industrie • Beurs, verzekeringen, chemie, gezondheidszorg • Mobiliteit en transport • Vlotter verkeer, zelfrijdende auto’s • Sport Toepassingen 14
  15. 15. • Voordelen en nadelen • “Als het product gratis is, dan ben jij het product” • Vaak de bedoeling om iets te verkopen op basis van • Welke apps je gebruikt en wanneer • Waar je je bevindt en met wie • Welke pagina’s, videos … je bekijkt en deelt • Welke dingen je al online gekocht hebt • … Voorbeeld: sociale media en online platformen 15
  16. 16. • Grote hoeveelheid foto’s en metingen • Aarde: foto’s van gebouwen, temperatuur • Ruimte: sterren, planeten • USA: 25+ PB data, code en voorbeelden NASA • https://open.nasa.gov/open-data • België: • Landbouw: groei van gewassen (https://watchitgrow.be) • Terrascope platform (https://terrascope.be) Voorbeeld: satellietgegevens 16
  17. 17. Voorbeeld: hoe groen is mijn gemeente ? 17
  18. 18. • Auto’s en vrachtwagens registreren situatie op de weg • Putten, ijs, gladde wegen, … • Informatie wordt gedeeld • Waarschuwing naar auto’s in de buurt • Melding naar beheerder van de weg (sneeuwruimers…) • Vb: « BADA » project Volvo / Scania in Zweden • http://www.nvfnorden.org/library/Files/Per- Olof%20Svensk_BADA%207%20June%202017.pdf Voorbeeld: verbeteren situatie autowegen 18
  19. 19. • Veel mensen hebben GSM/smartphones altijd bij de hand • Staan in verbinding met antennes • Operatoren kunnen analyses maken voor evenementen • Via welke weg reizen de bezoekers • Hoe lang blijven ze ter plaatse • Vb: Proximus MyAnalytics • https://www.proximusanalytics.be • Geanonimiseerde rapporten (tegen betaling) • Enkel data van Proximus (schatting voor andere operatoren) Voorbeeld: bezoekers evenement op basis van GSM 19
  20. 20. Voorbeeld: huldiging Rode Duivels 20
  21. 21. • « Wordt het leven duurder in België ? » • Aankopen zoals eten / drinken, maar ook brandstof, kleren • Heeft indirect invloed op indexering (verhoging) huur • O.a. gescande artikelen aan de kassa’s van supermarkten • Vergelijking niet altijd even eenvoudig • Seizoensproducten, zelfde product met andere code … • https://statbel.fgov.be/nl/over- statbel/methodologie/analyses Voorbeeld: consumptieprijsindex Statbel 21
  22. 22. • Formule 1 • 100 – 300 sensoren per F1-auto • Snelheid, bandenspanning, remmen, brandstof … • Voetbal: FC Barcelona • (big) data analytics • Sportieve prestaties en gepersonaliseerde interactie fans Voorbeeld: sport 22
  23. 23. • CERN “Large Hadron Collider” deeltjesversneller • 10 PB/seconde, maar “slechts” 30 PB/jaar wordt bijgehouden • https://home.cern/about/computing/processing-what-record • NASA “Square Kilometre Array” telescoop • Klaar in 2024 ? 1 EB/dag, minstens 200 PB jaar bijhouden • https://www.skatelescope.org Voorbeeld: wetenschap 23
  24. 24. Analyseren en visualiseren van data 24
  25. 25. • Opslag van gegevens wordt steeds goedkoper • Maar niet alles is even nuttig voor een bepaalde analyse • Ook niet altijd duidelijk wat wel / geen invloed heeft • Vaak gedaan om iets te voorspellen of te verbeteren • Voorspellen weer, luchtkwaliteit, verkoop, … • Detecteren van fraude • Samenstellen van nieuwe materialen en geneesmiddelen Analyseren van data 25
  26. 26. • Machines “trainen” om bepaalde patronen te herkennen • Beelden: herkennen personen, verkeersborden, kankercellen • Teksten en producten: automatisch indelen in categorieën • Veel onderzoek naar ML door grote IT-bedrijven • https://www.tensorflow.org (Google) • http://www.paddlepaddle.org (Baidu) • http://torch.ch (Facebook) • https://www.ibm.com/watson (IBM) Machine learning 26
  27. 27. • Bijvoorbeeld via “notebooks” of “dashboards” • Online alternatief voor rapporten en documenten • Vooral populair bij onderzoekers • Kan ook zonder big data gebruikt worden • Vaak geschreven in Python, “R” en/of Javascript • http://shiny.rstudio.com • http://jupyter.org Visualisatie van gegevens 27
  28. 28. Big Data platformen 28
  29. 29. Wanneer Big Data / hoe onderdelen kiezen ? 29 • Big Data enkel zinvol voor grote hoeveelheden data • Terabytes of meer • Heel veel verschillende componenten • Evolueren nog steeds erg snel • Moeten niet allemaal gebruikt worden • Geen systeem dat voor elke situatie perfect is • Ingewikkelde zoekopdrachten of niet ? • Gestructureerde data of niet ? • Koppeling met andere systemen ?
  30. 30. Apache Hadoop 30
  31. 31. Hadoop Big Data platform 31 • Niet het enige platform, maar wel heel populair • Bestaat uit verschillende componenten • HDFS, MapReduce, … • Java open source: gratis op eigen servers te gebruiken • Commercieel pakket: Cloudera, MapR, Hortonworks … • Installatie op eigen machines of “in the cloud” • Amazon, Google, Microsoft, Oracle, SAP … • Let op: niet gratis, kosten om data in/uit systeem te halen …
  32. 32. Hadoop HDFS, vereenvoudigd 32 HDFS
  33. 33. Apache Hadoop HDFS 33 • Gedistribueerd file system • (deel van) schijven op aparte systemen gedragen zich als 1 • Geoptimaliseerd voor grote “batch” leesoperaties • Niet voor kleine “random” schrijfoperaties • Kan gebruikt worden met heel veel “gewone” schijven • Zelfs met duizenden machines, tienduizenden schijven • Honderden petabytes • Data wordt automatisch verdeeld en gekopieerd • Detectie + snel herstellen van fouten (vb: kapotte schijf)
  34. 34. Waarom data verdelen over meerdere systemen ? 34 • Lezen / schrijven van data is niet oneindig snel • Werk verdelen over verschillende machines • Vermijden dat gebruikers te lang moeten wachten • Herstellen van problemen makkelijker maken • Machines en netwerken kunnen tijdelijk falen of kapot gaan
  35. 35. MapReduce 35 • Manier om taken parallel uit te voeren • Vb: tellen van woorden, zoeken • Voor heel grote hoeveelheden data • (veel) meer dan in het geheugen past • Bedoeld voor taken waar alle data 1 keer gelezen wordt • Berekeningen verdelen • Zo dicht mogelijk bij de data uitvoeren • Vermijden dat data heen en weer wordt gestuurd • Resultaten combineren
  36. 36. Apache HBase 36 • Database die bovenop HDFS kan draaien • Voor zeer grote databases (miljarden rijen) • Geen volledige vervanging van “klassieke” databases • Geen ingewikkelde queries • Niet veel structuur • Postgresql, Oracle… hebben ook andere mogelijkheden
  37. 37. Enkele andere componenten 37 • Apache Cassandra • Ook een database • “altijd beschikbaar” belangrijker dan “altijd dezelfde data” • Apache Hive • SQL-achtige taal bovenop Hadoop • Makkelijker maken om Hadoop te gebruiken
  38. 38. Vereenvoudigd overzicht 38 HDFS HBase Map Reduce API API Hive
  39. 39. • Apache open source • https://projects.apache.org/projects.html?category#big-data • http://hadoop.apache.org • http://spark.apache.org • Big Data Community: • http://bigdata.be • Jaarlijks Data Science evenement: • https://datasciencebe.com Enkele big data / data science linken 39
  40. 40. Apache Spark 40
  41. 41. Apache Spark kenmerken 41 • Kan bovenop HDFS kan draaien of apart • Alternatief voor MapReduce • Spark kan verwerkingen in geheugen uitvoeren • Veel sneller voor kleinere hoeveelheden data • Geschikter om meerdere keren door zelfde data te lopen
  42. 42. Open Data 42
  43. 43. • Data zonder gevoelige / persoonlijke informatie • Wel: statistieken, • Niet: medisch dossier • In een makkelijk te verwerken formaat • Vb: tabellen in MS-Excel, CSV, XML … • Door iedereen gratis te hergebruiken • Ook voor commerciële doeleinden Wat is Open Data ? 43
  44. 44. Open Data Big Data Open Data en Big Data 44
  45. 45. • Big data is niet altijd open data • Vb: veel big data in bedrijven is niet publiek, of niet gratis • Open data is niet altijd big data • Vb: lijst van scholen in Brussel is kort Open Data en Big Data (2) 45
  46. 46. • Meestal overheidsdiensten • Steden, Gewesten, federale overheid … • Worden via belastingen betaald door de burgers en bedrijven • Verplichtingen opgelegd door Europese Unie • Soms ook bedrijven • Vb: bedrijven die fietsen of auto’s verhuren • Vaak ook personen / vrijwilligers • Vb: WikiPedia, OpenStreetMap, … Wie publiceert open data ? 46
  47. 47. • Vooral steden publiceren adresinformatie • Pleinen, zwembaden, … • Kaartgegevens • Gemeentegrenzen, 3D-kaart Vlaanderen, … • Heel veel statistieken • Bevolking per gemeente, gemiddelde prijzen, … Over welke soort data gaat het ? 47
  48. 48. • Combineren met andere data • Artikels schrijven • Vb: gemiddelde prijs huis/appartement per gemeente • Websites bouwen • Vb: https://ici.brussels/nl • Apps bouwen • Vb: “Top Baby Names”: populaire voornamen Wat kan je er mee doen ? 48
  49. 49. Voorbeeld: website Limburg in Cijfers 49
  50. 50. • Verschillende formaten worden door elkaar gebruikt • CSV, MS-Excel, XML, JSON… • Mogelijk ook verschillende informatie per streek • Soms is bronvermelding verplicht, soms niet • Vaak ook geen garantie op beschikbaarheid / updates • Geen contract Aandachtspunten open data 50
  51. 51. • Open data portaal: • https://data.gov.be • Jaarlijks open data evenement: • http://www.openbelgium.be • OpenKnowledge community: • https://www.openknowledge.be Enkele open data linken 51
  52. 52. Vragen ? 52
  53. 53. BOSA.be @BartHanssens bart.hanssens@bosa.fgov.be opendata@belgium.be Bedankt !

×