• Save
Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visualiseren
Upcoming SlideShare
Loading in...5
×
 

Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visualiseren

on

  • 2,562 views

Presentatie van Maurice Bouwhuis (SARA/Vancis): ‘Hoe big data te begrijpen door ze te visualiseren’ tijdens het Big Data Analytics seminar 14 juni in Almere

Presentatie van Maurice Bouwhuis (SARA/Vancis): ‘Hoe big data te begrijpen door ze te visualiseren’ tijdens het Big Data Analytics seminar 14 juni in Almere

Statistics

Views

Total Views
2,562
Views on SlideShare
2,426
Embed Views
136

Actions

Likes
1
Downloads
0
Comments
0

3 Embeds 136

http://www.almeredatacapital.nl 131
http://almeredatacapital.nl 4
http://webcache.googleusercontent.com 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • Dames en heren een heel Goede morgen Het is een heel grote plezier voor mij om de eerste keynote op deze Big data dag hier in Almere te mogen geven.
  • Iets over SARA
  • Almere begrijpt als geen andere het belang van schaal Almere wil tweemaal zo groot worden en is al jaren bezig op vele fronten om dit te bewerkstelligen. ICT heeft in Almere altijd een belangrijke rol gespeeld. SARA is al begin van deze eeuw zich in Almere gaan vestigen en de eerste pilote voor Breedband was ook in Almere. Met het programma Almere DataCapital, wil Almere zich profileren als Dutch Media en Health Hub. De positie als datahoofdstad moet de gemeente op termijn 2500 nieuwe banen opleveren
  • De Economist heeft als eerste de wereld bewust gemaakt van de potentie en belang van Big Data met hun befaamde artikel over the data deluge. In december 2011 was Big Data het hoofdthema van de World Economic Forum in Davos. Centraal stond belang van data intelligence voor besluitvorming op politieke, sociale en economische vlakken. IDC in maart dit jaar een forecast gedaan over de groei van de Big Data markt: maar liefst 40% groei per jaar, 7 keer zoveel als de gemiddelde groei van de ICT markt
  • Maar eerst wat verstaan we onder Big data? Eerst de befaamde uitspraak van de Amerikaanse senator, wel in een heel andere context: I Cannot define it, but I know it when I see it”… We weten ook dat het begrip grote hoeveelheden data is relatief. Wat vandaag veel data is, kan morgen normaal of zelfs als klein aangemerkt worden.
  • Volgens Wikipedia is wordt het Big Data, wanneer de data hoeveelheid groter is dan wat gebruikelijk is om data te collecteren, managen en processen binnen een acceptabele tijdsbestek
  • Volgens IDC gaat Big Data over het samenbrengen van grote hoeveelheden data van publieke en private bronnen gecombineerd met de intuïtie en ideeën van business leiders en de mogelijkheden van betaalbare ICT.
  • Big Data wordt doorgaan gekaracteriseerd met de 3 V’s Volume Grote hoeveelheden data. Snelheid van dataproductie veroorzaakt ook gigantische logfiles en archieven. Allen zeer waardevol voor data minimig. Velocity – zowel batch, als near-time, en real-time, streams. Big data wordt gekenmerkt met zeer hoge snelheden, sensoren, media streams Het is heel belangrijk om snel te handelen maar ook de data heel veel waarde als die zogenaamd nog vers is. Variety – Big data is gestructureerd, half gestructureerd maar ook ongestructureerd. Verschillende bronnen oud en nieuw leveren een grote diversiteit aan data format en vandaar dat oude DBMS technieken niet meer alleen toereikend zijn.
  • Twee nieuwe V’s zijn recentelijk hieraan toegevoegd: Viscosity:  viscositeit is een maat van de weerstand om door de data heen komen en data in informatie en dus inzicht om te vormen. Betere technieken zijn vereist zoals beter streaming, betere integratie en processing technieken. Virality:  Virality beschrijft hoe snel de data verspreidt zich tussen mensen (P2P).
  • Samenvattend de belangrijkste drijfveren zijn dus: Internet of things HPC is een commodity geworden: data acquisitie, opslag en verwerking En de derde doorbraak is de opkomst van Hadoop, een open-source project van Apache Software Foundation. Hadoop biedt een betrouwbare en ook vooral betaalbare data storage oplossing met het Hadoop Distributed File System (HDFS) en een high-performance parallel data processing techniek zogenaamd MapReduce.
  • Dit Big Data Deluge is niets nieuws bij SARA Projecten als Lofar en Lifewatch leverden al grote hoeveelheden data Ook grootschalige simulaties in astrofysica maar ook klimaat modelleringen En uiteraard alleen al de experimenten bij De CERN in Genève leveren ruim 2 petabytes per jaar. SARA is gewend om vele petabytes per jaar te collecteren, managen en te processen. Enkele datasets hiervan zijn tientallen tot honderden terabytes groot. Maar de uitdaging is om inzicht uit de data te halen.
  • Maar de hamvraag bij Big Data is niet meer hoe de data opgeslagen en verwerkt moet worden maar vooral het verkrijgen van inzicht uit de berg informatie die eruit komt!
  • Een paar Big Data Applicatie: Astronomie: astronomische data hoeveelheden door grootschalige infrastructurele projecten zoals Lofar en Square Kilometer ARRAY. Alleen al bij Astron verwacht men om 1 exabyte (dat is 1000 peta) per dag te moeten verwerken. Dat is 2 maal de hoeveelheid dataverkeer op de WWW. Binnen het SKA project zal het om tussen 300 en 1500 exabytes opslag per jaar. Dat is minimaal ruim 20 maal de hoeveelheid data gegenereerd door de LHC van CERN.
  • Andere voorbeeld komt uit de gezondheidszorg. Diagnosekosten zijn 4% van de totale kosten terwijl besluiten op hebben 72% impact. Big data waar genexpressie, gecombineerd met proteomics, screening chemoinformatics en ook tekstuele data mining van literatuur en patenten levert betere classificaties van patiënten, beter diagnose en beter therapie, ook betere beoordeling en management van risico’s
  • Andere applicatie is water management. De totale lengte van primaire water defensielijnen in NL is een klein 3000 km verspreid over 90 dijkringen. Het project heeft met behulp van big data een decision support systeem opgezet met een combinatie van sensoren, AI, simulatie data, kaarten, weer gegevens, scheep en autoverkeergegevens, twitter, GSM, locatie van hulpdiensten, etc. Doelstelling is bij calamiteiten de hulpdiensten te assisteren om problemen vroegtijdig te detecteren en zoveel mogelijk mensen te redden.
  • Zo is het project Infrawatch, hiet zien we de studie op de Hollandse brug. Sinds 2008 is de brug geëquipeerd met een grote verzameling aan sensoren die voortdurend de verkeerlast op de brug en de reactie van de infra hierop meten. De data die hierdoor verzameld wordt is rond de 11 Gb per dag. day.
  • Ook is ecologie, heeft Big Data haar intrede gedaan. Hier zijn de burgers ook bij betrokken, met name met observaties die verspreid over het land moeten geschieden. Er is dan sprake van meer dan 20,000 gebruikers en meer dan 50 miljoen observaties. Voorbeelden zijn inzet van radars voor volgen van vogels, inzet van GPS systemen, en een veelvoud aan extra informatie door sensoren en camera’s die door observaties alleen niet gegeven kunnen worden.
  • Er zijn nog meer applicaties van Big Data waar SARA bij betrokken is zoals Klimaat onderzoek voor bijvoorbeeld zeeniveau Beeldverwerking op het gebied van Cognitie Tekstverwerking en ontologie in voedsel Tekst mining van biografieën. Chemische metabolomics en Modellering van watercycli op wereldschaal. Allen worden gekenmerkt door grote hoeveelheden data uit simulaties, modelleringen, tekst- en beeldverwerking en ook sensoren en opnemers.
  • Een voorbeeld waarin de geintegreerde infrastructuur belicht wordt Probleem stelling, simulatie over tijd van de beweging van sterrenstelsel, en de simulaties vergelijken met de geobserveerde structuren die we nu zien. N-body simulatie waarbij de bodies galaxies zijn. Gebruikte infrastructuren: Compute: meerdere supers in de wereld tegelijkertijd Opslag: Netwerken: om de computers aan elkaar te verbinden en data terug te leveren Visualisatie: kennis opdoen door data zichtbaar te maken Support: als verbindende factor om alles efficient te laten verlopen en expertise in te schieten Deze partij is ook betrokken in een EyR-3 aanvraag (Seintra, VU).
  • Visualisatie is hierin onontbeerlijk. SARA heeft een hele historie met visualisatie sinds ruim 20 jaar. Eerst met een van de eerste visualisatie centera in NL. Daarna met de eerste CAVE in Europa. Daarna met de Tiled Panel Displays voor met name remote visualisatie van grote hoeveelheden data. en recentelijk met de opening van het Collaboratorium
  • Hoe gaan we om met Big Data? Voor HPC Centra, universiteiten en de laatste jaren internet bedrijven zoals Yahoo!, Google en Facebook zijn de pioniers in de aanpk van Big data. Veel kennisuitwisseling gebeurt tussen die partijen. Bij SARA hebben we de kennis en ervaring in het verzamelen en opslaan van zowel gestructureerde als ongestructureerde big data. Ook verwerking van de data en hoe deze te interpreteren. Welke tools hebben we hiervoor nodig?.
  • Het Collaboratorium is uitermate geschikt voor de visualisatie van grote hoeveelheden data en datatrends. Kan ook gebruikt worden voor het verbeteren van business en wetenschappelijke modellen en ook het debuggen van big data sofware. Het is een hoge resolutie TPD met de mogelijkheden om PPT, video conferencing, 3D stereo projectie en telepresence door verschillende gebruikers ook remote en tegelijk in te zetten. Het TPD is ook op de nationale infra van SARA aangesloten. Het Collaboratorium maakt gebruik van technologie die internationaal ontwikkeld wordt binnen een samenwerking waar SARA aan deelneemt.
  • Big Data vereist ook grootschalige opslag en verwerking. Vandaar ook de race naar exascale computing. Snelle data verwerking levert doorbraken in verschillende gebieden van wetenschap, en business en is steeds belangrijker voor sociale en maatschappelijke vraagstukken zoals de macro-economie en nationale veiligheid.
  • Over de jaren heen, heeft SARA een eco-systeem opgebouwd voor o.a. opslag en verwerking van Big Data met data en taak parallelisme. Het eco-systeem dekt de meeste gangbare reken en data problemen in wetenschap en business. Van zogenaamde low-latency, high bandwidth capability computing voor het ineens oplossen van 1 groot ondeelbaar probleem met de nationale supercomputer. Tot het ineens oplossen van een heel groot, wel opdeelbaar probleem op het nationale capacity computing clutser LISA, of losser gekoppeld op een cloud of de grid. SARA beschikt over een aparte rekencluster met Hadoop dataopslag en verwerkingcapaciteit voor Big Data.
  • Samenwerking tussen devops (dat zijn developers die ook operators zijn), programmeurs en domeinspecialisten is cruciaal in de aanpak van Big data. Devops zorgen voor de parallelle data opslag en met Hadoop, de programmeurs voor de data verwerking met MapReduce en uiteindelijk zorgen de domein experts voor de domeinapplicatie en data interpretatie. Het is wel belangrijk voor de big data applicatie ontwikkeling om de experts van alle drie domeinen in huis te hebben.
  • Samenvattend: Big data is heel snel onze leven aan het veranderen, van wetenschap tot, medicijnen, to business en technologie. Big data leidt tot een heel nieuwe methode van wetenschap waar correlaties belangrijker zijn dan klassieke causale verbanden zeker in levenswetenschappen. De grootste uitdaging van Big Data is het verkrijgen van inzichten met respect voor onze privacy en keuzevrijheid.
  • En veel dank voor uw aandacht

Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visualiseren Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visualiseren Presentation Transcript

  • Big Data: Visualization Dr. Maurice BouwhuisSARA National High Performance Computing Services Big Data analytics– Almere 14-06-2012
  • About SARA: Our Mission Is to Support Innovation SARA national HPC Center has about ~170 fte’s in 2 locations (Amsterdam and Almere) Offices in AmsterdamThe mission of SARA is 2-fold:4. Supporting research in the Netherlands [SARA BV for Science & Innovation]5. Offering commercial high-end ICT Data Center in Amsterdam services [Vancis BV for adVANCed Ict Services]SARA werkt nauw samen met SURF Data Center in Almere Big Data analytics– Almere 14-06-2012
  • Almere Big Data Hoofdstad Big Data analytics– Almere 14-06-2012 View slide
  • Big Data: The Deluge Big Data analytics– Almere 14-06-2012 View slide
  • What is Big Data? “I cannot define it, but I know it when I see it” My Big Bear nowMy Big Bear then Big Data analytics– Almere 14-06-2012
  • Wikipedia Defining Big Data beyond Commonly used ICT“Data sets whose size is beyond the ability of commonlyused tools to capture, manage, and process the data withina tolerable elapsed time. Big Data analytics– Almere 14-06-2012
  • Big Data as defined by IDC (2011)“Bringing together vastamounts of data from publicand private sources,combined with the intuitionof business and thoughtleaders and the speed andaffordability of todayscomputers.” (IDC October 2011) Big Data analytics– Almere 14-06-2012
  • Defining Big Data The 3 V’sVolume  Large amounts  Massive historical archives  Valuable for data mining VelocityVelocity  At very high rates (sensors, streams, social media, …)  Valuable in its “fresh” state Volume VarietyVariety  Structured, semi-structured and unstructured  Variety also in Value Big Data analytics– Almere 14-06-2012
  • 2 new V’s: Viscosity & Virality Big Data analytics– Almere 14-06-2012
  • Big Data Drivers“Internet of Things”Commoditization of HPCHuman dynamics can beeasily stored and queriedwith Apache Hadoop  HDFS (storage) Hadoop Distributed File System  MapReduce (processing) high performance parallel data processing  Scalable & Self-healingSo, Big data is driven bylarge scale data collection,storage and (information)processing Big Data analytics– Almere 14-06-2012
  • Data Deluge @SARA It has always been there…Scientific Data Deluge:  Observations (e.g. LOFAR, Lifewatch)  Large-scale Simulation (e.g. astrophysics, climate modeling)  Experiments (e.g. Large Hadron Collider, DNA e-Science and Technology Infrastructure for Large Hadron Collider sequencers) Biodiversity Data and Ecosystem ResearchMulti-Petabytes of datagrowth at SARA each yearSingle datasets of 10-100Terabytes and largerMultidisciplinary use of dataScience needs Insight, notonly Data Low Frequency Array Biobanking and Biomolecular Resources Research Infrastructure Big Data analytics– Almere 14-06-2012
  • Big Data Ultimate Challenge: How to get insight?As volume, variety andvelocity of dataincrease, use ofvisualization isimperative to helpgetting the insight foran ever increasinglydata-driven future Big Data analytics– Almere 14-06-2012
  • Some Applications of Big Data AstronomyAstron1 Exabyte perday raw data2 times WWWtraffic per daySKA300 - 1500Petabytesstorage peryear!20 times LHC Big Data analytics– Almere 14-06-2012
  • Some Applications of Big Data HealthcareErasmus MC Diagnostics: 4%: costs 72%: decisions Opportunities for disease management: 1) New classification of patients for better diagnostics & combined therapy 2) Assessing and managing risks Big Data analytics– Almere 14-06-2012
  • Some Applications of Big Data Water ManagementTotal length primary flooddefenses in Netherlands:2875km spread over 90 dike“rings”…Decision Support System:Integration of: Sensor data +AI, Simulation results, Maps,weather, ships, roadwork,traffic, twitter, GSM, locationof emergency services, ... Big Data analytics– Almere 14-06-2012
  • Some Applications of Big Data Infrawatch, Hollandse Brug 145 x 100 x 60 x 60 x 24 x 365 = big datasensors Hz seconds minutes hours days (Arno Knobbe, LIACS, 2011, http://infrawatch.liacs.nl) Big Data analytics– Almere 14-06-2012
  • Some Applications of Big Data EcologyCitizen Science:>20,000 users, >50Mobservations.Bird radars: streamingdata, many terabytesGPS-tracking:Streaming data,Word-wide projects.Massive amounts ofcomplementary, multi-scale information thatcan not be “seen” inthe field. Big Data analytics– Almere 14-06-2012
  • Some Applications of Big Data eScience is also (big) data mining Cognition: image analysis and data exchange Food Specific Ontologies for Climate Research: Food Focused Text Mining Regional Sea-Level Chemical Metabolomics Data Analysis Biography Portal: Data-Intensive Modeling by SURF & NWOinterconnections, trends, of the Global Water Cycle geographical maps and time lines Big Data analytics– Almere 14-06-2012
  • CosmoGrid Case: The Need for Integrated e-Infrastructure ServicesA cosmological N-body simulation with8,589,934,592 particles, formation of largestructures of dark matterDutch Computing Challenge Project & DEISAExtreme Computing Initiative: DCCP 2008 –2009 / DECI 2009Run 1 + 2:4.25 M core hours Computing, 110 TB dataHuygens Amsterdam + Cray XT4 Tokyo,coupled via light path and Amsterdam + Tokyo+ Helsinki + EdinburghHigh resolution data remote visualization ontiled panel displayAdvanced support in porting and optimization,visualization, data storage, networking andproject managementAll infrastructure elements and their integration are crucial Visit SURF 7-6-2012 Big Data analytics– Almere 14-06-2012
  • Visualization @ SARA more than 20 years of experience and support Scientific visualization  High resolution  Scientific visualization  Scientific & industrial support visualization support support visualization support  Rendering  Remote visualization  Remote visualization  Virtual Reality Animations and slides & streaming service  Collaboration support Big Data analytics– Almere 14-06-2012
  • How are we Coping with Big Data?HPC centers, universities,and in recent years, Internetcompanies like Yahoo!,Facebook en of courseGoogle are pioneers (lots ofknowledge exchange, by theway.)We collect Big Data, store itand we have the knowledgeto interpret it.What tools do we have topull this out? Big Data analytics– Almere 14-06-2012
  • ‘Collaboratorium’: New visualization and collaboration facility @SARA videoconference laptop 2 laptop 3 website in browserVisualization of big shared datadata and trendsAlso for improvingbusiness andScience modelsand computationaldebugging.PowerPoint, VideoConferencing, videoconference laptop 1 data from data fromtelepresence, 3D remote camera workstation 1 workstation 2(stereo) projectionBased on proventechnology fromSARA andpartners EVL andCalit2 (San Diego) Big Data analytics– Almere 14-06-2012
  • Visualization @ SARA – Remote VisualizationRemote visualization serviceq Provide dedicated visualization resources in SARA data center: Rendercluster and visualization software (i.e. Paraview, VisIt, VTK, VMD, Blender, ...q Embedded in national e-Infrastructureq Visualization resource has direct access to storage at SARAq Avoid large data transfers over network (esp. Internet) by running visualization applications remotelyq Pixel output/remote desktop transferred to user, instead of filesq Application support for parallel rendering Big Data analytics– Almere 14-06-2012
  • Big Data Requires Big Computing What benefits could exascale computing bring? It will enable discovery in many areas of science. "Aerospace engineering, astrophysics, biology, climate modeling and national security all have applications with extreme computing requirements," Big Data analytics– Almere 14-06-2012
  • Compute Ecosystem @SARA1. Low-latency, high-bandwidth capability computing (Huygens)2. Capacity compute clusters (LISA)3. Loosely coupled compute Grids (Big Grid)4. Sector, private and public Clouds Including our HPC Cloud) and Beehub storage5. Special-purpose (GPU) clusters6. Big Data Apache Hadoop systems (since 2009) Big Data analytics– Almere 14-06-2012
  • Big Data Eco-System @SARADevOps Programming algorithms Domain knowledge Big Data analytics– Almere 14-06-2012
  • To Summarize: Big Data Is Changing Rapidly our LifeBig Data is changingscience, medicine,business, and technology.A whole new way ofscience: correlationsupersedes causation,coherent models or unifiedtheories…Biggest challenge forscience & business is notstoring or processing databut how to make sense ofit without affecting ourprivacy. Big Data analytics– Almere 14-06-2012
  • Big Data… Big Enough? Thank You Big Data analytics– Almere 14-06-2012
  • Big Data analytics– Almere 14-06-2012