Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Webarchief & Wetenschap (Dutch)

218 views

Published on

Short panel presentation at AVA-Net Symposium 2016 - theme: "Building a Future-proof AV Archive", Dutch Institute for Sound and Vision (Beeld & Geluid), Hilversum, July 1st 2016. https://www.beeldengeluid.nl/avanet-symposium

Published in: Education
  • Be the first to comment

  • Be the first to like this

Webarchief & Wetenschap (Dutch)

  1. 1. Webarchief&Wetenschap
 
 Hugo Huurdeman AVA-Net Symposium 2016
  2. 2. Webarchief & Wetenschap • Webarchieven over de gehele wereld hebben Petabytes aan informatie verzameld • Vele mogelijkheden onderzoek: • bestaande én nieuwe typen onderzoeksvragen • Vele verschillende vakgebieden • van geesteswetenschappen tot informatica • Maar… tot dusverre nog weinig gebruikt (Dougherty & Meyer, 2014)
  3. 3. “WebART” project • “Web Archive RetrievalTools” • NWO CATCH project (’12-’16) • UvA, CWI & KB • Voornaamste doel: • beter bruikbaar maken van 
 webarchieven voor onderzoek Het eerste grote onderzoeks- project in Nederland naar gebruik van gearchiveerde Nederlandse websites als primaire bron voor onderzoek sluit binnenkort de boeken. WebART-promovendus Hugo Huurdeman blikt terug. Steven Claeyssens Dit jaar ronden de laatste CATCH-projecten (Con- tinuous Access to Cultural Heritage) hun werk- zaamheden af en dus zet ook WebART (Web Archive Retrieval Tools) er een punt achter. WebART was een samenwerking tussen de Uni- versiteit van Amsterdam (UvA), het Centrum Wiskunde en Informatica (CWI) en de Konink- lijke Bibliotheek (KB). Het WebART-team lichtte als eerste het Nederlandse nationale webarchief grondig door. Ze gingen daarbij na hoe zo’n heterogeen en omvangrijk born-digital archief voor onderzoeksdoeleinden bruikbaar kan zijn en bruikbaarder kan worden gemaakt. 10.000 websites De KB archiveert sinds 2007 een immer groeiende selectie van Nederlandse websites. Op 1 januari van dit jaar stond de teller op 10.000 sites die met enige regelmaat worden geharvest. Het belang van dit born-digital archief voor onderzoek naar Nederlandse cultuur en samenleving zal naar- mate de jaren verstrijken onvermijdelijk een steeds prominentere plaats opeisen. WebART onderschrijft dit belang en trok op onderzoek uit. Huurdeman: “In het WebART-project hebben we gekeken naar de onderzoeksvragen die weten- schappers aan webarchieven zouden willen stel- len. Via een intensieve samenwerking met nieuwe media-onderzoekers hebben we vervolgens zoek- en onderzoekstools ontwikkeld die complexe onderzoekstaken kunnen ondersteunen. Denk bijvoorbeeld aan de initiële exploratie van het ar- chief, het definiëren van een dataset en de analyse daarvan. Hiervoor was onderzoek nodig naar schaalbare extractie- en analysemethoden en naar bruikbare interfaces voor verschillende zoekstadia.” Zo bouwde het team onder meer WebARTist, een interface waarmee onderzoekers op verschillende manieren het webarchief kunnen verkennen en bevragen. Ongearchiveerde websites “Doordat webarchieven van nature incompleet zijn, vroegen wetenschappers ook om contex- tualisatie over wat er wel en niet in het archief zit. Dit heeft geleid tot verder onderzoek waarin we niet-gearchiveerde webinhoud hebben bloot- gelegd en gereconstrueerd.” Zo slaagden Huur- deman en zijn mede-onderzoekers erin een fors aantal niet-gearchiveerde sites te identificeren op basis van verwijzingen in de vorm van URL’s in het wel-gearchiveerde deel. Meer nog, door de afzonderlijke woorden uit deze URL’s en de bijbehorende linkteksten te distilleren, maakten ze dit niet-gearchiveerde deel van het web tot op zekere hoogte toch vindbaar en daarmee ook onderzoekbaar. “Deze informatie integreren we in de WebART- toolset. Helaas kan de toolset momenteel door auteursrechtelijke beperkingen nog niet volledig online worden aangeboden, maar de wens vanuit het projectteam om dit te bereiken, is er zeker.” webarchiving.nl Geneeskunde Politieke wetenschappen Overig artsennet.nl forensischinstituut.nl lectoren.nl nwo.nl openaccess.nl cier.nl gearchiveerd niet-gearchiveerd cebuco.nl uva.nl tue.nl ncdd.nl Algemeen Bedrijfs- wetenschappen websites categorieën webpagina’s Wetenschap Onderwijs Recht, Overheid INHOUD 2 Verslagen van events in Gehoord en bijgewoond 3 Landelijk Coördinatiepunt gaat voor samenhang 3 De Open Universiteit vertelt over RDM-aanpak 4 Mary Vardigan trots op 50 Dataseals wereldwijd 5 KNAW-president José van Dijck aan het woord 6 CLARIN Young Scientist Award voor Van Gompel 6 Nieuwe big data experts door komst GRIDS 7 Open State Foundation: 5 tips voor data delen 8 Zo eenvoudig is dat metadateren nog niet Jaargang 10 | nummer 2 Nieuwsbrief over data en onderzoek in de alfa- en gamma- wetenschappen. E-data & Research verschijnt drie keer per jaar en wordt mogelijk gemaakt door: CentERdata, CLARIAH, DANS, Huygens ING, de Koninklijke Bibliotheek en het RIVM. E-DATA & RESEARCH E-DATA & RESEARCH februari 2016 1 Scan deze QR code met een smartphone om de website van E-data te bezoeken. www.edata.nl Op basis van de zoekterm ‘onderzoeksdata’ toont WebARTist verschillende resultaten, waaronder deze grafieken. De bovenste grafiek laat de verhouding tussen de gearchi- veerde en niet-gearchiveerde webpagina’s zien, de middelste toont de belangrijkste websites voor deze zoekterm en de onderste grafiek vat de categorieën van de gevonden pagina’s samen. De WebARTist-toolset biedt een veelheid aan mogelijkheden voor explo- ratie, analyse en visualisatie van de inhoud van het KB-webarchief. credits WebART Hoe maak je gearchiveerde websites bruikbaar voor de wetenschap? Nationale webarchief onderzocht door WebART Wint u de Nederlandse Dataprijs 2016? Komend najaar wordt weer de Nederlandse Dataprijs uitgereikt. Een prijs voor een onderzoeker of onderzoeksgroep die extra bij- draagt aan de wetenschap door onderzoeksdata beschikbaar te ma- ken voor aanvullend of nieuw onderzoek. De winnaars van de voorgaande edities zijn in ieder geval enthou- siast: “De jury noemt onze database een grote aanwinst voor zowel het Nederlands academisch als cultureel erfgoed. Dat is een bevesti- ging dat we op het goede spoor zitten,” aldus Martine de Bruin, Nederlandse Liederenbank, winnaar van de Dataprijs humaniora en sociale wetenschappen 2014. “Door het winnen van de Dataprijs kunnen we nu ook een paar grotere, al langer gewenste verbeterslagen maken,” aldus Johan Molenbroek en Marijke Dekker, DINED, winnaars van de Dataprijs exacte en technische wetenschappen 2014. Naast de winnaars waren ook de bijna 50 andere inzendingen van hoog niveau. De jury sprak over ‘allemaal mooie voorbeelden van het toegankelijk maken en delen van onderzoeksdata’. De organisatie van de Nederlandse Dataprijs is in handen van Research Data Netherlands, een samenwerkingsverband tussen 3TU.Datacentrum, DANS en SURFsara. Binnenkort staat meer infor- matie over de Dataprijzen 2016 op de website van RDNL. (HB) researchdata.nl O P R O E P De Vereniging van Universiteiten (VSNU) en Elsevier hebben een principeakkoord bereikt waar- door Nederlandse wetenschap- pers toegang blijven houden tot de wetenschappelijke artikelen van Elsevier. “Door deze overeenkomst,” aldus prof. Gerard Meijer, hoofdonder- handelaar namens de VSNU en voor- zitter van de Radboud Universiteit Nijmegen, “houden wetenschappers toegang tot Elseviertijdschriften en het biedt ze de mogelijkheid om in een selectie van die tijdschriften open access te publiceren. De uni- versiteiten streven ernaar dat in 2018, het derde jaar van de overeen- komst, 30% van de Elsevierartikelen van Nederlandse auteurs open ac- cess beschikbaar is, dit akkoord maakt dat mogelijk. Dit is echt ge- weldig nieuws en een ‘big deal’voor open access.” Philippe Terheggen, Managing Director Journals bij Elsevier: “Wij zijn content met deze overeenkomst, omdat blijvende sub- scriptietoegang tot onze hoogwaar- dige, ‘peer-reviewed’ wetenschap- pelijke artikelen essentieel is voor Nederland om zijn positie als één van de meest impactvolle onder- zoekslanden te behouden. Daarnaast krijgen Nederlandse wetenschappers meer open access publicatiemoge- lijkheden om hun onderzoeksresul- taten met de rest van de wereld te delen.” De overeenkomst is in lijn met de ambitie van staatssecretaris Dekker (OCW), die wil dat artikelen van Nederlandse wetenschappers open access gepubliceerd worden. Blijf op de hoogte van deze en andere ontwikkelingen via de Open- Access nieuwsbrief van de VSNU, de Nederlandse universiteitsbiblio- theken en de Koninklijke Biblio- theek. (VSNU) vsnu.nl Principeakkoord open access VSNU en Elsevier edata & research no. 2, 2016
  4. 4. gebruik ontsluiting duurzame opslag harvesting Proces van webarchivering selectie
  5. 5. Flickr: koninklijkebibliotheek KB:Web archief sinds 2007 Statistics: •10,000+ websites •35,000+ harvests •20+Terabyte Selective approach
  6. 6. 0" 5" 10" 15" 20" 25" 30" 35" 2009Q3"2009Q4"2010Q1"2010Q2"2010Q3"2010Q4"2011Q1"2011Q2"2011Q3"2011Q4"2012Q1"2012Q2"2012Q3"2012Q4"2013Q1"2013Q2"2013Q3"2013Q4"2014Q1"2014Q2"2014Q3"2014Q4"2015Q1" Gemiddeld"van"content" Gemiddeld"van"links" Gemiddeld"van"images" Gemiddeld"van"combined" Mogelijkheden webarchief Small-scale analysis more qualitative “Close reading” Large-scale analysis more quantitative “Distant reading”
  7. 7. “Close reading” Wayback Machine
  8. 8. KB archive data enrichments Geodata KB metadata Link structure workshops, co-design
  9. 9. Content analyse:Word frequency analysis 0! 100! 200! 300! 400! 500! 600! 700! 800! May-11! Jul-11! Aug-11! Oct-11! Dec-11! Jan-12! Mar-12! Mubarek Assad Putin Kim Jung Il DMI Winter School (2013)
  10. 10. troons Jan’13 Feb’13 Mar’13 Apr’13 May’13 Jun’13 Jul’13 Aug’13 Sep’13 Oct’13 Nov’13 Dec’13 Content analyse:Word frequency analysis
  11. 11. Co-Word Analyse DMI Winter School (2013)
  12. 12. 0" 20" 40" 60" 80" 100" 120" 20100722" 20100816" 20100817" 20110413" 20110610" 20110706" 20111013" 20111218" 20111220" 20120520" 20120613" 20120617" 20120618" 20120918" 20121014" 20121120" 20121221" 20121222" 20121222" 20130218" 20130413" 20130518" 20130611" 20130620" 20130818" 20131001" 20131013" 20131030" 20131101" 20131115" 20131118" 20131120" 20131130" 20131206" 20131220" 20131220" 20140118" 20140225" 20140413" 20140518" 20140609" 20141013" 20141118" 20150218" 20150413" 20150518" Reeks1" Reeks2" Reeks3" Reeks4" eyefilm.nl (2010-2015) redesign redesign content links images overallAnalyse evolutie websites
  13. 13. Geomapping: locatie bron nieuws DMI Winter School (2013)
  14. 14. Analyse Linkstructuur Ben-David & Huurdeman (2014)
  15. 15. gebruik ontsluiting duurzame opslag harvestingselectie Hoe kan het proces onderzoeks-
 gebruik beter ondersteunen?
  16. 16. ontsluiting duurzame opslag harvestingselectie Verbeterpunten? • Selectie en harvesting: meer transparantie • Documentatie selectieprocedures, selectielijsten • Wie archiveert wat? vgl.“Memento” http://mementoweb.org/about/
  17. 17. selectie harvesting duurzame opslag ontsluiting Verbeterpunten? • Selectie: • Transparantie: procedures, selectielijsten • Scope — idealiter “domeinharvesting…” • Wie archiveert wat? vgl.“Memento”
  18. 18. ontsluiting duurzame opslag harvestingselectie Verbeterpunten? • Selectie en harvesting: meer transparantie • Documentatie selectieprocedures, selectielijsten • Wie archiveert wat? vgl.“Memento” • “crawling” procedures en crawlinstellingen
  19. 19. ontsluiting duurzame opslag harvesting Verbeterpunten? • Ontsluiting: meer mogelijkheden voor onderzoekers • Wayback Machine (toegang via URL) • Zoekfunctionaliteit (toegang via zoekvraag) • Ontsluiting “ruwe” data (WARC files, metadata, derived datasets, ..) selectie
  20. 20. Conclusie • Webarchieven: rijke bron voor huidig en toekomstig onderzoek • WebART project • Belang van selectie, harvesting & 
 ontsluiting voor uiteindelijk gebruik •“Onderzoekers willen wat niet in het archief zit”
 — Belang van verdere uitbreiding archiverings-activiteiten! —
  21. 21. webarchiving.nl @webart12
  22. 22. Thanks & Acknowledgements • The WebART team (’12-’16): 
 Jaap Kamps, Richard Rogers, 
 Arjen de Vries, Hugo Huurdeman, Thaer Samar, Anat Ben-David, 
 Sanna Kumpulainen • We gratefully acknowledge the collaboration with the Dutch Web Archive of the National Library of the Netherlands. • WebART is supported by the Netherlands Organization for Scientific Research (NWO CATCH # 640.005.001).
  23. 23. Webarchief&Wetenschap
 
 Hugo Huurdeman @timelessfuture

×