Advertisement
Advertisement

More Related Content

Similar to WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)(20)

More from TimelessFuture(20)

Advertisement

WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)

  1. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, René Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour NCDD Studiedag ‘Webarchivering in Nederland’, Beeld en Geluid, 30 oktober 2014
  2. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, René Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour Hoe maak je webarchieven br uikbaar voor onderzoek?
  3. Het doel van een webarchief
  4. Beyond preservation… • Initiële focus: bewaren & conserveren webmateriaal • minder op gebruik van gearchiveerde materiaal • Perspectief presentatie: het Webarchief als bron voor huidig én toekomstig onderzoek
  5. 1. WebART & Webarchief
  6. 2012-2016
  7. Hildelies Balk René Voorburg Arjen de Vries Jaap Kamps Richard Rogers Thaer Samar PhD/programmer Hugo Huurdeman PhD researcher Anat Ben-David Postdoc (2012-14)
  8. Doelen WebART • Evalueren huidige curatie en selectieprocedures van webarchieven • Inzicht krijgen in huidig gebruik webarchieven in de context van onderzoek • Het ontwikkelen van nieuwe methoden en tools voor onderzoek m.b.v. webarchieven
  9. Original image: A N P
  10. Ondersteuning: Wayback Machine
  11. Ondersteuning: Wayback Machine
  12. Ondersteuning: Wayback Machine
  13. Ondersteuning • Wayback Machine: “Single URL” approach: • kennis URL benodigd (geen zoekfunctionaliteit) • één URL tegelijk bekijken • vergelijkingen maken moeilijk [Ben-David e.a. ’14, Rogers, ’13]
  14. Verbetering ondersteuning: “Living Lab” setting allansanders.co.uk
  15. 2. Workshops & zoektools
  16. 2. WebART workshops • 09/12 DMI Summer School •11/12 Web Archiving: Theorized Practices • 01/13 DMI Winter School •05/13 Exploring Israeli Politics online • 09/13 DMI “Web Archiving day” - evaluation WebART tools •11/13 New Media Research Masters - Web archive research scenarios
  17. 2.1 DMI Summer School (2012) Flickr: Silvertje Data: Selection lists KB
  18. DMI Summer School (2012)
  19. 2.2 DMI Winter School (2013) • Digital Methods Winter School (Jan. ’13) • Co-design workshop (“Living Lab”) • New Media onderzoekers en ontwikkelaars nu.nl subset webarchief (432 crawls, 14 GB) ! Zoekmachine
  20. Content analyse: Word frequency analysis 800! 700! 600! 500! 400! 300! 200! 100! 0! May-11! Jul-11! Aug-11! Oct-11! Dec-11! Jan-12! Mar-12! Mubarek Assad Putin Kim Jung Il
  21. Co-Word Analyse
  22. Geomapping: locatie bron nieuws
  23. project.wnyc.org 1 1 1 abcnews.go.com brucespringsteen.net 1 theverge.com 1 sportamerika.nl 1 reuters.com 1 ebird.org 1 googleblog.blogspot.co.uk 1 presscentre.sony.eu 1 bbc.com 1 poynter.org 1 abclocal.go.com 1 en.wikipedia.org 1 nhc.noaa.gov 1 nypost.com 2 earthcam.com 2 maps.google.com 3 hp.com 4 google.org 4 edition.cnn.com Syria Sandy 7 wired.com volkskrant.nl 7 8 allthingsd.com 7 abcnews.go.com 7 thesun.co.uk 7 allesoversterrenkunde.nl 9 fd.nl 9 nos.nl 9 mobiel.nuvideo.nl 9 guardian.co.uk 10 bit.ly 10 billboard.biz 10 cbsnews.com 11 usmagazine.com 11 variety.com 12 theverge.com 12 people.com 13 Rutte en Verhagen leggen schuld bij PVV 13 telegraaf.nl 14 washingtonpost.com 18 edition.cnn.com 19 bbc.co.uk 20 youtube.com 20 nytimes.com 21 styletoday.nl 21 bloomberg.com 24 thesistools.com 26 hollywoodreporter.com 30 online.wsj.com 30 deadline.com 33 poll.nupubliek.nl 34 spaarrente.nl 39 gamer.nl 48 reuters.com 52 tmz.com 57 open.spotify.com 78 peil.nl 93 gezondheidsnet.nl US Election 4 youtube.com 1 1 blogs.aljazeera.net 1 1 #NAME worldpressphoto.org 1 1 wikileaks.org 2 peil.nl washingtonpost.com 1 eubusiness.com 1 vesti.bg 1 trouw.nl 1 en.wikipedia.org 1 l 1 sana.sy 1 hosted.ap.org 1 shariah4belgium.com 1 nrc.nl 1 guardian.co.uk 1 geopolicity.com 1 nctb.nl 1 rt.com 1 kaspersky.com 2 todayszaman.com 2 volkskrant.nl 2 spaarrente.nl 2 reuters.com 2 hrw.org 2 uk.reuters.com 2 cbsnews.com 3 telegraph.co.uk 3 maps.google.nl 4 bbc.co.uk 5 edition.cnn.com 5 aljazeera.com english.alarabiya.net 7 maps.google.com Linkstructuur: Outlink Analyse
  24. Media: Temporal Image Analyse
  25. 2.2 DMI Winter School (2013) lees meer: [Huurdeman et al, 2013] • Nieuwe mogelijkheden voor exploratie en gebruik van gearchiveerd materiaal • van single site browsing naar (cross-)collection search • bottom-up aanpak: adaptatie functionaliteit systeem aan behoeften gebruikers • Echter: grote vraag naar export-functies voor verdere analyse — in eigen tools onderzoekers • Kunnen we meer typen analyses ondersteunen?
  26. enrichments KB archive data Geodata KB metadata Link structure
  27. host+1 nu.nl
  28. host+1 nu.nl
  29. host+1 nu.nl Volledige ‘index’ KB Webarchief
  30. Volledige ‘index’ KB Webarchief host+1 nu.nl 57.913 documenten 43.533.104 documenten 253.649 documenten
  31. 2.3 DMI “Web Archiving Day” (2013) Opmerkingen onderzoekers: • ”looking at data rather than single sites” • “supports the shift to studying Web archives through queries” • “aggregate views and bar graphs are extremely useful” !
  32. 2.3 DMI “Web Archiving Day” (2013) • Interesses onderzoekers Nieuwe Media: • “derive periodizations of the Web” (Web history) • e.g. ‘the rise of social media’ • “source hierarchy” (dominant sources in archive) • e.g. ‘financial crisis’ • “keyword uptake” (terms over time) • e.g. ‘geenstijl language in archive’ • “accidental”/“incidental” archiving • e.g. ‘the guilty pleasures of the Web of innocence’
  33. 2.3 DMI “Web Archiving Day” (2013) • Suggesties onderzoekers voor uitbreiding WebARTist: • selecties: bijv. sampling en subsets • vergelijkingen: bijv. verschillen in resultaatsets • collecties: bijv. creëren eigen collecties en annotaties • transparantie: bijv. selectieprocedures, algoritmes en (in)compleetheid • “data is still a crucial factor” • quantity & quality: inherente incompleetheid van een webarchief
  34. 3. Van zoek- naar onderzoekstools
  35. (Onder)zoeken • Van Wayback Machine naar een doorzoekbaar Webarchief • Grote stap voorwaarts • van URL browsing naar ‘full-text’ zoeken: nieuwe onderzoeksmogelijkheden • Potentiële ondersteuning verschillende stappen onderzoeksproces, bv. exploratie en data-collectie • Echter, ook enige beperkingen…
  36. Beperkingen zoektools 1. Datasets en verrijkingen gepredefinieerd 2. Zoekmachines en functionaliteit gepredefinieerd • “Trade-off”: ondersteuning universele versus specifieke taken en onderzoeksvragen • Een zoeksysteem kan niet álle specifieke taken ondersteunen • Volledige ondersteuning onderzoeksproces: meer flexibiliteit benodigd!
  37. Meer flexibiliteit… (1) gebruik van “Hadoop” computer-clusters voor genereren datasets, verrijkingen en analyse
  38. Finding pages in the Unarchived Web! ! DL 2014 1. Gearchiveerde pagina’s in selectielijst (2012) • 10.2 miljoen ! 2. Gearchiveerde pagina’s niet in selectielijst (2012) • 0.9 miljoen Dutch Web Archive 1 2 Voorbeeld
  39. Finding pages in the Unarchived Web !! DL 2014 • het aura van het web-archief • niet-gearchiveerde pagina’s • bestaan daarvan kan worden afgeleid uit de linkstructuur van het archief ! • extractie en analyse via ‘Hadoop’ computer-cluster Dutch Web Archive 1 2
  40. Finding pages in the Unarchived Web !! DL 2014 3. Aura: niet-gearchiveerde pagina’s • 10.7 miljoen ! • Mogelijkheid: representaties genereren voor deze pagina’s! • op basis van anchor text • met effectieve resultaten ! • Lees meer: Dutch Web Archive 1 2 3 [Huurdeman, Ben-David, Kamps, Samar, De Vries, 2014]
  41. Meer flexibiliteit… (2) • Creëren van customizable systems, ofwel toolmakers’ tools • Aanbieden ‘bouwblokken’ • custom zoekmachines • zoekstrategieën • complexe queries [Kamps ’11, de Vries e.a. ’10]
  42. De volgende stap… (2) in eurocrisis, schuldencrisis
  43. Van zoek- naar onderzoekstools Wayback Machine Search engine “Research” engine ondersteuning volledige onderzoekstaak
  44. Conclusie •WebART & Webarchieven •Workshops & zoektools • Van zoek- naar onderzoekstools
  45. Bronnen • Ben-David A. & Huurdeman H. (2014). Web Archive Search as Research: Methodological and Theoretical Implications. Alexandria Journal, Volume 25, No. 1 (2014) • Kamps J. (2011). Toward a model of interaction for complex search tasks. Proc. ESAIR 2011 • Rogers R. (2013). Digital Methods. MIT Press 2013 • Huurdeman H., Ben-David A., Samar T. (2013). Sprint Methods for Web Archive Research. Proc. Web Science 2013. • Huurdeman H., Ben-David A., Kamps J., Samar T., de Vries (2014). Finding Pages in the Unarchived Web. Proc. DL 2014. • de Vries A., Alink W., Cornacchia R. (2010). Search by Strategy. Proc. ESAIR '10
  46. webarchiving.nl @webart12
  47. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, René Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour NCDD Studiedag ‘Webarchivering in Nederland’, Beeld en Geluid, 30 oktober 2014
Advertisement