Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
WebART project 
Web Archive Retrieval Tools 
Jaap Kamps, Richard Rogers, Arjen de Vries 
Hildelies Balk, René Voorburg 
! ...
WebART project 
Web Archive Retrieval Tools 
Jaap Kamps, Richard Rogers, Arjen de Vries 
Hildelies Balk, René Voorburg 
! ...
Het doel van een webarchief
Beyond preservation… 
• Initiële focus: bewaren & conserveren webmateriaal 
• minder op gebruik van gearchiveerde materiaa...
1. WebART & Webarchief
2012-2016
Hildelies Balk 
René Voorburg 
Arjen de Vries Jaap Kamps Richard Rogers 
Thaer Samar 
PhD/programmer 
Hugo Huurdeman 
PhD ...
Doelen WebART 
• Evalueren huidige curatie en selectieprocedures 
van webarchieven 
• Inzicht krijgen in huidig gebruik we...
Original image: A N P
Ondersteuning: Wayback Machine
Ondersteuning: Wayback Machine
Ondersteuning: Wayback Machine
Ondersteuning 
• Wayback Machine: “Single URL” approach: 
• kennis URL benodigd (geen zoekfunctionaliteit) 
• één URL tege...
Verbetering ondersteuning: “Living Lab” setting 
allansanders.co.uk
2. Workshops & zoektools
2. WebART workshops 
• 09/12 DMI Summer School 
•11/12 Web Archiving: Theorized Practices 
• 01/13 DMI Winter School 
•05/...
2.1 DMI Summer School (2012) 
Flickr: Silvertje 
Data: Selection lists KB
DMI Summer School (2012)
2.2 DMI Winter School (2013) 
• Digital Methods Winter School (Jan. ’13) 
• Co-design workshop (“Living Lab”) 
• New Media...
Content analyse: Word frequency analysis 
800! 
700! 
600! 
500! 
400! 
300! 
200! 
100! 
0! 
May-11! Jul-11! Aug-11! Oct-...
Co-Word Analyse
Geomapping: locatie bron nieuws
project.wnyc.org 
1 
1 
1 abcnews.go.com 
brucespringsteen.net 
1 
theverge.com 
1 
sportamerika.nl 
1 
reuters.com 
1 
eb...
Media: Temporal Image Analyse
2.2 DMI Winter School (2013) 
lees meer: [Huurdeman et al, 2013] 
• Nieuwe mogelijkheden voor exploratie en gebruik 
van g...
enrichments 
KB archive data 
Geodata 
KB metadata 
Link structure
host+1 
nu.nl
host+1 
nu.nl
host+1 
nu.nl 
Volledige ‘index’ KB Webarchief
Volledige ‘index’ KB Webarchief 
host+1 
nu.nl 
57.913 documenten 
43.533.104 documenten 
253.649 documenten
2.3 DMI “Web Archiving Day” (2013) 
Opmerkingen onderzoekers: 
• ”looking at data rather than 
single sites” 
• “supports ...
2.3 DMI “Web Archiving Day” (2013) 
• Interesses onderzoekers Nieuwe Media: 
• “derive periodizations of the Web” (Web his...
2.3 DMI “Web Archiving Day” (2013) 
• Suggesties onderzoekers voor uitbreiding WebARTist: 
• selecties: bijv. sampling en ...
3. Van zoek- naar onderzoekstools
(Onder)zoeken 
• Van Wayback Machine naar een doorzoekbaar 
Webarchief 
• Grote stap voorwaarts 
• van URL browsing naar ‘...
Beperkingen zoektools 
1. Datasets en verrijkingen gepredefinieerd 
2. Zoekmachines en functionaliteit gepredefinieerd 
• ...
Meer flexibiliteit… (1) 
gebruik van “Hadoop” computer-clusters voor genereren datasets, verrijkingen en analyse
Finding pages in the Unarchived Web! ! DL 2014 
1. Gearchiveerde pagina’s 
in selectielijst (2012) 
• 10.2 miljoen 
! 
2. ...
Finding pages in the Unarchived Web !! DL 2014 
• het aura van het web-archief 
• niet-gearchiveerde pagina’s 
• bestaan d...
Finding pages in the Unarchived Web !! DL 2014 
3. Aura: niet-gearchiveerde 
pagina’s 
• 10.7 miljoen 
! 
• Mogelijkheid: ...
Meer flexibiliteit… (2) 
• Creëren van customizable systems, ofwel 
toolmakers’ tools 
• Aanbieden ‘bouwblokken’ 
• custom...
De volgende stap… (2) 
in 
eurocrisis, schuldencrisis
Van zoek- naar onderzoekstools 
Wayback 
Machine 
Search 
engine “Research” engine 
ondersteuning volledige 
onderzoekstaa...
Conclusie 
•WebART & Webarchieven 
•Workshops & zoektools 
• Van zoek- naar onderzoekstools
Bronnen 
• Ben-David A. & Huurdeman H. (2014). Web Archive Search as Research: 
Methodological and Theoretical Implication...
webarchiving.nl 
@webart12
WebART project 
Web Archive Retrieval Tools 
Jaap Kamps, Richard Rogers, Arjen de Vries 
Hildelies Balk, René Voorburg 
! ...
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
Upcoming SlideShare
Loading in …5
×

WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)

1,597 views

Published on

(Dutch) Presentatie namens WebART op studiedag "Webarchivering in Nederland" // WebART presentation at "Web archiving in the Netherlands" symposium, 30 Oct 2014 [http://www.webarchiving.nl/news/ncdd-webarchivering-in-nederland]. Related work: http://www.slideshare.net/TimelessFuture/finding-pages-on-the-unarchived-web-dl-2014

  • Be the first to comment

WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)

  1. 1. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, René Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour NCDD Studiedag ‘Webarchivering in Nederland’, Beeld en Geluid, 30 oktober 2014
  2. 2. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, René Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour Hoe maak je webarchieven br uikbaar voor onderzoek?
  3. 3. Het doel van een webarchief
  4. 4. Beyond preservation… • Initiële focus: bewaren & conserveren webmateriaal • minder op gebruik van gearchiveerde materiaal • Perspectief presentatie: het Webarchief als bron voor huidig én toekomstig onderzoek
  5. 5. 1. WebART & Webarchief
  6. 6. 2012-2016
  7. 7. Hildelies Balk René Voorburg Arjen de Vries Jaap Kamps Richard Rogers Thaer Samar PhD/programmer Hugo Huurdeman PhD researcher Anat Ben-David Postdoc (2012-14)
  8. 8. Doelen WebART • Evalueren huidige curatie en selectieprocedures van webarchieven • Inzicht krijgen in huidig gebruik webarchieven in de context van onderzoek • Het ontwikkelen van nieuwe methoden en tools voor onderzoek m.b.v. webarchieven
  9. 9. Original image: A N P
  10. 10. Ondersteuning: Wayback Machine
  11. 11. Ondersteuning: Wayback Machine
  12. 12. Ondersteuning: Wayback Machine
  13. 13. Ondersteuning • Wayback Machine: “Single URL” approach: • kennis URL benodigd (geen zoekfunctionaliteit) • één URL tegelijk bekijken • vergelijkingen maken moeilijk [Ben-David e.a. ’14, Rogers, ’13]
  14. 14. Verbetering ondersteuning: “Living Lab” setting allansanders.co.uk
  15. 15. 2. Workshops & zoektools
  16. 16. 2. WebART workshops • 09/12 DMI Summer School •11/12 Web Archiving: Theorized Practices • 01/13 DMI Winter School •05/13 Exploring Israeli Politics online • 09/13 DMI “Web Archiving day” - evaluation WebART tools •11/13 New Media Research Masters - Web archive research scenarios
  17. 17. 2.1 DMI Summer School (2012) Flickr: Silvertje Data: Selection lists KB
  18. 18. DMI Summer School (2012)
  19. 19. 2.2 DMI Winter School (2013) • Digital Methods Winter School (Jan. ’13) • Co-design workshop (“Living Lab”) • New Media onderzoekers en ontwikkelaars nu.nl subset webarchief (432 crawls, 14 GB) ! Zoekmachine
  20. 20. Content analyse: Word frequency analysis 800! 700! 600! 500! 400! 300! 200! 100! 0! May-11! Jul-11! Aug-11! Oct-11! Dec-11! Jan-12! Mar-12! Mubarek Assad Putin Kim Jung Il
  21. 21. Co-Word Analyse
  22. 22. Geomapping: locatie bron nieuws
  23. 23. project.wnyc.org 1 1 1 abcnews.go.com brucespringsteen.net 1 theverge.com 1 sportamerika.nl 1 reuters.com 1 ebird.org 1 googleblog.blogspot.co.uk 1 presscentre.sony.eu 1 bbc.com 1 poynter.org 1 abclocal.go.com 1 en.wikipedia.org 1 nhc.noaa.gov 1 nypost.com 2 earthcam.com 2 maps.google.com 3 hp.com 4 google.org 4 edition.cnn.com Syria Sandy 7 wired.com volkskrant.nl 7 8 allthingsd.com 7 abcnews.go.com 7 thesun.co.uk 7 allesoversterrenkunde.nl 9 fd.nl 9 nos.nl 9 mobiel.nuvideo.nl 9 guardian.co.uk 10 bit.ly 10 billboard.biz 10 cbsnews.com 11 usmagazine.com 11 variety.com 12 theverge.com 12 people.com 13 Rutte en Verhagen leggen schuld bij PVV 13 telegraaf.nl 14 washingtonpost.com 18 edition.cnn.com 19 bbc.co.uk 20 youtube.com 20 nytimes.com 21 styletoday.nl 21 bloomberg.com 24 thesistools.com 26 hollywoodreporter.com 30 online.wsj.com 30 deadline.com 33 poll.nupubliek.nl 34 spaarrente.nl 39 gamer.nl 48 reuters.com 52 tmz.com 57 open.spotify.com 78 peil.nl 93 gezondheidsnet.nl US Election 4 youtube.com 1 1 blogs.aljazeera.net 1 1 #NAME worldpressphoto.org 1 1 wikileaks.org 2 peil.nl washingtonpost.com 1 eubusiness.com 1 vesti.bg 1 trouw.nl 1 en.wikipedia.org 1 l 1 sana.sy 1 hosted.ap.org 1 shariah4belgium.com 1 nrc.nl 1 guardian.co.uk 1 geopolicity.com 1 nctb.nl 1 rt.com 1 kaspersky.com 2 todayszaman.com 2 volkskrant.nl 2 spaarrente.nl 2 reuters.com 2 hrw.org 2 uk.reuters.com 2 cbsnews.com 3 telegraph.co.uk 3 maps.google.nl 4 bbc.co.uk 5 edition.cnn.com 5 aljazeera.com english.alarabiya.net 7 maps.google.com Linkstructuur: Outlink Analyse
  24. 24. Media: Temporal Image Analyse
  25. 25. 2.2 DMI Winter School (2013) lees meer: [Huurdeman et al, 2013] • Nieuwe mogelijkheden voor exploratie en gebruik van gearchiveerd materiaal • van single site browsing naar (cross-)collection search • bottom-up aanpak: adaptatie functionaliteit systeem aan behoeften gebruikers • Echter: grote vraag naar export-functies voor verdere analyse — in eigen tools onderzoekers • Kunnen we meer typen analyses ondersteunen?
  26. 26. enrichments KB archive data Geodata KB metadata Link structure
  27. 27. host+1 nu.nl
  28. 28. host+1 nu.nl
  29. 29. host+1 nu.nl Volledige ‘index’ KB Webarchief
  30. 30. Volledige ‘index’ KB Webarchief host+1 nu.nl 57.913 documenten 43.533.104 documenten 253.649 documenten
  31. 31. 2.3 DMI “Web Archiving Day” (2013) Opmerkingen onderzoekers: • ”looking at data rather than single sites” • “supports the shift to studying Web archives through queries” • “aggregate views and bar graphs are extremely useful” !
  32. 32. 2.3 DMI “Web Archiving Day” (2013) • Interesses onderzoekers Nieuwe Media: • “derive periodizations of the Web” (Web history) • e.g. ‘the rise of social media’ • “source hierarchy” (dominant sources in archive) • e.g. ‘financial crisis’ • “keyword uptake” (terms over time) • e.g. ‘geenstijl language in archive’ • “accidental”/“incidental” archiving • e.g. ‘the guilty pleasures of the Web of innocence’
  33. 33. 2.3 DMI “Web Archiving Day” (2013) • Suggesties onderzoekers voor uitbreiding WebARTist: • selecties: bijv. sampling en subsets • vergelijkingen: bijv. verschillen in resultaatsets • collecties: bijv. creëren eigen collecties en annotaties • transparantie: bijv. selectieprocedures, algoritmes en (in)compleetheid • “data is still a crucial factor” • quantity & quality: inherente incompleetheid van een webarchief
  34. 34. 3. Van zoek- naar onderzoekstools
  35. 35. (Onder)zoeken • Van Wayback Machine naar een doorzoekbaar Webarchief • Grote stap voorwaarts • van URL browsing naar ‘full-text’ zoeken: nieuwe onderzoeksmogelijkheden • Potentiële ondersteuning verschillende stappen onderzoeksproces, bv. exploratie en data-collectie • Echter, ook enige beperkingen…
  36. 36. Beperkingen zoektools 1. Datasets en verrijkingen gepredefinieerd 2. Zoekmachines en functionaliteit gepredefinieerd • “Trade-off”: ondersteuning universele versus specifieke taken en onderzoeksvragen • Een zoeksysteem kan niet álle specifieke taken ondersteunen • Volledige ondersteuning onderzoeksproces: meer flexibiliteit benodigd!
  37. 37. Meer flexibiliteit… (1) gebruik van “Hadoop” computer-clusters voor genereren datasets, verrijkingen en analyse
  38. 38. Finding pages in the Unarchived Web! ! DL 2014 1. Gearchiveerde pagina’s in selectielijst (2012) • 10.2 miljoen ! 2. Gearchiveerde pagina’s niet in selectielijst (2012) • 0.9 miljoen Dutch Web Archive 1 2 Voorbeeld
  39. 39. Finding pages in the Unarchived Web !! DL 2014 • het aura van het web-archief • niet-gearchiveerde pagina’s • bestaan daarvan kan worden afgeleid uit de linkstructuur van het archief ! • extractie en analyse via ‘Hadoop’ computer-cluster Dutch Web Archive 1 2
  40. 40. Finding pages in the Unarchived Web !! DL 2014 3. Aura: niet-gearchiveerde pagina’s • 10.7 miljoen ! • Mogelijkheid: representaties genereren voor deze pagina’s! • op basis van anchor text • met effectieve resultaten ! • Lees meer: Dutch Web Archive 1 2 3 [Huurdeman, Ben-David, Kamps, Samar, De Vries, 2014]
  41. 41. Meer flexibiliteit… (2) • Creëren van customizable systems, ofwel toolmakers’ tools • Aanbieden ‘bouwblokken’ • custom zoekmachines • zoekstrategieën • complexe queries [Kamps ’11, de Vries e.a. ’10]
  42. 42. De volgende stap… (2) in eurocrisis, schuldencrisis
  43. 43. Van zoek- naar onderzoekstools Wayback Machine Search engine “Research” engine ondersteuning volledige onderzoekstaak
  44. 44. Conclusie •WebART & Webarchieven •Workshops & zoektools • Van zoek- naar onderzoekstools
  45. 45. Bronnen • Ben-David A. & Huurdeman H. (2014). Web Archive Search as Research: Methodological and Theoretical Implications. Alexandria Journal, Volume 25, No. 1 (2014) • Kamps J. (2011). Toward a model of interaction for complex search tasks. Proc. ESAIR 2011 • Rogers R. (2013). Digital Methods. MIT Press 2013 • Huurdeman H., Ben-David A., Samar T. (2013). Sprint Methods for Web Archive Research. Proc. Web Science 2013. • Huurdeman H., Ben-David A., Kamps J., Samar T., de Vries (2014). Finding Pages in the Unarchived Web. Proc. DL 2014. • de Vries A., Alink W., Cornacchia R. (2010). Search by Strategy. Proc. ESAIR '10
  46. 46. webarchiving.nl @webart12
  47. 47. WebART project Web Archive Retrieval Tools Jaap Kamps, Richard Rogers, Arjen de Vries Hildelies Balk, René Voorburg ! Anat Ben-David, Hugo Huurdeman, Thaer Sammar Flickr: LucViatour NCDD Studiedag ‘Webarchivering in Nederland’, Beeld en Geluid, 30 oktober 2014

×