SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our User Agreement and Privacy Policy.
SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our Privacy Policy and User Agreement for details.
Successfully reported this slideshow.
Activate your 14 day free trial to unlock unlimited reading.
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
(Dutch) Presentatie namens WebART op studiedag "Webarchivering in Nederland" // WebART presentation at "Web archiving in the Netherlands" symposium, 30 Oct 2014 [http://www.webarchiving.nl/news/ncdd-webarchivering-in-nederland]. Related work: http://www.slideshare.net/TimelessFuture/finding-pages-on-the-unarchived-web-dl-2014
(Dutch) Presentatie namens WebART op studiedag "Webarchivering in Nederland" // WebART presentation at "Web archiving in the Netherlands" symposium, 30 Oct 2014 [http://www.webarchiving.nl/news/ncdd-webarchivering-in-nederland]. Related work: http://www.slideshare.net/TimelessFuture/finding-pages-on-the-unarchived-web-dl-2014
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
1.
WebART project
Web Archive Retrieval Tools
Jaap Kamps, Richard Rogers, Arjen de Vries
Hildelies Balk, René Voorburg
!
Anat Ben-David, Hugo Huurdeman, Thaer Sammar
Flickr: LucViatour
NCDD Studiedag ‘Webarchivering in Nederland’, Beeld en Geluid, 30 oktober 2014
2.
WebART project
Web Archive Retrieval Tools
Jaap Kamps, Richard Rogers, Arjen de Vries
Hildelies Balk, René Voorburg
!
Anat Ben-David, Hugo Huurdeman, Thaer Sammar
Flickr: LucViatour
Hoe maak je webarchieven
br uikbaar voor onderzoek?
4.
Beyond preservation…
• Initiële focus: bewaren & conserveren webmateriaal
• minder op gebruik van gearchiveerde materiaal
• Perspectief presentatie: het Webarchief als bron
voor huidig én toekomstig onderzoek
7.
Hildelies Balk
René Voorburg
Arjen de Vries Jaap Kamps Richard Rogers
Thaer Samar
PhD/programmer
Hugo Huurdeman
PhD researcher
Anat Ben-David
Postdoc (2012-14)
8.
Doelen WebART
• Evalueren huidige curatie en selectieprocedures
van webarchieven
• Inzicht krijgen in huidig gebruik webarchieven in
de context van onderzoek
• Het ontwikkelen van nieuwe methoden en tools
voor onderzoek m.b.v. webarchieven
25.
2.2 DMI Winter School (2013)
lees meer: [Huurdeman et al, 2013]
• Nieuwe mogelijkheden voor exploratie en gebruik
van gearchiveerd materiaal
• van single site browsing naar (cross-)collection search
• bottom-up aanpak: adaptatie functionaliteit systeem aan
behoeften gebruikers
• Echter: grote vraag naar export-functies voor verdere
analyse — in eigen tools onderzoekers
• Kunnen we meer typen analyses ondersteunen?
26.
enrichments
KB archive data
Geodata
KB metadata
Link structure
31.
2.3 DMI “Web Archiving Day” (2013)
Opmerkingen onderzoekers:
• ”looking at data rather than
single sites”
• “supports the shift to studying
Web archives through queries”
• “aggregate views and bar graphs
are extremely useful”
!
32.
2.3 DMI “Web Archiving Day” (2013)
• Interesses onderzoekers Nieuwe Media:
• “derive periodizations of the Web” (Web history)
• e.g. ‘the rise of social media’
• “source hierarchy” (dominant sources in archive)
• e.g. ‘financial crisis’
• “keyword uptake” (terms over time)
• e.g. ‘geenstijl language in archive’
• “accidental”/“incidental” archiving
• e.g. ‘the guilty pleasures of the Web of innocence’
33.
2.3 DMI “Web Archiving Day” (2013)
• Suggesties onderzoekers voor uitbreiding WebARTist:
• selecties: bijv. sampling en subsets
• vergelijkingen: bijv. verschillen in resultaatsets
• collecties: bijv. creëren eigen collecties en annotaties
• transparantie: bijv. selectieprocedures, algoritmes en
(in)compleetheid
• “data is still a crucial factor”
• quantity & quality: inherente incompleetheid van een
webarchief
35.
(Onder)zoeken
• Van Wayback Machine naar een doorzoekbaar
Webarchief
• Grote stap voorwaarts
• van URL browsing naar ‘full-text’ zoeken: nieuwe
onderzoeksmogelijkheden
• Potentiële ondersteuning verschillende stappen
onderzoeksproces, bv. exploratie en data-collectie
• Echter, ook enige beperkingen…
36.
Beperkingen zoektools
1. Datasets en verrijkingen gepredefinieerd
2. Zoekmachines en functionaliteit gepredefinieerd
• “Trade-off”: ondersteuning universele versus specifieke
taken en onderzoeksvragen
• Een zoeksysteem kan niet álle specifieke taken
ondersteunen
• Volledige ondersteuning onderzoeksproces:
meer flexibiliteit benodigd!
37.
Meer flexibiliteit… (1)
gebruik van “Hadoop” computer-clusters voor genereren datasets, verrijkingen en analyse
38.
Finding pages in the Unarchived Web! ! DL 2014
1. Gearchiveerde pagina’s
in selectielijst (2012)
• 10.2 miljoen
!
2. Gearchiveerde pagina’s
niet in selectielijst (2012)
• 0.9 miljoen
Dutch Web Archive 1 2
Voorbeeld
39.
Finding pages in the Unarchived Web !! DL 2014
• het aura van het web-archief
• niet-gearchiveerde pagina’s
• bestaan daarvan kan
worden afgeleid uit de
linkstructuur van het archief
!
• extractie en analyse via
‘Hadoop’ computer-cluster
Dutch Web Archive 1 2
40.
Finding pages in the Unarchived Web !! DL 2014
3. Aura: niet-gearchiveerde
pagina’s
• 10.7 miljoen
!
• Mogelijkheid: representaties
genereren voor deze pagina’s!
• op basis van anchor text
• met effectieve resultaten
!
• Lees meer:
Dutch Web Archive 1 2 3
[Huurdeman, Ben-David, Kamps, Samar, De Vries, 2014]
41.
Meer flexibiliteit… (2)
• Creëren van customizable systems, ofwel
toolmakers’ tools
• Aanbieden ‘bouwblokken’
• custom zoekmachines
• zoekstrategieën
• complexe queries
[Kamps ’11, de Vries e.a. ’10]
42.
De volgende stap… (2)
in
eurocrisis, schuldencrisis
43.
Van zoek- naar onderzoekstools
Wayback
Machine
Search
engine “Research” engine
ondersteuning volledige
onderzoekstaak
44.
Conclusie
•WebART & Webarchieven
•Workshops & zoektools
• Van zoek- naar onderzoekstools
45.
Bronnen
• Ben-David A. & Huurdeman H. (2014). Web Archive Search as Research:
Methodological and Theoretical Implications. Alexandria Journal, Volume 25,
No. 1 (2014)
• Kamps J. (2011). Toward a model of interaction for complex search tasks.
Proc. ESAIR 2011
• Rogers R. (2013). Digital Methods. MIT Press 2013
• Huurdeman H., Ben-David A., Samar T. (2013). Sprint Methods for Web
Archive Research. Proc. Web Science 2013.
• Huurdeman H., Ben-David A., Kamps J., Samar T., de Vries (2014). Finding
Pages in the Unarchived Web. Proc. DL 2014.
• de Vries A., Alink W., Cornacchia R. (2010). Search by Strategy. Proc. ESAIR
'10
47.
WebART project
Web Archive Retrieval Tools
Jaap Kamps, Richard Rogers, Arjen de Vries
Hildelies Balk, René Voorburg
!
Anat Ben-David, Hugo Huurdeman, Thaer Sammar
Flickr: LucViatour
NCDD Studiedag ‘Webarchivering in Nederland’, Beeld en Geluid, 30 oktober 2014