Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018

566 views

Published on

De presentatie 'Hoe zoeken mensen door historische kranten?' tijdens de Netwerkdag Oorlogsbronnen 2018 'Lost and Found'.

Door Martijn Kleppe (hoofd afdeling Onderzoek Koninklijke Bibliotheek) en Jacco van Ossenbruggen (hoofd Information Access Onderzoeksgroep Centrum voor Wiskunde en Informatica).

Digitale collecties zoals Delpher.nl worden steeds meer gebruikt. Hoe kunnen we het gebruik van dit soort digitale collecties analyseren? Wat voor soort zoekers kun je identificeren als je alle gebruikers analyseert? En wellicht net zo belangrijk: hoe kunnen we het gedrag van klanten op een verantwoorde en transparante manier analyseren?

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018

  1. 1. Hoe zoeken mensen door historische kranten? Martijn Kleppe hoofd afd. Onderzoek Koninklijke Bibliotheek martijn.kleppe@kb.nl Jacco van Ossenbruggen hoofd Information Access onderzoeksgroep Centrum voor Wiskunde en Informatica hoofd User-Centric Data Science onderzoeksgroep VU Amsterdam Jacco.van.Ossenbruggen@cwi.nl Op basis van onderzoek op Delpher logs door Tessel Bogaard, Jan Wielemaker & Laura Hollink https://goo.gl/Yfc92V
  2. 2. In 2017: ● 843.463 bezoekers ● 2.188.237 sessies ● 33.460.531 pagina weergeven ● 15.29 pagina’s per sessie ● 14:44 minuten per sessie
  3. 3. https://www.nrc.nl/bigboard/
  4. 4. Persgroep titels toegevoegd Sitemap voor boeken toegevoegd Sitemap voor kranten en tijdschriften toegevoegd
  5. 5. Geesteswetenschappelijk Onderzoekers Bronnenonderzoek Studenten Paper schrijven Docenten Lessen voorbereiden & profielwerkstukken begeleiden Algemeen geïnteresseerden Informatie zoeken & delen Beginnende data onderzoeker Corpus samenstellen & analyseren
  6. 6. https://www.theguardian.com/technology/2017/o ct/26/cambridge-analytica-used-data-from- facebook-and-politico-to-help-trump https://media.giphy.com/media/TgHosMP8OADYO6onsC/giphy.gif
  7. 7. https://www.theguardian.com/world/2015/may/02/france-libraries-social-workshops-meeting-hub
  8. 8. CWI Information Access onderzoeksgroep ● Wij onderzoeken ondersteuning van taken met: ○ Te veel data om het alleen door mensen te laten doen ○ Te subjectieve data om het alleen door computers te laten doen ● Vereist dat mensen de mogelijkheden maar ook de beperkingen van de techniek kunnen inschatten ○ Maar: veel gebruikers kunnen dat niet (van naïef enthousiast tot totale digifoob) ○ Erger: informatici zoals ik kunnen dat soms ook niet ● Ons doel is: ○ Ook beperkingen objectief meetbaar en inzichtelijk te maken ○ Methodes ontwikkelen om impact van generieke oplossingen op specifieke gevallen in te schatten
  9. 9. Google afbeeldingen, gezocht op ‘‘professional hair for work’’ The Guardian, 8 april 2016
  10. 10. Google afbeeldingen, gezocht op ‘‘unprofessional hair for work’’ The Guardian, 8 april 2016 Is Google’s zoekmachine seksistisch en racistisch? ● Generiek algoritme dat vaak prima werkt (maar dus niet altijd) ● Combinatie algoritme + veel verschillende data = onvoorspelbaar ● Hoe kun je dit soort “bias” meten en/of afschatten? ● Voorbeeld: voorspel effect van trainen van deep learning algoritmen op Delpher corpus ● Trainen we met of zonder nazi oorlogskranten? ● ...
  11. 11. Studie naar Delpher “gebruikers logs” Problemen bij de analyse van zoekopdrachten (“queries”) Data is lastig: ● Query kan privacygevoelig materiaal bevatten (“ego surfing”) ○ “ossenbruggen zedenzaak” ● Query is slechts een indicatie van wat de gebruiker echt zoekt (“intent”) ● Bijna elke query is uniek (“long tail”) Software is ook lastig: ● Te veel log data om met de hand te onderzoeken ● Te specifieke data om alleen generieke software te gebruiken ● We willen geen “PhD-ware” ○ software die alleen bestaat op de laptop van een reeds vertrokken student
  12. 12. home page CSS JavaScript logo’s font s Google analytics AJAX
  13. 13. Example server log (± 1000M regels zoals deze) … 2017-07-01 00:00:05 192.87.31.13 GET /nl/pres/results/snippet "?coll=ddd&object=ddd%3A010640461%3Ampeg21%3Aa0051&query=Comedy+Parade" 80 - - 192.16.196.210 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36" "http://www.delpher.nl/nl/kranten/results?query=Comedy+Parade&facets%5Bperiode%5D%5B%5D=1%7C20e_eeuw%7C1980- 1989%7C&page=1&maxperpage=50&sortfield=date&coll=ddd" 200 184205 2017-07-01 00:00:06 192.87.31.13 GET /nl/pres/results/snippet "?coll=ddd&object=ddd%3A011205563%3Ampeg21%3Aa0129&query=Comedy+Parade" 80 - - 192.16.196.210 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36" "http://www.delpher.nl/nl/kranten/results?query=Comedy+Parade&facets%5Bperiode%5D%5B%5D=1%7C20e_eeuw%7C1980- 1989%7C&page=1&maxperpage=50&sortfield=date&coll=ddd" 200 60935 2017-07-01 00:00:06 192.87.31.13 GET /nl/pres/results/snippet "?coll=ddd&object=KBNRC01%3A000030366%3Ampeg21%3Aa0151&query=Volkskrant+van+10+sept+1958" 80 - - 192.16.196.210 "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_2 like Mac OS X) AppleWebKit/603.2.4 (KHTML, like Gecko) Mobile/14F89 [FBAN/FBIOS;FBAV/99.0.0.57.70;FBBV/63577032;FBDV/iPhone7,1;FBMD/iPhone;FBSN/iOS;FBSV/10.3.2;FBSS/3;FBCR/vfnl;FBID/phone;FBLC/nl_NL;FBOP/5; FBRV/0]" "http://www.delpher.nl/nl/kranten/results?query=Volkskrant+van+10+sept+1958&page=1&coll=ddd" 200 259168 2017-07-01 00:00:09 192.87.31.13 GET /css/icons.css "?version=3.0.131" 80 - - 192.16.196.210 "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/601.7.7 (KHTML, like Gecko) Version/9.1.2 Safari/537.86.7" "http://www.delpher.nl/nl/boeken1/results?query=commandeur+duyn&page=1&coll=boeken1" 200 300
  14. 14. Gebruikte software: SWISH datalab ● Web “notebook” platform ○ Alle data/software online beschikbaar (ipv op laptop PhD) ○ Stimuleert samenwerking ○ Beschikbaar voor collega wetenschappers en algemeen publiek ... ● “Publiek tenzij” ○ Delpher logs te privacygevoelig, SWISH draait achter dubbele firewall ○ Voorbeeld studie op publieke data: https://vre4eic.project.cwi.nl/gender/ ○ Elke resultaat (grafiek, tabel, statistische analysis) reproduceerbaar & transparent ○ Dit geldt ook voor alle voorbeeld resultaten die ik hierna laat zien!
  15. 15. Wat zit er in de collectie vs. wat klikken mensen aan Familieberichten: • Vaak aangeklikt • 34% van alle familieberichten gezien in 6 maanden, (rest maar 3-5%) Sessies: • ‘Familiebericht” facet gebruikt in 19% sessies • Sessies kort, minder kliks & downloads • Weinig sessies zonder kliks
  16. 16. Zoeken m.b.v. periode facet: • Veel 20ste eeuw • Piek rond WOII • Distributie in collectie minder gespreid dan in de kliks • Pieken klein beetje verschoven Sessies periode WOII: • Sessies in deze periode zijn langer dan gemiddeld • Meer zoek acties meer kliks
  17. 17. Inzoomen op individu: • Twee voorbeelden van “sequentiele” gebruikers • typische “klikker” (links) • Typische “zoeker” (rechts)
  18. 18. Inzoomen op individu: • Twee voorbeelden van “hiërarchische” gebruikers met complex zoekgedrag • typisch “exploratief” zoeken in illustraties & artikelen (boven) • Typisch “gefocust” zoeken in familieberichten (onder) • Maar: we hebben te veel van dit soort voorbeelden om allemaal te bestuderen
  19. 19. Data-driven, bottom- up clusteren van gebruikerssessies Automatisch gegroepeerd Handmatig gelabeld
  20. 20. Clusters goed stabiel over de maanden
  21. 21. Metadata in de facets (rechts) en in de clicks (links) ● Wat zoeken mensen in de afzonderlijke clusters en wat vinden ze uiteindelijk? ● Hoe verhouden deze groepen zich met de “persona’s” uit het KB gebruikersonderzoek? ● Hoe communiceren we dit soort resultaten helder en transparant naar de KB & zijn gebruikers?
  22. 22. www.kb.nl/onderzoeksagenda Volgende stappen: ➢ We moeten hier nog veel meer over leren & intern organiseren ➢ Apart thema in onze onderzoeksagenda: Hoe kunnen we het gedrag van onze klanten op verantwoorde wijze diepgaander analyseren? ➢ Investeren in kennis en mankracht ➢ Willen (& kunnen) dit niet alleen. ➢ Samenwerken? Fijn!
  23. 23. Colofon ▪ Deze slides zijn deels de resultaten van onderzoek door Tessel Bogaard, Jan Wielemaker & Laura Hollink, op basis van 200M log records uit oktober 2015 - maart 2016 beschikbaar gesteld voor wetenschappelijk onderzoek door de KB aan het CWI onder strikte voorwaarden om de privacy van gebruikers te waarborgen. ▪ Dank aan KB collega’s Maaike Napolitano & Mirte Groskamp ▪ This research was partially supported by the VRE4EIC project, a project that has received funding from the European Union's Horizon 2020 research and innovation program under grant agreement No 676247.
  24. 24. Hoe zoeken mensen door historische kranten? Martijn Kleppe hoofd afd. Onderzoek Koninklijke Bibliotheek martijn.kleppe@kb.nl Jacco van Ossenbruggen hoofd Information Access onderzoeksgroep Centrum voor Wiskunde en Informatica hoofd User-Centric Data Science onderzoeksgroep VU Amsterdam Jacco.van.Ossenbruggen@cwi.nl Op basis van onderzoek op Delpher logs door Tessel Bogaard, Jan Wielemaker & Laura Hollink

×