Humanities and Big Data

13. 16/06/2014 13 Auke Rijpma – CLIO INFRA Postdoctoral researcher Universiteit van Utrecht Nicolien van der Sijs - Nederlab Onderzoeker variatielinguïstiek Meertens Instituut Jasmijn Van Gorp - TROVE Senior onderzoeker Mediastudies Universiteit Amsterdam Afelonne Doek – HiTiME Adjunct-directeur Collecties en Digitale Infrastructuur IISG

Editor's Notes

Henk Wals, sociaal historicus, directeur IISG Eerst even waar ik vandaan kom. Het IISG. Onderzoek naar arbeids en arbeidsverhoudingen, daarvoor sinds 1935 collectie aangelegd. Grotere erfgoed instellingen. Research instituut, archief, bibliotheek tegelijk. Deze combinatie maakt dat we laboratorium kunnen zijn voor nieuwe methodes en technieken, waar onderzoekers, ICT-ers en collecties dicht op elkaar zitten
OK, de GW. Hoe de geesteswetenschap in zijn algemeenheid werkt, de traditionele methode: we leggen ons toe op één puzzelstukje om dat zo goed mogelijk te interpreteren en analyseren. Bijvoorbeeld, we schrijven boeken over het werk van één schilder, de romans van één schrijver, éen historische gebeurtenis, één persoon, of het taalgebruik van één sociale groep. Kleine eenheden. Dat is ook logisch en begrijpelijk, want: Die bouwstenen waarmee wij van oudsher werken (tekst, beeld, geluid, en historische data) waren talrijk en versnipperd. In verschillende bibliotheken en archieven enzovoort. Er is maar zoveel dat je binnen 4 jaar kunt doen. Je kunt maar een beperkte hoeveelheid bronnen tot je nemen. Geesteswetenschappers zijn op zich wel goed in het interpreteren van deze complexe bronnen. Daarvoor zijn we getraind, we kunnen complexe situaties doorzien, we kunnen waardeoordelen geven, daar zijn we goed in.
Waar we tot nu toe nog minder in geslaagd zijn, is om de vragen aan elkaar te knopen, om ze in samenhang te zien. We proberen wel tot algemene conclusies te komen, maar het aantal casussen is altijd beperkt. Grand theories over hoe dingen werken kunnen verschillende kanten op gaan. De een beweert dit, de ander dat. Dat heb je in de natuurkunde toch minder. Dat kon ook niet, want de werkelijkheid is complex, het aantal variabelen is groter. En de bronnen zijn veelvuldig, verspreid en divers. Maar er is wat aan het veranderen. Sinds een kleine tien jaar beschikken we over digitale data: de omvang neemt nu zozeer toe dat we van Big Data moeten spreken. Om deze rijkdom aan materiaal te ontginnen zijn we nieuwe instrumenten gaan ontwikkelen: instrumenten om de data te bevragen op betekenisvolle inhoud. Daarmee veranderen onze werkwijzen en kunnen we vragen op nieuwe manieren beantwoorden.
In de GW staan we voor een methodologische revolutie. Daar wordt verschillend over gedacht. Vooral oudere wetenschappers hechten erg aan de methodes waaraan ze gewend zijn. Er is verzet. Er zijn wetenschappers die er niet zo heel erg in geloven. Dat is hun goed recht. Zelf geloof ik ook dat traditionele methoden waardevol zullen blijven. Maar aan de andere kant vind ik dat we als wetenschappers de plicht hebben onze methoden regelmatig tegen het licht te houden en naar vernieuwing te streven.
Antal van de Bos het vorige week zei op een lezing: wat ICT-gebruik betreft rijden ze bij de beta’s in Ferrari’s, terwijl de GW-ers die IT gebruiken nog in oude VW kevers voortsukkelen. En sommige GW-ers staan nog op de bus te wachten. Toch is die analogie niet helemaal eerlijk, want het is niet alleen acterlijkheid. De data zijn complex, ruizig en efemeer. ICT kon dat nog niet aan. En pas nu komt de informatietechnologie in en ontwikelingsstadium waarin het echt interessant gaat worden. Ik zal een paar voorbeelden geven.
Veel van ons onderzoek komt neer op het analyseren van netwerken. Sociale netwerken van mensen uiteraard, maar ook (versies van) teksten kunnen in een netwerk geplaatst en daardoor begrepen worden. Hetzelfde geldt bijvoorbeeld voor het ontstaan en de verspreiding van nieuwe concepten, of de ontwikkeling van enorme clusters verenigingen, zoals sportclubs of vakbonden. Ook handelsroutes of commodity chains kunnen als een netwerk gezien worden. We willen weten wie of wat de cruciale intermediair is, of wie of wat staat centraal staat in een ontwikkeling. Dat zie je hier: Republic of Letters. Er zijn veel netwerktools beschikbaar, maar het gebruik in de geesteswetenschappen is nog beperkt vanwege de mathematische complexiteit van de datamodellen. Bovendien doen deze modellen nog onvoldoende recht aan de complexiteit van de werkelijkheid. Het zou ons onderzoek echter aanzienlijk kunnen helpen indien we over een voor geesteswetenschappelijke netwerkanalyse geschikt instrumentarium zouden beschikken.
Wat je zag was een visualisatie, Hier is er nog een, een word cloud. De kracht van visualisatie ligt in de mogelijkheid om inzichten te verschaffen die anders niet vanzelfsprekend tot ons zouden zijn gekomen. In het computertijdperk zijn visualisatietechnieken onontbeerlijk bij grote databestanden, omdat mensen daarin de patronen niet met het oog kunnen herkennen. Maar ook hier staan we slechts aan het begin van de mogelijkheden. De techniek is nog onvolmaakt. Hele grote datasets kan men nog niet aan een snelle, gebruiksvriendelijke interactieve raadpleging onderwerpen.
Het leeuwendeel van ons onderzoek is gebaseerd op tekstuele bronnen. De toename van de hoeveelheid gedigitaliseerde tekst én die van beschikbare computerkracht bieden grote mogelijkheden dit onderzoek. Op dit moment is het mogelijk om analyses te doen op basis van woordfrequenties en patroonherkenning. We kunnen – mits de bronnen niet te complex zijn – gestructureerde informatie afleiden uit ongestructureerde tekst (information extraction). We kunnen verborgen verbanden ontdekken in grote hoeveelheden data (association analysis). Technieken variëren van puur statistische methoden als het meten van woordfrequenties tot methoden gebaseerd op natural language processing, zoals named entity recognition, event detection en sentiment analysis. In het algemeen zou kunnen worden gesteld dat we in staat zijn geautomatiseerde distant reading toe te passen die het mogelijk maakt in grote hoeveelheden tekst en data onderdelen te vinden die voor ons doel de moeite van close reading waard zijn. We staan echter slechts aan het begin van de ontwikkeling en er is nog heel veel winst te behalen. Digitale teksten bevinden zich overal op het web, ongelinkt en vaak niet compatibel. De analysetechnieken die we gebruiken zijn nog tamelijk oppervlakkig en niet in staat om betekenis te geven aan de inhoud, de opbouw en structuur van zinnen te begrijpen, of goed om te gaan met verbuigingen van woorden. Met name oudere teksten leveren nog altijd grote problemen op. Wat we inschatten, is dat we binnen enkele jaren in staat zullen zijn meer betekenisvolle analyses te doen door toepassing van computers met een grotere grammatische en semantische intelligentie, zou dit ons historisch, letterkundig, taalkundig en cultureel onderzoek flink vooruit kunnen helpen. Databases die nu met veel inspanning handmatig worden aangelegd, zouden semi-automatisch gegenereerd kunnen worden. We zouden onvermoede verbanden (bijvoorbeeld tussen gebeurtenissen) in grote hoeveelheden data kunnen ontdekken, grip kunnen krijgen op stemmingen en gevoelens in bepaalde tijdperken, of veranderingen in taalgebruik kunnen verbinden met culturele ontwikkelingen. Omdat oneindig veel meer bronnen in het onderzoek kunnen worden betrokken, zal hun bewijskracht voor interpretaties door geesteswetenschappers toenemen. De resultaten worden kortom “harder”.
Er komt steeds meer data en digitale tekst beschikbaar, er worden steeds meer instrumenten ontwikkeld, zoals die waarover ik vertelde. Dan is de volgende vraag: hoe maak je die toegankelijk voor onderzoek. Binnen de GW hebben taalkundigen en sociaal-economisch historici al belangrijke stappen gezet. Zij hebben infratsructuren gebouwd als de HSN, Clarin, NederLab en CLIO-Infra. Nu moeten we de volgende stap zetten.
Nu moeten we de volgende stap zetten. Al die tools en data uit die verschillende initiatieven moeten in elkaar passen en onze instrumenten moeten met elkaar kunnen praten. Daarom hebben we een veel grotere infrastructuur nodig dan voorheen. Dat wordt CLARIAH. Consortium 40 instellingen hebben aanvraag ingediend bij NWO roadmap grote research infrastructuren 18 miljoen. 3 KNAW-instituten, B&G, de UvA, UvU en de VU zijn de belangrijkste partners. Huygens, Meertens en IISG beheerders. Deze instituten gaan binnen de KNAW nauw samenwerken, want om dit soort geavanceerde dingen te kunnen doen, heb je massa en schaal nodig. Je moet economies of scale en expertise bereiken. 1 juli wordt bekend gemaakt door staatssecretaris Sander Dekker wie er in de prijzen gevallen zijn. Als we CLARIAH kunnen bouwen is dat een enorme stap vooruit voor de GW in Nederland.
Als we dit verbinden met de toekomst van het archiefwezen, dan is er vanuit het onderzoek één grote wens: we hebben machineleesbare tekst nodig. Dat is met oudere archiefstukken nog een lastige opgave. Handmatig transcriberen is op dit moment nog de enige methode die écht werkt. Het zou echter best kunnen zijn dat OCR-technieken zover doorontwikkeld kunnen worden dat ook manuscripten te scannen zijn. Maar we krijgen straks natuurlijk massa’s digitally born archieven binnen en daarvan zou het natuurlijk mooi zijn als deze via een onderzoeksinfrastructuur als CLARIAH beschikbaar kunnen komen voor onderzoek.
CLARIAH site visit in februariAuke Rijpma – CLIO INFRA Postdoctoral researcher Universiteit van Utrecht Nicolien van der Sijs - Nederlab Onderzoeker variatielinguïstiek Meertens Instituut Jasmijn Van Gorp - TROVE Senior onderzoeker Mediastudies Universiteit Amsterdam Afelonne Doek – HiTiME Adjunct-directeur Collecties en Digitale Infrastructuur IISG

Humanities and Big Data

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

More from KVANdagen

More from KVANdagen (20)

Humanities and Big Data

Editor's Notes