SlideShare a Scribd company logo
1 of 13
Humanities & “Big Data”
KVAN-dagen Assen
16 juni 2014
Henk Wals
16/06/2014
1
40 km
archives
1 million
items printed
material
2 million
audiovisual
items
millions of
data records
16/06/2014
7
Network analysis
16/06/2014
8
Visualisatie
16/06/2014
9
Text- en datamining
16/06/2014
12
16/06/2014
13
Auke Rijpma – CLIO INFRA
Postdoctoral researcher Universiteit van Utrecht
Nicolien van der Sijs - Nederlab
Onderzoeker variatielinguïstiek Meertens Instituut
Jasmijn Van Gorp - TROVE
Senior onderzoeker Mediastudies Universiteit Amsterdam
Afelonne Doek – HiTiME
Adjunct-directeur Collecties en Digitale Infrastructuur IISG

More Related Content

Viewers also liked

Programma KVAN-dagen 2011
Programma KVAN-dagen 2011Programma KVAN-dagen 2011
Programma KVAN-dagen 2011
KVANdagen
 
Axafone en negocio abierto, junio 2013
Axafone en negocio abierto, junio 2013Axafone en negocio abierto, junio 2013
Axafone en negocio abierto, junio 2013
CIT Marbella
 
La bibliotecologia en colombia un hecho muy importante
La bibliotecologia en colombia un hecho muy importanteLa bibliotecologia en colombia un hecho muy importante
La bibliotecologia en colombia un hecho muy importante
Ivan Martinez
 
Presentacion personal[1]
Presentacion personal[1]Presentacion personal[1]
Presentacion personal[1]
yaneth
 
η ελληνική επανάσταση του 1821 μέσα από την τέχνη
η ελληνική επανάσταση του 1821 μέσα από την τέχνηη ελληνική επανάσταση του 1821 μέσα από την τέχνη
η ελληνική επανάσταση του 1821 μέσα από την τέχνη
Elena Ioannidou
 
ігар случак і футбольныя фанаты беларусі K 1-к-1_футбол па-беларуску!
ігар случак і футбольныя фанаты беларусі K 1-к-1_футбол па-беларуску!ігар случак і футбольныя фанаты беларусі K 1-к-1_футбол па-беларуску!
ігар случак і футбольныя фанаты беларусі K 1-к-1_футбол па-беларуску!
Sergey Skorokhod
 
Nitretação a plasma fundamentos e aplicações
Nitretação a plasma   fundamentos e aplicaçõesNitretação a plasma   fundamentos e aplicações
Nitretação a plasma fundamentos e aplicações
Pablo Engquimico
 
Perbandingan sony experia z dengan samsung galaxy s4 [recovered] okeee
Perbandingan sony experia z dengan samsung galaxy s4 [recovered] okeeePerbandingan sony experia z dengan samsung galaxy s4 [recovered] okeee
Perbandingan sony experia z dengan samsung galaxy s4 [recovered] okeee
Marinah_KS
 
Alimentaosaudvel 120801064114-phpapp02
Alimentaosaudvel 120801064114-phpapp02Alimentaosaudvel 120801064114-phpapp02
Alimentaosaudvel 120801064114-phpapp02
Pedro Teixeira
 
The Big Picture
The Big PictureThe Big Picture
The Big Picture
KVANdagen
 
HANDS Disaster management Report
HANDS Disaster management ReportHANDS Disaster management Report
HANDS Disaster management Report
Nadeem Wagan Wagan
 

Viewers also liked (20)

SIX Summer School 2009 - Wednesday
SIX Summer School 2009 - WednesdaySIX Summer School 2009 - Wednesday
SIX Summer School 2009 - Wednesday
 
If we build it, when will they come?
If we build it, when will they come?If we build it, when will they come?
If we build it, when will they come?
 
Programma KVAN-dagen 2011
Programma KVAN-dagen 2011Programma KVAN-dagen 2011
Programma KVAN-dagen 2011
 
Axafone en negocio abierto, junio 2013
Axafone en negocio abierto, junio 2013Axafone en negocio abierto, junio 2013
Axafone en negocio abierto, junio 2013
 
especies en peligro de extinción
especies en peligro de extinciónespecies en peligro de extinción
especies en peligro de extinción
 
Reencuentro
ReencuentroReencuentro
Reencuentro
 
La bibliotecologia en colombia un hecho muy importante
La bibliotecologia en colombia un hecho muy importanteLa bibliotecologia en colombia un hecho muy importante
La bibliotecologia en colombia un hecho muy importante
 
Presentacion personal[1]
Presentacion personal[1]Presentacion personal[1]
Presentacion personal[1]
 
η ελληνική επανάσταση του 1821 μέσα από την τέχνη
η ελληνική επανάσταση του 1821 μέσα από την τέχνηη ελληνική επανάσταση του 1821 μέσα από την τέχνη
η ελληνική επανάσταση του 1821 μέσα από την τέχνη
 
formato en internet
formato en internetformato en internet
formato en internet
 
ігар случак і футбольныя фанаты беларусі K 1-к-1_футбол па-беларуску!
ігар случак і футбольныя фанаты беларусі K 1-к-1_футбол па-беларуску!ігар случак і футбольныя фанаты беларусі K 1-к-1_футбол па-беларуску!
ігар случак і футбольныя фанаты беларусі K 1-к-1_футбол па-беларуску!
 
Nitretação a plasma fundamentos e aplicações
Nitretação a plasma   fundamentos e aplicaçõesNitretação a plasma   fundamentos e aplicações
Nitretação a plasma fundamentos e aplicações
 
Perbandingan sony experia z dengan samsung galaxy s4 [recovered] okeee
Perbandingan sony experia z dengan samsung galaxy s4 [recovered] okeeePerbandingan sony experia z dengan samsung galaxy s4 [recovered] okeee
Perbandingan sony experia z dengan samsung galaxy s4 [recovered] okeee
 
Fósseis joão santos.pptx
Fósseis joão santos.pptxFósseis joão santos.pptx
Fósseis joão santos.pptx
 
Alimentaosaudvel 120801064114-phpapp02
Alimentaosaudvel 120801064114-phpapp02Alimentaosaudvel 120801064114-phpapp02
Alimentaosaudvel 120801064114-phpapp02
 
Sureprize jest nowym formatem rozrywki w Polsce
Sureprize jest nowym formatem rozrywki w PolsceSureprize jest nowym formatem rozrywki w Polsce
Sureprize jest nowym formatem rozrywki w Polsce
 
Cronograma fisiologia 2013 1
Cronograma fisiologia 2013 1Cronograma fisiologia 2013 1
Cronograma fisiologia 2013 1
 
The Big Picture
The Big PictureThe Big Picture
The Big Picture
 
Studenci: programy studiów są ubogie w edukację praktyczną
Studenci: programy studiów są ubogie w edukację praktycznąStudenci: programy studiów są ubogie w edukację praktyczną
Studenci: programy studiów są ubogie w edukację praktyczną
 
HANDS Disaster management Report
HANDS Disaster management ReportHANDS Disaster management Report
HANDS Disaster management Report
 

More from KVANdagen

Jonge documenten aan hun lot overgelaten
Jonge documenten aan hun lot overgelatenJonge documenten aan hun lot overgelaten
Jonge documenten aan hun lot overgelaten
KVANdagen
 
Erfgoedonderwijs: het archief als bron van beleving en reflectie
Erfgoedonderwijs: het archief als bron van beleving en reflectieErfgoedonderwijs: het archief als bron van beleving en reflectie
Erfgoedonderwijs: het archief als bron van beleving en reflectie
KVANdagen
 
Workshop persoonlijk leiderschap: zelfkennis is kracht
Workshop persoonlijk leiderschap: zelfkennis is krachtWorkshop persoonlijk leiderschap: zelfkennis is kracht
Workshop persoonlijk leiderschap: zelfkennis is kracht
KVANdagen
 
Het hobbelige pad naar duurzame toegankelijkheid van Vlaamse digitale overhei...
Het hobbelige pad naar duurzame toegankelijkheid van Vlaamse digitale overhei...Het hobbelige pad naar duurzame toegankelijkheid van Vlaamse digitale overhei...
Het hobbelige pad naar duurzame toegankelijkheid van Vlaamse digitale overhei...
KVANdagen
 
Werken aan je toekomst
Werken aan je toekomstWerken aan je toekomst
Werken aan je toekomst
KVANdagen
 
Big data x big archives = great opportunities
Big data x big archives = great opportunitiesBig data x big archives = great opportunities
Big data x big archives = great opportunities
KVANdagen
 
Archiefgeschiedenis: wat, waarom, hoe wie?
Archiefgeschiedenis: wat, waarom, hoe wie?Archiefgeschiedenis: wat, waarom, hoe wie?
Archiefgeschiedenis: wat, waarom, hoe wie?
KVANdagen
 
Noord Hollands Archief Architectuur e depot - v2
Noord Hollands Archief Architectuur e depot - v2Noord Hollands Archief Architectuur e depot - v2
Noord Hollands Archief Architectuur e depot - v2
KVANdagen
 
Big Archives, Bigger Websites, Biggest Difference
Big Archives, Bigger Websites, Biggest DifferenceBig Archives, Bigger Websites, Biggest Difference
Big Archives, Bigger Websites, Biggest Difference
KVANdagen
 
20140617 kvan def
20140617 kvan def20140617 kvan def
20140617 kvan def
KVANdagen
 

More from KVANdagen (20)

Jonge documenten aan hun lot overgelaten
Jonge documenten aan hun lot overgelatenJonge documenten aan hun lot overgelaten
Jonge documenten aan hun lot overgelaten
 
Erfgoedonderwijs: het archief als bron van beleving en reflectie
Erfgoedonderwijs: het archief als bron van beleving en reflectieErfgoedonderwijs: het archief als bron van beleving en reflectie
Erfgoedonderwijs: het archief als bron van beleving en reflectie
 
De kracht van open data
De kracht van open dataDe kracht van open data
De kracht van open data
 
Workshop persoonlijk leiderschap: zelfkennis is kracht
Workshop persoonlijk leiderschap: zelfkennis is krachtWorkshop persoonlijk leiderschap: zelfkennis is kracht
Workshop persoonlijk leiderschap: zelfkennis is kracht
 
Eerste hulp bij informatievrijheid- hoe informatievrij ben jij?
Eerste hulp bij informatievrijheid- hoe informatievrij ben jij?Eerste hulp bij informatievrijheid- hoe informatievrij ben jij?
Eerste hulp bij informatievrijheid- hoe informatievrij ben jij?
 
Kracht van archieven de noordelijke lustwarande als resultaat van een nieuw...
Kracht van archieven   de noordelijke lustwarande als resultaat van een nieuw...Kracht van archieven   de noordelijke lustwarande als resultaat van een nieuw...
Kracht van archieven de noordelijke lustwarande als resultaat van een nieuw...
 
Het hobbelige pad naar duurzame toegankelijkheid van Vlaamse digitale overhei...
Het hobbelige pad naar duurzame toegankelijkheid van Vlaamse digitale overhei...Het hobbelige pad naar duurzame toegankelijkheid van Vlaamse digitale overhei...
Het hobbelige pad naar duurzame toegankelijkheid van Vlaamse digitale overhei...
 
The voice in the wilderness? Archivists, their knowledge and the public
The voice in the wilderness? Archivists, their knowledge and the public The voice in the wilderness? Archivists, their knowledge and the public
The voice in the wilderness? Archivists, their knowledge and the public
 
Praktische linked data voor archieven
Praktische linked data voor archievenPraktische linked data voor archieven
Praktische linked data voor archieven
 
Werken aan je toekomst
Werken aan je toekomstWerken aan je toekomst
Werken aan je toekomst
 
Big data x big archives = great opportunities
Big data x big archives = great opportunitiesBig data x big archives = great opportunities
Big data x big archives = great opportunities
 
Informatie is een conceptueel labyrinth
Informatie is een conceptueel labyrinthInformatie is een conceptueel labyrinth
Informatie is een conceptueel labyrinth
 
Archiefgeschiedenis: wat, waarom, hoe wie?
Archiefgeschiedenis: wat, waarom, hoe wie?Archiefgeschiedenis: wat, waarom, hoe wie?
Archiefgeschiedenis: wat, waarom, hoe wie?
 
Rhc eindhoven&promines
Rhc eindhoven&prominesRhc eindhoven&promines
Rhc eindhoven&promines
 
Kvan dagen 2014 nha
Kvan dagen 2014 nhaKvan dagen 2014 nha
Kvan dagen 2014 nha
 
Noord Hollands Archief Architectuur e depot - v2
Noord Hollands Archief Architectuur e depot - v2Noord Hollands Archief Architectuur e depot - v2
Noord Hollands Archief Architectuur e depot - v2
 
Big Archives, Bigger Websites, Biggest Difference
Big Archives, Bigger Websites, Biggest DifferenceBig Archives, Bigger Websites, Biggest Difference
Big Archives, Bigger Websites, Biggest Difference
 
APEx
APExAPEx
APEx
 
20140617 kvan def
20140617 kvan def20140617 kvan def
20140617 kvan def
 
Publiek Geheim
Publiek GeheimPubliek Geheim
Publiek Geheim
 

Humanities and Big Data

Editor's Notes

  1. Henk Wals, sociaal historicus, directeur IISG Eerst even waar ik vandaan kom. Het IISG. Onderzoek naar arbeids en arbeidsverhoudingen, daarvoor sinds 1935 collectie aangelegd. Grotere erfgoed instellingen. Research instituut, archief, bibliotheek tegelijk. Deze combinatie maakt dat we laboratorium kunnen zijn voor nieuwe methodes en technieken, waar onderzoekers, ICT-ers en collecties dicht op elkaar zitten
  2. OK, de GW. Hoe de geesteswetenschap in zijn algemeenheid werkt, de traditionele methode: we leggen ons toe op één puzzelstukje om dat zo goed mogelijk te interpreteren en analyseren. Bijvoorbeeld, we schrijven boeken over het werk van één schilder, de romans van één schrijver, éen historische gebeurtenis, één persoon, of het taalgebruik van één sociale groep. Kleine eenheden. Dat is ook logisch en begrijpelijk, want: Die bouwstenen waarmee wij van oudsher werken (tekst, beeld, geluid, en historische data) waren talrijk en versnipperd. In verschillende bibliotheken en archieven enzovoort. Er is maar zoveel dat je binnen 4 jaar kunt doen. Je kunt maar een beperkte hoeveelheid bronnen tot je nemen. Geesteswetenschappers zijn op zich wel goed in het interpreteren van deze complexe bronnen. Daarvoor zijn we getraind, we kunnen complexe situaties doorzien, we kunnen waardeoordelen geven, daar zijn we goed in.
  3. Waar we tot nu toe nog minder in geslaagd zijn, is om de vragen aan elkaar te knopen, om ze in samenhang te zien. We proberen wel tot algemene conclusies te komen, maar het aantal casussen is altijd beperkt. Grand theories over hoe dingen werken kunnen verschillende kanten op gaan. De een beweert dit, de ander dat. Dat heb je in de natuurkunde toch minder. Dat kon ook niet, want de werkelijkheid is complex, het aantal variabelen is groter. En de bronnen zijn veelvuldig, verspreid en divers. Maar er is wat aan het veranderen. Sinds een kleine tien jaar beschikken we over digitale data: de omvang neemt nu zozeer toe dat we van Big Data moeten spreken. Om deze rijkdom aan materiaal te ontginnen zijn we nieuwe instrumenten gaan ontwikkelen: instrumenten om de data te bevragen op betekenisvolle inhoud. Daarmee veranderen onze werkwijzen en kunnen we vragen op nieuwe manieren beantwoorden.
  4. In de GW staan we voor een methodologische revolutie. Daar wordt verschillend over gedacht. Vooral oudere wetenschappers hechten erg aan de methodes waaraan ze gewend zijn. Er is verzet. Er zijn wetenschappers die er niet zo heel erg in geloven. Dat is hun goed recht. Zelf geloof ik ook dat traditionele methoden waardevol zullen blijven. Maar aan de andere kant vind ik dat we als wetenschappers de plicht hebben onze methoden regelmatig tegen het licht te houden en naar vernieuwing te streven.
  5. Antal van de Bos het vorige week zei op een lezing: wat ICT-gebruik betreft rijden ze bij de beta’s in Ferrari’s, terwijl de GW-ers die IT gebruiken nog in oude VW kevers voortsukkelen. En sommige GW-ers staan nog op de bus te wachten. Toch is die analogie niet helemaal eerlijk, want het is niet alleen acterlijkheid. De data zijn complex, ruizig en efemeer. ICT kon dat nog niet aan. En pas nu komt de informatietechnologie in en ontwikelingsstadium waarin het echt interessant gaat worden. Ik zal een paar voorbeelden geven.
  6. Veel van ons onderzoek komt neer op het analyseren van netwerken. Sociale netwerken van mensen uiteraard, maar ook (versies van) teksten kunnen in een netwerk geplaatst en daardoor begrepen worden. Hetzelfde geldt bijvoorbeeld voor het ontstaan en de verspreiding van nieuwe concepten, of de ontwikkeling van enorme clusters verenigingen, zoals sportclubs of vakbonden. Ook handelsroutes of commodity chains kunnen als een netwerk gezien worden. We willen weten wie of wat de cruciale intermediair is, of wie of wat staat centraal staat in een ontwikkeling. Dat zie je hier: Republic of Letters. Er zijn veel netwerktools beschikbaar, maar het gebruik in de geesteswetenschappen is nog beperkt vanwege de mathematische complexiteit van de datamodellen. Bovendien doen deze modellen nog onvoldoende recht aan de complexiteit van de werkelijkheid. Het zou ons onderzoek echter aanzienlijk kunnen helpen indien we over een voor geesteswetenschappelijke netwerkanalyse geschikt instrumentarium zouden beschikken.
  7. Wat je zag was een visualisatie, Hier is er nog een, een word cloud. De kracht van visualisatie ligt in de mogelijkheid om inzichten te verschaffen die anders niet vanzelfsprekend tot ons zouden zijn gekomen. In het computertijdperk zijn visualisatietechnieken onontbeerlijk bij grote databestanden, omdat mensen daarin de patronen niet met het oog kunnen herkennen. Maar ook hier staan we slechts aan het begin van de mogelijkheden. De techniek is nog onvolmaakt. Hele grote datasets kan men nog niet aan een snelle, gebruiksvriendelijke interactieve raadpleging onderwerpen.
  8. Het leeuwendeel van ons onderzoek is gebaseerd op tekstuele bronnen. De toename van de hoeveelheid gedigitaliseerde tekst én die van beschikbare computerkracht bieden grote mogelijkheden dit onderzoek. Op dit moment is het mogelijk om analyses te doen op basis van woordfrequenties en patroonherkenning. We kunnen – mits de bronnen niet te complex zijn – gestructureerde informatie afleiden uit ongestructureerde tekst (information extraction). We kunnen verborgen verbanden ontdekken in grote hoeveelheden data (association analysis). Technieken variëren van puur statistische methoden als het meten van woordfrequenties tot methoden gebaseerd op natural language processing, zoals named entity recognition, event detection en sentiment analysis. In het algemeen zou kunnen worden gesteld dat we in staat zijn geautomatiseerde distant reading toe te passen die het mogelijk maakt in grote hoeveelheden tekst en data onderdelen te vinden die voor ons doel de moeite van close reading waard zijn. We staan echter slechts aan het begin van de ontwikkeling en er is nog heel veel winst te behalen. Digitale teksten bevinden zich overal op het web, ongelinkt en vaak niet compatibel. De analysetechnieken die we gebruiken zijn nog tamelijk oppervlakkig en niet in staat om betekenis te geven aan de inhoud, de opbouw en structuur van zinnen te begrijpen, of goed om te gaan met verbuigingen van woorden. Met name oudere teksten leveren nog altijd grote problemen op. Wat we inschatten, is dat we binnen enkele jaren in staat zullen zijn meer betekenisvolle analyses te doen door toepassing van computers met een grotere grammatische en semantische intelligentie, zou dit ons historisch, letterkundig, taalkundig en cultureel onderzoek flink vooruit kunnen helpen. Databases die nu met veel inspanning handmatig worden aangelegd, zouden semi-automatisch gegenereerd kunnen worden. We zouden onvermoede verbanden (bijvoorbeeld tussen gebeurtenissen) in grote hoeveelheden data kunnen ontdekken, grip kunnen krijgen op stemmingen en gevoelens in bepaalde tijdperken, of veranderingen in taalgebruik kunnen verbinden met culturele ontwikkelingen. Omdat oneindig veel meer bronnen in het onderzoek kunnen worden betrokken, zal hun bewijskracht voor interpretaties door geesteswetenschappers toenemen. De resultaten worden kortom “harder”.
  9. Er komt steeds meer data en digitale tekst beschikbaar, er worden steeds meer instrumenten ontwikkeld, zoals die waarover ik vertelde. Dan is de volgende vraag: hoe maak je die toegankelijk voor onderzoek. Binnen de GW hebben taalkundigen en sociaal-economisch historici al belangrijke stappen gezet. Zij hebben infratsructuren gebouwd als de HSN, Clarin, NederLab en CLIO-Infra. Nu moeten we de volgende stap zetten.
  10. Nu moeten we de volgende stap zetten. Al die tools en data uit die verschillende initiatieven moeten in elkaar passen en onze instrumenten moeten met elkaar kunnen praten. Daarom hebben we een veel grotere infrastructuur nodig dan voorheen. Dat wordt CLARIAH. Consortium 40 instellingen hebben aanvraag ingediend bij NWO roadmap grote research infrastructuren 18 miljoen. 3 KNAW-instituten, B&G, de UvA, UvU en de VU zijn de belangrijkste partners. Huygens, Meertens en IISG beheerders. Deze instituten gaan binnen de KNAW nauw samenwerken, want om dit soort geavanceerde dingen te kunnen doen, heb je massa en schaal nodig. Je moet economies of scale en expertise bereiken. 1 juli wordt bekend gemaakt door staatssecretaris Sander Dekker wie er in de prijzen gevallen zijn. Als we CLARIAH kunnen bouwen is dat een enorme stap vooruit voor de GW in Nederland.
  11. Als we dit verbinden met de toekomst van het archiefwezen, dan is er vanuit het onderzoek één grote wens: we hebben machineleesbare tekst nodig. Dat is met oudere archiefstukken nog een lastige opgave. Handmatig transcriberen is op dit moment nog de enige methode die écht werkt. Het zou echter best kunnen zijn dat OCR-technieken zover doorontwikkeld kunnen worden dat ook manuscripten te scannen zijn. Maar we krijgen straks natuurlijk massa’s digitally born archieven binnen en daarvan zou het natuurlijk mooi zijn als deze via een onderzoeksinfrastructuur als CLARIAH beschikbaar kunnen komen voor onderzoek.
  12. CLARIAH site visit in februariAuke Rijpma – CLIO INFRA Postdoctoral researcher Universiteit van Utrecht Nicolien van der Sijs - Nederlab Onderzoeker variatielinguïstiek Meertens Instituut Jasmijn Van Gorp - TROVE Senior onderzoeker Mediastudies Universiteit Amsterdam Afelonne Doek – HiTiME Adjunct-directeur Collecties en Digitale Infrastructuur IISG