SlideShare a Scribd company logo
1 of 13
Download to read offline
Archivering van Nederlandstalige tweets:
de website twiqs.nl
Erik Tjong Kim Sang
Hilversum, 11 oktober 2018
Geschiedenis van ons archief met tweets
Sinds eind 2010 verzamelen wij Nederlandstalige tweets
voor wetenschappelijk onderzoek
We zoeken in alle nieuwe tweets naar woorden die uniek
zijn voor het Nederlands en slaan de tweets met deze
woorden op
Vanaf 2013 zijn de tweets voor iedereen doorzoekbaar op
de website twiqs.nl
Hoe selecteren we de tweets?
Tweets worden gekozen op vier manieren:
1. via een zoekwoordenlijst van 229 Nederlandse woorden
2. met een lijst van 5000 veelschrijvers op Twitter
3. door geografische selectie: Nederland, Vlaanderen,
Suriname en de voormalige Nederlandse Antillen
4. via een lijst met 49 dialectwoorden
Statistieken
Sinds eind 2010 hebben we 3,6 miljard Nederlandstalige
tweets verzameld
Er zijn tientallen wetenschappelijke publicaties die naar
de tweetcollectie verwijzen
De website wordt per dag door ongeveer 50 unieke
ip-adressen bezocht
Aantallen verzamelde tweets per maand
Screenshot twiqs.nl
Zoekmogelijkheden op twiqs.nl
Via de website kunnen 7 aspecten van tweets over een bepaald
onderwerp worden bekeken:
1. Grafiek percentages tweets gedurende een bepaalde tijd
2. Kaart verzendpositie tweets
3. Frequente woorden in tweets
4. Frequente gebruikers
5. Kenmerken van de gebruikers: geslacht en leeftijd
6. Gemiddeld geschat sentiment van de tweets
7. Ids van de tweets
Restricties op het verspreiden van tweets
Twitter staat niet toe dat verzamelde tweets
worden gedeeld met derden
Wel mogen de ids van tweets worden verspreid
Op twiqs.nl zijn de ids van gevonden tweets en de bijbehorende
gebruiker te vinden
Hiermee kan op Twitter de tekst van de tweet worden gevonden
Onderzoeksvoorbeeld: de Nederlandse taal
Ton van der Wouden onderzoekt het gebruik van partikels: kleine
inhoudsloze woorden
Voorbeeldzin: Je wil zeker wel iets te drinken, hè?
Er is regionale variatie in het gebruik van partikels
Bijvoorbeeld: alweer versus weeral
Onderzoeksvoorbeeld: Nederlandse taal
alweer weeral
Onderzoeksvoorbeeld: Provinciale Statenverkiezingen 2011 (Nederland)
In 2011 voorspelden Erik Tjong Kim Sang en Johan Bos de
Provinciale Statenverkiezingen aan de hand van 1 week tweets
Die week werden 15 miljoen Nederlandstalige tweets verstuurd
Dat waren er te weinig om resultaten per provincie te voorspellen
Daarom hebben ze de resultaten van de verwante landelijke
Eerste Kamerverkiezingen voorspeld
Onderzoeksvoorbeeld: Provinciale Statenverkiezingen (Nederland)
Partij Uitslag Politieke Barometer Maurice de Hond Twitter
VVD 16 14 16 14
PvdA 14 12 11 16
CDA 11 9 9 8
PVV 10 11 12 10
SP 8 9 9 6
D66 5 7 5 8
GL 5 4 4 3
CU 2 3 3 3
50+ 1 2 2 2
SGP 1 2 2 2
PvdD 1 1 2 2
OSF 1 1 0 1
Afwijking: 14 14 18
Conclusies
We presenteerden de website twiqs.nl
De website ontsluit een verzameling historische
Nederlandstalige tweets
De tweets zijn gebruikt in divers wetenschappelijk onderzoek

More Related Content

More from Netwerk Digitaal Erfgoed

Maureen Pennock: Digital Preservation Staffing and Skilss
Maureen Pennock: Digital Preservation Staffing and SkilssMaureen Pennock: Digital Preservation Staffing and Skilss
Maureen Pennock: Digital Preservation Staffing and SkilssNetwerk Digitaal Erfgoed
 
Jasper Snoeren: Collaborative Learning at Institute for Sound and Vision
Jasper Snoeren: Collaborative Learning at Institute for Sound and VisionJasper Snoeren: Collaborative Learning at Institute for Sound and Vision
Jasper Snoeren: Collaborative Learning at Institute for Sound and VisionNetwerk Digitaal Erfgoed
 
Frans Neggers: Learning Digital Preservation
Frans Neggers: Learning Digital PreservationFrans Neggers: Learning Digital Preservation
Frans Neggers: Learning Digital PreservationNetwerk Digitaal Erfgoed
 
Eef Masson: Digital Preservation Skills for AV Archivists
Eef Masson: Digital Preservation Skills for AV ArchivistsEef Masson: Digital Preservation Skills for AV Archivists
Eef Masson: Digital Preservation Skills for AV ArchivistsNetwerk Digitaal Erfgoed
 
Dorothy Waugh: The Archivist's Guide To KryoFlux
Dorothy Waugh: The Archivist's Guide To KryoFluxDorothy Waugh: The Archivist's Guide To KryoFlux
Dorothy Waugh: The Archivist's Guide To KryoFluxNetwerk Digitaal Erfgoed
 
Chantal Keijsper: Lifelong Learning How To Do That
Chantal Keijsper: Lifelong Learning How To Do ThatChantal Keijsper: Lifelong Learning How To Do That
Chantal Keijsper: Lifelong Learning How To Do ThatNetwerk Digitaal Erfgoed
 
Annet Dekker: Capturing Online Cultures Storytelling as a Method
Annet Dekker: Capturing Online Cultures Storytelling as a MethodAnnet Dekker: Capturing Online Cultures Storytelling as a Method
Annet Dekker: Capturing Online Cultures Storytelling as a MethodNetwerk Digitaal Erfgoed
 
Amber Cushing: Digital Information Management Programmes
Amber Cushing: Digital Information Management ProgrammesAmber Cushing: Digital Information Management Programmes
Amber Cushing: Digital Information Management ProgrammesNetwerk Digitaal Erfgoed
 
3e Studiedag Webarchivering - Webarchivering van Chinees Nederland
3e Studiedag Webarchivering - Webarchivering van Chinees Nederland3e Studiedag Webarchivering - Webarchivering van Chinees Nederland
3e Studiedag Webarchivering - Webarchivering van Chinees NederlandNetwerk Digitaal Erfgoed
 
3e Studiedag Webarchivering - Taalvariatie op Twitter
3e Studiedag Webarchivering - Taalvariatie op Twitter3e Studiedag Webarchivering - Taalvariatie op Twitter
3e Studiedag Webarchivering - Taalvariatie op TwitterNetwerk Digitaal Erfgoed
 
3e Studiedag Webarchivering - Vrienden voor het leven
3e Studiedag Webarchivering - Vrienden voor het leven3e Studiedag Webarchivering - Vrienden voor het leven
3e Studiedag Webarchivering - Vrienden voor het levenNetwerk Digitaal Erfgoed
 
3e Studiedag Webarchivering - Website en social media archivering op het IISG
3e Studiedag Webarchivering - Website en social media archivering op het IISG3e Studiedag Webarchivering - Website en social media archivering op het IISG
3e Studiedag Webarchivering - Website en social media archivering op het IISGNetwerk Digitaal Erfgoed
 
3e Studiedag Webarchivering - Richtlijn websitearchivering | nationaal archief
3e Studiedag Webarchivering - Richtlijn websitearchivering | nationaal archief3e Studiedag Webarchivering - Richtlijn websitearchivering | nationaal archief
3e Studiedag Webarchivering - Richtlijn websitearchivering | nationaal archiefNetwerk Digitaal Erfgoed
 
3e Studiedag Webarchivering - Intro slides
3e Studiedag Webarchivering - Intro slides3e Studiedag Webarchivering - Intro slides
3e Studiedag Webarchivering - Intro slidesNetwerk Digitaal Erfgoed
 
Remco van Veenendaal (Nationaal Archief) = persistent identifiers
Remco van Veenendaal (Nationaal Archief) = persistent identifiersRemco van Veenendaal (Nationaal Archief) = persistent identifiers
Remco van Veenendaal (Nationaal Archief) = persistent identifiersNetwerk Digitaal Erfgoed
 
Marcel Ras - Duurzaam toegankelijke erfgoedcollecties
Marcel Ras - Duurzaam toegankelijke erfgoedcollectiesMarcel Ras - Duurzaam toegankelijke erfgoedcollecties
Marcel Ras - Duurzaam toegankelijke erfgoedcollectiesNetwerk Digitaal Erfgoed
 
Richard van Alphen - The museum system & persistent identifiers
Richard van Alphen - The museum system & persistent identifiersRichard van Alphen - The museum system & persistent identifiers
Richard van Alphen - The museum system & persistent identifiersNetwerk Digitaal Erfgoed
 

More from Netwerk Digitaal Erfgoed (20)

Maureen Pennock: Digital Preservation Staffing and Skilss
Maureen Pennock: Digital Preservation Staffing and SkilssMaureen Pennock: Digital Preservation Staffing and Skilss
Maureen Pennock: Digital Preservation Staffing and Skilss
 
Jasper Snoeren: Collaborative Learning at Institute for Sound and Vision
Jasper Snoeren: Collaborative Learning at Institute for Sound and VisionJasper Snoeren: Collaborative Learning at Institute for Sound and Vision
Jasper Snoeren: Collaborative Learning at Institute for Sound and Vision
 
Frans Neggers: Learning Digital Preservation
Frans Neggers: Learning Digital PreservationFrans Neggers: Learning Digital Preservation
Frans Neggers: Learning Digital Preservation
 
Eef Masson: Digital Preservation Skills for AV Archivists
Eef Masson: Digital Preservation Skills for AV ArchivistsEef Masson: Digital Preservation Skills for AV Archivists
Eef Masson: Digital Preservation Skills for AV Archivists
 
Dorothy Waugh: The Archivist's Guide To KryoFlux
Dorothy Waugh: The Archivist's Guide To KryoFluxDorothy Waugh: The Archivist's Guide To KryoFlux
Dorothy Waugh: The Archivist's Guide To KryoFlux
 
Chantal Keijsper: Lifelong Learning How To Do That
Chantal Keijsper: Lifelong Learning How To Do ThatChantal Keijsper: Lifelong Learning How To Do That
Chantal Keijsper: Lifelong Learning How To Do That
 
Annet Dekker: Capturing Online Cultures Storytelling as a Method
Annet Dekker: Capturing Online Cultures Storytelling as a MethodAnnet Dekker: Capturing Online Cultures Storytelling as a Method
Annet Dekker: Capturing Online Cultures Storytelling as a Method
 
Amber Cushing: Digital Information Management Programmes
Amber Cushing: Digital Information Management ProgrammesAmber Cushing: Digital Information Management Programmes
Amber Cushing: Digital Information Management Programmes
 
3e Studiedag Webarchivering - Webarchivering van Chinees Nederland
3e Studiedag Webarchivering - Webarchivering van Chinees Nederland3e Studiedag Webarchivering - Webarchivering van Chinees Nederland
3e Studiedag Webarchivering - Webarchivering van Chinees Nederland
 
3e Studiedag Webarchivering - Taalvariatie op Twitter
3e Studiedag Webarchivering - Taalvariatie op Twitter3e Studiedag Webarchivering - Taalvariatie op Twitter
3e Studiedag Webarchivering - Taalvariatie op Twitter
 
3e Studiedag Webarchivering - Promise
3e Studiedag Webarchivering - Promise3e Studiedag Webarchivering - Promise
3e Studiedag Webarchivering - Promise
 
3e Studiedag Webarchivering - Vrienden voor het leven
3e Studiedag Webarchivering - Vrienden voor het leven3e Studiedag Webarchivering - Vrienden voor het leven
3e Studiedag Webarchivering - Vrienden voor het leven
 
3e Studiedag Webarchivering - Website en social media archivering op het IISG
3e Studiedag Webarchivering - Website en social media archivering op het IISG3e Studiedag Webarchivering - Website en social media archivering op het IISG
3e Studiedag Webarchivering - Website en social media archivering op het IISG
 
3e Studiedag Webarchivering - Richtlijn websitearchivering | nationaal archief
3e Studiedag Webarchivering - Richtlijn websitearchivering | nationaal archief3e Studiedag Webarchivering - Richtlijn websitearchivering | nationaal archief
3e Studiedag Webarchivering - Richtlijn websitearchivering | nationaal archief
 
3e Studiedag Webarchivering - Intro slides
3e Studiedag Webarchivering - Intro slides3e Studiedag Webarchivering - Intro slides
3e Studiedag Webarchivering - Intro slides
 
Remco van Veenendaal (Nationaal Archief) = persistent identifiers
Remco van Veenendaal (Nationaal Archief) = persistent identifiersRemco van Veenendaal (Nationaal Archief) = persistent identifiers
Remco van Veenendaal (Nationaal Archief) = persistent identifiers
 
Sjors de Valk = Linked Open Data
Sjors de Valk = Linked Open DataSjors de Valk = Linked Open Data
Sjors de Valk = Linked Open Data
 
Eric van Balkum - Muziekschatten
Eric van Balkum - MuziekschattenEric van Balkum - Muziekschatten
Eric van Balkum - Muziekschatten
 
Marcel Ras - Duurzaam toegankelijke erfgoedcollecties
Marcel Ras - Duurzaam toegankelijke erfgoedcollectiesMarcel Ras - Duurzaam toegankelijke erfgoedcollecties
Marcel Ras - Duurzaam toegankelijke erfgoedcollecties
 
Richard van Alphen - The museum system & persistent identifiers
Richard van Alphen - The museum system & persistent identifiersRichard van Alphen - The museum system & persistent identifiers
Richard van Alphen - The museum system & persistent identifiers
 

3e Studiedag Webarchivering - Archivering van Nederlandstalige tweets

  • 1. Archivering van Nederlandstalige tweets: de website twiqs.nl Erik Tjong Kim Sang Hilversum, 11 oktober 2018
  • 2. Geschiedenis van ons archief met tweets Sinds eind 2010 verzamelen wij Nederlandstalige tweets voor wetenschappelijk onderzoek We zoeken in alle nieuwe tweets naar woorden die uniek zijn voor het Nederlands en slaan de tweets met deze woorden op Vanaf 2013 zijn de tweets voor iedereen doorzoekbaar op de website twiqs.nl
  • 3. Hoe selecteren we de tweets? Tweets worden gekozen op vier manieren: 1. via een zoekwoordenlijst van 229 Nederlandse woorden 2. met een lijst van 5000 veelschrijvers op Twitter 3. door geografische selectie: Nederland, Vlaanderen, Suriname en de voormalige Nederlandse Antillen 4. via een lijst met 49 dialectwoorden
  • 4. Statistieken Sinds eind 2010 hebben we 3,6 miljard Nederlandstalige tweets verzameld Er zijn tientallen wetenschappelijke publicaties die naar de tweetcollectie verwijzen De website wordt per dag door ongeveer 50 unieke ip-adressen bezocht
  • 7. Zoekmogelijkheden op twiqs.nl Via de website kunnen 7 aspecten van tweets over een bepaald onderwerp worden bekeken: 1. Grafiek percentages tweets gedurende een bepaalde tijd 2. Kaart verzendpositie tweets 3. Frequente woorden in tweets 4. Frequente gebruikers 5. Kenmerken van de gebruikers: geslacht en leeftijd 6. Gemiddeld geschat sentiment van de tweets 7. Ids van de tweets
  • 8. Restricties op het verspreiden van tweets Twitter staat niet toe dat verzamelde tweets worden gedeeld met derden Wel mogen de ids van tweets worden verspreid Op twiqs.nl zijn de ids van gevonden tweets en de bijbehorende gebruiker te vinden Hiermee kan op Twitter de tekst van de tweet worden gevonden
  • 9. Onderzoeksvoorbeeld: de Nederlandse taal Ton van der Wouden onderzoekt het gebruik van partikels: kleine inhoudsloze woorden Voorbeeldzin: Je wil zeker wel iets te drinken, hè? Er is regionale variatie in het gebruik van partikels Bijvoorbeeld: alweer versus weeral
  • 11. Onderzoeksvoorbeeld: Provinciale Statenverkiezingen 2011 (Nederland) In 2011 voorspelden Erik Tjong Kim Sang en Johan Bos de Provinciale Statenverkiezingen aan de hand van 1 week tweets Die week werden 15 miljoen Nederlandstalige tweets verstuurd Dat waren er te weinig om resultaten per provincie te voorspellen Daarom hebben ze de resultaten van de verwante landelijke Eerste Kamerverkiezingen voorspeld
  • 12. Onderzoeksvoorbeeld: Provinciale Statenverkiezingen (Nederland) Partij Uitslag Politieke Barometer Maurice de Hond Twitter VVD 16 14 16 14 PvdA 14 12 11 16 CDA 11 9 9 8 PVV 10 11 12 10 SP 8 9 9 6 D66 5 7 5 8 GL 5 4 4 3 CU 2 3 3 3 50+ 1 2 2 2 SGP 1 2 2 2 PvdD 1 1 2 2 OSF 1 1 0 1 Afwijking: 14 14 18
  • 13. Conclusies We presenteerden de website twiqs.nl De website ontsluit een verzameling historische Nederlandstalige tweets De tweets zijn gebruikt in divers wetenschappelijk onderzoek