Gosse Bouma (Rijksuniversiteit Groningen) sprak tijdens een van de parallelsessies over: "Ik is niet meer het meest gebruikte woord op Twitter: Gebruikers en Taalvariatie in Nederlandstalige tweets."
3e Studiedag Webarchivering - Website en social media archivering op het IISG
3e Studiedag Webarchivering - Taalvariatie op Twitter
1. Taalvariatie Trends Gebruikers
Gebruikers en taalvariatie op Twitter
Ik is niet langer het meest gebruikte woord op Twitter
Gosse Bouma
Informatiekunde
Rijksuniversiteit Groningen
Het web gearchiveerd
11 oktober 2018
Met dank aan Mostafa Abdou en Martijn Wieling
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 1/24
2. Taalvariatie Trends Gebruikers
Het liefst heb ik een meisje die eerlijk is met me
dan tien matties die je snitchen
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 2/24
3. Taalvariatie Trends Gebruikers
Het liefst heb ik een meisje die eerlijk is met me
dan tien matties die je snitchen
Taalgebruik op Social Media
Hoe verschilt taalgebruik op Twitter van standaard Nederlands?
Varieert taalgebruik op Twitter met leeftijd, geslacht, regio?
Trends in taalgebruik
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 2/24
4. Taalvariatie Trends Gebruikers
Waarom Twitter?
Twitter API
Twitter is open
Twitter API staat toe dat je automatisch grote hoeveelheden
informatie verzamelt
Tweets bevatten veel meta-data
screenname, tijd, profiel, (locatie), taal, retweet, antwoord op,
volgers, volgend, actief sinds, ....
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 3/24
5. Taalvariatie Trends Gebruikers
Waarom Twitter?
Twitter API
Twitter is open
Twitter API staat toe dat je automatisch grote hoeveelheden
informatie verzamelt
Tweets bevatten veel meta-data
screenname, tijd, profiel, (locatie), taal, retweet, antwoord op,
volgers, volgend, actief sinds, ....
Verzamel zoveel mogelijk Nederlandstalige tweets
Lijst met 100+ Nederlandse woorden
Verzamel (alle) tweets met één van deze woorden...
40-50% van alle Nederlandstalige tweets
Big data: 2011-2016: ruim 3 miljard tweets
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 3/24
10. Taalvariatie Trends Gebruikers
’der’
ik ga der geld geven voor der verjaardag Mag je der vaseline
opdoen ?
der vs van der
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 7/24
12. Taalvariatie Trends Gebruikers
ik
Tjong Kim Sang (2011): ik is het meest gebruikte woord op
Twitter
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 9/24
13. Taalvariatie Trends Gebruikers
ik
Tjong Kim Sang (2011): ik is het meest gebruikte woord op
Twitter
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 9/24
14. Taalvariatie Trends Gebruikers
ik
Tjong Kim Sang (2011): ik is het meest gebruikte woord op
Twitter
Mark Liberman (language log): frequentie van ’the’ neemt af, en
dit is een teken dat het Engels minder formeel wordt
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 9/24
17. Taalvariatie Trends Gebruikers
Wie zijn actief op Twitter?
Populatie is dynamisch
Om taalverandering in beeld te brengen moet de populatie niet
veranderen in de loop der tijd
Gebalanceerd Corpus
Maak een corpus waar de volgende verhouding constant is:
man/vrouw
jong/oud
regio (per provincie)
en waarin geen organisaties, bots, spammers voorkomen
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 12/24
18. Taalvariatie Trends Gebruikers
Automatische classificatie van gebruikers
Wat weten we van gebruikers?
laura1995 → vrouw, geboren in 1995
Ong. 3% van de tweets heeft geo-locatie
(Ong. 40% van de gebruikers geeft een locatie op in zijn/haar
profiel)
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 13/24
19. Taalvariatie Trends Gebruikers
Automatische classificatie van gebruikers
Wat weten we van gebruikers?
laura1995 → vrouw, geboren in 1995
Ong. 3% van de tweets heeft geo-locatie
(Ong. 40% van de gebruikers geeft een locatie op in zijn/haar
profiel)
Machine Learning!
Gebruik deze data als training voor een classifier die op basis
van de tekst van een tweet geslacht, leeftijd, provincie van de
gebruiker voorspelt
Classificeer de rest van de data automatisch
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 13/24
20. Taalvariatie Trends Gebruikers
Accuratesse van de classifier
Fasttext (bag-of-words model + word embeddings,
feed-forward network)
Tussen de 10.000 (age) en 830.000 (gender) tweets gebruikt
voor training
Model Recall Precision F1 Size
Gender 0.968 0.969 0.968 820,207
Age 0.648 0.696 0.669 10,000
Location 0.738 0.773 0.753 377,088
Type 0.821 0.819 0.814 316,020
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 14/24
25. Taalvariatie Trends Gebruikers
Gebalanceerd Corpus
Gender per periode
Man Vrouw
50 50
Leeftijd per periode
1950-60 60-70 70-80 80-90 90-00
1.9 7.5 40.7 34.2 15.6
Provincie per periode
FR GR DR NH OV FL UT GE ZH ZE NB LI
0.9 1.5 0.4 34.4 2.8 0.1 9.2 14.1 20.2 0.2 13.8 2.3
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 19/24
26. Taalvariatie Trends Gebruikers
Trending: Woorden waarvan de frequentie het
sterkst toeneemt
Fascist Intimidatie ism Westerse Financiering
Kloof Nicer Subsidies Religieuze Verkiezingen
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 20/24
27. Taalvariatie Trends Gebruikers
Nogmaals Ik
Rangschik woorden op frequentie, op welke positie staat ik, de?
Rang
ik de
2011 1 11
2012 6 8
2013 5 8
2014 8 5
2015 15 4
2016 15 4
2017 17 4
Top 20 2017
30.872.383 : 11.2429.67 het
27.461.712 . 10.540.351 is
21.900.331 RT 9.466.746 op
19.595.682 de 8.901.943 !
16.423.227 , 8.554.912 je
14.175.335 een 8.406.002 voor
12.997.463 van 8.344.404 ik
12.050.125 in 7.127.853 ?
11.8494.86 ♥ 7.030.642 niet
11.627.647 en 6.871.650 dat
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 21/24
28. Taalvariatie Trends Gebruikers
Taalvariatie in Tweets in Europa (Hovy et al, te
verschijnen)
Geo-coded tweets
Tel woorden per locatie
Representeer locatie als een
embedding (vector met 100
dimensies)
Bereken afstand tussen vectoren
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 22/24
29. Taalvariatie Trends Gebruikers
Issue: hoe accuraat is voorspelde locatie?
Provincie gebalanceerd
FR GR DR NH OV FL UT GE ZH ZE NB LI
0.9 1.5 0.4 34.4 2.8 0.1 9.2 14.1 20.2 0.2 13.8 2.3
Provincie in 27.8 M geolocated, geocoded, tweets (2012-2014)
2.766.997 Gelderland 728.743 Drenthe
1.779.653 Noord-Holland 466.994 Zuid-Holland
1.625.670 Brabant 457.815 Zeeland
1.276.483 North Holland 388.032 Groningen
1.098.538 Friesland 373.029 Noord-Brabant
1.023.514 Limburg 307.239 Overijssel
1.023.488 North Brabant 227.921 South Holland
812.892 Utrecht 89.434 Flevoland
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 23/24
30. Taalvariatie Trends Gebruikers
Conclusies
Data
Twitter-data vormt een groot en dynamisch corpus van spontaan
taalgebruik
Onderzoek naar variatie vereist inzicht in gebruikers
Open vraag: hoe controleer je voor opleidingsniveau?
Mogelijke toepassingen
Mannentaal vs vrouwentaal
Zijn mannen of vrouwen trendsetters?
Welke jongerentaal wordt wanneer door ouderen overgenomen?
Hoe verspreiden woorden zich?
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 24/24