SlideShare a Scribd company logo
1 of 30
Download to read offline
Taalvariatie Trends Gebruikers
Gebruikers en taalvariatie op Twitter
Ik is niet langer het meest gebruikte woord op Twitter
Gosse Bouma
Informatiekunde
Rijksuniversiteit Groningen
Het web gearchiveerd
11 oktober 2018
Met dank aan Mostafa Abdou en Martijn Wieling
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 1/24
Taalvariatie Trends Gebruikers
Het liefst heb ik een meisje die eerlijk is met me
dan tien matties die je snitchen
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 2/24
Taalvariatie Trends Gebruikers
Het liefst heb ik een meisje die eerlijk is met me
dan tien matties die je snitchen
Taalgebruik op Social Media
Hoe verschilt taalgebruik op Twitter van standaard Nederlands?
Varieert taalgebruik op Twitter met leeftijd, geslacht, regio?
Trends in taalgebruik
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 2/24
Taalvariatie Trends Gebruikers
Waarom Twitter?
Twitter API
Twitter is open
Twitter API staat toe dat je automatisch grote hoeveelheden
informatie verzamelt
Tweets bevatten veel meta-data
screenname, tijd, profiel, (locatie), taal, retweet, antwoord op,
volgers, volgend, actief sinds, ....
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 3/24
Taalvariatie Trends Gebruikers
Waarom Twitter?
Twitter API
Twitter is open
Twitter API staat toe dat je automatisch grote hoeveelheden
informatie verzamelt
Tweets bevatten veel meta-data
screenname, tijd, profiel, (locatie), taal, retweet, antwoord op,
volgers, volgend, actief sinds, ....
Verzamel zoveel mogelijk Nederlandstalige tweets
Lijst met 100+ Nederlandse woorden
Verzamel (alle) tweets met één van deze woorden...
40-50% van alle Nederlandstalige tweets
Big data: 2011-2016: ruim 3 miljard tweets
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 3/24
Taalvariatie Trends Gebruikers
Taaltrends in Twitter-data
www.let.rug.nl/gosse/Ngrams/trends.html
Vergelijk trends
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 4/24
Taalvariatie Trends Gebruikers
wat hun kunnen kan ik ook
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 5/24
Taalvariatie Trends Gebruikers
wat hun kunnen kan ik ook
hun hebben
ze hebben
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 5/24
Taalvariatie Trends Gebruikers
Taalverandering?
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
1980 1985 1990 1995 2000
12345678
Birthyear
%Hun
hun hebben
ze hebben
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 6/24
Taalvariatie Trends Gebruikers
’der’
ik ga der geld geven voor der verjaardag Mag je der vaseline
opdoen ?
der vs van der
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 7/24
Taalvariatie Trends Gebruikers
dus
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 8/24
Taalvariatie Trends Gebruikers
ik
Tjong Kim Sang (2011): ik is het meest gebruikte woord op
Twitter
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 9/24
Taalvariatie Trends Gebruikers
ik
Tjong Kim Sang (2011): ik is het meest gebruikte woord op
Twitter
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 9/24
Taalvariatie Trends Gebruikers
ik
Tjong Kim Sang (2011): ik is het meest gebruikte woord op
Twitter
Mark Liberman (language log): frequentie van ’the’ neemt af, en
dit is een teken dat het Engels minder formeel wordt
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 9/24
Taalvariatie Trends Gebruikers
Spelfouten nemen af...
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 10/24
Taalvariatie Trends Gebruikers
Omdat de populatie van twitteraars verandert
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 11/24
Taalvariatie Trends Gebruikers
Wie zijn actief op Twitter?
Populatie is dynamisch
Om taalverandering in beeld te brengen moet de populatie niet
veranderen in de loop der tijd
Gebalanceerd Corpus
Maak een corpus waar de volgende verhouding constant is:
man/vrouw
jong/oud
regio (per provincie)
en waarin geen organisaties, bots, spammers voorkomen
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 12/24
Taalvariatie Trends Gebruikers
Automatische classificatie van gebruikers
Wat weten we van gebruikers?
laura1995 → vrouw, geboren in 1995
Ong. 3% van de tweets heeft geo-locatie
(Ong. 40% van de gebruikers geeft een locatie op in zijn/haar
profiel)
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 13/24
Taalvariatie Trends Gebruikers
Automatische classificatie van gebruikers
Wat weten we van gebruikers?
laura1995 → vrouw, geboren in 1995
Ong. 3% van de tweets heeft geo-locatie
(Ong. 40% van de gebruikers geeft een locatie op in zijn/haar
profiel)
Machine Learning!
Gebruik deze data als training voor een classifier die op basis
van de tekst van een tweet geslacht, leeftijd, provincie van de
gebruiker voorspelt
Classificeer de rest van de data automatisch
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 13/24
Taalvariatie Trends Gebruikers
Accuratesse van de classifier
Fasttext (bag-of-words model + word embeddings,
feed-forward network)
Tussen de 10.000 (age) en 830.000 (gender) tweets gebruikt
voor training
Model Recall Precision F1 Size
Gender 0.968 0.969 0.968 820,207
Age 0.648 0.696 0.669 10,000
Location 0.738 0.773 0.753 377,088
Type 0.821 0.819 0.814 316,020
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 14/24
Taalvariatie Trends Gebruikers
Org/Bot/Spam vs Mens
Type 2011 2012 2013 2014 2015 2016 2017
Tweets (milj) 26.7 261.7 245.0 215.6 207.3 243.5 216.5
% Bot/Org/Spam 17.7 21.4 20.9 27.8 37.2 33.5 31.0
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 15/24
Taalvariatie Trends Gebruikers
Geslacht
Gender 2011 2012 2013 2014 2015 2016 2017
Tweets (milj) 26.7 261.7 244.9 214.7 197.4 243.5 215.4
% Female 47.5 47.6 52.3 48.1 44.7 52.0 47.5
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 16/24
Taalvariatie Trends Gebruikers
Leeftijd
Leeftijd (%) 2011 2012 2013 2014 2015 2016 2017
1950-1960 0.8 0.6 0.6 1.5 2.7 3.9 5.1
1960-1970 4.8 5.7 5.2 8.3 11.4 13.4 15.8
1970-1980 46.0 41.3 40.4 46.0 43.1 41.1 38.6
1980-1990 33.7 35.2 36.3 33.9 30.5 29.6 26.9
1990-2000 14.2 16.4 17.2 13.1 10.9 11.5 13.4
Tweets (milj) 26.7 261.7 244.9 214.7 197.4 243.5 215.4
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 17/24
Taalvariatie Trends Gebruikers
Locatie
in M tweets 2011 2012 2013 2014 2015 2016 2017
North Holland 8.6 86.1 79.7 70.6 20.3 24.6 23.2
South Holland 5.3 55.5 50.7 42.7 11.2 13.2 12.2
North Brabant 4.2 39.2 36.7 30.6 7.6 8.7 7.6
Gelderland 4.1 34.6 33.6 31.6 8.6 10.0 8.7
Utrecht 2.0 20.2 21.3 19.8 5.6 6.9 6.6
Overijssel 0.9 10.7 9.6 7.1 1.4 1.6 1.5
Limburg 0.7 6.8 5.8 5.0 1.2 1.5 1.3
Groningen 0.4 4.2 3.6 3.1 0.9 1.0 1.1
Friesland 0.2 1.6 1.6 1.8 0.5 0.9 0.7
Drenthe 0.1 1.1 1.0 1.0 0.2 0.2 0.2
Zeeland 0.05 0.6 0.6 0.5 0.1 0.1 0.1
Flevoland 0.04 0.5 0.5 0.4 0.06 0.07 0.08
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 18/24
Taalvariatie Trends Gebruikers
Gebalanceerd Corpus
Gender per periode
Man Vrouw
50 50
Leeftijd per periode
1950-60 60-70 70-80 80-90 90-00
1.9 7.5 40.7 34.2 15.6
Provincie per periode
FR GR DR NH OV FL UT GE ZH ZE NB LI
0.9 1.5 0.4 34.4 2.8 0.1 9.2 14.1 20.2 0.2 13.8 2.3
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 19/24
Taalvariatie Trends Gebruikers
Trending: Woorden waarvan de frequentie het
sterkst toeneemt
Fascist Intimidatie ism Westerse Financiering
Kloof Nicer Subsidies Religieuze Verkiezingen
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 20/24
Taalvariatie Trends Gebruikers
Nogmaals Ik
Rangschik woorden op frequentie, op welke positie staat ik, de?
Rang
ik de
2011 1 11
2012 6 8
2013 5 8
2014 8 5
2015 15 4
2016 15 4
2017 17 4
Top 20 2017
30.872.383 : 11.2429.67 het
27.461.712 . 10.540.351 is
21.900.331 RT 9.466.746 op
19.595.682 de 8.901.943 !
16.423.227 , 8.554.912 je
14.175.335 een 8.406.002 voor
12.997.463 van 8.344.404 ik
12.050.125 in 7.127.853 ?
11.8494.86 ♥ 7.030.642 niet
11.627.647 en 6.871.650 dat
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 21/24
Taalvariatie Trends Gebruikers
Taalvariatie in Tweets in Europa (Hovy et al, te
verschijnen)
Geo-coded tweets
Tel woorden per locatie
Representeer locatie als een
embedding (vector met 100
dimensies)
Bereken afstand tussen vectoren
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 22/24
Taalvariatie Trends Gebruikers
Issue: hoe accuraat is voorspelde locatie?
Provincie gebalanceerd
FR GR DR NH OV FL UT GE ZH ZE NB LI
0.9 1.5 0.4 34.4 2.8 0.1 9.2 14.1 20.2 0.2 13.8 2.3
Provincie in 27.8 M geolocated, geocoded, tweets (2012-2014)
2.766.997 Gelderland 728.743 Drenthe
1.779.653 Noord-Holland 466.994 Zuid-Holland
1.625.670 Brabant 457.815 Zeeland
1.276.483 North Holland 388.032 Groningen
1.098.538 Friesland 373.029 Noord-Brabant
1.023.514 Limburg 307.239 Overijssel
1.023.488 North Brabant 227.921 South Holland
812.892 Utrecht 89.434 Flevoland
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 23/24
Taalvariatie Trends Gebruikers
Conclusies
Data
Twitter-data vormt een groot en dynamisch corpus van spontaan
taalgebruik
Onderzoek naar variatie vereist inzicht in gebruikers
Open vraag: hoe controleer je voor opleidingsniveau?
Mogelijke toepassingen
Mannentaal vs vrouwentaal
Zijn mannen of vrouwen trendsetters?
Welke jongerentaal wordt wanneer door ouderen overgenomen?
Hoe verspreiden woorden zich?
Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 24/24

More Related Content

Similar to 3e Studiedag Webarchivering - Taalvariatie op Twitter

20140127 jongerenennieuwemedia hoogstraten
20140127 jongerenennieuwemedia hoogstraten20140127 jongerenennieuwemedia hoogstraten
20140127 jongerenennieuwemedia hoogstratenMediaraven vzw
 
20140205 jongerenennieuwemedia de bron tielt
20140205 jongerenennieuwemedia de bron tielt20140205 jongerenennieuwemedia de bron tielt
20140205 jongerenennieuwemedia de bron tieltMediaraven vzw
 
20140131 jongerenennieuwemedia turnhout
20140131 jongerenennieuwemedia turnhout20140131 jongerenennieuwemedia turnhout
20140131 jongerenennieuwemedia turnhoutMediaraven vzw
 
20140205 jongeren & nieuwe media - gok studiedag - kta da vinci
20140205   jongeren & nieuwe media - gok studiedag - kta da vinci20140205   jongeren & nieuwe media - gok studiedag - kta da vinci
20140205 jongeren & nieuwe media - gok studiedag - kta da vinciMediaraven vzw
 
20141210 jongeren en nieuwe media verdi OLV
20141210 jongeren en nieuwe media verdi OLV20141210 jongeren en nieuwe media verdi OLV
20141210 jongeren en nieuwe media verdi OLVMediaraven vzw
 
20140109 jongeren en nieuwe media schoten
20140109 jongeren en nieuwe media schoten20140109 jongeren en nieuwe media schoten
20140109 jongeren en nieuwe media schotenMediaraven vzw
 

Similar to 3e Studiedag Webarchivering - Taalvariatie op Twitter (6)

20140127 jongerenennieuwemedia hoogstraten
20140127 jongerenennieuwemedia hoogstraten20140127 jongerenennieuwemedia hoogstraten
20140127 jongerenennieuwemedia hoogstraten
 
20140205 jongerenennieuwemedia de bron tielt
20140205 jongerenennieuwemedia de bron tielt20140205 jongerenennieuwemedia de bron tielt
20140205 jongerenennieuwemedia de bron tielt
 
20140131 jongerenennieuwemedia turnhout
20140131 jongerenennieuwemedia turnhout20140131 jongerenennieuwemedia turnhout
20140131 jongerenennieuwemedia turnhout
 
20140205 jongeren & nieuwe media - gok studiedag - kta da vinci
20140205   jongeren & nieuwe media - gok studiedag - kta da vinci20140205   jongeren & nieuwe media - gok studiedag - kta da vinci
20140205 jongeren & nieuwe media - gok studiedag - kta da vinci
 
20141210 jongeren en nieuwe media verdi OLV
20141210 jongeren en nieuwe media verdi OLV20141210 jongeren en nieuwe media verdi OLV
20141210 jongeren en nieuwe media verdi OLV
 
20140109 jongeren en nieuwe media schoten
20140109 jongeren en nieuwe media schoten20140109 jongeren en nieuwe media schoten
20140109 jongeren en nieuwe media schoten
 

More from Netwerk Digitaal Erfgoed

Eppo van Nispen: Opening Words World Digital Preservation Day
Eppo van Nispen: Opening Words World Digital Preservation DayEppo van Nispen: Opening Words World Digital Preservation Day
Eppo van Nispen: Opening Words World Digital Preservation DayNetwerk Digitaal Erfgoed
 
Valerie Johnson: Supporting the Archives Sector via Collaboration
Valerie Johnson: Supporting the Archives Sector via CollaborationValerie Johnson: Supporting the Archives Sector via Collaboration
Valerie Johnson: Supporting the Archives Sector via CollaborationNetwerk Digitaal Erfgoed
 
Simon Tanner: Teaching Digital Preservation at King's College London
Simon Tanner: Teaching Digital Preservation at King's College LondonSimon Tanner: Teaching Digital Preservation at King's College London
Simon Tanner: Teaching Digital Preservation at King's College LondonNetwerk Digitaal Erfgoed
 
Sharon McMeekin: Are we Making Progress in Digital Preservation Training?
Sharon McMeekin: Are we Making Progress in Digital Preservation Training?Sharon McMeekin: Are we Making Progress in Digital Preservation Training?
Sharon McMeekin: Are we Making Progress in Digital Preservation Training?Netwerk Digitaal Erfgoed
 
Sarah Higgins: Challenges in Educating Digital Curation
Sarah Higgins: Challenges in Educating Digital CurationSarah Higgins: Challenges in Educating Digital Curation
Sarah Higgins: Challenges in Educating Digital CurationNetwerk Digitaal Erfgoed
 
Erika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties AnnualErika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties AnnualNetwerk Digitaal Erfgoed
 
Rosemary Lynch: the DigCurv Curriculum Framework
Rosemary Lynch: the DigCurv Curriculum FrameworkRosemary Lynch: the DigCurv Curriculum Framework
Rosemary Lynch: the DigCurv Curriculum FrameworkNetwerk Digitaal Erfgoed
 
Puck Huitsing: Experiences Collaborative Learning
Puck Huitsing: Experiences Collaborative LearningPuck Huitsing: Experiences Collaborative Learning
Puck Huitsing: Experiences Collaborative LearningNetwerk Digitaal Erfgoed
 
Maureen Pennock: Digital Preservation Staffing and Skilss
Maureen Pennock: Digital Preservation Staffing and SkilssMaureen Pennock: Digital Preservation Staffing and Skilss
Maureen Pennock: Digital Preservation Staffing and SkilssNetwerk Digitaal Erfgoed
 
Jasper Snoeren: Collaborative Learning at Institute for Sound and Vision
Jasper Snoeren: Collaborative Learning at Institute for Sound and VisionJasper Snoeren: Collaborative Learning at Institute for Sound and Vision
Jasper Snoeren: Collaborative Learning at Institute for Sound and VisionNetwerk Digitaal Erfgoed
 
Frans Neggers: Learning Digital Preservation
Frans Neggers: Learning Digital PreservationFrans Neggers: Learning Digital Preservation
Frans Neggers: Learning Digital PreservationNetwerk Digitaal Erfgoed
 
Eef Masson: Digital Preservation Skills for AV Archivists
Eef Masson: Digital Preservation Skills for AV ArchivistsEef Masson: Digital Preservation Skills for AV Archivists
Eef Masson: Digital Preservation Skills for AV ArchivistsNetwerk Digitaal Erfgoed
 
Dorothy Waugh: The Archivist's Guide To KryoFlux
Dorothy Waugh: The Archivist's Guide To KryoFluxDorothy Waugh: The Archivist's Guide To KryoFlux
Dorothy Waugh: The Archivist's Guide To KryoFluxNetwerk Digitaal Erfgoed
 
Chantal Keijsper: Lifelong Learning How To Do That
Chantal Keijsper: Lifelong Learning How To Do ThatChantal Keijsper: Lifelong Learning How To Do That
Chantal Keijsper: Lifelong Learning How To Do ThatNetwerk Digitaal Erfgoed
 
Annet Dekker: Capturing Online Cultures Storytelling as a Method
Annet Dekker: Capturing Online Cultures Storytelling as a MethodAnnet Dekker: Capturing Online Cultures Storytelling as a Method
Annet Dekker: Capturing Online Cultures Storytelling as a MethodNetwerk Digitaal Erfgoed
 
Amber Cushing: Digital Information Management Programmes
Amber Cushing: Digital Information Management ProgrammesAmber Cushing: Digital Information Management Programmes
Amber Cushing: Digital Information Management ProgrammesNetwerk Digitaal Erfgoed
 
3e Studiedag Webarchivering - Webarchivering van Chinees Nederland
3e Studiedag Webarchivering - Webarchivering van Chinees Nederland3e Studiedag Webarchivering - Webarchivering van Chinees Nederland
3e Studiedag Webarchivering - Webarchivering van Chinees NederlandNetwerk Digitaal Erfgoed
 
3e Studiedag Webarchivering - Vrienden voor het leven
3e Studiedag Webarchivering - Vrienden voor het leven3e Studiedag Webarchivering - Vrienden voor het leven
3e Studiedag Webarchivering - Vrienden voor het levenNetwerk Digitaal Erfgoed
 
3e Studiedag Webarchivering - Website en social media archivering op het IISG
3e Studiedag Webarchivering - Website en social media archivering op het IISG3e Studiedag Webarchivering - Website en social media archivering op het IISG
3e Studiedag Webarchivering - Website en social media archivering op het IISGNetwerk Digitaal Erfgoed
 

More from Netwerk Digitaal Erfgoed (20)

Eppo van Nispen: Opening Words World Digital Preservation Day
Eppo van Nispen: Opening Words World Digital Preservation DayEppo van Nispen: Opening Words World Digital Preservation Day
Eppo van Nispen: Opening Words World Digital Preservation Day
 
Valerie Johnson: Supporting the Archives Sector via Collaboration
Valerie Johnson: Supporting the Archives Sector via CollaborationValerie Johnson: Supporting the Archives Sector via Collaboration
Valerie Johnson: Supporting the Archives Sector via Collaboration
 
Simon Tanner: Teaching Digital Preservation at King's College London
Simon Tanner: Teaching Digital Preservation at King's College LondonSimon Tanner: Teaching Digital Preservation at King's College London
Simon Tanner: Teaching Digital Preservation at King's College London
 
Sharon McMeekin: Are we Making Progress in Digital Preservation Training?
Sharon McMeekin: Are we Making Progress in Digital Preservation Training?Sharon McMeekin: Are we Making Progress in Digital Preservation Training?
Sharon McMeekin: Are we Making Progress in Digital Preservation Training?
 
Sarah Higgins: Challenges in Educating Digital Curation
Sarah Higgins: Challenges in Educating Digital CurationSarah Higgins: Challenges in Educating Digital Curation
Sarah Higgins: Challenges in Educating Digital Curation
 
Erika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties AnnualErika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties Annual
 
Rosemary Lynch: the DigCurv Curriculum Framework
Rosemary Lynch: the DigCurv Curriculum FrameworkRosemary Lynch: the DigCurv Curriculum Framework
Rosemary Lynch: the DigCurv Curriculum Framework
 
Puck Huitsing: Experiences Collaborative Learning
Puck Huitsing: Experiences Collaborative LearningPuck Huitsing: Experiences Collaborative Learning
Puck Huitsing: Experiences Collaborative Learning
 
Maureen Pennock: Digital Preservation Staffing and Skilss
Maureen Pennock: Digital Preservation Staffing and SkilssMaureen Pennock: Digital Preservation Staffing and Skilss
Maureen Pennock: Digital Preservation Staffing and Skilss
 
Jasper Snoeren: Collaborative Learning at Institute for Sound and Vision
Jasper Snoeren: Collaborative Learning at Institute for Sound and VisionJasper Snoeren: Collaborative Learning at Institute for Sound and Vision
Jasper Snoeren: Collaborative Learning at Institute for Sound and Vision
 
Frans Neggers: Learning Digital Preservation
Frans Neggers: Learning Digital PreservationFrans Neggers: Learning Digital Preservation
Frans Neggers: Learning Digital Preservation
 
Eef Masson: Digital Preservation Skills for AV Archivists
Eef Masson: Digital Preservation Skills for AV ArchivistsEef Masson: Digital Preservation Skills for AV Archivists
Eef Masson: Digital Preservation Skills for AV Archivists
 
Dorothy Waugh: The Archivist's Guide To KryoFlux
Dorothy Waugh: The Archivist's Guide To KryoFluxDorothy Waugh: The Archivist's Guide To KryoFlux
Dorothy Waugh: The Archivist's Guide To KryoFlux
 
Chantal Keijsper: Lifelong Learning How To Do That
Chantal Keijsper: Lifelong Learning How To Do ThatChantal Keijsper: Lifelong Learning How To Do That
Chantal Keijsper: Lifelong Learning How To Do That
 
Annet Dekker: Capturing Online Cultures Storytelling as a Method
Annet Dekker: Capturing Online Cultures Storytelling as a MethodAnnet Dekker: Capturing Online Cultures Storytelling as a Method
Annet Dekker: Capturing Online Cultures Storytelling as a Method
 
Amber Cushing: Digital Information Management Programmes
Amber Cushing: Digital Information Management ProgrammesAmber Cushing: Digital Information Management Programmes
Amber Cushing: Digital Information Management Programmes
 
3e Studiedag Webarchivering - Webarchivering van Chinees Nederland
3e Studiedag Webarchivering - Webarchivering van Chinees Nederland3e Studiedag Webarchivering - Webarchivering van Chinees Nederland
3e Studiedag Webarchivering - Webarchivering van Chinees Nederland
 
3e Studiedag Webarchivering - Promise
3e Studiedag Webarchivering - Promise3e Studiedag Webarchivering - Promise
3e Studiedag Webarchivering - Promise
 
3e Studiedag Webarchivering - Vrienden voor het leven
3e Studiedag Webarchivering - Vrienden voor het leven3e Studiedag Webarchivering - Vrienden voor het leven
3e Studiedag Webarchivering - Vrienden voor het leven
 
3e Studiedag Webarchivering - Website en social media archivering op het IISG
3e Studiedag Webarchivering - Website en social media archivering op het IISG3e Studiedag Webarchivering - Website en social media archivering op het IISG
3e Studiedag Webarchivering - Website en social media archivering op het IISG
 

3e Studiedag Webarchivering - Taalvariatie op Twitter

  • 1. Taalvariatie Trends Gebruikers Gebruikers en taalvariatie op Twitter Ik is niet langer het meest gebruikte woord op Twitter Gosse Bouma Informatiekunde Rijksuniversiteit Groningen Het web gearchiveerd 11 oktober 2018 Met dank aan Mostafa Abdou en Martijn Wieling Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 1/24
  • 2. Taalvariatie Trends Gebruikers Het liefst heb ik een meisje die eerlijk is met me dan tien matties die je snitchen Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 2/24
  • 3. Taalvariatie Trends Gebruikers Het liefst heb ik een meisje die eerlijk is met me dan tien matties die je snitchen Taalgebruik op Social Media Hoe verschilt taalgebruik op Twitter van standaard Nederlands? Varieert taalgebruik op Twitter met leeftijd, geslacht, regio? Trends in taalgebruik Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 2/24
  • 4. Taalvariatie Trends Gebruikers Waarom Twitter? Twitter API Twitter is open Twitter API staat toe dat je automatisch grote hoeveelheden informatie verzamelt Tweets bevatten veel meta-data screenname, tijd, profiel, (locatie), taal, retweet, antwoord op, volgers, volgend, actief sinds, .... Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 3/24
  • 5. Taalvariatie Trends Gebruikers Waarom Twitter? Twitter API Twitter is open Twitter API staat toe dat je automatisch grote hoeveelheden informatie verzamelt Tweets bevatten veel meta-data screenname, tijd, profiel, (locatie), taal, retweet, antwoord op, volgers, volgend, actief sinds, .... Verzamel zoveel mogelijk Nederlandstalige tweets Lijst met 100+ Nederlandse woorden Verzamel (alle) tweets met één van deze woorden... 40-50% van alle Nederlandstalige tweets Big data: 2011-2016: ruim 3 miljard tweets Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 3/24
  • 6. Taalvariatie Trends Gebruikers Taaltrends in Twitter-data www.let.rug.nl/gosse/Ngrams/trends.html Vergelijk trends Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 4/24
  • 7. Taalvariatie Trends Gebruikers wat hun kunnen kan ik ook Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 5/24
  • 8. Taalvariatie Trends Gebruikers wat hun kunnen kan ik ook hun hebben ze hebben Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 5/24
  • 9. Taalvariatie Trends Gebruikers Taalverandering? q q q q q q q q q q q q q q q q q q q q q 1980 1985 1990 1995 2000 12345678 Birthyear %Hun hun hebben ze hebben Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 6/24
  • 10. Taalvariatie Trends Gebruikers ’der’ ik ga der geld geven voor der verjaardag Mag je der vaseline opdoen ? der vs van der Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 7/24
  • 11. Taalvariatie Trends Gebruikers dus Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 8/24
  • 12. Taalvariatie Trends Gebruikers ik Tjong Kim Sang (2011): ik is het meest gebruikte woord op Twitter Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 9/24
  • 13. Taalvariatie Trends Gebruikers ik Tjong Kim Sang (2011): ik is het meest gebruikte woord op Twitter Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 9/24
  • 14. Taalvariatie Trends Gebruikers ik Tjong Kim Sang (2011): ik is het meest gebruikte woord op Twitter Mark Liberman (language log): frequentie van ’the’ neemt af, en dit is een teken dat het Engels minder formeel wordt Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 9/24
  • 15. Taalvariatie Trends Gebruikers Spelfouten nemen af... Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 10/24
  • 16. Taalvariatie Trends Gebruikers Omdat de populatie van twitteraars verandert Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 11/24
  • 17. Taalvariatie Trends Gebruikers Wie zijn actief op Twitter? Populatie is dynamisch Om taalverandering in beeld te brengen moet de populatie niet veranderen in de loop der tijd Gebalanceerd Corpus Maak een corpus waar de volgende verhouding constant is: man/vrouw jong/oud regio (per provincie) en waarin geen organisaties, bots, spammers voorkomen Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 12/24
  • 18. Taalvariatie Trends Gebruikers Automatische classificatie van gebruikers Wat weten we van gebruikers? laura1995 → vrouw, geboren in 1995 Ong. 3% van de tweets heeft geo-locatie (Ong. 40% van de gebruikers geeft een locatie op in zijn/haar profiel) Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 13/24
  • 19. Taalvariatie Trends Gebruikers Automatische classificatie van gebruikers Wat weten we van gebruikers? laura1995 → vrouw, geboren in 1995 Ong. 3% van de tweets heeft geo-locatie (Ong. 40% van de gebruikers geeft een locatie op in zijn/haar profiel) Machine Learning! Gebruik deze data als training voor een classifier die op basis van de tekst van een tweet geslacht, leeftijd, provincie van de gebruiker voorspelt Classificeer de rest van de data automatisch Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 13/24
  • 20. Taalvariatie Trends Gebruikers Accuratesse van de classifier Fasttext (bag-of-words model + word embeddings, feed-forward network) Tussen de 10.000 (age) en 830.000 (gender) tweets gebruikt voor training Model Recall Precision F1 Size Gender 0.968 0.969 0.968 820,207 Age 0.648 0.696 0.669 10,000 Location 0.738 0.773 0.753 377,088 Type 0.821 0.819 0.814 316,020 Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 14/24
  • 21. Taalvariatie Trends Gebruikers Org/Bot/Spam vs Mens Type 2011 2012 2013 2014 2015 2016 2017 Tweets (milj) 26.7 261.7 245.0 215.6 207.3 243.5 216.5 % Bot/Org/Spam 17.7 21.4 20.9 27.8 37.2 33.5 31.0 Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 15/24
  • 22. Taalvariatie Trends Gebruikers Geslacht Gender 2011 2012 2013 2014 2015 2016 2017 Tweets (milj) 26.7 261.7 244.9 214.7 197.4 243.5 215.4 % Female 47.5 47.6 52.3 48.1 44.7 52.0 47.5 Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 16/24
  • 23. Taalvariatie Trends Gebruikers Leeftijd Leeftijd (%) 2011 2012 2013 2014 2015 2016 2017 1950-1960 0.8 0.6 0.6 1.5 2.7 3.9 5.1 1960-1970 4.8 5.7 5.2 8.3 11.4 13.4 15.8 1970-1980 46.0 41.3 40.4 46.0 43.1 41.1 38.6 1980-1990 33.7 35.2 36.3 33.9 30.5 29.6 26.9 1990-2000 14.2 16.4 17.2 13.1 10.9 11.5 13.4 Tweets (milj) 26.7 261.7 244.9 214.7 197.4 243.5 215.4 Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 17/24
  • 24. Taalvariatie Trends Gebruikers Locatie in M tweets 2011 2012 2013 2014 2015 2016 2017 North Holland 8.6 86.1 79.7 70.6 20.3 24.6 23.2 South Holland 5.3 55.5 50.7 42.7 11.2 13.2 12.2 North Brabant 4.2 39.2 36.7 30.6 7.6 8.7 7.6 Gelderland 4.1 34.6 33.6 31.6 8.6 10.0 8.7 Utrecht 2.0 20.2 21.3 19.8 5.6 6.9 6.6 Overijssel 0.9 10.7 9.6 7.1 1.4 1.6 1.5 Limburg 0.7 6.8 5.8 5.0 1.2 1.5 1.3 Groningen 0.4 4.2 3.6 3.1 0.9 1.0 1.1 Friesland 0.2 1.6 1.6 1.8 0.5 0.9 0.7 Drenthe 0.1 1.1 1.0 1.0 0.2 0.2 0.2 Zeeland 0.05 0.6 0.6 0.5 0.1 0.1 0.1 Flevoland 0.04 0.5 0.5 0.4 0.06 0.07 0.08 Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 18/24
  • 25. Taalvariatie Trends Gebruikers Gebalanceerd Corpus Gender per periode Man Vrouw 50 50 Leeftijd per periode 1950-60 60-70 70-80 80-90 90-00 1.9 7.5 40.7 34.2 15.6 Provincie per periode FR GR DR NH OV FL UT GE ZH ZE NB LI 0.9 1.5 0.4 34.4 2.8 0.1 9.2 14.1 20.2 0.2 13.8 2.3 Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 19/24
  • 26. Taalvariatie Trends Gebruikers Trending: Woorden waarvan de frequentie het sterkst toeneemt Fascist Intimidatie ism Westerse Financiering Kloof Nicer Subsidies Religieuze Verkiezingen Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 20/24
  • 27. Taalvariatie Trends Gebruikers Nogmaals Ik Rangschik woorden op frequentie, op welke positie staat ik, de? Rang ik de 2011 1 11 2012 6 8 2013 5 8 2014 8 5 2015 15 4 2016 15 4 2017 17 4 Top 20 2017 30.872.383 : 11.2429.67 het 27.461.712 . 10.540.351 is 21.900.331 RT 9.466.746 op 19.595.682 de 8.901.943 ! 16.423.227 , 8.554.912 je 14.175.335 een 8.406.002 voor 12.997.463 van 8.344.404 ik 12.050.125 in 7.127.853 ? 11.8494.86 ♥ 7.030.642 niet 11.627.647 en 6.871.650 dat Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 21/24
  • 28. Taalvariatie Trends Gebruikers Taalvariatie in Tweets in Europa (Hovy et al, te verschijnen) Geo-coded tweets Tel woorden per locatie Representeer locatie als een embedding (vector met 100 dimensies) Bereken afstand tussen vectoren Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 22/24
  • 29. Taalvariatie Trends Gebruikers Issue: hoe accuraat is voorspelde locatie? Provincie gebalanceerd FR GR DR NH OV FL UT GE ZH ZE NB LI 0.9 1.5 0.4 34.4 2.8 0.1 9.2 14.1 20.2 0.2 13.8 2.3 Provincie in 27.8 M geolocated, geocoded, tweets (2012-2014) 2.766.997 Gelderland 728.743 Drenthe 1.779.653 Noord-Holland 466.994 Zuid-Holland 1.625.670 Brabant 457.815 Zeeland 1.276.483 North Holland 388.032 Groningen 1.098.538 Friesland 373.029 Noord-Brabant 1.023.514 Limburg 307.239 Overijssel 1.023.488 North Brabant 227.921 South Holland 812.892 Utrecht 89.434 Flevoland Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 23/24
  • 30. Taalvariatie Trends Gebruikers Conclusies Data Twitter-data vormt een groot en dynamisch corpus van spontaan taalgebruik Onderzoek naar variatie vereist inzicht in gebruikers Open vraag: hoe controleer je voor opleidingsniveau? Mogelijke toepassingen Mannentaal vs vrouwentaal Zijn mannen of vrouwen trendsetters? Welke jongerentaal wordt wanneer door ouderen overgenomen? Hoe verspreiden woorden zich? Gosse Bouma Informatiekunde Rijksuniversiteit Groningen 24/24