Deze tweet is sarcastisch,
zegt de computer

Christine Liebrecht MA, Florian Kunneman MA & prof.dr. Antal van den Bosch
2
3
4
(Liebrecht, Kunneman & Van den Bosch, 2013)
5
Sarcasme
• Omklappen van evaluatieve polariteit:
– Van letterlijk positief naar de bedoelde negatieve
betekenis
– Van lett...
Sarcasme

7
Sarcasme
• Linguïstische middelen om sarcasme te markeren
(o.a.):
–
–
–
–
–
–
–

Hyperbool: prachtig weer
Understatement: ...
Computationele analyse
• Kan een computer sarcastische tweets
herkennen?
• Sentimentanalyse
• eWOM

9
Sarcasme
• Linguïstische middelen om sarcasme te markeren
(o.a.):
–
–
–
–
–
–
–

Hyperbool: prachtig weer
Understatement: ...
Methode
• Kan een computer sarcastische tweets
herkennen?
• Hashtags: expliciete markeerders (Chang, 2010)
• Hashtags die ...
Methode
Stap 1: de training
• 406 duizend (Nederlandse) tweets met een van
de vier genoemde hashtags werd verzameld
• Uit ...
Methode
Stap 2: herkenning
• Alle (Nederlandse) tweets van een reguliere dag:
• 1 februari 2013: 2.246.904 tweets
• 353 da...
Resultaten

Zijn de door de computer geïdentificeerde
tweets sarcastisch of niet?

14
Resultaten
• Annotatie van de top 250 geïdentificeerde
tweets.
Nou woehoe nederlands …
Wort super gezellig #yeah
Wooow gez...
Resultaten
• 500 meest gebruikte tokens
• Eerder onderzoek: veelbesproken onderwerpen
zoals tv-programma’s, school, het we...
Resultaten
• Veelvoorkomende tokens:
– Intensifiers: geweldig, heerlijk, prachtig, super
– Niet-geïntensiveerde positieve ...
Resultaten
Hashtag

None
None

Exclamation

Intensified

Unintensified

Unintensified
Intensified
Exclamation
Hashtag

Tra...
Resultaten

19
Conclusie
• Hashtags die sarcasme markeren zijn vrij
betrouwbaar (90% vd tweets was sarcastisch)
• 307 van 353 (87%) sarca...
Christine Liebrecht
Florian Kunneman
Antal van den Bosch
Onderzoeksgroep

@christineliebr
@flowian7
@avandenbosch
@Radboud...
Upcoming SlideShare
Loading in …5
×

Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

768 views

Published on

Presentatie tijdens Etmaal 2014, congres voor de communicatiewetenschap, in Wageningen (3-4 feb) over onderzoek met Florian Kunneman MA en prof.dr. Antal van den Bosch naar automatische detectie van sarcasme op Twitter.

1 Comment
1 Like
Statistics
Notes
No Downloads
Views
Total views
768
On SlideShare
0
From Embeds
0
Number of Embeds
19
Actions
Shares
0
Downloads
3
Comments
1
Likes
1
Embeds 0
No embeds

No notes for slide

Deze tweet is sarcastisch, zegt de computer - Etmaal 2014

  1. 1. Deze tweet is sarcastisch, zegt de computer Christine Liebrecht MA, Florian Kunneman MA & prof.dr. Antal van den Bosch
  2. 2. 2
  3. 3. 3
  4. 4. 4
  5. 5. (Liebrecht, Kunneman & Van den Bosch, 2013) 5
  6. 6. Sarcasme • Omklappen van evaluatieve polariteit: – Van letterlijk positief naar de bedoelde negatieve betekenis – Van letterlijk negatief naar de bedoelde positieve mening (Burgers, Van Mulken & Schellens, 2011) • Omklappen is impliciet • Of expliciet 6
  7. 7. Sarcasme 7
  8. 8. Sarcasme • Linguïstische middelen om sarcasme te markeren (o.a.): – – – – – – – Hyperbool: prachtig weer Understatement: best slecht weer Verkleinwoord: lekker weertje Uitroep: lekker weer!!!!!!! Herhaling: regen, regen en nog eens regen Kapitalen: LEKKER weer Emoticons: lekker weer :-s (Burgers, Van Mulken & Schellens, 2012) 8
  9. 9. Computationele analyse • Kan een computer sarcastische tweets herkennen? • Sentimentanalyse • eWOM 9
  10. 10. Sarcasme • Linguïstische middelen om sarcasme te markeren (o.a.): – – – – – – – Hyperbool: prachtig weer Understatement: best slecht weer Verkleinwoord: lekker weertje Uitroep: lekker weer!!!!!!! Herhaling: regen, regen en nog eens regen Kapitalen: LEKKER weer Emoticons: lekker weer :-s (Burgers, Van Mulken & Schellens, 2012) 10
  11. 11. Methode • Kan een computer sarcastische tweets herkennen? • Hashtags: expliciete markeerders (Chang, 2010) • Hashtags die ‘omklappen’ markeren: – #sarcasme  48.992 90% van de tweets met een van – #ironie  3.285 deze hashtags was inderdaad 404 sarcastisch (Cohen’s Kappa .44) – #cynisme  353.758 + – #not (Attardo, 2007; Kreuz & Roberts, 1993; Tsur, Davidov & Rappoport, 2010) 406.439 11
  12. 12. Methode Stap 1: de training • 406 duizend (Nederlandse) tweets met een van de vier genoemde hashtags werd verzameld • Uit die tweets werd de hashtag verwijderd • Vervolgens gingen ze de computer in (machine learning classifier) • Wellicht herkent de computer patronen in deze sarcastische uitingen 12
  13. 13. Methode Stap 2: herkenning • Alle (Nederlandse) tweets van een reguliere dag: • 1 februari 2013: 2.246.904 tweets • 353 daarvan hadden een van de vier hashtags • (die hashtags werden weer verwijderd) • Lukt het de computer om die 353 eruit te halen? 13
  14. 14. Resultaten Zijn de door de computer geïdentificeerde tweets sarcastisch of niet? 14
  15. 15. Resultaten • Annotatie van de top 250 geïdentificeerde tweets. Nou woehoe nederlands … Wort super gezellig #yeah Wooow gezellig hier in huis geweldig Goh #gezellig  3 codeurs: sarcastisch  3 codeurs: niet sarcastisch  2 codeurs: sarcastisch  1 codeur: sarcastisch • Cohen’s Kappa: .53, average mutual F-score: .72 • 35% van de tweets was volgens tenminste 2 codeurs sarcastisch 15
  16. 16. Resultaten • 500 meest gebruikte tokens • Eerder onderzoek: veelbesproken onderwerpen zoals tv-programma’s, school, het weer en ov (Liebrecht et al., 2013) • Dit onderzoek: nauwelijks onderwerpen! 16
  17. 17. Resultaten • Veelvoorkomende tokens: – Intensifiers: geweldig, heerlijk, prachtig, super – Niet-geïntensiveerde positieve bijwoorden en bijvoeglijke naamwoorden: interessant, leuk, slim – Uitroepen: jippie, yes, woehoe, wow – Niet-sarcastische hashtags voor metacommunicatie: #humor, #lml, #grapje 17
  18. 18. Resultaten Hashtag None None Exclamation Intensified Unintensified Unintensified Intensified Exclamation Hashtag Trainingtweets Geannoteerde tweets 18
  19. 19. Resultaten 19
  20. 20. Conclusie • Hashtags die sarcasme markeren zijn vrij betrouwbaar (90% vd tweets was sarcastisch) • 307 van 353 (87%) sarcastische tweets zijn automatisch correct geïdentificeerd • ‘In het wild’ is het lastig om letterlijke tweets van sarcastische tweets te onderscheiden (35%) • Linguïstische markeerders zijn intensifiers, positieve bijwoorden en bijvoeglijke naamwoorden, uitroepen, andere hashtags 20
  21. 21. Christine Liebrecht Florian Kunneman Antal van den Bosch Onderzoeksgroep @christineliebr @flowian7 @avandenbosch @RadboudCLSLST 21

×