Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

NMI15 Kateřina Veselovská – Automatická detekce emocí v textu

453 views

Published on

Prezentace ze čtvrtého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 21. 2. 2015 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.

Objem nestrukturovaných dat stále roste, rozvoj Webu 2.0 přináší množství textů generovaných samotnými uživateli Internetu. Jejich příspěvky nezřídka obsahují subjektivní názory, emoce, hodnocení… K čemu a jak můžeme tato data použít? Je možné emoce v textu spolehlivě strojově třídit? Příspěvek z oblasti sentiment analysis představí metody a úspěchy automatické extrakce emocí z textu s důrazem na česká data a aplikace pro byznys.

Published in: Technology
  • Be the first to comment

NMI15 Kateřina Veselovská – Automatická detekce emocí v textu

  1. 1. Automatická detekce emocí v textu Kateřina Veselovská veselovska@ufal.mff.cuni.cz New Media Inspiration, Praha 21. 2. 2015
  2. 2. Informace v textu • objektivní fakta • subjektivní názory • pocity • domněnky • pozitivní či negativní hodnocení atd.
  3. 3. Informace v textu • rozvoj Webu 2.0 → obsah generovaný uživateli → potřeba automatického třídění informací
  4. 4. K čemu je to dobré? Postojová analýza (sentiment analysis) • automatická extrakce názorů a postojů z textu a řeči = co si vlastně lidé myslí
  5. 5. Postojová analýza • automatická extrakce názorů a postojů z textu a řeči = co si vlastně lidé myslí
  6. 6. Postojová analýza • binární úloha nebo ordinální škála: - líbí x nelíbí -
  7. 7. K čemu je to dobré? • hodnocení produktů • průzkum veřejného mínění • monitoring sociálních sítí • intenční analýza • forenzní lingvistika • predikace trendů v marketingu • predikace výsledků voleb
  8. 8. K čemu je to dobré? • potenciální zákazník – názory a komentáře jiných • uživatel – sdílení zkušeností • obchodník – zpětná vazba
  9. 9. Jak se to dělá? Nerezový vejcovar Steba má vyměnitelné pláty pro volská oka. vs. [Krásný nerezový vejcovar Steba je i u netrpělivých zákazníků velmi oblíben.]+ = hlasování prostou většinou
  10. 10. Czech Sublex 1.0
  11. 11. Czech Sublex 1.0 • překlad části MPQA korpusu přes paralelní korpus CzEng 1954 substantiv 1698 sloves 819 adjektiv 465 adverbií 4936 hodnotících slov přístupný ze stránek www.ufal.cz/sentiment
  12. 12. Jak se to dělá? • metody kvantitativní lingvistiky (tematická koncentrace) • unsupervised learning - Turneyův třístupňový algoritmus (využití PMI) • supervised learning - support vector machines - maximální entropie - slovníkové klasifikátory - Naivní Bayesův klasifikátor
  13. 13. Naivní Bayes • velké množství trénovacích dat (csfd.cz, mall.cz…) • preprocessing: spell-checking lemmatizace desambiguace morfologie parsing…
  14. 14. Naivní Bayes • feature: přítomnost lemmatu v daném segmentu • odhaduje predikační sílu lemmatu vzhledem k polaritě • trénování = budování slovníku všech přítomných lemmat a jejich predikačních sil
  15. 15. Naivní Bayes • filtrování - podle slovních druhů - na základě frekvence - zohlednění jazyka emocí emocí v jazyce
  16. 16. Jazyk emocí
  17. 17. Jazyk emocí
  18. 18. Jazyk emocí • emotikony :-) :-D :-P ;-) >:-[ :-/ :-( … • výrazná interpunkce!!!!!!!??????????!!!!!! • opakování znaků: Supeeeeeeeeer! • důraz pomocí kapitálek: Je to prostě BOŽÍ! • vytýkání: Tenhle vejcovar nade všechno *miluju* • nové pojetí vulgarismů: KUA
  19. 19. Jazyk emocí
  20. 20. Jazyk emocí • augmentativa (barabizna) • deminutiva (mimísek) • eufemismy (okrasný tukový prstenec x špek) • vulgarismy (@#%$!!) • evaluativní frazémy a idiomy • pojmenované entity
  21. 21. Jazyk emocí za málo peněz hodně muziky mít se jako prase v žitě cítit se jako nahý v trní stát za houby být příjemný jako osina v zadku jít jako po másle být šťastný jako blecha tvářil se, jako by mu uletěly včely má to své mouchy lepší než drátem do oka…
  22. 22. Emoce v jazyce moderátorka Jolka Krásná obec Krásná karpatský hřeben Krásná polonina zemědělské družstvo Krásná Hora nad Vltavou bar/pořad Krásný ztráty časopis Krásná a zdravá lunární kalendář Krásné paní píseň Krásná je Neapol poéma Krásná Poldi román Cizinec a krásná paní film Život je krásný soutěž Věda je krásná
  23. 23. Jazyk emocí „Jeho styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak mě to zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst i něco jinýho než Splav, ale neshledala jsem (já) v jeho díle nic obdivuhodného, takže (já) fakt nechápu tu všeobecnou glorifikaci.“ → zdroj Zdroj: http://www.zpovednice.cz – diskuse k básni Splav
  24. 24. Jazyk emocí „Jeho styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak mě to zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst i něco jinýho než Splav, ale neshledala jsem (já) v jeho díle nic obdivuhodného, takže (já) fakt nechápu tu všeobecnou glorifikaci.“ → zdroj → cíl Zdroj: http://www.zpovednice.cz – diskuse k básni Splav
  25. 25. Jazyk emocí „Jeho styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak mě to zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst i něco jinýho než Splav, ale neshledala jsem (já) v jeho díle nic obdivuhodného, takže (já) fakt nechápu tu všeobecnou glorifikaci.“ → zdroj → cíl → hodnocení Zdroj: http://www.zpovednice.cz – diskuse k básni Splav
  26. 26. Emoce v jazyce • plnovýznamové slovní druhy s výjimkou zájmen a číslovek • evaluativní částice • citoslovce
  27. 27. Emoce v jazyce • důležitost desambiguace Dobře, já to udělám. Zachoval se dobře.
  28. 28. Emoce v jazyce • důležitost slovesa zdroj – hodnocení – cíl agens – predikát – patiens
  29. 29. Emoce v jazyce • slovesa osobního mínění myslet, domnívat se, předpokládat, pohlížet na…
  30. 30. Emoce v jazyce • explicitní hodnocení – vyjádření citového stavu nesouhlasit s, nesnášet, chválit, zbožňovat… [Toho hrdopýška všichni nesnášejí.] – [Toho hrdopýška všichni chválí.] + → hodnotící sloveso má větší indikační sílu než hodnotící substantivum
  31. 31. Emoce v jazyce • důležitost částic [Bohudík toho hrdopýška všichni nesnášejí.] + [Bohužel toho hrdopýška všichni chválí.] - → emocionální částice má větší indikační sílu než evaluativní sloveso - chválabohu, naštěstí, zaplať pánbůh…
  32. 32. Emoce v jazyce • důležitost adjektiv [Bylo to příjemné nedorozumění.] + → hodnotící adjektivum má větší indikační sílu než hodnotící substantivum
  33. 33. Emoce v jazyce • pragmatická odbočka: ironie Byl to hrdinný chlípník. Byl to chlípný hrdina.
  34. 34. Emoce v jazyce • intenzifikátory [Ještě si pamatuju, že to kafe bylo strašně dobrý.] +
  35. 35. Emoce v jazyce • důležitost negace - obrací větnou polaritu [Jídlo nebylo dobré.] –
  36. 36. Emoce v jazyce • důležitost spojky ale ‒ adverzativní koordinace [Pláž byla hrozná]- , ale [v hotelu se nám líbilo.]+
  37. 37. Emoce v jazyce • přípustkové spojky přestože, ačkoliv, jakkoliv, byť, i když… Přestože příjezd nesplnil všechna jeho očekávání, leccos ho potěšilo.
  38. 38. Emoce v jazyce • hodnocení je často závislé na doméně: • chytrý telefon x chytrý zásah litvínovského útočníka • tichý vysavač x tichý detektor kouře • „Go read the book!“
  39. 39. Emoce v jazyce „Rubbish hotel in Madrid“
  40. 40. Jakou to má úspěšnost? • nejlepší dosažená přesnost: 89% (trénovací data z Mall.cz)
  41. 41. Jaké to má aplikace? Customer churn analysis: „Blahopřeju vám k anti-péči o zákazníka. Jsem u vás od roku 2002 a jediné co mi umíte nabídnout jsou běžné − a stále dost nevýhodné − tarify. Člověk si aspoň uvědomí, jak moc potřebujeme Evropskou unii (jejíž instituce jako jediná z relevantních subjektů tlačí ceny dolů). Po špatných zkušenostech hodlám přejít ke konkurenci.“
  42. 42. Jaké to má aplikace? Customer loyalty analysis „Produkt této společnosti používám na několika PC už několik let a zatím jsem neobjevil žádné vady. Vzhledem k mé naprosté spokojenosti ani do budoucna nehodlám nic měnit.“
  43. 43. Jaké to má aplikace? Customer risk analysis • detekce lži: kratší věty, krátká slova, více výrazů vyjadřujících pozitivní emoce… (+ další dimenze) • detekce spamu, detekce falešných profilů, výhružných e-mailů aj.
  44. 44. Jaké to má aplikace? Customer feedback analysis „Koupit si tento fotoaparát a spoléhat na jméno firmy se mi vůbec nevyplatilo. Např. proti mému stařičkému fotoaparátu je toto naprostý propadák. Průměrný telefon s fotoaparátem udělá stejné, ne-li lepší fotografie. Ani komunikace s centrem podpory nestojí za nic. Výrobek mě zklamal a víckrát už si žádný produkt této firmy bezpochyby nekoupím.“  cílený marketing
  45. 45. Jaké to má aplikace?  personalizovaný marketing, individuální interakce
  46. 46. http://twittersentiment.appspot.com/ Jaké to má aplikace?
  47. 47. http://socialmention.com/ Jaké to má aplikace?
  48. 48. Zdroj: http://www.yeseter.com Jaké to má aplikace?
  49. 49. Zdroj: http://www.semantic-visions.com/ Jaké to má aplikace?
  50. 50. Jaké to má aplikace?
  51. 51. Jaké to má aplikace?
  52. 52. Jakou to má budoucnost? • lepší preprocessing: pojmenované entity spell-checking (vulgarismy apod.) • automatická identifikace cílů • doménově závislé výrazy • analýza mluvených dat • psycholingvistické experimenty
  53. 53. *Děkuji* za pozornost!! www.ufal.cz/~veselovska

×