A Pázmány Péter Katolikus Egyetem Bölcsészet- és Társadalomtudományi Kara (PPKE BTK), a Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kara (PPKE ITK) és a Magyar Alkalmazott Nyelvészek és Nyelvtanárok Egyesülete (MANYE) 2015. március 30. és április 1. között a PPKE ITK-n (1083 Budapest, Práter utca 50/a) rendezte meg a
25. MAGYAR ALKALMAZOTT NYELVÉSZETI KONGRESSZUST.
A tudományos konferencia a Nyelv – Nyelvtechnológia – Nyelvpedagógia: 21. századi távlatok központi téma köré szerveződött.
A Precognox az emócióelemzést célzó projektjének újabb eredményeit egy előadás keretében mutatta be, míg a szentimentelemzéssel kapcsolatos munkánkat poszteren prezentáltuk.
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésénekelméleti és nyelvtechnológiai problémái
1. Magyar nyelvű szövegek emócióelemzésének
elméleti és nyelvtechnológiai problémái
SZABÓ MARTINA KATALIN1,2, VINCZE VERONIKA3,4, MORVAY
GERGELY1,5
1Precognox Informatikai kft.
2Szegedi Tudományegyetem, Orosz Filológiai Tanszék
mszabo@precognox.com; szabomartinakatalin@gmail.com
3MTA-SZTE Mesterséges Intelligencia Kutatócsoport
4Szegedi Tudományegyetem, Informatikai Tanszékcsoport
vinczev@inf.u-szeged.hu
5ELTE BTK Elméleti Nyelvészet ELTE-MTA Kihelyezett
Tanszék
gmorvay@precognox.com
2. Bevezető gondolatok
Korábbi előadásunkban (Szabó–Morvay
2015) már bemutattuk kutatócsoportunk
egyik projektjét, amelynek célja: a magyar
nyelvű szövegek automatikus
emócióelemzésének hatékony megoldása
Nincs tudomásunk más hasonló, magyar
nyelvi vonatkozású projektről. Okok:
o a nyelvtechnológusok kis vagy kisebb jelentőséget
tulajdonítanak a az emócióknak, mint a
szentimenteknek. Vö. központi szerep több tudományos
diszciplínában, pl. viselkedéstudomány vagy
pszichológia. A nyelvtechnológiában csupán az utóbbi
időben találni publikációkat (vö. pl. Strapparava–
Mihalcea 2008; Mulcrone 2012).
o az emócióelemzést a magyar nyelvre irányuló
munkákban a szentimentelemzés feladatkörébe utalják,
gyakran azonosítják is egymással (vö. pl. Pólya et al.
2015: 202).
3. Emóciók vs. szentimentek
Munkánk elméleti alapvetései:
o szentiment: bizonyos dolgok (személyek, helyek, tárgyak stb.), másképpen
targetek vonatkozásában megfogalmazott nyelvi értékelés
o emóció: a valamely targettel kapcsolatos érzelem szövegszintű
megnyilvánulása
Okok:
o Péter (1991: 46) megkülönböztetheti az értékelés emocionális (1a) és racionális (1b)
típusait:
(1) a. a főnököm remek ember
b. a habbeton rossz hővezető
o A racionális típusban az érzelmek nem játszanak szerepet (vö. Szabó 2015)
o A két fogalom lényegi eltérései következtében automatikus kinyerésük is más-más
haszonnal járhat
o Hatékony feldolgozásukhoz eltérő megoldásokat is alkalmaznunk kell bizonyos
esetekben
A szentiment- és az emóciókifejezéseket, így a szentiment- és az emócióelemzés
feladatát egymástól külön kezeljük
4. Az emócióelemzés
fontossága
Az NLP-feladatok között az emócióelemzés fontos
szerepet tölthetne be. Ok:
az érzelmek olyan tényezőkre adott reakciók, amelyek
fontosak számunkra boldogulásunk, jólétünk
szempontjából → szoros kapcsolatban állnak a
szükségleteinkkel: arról a viszonyról szólnak, amely a
szükségletek és azok kielégítése között áll fenn (vö.
Симонов 1975; Ekman 2007).
az emóciótartalom kinyerése értékes információkat
hozhat a felszínre
hasznosíthatóság különböző nyelvtechnológiai
alkalmazásokban, pl. pszichológiai szempontú
szövegelemzés; vásárlóihangulat-mérés; gazdasági
trendek azonosítása stb.
5. Az előadás apropója
Korábbi munkánk során:
olétrehoztunk egy emóciószótárat, amelyben
az ún. emóciókifejezéseket rendszereztük
olétrehoztunk egy kézzel annotált
emóciókorpuszt fejlesztési és tesztelési céllal
• Tapasztalatok: számos elméleti és
nyelvtechnológiai dilemma és probléma
(vö. Szabó–Morvay 2015)
• A jelen előadás célja: e problémák és
kérdések tárgyalása, a lehetőségek
feltérképezése
6. Az első nagy dilemma: mit is
keres az, aki emóciót keres a
szövegben I. Banczerowski (2005b: 71): “az érzelmek olyan
jelenségek, amelyeket nem lehet a nyelv segítségével,
tehát szavakkal kifejezni. (...) A szavakban rögzíthetjük
a gondolatainkat, de nem rögzíthetjük az érzelmeinket.”
Saját tapasztalataink is hasonlóak: a pszichológiában
azonosított, jól elkülönülő érzelemtípusok a nyelvben
nem képeződnek meg ugyanilyen jól elkülönülő,
könnyen azonosítható módon. A szentimenteket, azaz
az értelmi alapú értékelést könnyebb a szöveg szintjén
megfelelően azonosítani, mint az érzelmeket.
Eszközök: szavak; többszavas kifejezések; körülírás,
irónia, gúny, eufemizmus; központozás, emotikonok;
diskurzusjelölők, hangutánzó és hangulatfestő szók…
A pragmatika kimagasló szerepe!
7. Az első nagy dilemma: mit is
keres az, aki emóciót keres a
szövegben II. A pszichológiában Ekman–Friesen (1969) és más
pszichológusok, pl. LeDoux 2000: 130–132: bizonyos
emóciók az evolúció folyamatában fejlődtek ki →
kultúrafüggetlen arckifejezések, gesztusok (vö.
Banczerowski 2005a: 203) → kultúrafüggetlen
azonosíthatóság, azaz “intuitíve érthetőek”
(Banczerowski 2005a: 203)
De! “a nyelvész számára az alapvető emóciók
pszichológiai elmélete az inspiráció forrása lehet, de
egyidejűleg komoly kétségeket is ébreszt”
(Banczerowski 2005a: 203);
Wierzbicka (1999) alapján Banczerowski (2005a: 203):
“az adott nyelv nevei által jelölt érzelmek
kultúrafüggőek”, mivel a nyelv a kultúrközösség
terméke.
8. Az eddig elvégzett munka I.
A szótár létrehozásának a menete:
o Affective Text
[http://www.cse.unt.edu/~rada/affectivete
xt/]
o Kézzel ellenőriztük, javítottuk és
kiegészítettük az automatikus fordítás
eredményét
o A munka során használt szótárak:
oMTA SZTAKI online szótár
oSzinonimaszotar.hu
oPoet szinonimaszótár
9. Az eddig elvégzett munka II.
Az osztályozás alapelvei:
otöbbszavas kifejezések is, pl.
(2) hogy a fene enné meg!
otág értelmezés: minden főnév, melléknév,
határozószó és ige, amely emóciót fejez
ki, vagy az emóció meglétére utalhat, pl.
(3) begurul; káromkodik; belepofázik
[DÜH]
o szleng is
10. Az eddig elvégzett munka III.
A kategóriarendszer kérdése:
o Az emóciólexikon létrehozásának egyik
kardinális kérdése volt
o végül azt a hat alapérzelmet vettük alapul,
amelyek arckifejezéseit a kutatások alapján
kultúrafüggetlenül azonos módon produkálhatjuk
és egyformán azonosíthatjuk (vö. Ekman–
Friesen 1969): DÜH, FÉLELEM, UNDOR,
MEGLEPŐDÉS, ÖRÖM, BÁNAT
11. Az eddig elvégzett munka IV.
A PrecoEmo kézzel annotált emóciókorpusz:
o cél: a szótár hatékonyságának a tesztelése, fejlesztése; egyéb kutatási és
fejlesztési célok
o anyaga: a 2014-es év folyamán keletkezett, tévés és mozis témájú blogoldalakról
származó, különböző terjedelmű és szerzőségű kritikák, hírek és kommentek
o mérete: jelenleg 15 987 mondat és 197 707 token
o az annotáló szoftver a Szegedi Tudományegyetem munkatársainak a fejlesztése
o amit annotáltunk:
• az emóciót megfogalmazó teljes fragmentumot
• azon belül a konkrét emóciókifejezést
• az esetleges siftereket
• azokat a kifejezéseket, melyek valamely érzelem meglétére utalnak, de nem köthetőek
egyértelműen egyik érzelemtípushoz sem (pl. wow!, azta!, bakker).
o A nyers szövegkorpuszból eddig 3911 mondatot és 45 955 tokent dolgoztunk
fel.
A szótárak hatékonyságát kiértékeltük a korpuszon: A
nyers szövegeken egyszerű szóillesztéses megoldással automatikusan
azonosítottunk minden olyan emóciókifejezést, amelyet az
emóciószótárunk tartalmazott.
12. Tapasztalatok, problémák I.
A szövegalapú emócióelemzésben számtalan kategorizálási
megoldással találkozni; pl. Nyomárkay (1975) az “érzelemmel
kombinált igéket” 13 típusba sorolja attól függően, hogy azok mely
“érzelmi színezettel” rendelkeznek.
A nemzetközi szakirodalomban is sokféle kategóriarendszert
találhatunk, melyekről a következő táblázat nyújt áttekintést.
Az általunk kiindulópontként használt kategóriarendszer jó átlagát
nyújtja a sokféle felosztásnak. A 6 kategória középen helyezkedik el
a 2-11 kategóriáig terjedő skálán, és a többi 13 kategória emóciói is
legalább 50%-ban megegyeznek valamelyik emócióval az Ekman–
Friesen-féle 6-ból.
Kiemeléssel azokat az emóciókategóriákat jelöltük, amelyek
megegyeznek azzal a két emócióval (FESZÜLTSÉG és VONZALOM),
melyekkel a későbbiekben egészítettük ki a kezdeti 6 kategóriánkat.
15. Tapasztalatok, problémák II.
Aránytalanságok:
oaz ÖRÖM kifejezései a lexikon 39%-át teszik
ki, pontosan annyit, mint a BÁNAT, a FÉLELEM,
az UNDOR és a MEGLEPŐDÉS együtt
oa BÁNAT az egyetlen emóció, ami arányosan
(1:6 mértékben szerepel a lexikonban
oaz ÖRÖM, a DÜH és a MEGLEPŐDÉS
szélsőségesen felül-, illetve
alulreprezentáltak
oFeltételezhető, hogy az aránytalanságok a
kategóriarendszer problematikusságával is
összefüggésbe hozhatóak (vö. pl. az UNDOR
és a MEGLEPŐDÉS kompaktsága az ÖRÖM
kategóriához képest)
16. Tapasztalatok, problémák III.
Az annotálás tapasztalata: a hat emóciókategória nem fedi
le teljesen a szövegekben megjelenő érzelmek spektrumát;
pl.
a, izgatottan toporog
b, zaklatottan kérdezte
HARAG? FÉLELEM? Más? → FESZÜLTSÉG
Vö. „anxiety” – Gray, Oatley, Johnson-Laird;
„distress” – Izard, Tomkis; „panic” – Pankstepp
c, nagyon bejön
d, nézte szerelmesen
ÖRÖM? Más? → VONZALOM
Vö. „love” – Arnold, James, Watson; „desire” – Arnold,
Frijda; „pleasure” – Mowrer, „tender-emotion” –
McDougall
Ez utóbbi kategóriát abban a kutatási szakaszban még nem
alkalmaztuk.
17. A munka következő
lépéseként…
Immáron 8 kategóriával átdolgoztuk a teljes emóciólexikont.
A FESZÜLTSÉG kategória bevezetése főleg a DÜH és a BÁNAT kategóriákat
érintette, míg a VONZALOM kategóriáé az ÖRÖM kifejezéseit.
Eredmények: az így létrejött lexikon már arányosabb képet mutat:
Szótár Elemszám Százalékos
megoszlás
ÖRÖM 558 30%
DÜH 336 18%
BÁNAT 279 15%
FÉLELEM 185 10%
FESZÜLTSÉG 140 8%
VONZALOM 137 8%
UNDOR 127 7%
MEGLEPŐDÉS 80 4%
18. A manuális korpusz
annotációjának javítása
Az emóciólexikon revíziója után
újraannotáltuk a korpuszunk szövegeit,
immár a nyolc emóciókategóriával.
A lexikonhoz hasonlóan az annotálás során is
a VONZALOM főként az ÖRÖM emóció helyét
vette át, míg a FESZÜLTSÉG a FÉLELEMmel és
a DÜHvel volt közelebbi kapcsolatban.
Az újraannotálás folyamán
o sok olyan új emóciókifejezést is jelölni tudtunk,
melyek az eddigi kategóriáink egyikébe sem
fértek bele,
o de számos, korábban már annotált
emóciókifejezést is átsoroltunk az új kategóriák
valamelyikébe (pl. kaparom a falat, ideglelés,
odáig van, szerelmes évődés)
19. A régi és az új annotált korpusz
statisztikai adatai
VONZALOM 0 260
DÜH 102 107
FESZÜLTSÉG 105 114
UNDOR 19 22
FÉLELEM 34 34
ÖRÖM 161 159
BÁNAT 120 129
MEGLEPETÉS 41 48
ÖSSZES: 582 873
Az annotált korpusz mintegy 300 elemmel bővült, ennek legnagyobb
része az új VONZALOM kategória elemei.
A VONZALOM ezzel a legnagyobb kategória lett, majdnem akkora, mint a
második és harmadik ÖRÖM és BÁNAT együtt.
20. A korpuszannotáció revíziójának
tanulságai
A FESZÜLTSÉG kategória felvétele a
DÜH és a FÉLELEM kategóriák tisztább
körvonalazását segítette.
A VONZALOM kategóriába pedig olyan
elemek kerületek, amik eddig nem
voltak annotálva.
Problémát jelentenek az indirekt
kifejezések, illetve az
emóciókategóriáinkkal ellentétes
emóciók annotálása.
22. A szótár revíziójának
tapasztalatai
A szótár 1.0 a VONZALOM és a FESZÜLTSÉG
kategóriákat még nem tudta kezelni a szótár
2.0-val szemben
A szótár 2.0 mind a 8 emóciókategória
esetében javulást mutat a szótár 1.0-hoz
képest
A legjobb eredményt a régi szótár esetében a
FÉLELEM kategóriában produkáltuk (42.86%),
míg az új szótárban a MEGLEPETÉS (67,74%)
és a FESZÜLTSÉG (66,33%) szerepelt a
legjobban.
Érdekes, hogy a másik új kategória, a
VONZALOM (16,36%) a legrosszabb
eredményt produkálta.
A legjelentősebb javulást a MEGLEPETÉS
23. Összegzés, távlatok
Az emóciólexikon újraformálása egy
dinamikusabb modell alapján, ami az
emóciók intenzitását és egymáshoz való
viszonyait is kezelni tudja (pl.
dimenzionális modellek).
Korpuszalapú, esetleg doménfüggő
szótárak fejlesztése a Precorpus nyolc
domén szövegeiből álló eszköz
segítségével
Az emócióshifterek kezelési kérdéseinek
feltérképezése (szemantikai kompozíciós
szabályok kialakítása és alkalmazása a
24. IRODALOM
Banczerowski Janusz 2005a. A félelem tartományába tartozó negatív érzelmek konceptualizációjáról. Magyar Nyelvőr 129. évf., 2. sz. 202--208.
Banczerowski Janusz 2005b. A pozitív érzelmek konceptualizálásának néhány kérdése. Magyar Nyelvőr 129. évf., 1. sz. 71--77.LeDoux J. 2000. Mózg
emocjonalny. Tajemnicze podstawy życia emocjonalnego, tłum. A. Jankowski, Poznań.
Ekman, P. 1972. Universals and Cultural Differences in Facial Expression of Emotion. In J. Cole ed. Nebraska Symposium on Motivation. Lincoln, Nebraska:
University of Nebraska Press, 207-283.
Ekman, P. 2007. Emotions revealed: recognizing faces and feelings to improve communication and emotional life. Revised edition. New York: St. Martin's
Griffin.
Ekman, P.–Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica 1. 49–98.
Ekman, P.–Friesen, W. V.–Ellsworth, P. 1982. What emotion categories or dimensions can observers judge from facial behavior? In P. Ekman Ed. Emotion
in the human face. New York: Cambridge University Press. 39-55.
Frijda, N. H. 1986. The emotions. New York: Cambridge University Press.
Gray, J. A. 1985. The whole and its parts: Behaviour, the brain, cognition and emotion. Bulletin of the British Psychological Society 38. 99-112.
Izard, C. E. 1977. Human emotions. New York: Plenum Press
Jack, R.E.–Garrod, O.G.B.–Schyns, P.G. Dynamic Facial Expressions of Emotion Transmit an Evolving Hierarchy of Signals over Time. Current Biology 24,
2, 187-192.
James, W. 1884. What is an emotion? Mind 9, 188-205.
McDougall, W. 1926. An introduction to social psychology. Boston: Luce.
Mowrer, O. H. 1960. Learning theory and behavior. New York: Wiley.
Mulcrone, K. 2012. Detecting Emotion in Text. Elhangzott:UMM CSci Senior Seminar Conference. University of Minnesota, Morris. Morris, Amerikai
Egyesült Államok. 2012. április 28. [https://wiki.umn.edu/pub/UmmCSciSeniorSeminar/Spring2012Talks/KaitlynMulcrone.pdf]
Nyomárkay István 1975. Érzelemmel kombinált érzékelést, észlelést, gondolkodást jelentő igék az összetett mondatokban. Magyar Nyelv LXXI. évf. 3. sz.
318--324.
Oatley, K.–Johnson-Laird, P. N. 1987. Towards a cognitive theory of emotions. Cognition & Emotion 1. 29-50.
Ortony, A.–Turner, T. J. 1990. What's basic about basic emotions? Psychological Review 97. 315-331.
Panksepp, J. 1982. Toward a general psychobiological theory of emotions. The Behavioral and Brain Sciences 5. 407-467.
Parrott, W. 2001. Emotions in Social Psychology. Psychology Press, Philadelphia.
Péter Mihály 1991. A nyelvi érzelemkifejezés eszközei és módjai. Budapest, Tankönyvkiadó
Plutchik, R. 1980. A general psychoevolutionary theory of emotion. In R. Plutchik & H. Kellerman Eds. Emotion: Theory, research, and experience: Vol. 1.
Theories of emotion. New York: Academic. 3-33.
Pólya et al. 2015. A véleményváltozás azonosítása politikai témájú közösségi médiában megjelenő szövegekben. In Tanács A.–Varga V.–Vincze V. szerk.
XI. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2015). Szeged, Szegedi Tudományegyetem, 198–209.
Quan, C.–Ren, F. 2010. Sentence Emotion Analysis and Recognition Based on Emotion Words Using Ren-CECps, in International Journal of Advanced
Intelligence, Volume 2, Number 1. AIA International Advanced Information Institute. 105-117.
Shaver, P.–Schwartz, J.–Kirson, D.–O'Connor, C. 2001. Emotional Knowledge: Further Exploration of a Prototype Approach. In G. Parrott Eds. Emotions in
Social Psychology: Essential Readings 26-56. Philadelphia, PA: Psychology Press.
Strapparava, C.–Mihalcea, R 2008. Learning to identify emotions in text. SAC 2008. [http://web.eecs.umich.edu/~mihalcea/papers/strapparava.acm08.pdf]
Szabó M. K. 2015. A nyelvi értékelés mibenléte a számítógépes értékeléselemzés (szentimentelemzés) szempontjából. Nyelvészdoktoranduszok 18.
Országos Konferenciája (LingDok). Publikálásra benyújtva
Szabó Martina Katalin–Morvay Gergely 2014. Emócióelemzés magyar nyelvű szövegeken. „Nyelv, kultúra, társadalom” című alkalmazott nyelvészeti
konferencia. Megjelenés előtt
Tomkins, S. S. 1984. Affect theory. In K. R. Scherer–P. Ekman Eds. Approaches to emotion Hillsdale. NJ: Erlbaum. 163-195.
Watson, J. B. 1930. Behaviorism. Chicago: University of Chicago Press.
Weiner, B.–Graham, S. 1984. An attributional approach to emotional development. In C. E. Izard, J. Kagan–R. B. Zajonc Eds. Emotions, cognition, and
behavior. New York: Cambridge University Press. 167-191.
25. Köszönjük a figyelmet!
Szabó Martina Katalin
mszabo@precognox.com;
szabomartinakatalin@gmail.com
Vincze Veronika
vinczev@inf.u-szeged.hu
Morvay Gergely
gmorvay@precognox.com