SlideShare a Scribd company logo
1 of 32
 2003−2010. (január): magyar nyelv és irodalom szakos bölcsész és 
tanár (Szegedi Tudományegyetem Bölcsészettudományi Kar) 
 2003−2010. (június) orosz nyelv és irodalom szakos bölcsész és 
tanár (Szegedi Tudományegyetem Bölcsészettudományi Kar) 
 2008−2012. (január): magyar mint idegen nyelv tanár / 
hungarológia (Szegedi Tudományegyetem Bölcsészettudományi 
Kar) 
 2010− Magyar Nyelvészet PhD-Program (Szegedi 
Tudományegyetem Bölcsészettudományi Kar, Nyelvtudományi 
Doktori Iskola) 
 2012. november 27. − 2013. szeptember 27.PhD-részképzés, 
Moszkva. (Национальный исследовательский университет 
«Высшая школа экономики» (НГУ-ВШЭ) (National Research 
University - Higher School of Economics)) 
 2013. (június) PhD-abszolutórium megszerzése
 2014 márciusa óta 
 Belső projektek: 
› Szentimentelemzés magyar nyelvre 
› Emócióelemzés magyar nyelvre 
(tervezés, szervezés, projektvezetés, kutatómunka, 
beszámolók készítése, konferenciázások, cikkek írása 
stb.) 
 Külső projektek: 
› Artklikk 
› NER 
› Sanoma (Jobmonitor) 
› Hulladékgazdálkodás  
(kutatómunka, beszámolók készítése, adatszűrés)
 A szentimentelemzés olyan számítógépes nyelvészeti feladat, amely 
arra irányul, hogy 
 Az értékelést, az értékelő tartalmakat megtalálja a a szövegekben, 
 meghatározza ezeknek az értékeknek a típusát, 
 valamint megállapítsa azok tárgyát, tehát azt, hogy az értékelés mire irányul. 
 Egy egyszerű példa: 
A szentimentelemzés bonyolult feladat. 
 A magyar nyelvű irodalomban: 
szentimentelemzés vagy véleménykivonatolás 
 Az angol nyelvű irodalomban: 
sentiment analysis, opinion mining, 
opinion extraction, sentiment mining, 
review mining stb. (vö. Liu 2012: 7)
Számtalan szociális háló, blog, fórum és egyéb webes forrás → hatalmas 
mennyiségű, elektronikus formájú szöveg 
Kihívás a nyelvészeti kutatások és a 
nyelvtechnológia szempontjából: 
vö. „A Szemantikus Web 
víziója” (Munk 2014) 
A gazdasági oldal felől támasztott 
igény, pl.: 
 a tőzsdeindex mozgásának 
előrejelzése; 
 a fogyasztói csoport benyomásai, 
tapasztalatai bizonyos termékek 
és szolgáltatások 
vonatkozásában; 
 a fogyasztói csoport igényeinek 
detektálása; 
 politikusokkal, politikai 
eseményekkel kapcsolatos 
attitűdök felmérése; 
 választási előrejelzések 
 stb.
 Az Opinhu rendszer (Miháltz 2010), illetve az 
OpinHuBank projekt (Miháltz 2012): internetes 
hírportálokon, blogokon és közösségi oldalakon 
publikált szövegek szentiment- annotálására 
törekszik automatikus és manuális megoldások 
segítségével; 
 Neticle ― Szekeres Péter 
 Berend és Farkas (2008): a kettős 
állampolgárság témájához kapcsolódó 
szövegek gépi tanuláson alapuló feldolgozását 
célozza;
 A teszteléshez és fejlesztéshez manuálisan annotált korpusz kell! Ez 
 vagy nincs (Neticle), 
 vagy egyszerűen nem megfelelő fejlesztési és tesztelési célokra (OpinHuBank). 
 Problémák az OpinHuBank korpusszal: 
 A szentimentkifejezéseket egyenként nem annotálták a korpusz építői: a 
szentimentértékeket a mondatok vagy a tagmondatok szintjén határozták meg. 
 Az annotátoroknak az aktuális mondat szentimentértékéről a mondatban szereplő 
tulajdonnévi entitás (PERSON) viszonylatában kellett döntést hozniuk: arra kérték 
őket, hogy ítéljék meg, vajon pozitív vagy negatív ítéletet fejez-e ki az elemzett 
mondat a bennfoglalt PERSON vonatkozásában. DE!! A szentiment targetjének 
szerepét a mondatban a személynéven kívül számtalan elem (pl. egy hely, egy 
esemény, egy termék vagy akár a termék egy aspektusa is) betöltheti. → 
korlátozott használati lehetőségek 
 Bár a korpusz készítői hangsúlyozzák, hogy kiszűrték azokat az eseteket, ahol nem a 
PERSON volt a target, a korpusz számos ilyen esetet tartalmaz; pl. 
Martonyi János leszögezte: noha a jelenlegi szlovák kormánykoalíció egyik 
pártjának vezetői gyakran elfogadhatatlan kijelentéseket tesznek, a magyar 
kormány nem ilyen stílusban fog reagálni (…) 
[http://www.belfoldihirek.com/belfold/martonyi-janos-szlovakiaba-latogat]
 A szentimentelemzésnek vannak olyan részfeladatai, amelyekkel ezek a 
projektek nem, vagy alig foglalkoznak; pl. 
 A szentimentek targetjeit hogyan találjuk meg? Pl. 
A Fanta jobb a Pepsinél. 
A formája nem győz meg, de a színe tetszik. 
Bár a töltő nem bírja sokáig, ez a telefon messze a legjobb mindközül. 
 Mit csinálunk azzal a számtalan esettel, ahol a szentiment felismeréséhez és helyes 
kezeléséhez a szótár önmagában nem elegendő? Pl. 
 a lexikai szintű értékjelentést (pl. jó, rossz, szép, csúnya) a szintaktikai szerkezetben 
módosulhat; pl. tagadás vagy egyéb módosító elemek által; pl. 
nem jó, elég jó, nem annyira jó, nem rossz, nem volt borzasztó 
 irreáló szerkezetben az érték nincs, vagy nem teljes; pl. 
a forma talán jó; jó a hangminőség?; nem hinném, hogy ez a Nokia jó 
 implicit értékjelentés; pl. irónia vagy az indirekt beszédaktusok: 
Ez az autó aztán egy igazi roncs!; Te el tudod képzelni, hogy ez a telefon 
jó? 
 Doménfüggés; pl. 
beolt ige – orvoslás vagy kertészet vs. politika 
 Target- vagy kontextusfüggés; pl. 
nagy melléknév – telefontöltő vs. számítógép-memória
 Beható és minden részletre kiterjedő elméleti nyelvészeti és 
nyelvtechnológiai kutatást végzünk, és minden megoldást a vizsgálatok 
tapasztalataira alapozunk! (targetek, tagadás, a nyelvi értékelés 
mibenléte, a szótárkészítés alapelvei, irreálás, intenzifikálás, a skalaritás 
kérdése stb., a vonatkozó magyar és nemzetközi irodalom 
feldolgozásával és felhasználásával) 
 Van kézzel annotált korpuszunk! 
 Van domén- és kontextusfüggetlen szótárunk! Benne 
o a nemzetközi trenddel ellentétben nem csupán melléknevek, hanem határozószók, 
igék és főnevek is szerepelnek; pl. 
szép, szépen, szépül, szépség 
o nem csupán egyszavas kifejezések, hanem frazeológiai egységek is 
megtalálhatóak; pl. 
értéktelen; egy fabatkát sem ér 
o vannak rétegnyelvi elemek is; pl. 
hómlessz; felakadt a lemez 
o vannak „puszta” konnotatív sajátságokkal rendelkező elemek is (vö. Bruno 1980: 
136; Feng et al. 2011; Liu 2012); pl. 
jutalom, vérengzés 
 Van olyan programunk, amelynek segítségével a kiinduló szótárat 8 
domén sajátságai szerint fejleszthetjük tovább!
szentiment-kifejezés 
szó többszavas 
kifejezés 
TÁBLÁZAT 1 
összes 
elem: 
pozitív 2700 309 3009 
negatív 6811 954 7765 
összes elem: 9511 1263 10774
Táblázat 2 
A pozitív szentimentkifejezéseket tartalmazó lexikon 
statisztikai adatai 
Táblázat 3 
A negatív szentimentkifejezéseket tartalmazó lexikon 
statisztikai adatai 
egyszavas 2700 
szófaj 
szerint: 
A 1175 
I 2 
M 1 
N 798 
P 1 
R 31 
V 454 
X 0 
többszavas 309 
összes 3009 
egyszavas 6811 
szófaj 
szerint: 
A 2241 
I 3 
M 4 
N 1940 
P 1 
R 154 
V 1934 
X 0 
többszavas 954 
összes 7765
Az alkalmazott 
szentimentlexikon 
Valamely szóalak vagy szótő 
megadása esetén csak 
azokat a mondatokat 
elemzi, amelyek az adott 
kifejezést tartalmazzák 
Opciók: 
Tudomány 
Bulvár 
Gazdaság 
Technológia 
Kultúra 
Sport 
Külpolitika 
Belpolitika
 A korpusz szöveganyagát a [http://divany.hu/] 
honlap termékvéleményeiből állítottuk össze. 
 A korpusz jelenleg összesen 111 szövegből áll, 
ami mintegy 13 000 mondatot és 190 000 
tokent tartalmaz. 
 A manuális annotálás keretében 
 a teljes értékelő kifejezést, 
 azon belül a pozitív és negatív polaritású 
szentimentkifejezéseket, 
 azok targetjeit, 
 a termékneveket topic-ként, 
 valamint a szentimentkifejezések esetleges siftereit 
jelöltük be a korpuszban.
annotált tag darabszám 
PosSentiment 603 
NegSentiment 743 
SentiWordPos 708 
SentiWordNeg 827 
Topic 169 
Target 528 
Negation 316 
IntensifierPlus 332 
IntensifierMinus 68 
Irreal 66 
OtherShifter 30 
ÖSSZESEN: 4390 
Táblázat 4
 A negatív véleményt megfogalmazó kifejezések (NegSentiment) 
többségben vannak a pozitív véleményt megfogalmazó 
kifejezésekkel (PosSentiment) szemben. Hasonló megoszlást 
találunk a puszta szentimentkifejezések (SentiWordNeg; 
SentiWordPos) között is. → Meglepő a Pollyanna-hipotézis 
tükrében (nyelvi univerzáléként tételezi a pozitív töltetű 
kifejezések magasabb arányát) 
 Az annotált korpuszrész 316 negáló kifejezést (Negation) 
tartalmaz (ebből 140 pozitív és 176 negatív polaritású 
véleményben szerepel) → jelentős előfordulási arány az összesen 
1346 azonosított szentimenthez képest! 
 Az összesen 1535 szentimentkifejezésből összesen 167 a saját 
szótári polaritásával ellentétes polaritású kifejezésben szerepel! 
→ A negáció kezelése jelentős javulást hozhat a 
szentimentelemzési hatékonyságban.
 Az emócióelemzés (emotion analysis) 
nem azonos a szentimentelemzéssel: a 
két feladat vizsgálati köre, s ezzel 
összefüggésben elméleti háttere teljesen 
eltér egymástól: az emócióelemzés 
során az érzelmeket kívánjuk detektálni a 
nyelvi produktumokban
 Újdonság! 
 Az emócióelemzéssel nemzetközi viszonylatban is 
kifejezetten csekély számú dolgozat foglalkozik. Bár az 
emóciók bizonyos tudományos diszciplínákban (pl. a 
pszichológiában és a viselkedéstudományban) kiemelt 
figyelmet kapnak, a természetesnyelv-feldolgozás 
területén nem → az emóciók automatikus kezelése kísérleti 
szakaszában jár (vö. Mulcrone 2012: 1). 
 Ami a magyar nyelvű szövegek emócióelemzését illeti: 
nincs tudomásunk olyan kutatásról, amely ennek a 
nyelvtechnológiai feladatnak a megoldását célozná + 
nem ismerünk egyetlen olyan dolgozatot sem, amely a 
problémakört az NLP szempontjából egyáltalán vizsgálná. 
A magyarra tehát mi vagyunk az elsők, de nemzetközi 
szinten is ritkaságnak számítunk!
 Gazdasági haszna lehet, hiszen 
› az érzelmek olyan tényezőkre adott reakciók, 
amelyek fontosnak tűnnek számunkra 
boldogulásunk, jólétünk szempontjából 
› az érzelmek gyakran olyan gyorsan jelentkeznek, 
hogy nem is vagyunk tudatában az érzelmi 
folyamatok pontos alakulásának (vö. Ekman 
2007) → az emóciótartalom feldolgozása eleddig 
rejtve maradt, értékes információkat hozhat a 
felszínre. 
 Az emóciók kezelése hatékony kiegészítője 
lehet a szentimentelemzésnek.
 Létrehoztunk egy emóciószótárat, Ekman és Friesen (1969) 
érzelemkategorizálási rendszerét alapul véve: 
BÁNAT, DÜH, FÉLELEM, 
MEGLEPŐDÉS, ÖRÖM 
és UNDOR 
 Létrehoztunk egy kézzel annotált emóciókorpuszt; 
tartalma: 2014-es év folyamán keletkezett tévés és mozis 
témájú blogoldalakról származó, különböző terjedelmű és 
szerzőségű kritikák, hírek és kommentek. A korpusz jelenleg 
15987 mondatból és 197707 tokenből áll, ebból 3911 
mondatot és 45955 tokent dolgoztunk fel eddig.
Táblázat 5
 A következőket jelöljük: 
› az emóciót megfogalmazó teljes 
szövegrészt, 
› azon belül a konkrét emóciókifejezést típusok 
szerint, 
› annak esetleges sifterét/siftereit típusok 
szerint, 
› azokat a kifejezéseket, amelyek valamely 
érzelem meglétére utalnak (pl. wow!, azta!, 
bakker), de nem köthetőek egyértelműen 
egyik érzelemtípushoz sem.
Táblázat 6
 Szorosabb kapcsolatot az SZTE-vel 
 Publikációkat, konferencia-előadásokat, 
posztokat:
Projekt Platform Mikor Hol Státusz 
PrecoSent Nyelv, kultúra, 
társadalom címmű 
alkalmazott nyelvészeti 
konferencia 
2014. 11. 04. Kodolányi János 
Főiskola, Budapest 
Előadás megtartva, 
cikkírás folyamatban. 
Határidő: 2015. 02.02. 
PrecoEmo Nyelv, kultúra, 
társadalom címmű 
alkalmazott nyelvészeti 
konferencia 
2014. 11. 04. Kodolányi János 
Főiskola, Budapest 
Előadás megtartva, 
cikkírás folyamatban. 
Határidő: 2015. 02.02. 
PrecoSent Nyelvészdoktoranduszok 18. 
Országos Konferenciája 
(LingDok) 
2014. 11. 21. Szegedi 
Tudományegyetem 
Bölcsészettudományi 
Kar, Szeged 
Előadás megtartva, 
cikkírás folyamatban. 
Határidő: 2015. 01.15. 
PrecoSent XI. Magyar Számítógépes 
Nyelvészeti Konferencia 
(MSZNY) 
2015. 01. 15-16. József Attila 
Tanulmányi és 
Információs Központ, 
Szeged 
Absztrakt előadás 
megtartására 
elfogadva, a cikk 
végső verziója a 
szerkesztőkhöz 
beküldve. 
PrecoSent IX. Alkalmazott Nyelvészeti 
Doktoranduszkonferencia 
2015. 02. 06. MTA Nyelvtudományi 
Intézete 
Absztrakt beküldve. 
PrecoSent 25. MANYE-kongresszus, 
címe: Nyelv – 
Nyelvtechnológia – 
Nyelvpedagógia: 21. századi 
távlatok 
2015. 03. 30. − 04. 01. Pázmány Péter 
Katolikus Egyetem 
Információs 
Technológiai és 
Bionikai Kara 
Absztrakt előadás 
megtartására 
elfogadva. 
PrecoEmo 25. MANYE-kongresszus, 
címe: Nyelv – 
Nyelvtechnológia – 
Nyelvpedagógia: 21. századi 
távlatok 
2015. 03. 30. − 04. 01. Pázmány Péter 
Katolikus Egyetem 
Információs 
Technológiai és 
Bionikai Kara 
Absztrakt előadás 
megtartására 
elfogadva.
 Berend, G.–Farkas, R. 2008. Opinion Mining in Hungarian based on textual and 
graphical clues, in Proceedings of the 4th Intern. Symposium on Data Mining and 
Intelligent Information Processing. Santander. 
 Bruno, F.J. 1980. Behaviour and Life: An Introduction to Psychology. New York, 
John Wiley and Sons. 
 Ekman P. 2007. Emotions revealed: recognizing faces and feelings to improve 
communication and emotional life. Revised edition. New York, St. Martin's Griffin. 
 Ekman, P.–Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, 
origins, usage, and coding. Semiotica 1. 49–98. 
 Feng, S.–Bose, R.–Choi, Y. 2011. Learning general connotation of words using 
graph-based algorithms, in Proceedings of Confernece on Empirical Methods in 
Natural Language Processing (EMNLP-2011) 
 Liu, B. 2012. Sentiment Analysis and Opinion Mining. Draft 
 Munk Sándor 2014. Szemantika az informatikában. Hadmérnök IX. 2. szám. 311– 
331. 
 Miháltz M. 2010. OpinHu: online szövegek többnyelvű véleményelemzése, in Ta-nács 
A.–Vincze V. szerk. VII. Magyar Számítógépes Nyelvészeti Konferencia 
(MSZNY 2010). SZTE, Szeged. 14–23. 
 Miháltz M. 2013. OpinHuBank: szabadon hozzáférhető annotált korpusz magyar 
nyelvű véleményelemzéshez, in Tanács A.–Vincze V. szerk. IX. Magyar Számítógé-pes 
Nyelvészeti Konferencia (MSZNY 2013), SZTE, Szeged. 343–345. 
 Munk Sándor 2014. Szemantika az informatikában. Hadmérnök IX. 2. szám. 311– 
331.
Szabó Martina: NLP nap

More Related Content

Viewers also liked

Viewers also liked (11)

3) summer camp 2013
3) summer camp 20133) summer camp 2013
3) summer camp 2013
 
PROGRAMACION BALONCESTO
PROGRAMACION  BALONCESTOPROGRAMACION  BALONCESTO
PROGRAMACION BALONCESTO
 
.
..
.
 
Confrontos sub 17
Confrontos sub 17Confrontos sub 17
Confrontos sub 17
 
Azaglu iziker.
Azaglu iziker.Azaglu iziker.
Azaglu iziker.
 
Midiakit.verdesmares lamina comercial_email
Midiakit.verdesmares lamina comercial_emailMidiakit.verdesmares lamina comercial_email
Midiakit.verdesmares lamina comercial_email
 
Roy eschenazi 21144129
Roy eschenazi 21144129Roy eschenazi 21144129
Roy eschenazi 21144129
 
Du maurier
Du maurierDu maurier
Du maurier
 
VC Startups
VC StartupsVC Startups
VC Startups
 
Oo 2_7[1]
Oo  2_7[1]Oo  2_7[1]
Oo 2_7[1]
 
Pesquisa 03 2015
Pesquisa 03   2015Pesquisa 03   2015
Pesquisa 03 2015
 

Similar to Szabó Martina: NLP nap

Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésének elméleti és...
Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésénekelméleti és...Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésénekelméleti és...
Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésének elméleti és...Zoltan Varju
 
Könyvtári tájékoztatási segédlet
Könyvtári tájékoztatási segédletKönyvtári tájékoztatási segédlet
Könyvtári tájékoztatási segédletFek.Rita
 
SzóKapTáR - Kollex
SzóKapTáR - KollexSzóKapTáR - Kollex
SzóKapTáR - Kollexkaroligerm
 
kommunikacio elmélet
 kommunikacio elmélet kommunikacio elmélet
kommunikacio elméletJózsef Orosz
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatZoltan Varju
 

Similar to Szabó Martina: NLP nap (6)

Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésének elméleti és...
Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésénekelméleti és...Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésénekelméleti és...
Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésének elméleti és...
 
Mt kti 03
Mt kti 03Mt kti 03
Mt kti 03
 
Könyvtári tájékoztatási segédlet
Könyvtári tájékoztatási segédletKönyvtári tájékoztatási segédlet
Könyvtári tájékoztatási segédlet
 
SzóKapTáR - Kollex
SzóKapTáR - KollexSzóKapTáR - Kollex
SzóKapTáR - Kollex
 
kommunikacio elmélet
 kommunikacio elmélet kommunikacio elmélet
kommunikacio elmélet
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
 

More from Zoltan Varju

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidZoltan Varju
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxZoltan Varju
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleZoltan Varju
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesZoltan Varju
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanZoltan Varju
 
Szövegbányászat
SzövegbányászatSzövegbányászat
SzövegbányászatZoltan Varju
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Zoltan Varju
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelvZoltan Varju
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédZoltan Varju
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekZoltan Varju
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésZoltan Varju
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...Zoltan Varju
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Zoltan Varju
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Zoltan Varju
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasniZoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaZoltan Varju
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeZoltan Varju
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezZoltan Varju
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
 

More from Zoltan Varju (20)

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entities
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben
 

Szabó Martina: NLP nap

  • 1.
  • 2.  2003−2010. (január): magyar nyelv és irodalom szakos bölcsész és tanár (Szegedi Tudományegyetem Bölcsészettudományi Kar)  2003−2010. (június) orosz nyelv és irodalom szakos bölcsész és tanár (Szegedi Tudományegyetem Bölcsészettudományi Kar)  2008−2012. (január): magyar mint idegen nyelv tanár / hungarológia (Szegedi Tudományegyetem Bölcsészettudományi Kar)  2010− Magyar Nyelvészet PhD-Program (Szegedi Tudományegyetem Bölcsészettudományi Kar, Nyelvtudományi Doktori Iskola)  2012. november 27. − 2013. szeptember 27.PhD-részképzés, Moszkva. (Национальный исследовательский университет «Высшая школа экономики» (НГУ-ВШЭ) (National Research University - Higher School of Economics))  2013. (június) PhD-abszolutórium megszerzése
  • 3.  2014 márciusa óta  Belső projektek: › Szentimentelemzés magyar nyelvre › Emócióelemzés magyar nyelvre (tervezés, szervezés, projektvezetés, kutatómunka, beszámolók készítése, konferenciázások, cikkek írása stb.)  Külső projektek: › Artklikk › NER › Sanoma (Jobmonitor) › Hulladékgazdálkodás  (kutatómunka, beszámolók készítése, adatszűrés)
  • 4.  A szentimentelemzés olyan számítógépes nyelvészeti feladat, amely arra irányul, hogy  Az értékelést, az értékelő tartalmakat megtalálja a a szövegekben,  meghatározza ezeknek az értékeknek a típusát,  valamint megállapítsa azok tárgyát, tehát azt, hogy az értékelés mire irányul.  Egy egyszerű példa: A szentimentelemzés bonyolult feladat.  A magyar nyelvű irodalomban: szentimentelemzés vagy véleménykivonatolás  Az angol nyelvű irodalomban: sentiment analysis, opinion mining, opinion extraction, sentiment mining, review mining stb. (vö. Liu 2012: 7)
  • 5. Számtalan szociális háló, blog, fórum és egyéb webes forrás → hatalmas mennyiségű, elektronikus formájú szöveg Kihívás a nyelvészeti kutatások és a nyelvtechnológia szempontjából: vö. „A Szemantikus Web víziója” (Munk 2014) A gazdasági oldal felől támasztott igény, pl.:  a tőzsdeindex mozgásának előrejelzése;  a fogyasztói csoport benyomásai, tapasztalatai bizonyos termékek és szolgáltatások vonatkozásában;  a fogyasztói csoport igényeinek detektálása;  politikusokkal, politikai eseményekkel kapcsolatos attitűdök felmérése;  választási előrejelzések  stb.
  • 6.  Az Opinhu rendszer (Miháltz 2010), illetve az OpinHuBank projekt (Miháltz 2012): internetes hírportálokon, blogokon és közösségi oldalakon publikált szövegek szentiment- annotálására törekszik automatikus és manuális megoldások segítségével;  Neticle ― Szekeres Péter  Berend és Farkas (2008): a kettős állampolgárság témájához kapcsolódó szövegek gépi tanuláson alapuló feldolgozását célozza;
  • 7.
  • 8.  A teszteléshez és fejlesztéshez manuálisan annotált korpusz kell! Ez  vagy nincs (Neticle),  vagy egyszerűen nem megfelelő fejlesztési és tesztelési célokra (OpinHuBank).  Problémák az OpinHuBank korpusszal:  A szentimentkifejezéseket egyenként nem annotálták a korpusz építői: a szentimentértékeket a mondatok vagy a tagmondatok szintjén határozták meg.  Az annotátoroknak az aktuális mondat szentimentértékéről a mondatban szereplő tulajdonnévi entitás (PERSON) viszonylatában kellett döntést hozniuk: arra kérték őket, hogy ítéljék meg, vajon pozitív vagy negatív ítéletet fejez-e ki az elemzett mondat a bennfoglalt PERSON vonatkozásában. DE!! A szentiment targetjének szerepét a mondatban a személynéven kívül számtalan elem (pl. egy hely, egy esemény, egy termék vagy akár a termék egy aspektusa is) betöltheti. → korlátozott használati lehetőségek  Bár a korpusz készítői hangsúlyozzák, hogy kiszűrték azokat az eseteket, ahol nem a PERSON volt a target, a korpusz számos ilyen esetet tartalmaz; pl. Martonyi János leszögezte: noha a jelenlegi szlovák kormánykoalíció egyik pártjának vezetői gyakran elfogadhatatlan kijelentéseket tesznek, a magyar kormány nem ilyen stílusban fog reagálni (…) [http://www.belfoldihirek.com/belfold/martonyi-janos-szlovakiaba-latogat]
  • 9.  A szentimentelemzésnek vannak olyan részfeladatai, amelyekkel ezek a projektek nem, vagy alig foglalkoznak; pl.  A szentimentek targetjeit hogyan találjuk meg? Pl. A Fanta jobb a Pepsinél. A formája nem győz meg, de a színe tetszik. Bár a töltő nem bírja sokáig, ez a telefon messze a legjobb mindközül.  Mit csinálunk azzal a számtalan esettel, ahol a szentiment felismeréséhez és helyes kezeléséhez a szótár önmagában nem elegendő? Pl.  a lexikai szintű értékjelentést (pl. jó, rossz, szép, csúnya) a szintaktikai szerkezetben módosulhat; pl. tagadás vagy egyéb módosító elemek által; pl. nem jó, elég jó, nem annyira jó, nem rossz, nem volt borzasztó  irreáló szerkezetben az érték nincs, vagy nem teljes; pl. a forma talán jó; jó a hangminőség?; nem hinném, hogy ez a Nokia jó  implicit értékjelentés; pl. irónia vagy az indirekt beszédaktusok: Ez az autó aztán egy igazi roncs!; Te el tudod képzelni, hogy ez a telefon jó?  Doménfüggés; pl. beolt ige – orvoslás vagy kertészet vs. politika  Target- vagy kontextusfüggés; pl. nagy melléknév – telefontöltő vs. számítógép-memória
  • 10.  Beható és minden részletre kiterjedő elméleti nyelvészeti és nyelvtechnológiai kutatást végzünk, és minden megoldást a vizsgálatok tapasztalataira alapozunk! (targetek, tagadás, a nyelvi értékelés mibenléte, a szótárkészítés alapelvei, irreálás, intenzifikálás, a skalaritás kérdése stb., a vonatkozó magyar és nemzetközi irodalom feldolgozásával és felhasználásával)  Van kézzel annotált korpuszunk!  Van domén- és kontextusfüggetlen szótárunk! Benne o a nemzetközi trenddel ellentétben nem csupán melléknevek, hanem határozószók, igék és főnevek is szerepelnek; pl. szép, szépen, szépül, szépség o nem csupán egyszavas kifejezések, hanem frazeológiai egységek is megtalálhatóak; pl. értéktelen; egy fabatkát sem ér o vannak rétegnyelvi elemek is; pl. hómlessz; felakadt a lemez o vannak „puszta” konnotatív sajátságokkal rendelkező elemek is (vö. Bruno 1980: 136; Feng et al. 2011; Liu 2012); pl. jutalom, vérengzés  Van olyan programunk, amelynek segítségével a kiinduló szótárat 8 domén sajátságai szerint fejleszthetjük tovább!
  • 11. szentiment-kifejezés szó többszavas kifejezés TÁBLÁZAT 1 összes elem: pozitív 2700 309 3009 negatív 6811 954 7765 összes elem: 9511 1263 10774
  • 12. Táblázat 2 A pozitív szentimentkifejezéseket tartalmazó lexikon statisztikai adatai Táblázat 3 A negatív szentimentkifejezéseket tartalmazó lexikon statisztikai adatai egyszavas 2700 szófaj szerint: A 1175 I 2 M 1 N 798 P 1 R 31 V 454 X 0 többszavas 309 összes 3009 egyszavas 6811 szófaj szerint: A 2241 I 3 M 4 N 1940 P 1 R 154 V 1934 X 0 többszavas 954 összes 7765
  • 13. Az alkalmazott szentimentlexikon Valamely szóalak vagy szótő megadása esetén csak azokat a mondatokat elemzi, amelyek az adott kifejezést tartalmazzák Opciók: Tudomány Bulvár Gazdaság Technológia Kultúra Sport Külpolitika Belpolitika
  • 14.
  • 15.
  • 16.  A korpusz szöveganyagát a [http://divany.hu/] honlap termékvéleményeiből állítottuk össze.  A korpusz jelenleg összesen 111 szövegből áll, ami mintegy 13 000 mondatot és 190 000 tokent tartalmaz.  A manuális annotálás keretében  a teljes értékelő kifejezést,  azon belül a pozitív és negatív polaritású szentimentkifejezéseket,  azok targetjeit,  a termékneveket topic-ként,  valamint a szentimentkifejezések esetleges siftereit jelöltük be a korpuszban.
  • 17.
  • 18.
  • 19. annotált tag darabszám PosSentiment 603 NegSentiment 743 SentiWordPos 708 SentiWordNeg 827 Topic 169 Target 528 Negation 316 IntensifierPlus 332 IntensifierMinus 68 Irreal 66 OtherShifter 30 ÖSSZESEN: 4390 Táblázat 4
  • 20.  A negatív véleményt megfogalmazó kifejezések (NegSentiment) többségben vannak a pozitív véleményt megfogalmazó kifejezésekkel (PosSentiment) szemben. Hasonló megoszlást találunk a puszta szentimentkifejezések (SentiWordNeg; SentiWordPos) között is. → Meglepő a Pollyanna-hipotézis tükrében (nyelvi univerzáléként tételezi a pozitív töltetű kifejezések magasabb arányát)  Az annotált korpuszrész 316 negáló kifejezést (Negation) tartalmaz (ebből 140 pozitív és 176 negatív polaritású véleményben szerepel) → jelentős előfordulási arány az összesen 1346 azonosított szentimenthez képest!  Az összesen 1535 szentimentkifejezésből összesen 167 a saját szótári polaritásával ellentétes polaritású kifejezésben szerepel! → A negáció kezelése jelentős javulást hozhat a szentimentelemzési hatékonyságban.
  • 21.
  • 22.  Az emócióelemzés (emotion analysis) nem azonos a szentimentelemzéssel: a két feladat vizsgálati köre, s ezzel összefüggésben elméleti háttere teljesen eltér egymástól: az emócióelemzés során az érzelmeket kívánjuk detektálni a nyelvi produktumokban
  • 23.  Újdonság!  Az emócióelemzéssel nemzetközi viszonylatban is kifejezetten csekély számú dolgozat foglalkozik. Bár az emóciók bizonyos tudományos diszciplínákban (pl. a pszichológiában és a viselkedéstudományban) kiemelt figyelmet kapnak, a természetesnyelv-feldolgozás területén nem → az emóciók automatikus kezelése kísérleti szakaszában jár (vö. Mulcrone 2012: 1).  Ami a magyar nyelvű szövegek emócióelemzését illeti: nincs tudomásunk olyan kutatásról, amely ennek a nyelvtechnológiai feladatnak a megoldását célozná + nem ismerünk egyetlen olyan dolgozatot sem, amely a problémakört az NLP szempontjából egyáltalán vizsgálná. A magyarra tehát mi vagyunk az elsők, de nemzetközi szinten is ritkaságnak számítunk!
  • 24.  Gazdasági haszna lehet, hiszen › az érzelmek olyan tényezőkre adott reakciók, amelyek fontosnak tűnnek számunkra boldogulásunk, jólétünk szempontjából › az érzelmek gyakran olyan gyorsan jelentkeznek, hogy nem is vagyunk tudatában az érzelmi folyamatok pontos alakulásának (vö. Ekman 2007) → az emóciótartalom feldolgozása eleddig rejtve maradt, értékes információkat hozhat a felszínre.  Az emóciók kezelése hatékony kiegészítője lehet a szentimentelemzésnek.
  • 25.  Létrehoztunk egy emóciószótárat, Ekman és Friesen (1969) érzelemkategorizálási rendszerét alapul véve: BÁNAT, DÜH, FÉLELEM, MEGLEPŐDÉS, ÖRÖM és UNDOR  Létrehoztunk egy kézzel annotált emóciókorpuszt; tartalma: 2014-es év folyamán keletkezett tévés és mozis témájú blogoldalakról származó, különböző terjedelmű és szerzőségű kritikák, hírek és kommentek. A korpusz jelenleg 15987 mondatból és 197707 tokenből áll, ebból 3911 mondatot és 45955 tokent dolgoztunk fel eddig.
  • 27.  A következőket jelöljük: › az emóciót megfogalmazó teljes szövegrészt, › azon belül a konkrét emóciókifejezést típusok szerint, › annak esetleges sifterét/siftereit típusok szerint, › azokat a kifejezéseket, amelyek valamely érzelem meglétére utalnak (pl. wow!, azta!, bakker), de nem köthetőek egyértelműen egyik érzelemtípushoz sem.
  • 29.  Szorosabb kapcsolatot az SZTE-vel  Publikációkat, konferencia-előadásokat, posztokat:
  • 30. Projekt Platform Mikor Hol Státusz PrecoSent Nyelv, kultúra, társadalom címmű alkalmazott nyelvészeti konferencia 2014. 11. 04. Kodolányi János Főiskola, Budapest Előadás megtartva, cikkírás folyamatban. Határidő: 2015. 02.02. PrecoEmo Nyelv, kultúra, társadalom címmű alkalmazott nyelvészeti konferencia 2014. 11. 04. Kodolányi János Főiskola, Budapest Előadás megtartva, cikkírás folyamatban. Határidő: 2015. 02.02. PrecoSent Nyelvészdoktoranduszok 18. Országos Konferenciája (LingDok) 2014. 11. 21. Szegedi Tudományegyetem Bölcsészettudományi Kar, Szeged Előadás megtartva, cikkírás folyamatban. Határidő: 2015. 01.15. PrecoSent XI. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY) 2015. 01. 15-16. József Attila Tanulmányi és Információs Központ, Szeged Absztrakt előadás megtartására elfogadva, a cikk végső verziója a szerkesztőkhöz beküldve. PrecoSent IX. Alkalmazott Nyelvészeti Doktoranduszkonferencia 2015. 02. 06. MTA Nyelvtudományi Intézete Absztrakt beküldve. PrecoSent 25. MANYE-kongresszus, címe: Nyelv – Nyelvtechnológia – Nyelvpedagógia: 21. századi távlatok 2015. 03. 30. − 04. 01. Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kara Absztrakt előadás megtartására elfogadva. PrecoEmo 25. MANYE-kongresszus, címe: Nyelv – Nyelvtechnológia – Nyelvpedagógia: 21. századi távlatok 2015. 03. 30. − 04. 01. Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kara Absztrakt előadás megtartására elfogadva.
  • 31.  Berend, G.–Farkas, R. 2008. Opinion Mining in Hungarian based on textual and graphical clues, in Proceedings of the 4th Intern. Symposium on Data Mining and Intelligent Information Processing. Santander.  Bruno, F.J. 1980. Behaviour and Life: An Introduction to Psychology. New York, John Wiley and Sons.  Ekman P. 2007. Emotions revealed: recognizing faces and feelings to improve communication and emotional life. Revised edition. New York, St. Martin's Griffin.  Ekman, P.–Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica 1. 49–98.  Feng, S.–Bose, R.–Choi, Y. 2011. Learning general connotation of words using graph-based algorithms, in Proceedings of Confernece on Empirical Methods in Natural Language Processing (EMNLP-2011)  Liu, B. 2012. Sentiment Analysis and Opinion Mining. Draft  Munk Sándor 2014. Szemantika az informatikában. Hadmérnök IX. 2. szám. 311– 331.  Miháltz M. 2010. OpinHu: online szövegek többnyelvű véleményelemzése, in Ta-nács A.–Vincze V. szerk. VII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2010). SZTE, Szeged. 14–23.  Miháltz M. 2013. OpinHuBank: szabadon hozzáférhető annotált korpusz magyar nyelvű véleményelemzéshez, in Tanács A.–Vincze V. szerk. IX. Magyar Számítógé-pes Nyelvészeti Konferencia (MSZNY 2013), SZTE, Szeged. 343–345.  Munk Sándor 2014. Szemantika az informatikában. Hadmérnök IX. 2. szám. 311– 331.