Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezZoltan Varju
A felügyelt gépi tanulási módszerek alkalmazásához nagyméretű annotált korpuszokra van szükség, amelyek előállítása rendkívül emberierőforrás-igényes. Több lehetőség van az annotációs költségek csökkentésére, ezek közül az egyik az automatikus annotálás. Az előadásban egy olyan nyelvfüggetlen módszert mutatunk be, mellyel bármely Wikipédiával rendelkező nyelvre előállítható tulajdonnévi címkéket tartalmazó korpusz. Az automatikus annotálás során a DBpedia ontológiai kategóriáit képeztük le CoNLL-névosztályokra. Az így előállított magyar és angol nyelvű korpuszok ugyan silver standard korpuszok, de a kiértékelésünk alapján hasonlóan jól használhatók felügyelt névfelismerő rendszerek tanításához és kiértékeléséhez, mint a gold standard korpuszok.
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
A szövegekben található információk hatékony kinyeréséhez számos nyelvi jelenséget tudnunk kell kezelni, mint például tulajdonnevek és névelemek, többszavas kifejezések, nyelvi bizonytalanság és szubjektivitás. Az előadásban bemutatjuk azokat a Szegeden készült korpuszokat, amelyek különböző doménekből és nyelvekből származó szövegeket tartalmaznak, és bennük nyelvész szakértők kézzel megjelölték az előbb említett jelenségeket, így tanító és tesztadatbázisként szolgálhatnak az információkinyerő rendszerek különböző moduljaihoz.
A Magyar WordNet (HuWN) a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.). A HuWN szabadon hozzáférhető.
A kétnyelvű szótárak fontos építőelemei számos NLP alkalmazásnak, azonban előállításuk rendkívül idő- és pénzigényes, ezért az automatikus szótárépítés egyre nagyobb szerepet kap. Bemutatunk egy nyelvfüggetlen módszert, amelynek segítségével a Wiktionaryből kiindulva 53 nyelven összesen 1378 szótárat készült, köztük valószínüleg az első, gép által is olvasható magyar-vietnámi szótár.
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezZoltan Varju
A felügyelt gépi tanulási módszerek alkalmazásához nagyméretű annotált korpuszokra van szükség, amelyek előállítása rendkívül emberierőforrás-igényes. Több lehetőség van az annotációs költségek csökkentésére, ezek közül az egyik az automatikus annotálás. Az előadásban egy olyan nyelvfüggetlen módszert mutatunk be, mellyel bármely Wikipédiával rendelkező nyelvre előállítható tulajdonnévi címkéket tartalmazó korpusz. Az automatikus annotálás során a DBpedia ontológiai kategóriáit képeztük le CoNLL-névosztályokra. Az így előállított magyar és angol nyelvű korpuszok ugyan silver standard korpuszok, de a kiértékelésünk alapján hasonlóan jól használhatók felügyelt névfelismerő rendszerek tanításához és kiértékeléséhez, mint a gold standard korpuszok.
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
A szövegekben található információk hatékony kinyeréséhez számos nyelvi jelenséget tudnunk kell kezelni, mint például tulajdonnevek és névelemek, többszavas kifejezések, nyelvi bizonytalanság és szubjektivitás. Az előadásban bemutatjuk azokat a Szegeden készült korpuszokat, amelyek különböző doménekből és nyelvekből származó szövegeket tartalmaznak, és bennük nyelvész szakértők kézzel megjelölték az előbb említett jelenségeket, így tanító és tesztadatbázisként szolgálhatnak az információkinyerő rendszerek különböző moduljaihoz.
A Magyar WordNet (HuWN) a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.). A HuWN szabadon hozzáférhető.
A kétnyelvű szótárak fontos építőelemei számos NLP alkalmazásnak, azonban előállításuk rendkívül idő- és pénzigényes, ezért az automatikus szótárépítés egyre nagyobb szerepet kap. Bemutatunk egy nyelvfüggetlen módszert, amelynek segítségével a Wiktionaryből kiindulva 53 nyelven összesen 1378 szótárat készült, köztük valószínüleg az első, gép által is olvasható magyar-vietnámi szótár.
1. Milyenek a trollok?
Petykó Márton
Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar
MTA Nyelvtudományi Intézet
Hungarian Natural Language Processing Meetup
2014.05.28.
2. Bevezetés
• Az internetes troll:
– a CMC egyik jellegzetes identitása
– a számítógép közvetítette társalgások egyik résztvevője
– célja a közösség és a társalgás bomlasztása és konfliktus(ok)
előidézése főként a saját szórakoztatására (Hardaker 2010, 2013)
• A számítógép közvetítette társalgások egyes résztvevői mi
alapján, hogyan és milyen céllal azonosítanak internetes
trollként más résztvevőket?
3. A vizsgált társalgások
• A korpusz:
– 40 magyar politikai blog összesen 200 posztja és azok kommentjei
– 2010 és 2012 között keletkezett társalgások
– Legalább egy résztvevő legalább egyszer trollnak nevez legalább
egy másik résztvevőt
• Fontos szerepe van a résztvevők pártpreferenciáinak, politikai
ideológiáinak és a számukra fontos politikai témáknak
• Ezek befolyásolják a társalgási normákat
• A résztvevők jellemzően nem ismerik egymást, közös tevékenységük
alkalmi és kizárólag nyelvi jellegű
• Egymás megnyilatkozásai és a világról való előzetes tudásuk alapján
következtetnek egymás vélekedéseire és szándékaira
4. Kognitív pragmatikai elemzés
• A résztvevők által végrehajtott mentális műveletek
rekonstrukciója a megnyilatkozásaik alapján
• Egy megnyilatkozás megértése:
– mentális műveletsor
– kontextusképzés: mentális modell létrehozása, amely kapcsolatot
teremt a világról való előzetes tudás és a megnyilatkozás között
(Sperber–Wilson 1986/1995)
– implicit vélekedés- és szándéktulajdonítás (Pléh 2008: 15–20)
– diszkurzív közösség- és identitásképzés (Petykó 2013, 2014)
5. A világról való előzetes tudás
A közösségek mint aktuális
fogalmi kategóriák
létrehozása
A megnyilatkozó aktuális
mentális reprezentációjának
létrehozása
A másik résztvevő megnyilatkozása
A megnyilatkozás
alapszintű értelmezése
A megnyilatkozó aktuális
identitásainak létrehozása
Közösségek
A másik
résztvevő
6. Egy esettanulmány
(1a) A: Én Orbán Viktorra fogok szavazni 2014-ben! Kislány voltam még, amikor a
Mária Valéria híd átadásosakor (2001) Orbán Viktor megsimogatta az arcomat.
Ezt a gesztusát sohasem fogom elfelejteni. Csodálatos, felkavaró élmény volt.
Veled vagyunk Viktor!
(1b) B: [A-nak címezve] ez [ti. az (1a) megnyilatkozás] annyira perverz (középkorú
diktátor gyereklányokat tapiz, a leány ettől felkavaró élményt él át), ráadásul
annyira nem illik a poszthoz, hogy kénytelen vagyok viccként értelmezni.
annak mondjuk nem jó.
(1c) C: [A-nak címezve] A, a kérdés az hogy Ön már akkor, gyermekként is terhelt
volt mentálisan, vagy a simogatás hatására lett az később, az eredményes kezelés
szempontjából ezt jó lenne majd tisztáznia
(1d) D: [A-nak címezve] [...] Egyébként átlátok a szitán! Biztos csak maró gúny ez a
[(1a) megnyilatkozásban megvalósított] szerep, mert ilyen hülye senki nem
lehet. ;-)
(1e) E: de sokan nem ismerik fel ha valaki [ti. A] ironizál.
(1f) F: A egy primitív troll, [B-nek, C-nek, D-nek és E-nek címezve] ne etessétek
[A-t] válaszokkal!
Fideszfigyelő: Állami pénz, Mahir, Békemenet reklám?
fideszfigyelo.blog.hu/2012/03/11/allami_penz_mahir_bekemenet_reklam
7. 1. Az (1a) megnyilatkozás alapszintű értelmezése
(1a) A: Én Orbán Viktorra fogok szavazni 2014-ben! Kislány voltam
még, amikor a Mária Valéria híd átadásosakor (2001) Orbán Viktor
megsimogatta az arcomat. Ezt a gesztusát sohasem fogom
elfelejteni. Csodálatos, felkavaró élmény volt. Veled vagyunk
Viktor!
• Állító beszédaktusok sora
• Az állítások B, C, D, E és F nézőpontjából sértik a Fideszfigyelő blog
társalgási normáit
• A társalgás résztvevőinek túlnyomó többsége által erőteljesen
elutasított politikus kiemelkedően pozitív értékelése
• A társalgás témájához nem kötődő állítások
• Miért mondhatta ezt A pont a Fideszfigyelő blogon?
8.
9. 2. A aktuális mentális reprezentációjának létrehozása
• Szándéktulajdonítás
• Az egyes résztvevők különböző szándékokat tulajdonítanak A-nak az
(1a) megnyilatkozás alapján
• Az A-t trollnak nevező F szerint:
• A azért fogalmazza meg az (1a)-ban szereplő állításokat, mert
tudatosan meg akarja sérteni a túlnyomó többségében baloldali
hozzászólók által látogatott Fideszfigyelő blognak az egyik alapvető
társalgási normáját.
• A azért akarja megsérteni ezt a normát, mert sokkolni akarja a
blogon zajló társalgás résztvevőit.
• A azért akarja sokkolni a többi résztvevőt, mert az a célja, hogy
konfliktust idézzen elő, illetve bomlassza a társalgást és a
közösséget.
• A emellett azért fogalmazza meg az (1a)-ban szereplő állításokat, mert
el akarja téríteni a társalgást az eredeti témájától
• A azért akarja eltéríteni a társalgást az eredeti témájától, mert az a
célja, hogy bomlassza a társalgást.
10. 3. A troll mint közösség mentális aktiválása
• Az F által A-nak tulajdonított szándékok
• F a trollokkal kapcsolatos előzetes tudása
• Ezek hasonlósága
• A hasonlóság alapján a troll mint közösség fogalmi
kategóriájának aktiválása
11. 4. A aktuális troll identitásának létrehozása
• F a troll mint fogalmi kategória aktuális tagjaként azonosítja
A-t
• Következmények:
– Kapcsolatteremtés az (1a) megnyilatkozás és F a világról való
előzetes tudása között
– Az (1a) megnyilatkozás kielégítő értelmezése
– Módosul F a trollokkal és A-val kapcsolatos tudása
12. Következtetések
A megnyilatkozás kielégítő értelmezése
A megnyilatkozó trollként való azonosítása
A troll fogalmi kategóriájának aktiválása
A megnyilatkozónak tulajdonított szándékok
A megnyilatkozás tulajdonságai, amelyek sértik a társalgás
normáit
14. Irodalom
Hardaker, Claire 2010. Trolling in asynchronous computer-mediated
communication: From user discussions to academic definitions. Journal of
Politeness Research. Language, Behaviour, Culture 2010/2: 215–242.
Hardaker, Claire 2013. "Uh.....not to be nitpicky,,,,,but...the past tense of drag is
dragged, not drug.": an overview of trolling strategies. Journal of Language
Aggression and Conflict 2013/1: 57–86.
Petykó Márton 2013. Az internetes troll mint identitás kialakítása politikai blogok
diskurzusaiban. Magyar Nyelvőr 2013/3: 274–313.
Petykó Márton 2014. A diszkurzív közösség- és identitásképzés szociokognitív
modellje felé. In: Havas Ferenc–Horváth Katalin–Kugler Nóra–Vladár Zsuzsa
(szerk.): Nyelvben a világ. Tanulmányok Ladányi Mária tiszteletére. Tinta
Könyvkiadó. Budapest. 361–368.
Pléh Csaba 2008. A pszichológia örök témái. Typotex Kiadó. Budapest.
Sperber, Dan–Wilson, Deirdre 1986/1995. Relevance: communication and
cognition. Blackweil. Oxford.