Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
Beginning on June 10, 2014 and ending on October 29, 2014 Booz Allen Hamilton will post content related to its sponsorship of the Degas/Cassatt exhibition displayed at the National Gallery of Art via Booz Allen’s Facebook page. Eligible Facebook users who “like” these posts will be entered to win various prizes in monthly random drawings from among eligible entries received (for alternative method of entry please see rules).
Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
Beginning on June 10, 2014 and ending on October 29, 2014 Booz Allen Hamilton will post content related to its sponsorship of the Degas/Cassatt exhibition displayed at the National Gallery of Art via Booz Allen’s Facebook page. Eligible Facebook users who “like” these posts will be entered to win various prizes in monthly random drawings from among eligible entries received (for alternative method of entry please see rules).
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezZoltan Varju
A felügyelt gépi tanulási módszerek alkalmazásához nagyméretű annotált korpuszokra van szükség, amelyek előállítása rendkívül emberierőforrás-igényes. Több lehetőség van az annotációs költségek csökkentésére, ezek közül az egyik az automatikus annotálás. Az előadásban egy olyan nyelvfüggetlen módszert mutatunk be, mellyel bármely Wikipédiával rendelkező nyelvre előállítható tulajdonnévi címkéket tartalmazó korpusz. Az automatikus annotálás során a DBpedia ontológiai kategóriáit képeztük le CoNLL-névosztályokra. Az így előállított magyar és angol nyelvű korpuszok ugyan silver standard korpuszok, de a kiértékelésünk alapján hasonlóan jól használhatók felügyelt névfelismerő rendszerek tanításához és kiértékeléséhez, mint a gold standard korpuszok.
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
A szövegekben található információk hatékony kinyeréséhez számos nyelvi jelenséget tudnunk kell kezelni, mint például tulajdonnevek és névelemek, többszavas kifejezések, nyelvi bizonytalanság és szubjektivitás. Az előadásban bemutatjuk azokat a Szegeden készült korpuszokat, amelyek különböző doménekből és nyelvekből származó szövegeket tartalmaznak, és bennük nyelvész szakértők kézzel megjelölték az előbb említett jelenségeket, így tanító és tesztadatbázisként szolgálhatnak az információkinyerő rendszerek különböző moduljaihoz.
A Magyar WordNet (HuWN) a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.). A HuWN szabadon hozzáférhető.
A kétnyelvű szótárak fontos építőelemei számos NLP alkalmazásnak, azonban előállításuk rendkívül idő- és pénzigényes, ezért az automatikus szótárépítés egyre nagyobb szerepet kap. Bemutatunk egy nyelvfüggetlen módszert, amelynek segítségével a Wiktionaryből kiindulva 53 nyelven összesen 1378 szótárat készült, köztük valószínüleg az első, gép által is olvasható magyar-vietnámi szótár.
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetZoltan Varju
Mondataink jelentős része úgy épül fel, hogy egy központi ige körül rendeződnek el az ige különféle bővítményei. Pl.: elrendeződik + mi? bővítmény + mi körül? ige körül. Az ilyen „mondatvázakat'' nevezzük igei szerkezeteknek, tartalmazzanak vonzatot (hisz vmiben), konkrét szókapcsolatot (döntés születik) vagy akár a kettő kombinációját (igényt tart vmire). Az előadás egy nyelvi erőforrást mutat be: magyar igei szerkezetek korpuszból automatikusan kinyert igen jelentős méretű gyűjteményét. Ez a gyűjtemény információt ad az igék és a bővítmények szokásos viselkedéséről, tulajdonságairól, a szelekciós preferenciákról, így hasznos lehet magyar nyelvű szöveg tartalmi, szemantikai feldolgozása során. A fentit egészíti ki egy másik erőforrás: a 28 millió sekély elemzéssel ellátott tagmondatból álló korpusz, melyből az igei szerkezetek származnak. Kutatási célra szabadon, üzleti célra egyedi megállapodás keretében férhetők hozzá.
2. TARTALOM
MI AZ A LÁTENS DIRICHLET ALLOKÁCIÓ?
HOGYAN NÉZ KI A HASZNÁLATA EGY
NAGYJÁBÓL 10.000-ES KORPUSZON?
HOGYAN LEHET VIZUALIZÁLNI A TÉMÁKAT?
3. A TOPIK MODELLEK ÉS A LÁTENS DIRICHLET ALLOKÁCIÓ
MIÉRT?
Nagy mennyiségű címkézetlen dokumentum
pl. jogi, üzleti dokumentumok, cikkek, emailek
Probléma: Miről szólnak? Milyen csoportokra oszthatók?
Klaszterezés?
Sokszor nehezen értelmezhető csoportok
Topik modellek!
Természetes tematikus csoportok
Legegyszerűbb, legtöbbet használt: látens Dirichlet allokáció (LDA)
4. A LÁTENS DIRICHLET ALLOKÁCIÓ
MIT TUDUNK MEG?
OUTPUTINPUT
dokumentumok témaeloszlása
témák szóeloszlása
dokumentumok szavai
témák száma (K)
Szeretem a narancsot és az almát.
Reggelire müzlit és almát készítek.
A lamantinok és a kutyák aranyosak.
A kutyám tegnap megevett
egy narancsot a tállal együtt.
Nézd azt az aranyos sünit,
hogyan rágcsálja az almát!
narancs
alma
reggeli
0.18
0.15
0.09
kutya
aranyos
lamantin
...
0.26
0.15
0.12
TOPIK 1
TOPIK 2
TOPIK K
5. A LÁTENS DIRICHLET ALLOKÁCIÓ
HOGYAN TANULJA MEG?
közelítő algoritmusok, pl. Gibbs mintavételezés
6. A LÁTENS DIRICHLET ALLOKÁCIÓ
MIRE LEHET HASZNÁLNI?
dokumentumok szervezése
összegzés
szövegekben való keresés
diskurzuselemzés
témák időbeli változásának követése
8. LDA ALKALMAZÁSI PÉLDA
HASZNÁLT ESZKÖZÖK
LDA EGYÉB ESZKÖZÖKBEN
MALLET
LDA
Python
adatgyűjtés, adatfeldolgozás
magyarlánc
nyelvi elemzés
R
témák időbeli változása
Python Gensim
R topicmodels és lda
Mahout
Spark
9. LDA ALKALMAZÁSI PÉLDA
ADATGYŰJTÉS, ADATFELDOLGOZÁS
cikkek legyűjtése
cikkekhez tartozó időbélyeg kinyerése
nyelvi elemzés magyarlánccal (sztemmelés, POS)
POS tagek szerinti szűrés
stopszavazás
10. LDA ALKALMAZÁSI PÉLDA
TOPIKOK SZÁMA
romareprezentációs
szakirodalom
Messing – Bernáth (1998,
2003, 2012) által használt
témastruktúra – 15 téma
harmonikus átlag
módszere – 27 topik
11. LDA ALKALMAZÁSI PÉLDA
ÖSSZEVETÉS KVALITATÍV EREDMÉNYEKKEL
ÉS KIÉRTÉKELÉS
témastruktúra megfeleltethető
a szakirodalomban használtnak
humán kiértékelés 600 cikken,
recall = 74%, precesion = 55%