Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
7 Tips for Design Teams Collaborating RemotelyFramebench
So you're working with a remote team? Super cool! We're sure you have your ways of collaborating with each other. But you'll have to agree, sometimes it just gets messed up. Here are 7 tips (a 5 minute read) to help you along as you build an amazing team.
You'll also find quick tips and tricks for remote collaboration.
This slidedeck was for a talk I gave at Digital Shoreditch about the gamification or use of game artefacts within customer service.
I am still at the outset of this journey, but there is no doubt in my mind that game elements can be used to influence customer behaviour within customer service.
The premise of my talk was exploring the idea of whether game elements (badges, rewards, levelling etc) can be used to influence customers to self-serve rather than call.
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.
7 Tips for Design Teams Collaborating RemotelyFramebench
So you're working with a remote team? Super cool! We're sure you have your ways of collaborating with each other. But you'll have to agree, sometimes it just gets messed up. Here are 7 tips (a 5 minute read) to help you along as you build an amazing team.
You'll also find quick tips and tricks for remote collaboration.
This slidedeck was for a talk I gave at Digital Shoreditch about the gamification or use of game artefacts within customer service.
I am still at the outset of this journey, but there is no doubt in my mind that game elements can be used to influence customer behaviour within customer service.
The premise of my talk was exploring the idea of whether game elements (badges, rewards, levelling etc) can be used to influence customers to self-serve rather than call.
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezZoltan Varju
A felügyelt gépi tanulási módszerek alkalmazásához nagyméretű annotált korpuszokra van szükség, amelyek előállítása rendkívül emberierőforrás-igényes. Több lehetőség van az annotációs költségek csökkentésére, ezek közül az egyik az automatikus annotálás. Az előadásban egy olyan nyelvfüggetlen módszert mutatunk be, mellyel bármely Wikipédiával rendelkező nyelvre előállítható tulajdonnévi címkéket tartalmazó korpusz. Az automatikus annotálás során a DBpedia ontológiai kategóriáit képeztük le CoNLL-névosztályokra. Az így előállított magyar és angol nyelvű korpuszok ugyan silver standard korpuszok, de a kiértékelésünk alapján hasonlóan jól használhatók felügyelt névfelismerő rendszerek tanításához és kiértékeléséhez, mint a gold standard korpuszok.
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
A szövegekben található információk hatékony kinyeréséhez számos nyelvi jelenséget tudnunk kell kezelni, mint például tulajdonnevek és névelemek, többszavas kifejezések, nyelvi bizonytalanság és szubjektivitás. Az előadásban bemutatjuk azokat a Szegeden készült korpuszokat, amelyek különböző doménekből és nyelvekből származó szövegeket tartalmaznak, és bennük nyelvész szakértők kézzel megjelölték az előbb említett jelenségeket, így tanító és tesztadatbázisként szolgálhatnak az információkinyerő rendszerek különböző moduljaihoz.
A Magyar WordNet (HuWN) a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.). A HuWN szabadon hozzáférhető.
A kétnyelvű szótárak fontos építőelemei számos NLP alkalmazásnak, azonban előállításuk rendkívül idő- és pénzigényes, ezért az automatikus szótárépítés egyre nagyobb szerepet kap. Bemutatunk egy nyelvfüggetlen módszert, amelynek segítségével a Wiktionaryből kiindulva 53 nyelven összesen 1378 szótárat készült, köztük valószínüleg az első, gép által is olvasható magyar-vietnámi szótár.
2. "Every time I fire a linguist, the
performance of the speech recognizer
goes up"
(Frederick Jelinek)
3. Zoli nagyon örül,mert Nóri elvitte végre krumplilángost enni.A krumplilángos Zoli
számára a legfinomabb kaja a világon és reméli,hogy Nórinak is ízlett.Zoli és Nóri
legközelebb nem krumplilángost fog enni,hanem elmennek megnézni az új Avengers
filmet.
zoli nagyon örül mert nóri vinni végre krumplilángos enni a krumplilángos zoli számára
a finom kaja a világon és reméli hogy nóri is ízleni zoli és nóri közel nem krumplilángos
fog enni hanem menni nézni az új avengers film
4. zoli nagyon örül
nagyon örül mert
örül mert nóri
stb.
zoli - nagyon
zoli - örül
nagyon - örül
nagyon - mert
örül - mert
mert - nóri
stb.
5.
6. SZTAKI Wikipedia dump egy szelete
463409 szó, 46096 egyedi szótári elem
7. Csak az 1500 leggyakoribb
elemet tartalmazó trigram
1500 csomópont
87749 él
20. Mihalcea – Tarau:TextRank: Bringing Order
Into Texts
PageRank alapján rangsorolja a
csomópontokat
Felügyelet nélküli módszer
Precision: 31.2%, Recall: 43.1%
21. Figyelembe veszi a nyelvi struktúrát (pl. A-N
nagyobb súlyt kap mint N-A)
Fokszám alapján rangsoroljuk a csomópontokat
Kulcsszókinyerés esetén alacsony kb. 10%
precision, elfogadható, 35% recall kulcsszókinyerés
esetén angol és magyar korpuszokon tesztelve
Szövegkivonatolás esetén 35% precision, 29%
recall
22. Az előre adott kulcsszavakon túl lehetnek más, releváns
kulcsszavak?
Online kérdőívvel értékeltük ki mennyire relevánsak a
PrecoRank kulcsszavai magyar szövegek esetében
A PrecoRank által adott kulcsszavak és kulcskifejezések
7.6% inkább releváns, 46.4% releváns, 32.4% valamennyire
releváns, 13.2% inkább irreleváns, 0.4% teljesen irreleváns