Miért vagy olyan negatív? Tartalomelemzés és kognitív torzulás a nyelvben
Budapest Sceince Meetup, 2014. feb. 13
http://www.meetup.com/BpScienceMeetup/events/155264512/
Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
Hier geht’s auch mal gar nicht um harte Fakten und überzeugende Projekte, also rationale Argumente, ob und was am Web 2.0 so toll sein soll, sondern um ein gutes Bauchgefühl: Schau'n wir mal, was kommt!
Miért vagy olyan negatív? Tartalomelemzés és kognitív torzulás a nyelvben
Budapest Sceince Meetup, 2014. feb. 13
http://www.meetup.com/BpScienceMeetup/events/155264512/
Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
Hier geht’s auch mal gar nicht um harte Fakten und überzeugende Projekte, also rationale Argumente, ob und was am Web 2.0 so toll sein soll, sondern um ein gutes Bauchgefühl: Schau'n wir mal, was kommt!
In the following pages, PSFK Labs has
summarized 10 trends related to wearable
technologies that sit under three larger
themes - Connected Intimacy, Tailored
Ecosystem and Co-Evolved Possibilities -
with the goal of helping people understand
the basic features, form and functions of
these devices and what they might replace.
To support this, PSFK has described each of
the themes and trends, along with three bestin-
class examples that show how these ideas
are manifesting within the marketplace and
provided relevant stats that convey potential
for growth. Additionally, each trend page
includes a list of experts who write about the
larger significance of these ideas
What is the U.S. renewable energy and energy efficiency look like? What will it look like in the coming years? These slides are from a presentation at the U.S. - Korea Roundtable in May 2013
Általános tudnivalók a biorezonanciáról. Használható általános állapotfelmérésre, dohányzásról leszoktatásra, allergia kezelésre, candida kezelésre, és még rengeteg másra.
Az oktatásnak mihamarabb be kell hoznia a lemaradását, és felvennie a lépést a techika és kultúra által előrszaladt társadalmi folyamatokkak és külülönösen a diákokkal. Ehhez kívánatos meghatározni a 21. században releváns tudást és gondolkodásmódot, és az ehhez vezető tanulási folyamatokat támogatni új módszerekkel.
Tudatállapotaink szivárványa. Használod az agyad, vagy az használ téged?Zoltán Szűcs
A Közös Pont Teaházban 2013. június 3-án elhangzott előadás témája: egészség és betegség - az én megélésem szerint.
Orvostudomány, agykutatás, pszichológia, és spiritualitás apró szilánkaiból áll össze az a kaleidoszkóp, melynek képe természetéből fakadóan mozaikos, esetleges és napi megértéseimmel dinamikusan változik. Stanislav Grof szóhasználatát plagizálva holotróp orvoslásnak nevezném e megközelítést, mely tudatosan próbálja integrálni betegségeink testi-pszichés-mentális-szellemi dimenzióit. Egy tervezett előadás-sorozat első alkalmával a koncepció tudományos-filozófiai áttekintését kívánom nyújtani, és egyfajta modellt agyműködésünk, és problémás tudatállapotaink megértéséhez. A következő hónapokban pedig egy-egy fontosabb betegségcsoport megoldásait keressük majd - a felvázolt, integrált modell rétegeiben kutakodva.
Szűcs Zoltán.
In the following pages, PSFK Labs has
summarized 10 trends related to wearable
technologies that sit under three larger
themes - Connected Intimacy, Tailored
Ecosystem and Co-Evolved Possibilities -
with the goal of helping people understand
the basic features, form and functions of
these devices and what they might replace.
To support this, PSFK has described each of
the themes and trends, along with three bestin-
class examples that show how these ideas
are manifesting within the marketplace and
provided relevant stats that convey potential
for growth. Additionally, each trend page
includes a list of experts who write about the
larger significance of these ideas
What is the U.S. renewable energy and energy efficiency look like? What will it look like in the coming years? These slides are from a presentation at the U.S. - Korea Roundtable in May 2013
Általános tudnivalók a biorezonanciáról. Használható általános állapotfelmérésre, dohányzásról leszoktatásra, allergia kezelésre, candida kezelésre, és még rengeteg másra.
Az oktatásnak mihamarabb be kell hoznia a lemaradását, és felvennie a lépést a techika és kultúra által előrszaladt társadalmi folyamatokkak és külülönösen a diákokkal. Ehhez kívánatos meghatározni a 21. században releváns tudást és gondolkodásmódot, és az ehhez vezető tanulási folyamatokat támogatni új módszerekkel.
Tudatállapotaink szivárványa. Használod az agyad, vagy az használ téged?Zoltán Szűcs
A Közös Pont Teaházban 2013. június 3-án elhangzott előadás témája: egészség és betegség - az én megélésem szerint.
Orvostudomány, agykutatás, pszichológia, és spiritualitás apró szilánkaiból áll össze az a kaleidoszkóp, melynek képe természetéből fakadóan mozaikos, esetleges és napi megértéseimmel dinamikusan változik. Stanislav Grof szóhasználatát plagizálva holotróp orvoslásnak nevezném e megközelítést, mely tudatosan próbálja integrálni betegségeink testi-pszichés-mentális-szellemi dimenzióit. Egy tervezett előadás-sorozat első alkalmával a koncepció tudományos-filozófiai áttekintését kívánom nyújtani, és egyfajta modellt agyműködésünk, és problémás tudatállapotaink megértéséhez. A következő hónapokban pedig egy-egy fontosabb betegségcsoport megoldásait keressük majd - a felvázolt, integrált modell rétegeiben kutakodva.
Szűcs Zoltán.
Similar to Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szövegeken (7)
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezZoltan Varju
A felügyelt gépi tanulási módszerek alkalmazásához nagyméretű annotált korpuszokra van szükség, amelyek előállítása rendkívül emberierőforrás-igényes. Több lehetőség van az annotációs költségek csökkentésére, ezek közül az egyik az automatikus annotálás. Az előadásban egy olyan nyelvfüggetlen módszert mutatunk be, mellyel bármely Wikipédiával rendelkező nyelvre előállítható tulajdonnévi címkéket tartalmazó korpusz. Az automatikus annotálás során a DBpedia ontológiai kategóriáit képeztük le CoNLL-névosztályokra. Az így előállított magyar és angol nyelvű korpuszok ugyan silver standard korpuszok, de a kiértékelésünk alapján hasonlóan jól használhatók felügyelt névfelismerő rendszerek tanításához és kiértékeléséhez, mint a gold standard korpuszok.
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
A szövegekben található információk hatékony kinyeréséhez számos nyelvi jelenséget tudnunk kell kezelni, mint például tulajdonnevek és névelemek, többszavas kifejezések, nyelvi bizonytalanság és szubjektivitás. Az előadásban bemutatjuk azokat a Szegeden készült korpuszokat, amelyek különböző doménekből és nyelvekből származó szövegeket tartalmaznak, és bennük nyelvész szakértők kézzel megjelölték az előbb említett jelenségeket, így tanító és tesztadatbázisként szolgálhatnak az információkinyerő rendszerek különböző moduljaihoz.
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szövegeken
1. Automatikus
értékelés- és érzelemelemzés
magyar nyelvű szövegeken
VARJÚ ZOLTÁN
Precognox Informatikai kft.
zvarju@precognox.com
A NYÍLT INFORMÁCIÓGYŰJTÉS FEJLŐDŐ TERÜLETEI
nemzetközi tudományos-szakmai konferencia
2015. november 3-4.
SZABÓ MARTINA KATALIN
• Precognox Informatikai kft.
mszabo@precognox.com
• SzegediTudományegyetem,
Szláv Intézet, Orosz Filológiai
Tanszék
szabo.martina@lit.u-szeged.hu
11. Mi a helyzet a nyelvvel?
• A gazdasági döntésekre nagy
hatással vannak a gazdasági hírek
• A mindennapi döntéshozatal során
gyorsan kell határoznia a
szereplőknek
• Találhatunk-e összefüggést a
hírekben megjelenő emóciók és a
makromutatók alakulása között?
13. Cél és haszon
• A nyelvtechnológia részfeladatai
• Céljuk: automatikus tartalmi elemzés nagy mennyiségű szövegről
• Magas hasznosíthatóság különböző alkalmazásokban; pl.
ogazdasági trendek azonosítása és előre jelzése;
oA vásárlói hangulat mérése;
opolitikusokkal, pártokkal szembeni aktuális beállítódás mérése;
oegy adott társadalmi, gazdasági jelenségre reflektáló közönséghangulat;
opszichológiai szempontú szövegelemzés;
ostb.
14. Bővebben az értékeléselemzésről
• Másképpen: szentimentelemzés
• A feladat: az értékelő véleményt kifejező tartalmak automatikus
kivonatolása. Pl.
94 millió forintos vagyoni hátrányt okozott a győri kórház
gazdálkodásért felelős vezetője. (forrás: index.hu)
A közelmúltban ötletes szuperhősös könyvtartó duójával hívta fel
magára a figyelmet (…) az ügyesen kitalált, rajzfilmfigura-szerű
minimalista, mágneses sziluettcsalád gyerekeket és felnőtteket
egyaránt képes levenni a lábairól. (forrás: index.hu)
15. És …
• …nem csak a detektálás, a következők is fontosak:
oaz értékelés típusa (másképpen: polaritás): pozitív vagy negatív
ointenzitás
oaz értékelés tárgya (target)
16. Bővebben az érzelemelemzésről
•A nyelvtechnológiában kisebb jelentőséget tulajdonítanak
a az emócióknak, mint a szentimenteknek.Az
érzelemelemzés új irány máshol központi szerep, pl.
viselkedéstudomány vagy pszichológia.
•A magyar nyelvre: Precognox Informatikai kft. foglalkozik
•A feladat célja: a szövegekben tükröződő érzelmek
kivonatolása.
17. Példák
Félelem, aggodalom: Tisztaság- és illatmániásként először féltem a
folyékony mosódiótól. Mi lesz, ha nem a megszokott tisztaság lesz az
eredmény? (forrás: hazipatika.com)
Bánat, elkeseredettség: Nem értem. Semmit nem fogyok, értem
hogy mozogni kell, minden nap biciklivel járok, és gyaloglok sokat. (…)
Már nagyon el vagyok keseredve. (forrás: gyakorikerdesek.hu)
Meglepetés: Amikor a műtétem után terveztem a
szezont, nem is hittem volna, hogy ilyen gyorsan javul az állapotom.
Nincs semmilyen panaszom. (forrás: mob.hu)
18. A technikai háttér
• Szentiment- és emóciószótárak
• Szentimentszótáraink:
• pozitív polaritású kifejezések
• negatív polaritású kifejezések
• Emóciószótáraink:
• az Ekman-féle hat kategória szerint: ÖRÖM, DÜH, BÁNAT, FÉLELEM, UNDOR,
MEGLEPŐDÉS
• nyolc kategória szerint: + FESZÜLTSÉG,VONZALOM
20. A vizsgált korpusz
Az INDEX-korpusz
oA szöveggyűjtés eszköze: az index.hu keresője
oA szöveggyűjtés időpontja: 2015. január 2.
oKritériumok:
oazok a szövegek, amelyek tartalmazták a válság és a recesszió szavak
valamelyikét
oa 2006. január 1. és 2014. december 31. közé eső időszakból
oA korpusz mérete: összesen 1731 cikk
21. A fontosabb események és jelenségek,
amelyekre figyelünk
országgyűlési
választások
2006 zavargások
negatív gdp
növekedési időszakok
30. Összegzés, távlatok
•Az érzelmek feldolgozása olyan folyamatokra is rámutat,
amelyekre semmilyen más tartalomelemző megoldás
nem
•A targeteket kezelnünk kell az egyik jelenlegi
projektünk