Az opp.io egy alkalmazás, amely egybe gyúrja az üzenetküldést és a feladatszervezést. Hogyan oldjuk meg, hogy egy kötetlen üzenetből kiderüljön a tömör lényeg: ki mit tegyen? Hogyan adjunk nyelvi kontextusba illő tömör, feldolgozható választ, mint pl “megtettem”? Az előadás ezekre a kérdésekre keresi nyelvi és technológiai szemszögből a választ.
A Dgitális Világ Gazdaságtana kurzusomon (Corvinus Egyetem, 2011 ősz) belül folyó online kutatásmódszertani blokk 3. része, amely a kutatási blogokkal, kutatási közösségekkel (MROC) és a social média elemzésével (netnográfia) foglalkozik.
Az opp.io egy alkalmazás, amely egybe gyúrja az üzenetküldést és a feladatszervezést. Hogyan oldjuk meg, hogy egy kötetlen üzenetből kiderüljön a tömör lényeg: ki mit tegyen? Hogyan adjunk nyelvi kontextusba illő tömör, feldolgozható választ, mint pl “megtettem”? Az előadás ezekre a kérdésekre keresi nyelvi és technológiai szemszögből a választ.
A Dgitális Világ Gazdaságtana kurzusomon (Corvinus Egyetem, 2011 ősz) belül folyó online kutatásmódszertani blokk 3. része, amely a kutatási blogokkal, kutatási közösségekkel (MROC) és a social média elemzésével (netnográfia) foglalkozik.
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.
Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.
Babak Rasolzadeh: The importance of entitiesZoltan Varju
Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages.
Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.
1. Tudománymetriai adatok elemzése a
publikálási aktivitás és a társszerzői
hálózatok feltérképezésében
Merész Gergő
Merész Gergő
Hungarian Natural Language Processing Meetup
2014. szeptember 25.
2. Miért pont tudománymetria?
• A biomedikális kutatásokon belül nem
kifejezetten túlkutatott terület
• A rendelkezésre álló adatvagyon folyamatosan
gyarapszik
– Mennyiségében („közlési nyomás”)
– Minőségében (validitás – folyóiratok lefedettsége)
• Minimálisan finomított elemzési technikákkal
széleskörben érthető, érdekes információ
nyerhető ki
3. Mi az, ami hiányozhat?
• Elemzési kapacitás
– Az adatmennyiség szempontjából nem opció további
humánerő bevonása
• A tudományterületek határainak áttörése
– Azonos, mindenki számára átlátható módszertannal
• Frissesség
– Az irodalmi hivatkozás önmagában kevéssé érdekes;
inkább technikai célokat szolgál
– Kutatók „önkutatása” – saját magunkat lapogatjuk
4. Milyen adatok / eszközök állnak
rendelkezésre?
• PubMed adatbázis
– Integrált, tudományos irodalmi adatbázis
– Egységes formátum (Medline), strukturált rekordok
• R statisztikai szoftver és csomagjai
– Rugalmas fejlesztési környezet
– Munkaigényes lehet
– Ingyenes
• Egyéb
– Inputok, amelyek a kérdésfeltevést közvetlenül segítik
5. Esettanulmányok
• #1: Egy tudományos testületbe történő beválasztás
vajon növeli-e az illető publikációs aktivitását?
– Epidemiológiai módszertan alkalmazásával vizsgálható
• #2: Egy szakmai szerveződésben ki kivel szokott közös
közleményt jegyezni?
– Hálózatkutatás módszertanával vizsgálható
(Ami közös: egyszerű nyelvfelismerő technikák
alkalmazása szükséges)
6. Esettanulmány #1
• Frisch, IZA, John Bates Clark díjak hatása a
közgazdászok publikálási aktivitására (Bricogne,
2014)
– A díjak hatása nem egyértelmű a publikációk
mennyiségére, minőségére vonatkozóan
– Igazolták, hogy valamilyen módon figyelemmel kell
kísérni a publikációk számának „természetes”
növekedését az idő múlásával
• Mi a helyzet, ha valaki az International Society for
Pharmacoeconomics and Outcomes Research
(ISPOR) vezetőségébe kerül?
7. Elemzésünk lépései
• Adott volt a korábbi ISPOR Board of Directors
tagok listája, és az időszak, amikor betöltötték
a tisztséget
• Minden korábbi taghoz a tagságának
megfelelő idejű „szűrési” és „követési”
időszakot rendeltünk
– Ezzel egy ún. historikus case-only vizsgálati
elrendezést hoztunk létre
• Ezután következhetett az adatgyűjtés
8. Elemzés folyamata
Keresőkifejezés
összeállítása (tag
neve és időablak)
Kapcsolódás a
PubMed APIhoz /
kifejezés küldése
Kapott XML fájlok
mezőinek
felbontása
adattáblákra
A közlemények
összesítése az
adott időszaknak
megfelelően
Kimeneti
paraméter
pontbecslése
Értelmezés
9. Pontbecslés
• Szükséges volt egy olyan kimeneti paraméter becslése,
amivel leírható a közlemények publikálásának időbeli
„sűrűsödése”
– A mutató neve: incidencia sűrűség hányados (ISH)
– Becslési módszertan: Poisson-regresszió (korrekció miatt)
• A következő képzelhető el: ha két év alatt összesen
négy közlemény jelenik meg ugyanazon kutató neve
alatt, a kapott IS-érték 2 közlemény / év lesz. Ha a
rákövetkező két évben az illető kutató 10 közleményt
közöl, erre az időszakra az IS-értéke 5 közlemény / év
lesz, a két időszak hányados-mutatója pedig 5/2 = 2.5
lesz.
10. Eredmények
„Megelőző” időszak „Igazgatóság” időszaka „Követési” időszak
Átlagos éves publikációszám
2.62 / közlemény / év 3.97 / közlemény / év 4.32 / közlemény / év
ISH
---
1.59
(ref. „megelőző” időszak)
1.01
(ref. igazgatósági időszak)
Mellékeredmények
A közlemények 22.91%-
ában (legmagasabb) a
kutatott személy az első
szerző
Statisztikailag
szignifikánsan több
közlemény az előző
időszakhoz képest
Átlagosan a legtöbb (5.94)
társszerző itt!
11. Mit mondhatunk ez alapján?
• Ebben a testületben az újonnan beválasztott
tagok
– A megelőző években „katalizálták” a
közleményeiket
– Tagként látványosan keresettebbé váltak
– ...új „társszerző-barátokra” tettek szert (miután
kifutották magukat tagként)
12. Esettanulmány #2
• A hazai tudományos közösségek aktivitásának
mérése ritka, az erről folyó vita is inkább elméleti
síkon „saját megítélés” alapján zajlik
• A META (Magyar Egészség-gazdaságtani Társaság)
közösségében térképeztük fel a publikációs
aktivitást és társszerzői hálózatokat
• Ez a vizsgálat minőségében tért el az előző
példától
– Dinamikus populáció, nem adott egyedek csoportja
13. Eredmények
– Tag / nem tag társszerző szerint
• Pontok mérete arányos a
fellelhető publikációk
számával
• Viszonylag kevés hub
társszerző
• Eltérő méretű társszerzői
hálózatok épültek ki
• A publikációs aktivitás a
tagság bővülésével nőtt
(inkább extenzív jellegű)
• Eltérő szerkezetű szerzői
hálózatai vannak az eddigi
elnököknek
14. Miért jöttünk el az NLP meetupra?
• Szerettünk volna bemutatkozni
• Lelkesek vagyunk
• Mentorokat keresünk!
– Ingyen dolgozunk jelenleg
– Kutatási ötletekre várunk
16. Hivatkozások
Jean-Charles Bricongne: Do prizes in economics affect productivity?
LIEPP Working Paper, April 2014, nº24.
Elérhető: http://www.sciencespo.fr/liepp/sites/sciencespo.fr.liepp/files/WP-24-
Bricongnes-LIEPP.pdf
[utoljára megtekintve: 2014. 09.25]
G Merész, G Gyurcsán, B Salfer: Easy come, hardly go: epidemiological methods to
evaluate the effect of ISPOR Board of Directors memebership on publication activity.
ISPOR 17th Annual European Congress, Poster, Amsterdam, The Netherlands,
November, 2014.
Merész G, Földesi Cs, Nagyistók Sz, Vincziczki ÁZ. A Magyar Egészség-gazdaságtani
Társaság tagságának publikációs aktivitása. VIII. IME – META Országos Egészség-gazdaságtani
Továbbképzés és Konferencia, előadás és poszter, Budapest, 2014. június
18-19.