Mókus (Koncsik Anita, Varjú Zoltán)

•Download as PPTX, PDF•

0 likes•2,077 views

Z

Mindent Óccsón Kiszedő Ubuntus Szoftverek

MÓKUS
Mindent Óccsón Kiszedő Ubuntus Szoftverek

Technológia
• pdftk
• convert
• tesseract
• Python
• magyarlánc
• Processing
• AntConc

Workflow
1. OCR
2. (Kihívásokkal teli) javítás
3. Szótövezés
4. Felszeletelés (regex alapon paragrafusokra)
5. Cosine similarity a szeletek között
6. WinMerge

Miért?

0.98

0.90

0.83

ajajajajánlat
• Jobb OCR
• Más hasonlósági metrikák
• Sávos szófelhőzés

Recommended

Hogyan optimalizáljunk C/C++ kódokat!

Hogyan optimalizáljunk C/C++ kódokat!

Hogyan optimalizáljunk C/C++ kódokat!

Sorok között olvasni

Sorok között olvasni

Sorok között olvasni

Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...

Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...

Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...

Deep Learning for Computer Vision: ImageNet Challenge (UPC 2016)

Deep Learning for Computer Vision: ImageNet Challenge (UPC 2016)

Deep Learning for Computer Vision: ImageNet Challenge (UPC 2016)

Universitat Politècnica de Catalunya

http://imatge-upc.github.io/telecombcn-2016-dlcv/ Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of big annotated data and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which had been addressed until now with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks and Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles and applications of deep learning to computer vision problems, such as image classification, object detection or text captioning.

Andrew Ng, Chief Scientist at Baidu

Andrew Ng, Chief Scientist at Baidu

Andrew Ng, Chief Scientist at Baidu

Extract Data Conference

NLP meetup 2016.10.05 - Bódogh Attila: xdroid

NLP meetup 2016.10.05 - Bódogh Attila: xdroid

NLP meetup 2016.10.05 - Bódogh Attila: xdroid

NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox

NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox

NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox

NLP meetup 2016.10.05 - Szekeres Péter: Neticle

NLP meetup 2016.10.05 - Szekeres Péter: Neticle

NLP meetup 2016.10.05 - Szekeres Péter: Neticle

Recommended

Hogyan optimalizáljunk C/C++ kódokat!

Hogyan optimalizáljunk C/C++ kódokat!

Hogyan optimalizáljunk C/C++ kódokat!

Sorok között olvasni

Sorok között olvasni

Sorok között olvasni

Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...

Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...

Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...

Deep Learning for Computer Vision: ImageNet Challenge (UPC 2016)

Deep Learning for Computer Vision: ImageNet Challenge (UPC 2016)

Deep Learning for Computer Vision: ImageNet Challenge (UPC 2016)

Universitat Politècnica de Catalunya

http://imatge-upc.github.io/telecombcn-2016-dlcv/ Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of big annotated data and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which had been addressed until now with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks and Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles and applications of deep learning to computer vision problems, such as image classification, object detection or text captioning.

Andrew Ng, Chief Scientist at Baidu

Andrew Ng, Chief Scientist at Baidu

Andrew Ng, Chief Scientist at Baidu

Extract Data Conference

NLP meetup 2016.10.05 - Bódogh Attila: xdroid

NLP meetup 2016.10.05 - Bódogh Attila: xdroid

NLP meetup 2016.10.05 - Bódogh Attila: xdroid

NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox

NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox

NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox

NLP meetup 2016.10.05 - Szekeres Péter: Neticle

NLP meetup 2016.10.05 - Szekeres Péter: Neticle

NLP meetup 2016.10.05 - Szekeres Péter: Neticle

Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése

Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése

Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése

A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.

Babak Rasolzadeh: The importance of entities

Babak Rasolzadeh: The importance of entities

Babak Rasolzadeh: The importance of entities

Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages. Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.

Szövegbányászat a gyakorlatban

Szövegbányászat a gyakorlatban

Szövegbányászat a gyakorlatban

Szövegbányászat

Szövegbányászat

Szövegbányászat

Balogh Kitti: Szövegbányászat

Balogh Kitti: Szövegbányászat

Balogh Kitti: Szövegbányászat

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...

Kisvilágunk, a nyelv

Kisvilágunk, a nyelv

Kisvilágunk, a nyelv

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Érzelmek hálójában – hálózat- és tartalomelemzés

Érzelmek hálójában – hálózat- és tartalomelemzés

Érzelmek hálójában – hálózat- és tartalomelemzés

Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...

Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...

Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...

Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...

Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...

Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...

Rasztik Zita: A стартовать jövevényszó fejlődési útja

Rasztik Zita: A стартовать jövevényszó fejlődési útja

Rasztik Zita: A стартовать jövevényszó fejlődési útja

Kontextus és a hivatkozások ereje

Kontextus és a hivatkozások ereje

Kontextus és a hivatkozások ereje

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

A felügyelt gépi tanulási módszerek alkalmazásához nagyméretű annotált korpuszokra van szükség, amelyek előállítása rendkívül emberierőforrás-igényes. Több lehetőség van az annotációs költségek csökkentésére, ezek közül az egyik az automatikus annotálás. Az előadásban egy olyan nyelvfüggetlen módszert mutatunk be, mellyel bármely Wikipédiával rendelkező nyelvre előállítható tulajdonnévi címkéket tartalmazó korpusz. Az automatikus annotálás során a DBpedia ontológiai kategóriáit képeztük le CoNLL-névosztályokra. Az így előállított magyar és angol nyelvű korpuszok ugyan silver standard korpuszok, de a kiértékelésünk alapján hasonlóan jól használhatók felügyelt névfelismerő rendszerek tanításához és kiértékeléséhez, mint a gold standard korpuszok.

Vincze Veronika: Korpuszok az információkinyerésben

Vincze Veronika: Korpuszok az információkinyerésben

Vincze Veronika: Korpuszok az információkinyerésben

A szövegekben található információk hatékony kinyeréséhez számos nyelvi jelenséget tudnunk kell kezelni, mint például tulajdonnevek és névelemek, többszavas kifejezések, nyelvi bizonytalanság és szubjektivitás. Az előadásban bemutatjuk azokat a Szegeden készült korpuszokat, amelyek különböző doménekből és nyelvekből származó szövegeket tartalmaznak, és bennük nyelvész szakértők kézzel megjelölték az előbb említett jelenségeket, így tanító és tesztadatbázisként szolgálhatnak az információkinyerő rendszerek különböző moduljaihoz.

Felhívás

Miháltz Márton: Magyar wordnet

Miháltz Márton: Magyar wordnet

Miháltz Márton: Magyar wordnet

A Magyar WordNet (HuWN) a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.). A HuWN szabadon hozzáférhető.

Ács Judit: Online soknyelvű szótárak

Ács Judit: Online soknyelvű szótárak

Ács Judit: Online soknyelvű szótárak

A kétnyelvű szótárak fontos építőelemei számos NLP alkalmazásnak, azonban előállításuk rendkívül idő- és pénzigényes, ezért az automatikus szótárépítés egyre nagyobb szerepet kap. Bemutatunk egy nyelvfüggetlen módszert, amelynek segítségével a Wiktionaryből kiindulva 53 nyelven összesen 1378 szótárat készült, köztük valószínüleg az első, gép által is olvasható magyar-vietnámi szótár.

Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet

Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet

Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet

Mondataink jelentős része úgy épül fel, hogy egy központi ige körül rendeződnek el az ige különféle bővítményei. Pl.: elrendeződik + mi? bővítmény + mi körül? ige körül. Az ilyen „mondatvázakat'' nevezzük igei szerkezeteknek, tartalmazzanak vonzatot (hisz vmiben), konkrét szókapcsolatot (döntés születik) vagy akár a kettő kombinációját (igényt tart vmire). Az előadás egy nyelvi erőforrást mutat be: magyar igei szerkezetek korpuszból automatikusan kinyert igen jelentős méretű gyűjteményét. Ez a gyűjtemény információt ad az igék és a bővítmények szokásos viselkedéséről, tulajdonságairól, a szelekciós preferenciákról, így hasznos lehet magyar nyelvű szöveg tartalmi, szemantikai feldolgozása során. A fentit egészíti ki egy másik erőforrás: a 28 millió sekély elemzéssel ellátott tagmondatból álló korpusz, melyből az igei szerkezetek származnak. Kutatási célra szabadon, üzleti célra egyedi megállapodás keretében férhetők hozzá.

More Related Content

More from Zoltan Varju

Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése

Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése

Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése

A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.

Babak Rasolzadeh: The importance of entities

Babak Rasolzadeh: The importance of entities

Babak Rasolzadeh: The importance of entities

Meltwater is a Business Intelligence company of +1000 individuals spread across ~60 offices in ~30 countries with over 26,000 clients. At Meltwater we see ourselves as a Outside Insights company, meaning we seek to deliver similar type of business analytics & insights as traditional CRM dashboards and ERP systems used to, except by leveraging data outside the firewall (social media, news, blogs etc.) we believe the insights can be much more decisive and predictive for our clients business. Part of the challenge with this is of course structuring the unstructured data out there. This is why the Data Science team at Meltwater has the mission to ingest, categorize, label, classify, and a whole range of other enrichments on the content that we crawl in order to index it properly in our big data architecture and make it available for our insights dashboard. We do these enrichments in +17 languages. Babak Rasolzadeh is the Director of Data Science & NLP at Meltwater and has a team of 24 engineers on this team. Prior to Meltwater, Babak was the co-founder of OculusAI, a computer vision start-up in Sweden, that was sold to Meltwater in 2013. He holds a PhD in Computer Vision, from KTH in Sweden, and has worked on things ranging from self-driving cars to humanoid robots and mobile object recognition. He is an advisor for several startups here in US and Sweden.

Szövegbányászat a gyakorlatban

Szövegbányászat a gyakorlatban

Szövegbányászat a gyakorlatban

Szövegbányászat

Szövegbányászat

Szövegbányászat

Balogh Kitti: Szövegbányászat

Balogh Kitti: Szövegbányászat

Balogh Kitti: Szövegbányászat

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...

Kisvilágunk, a nyelv

Kisvilágunk, a nyelv

Kisvilágunk, a nyelv

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Érzelmek hálójában – hálózat- és tartalomelemzés

Érzelmek hálójában – hálózat- és tartalomelemzés

Érzelmek hálójában – hálózat- és tartalomelemzés

Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...

Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...

Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...

Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...

Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...

Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...

Rasztik Zita: A стартовать jövevényszó fejlődési útja

Rasztik Zita: A стартовать jövevényszó fejlődési útja

Rasztik Zita: A стартовать jövevényszó fejlődési útja

Kontextus és a hivatkozások ereje

Kontextus és a hivatkozások ereje

Kontextus és a hivatkozások ereje

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

A felügyelt gépi tanulási módszerek alkalmazásához nagyméretű annotált korpuszokra van szükség, amelyek előállítása rendkívül emberierőforrás-igényes. Több lehetőség van az annotációs költségek csökkentésére, ezek közül az egyik az automatikus annotálás. Az előadásban egy olyan nyelvfüggetlen módszert mutatunk be, mellyel bármely Wikipédiával rendelkező nyelvre előállítható tulajdonnévi címkéket tartalmazó korpusz. Az automatikus annotálás során a DBpedia ontológiai kategóriáit képeztük le CoNLL-névosztályokra. Az így előállított magyar és angol nyelvű korpuszok ugyan silver standard korpuszok, de a kiértékelésünk alapján hasonlóan jól használhatók felügyelt névfelismerő rendszerek tanításához és kiértékeléséhez, mint a gold standard korpuszok.

Vincze Veronika: Korpuszok az információkinyerésben

Vincze Veronika: Korpuszok az információkinyerésben

Vincze Veronika: Korpuszok az információkinyerésben

A szövegekben található információk hatékony kinyeréséhez számos nyelvi jelenséget tudnunk kell kezelni, mint például tulajdonnevek és névelemek, többszavas kifejezések, nyelvi bizonytalanság és szubjektivitás. Az előadásban bemutatjuk azokat a Szegeden készült korpuszokat, amelyek különböző doménekből és nyelvekből származó szövegeket tartalmaznak, és bennük nyelvész szakértők kézzel megjelölték az előbb említett jelenségeket, így tanító és tesztadatbázisként szolgálhatnak az információkinyerő rendszerek különböző moduljaihoz.

Felhívás

Miháltz Márton: Magyar wordnet

Miháltz Márton: Magyar wordnet

Miháltz Márton: Magyar wordnet

A Magyar WordNet (HuWN) a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.). A HuWN szabadon hozzáférhető.

Ács Judit: Online soknyelvű szótárak

Ács Judit: Online soknyelvű szótárak

Ács Judit: Online soknyelvű szótárak

A kétnyelvű szótárak fontos építőelemei számos NLP alkalmazásnak, azonban előállításuk rendkívül idő- és pénzigényes, ezért az automatikus szótárépítés egyre nagyobb szerepet kap. Bemutatunk egy nyelvfüggetlen módszert, amelynek segítségével a Wiktionaryből kiindulva 53 nyelven összesen 1378 szótárat készült, köztük valószínüleg az első, gép által is olvasható magyar-vietnámi szótár.

Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet

Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet

Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet

Mondataink jelentős része úgy épül fel, hogy egy központi ige körül rendeződnek el az ige különféle bővítményei. Pl.: elrendeződik + mi? bővítmény + mi körül? ige körül. Az ilyen „mondatvázakat'' nevezzük igei szerkezeteknek, tartalmazzanak vonzatot (hisz vmiben), konkrét szókapcsolatot (döntés születik) vagy akár a kettő kombinációját (igényt tart vmire). Az előadás egy nyelvi erőforrást mutat be: magyar igei szerkezetek korpuszból automatikusan kinyert igen jelentős méretű gyűjteményét. Ez a gyűjtemény információt ad az igék és a bővítmények szokásos viselkedéséről, tulajdonságairól, a szelekciós preferenciákról, így hasznos lehet magyar nyelvű szöveg tartalmi, szemantikai feldolgozása során. A fentit egészíti ki egy másik erőforrás: a 28 millió sekély elemzéssel ellátott tagmondatból álló korpusz, melyből az igei szerkezetek származnak. Kutatási célra szabadon, üzleti célra egyedi megállapodás keretében férhetők hozzá.

More from Zoltan Varju (20)

Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése

Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése

Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése

Babak Rasolzadeh: The importance of entities

Babak Rasolzadeh: The importance of entities

Babak Rasolzadeh: The importance of entities

Szövegbányászat a gyakorlatban

Szövegbányászat a gyakorlatban

Szövegbányászat a gyakorlatban

Szövegbányászat

Szövegbányászat

Szövegbányászat

Balogh Kitti: Szövegbányászat

Balogh Kitti: Szövegbányászat

Balogh Kitti: Szövegbányászat

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...

Kisvilágunk, a nyelv

Kisvilágunk, a nyelv

Kisvilágunk, a nyelv

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Érzelmek hálójában – hálózat- és tartalomelemzés

Érzelmek hálójában – hálózat- és tartalomelemzés

Érzelmek hálójában – hálózat- és tartalomelemzés

Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...

Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...

Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...

Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...

Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...

Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...

Rasztik Zita: A стартовать jövevényszó fejlődési útja

Rasztik Zita: A стартовать jövevényszó fejlődési útja

Rasztik Zita: A стартовать jövevényszó fejlődési útja

Kontextus és a hivatkozások ereje

Kontextus és a hivatkozások ereje

Kontextus és a hivatkozások ereje

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

Vincze Veronika: Korpuszok az információkinyerésben

Vincze Veronika: Korpuszok az információkinyerésben

Vincze Veronika: Korpuszok az információkinyerésben

Felhívás

Miháltz Márton: Magyar wordnet

Miháltz Márton: Magyar wordnet

Miháltz Márton: Magyar wordnet

Ács Judit: Online soknyelvű szótárak

Ács Judit: Online soknyelvű szótárak

Ács Judit: Online soknyelvű szótárak

Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet

Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet

Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet

Mókus (Koncsik Anita, Varjú Zoltán)

1. MÓKUS Mindent Óccsón Kiszedő Ubuntus Szoftverek

2. Technológia • pdftk • convert • tesseract • Python • magyarlánc • Processing • AntConc

3. Workflow 1. OCR 2. (Kihívásokkal teli) javítás 3. Szótövezés 4. Felszeletelés (regex alapon paragrafusokra) 5. Cosine similarity a szeletek között 6. WinMerge

8. ajajajajánlat • Jobb OCR • Más hasonlósági metrikák • Sávos szófelhőzés