SlideShare a Scribd company logo
1 of 6
Download to read offline
Miháltz Márton 
mmihaltz@gmail.com 
MTA NYTI Nyelvtechnológiai Osztály
! Input szöveg: tokenizált, morfológiailag elemzett (hunmorph), 
szófajcímkékkel ellátott (hunpos) 
! Output: egyetlen szótő + morf.elemzés minden tokenhez 
Elképesztő ADJ 5 elképesztő/ADJ elképeszt/ 
VERB[IMPERF_PART]/ADJ el/PREV+képeszt/ 
VERB[IMPERF_PART]/ADJ elképeszt/VERB[IMPERF_PART]/ADJ 
el/PREV+képeszt/VERB[IMPERF_PART]/ADJ 
pofátlanság NOUN 6 pofátlan/ADJ[ABSTRACT]/NOUN 
pofa/NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN pofa/ 
NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN pofátlan/ 
ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ 
ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ 
ADJ[ABSTRACT]/NOUN 
amit NOUN<CAS<ACC>> 5 ami/NOUN<CAS<ACC>> Am/ 
NOUN[MET_ATTRIB]/ADJ<CAS<ACC>> Am/NOUN[MET_ATTRIB]/ 
ADJ<CAS<ACC>> Ami/NOUN[MET_ATTRIB]/ADJ<CAS<ACC>> Ami/ 
NOUN[MET_ATTRIB]/ADJ<CAS<ACC>>
! Hundisambig 
◦ Rejtett Markov-modell, hunmorph kimenet használja 
◦ Nincs forráskód, nincs dokumentáció 
◦ Sokszor inkonzisztens, nehezen parse-olható output 
◦ Összes képzőtől megfosztott tövet adja vissza 
! Hunstem 
◦ Heurisztikák: hunmorph szótő+elemzés kiválasztása hunpos 
címke alapján 
! Elemzések szűrése PoS-címkével 
! Minimális összetételszám, képzésszám 
! leghosszabb lemma; felszíni alakhoz leginkább hasonló kapitalizációjú lemma 
! Lemma = lemma az elemzésből (összetételekkel) vagy felszíni alak ha nincs 
◦ Kivételszótár: ismeretlen alak (% wildcard) => szótő; 
! Trie implementációval
! Hunmorph morfológiai elemző (morpdb.hu 
lexikon) kiegészítése új, ismeretlen szavakkal 
◦ Tetszőleges alakban felismerhetők legyenek 
◦ Ne kelljen érteni morphdb.hu formalizmushoz 
! Lista: ismeretlen szótő + ismert, analóg szótő 
(azonos paradigma, szófaj(ok)) 
◦ Leíró feature-ök automatikus hozzárendelése: 
új .lexicon fájl generálása 
◦ Kompilálás (hunlex) korábbi + új .lexicon fájlok 
=> .aff, .dic fájlok
! Huntoken kiegészítése, javítása 
◦ Pl. adaptáció SM (Facebook) nyelvhasználathoz 
! Huntoken + elő- és utófeldolgozó fv.-ek 
(python) 
◦ Bővíthető listák: helyettesítések, reg.kif. v. exact match 
! Ugyan+olyan => ugyanolyan 
! Asszem=> azt+hiszem 
! ejj+ => uj 
◦ Python utasítások, pl. 
! URL-ek felismerése és egyben tartása 
! “egyik.másik” => [egyik, másik] 
! egyik..... másik => [egyik, …, másik]
Eszközök elérhetők: 
github.com/mmihaltz/trendminer-hunlp 
Köszönöm a figyelmet!

More Related Content

More from Zoltan Varju

Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Zoltan Varju
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
Zoltan Varju
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Zoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Zoltan Varju
 

More from Zoltan Varju (20)

NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entities
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben
 

Miháltz Márton: hun* kiegészítések: hunstem, hunmorph_extend, huntoken

  • 1. Miháltz Márton mmihaltz@gmail.com MTA NYTI Nyelvtechnológiai Osztály
  • 2. ! Input szöveg: tokenizált, morfológiailag elemzett (hunmorph), szófajcímkékkel ellátott (hunpos) ! Output: egyetlen szótő + morf.elemzés minden tokenhez Elképesztő ADJ 5 elképesztő/ADJ elképeszt/ VERB[IMPERF_PART]/ADJ el/PREV+képeszt/ VERB[IMPERF_PART]/ADJ elképeszt/VERB[IMPERF_PART]/ADJ el/PREV+képeszt/VERB[IMPERF_PART]/ADJ pofátlanság NOUN 6 pofátlan/ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN pofa/ NOUN[NEG_ATTRIB]/ADJ[ABSTRACT]/NOUN pofátlan/ ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ ADJ[ABSTRACT]/NOUN pofa/NOUN[NEG_ATTRIB]/ ADJ[ABSTRACT]/NOUN amit NOUN<CAS<ACC>> 5 ami/NOUN<CAS<ACC>> Am/ NOUN[MET_ATTRIB]/ADJ<CAS<ACC>> Am/NOUN[MET_ATTRIB]/ ADJ<CAS<ACC>> Ami/NOUN[MET_ATTRIB]/ADJ<CAS<ACC>> Ami/ NOUN[MET_ATTRIB]/ADJ<CAS<ACC>>
  • 3. ! Hundisambig ◦ Rejtett Markov-modell, hunmorph kimenet használja ◦ Nincs forráskód, nincs dokumentáció ◦ Sokszor inkonzisztens, nehezen parse-olható output ◦ Összes képzőtől megfosztott tövet adja vissza ! Hunstem ◦ Heurisztikák: hunmorph szótő+elemzés kiválasztása hunpos címke alapján ! Elemzések szűrése PoS-címkével ! Minimális összetételszám, képzésszám ! leghosszabb lemma; felszíni alakhoz leginkább hasonló kapitalizációjú lemma ! Lemma = lemma az elemzésből (összetételekkel) vagy felszíni alak ha nincs ◦ Kivételszótár: ismeretlen alak (% wildcard) => szótő; ! Trie implementációval
  • 4. ! Hunmorph morfológiai elemző (morpdb.hu lexikon) kiegészítése új, ismeretlen szavakkal ◦ Tetszőleges alakban felismerhetők legyenek ◦ Ne kelljen érteni morphdb.hu formalizmushoz ! Lista: ismeretlen szótő + ismert, analóg szótő (azonos paradigma, szófaj(ok)) ◦ Leíró feature-ök automatikus hozzárendelése: új .lexicon fájl generálása ◦ Kompilálás (hunlex) korábbi + új .lexicon fájlok => .aff, .dic fájlok
  • 5. ! Huntoken kiegészítése, javítása ◦ Pl. adaptáció SM (Facebook) nyelvhasználathoz ! Huntoken + elő- és utófeldolgozó fv.-ek (python) ◦ Bővíthető listák: helyettesítések, reg.kif. v. exact match ! Ugyan+olyan => ugyanolyan ! Asszem=> azt+hiszem ! ejj+ => uj ◦ Python utasítások, pl. ! URL-ek felismerése és egyben tartása ! “egyik.másik” => [egyik, másik] ! egyik..... másik => [egyik, …, másik]