3. ! Hundisambig
◦ Rejtett Markov-modell, hunmorph kimenet használja
◦ Nincs forráskód, nincs dokumentáció
◦ Sokszor inkonzisztens, nehezen parse-olható output
◦ Összes képzőtől megfosztott tövet adja vissza
! Hunstem
◦ Heurisztikák: hunmorph szótő+elemzés kiválasztása hunpos
címke alapján
! Elemzések szűrése PoS-címkével
! Minimális összetételszám, képzésszám
! leghosszabb lemma; felszíni alakhoz leginkább hasonló kapitalizációjú lemma
! Lemma = lemma az elemzésből (összetételekkel) vagy felszíni alak ha nincs
◦ Kivételszótár: ismeretlen alak (% wildcard) => szótő;
! Trie implementációval
4. ! Hunmorph morfológiai elemző (morpdb.hu
lexikon) kiegészítése új, ismeretlen szavakkal
◦ Tetszőleges alakban felismerhetők legyenek
◦ Ne kelljen érteni morphdb.hu formalizmushoz
! Lista: ismeretlen szótő + ismert, analóg szótő
(azonos paradigma, szófaj(ok))
◦ Leíró feature-ök automatikus hozzárendelése:
új .lexicon fájl generálása
◦ Kompilálás (hunlex) korábbi + új .lexicon fájlok
=> .aff, .dic fájlok
5. ! Huntoken kiegészítése, javítása
◦ Pl. adaptáció SM (Facebook) nyelvhasználathoz
! Huntoken + elő- és utófeldolgozó fv.-ek
(python)
◦ Bővíthető listák: helyettesítések, reg.kif. v. exact match
! Ugyan+olyan => ugyanolyan
! Asszem=> azt+hiszem
! ejj+ => uj
◦ Python utasítások, pl.
! URL-ek felismerése és egyben tartása
! “egyik.másik” => [egyik, másik]
! egyik..... másik => [egyik, …, másik]