Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

1,324 views

Published on

Published in: Technology
  • Be the first to comment

MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

  1. 1. PPKE ITK Nyelvtechnológiai Labor http://nlpg.itk.ppke.hu/ Miháltz Márton <mihaltz.marton@itk.ppke.hu>
  2. 2. Bemutatkozás • Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kar • Nyelvtechnológiai Labor: – PPKE ITK Nyelvtechnológiai Csoport – MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport • Vezető: Prószéky Gábor • 9 doktorandusz (Endrédy István, Indig Balázs, Laki László, Ligeti- Nagy Noémi, Novák Attila, Orosz György, Siklósi Borbála, Simonyi András, Yang Zijian Győző), 2 posztdok (Sass Bálint, Miháltz Márton) • Oktatás: nyelvtechnológia szakirány, mérnökinformatikus BSc és MSc; PhD képzés
  3. 3. Kutatási területek • Morfológiai elemzés és egyértelműsítés • Szintaktikai és szemantikai elemzés • Orvosi szövegek feldolgozása • Helyesírási hibák automatikus javítása • Statisztikai gépi fordítás és alkalmazásai
  4. 4. Projektek • Információkinyerés klinikai szövegekből • Magyar nyelvi elemző • PurePos: nyílt forrású morfológiai elemző és egyértelműsítő • (…)
  5. 5. Információkinyerés klinikai szövegekből • Kezelőlapok, zárójelentések stb. – strukturálatlanság, rövidítések, helyesírási hibák, elírások, latin-magyar keveredés, szaknyelv stb. • Feldolgozás: domain-adaptáció – Szegmentálás, tokenizálás: szabályok, gépi tanulás – Helyesírási hibák automatikus javítása: javaslat- generálás + SMT rendszer – Rövidítésfelismerés és –feloldás: szabályok, lexikon • Információkinyerés – Ontológiaépítés, adatbányászat, döntéstámogatás stb.
  6. 6. Magyar nyelvi elemző (2012-2016) • Mély nyelvi elemzés, teljes szintaxis, szemantika – Pszicholingvisztikai indíttatás: emberi feldolgozás! – Performancia alapú, “rosszulformáltság” is OK – Szigorúan balról jobbra elemzés – Párhuzamos szintek (vs. kaszkád modell) – Mondathatárokon átívelő diskurzusegységek – Gráfreprezentáció: szintaktikai és szemantikai szerepek • Erőforrások – Korpuszépítés: 1G szó, magyar web, folyamatos update – Igeivonzatkeret-adatbázis (MetaMorpho): 18K ige, 33K keret – Magyar WordNet: 42K synset, összekapcsolás vonzatkeretekkel • Példaalkalmazás: üzleti rövidhírek elemzése – Automatikus “szövegértés”: ki, mit, hol, mikor?
  7. 7. Morfológiai elemzés, egyértelműsítés • PurePos – Statisztikai egyértelműsítő (PoS-tagger) • TnT implementáció (HMM) • Tanítás: Szeged Korpusz – Humor morfológiai elemző, szótövesítő – Guesser • Java, Python API • Nyílt forrású (LGPL) https://github.com/ppke-nlpg
  8. 8. Köszönjük a figyelmet! http://nlpg.itk.ppke.hu/ Kód: http://github.com/ppke-nlpg

×