Vincze Veronika: Korpuszok az információkinyerésben

NyelvtechnológiaiCsoport
A Szeged Korpusz és
Treebank
Vincze Veronika

NyelvtechnológiaiCsoport A Szeged Korpusz és Treebank
• Teljes egészében kézzel annotált (gold standard) magyar
nyelvű adatbázis
• Több műfajból származó szövegek: irodalom, újságcikkek,
jogi szövegek, iskolás fogalmazások, számítástechnikai
szövegek, üzleti rövidhírek, webes szövegek
• 84 000 mondat
• 1,2M token, doménenként kb. 200K (kivéve web)
• Számos annotációs réteg
– Mondatra és szövegszóra bontás
– Morfológiai elemzés
– Szófaji egyértelműsítés
– Összetevős (konstituens) elemzés
– Függőségi elemzés
– Koreferencia
– Tulajdonnevek
– Félig kompozicionális szerkezetek
– Események/szemantikai keretek
– Nyelvi bizonytalanság

Morfológia
• Minden egyes szóhoz az összes
lehetséges elemzés meg van adva
tűznek: Nc-sg, Nc-sd, Vmip3p---n
• 1.0 és 2.0 verziók: MSD kódrendszer
alapján
• 2.5 verzió: KR-MSD harmonizált
kódrendszer alapján
• Szófaji egyértelműsítés: minden egyes
szóhoz a kontextusnak megfelelő
elemzés van megadva

Szintaktikai elemzés
• Minden egyes mondathoz összetevős és
függőségi elemzés is tartozik
• Nyelvtani szerepek jelölve vannak a
mondatokon belül (ki mit csinált kivel
stb.)
• Függőségi annotáció:
– Virtuális csomópontok kezelésére
több módszer
– Univerzális dependencia projekt elvei
alapján készülő annotáció

Szemantikai annotációk
• Koreferencia:
– Azonos entitásra utaló nyelvi elemek
összekötése
– Iskolás fogalmazások és újságcikkek
Az úton sok ismerőssel találkoztunk, akik újságolták
proOBJ nekünk, hogy milyen jó a hangulat a majálison.
Amikor leérkeztünk, már nagy volt a nyüzsgés, finom
illatok szálltak a levegőben, és folytak a koncert
előkészületei, ugyanis - ha még nem írtam proOBJ volna
– a Bestiák énekeltek aznap nekünk. Én ugyan nem
nagyon szeretem ezt az együttest, de miattuk nem
hagyhattam ki ezt az eseményt.

Szemantikai annotációk 2.
• Tulajdonnevek
– Személy, hely, szervezet, egyéb
– Üzleti rövidhírek + web
– Az OTPORG új fiókot nyitott EgerbenLOC.
• Félig kompozicionális szerkezetek
– Többszavas kifejezés
– Több szóból áll, de egy szemantikai
egység
– Az OTP döntést hozott az egri fiók
bezárásáról.

Szemantikai annotációk 3.
• Események/szemantikai keretek
– Üzleti események és szereplőik
– Üzleti rövidhírek
– A Nagyhal Rt. és a Kishal Bt. együttműködési
megállapodást kötött.
• Nyelvi bizonytalanság
– Tény vs. tagadott információ vs. bizonytalan
információ elkülönítése
– A bizonytalanság több típusa van jelölve
– Webes szövegek
– de sztem az arab se helyes ugy mert ottis van
nyelvtan. feltetelezem

NyelvtechnológiaiCsoport Felhasználhatóság
• Számos NLP-alkalmazásban
hasznosítható információk
• Algoritmusok tanítása és kiértékelése:
morfológiai elemző, POS-tagger,
szintaktikai elemzők, NER stb.
• Sok annotáció azonos szövegeken:
segíthetik egymást!
• Oktatási és kutatási célra szabadon
felhasználható (licencszerződés aláírása
után)
http://rgai.inf.u-szeged.hu/nlp/SzegedTreebank

Vincze Veronika: Korpuszok az információkinyerésben

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (12)

More from Zoltan Varju

More from Zoltan Varju (19)

Vincze Veronika: Korpuszok az információkinyerésben