1. A HG-1 TREEBANK
• Bevezetés
• A HG-1 elkészítésének folyamata
• HG-1 adatok az INESS adatbázisban
2. Bevezetés: a „korpusz” fogalma
A korpusz szövegek tervezett, szerkesztett gyűjteménye (corpus
(lat.) = test, itt: szövegtest), melyet általában nyelvészeti célra
használunk fel helyesírásunk ellenőrzésétől kezdve
szabályszerűségek szakértői vagy automatizált feltárásáig.
Az általános célú korpuszokat úgy tervezik meg, hogy többféle
célra (pl. általános nyelvtani
tanulmányok, lexikográfia, nyelvtanulás) felhasználhatók
legyenek. Ennek érdekében több (száz)millió szavas, műfajilag
lehetőleg univerzális és reprezentatív gyűjteményeket
készítenek, általában kereskedelmi célra.
A speciális célú korpuszok szerkesztésmódjuk és/vagy a
hozzáadott nyelvi információk (címkék) révén bizonyos
nyelvészeti területekre és célokra szakosodnak.
3. Bevezetés: a „treebank” fogalma
A treebank mondattani információt tartalmazó korpusz. A
mondattani információ tartalmazza a mondat összetevős
szerkezetét (melynek hierarchikus, fákkal ábrázolható
jellege adja ennek a korpuszfajtának a treebank nevet), és
a szavakra és az összetevőkre vonatkozó nyelvtani
információkat.
A HunGram-1 korpusz (HG-1) a Debreceni Egyetem Angol
Nyelvészeti Tanszékén működő LFGRG munkacsoport
treebank fejlesztése.
4. A HG-1 korpusz alapadatok
HunGram-1 (HG-1): 1,5 millió szavas magyar írott nyelvi korpusz.
Teljes gépi morfológiai és mondattani (összetevős szerkezet)
annotáció, morfológiailag egyértelműsített, mondattanilag többértelmű.
Kijelölt alkorpusz kézi egyértelműsítése.
Elméleti nyelvészeti társprojekt: a magyar nyelv LFG nyelvtanának
megalkotása (http://hungram.unideb.hu)
Korpusznyelvészeti alprojektek: nyers korpusz beszerzése és gyűjtése
(lásd következő dia), annotáció előkészítése; kézi egyértelműsítés
IT infrastruktúra alprojekt: mondatokra bontás, elemzések elkészítése
(XLE és korpuszolvasó segédeszközök), INESS
(http://iness.uib.no/iness/): vizualizáció és on-line annotációs/lekérdező
felület
5. A HG-1 „nyers” forrásai
• Hunglish korpusz: nyers (=annotáció nélküli) magyar-angol
párhuzamos korpusz
Varga, D., Németh, L., Halácsy, P., Kornai, A., Trón, V., Nagy, V. (2005).
Parallel corpora for medium density languages. In: Proceedings of the RANLP 2005, pp. 590-596.
• Szeged Treebank 2.0: 1,2 millió szavas treebank
(korpuszannotációját nem használjuk)
Csendes D., Alexin Z., Csirik J., Kocsor A. (2005). A Szeged Korpusz és Treebank verzióinak
története. In: III. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2005)
kiadványa, Szeged, pp. 409-412.
• Magyar Webkorpusz: 1,5 milliárd szavas (szűrés után 600 millió
szavas), .hu domainről gyűjtött, nyelvi annotáció nélküli webkorpusz
részletei
Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based
frequency dictionaries for medium density languages In: Proceedings of the 2nd International
Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pp. 1-9.
6. A korpuszépítés lépései
1. A korpuszforrásokból
kinyert mondatok
elemzeztetése a HunGram
nyelvtannal az XLE
parserben
2. Sikeres elemzések
tárolása PROLOG
fájlokban (sikertelen
elemzés a nyelvtanírás
számára visszacsatolás)
3. Az elemzés feltöltése az
INESS renszerbe
4. Kézi egyértelműsítés ill. az
eredmény on-line
böngészése INESS-ben
9. INESS: mondatelemzés vizualizációja
F-STRUCTURE
Attributum-érték
párok a
predikátum-
argumentum
relációk ás más
nyelvtani
infrormációk
(szám, igeidő, e
set)
ábrázolására
C-STRUCTURE
Környezetfüg-
getlen
frázisstruktúra-
ágrajz az
összetevős-
szerkezet és a
lineáris szórend
ábrázolására