Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

HG-1 treebank demo bevezetés PDF

294 views

Published on

  • Be the first to comment

  • Be the first to like this

HG-1 treebank demo bevezetés PDF

  1. 1. A HG-1 TREEBANK• Bevezetés• A HG-1 elkészítésének folyamata• HG-1 adatok az INESS adatbázisban
  2. 2. Bevezetés: a „korpusz” fogalmaA korpusz szövegek tervezett, szerkesztett gyűjteménye (corpus(lat.) = test, itt: szövegtest), melyet általában nyelvészeti célrahasználunk fel helyesírásunk ellenőrzésétől kezdveszabályszerűségek szakértői vagy automatizált feltárásáig.Az általános célú korpuszokat úgy tervezik meg, hogy többfélecélra (pl. általános nyelvtani tanulmányok, lexikográfia,nyelvtanulás) felhasználhatók legyenek. Ennek érdekében több(száz)millió szavas, műfajilag lehetőleg univerzális ésreprezentatív gyűjteményeket készítenek, általábankereskedelmi célra.A speciális célú korpuszok szerkesztésmódjuk és/vagy ahozzáadott nyelvi információk (címkék) révén bizonyosnyelvészeti területekre és célokra szakosodnak.
  3. 3. Bevezetés: a „treebank” fogalmaA treebank mondattani információt tartalmazó korpusz. Amondattani információ tartalmazza a mondat összetevősszerkezetét (melynek hierarchikus, fákkal ábrázolhatójellege adja ennek a korpuszfajtának a treebank nevet), ésa szavakra és az összetevőkre vonatkozó nyelvtaniinformációkat.A HunGram-1 korpusz (HG-1) a Debreceni Egyetem AngolNyelvészeti Tanszékén működő LFGRG munkacsoporttreebank fejlesztése.
  4. 4. A HG-1 korpusz alapadatokHunGram-1 (HG-1): 1,5 millió szavas magyar írott nyelvi korpusz.Teljes gépi morfológiai és mondattani (összetevős szerkezet)annotáció, morfológiailag egyértelműsített, mondattanilag többértelmű.Kijelölt alkorpusz kézi egyértelműsítése.Elméleti nyelvészeti társprojekt: a magyar nyelv LFG nyelvtanánakmegalkotása (http://hungram.unideb.hu)Korpusznyelvészeti alprojektek: nyers korpusz beszerzése és gyűjtése(lásd következő dia), annotáció előkészítése; kézi egyértelműsítésIT infrastruktúra alprojekt: mondatokra bontás, elemzések elkészítése(XLE és korpuszolvasó segédeszközök), INESS(http://iness.uib.no/iness/): vizualizáció és on-line annotációs/lekérdezőfelület
  5. 5. A HG-1 „nyers” forrásai• Hunglish korpusz: nyers (=annotáció nélküli) magyar-angol párhuzamos korpusz Varga, D., Németh, L., Halácsy, P., Kornai, A., Trón, V., Nagy, V. (2005). Parallel corpora for medium density languages. In: Proceedings of the RANLP 2005, pp. 590-596.• Szeged Treebank 2.0: 1,2 millió szavas treebank (korpuszannotációját nem használjuk) Csendes D., Alexin Z., Csirik J., Kocsor A. (2005). A Szeged Korpusz és Treebank verzióinak története. In: III. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2005) kiadványa, Szeged, pp. 409-412.• Magyar Webkorpusz: 1,5 milliárd szavas (szűrés után 600 millió szavas), .hu domainről gyűjtött, nyelvi annotáció nélküli webkorpusz részletei Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based frequency dictionaries for medium density languages In: Proceedings of the 2nd International Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pp. 1-9.
  6. 6. A korpuszépítés lépései1. A korpuszforrásokból kinyert mondatok elemzeztetése a HunGram nyelvtannal az XLE parserben2. Sikeres elemzések tárolása PROLOG fájlokban (sikertelen elemzés a nyelvtanírás számára visszacsatolás)3. Az elemzés feltöltése az INESS renszerbe4. Kézi egyértelműsítés ill. az eredmény on-line böngészése INESS-ben
  7. 7. INESS: treebank kiválasztása
  8. 8. INESS: mondat kiválasztása
  9. 9. INESS: mondatelemzés vizualizációja F-STRUCTURE Attributum-érték párok a predikátum- argumentum relációk ás más nyelvtani infrormációk (szám, igeidő, eset) ábrázolásáraC-STRUCTURE Környezetfüg- getlen frázisstruktúra- ágrajz az összetevős- szerkezet és alineáris szórend ábrázolására

×