Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē
1. Latviešuvalodastekstukorpusaies
pējasvārdnīcuizveidē
NormundsGrūzītis
GuntaNešpore
LU Matemātikas un informātikasinstitūta
Mākslīgāintelektalaboratorija
Latviešuleksikoloģija, leksikogrāfija un terminoloģija
ApvienotaisPasauleslatviešuzinātnieku III kongress un Letonikas IV kongress
Rīgā, 2011. gada 25. oktobrī
2. Īsumā...
• Pilnīga informācija par vārdu = korpuss + vārdnīca
– Kāda informācija ir (būs) atrodama mūsdienu latviešu valodas tekstu
korpusā
• www.korpuss.lv
• Morfosintaktiskais marķējums
– Kāda informācija būtu iekļaujama (abstraktā) vārdnīcā
• Korpuss vārdnīca
3. Informācija par vārdu
1. Formas apraksts – korpuss
2. Leksēmas apraksts – vārdnīca
3. Cita (neskaidra, nevēlama) informācija
• Korpuss: deskriptīvs valodas apraksts
– faktiskais lietojums
– no vārdformām un vārdu secības izrietošās morfosintaktiskās pazīmes
• Vārdnīca: vispārinājumi, pieņēmumi, ieteikumi, noteikumi
– vienskaitlinieks/daudzskaitlinieks, ģenitīvenis, kopdzimte, kādības/attieksmes
īp.v., lokāms/nelokāms/daļēji
lokāms, transitīvs/intransitīvs, prepozicija/postpozicija, deklinācija, konjugācija
, ...
4. Pazīmes
Morfosintaktiskas
Leksēmas p.
Vārdnīcā iekļaujamās
Sintaktiskas leksēmas pazīmes
Morfoloģiskas Ko piesaista
(lietojumā), nevis kas
piemīt (tipiski)
Korpusā izmantoto
pazīmju kopa
MULTEXT-Eastpazīmju kopas atvasinājums, ņemot vērā:
- līdzšinējo pieredzi morfoloģiski marķētu korpusu izveidē un lietošanā
- pieredzi latviešu valodas sintaktiskajā analīzē
- pieredzi latviešu valodas ģenerēšanā (sintēzē)
- pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē
- esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi
- latviešu valodniecības tradīciju
5. Piemērs
pazīme attiecināma uz leksēmu,
taču nosakāma ortogrāfiski un/vai
kontekstuāli
pazīme attiecināma uz leksēmu,
taču nosakāma morfoloģiski
Marķējumā neiekļautās pazīmes:
- kopdzimte
- vsk-nieks, dsk-nieks
- ģenitīvenis, nelokāms
- deklinācija
tradicionāli
vs.
formāli
Piem., Krustev B. The Bulgarian
Morphology in 187 Type Tables.
NaukaiIzkustvo, 1984
piem., “daudzstāvu” – Ncmpg
7. Pieejamie korpusi
Vārdlie- Morfo-
Nosaukums Raksturojums tojumu loģiski
skaits marķēts
3,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu
miljons-2.0 ~3,5 milj. nē
valodas korpuss (1991–2008) ar metadatiem.
līdzsvarota mūsdienu latviešu valodas korpusa
miljons–2.0m morfoloģiski marķēta versija; morfoloģiskais marķējums ~3,5 milj. jā
nav precīzs, jo nav novērsta daudznozīmība
Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar
Saeima-2.0 22,5 milj. nē
metadatiem
lielslatviešu valodas tīmekļakorpuss ar daļēju morfoloģisko
timeklis-1.0 ~97 milj. jā
marķējumu
manuāli morfoloģiski marķēts paraugkorpuss
ledus ~14 000 jā
(P. Bankovskis „Plāns ledus“, 1. nodaļa)
morf. un
sintaktiski anotēts
izstrādes stadijā (VPP “Nacionālā identitāte” ietvaros) >900 teik. sint.
paraugkorpuss
marķēts
Vārdnīcas - plašāizpratnē. Ne tikaiskaidrojošās, bet arīcitas (morf., valenčuu.c.).
Diskusija par informācijas dalījumu starp korpusu un vārdnīcu.Korpusa izmantošanas iespējas vārdnīcu izveidē.Nemēģinām mācīt leksikogrāfus, kā (saturiski) veidot šķirkļus; neesam nemaz kompetenti to darīt.Kā (savdabīgi) vārdnīcu lietotāji mēģinām norādīt, kādu informāciju mēs vēlētos vārdnīcās atrast.Abstrakta vārdnīca: gan funkcionāli, gan formāta ziņā.
Vārdnīca: info, kas tipiski būtu iekļaujama morf., valenču skaird. vai kādā citā vārdnīcā, bet kas nebūtu tādā pat (preskriptīvā) veidā iekļaujama korpusā.Korpuss – deskriptīvs valodas apraksts; vārdnīca – (vairāk) preskriptīvs apraksts.
Pazīmes: pagaidām ir runa tikai par gramatisko informāciju!Turklāt galvenokārt morfoloģisko inform., nevis sintaktisko (strukturālo).Analīzes/sintēzes piemērs: analizējot nav nepieciešams zināt, ka tas ir ģenitīvenis, savukārt ģenerējot teikumu jāzina, ka normatīvais lietojums ir tikai ģen., vēl vairāk – tikai apzīm. (formālivartraktētkānelok. īp. v.).
Pozicionāls marķējums; atbilsmes ISO lingvistikas terminu katalogā.Lietvārdu gadījumā – piemīt visas pazīmes; pieņēmums: nelokāmajiem forma “sakrīt” visos locījumos.Ja kādu pazīmi nav iespējams izšķirt pēc konteksta (piem., dzimti t.s. kopdzimtes vārdiem), tiek norādīti abi iespējamie varianti.Analoģiski: trans/intrans, pre/post – tā kā ir lietojumā, nevis tā kā “būtu jābūt”.Type tomēr ir iekļauta, lai arī leksikas pazīme: savietojamība ar Multext, kā arī savā ziņā formāla un kontekstuāla pazīme (“kalns” vs. “Kalns”).
Divvirziena info plūsma: korpuss vārdnīca, nevistikaikorpussvārdnīca.Marķējumadimensijas. Piezīme: šis ir tas, uz ko ejam – pašlaik vēl atsevisķos LUMII korpusos morf. informācija ir sapludināta ar leksēmas info.Precīzai: ar tosaprototvienu no “150+” locīšanasparadigmām.Arīnozīmesskaidrojumos (iekšēji) būtunepieciešamastiešas un precīzas (starp)norādes (līdzīgikā LLVV, tikaivēlkonsekventāk), nesaīsinātilietojumpiemēriu.c., bet tastiešāveidāneattiecasuzvārdnīcas un korpusamijiedarbību. Teorētiskivārdlietojumiemvarētumarķētleksiskāsnozīmes, tačutasnebūtuperspektīvi: lielsdarbs, slidenasnozīmjurobežas, atkarība no konkrētasvārdnīcas.Atkāpe: MRD. Macmillian piemērs.
Treebank: blakus esošie vārdi vs. pakārtotie locekļi.
BNC statistika.Biežāk lietotie – daudznozīmīgi, retāk lietotie – maznozīmīgi (mazāk materiāla, t.i., lietojumpiemēru vajadzīgs). – vismaz tendence. (var būt arī mazlietota nozīme bieži lietotam vārdam)
Korpuss (un tā rīki) piedāvā vispusīgu materiālu un obektīvākas analīzes iespējas.Kā interpretēt statistiku – ko es redzu, ko jūs (leksikogrāfi) redzat?Ko ar (statistisko) informāciju iesākt, kā dalīt nozīmēs – leksikogrāfi labāk zinās, tāpēc atlikušajā daļā tikai ātrs skrējiens cauri atsevišķiem ekrānskatiem.
Biežāk lietotām formām vērts pievērst vairāk uzmanības gan piemēru izvēlē, gan varbūt kādu divdabju atsevišķā aprakstā vai tml.
Ļoti dominē forma beidzot — lai arī nav nošķirts, vai tas ir adverbs vai verbs, tik liels biežums vērš uzmanību uz to, ka šī forma drošvien nav ignorējama.
Vērts pievērst uzmanību vārdiem, ka ir liels relatīvais un(vai) absolūtais biežums.Tas palīdz izvēlēties, piemēram, šķirkļa ilustratīvo materiālu, kā arī konstatēt stabilus vārdu savienojumus, kuru nozīme būtu jāskaidro atsevišķi.
Skaistas saskarnes gadījumā var redzēt vārda sintaktisko valenci — kādas morfoloģiskās formas ir tā apkaimē.Piem., vai verbam ir objekts akuzatīvā. Vai ir netiešais objekts datīvā.
Tas dod līdzīgus rezultātus kā kolokācijas ar „tag”.Piemēram, visi lietvārdi akuzatīvā tiks doti pēc kārtas.Ja kārto kontekstu pēc alfabēta „word” dimensijā, rezultāti nav tik skaidri.
Novēlējums: lai ne pārāk tālā nākotnē būtu pieejams kvantitatīvs, kvalitatīvs, morf. marķēts LV mūsdienu valodas korpuss, un praksē aprobēta, ar korpusu cieši saistīta mašīnlasāmu vārdnīcu izstrādes infrastruktūra (darba vide), kas pavērtu iespēju pilnveidot esošās un šobrīd topošās vārdnīcas, kā arī veidot jaunas vispārīgās un speciālās vārdnīcas.