Latviešuvalodastekstukorpusaies
      pējasvārdnīcuizveidē
                                                                 NormundsGrūzītis
                                                                    GuntaNešpore

                                      LU Matemātikas un informātikasinstitūta
                                               Mākslīgāintelektalaboratorija


                Latviešuleksikoloģija, leksikogrāfija un terminoloģija
     ApvienotaisPasauleslatviešuzinātnieku III kongress un Letonikas IV kongress
                            Rīgā, 2011. gada 25. oktobrī
Īsumā...
• Pilnīga informācija par vārdu = korpuss + vārdnīca
   – Kāda informācija ir (būs) atrodama mūsdienu latviešu valodas tekstu
     korpusā
       • www.korpuss.lv
       • Morfosintaktiskais marķējums

   – Kāda informācija būtu iekļaujama (abstraktā) vārdnīcā

• Korpuss vārdnīca
Informācija par vārdu
1. Formas apraksts – korpuss
2. Leksēmas apraksts – vārdnīca
3. Cita (neskaidra, nevēlama) informācija

• Korpuss: deskriptīvs valodas apraksts
   – faktiskais lietojums
   – no vārdformām un vārdu secības izrietošās morfosintaktiskās pazīmes
• Vārdnīca: vispārinājumi, pieņēmumi, ieteikumi, noteikumi
   – vienskaitlinieks/daudzskaitlinieks, ģenitīvenis, kopdzimte, kādības/attieksmes
     īp.v., lokāms/nelokāms/daļēji
     lokāms, transitīvs/intransitīvs, prepozicija/postpozicija, deklinācija, konjugācija
     , ...
Pazīmes

                Morfosintaktiskas
                                                           Leksēmas p.

                                                            Vārdnīcā iekļaujamās
                               Sintaktiskas                 leksēmas pazīmes
       Morfoloģiskas          Ko piesaista
                              (lietojumā), nevis kas
                              piemīt (tipiski)

Korpusā izmantoto
pazīmju kopa
               MULTEXT-Eastpazīmju kopas atvasinājums, ņemot vērā:
                 - līdzšinējo pieredzi morfoloģiski marķētu korpusu izveidē un lietošanā
                 - pieredzi latviešu valodas sintaktiskajā analīzē
                 - pieredzi latviešu valodas ģenerēšanā (sintēzē)
                 - pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē
                 - esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi
                 - latviešu valodniecības tradīciju
Piemērs


                              pazīme attiecināma uz leksēmu,
                              taču nosakāma ortogrāfiski un/vai
                              kontekstuāli

                              pazīme attiecināma uz leksēmu,
                              taču nosakāma morfoloģiski

                              Marķējumā neiekļautās pazīmes:
                               - kopdzimte
                               - vsk-nieks, dsk-nieks
                               - ģenitīvenis, nelokāms
                               - deklinācija

                                                tradicionāli
                                                    vs.
                                                  formāli

                              Piem., Krustev B. The Bulgarian
                              Morphology in 187 Type Tables.
                              NaukaiIzkustvo, 1984
piem., “daudzstāvu” – Ncmpg
Korpusa un vārdnīcas mijiedarbība
                             leksēmas               sintaktiskā
 morfosintaktiskās            pazīmes                struktūra             leksiskā
     pazīmes               dimens. #2      dimens. #3
                                                                           nozīme

             dimens. #1                                       dimens. #4
                                  vārdlietojums


• Vārdnīcapilnīgagramatiskāinformācija par leksēmu
   – Precīzailocīšanasparadigmai (t.sk. vārdšķirai) irjābūtviennozīmīgi
     “nolasāmai” vaiizsecināmai
       • Informācijasatainojumsgalalietotājam
         (rādīt/nerādīt, formatējums, secībau.tml.) – sekundārsjautājums
            – Mašīnlasāmavārdnīcadrukāta, tiešsaistes, mobilā, CD, … vārdnīca

   – Dators = “ārzemnieks” (!)
Pieejamie korpusi
                                                                                  Vārdlie-     Morfo-
   Nosaukums                               Raksturojums                           tojumu       loģiski
                                                                                    skaits     marķēts

                    3,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu
miljons-2.0                                                                       ~3,5 milj.     nē
                    valodas korpuss (1991–2008) ar metadatiem.

                    līdzsvarota mūsdienu latviešu valodas korpusa
miljons–2.0m        morfoloģiski marķēta versija; morfoloģiskais marķējums        ~3,5 milj.      jā
                    nav precīzs, jo nav novērsta daudznozīmība
                    Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar
Saeima-2.0                                                                        22,5 milj.     nē
                    metadatiem

                    lielslatviešu valodas tīmekļakorpuss ar daļēju morfoloģisko
timeklis-1.0                                                                      ~97 milj.       jā
                    marķējumu

                    manuāli morfoloģiski marķēts paraugkorpuss
ledus                                                                             ~14 000         jā
                    (P. Bankovskis „Plāns ledus“, 1. nodaļa)
                                                                                               morf. un
sintaktiski anotēts
                    izstrādes stadijā (VPP “Nacionālā identitāte” ietvaros)       >900 teik.    sint.
paraugkorpuss
                                                                                               marķēts
Zifa likums




       > 100 milj. vārdlietojumu korpuss
Korpuss vārdnīca
• Korpuss (“digitālā kartotēka”) –konkordances–> vārdnīca
• Teorētiski: vispusīgs materiāls, objektīvas analīzes iespējas
   – “man liekas ka” vs. “faktiski ir tā”
   – statistika
   – lietojumpiemēri
       • biežākie (tipiskie) savienojumi
       • stabili vārdu savienojumi
            – kolokāciju analīze

   – nozīmju dalījums
       • piem., valences analīze
Vārdformu biežums




Bonito: Konkordance>>Statistika>>Biežumasadalījums
Vārdformu biežums




Bonito: Konkordance>>Statistika>>Biežumasadalījums
Kolokācijas
Bonito:
Konkordance>>Statistika
>>Kolokācijas


atslēgvārds “iet”:
- sakārtotspēc
relatīvābiežuma
Kolokācijas
Bonito:
Konkordance>>Statistika
>>Kolokācijas


atslēgvārds “iet”:
- sakārtotspēc
absolūtābiežuma
Kolokācijas
Bonito:
Konkordance>>Statistika
>>Kolokācijas


atslēgvārds “sāpēt”:
- sakārtotspēc
relatīvābiežuma
Kolokācijas – pēc sintaktiskās valences
Bonito:
Konkordance>>Statistika
>>Kolokācijas


atslēgvārds “skriet”:
- pēcdimensijas “tag”
Konkordances kārtošana




Bonito: Konkordance>>Vienkāršākārtošana (pēcdimensijas “tag”)
Paldies!
             www.korpuss.lv
             www.tezaurs.lv

Sekojietjaunumiem:   twitter.com/AILab_lv

Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

  • 1.
    Latviešuvalodastekstukorpusaies pējasvārdnīcuizveidē NormundsGrūzītis GuntaNešpore LU Matemātikas un informātikasinstitūta Mākslīgāintelektalaboratorija Latviešuleksikoloģija, leksikogrāfija un terminoloģija ApvienotaisPasauleslatviešuzinātnieku III kongress un Letonikas IV kongress Rīgā, 2011. gada 25. oktobrī
  • 2.
    Īsumā... • Pilnīga informācijapar vārdu = korpuss + vārdnīca – Kāda informācija ir (būs) atrodama mūsdienu latviešu valodas tekstu korpusā • www.korpuss.lv • Morfosintaktiskais marķējums – Kāda informācija būtu iekļaujama (abstraktā) vārdnīcā • Korpuss vārdnīca
  • 3.
    Informācija par vārdu 1.Formas apraksts – korpuss 2. Leksēmas apraksts – vārdnīca 3. Cita (neskaidra, nevēlama) informācija • Korpuss: deskriptīvs valodas apraksts – faktiskais lietojums – no vārdformām un vārdu secības izrietošās morfosintaktiskās pazīmes • Vārdnīca: vispārinājumi, pieņēmumi, ieteikumi, noteikumi – vienskaitlinieks/daudzskaitlinieks, ģenitīvenis, kopdzimte, kādības/attieksmes īp.v., lokāms/nelokāms/daļēji lokāms, transitīvs/intransitīvs, prepozicija/postpozicija, deklinācija, konjugācija , ...
  • 4.
    Pazīmes Morfosintaktiskas Leksēmas p. Vārdnīcā iekļaujamās Sintaktiskas leksēmas pazīmes Morfoloģiskas Ko piesaista (lietojumā), nevis kas piemīt (tipiski) Korpusā izmantoto pazīmju kopa MULTEXT-Eastpazīmju kopas atvasinājums, ņemot vērā: - līdzšinējo pieredzi morfoloģiski marķētu korpusu izveidē un lietošanā - pieredzi latviešu valodas sintaktiskajā analīzē - pieredzi latviešu valodas ģenerēšanā (sintēzē) - pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē - esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi - latviešu valodniecības tradīciju
  • 5.
    Piemērs pazīme attiecināma uz leksēmu, taču nosakāma ortogrāfiski un/vai kontekstuāli pazīme attiecināma uz leksēmu, taču nosakāma morfoloģiski Marķējumā neiekļautās pazīmes: - kopdzimte - vsk-nieks, dsk-nieks - ģenitīvenis, nelokāms - deklinācija tradicionāli vs. formāli Piem., Krustev B. The Bulgarian Morphology in 187 Type Tables. NaukaiIzkustvo, 1984 piem., “daudzstāvu” – Ncmpg
  • 6.
    Korpusa un vārdnīcasmijiedarbība leksēmas sintaktiskā morfosintaktiskās pazīmes struktūra leksiskā pazīmes dimens. #2 dimens. #3 nozīme dimens. #1 dimens. #4 vārdlietojums • Vārdnīcapilnīgagramatiskāinformācija par leksēmu – Precīzailocīšanasparadigmai (t.sk. vārdšķirai) irjābūtviennozīmīgi “nolasāmai” vaiizsecināmai • Informācijasatainojumsgalalietotājam (rādīt/nerādīt, formatējums, secībau.tml.) – sekundārsjautājums – Mašīnlasāmavārdnīcadrukāta, tiešsaistes, mobilā, CD, … vārdnīca – Dators = “ārzemnieks” (!)
  • 7.
    Pieejamie korpusi Vārdlie- Morfo- Nosaukums Raksturojums tojumu loģiski skaits marķēts 3,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu miljons-2.0 ~3,5 milj. nē valodas korpuss (1991–2008) ar metadatiem. līdzsvarota mūsdienu latviešu valodas korpusa miljons–2.0m morfoloģiski marķēta versija; morfoloģiskais marķējums ~3,5 milj. jā nav precīzs, jo nav novērsta daudznozīmība Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar Saeima-2.0 22,5 milj. nē metadatiem lielslatviešu valodas tīmekļakorpuss ar daļēju morfoloģisko timeklis-1.0 ~97 milj. jā marķējumu manuāli morfoloģiski marķēts paraugkorpuss ledus ~14 000 jā (P. Bankovskis „Plāns ledus“, 1. nodaļa) morf. un sintaktiski anotēts izstrādes stadijā (VPP “Nacionālā identitāte” ietvaros) >900 teik. sint. paraugkorpuss marķēts
  • 8.
    Zifa likums > 100 milj. vārdlietojumu korpuss
  • 9.
    Korpuss vārdnīca • Korpuss(“digitālā kartotēka”) –konkordances–> vārdnīca • Teorētiski: vispusīgs materiāls, objektīvas analīzes iespējas – “man liekas ka” vs. “faktiski ir tā” – statistika – lietojumpiemēri • biežākie (tipiskie) savienojumi • stabili vārdu savienojumi – kolokāciju analīze – nozīmju dalījums • piem., valences analīze
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
    Kolokācijas – pēcsintaktiskās valences Bonito: Konkordance>>Statistika >>Kolokācijas atslēgvārds “skriet”: - pēcdimensijas “tag”
  • 16.
  • 17.
    Paldies! www.korpuss.lv www.tezaurs.lv Sekojietjaunumiem: twitter.com/AILab_lv

Editor's Notes

  • #2 Vārdnīcas - plašāizpratnē. Ne tikaiskaidrojošās, bet arīcitas (morf., valenčuu.c.).
  • #3 Diskusija par informācijas dalījumu starp korpusu un vārdnīcu.Korpusa izmantošanas iespējas vārdnīcu izveidē.Nemēģinām mācīt leksikogrāfus, kā (saturiski) veidot šķirkļus; neesam nemaz kompetenti to darīt.Kā (savdabīgi) vārdnīcu lietotāji mēģinām norādīt, kādu informāciju mēs vēlētos vārdnīcās atrast.Abstrakta vārdnīca: gan funkcionāli, gan formāta ziņā.
  • #4 Vārdnīca: info, kas tipiski būtu iekļaujama morf., valenču skaird. vai kādā citā vārdnīcā, bet kas nebūtu tādā pat (preskriptīvā) veidā iekļaujama korpusā.Korpuss – deskriptīvs valodas apraksts; vārdnīca – (vairāk) preskriptīvs apraksts.
  • #5 Pazīmes: pagaidām ir runa tikai par gramatisko informāciju!Turklāt galvenokārt morfoloģisko inform., nevis sintaktisko (strukturālo).Analīzes/sintēzes piemērs: analizējot nav nepieciešams zināt, ka tas ir ģenitīvenis, savukārt ģenerējot teikumu jāzina, ka normatīvais lietojums ir tikai ģen., vēl vairāk – tikai apzīm. (formālivartraktētkānelok. īp. v.).
  • #6 Pozicionāls marķējums; atbilsmes ISO lingvistikas terminu katalogā.Lietvārdu gadījumā – piemīt visas pazīmes; pieņēmums: nelokāmajiem forma “sakrīt” visos locījumos.Ja kādu pazīmi nav iespējams izšķirt pēc konteksta (piem., dzimti t.s. kopdzimtes vārdiem), tiek norādīti abi iespējamie varianti.Analoģiski: trans/intrans, pre/post – tā kā ir lietojumā, nevis tā kā “būtu jābūt”.Type tomēr ir iekļauta, lai arī leksikas pazīme: savietojamība ar Multext, kā arī savā ziņā formāla un kontekstuāla pazīme (“kalns” vs. “Kalns”).
  • #7 Divvirziena info plūsma: korpuss vārdnīca, nevistikaikorpussvārdnīca.Marķējumadimensijas. Piezīme: šis ir tas, uz ko ejam – pašlaik vēl atsevisķos LUMII korpusos morf. informācija ir sapludināta ar leksēmas info.Precīzai: ar tosaprototvienu no “150+” locīšanasparadigmām.Arīnozīmesskaidrojumos (iekšēji) būtunepieciešamastiešas un precīzas (starp)norādes (līdzīgikā LLVV, tikaivēlkonsekventāk), nesaīsinātilietojumpiemēriu.c., bet tastiešāveidāneattiecasuzvārdnīcas un korpusamijiedarbību. Teorētiskivārdlietojumiemvarētumarķētleksiskāsnozīmes, tačutasnebūtuperspektīvi: lielsdarbs, slidenasnozīmjurobežas, atkarība no konkrētasvārdnīcas.Atkāpe: MRD. Macmillian piemērs.
  • #8 Treebank: blakus esošie vārdi vs. pakārtotie locekļi.
  • #9 BNC statistika.Biežāk lietotie – daudznozīmīgi, retāk lietotie – maznozīmīgi (mazāk materiāla, t.i., lietojumpiemēru vajadzīgs). – vismaz tendence. (var būt arī mazlietota nozīme bieži lietotam vārdam)
  • #10 Korpuss (un tā rīki) piedāvā vispusīgu materiālu un obektīvākas analīzes iespējas.Kā interpretēt statistiku – ko es redzu, ko jūs (leksikogrāfi) redzat?Ko ar (statistisko) informāciju iesākt, kā dalīt nozīmēs – leksikogrāfi labāk zinās, tāpēc atlikušajā daļā tikai ātrs skrējiens cauri atsevišķiem ekrānskatiem.
  • #11 Biežāk lietotām formām vērts pievērst vairāk uzmanības gan piemēru izvēlē, gan varbūt kādu divdabju atsevišķā aprakstā vai tml.
  • #12 Ļoti dominē forma beidzot — lai arī nav nošķirts, vai tas ir adverbs vai verbs, tik liels biežums vērš uzmanību uz to, ka šī forma drošvien nav ignorējama.
  • #13 Vērts pievērst uzmanību vārdiem, ka ir liels relatīvais un(vai) absolūtais biežums.Tas palīdz izvēlēties, piemēram, šķirkļa ilustratīvo materiālu, kā arī konstatēt stabilus vārdu savienojumus, kuru nozīme būtu jāskaidro atsevišķi.
  • #16 Skaistas saskarnes gadījumā var redzēt vārda sintaktisko valenci — kādas morfoloģiskās formas ir tā apkaimē.Piem., vai verbam ir objekts akuzatīvā. Vai ir netiešais objekts datīvā.
  • #17 Tas dod līdzīgus rezultātus kā kolokācijas ar „tag”.Piemēram, visi lietvārdi akuzatīvā tiks doti pēc kārtas.Ja kārto kontekstu pēc alfabēta „word” dimensijā, rezultāti nav tik skaidri.
  • #18 Novēlējums: lai ne pārāk tālā nākotnē būtu pieejams kvantitatīvs, kvalitatīvs, morf. marķēts LV mūsdienu valodas korpuss, un praksē aprobēta, ar korpusu cieši saistīta mašīnlasāmu vārdnīcu izstrādes infrastruktūra (darba vide), kas pavērtu iespēju pilnveidot esošās un šobrīd topošās vārdnīcas, kā arī veidot jaunas vispārīgās un speciālās vārdnīcas.