SlideShare a Scribd company logo
1 of 17
Latviešuvalodastekstukorpusaies
      pējasvārdnīcuizveidē
                                                                 NormundsGrūzītis
                                                                    GuntaNešpore

                                      LU Matemātikas un informātikasinstitūta
                                               Mākslīgāintelektalaboratorija


                Latviešuleksikoloģija, leksikogrāfija un terminoloģija
     ApvienotaisPasauleslatviešuzinātnieku III kongress un Letonikas IV kongress
                            Rīgā, 2011. gada 25. oktobrī
Īsumā...
• Pilnīga informācija par vārdu = korpuss + vārdnīca
   – Kāda informācija ir (būs) atrodama mūsdienu latviešu valodas tekstu
     korpusā
       • www.korpuss.lv
       • Morfosintaktiskais marķējums

   – Kāda informācija būtu iekļaujama (abstraktā) vārdnīcā

• Korpuss vārdnīca
Informācija par vārdu
1. Formas apraksts – korpuss
2. Leksēmas apraksts – vārdnīca
3. Cita (neskaidra, nevēlama) informācija

• Korpuss: deskriptīvs valodas apraksts
   – faktiskais lietojums
   – no vārdformām un vārdu secības izrietošās morfosintaktiskās pazīmes
• Vārdnīca: vispārinājumi, pieņēmumi, ieteikumi, noteikumi
   – vienskaitlinieks/daudzskaitlinieks, ģenitīvenis, kopdzimte, kādības/attieksmes
     īp.v., lokāms/nelokāms/daļēji
     lokāms, transitīvs/intransitīvs, prepozicija/postpozicija, deklinācija, konjugācija
     , ...
Pazīmes

                Morfosintaktiskas
                                                           Leksēmas p.

                                                            Vārdnīcā iekļaujamās
                               Sintaktiskas                 leksēmas pazīmes
       Morfoloģiskas          Ko piesaista
                              (lietojumā), nevis kas
                              piemīt (tipiski)

Korpusā izmantoto
pazīmju kopa
               MULTEXT-Eastpazīmju kopas atvasinājums, ņemot vērā:
                 - līdzšinējo pieredzi morfoloģiski marķētu korpusu izveidē un lietošanā
                 - pieredzi latviešu valodas sintaktiskajā analīzē
                 - pieredzi latviešu valodas ģenerēšanā (sintēzē)
                 - pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē
                 - esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi
                 - latviešu valodniecības tradīciju
Piemērs


                              pazīme attiecināma uz leksēmu,
                              taču nosakāma ortogrāfiski un/vai
                              kontekstuāli

                              pazīme attiecināma uz leksēmu,
                              taču nosakāma morfoloģiski

                              Marķējumā neiekļautās pazīmes:
                               - kopdzimte
                               - vsk-nieks, dsk-nieks
                               - ģenitīvenis, nelokāms
                               - deklinācija

                                                tradicionāli
                                                    vs.
                                                  formāli

                              Piem., Krustev B. The Bulgarian
                              Morphology in 187 Type Tables.
                              NaukaiIzkustvo, 1984
piem., “daudzstāvu” – Ncmpg
Korpusa un vārdnīcas mijiedarbība
                             leksēmas               sintaktiskā
 morfosintaktiskās            pazīmes                struktūra             leksiskā
     pazīmes               dimens. #2      dimens. #3
                                                                           nozīme

             dimens. #1                                       dimens. #4
                                  vārdlietojums


• Vārdnīcapilnīgagramatiskāinformācija par leksēmu
   – Precīzailocīšanasparadigmai (t.sk. vārdšķirai) irjābūtviennozīmīgi
     “nolasāmai” vaiizsecināmai
       • Informācijasatainojumsgalalietotājam
         (rādīt/nerādīt, formatējums, secībau.tml.) – sekundārsjautājums
            – Mašīnlasāmavārdnīcadrukāta, tiešsaistes, mobilā, CD, … vārdnīca

   – Dators = “ārzemnieks” (!)
Pieejamie korpusi
                                                                                  Vārdlie-     Morfo-
   Nosaukums                               Raksturojums                           tojumu       loģiski
                                                                                    skaits     marķēts

                    3,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu
miljons-2.0                                                                       ~3,5 milj.     nē
                    valodas korpuss (1991–2008) ar metadatiem.

                    līdzsvarota mūsdienu latviešu valodas korpusa
miljons–2.0m        morfoloģiski marķēta versija; morfoloģiskais marķējums        ~3,5 milj.      jā
                    nav precīzs, jo nav novērsta daudznozīmība
                    Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar
Saeima-2.0                                                                        22,5 milj.     nē
                    metadatiem

                    lielslatviešu valodas tīmekļakorpuss ar daļēju morfoloģisko
timeklis-1.0                                                                      ~97 milj.       jā
                    marķējumu

                    manuāli morfoloģiski marķēts paraugkorpuss
ledus                                                                             ~14 000         jā
                    (P. Bankovskis „Plāns ledus“, 1. nodaļa)
                                                                                               morf. un
sintaktiski anotēts
                    izstrādes stadijā (VPP “Nacionālā identitāte” ietvaros)       >900 teik.    sint.
paraugkorpuss
                                                                                               marķēts
Zifa likums




       > 100 milj. vārdlietojumu korpuss
Korpuss vārdnīca
• Korpuss (“digitālā kartotēka”) –konkordances–> vārdnīca
• Teorētiski: vispusīgs materiāls, objektīvas analīzes iespējas
   – “man liekas ka” vs. “faktiski ir tā”
   – statistika
   – lietojumpiemēri
       • biežākie (tipiskie) savienojumi
       • stabili vārdu savienojumi
            – kolokāciju analīze

   – nozīmju dalījums
       • piem., valences analīze
Vārdformu biežums




Bonito: Konkordance>>Statistika>>Biežumasadalījums
Vārdformu biežums




Bonito: Konkordance>>Statistika>>Biežumasadalījums
Kolokācijas
Bonito:
Konkordance>>Statistika
>>Kolokācijas


atslēgvārds “iet”:
- sakārtotspēc
relatīvābiežuma
Kolokācijas
Bonito:
Konkordance>>Statistika
>>Kolokācijas


atslēgvārds “iet”:
- sakārtotspēc
absolūtābiežuma
Kolokācijas
Bonito:
Konkordance>>Statistika
>>Kolokācijas


atslēgvārds “sāpēt”:
- sakārtotspēc
relatīvābiežuma
Kolokācijas – pēc sintaktiskās valences
Bonito:
Konkordance>>Statistika
>>Kolokācijas


atslēgvārds “skriet”:
- pēcdimensijas “tag”
Konkordances kārtošana




Bonito: Konkordance>>Vienkāršākārtošana (pēcdimensijas “tag”)
Paldies!
             www.korpuss.lv
             www.tezaurs.lv

Sekojietjaunumiem:   twitter.com/AILab_lv

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Latviešu valodas tekstu korpusa iespējas vārdnīcu izveidē

  • 1. Latviešuvalodastekstukorpusaies pējasvārdnīcuizveidē NormundsGrūzītis GuntaNešpore LU Matemātikas un informātikasinstitūta Mākslīgāintelektalaboratorija Latviešuleksikoloģija, leksikogrāfija un terminoloģija ApvienotaisPasauleslatviešuzinātnieku III kongress un Letonikas IV kongress Rīgā, 2011. gada 25. oktobrī
  • 2. Īsumā... • Pilnīga informācija par vārdu = korpuss + vārdnīca – Kāda informācija ir (būs) atrodama mūsdienu latviešu valodas tekstu korpusā • www.korpuss.lv • Morfosintaktiskais marķējums – Kāda informācija būtu iekļaujama (abstraktā) vārdnīcā • Korpuss vārdnīca
  • 3. Informācija par vārdu 1. Formas apraksts – korpuss 2. Leksēmas apraksts – vārdnīca 3. Cita (neskaidra, nevēlama) informācija • Korpuss: deskriptīvs valodas apraksts – faktiskais lietojums – no vārdformām un vārdu secības izrietošās morfosintaktiskās pazīmes • Vārdnīca: vispārinājumi, pieņēmumi, ieteikumi, noteikumi – vienskaitlinieks/daudzskaitlinieks, ģenitīvenis, kopdzimte, kādības/attieksmes īp.v., lokāms/nelokāms/daļēji lokāms, transitīvs/intransitīvs, prepozicija/postpozicija, deklinācija, konjugācija , ...
  • 4. Pazīmes Morfosintaktiskas Leksēmas p. Vārdnīcā iekļaujamās Sintaktiskas leksēmas pazīmes Morfoloģiskas Ko piesaista (lietojumā), nevis kas piemīt (tipiski) Korpusā izmantoto pazīmju kopa MULTEXT-Eastpazīmju kopas atvasinājums, ņemot vērā: - līdzšinējo pieredzi morfoloģiski marķētu korpusu izveidē un lietošanā - pieredzi latviešu valodas sintaktiskajā analīzē - pieredzi latviešu valodas ģenerēšanā (sintēzē) - pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē - esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi - latviešu valodniecības tradīciju
  • 5. Piemērs pazīme attiecināma uz leksēmu, taču nosakāma ortogrāfiski un/vai kontekstuāli pazīme attiecināma uz leksēmu, taču nosakāma morfoloģiski Marķējumā neiekļautās pazīmes: - kopdzimte - vsk-nieks, dsk-nieks - ģenitīvenis, nelokāms - deklinācija tradicionāli vs. formāli Piem., Krustev B. The Bulgarian Morphology in 187 Type Tables. NaukaiIzkustvo, 1984 piem., “daudzstāvu” – Ncmpg
  • 6. Korpusa un vārdnīcas mijiedarbība leksēmas sintaktiskā morfosintaktiskās pazīmes struktūra leksiskā pazīmes dimens. #2 dimens. #3 nozīme dimens. #1 dimens. #4 vārdlietojums • Vārdnīcapilnīgagramatiskāinformācija par leksēmu – Precīzailocīšanasparadigmai (t.sk. vārdšķirai) irjābūtviennozīmīgi “nolasāmai” vaiizsecināmai • Informācijasatainojumsgalalietotājam (rādīt/nerādīt, formatējums, secībau.tml.) – sekundārsjautājums – Mašīnlasāmavārdnīcadrukāta, tiešsaistes, mobilā, CD, … vārdnīca – Dators = “ārzemnieks” (!)
  • 7. Pieejamie korpusi Vārdlie- Morfo- Nosaukums Raksturojums tojumu loģiski skaits marķēts 3,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu miljons-2.0 ~3,5 milj. nē valodas korpuss (1991–2008) ar metadatiem. līdzsvarota mūsdienu latviešu valodas korpusa miljons–2.0m morfoloģiski marķēta versija; morfoloģiskais marķējums ~3,5 milj. jā nav precīzs, jo nav novērsta daudznozīmība Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar Saeima-2.0 22,5 milj. nē metadatiem lielslatviešu valodas tīmekļakorpuss ar daļēju morfoloģisko timeklis-1.0 ~97 milj. jā marķējumu manuāli morfoloģiski marķēts paraugkorpuss ledus ~14 000 jā (P. Bankovskis „Plāns ledus“, 1. nodaļa) morf. un sintaktiski anotēts izstrādes stadijā (VPP “Nacionālā identitāte” ietvaros) >900 teik. sint. paraugkorpuss marķēts
  • 8. Zifa likums > 100 milj. vārdlietojumu korpuss
  • 9. Korpuss vārdnīca • Korpuss (“digitālā kartotēka”) –konkordances–> vārdnīca • Teorētiski: vispusīgs materiāls, objektīvas analīzes iespējas – “man liekas ka” vs. “faktiski ir tā” – statistika – lietojumpiemēri • biežākie (tipiskie) savienojumi • stabili vārdu savienojumi – kolokāciju analīze – nozīmju dalījums • piem., valences analīze
  • 15. Kolokācijas – pēc sintaktiskās valences Bonito: Konkordance>>Statistika >>Kolokācijas atslēgvārds “skriet”: - pēcdimensijas “tag”
  • 17. Paldies! www.korpuss.lv www.tezaurs.lv Sekojietjaunumiem: twitter.com/AILab_lv

Editor's Notes

  1. Vārdnīcas - plašāizpratnē. Ne tikaiskaidrojošās, bet arīcitas (morf., valenčuu.c.).
  2. Diskusija par informācijas dalījumu starp korpusu un vārdnīcu.Korpusa izmantošanas iespējas vārdnīcu izveidē.Nemēģinām mācīt leksikogrāfus, kā (saturiski) veidot šķirkļus; neesam nemaz kompetenti to darīt.Kā (savdabīgi) vārdnīcu lietotāji mēģinām norādīt, kādu informāciju mēs vēlētos vārdnīcās atrast.Abstrakta vārdnīca: gan funkcionāli, gan formāta ziņā.
  3. Vārdnīca: info, kas tipiski būtu iekļaujama morf., valenču skaird. vai kādā citā vārdnīcā, bet kas nebūtu tādā pat (preskriptīvā) veidā iekļaujama korpusā.Korpuss – deskriptīvs valodas apraksts; vārdnīca – (vairāk) preskriptīvs apraksts.
  4. Pazīmes: pagaidām ir runa tikai par gramatisko informāciju!Turklāt galvenokārt morfoloģisko inform., nevis sintaktisko (strukturālo).Analīzes/sintēzes piemērs: analizējot nav nepieciešams zināt, ka tas ir ģenitīvenis, savukārt ģenerējot teikumu jāzina, ka normatīvais lietojums ir tikai ģen., vēl vairāk – tikai apzīm. (formālivartraktētkānelok. īp. v.).
  5. Pozicionāls marķējums; atbilsmes ISO lingvistikas terminu katalogā.Lietvārdu gadījumā – piemīt visas pazīmes; pieņēmums: nelokāmajiem forma “sakrīt” visos locījumos.Ja kādu pazīmi nav iespējams izšķirt pēc konteksta (piem., dzimti t.s. kopdzimtes vārdiem), tiek norādīti abi iespējamie varianti.Analoģiski: trans/intrans, pre/post – tā kā ir lietojumā, nevis tā kā “būtu jābūt”.Type tomēr ir iekļauta, lai arī leksikas pazīme: savietojamība ar Multext, kā arī savā ziņā formāla un kontekstuāla pazīme (“kalns” vs. “Kalns”).
  6. Divvirziena info plūsma: korpuss vārdnīca, nevistikaikorpussvārdnīca.Marķējumadimensijas. Piezīme: šis ir tas, uz ko ejam – pašlaik vēl atsevisķos LUMII korpusos morf. informācija ir sapludināta ar leksēmas info.Precīzai: ar tosaprototvienu no “150+” locīšanasparadigmām.Arīnozīmesskaidrojumos (iekšēji) būtunepieciešamastiešas un precīzas (starp)norādes (līdzīgikā LLVV, tikaivēlkonsekventāk), nesaīsinātilietojumpiemēriu.c., bet tastiešāveidāneattiecasuzvārdnīcas un korpusamijiedarbību. Teorētiskivārdlietojumiemvarētumarķētleksiskāsnozīmes, tačutasnebūtuperspektīvi: lielsdarbs, slidenasnozīmjurobežas, atkarība no konkrētasvārdnīcas.Atkāpe: MRD. Macmillian piemērs.
  7. Treebank: blakus esošie vārdi vs. pakārtotie locekļi.
  8. BNC statistika.Biežāk lietotie – daudznozīmīgi, retāk lietotie – maznozīmīgi (mazāk materiāla, t.i., lietojumpiemēru vajadzīgs). – vismaz tendence. (var būt arī mazlietota nozīme bieži lietotam vārdam)
  9. Korpuss (un tā rīki) piedāvā vispusīgu materiālu un obektīvākas analīzes iespējas.Kā interpretēt statistiku – ko es redzu, ko jūs (leksikogrāfi) redzat?Ko ar (statistisko) informāciju iesākt, kā dalīt nozīmēs – leksikogrāfi labāk zinās, tāpēc atlikušajā daļā tikai ātrs skrējiens cauri atsevišķiem ekrānskatiem.
  10. Biežāk lietotām formām vērts pievērst vairāk uzmanības gan piemēru izvēlē, gan varbūt kādu divdabju atsevišķā aprakstā vai tml.
  11. Ļoti dominē forma beidzot — lai arī nav nošķirts, vai tas ir adverbs vai verbs, tik liels biežums vērš uzmanību uz to, ka šī forma drošvien nav ignorējama.
  12. Vērts pievērst uzmanību vārdiem, ka ir liels relatīvais un(vai) absolūtais biežums.Tas palīdz izvēlēties, piemēram, šķirkļa ilustratīvo materiālu, kā arī konstatēt stabilus vārdu savienojumus, kuru nozīme būtu jāskaidro atsevišķi.
  13. Skaistas saskarnes gadījumā var redzēt vārda sintaktisko valenci — kādas morfoloģiskās formas ir tā apkaimē.Piem., vai verbam ir objekts akuzatīvā. Vai ir netiešais objekts datīvā.
  14. Tas dod līdzīgus rezultātus kā kolokācijas ar „tag”.Piemēram, visi lietvārdi akuzatīvā tiks doti pēc kārtas.Ja kārto kontekstu pēc alfabēta „word” dimensijā, rezultāti nav tik skaidri.
  15. Novēlējums: lai ne pārāk tālā nākotnē būtu pieejams kvantitatīvs, kvalitatīvs, morf. marķēts LV mūsdienu valodas korpuss, un praksē aprobēta, ar korpusu cieši saistīta mašīnlasāmu vārdnīcu izstrādes infrastruktūra (darba vide), kas pavērtu iespēju pilnveidot esošās un šobrīd topošās vārdnīcas, kā arī veidot jaunas vispārīgās un speciālās vārdnīcas.