Latviešu valodas resursi un rīki CLARIN infrastruktūrā

727 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
727
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Nākotnē: piekļuve caur LAIFE arī CLARIN-Europe resursiem, piem., WebLicht; “politisku”, administratīvu un juridisku jautājumu risināšana; taču CLARIN ir tikai viens no LAIFE use-case.
  • Latviešu valodas resursi un rīki CLARIN infrastruktūrā

    1. 1. Latviešu valodas resursi un rīki CLARIN infrastruktūrā Normunds Grūzītis LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija Rīgā, 2011. gada 4. jūlijā
    2. 2. Mērķi• Pieejamība: – Tīmekļa pakalpes (webservices) valodas resursu un rīku attālinātai, automatizētai izmantošanai, integrēšanai dažādās tīmekļa lietotnēs • Vārdu un teikumu dalītājs • Statistisks morfoloģiskais marķētājs (tageris) • Morfoloģiskais analizators un sintezators • Runas sintezators • Latviešu literārās valodas vārdnīca – Galalietotāju autentifikācija Latvijas akadēmisko identitāšu federācijā • Mīlenbaha un Endzelīna Latviešu valodas vārdnīca u.c. autortiesību objekti• Standartizācija: – Morpho-syntacticAnnotationFramework (ISO/DIS 24611) – TextCorpusFormat (vers. 0.4) – LexicalMarkupFramework (ISO/IS 24613:2008) – ISOcatDataCategoryRegistry (ISO/IS 12620:2009) – MULTEXT-East (vers. 4)• Atvērtība: – Rīki: [Lesser]GeneralPublicLicense – Resursi: CreativeCommonsLicense (ar nosacījumiem)
    3. 3. Statistisks morfoloģiskais tageris• http://valoda.ailab.lv/ws/tagger/• Datu apmaiņas formāti: ISO MAF, TCF• Pazīmju kopas: ISOcat, MULTEXT-East
    4. 4. Tīmekļa pakalpju kombinēšana• Dalība CLARIN WG 5.6 nodevumā “IntegrationofLanguageResourcesinto Web serviceinfrastructure”: “Standardsinpractice: IMCS services” – Eksperiments ar ISO MAF, kas pašlaik ir “internationaldraft” stadijā • Tagera vajadzībām ieviests paplašinājums teikumu robežu anotēšanai, analoģiski kā TCF formātā – ISOcat kategoriju reģistrā ieviesti papildu termini latviešu valodai specifiskās atstāstījuma (relative) un vajadzības (debitive) izteiksmes norādīšanai (TCF) (TCF) (TCF) (TCF)
    5. 5. Izmantotie/pielāgotie standarti• Datu apmaiņas formāti – valodneatkarīgi• Pazīmju kopas (morfosintaktiskās kategorijas) – valodatkarīgas• Mērķis: – Panākt, lai plaši lietotie standarti atbilstu latviešu valodas parādībām – Saprast, ar ko latviešu valodniecības tradīcija pārklājas/atšķiras • Tomēr tradīcijai ir sekundāra nozīme – Nodefinēt iespējami funkcionālu un sistemātisku morfosintaktisko pazīmju kopu• MULTEXT-Eastvers. 4 atvasinājums, ņemot vērā: – pieredzi korpuss.lv morfoloģiski marķēto korpusu izveidē un lietošanā – pieredzi latviešu valodas sintaktiskajā analīzē – pieredzi latviešu valodas ģenerēšanā (sintēzē) – pieredzi nenormētas un normētas (kontrolētas) valodas analīzē/sintēzē – pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē – pieredzi statistiskajā morfoloģiskajā tagošanā – esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi – latviešu valodniecības tradīciju
    6. 6. Morfoloģiskais analizators/sintezators• http://valoda.ailab.lv/ws/morph/• Datu apmaiņas formāti: ISO LMF• Pazīmju kopas: ISOcat
    7. 7. Morfoloģiskais leksikonsLicence: CreativeCommonsAttribution-NonCommercial-ShareAlike 3.0 Pamatformas Vārdformas PazīmesLietvārdi 32 386 355 488 710 976Darbības vārdi 12 002 347 729 1 174 964Īpašības vārdi 6 086 681 632 3 408 160Apstākļa vārdi 6 497 6 497 0Vietniekvārdi 51 472 944Citi 409 409 0Kopā 57 431 1 392 227 5 295 044• Par pamatu ņemti LLVV šķirkļu vārdi• Divdabju formas un skaitļa vārdi pašlaik nav ietverti
    8. 8. Runas sintezators• http://valoda.ailab.lv/ws/tts/ – Pieprasījums: vārds, teikums vai teksta fragments – Atbilde: MP3 datne vai URL uz MP3 datni• Tīmekļa pakalpei pieejama arī galalietotāju saskarne:
    9. 9. Latviešu literārās valodas vārdnīca http://tezaurs.lv/llvv/
    10. 10. Drīzumā...• Latviešu valodas tīmekļa pakalpes WebLichtinfrastruktūrā – Dalītājs vārdos un teikumos, statistiskais morfoloģiskais marķētājs – http://weblicht.sfs.uni-tuebingen.de/ – Galalietotājiem “draudzīga” tīmekļa saskarne reģistrēto rīku kombinēšanai, darbināšanai un rezultātu pārlūkošanai• Piekļuve Mīlenbaha un Endzelīna vārdnīcai, autentificējoties ar LAIFE identitāti (piem., LUIS, LiepU, RA vai DU lietotāju) – http://tezaurs.lv/mev/ – https://laife.lanet.lv• Latviešu valodas korpusa platformas jaunā versija – http://korpuss.lv/ – Uzlabota veiktspēja – Tīmekļa saskarne (Bonito) – Vienots, uzlabots marķējums (balstīts uz MULTEXT-Eastvers. 4)
    11. 11. Paldies!Sekojietjaunumiem: twitter.com/AILab_lv

    ×