Venia Legendi 2016: Pille Eslon

Keele ja tehnoloogia piirimail
Pille Eslon
26. aprill 2016

Piirimaade võlu: uued arengud
• Bioloogia + semiootika = biosemiootika
• Keel + tehnoloogia = keeletehnoloogia
• Arvuti + lingvistika = arvutilingvistika
• Lingvistika + rakendused = rakenduslingvistika
• Tekstid > tekstikogud > korpused + lingvistika =
tekstilingvistika ja korpuslingvistika

Arvutilingvistika ja keeletehnoloogia
• Arvutilingvistika ja keeletehnoloogia asuvad
lingvistika ja informaatika vahel (Muischnek jt 2012:
67)
– arvutilingvistika on lähemal keeleteadusele,
ühendav lüli on teadmine loomulikust keelest
– keeletehnoloogia on lähemal arvutiteadusele,
arvutilingvistika rakenduslik pool

Korpus- ja arvutilingvistika
– Korpuslingvistika ja arvutilingvistika pakuvad
keeletehnoloogilisi rakendusi, nt leksikograafias,
keeleõppes, masintõlkes, loovad automaatselt
töötavaid programme jm korpusanalüüsi
vahendeid
• Morfo- ja süntaksianalüsaator, lemmatiseerija,
poolitaja, speller, silbitaja, grammatikakorrektor,
leksikograafide töövahend E-lex, tõlkija töökeskkond,
automattõlke programmid, tekst-kõne süntees jm
– sh TLÜ-s õppijakeele vealeidja, sõnajärjeleidja,
keeleoskustasemete automaatne tuvastamine,
pöördsõnastik

Põhivastuolu
• Grammatikareeglid vs. kasutusreeglid,
mentaalne vs. reaalne grammatika,
normeeritud kirjakeele standard vs. kasutusstandard
(ingl standard-in-use)
– Uurimisobjekt:
keele süsteemsed vs. keele tekstikasutuse
seaduspärad
• Keelestruktuuri paradigmaatiline kirjeldus, keelendite
süsteemsed funktsioonid
• Keelekasutus: keelendite omavaheline kombineerimine
tekstis ehk süsteemsete seoste rakendus süntagmaatilises
aspektis

Väike näide
• Ei lange kokku inglise keele
– if-konstruktsiooni põhireegel grammatikas
– if-konstruktsiooni põhireegel emakeelekõneleja
tekstikasutuses
– Kasutamisraskused saksa emakeelega inglise keele õppijate
tekstiloomes (vead isegi C1 tasemel)
(vt Römer 2007)
• Vastuolud grammatikatest ja õpikutest pärit
keeleandmete ning korpusandmete vahel
– õpetajate hinnangul puudutab vähemalt 16
leksikaalgrammatilist nähtust (vt Tsui 2005: 336–339)

Põhimõtteline küsimus
• Kas teoreetilise lingvistika ja kasutusgrammatika
vahel on otsene seos või peab rakenduslingvistika
välja töötama oma teooria, mis lingvistikat ja
keelekasutust vahendab ning nendevahelisi
seoseid interpreteerib, k.a lingvistika seoseid
muude diststipliinidega (nt keeleõppe,
automaattõlke, leksikograafia, tekstitöötluse
vajadused), vt Widdowson 2000
– Arvutite ja esinduslike korpuste kasutuselevõtmine on
loonud põhimõtteliselt uue olukorra
– Korpus- ja arvutilingvistika kui iseseisevad distsipliinid

Väärtustamine
• Biber, Conrad, Reppen 2006: 55–58
– tarkvaraprogrammide ja arvutusmeetodite rakendamine
korpuspõhistes sõnavara- ja grammatikauurimustes on
kujundanud uue arusaama, kuidas inimene keelt
tegelikult kasutab
– tähelepanu keskmes lekseemide kooskasutus,
sõnavormide distributiivsed omadused, semantika-vormi-
funktsiooni varieerumine ja varieerumise piirid, esinemus
• Joseph Greenberg , Martin Haspelmath, Wolfgang Wurzel,
Wolfgang Dressler:
sage = tavaline ja seega loomulik –– loomulik morfoloogia
Sage = markeerimata – markeerituse teooria (Eckman, Croft,
Haspelmath, Lee, Remes jt)

Uued küsimused
• Noam Chomsky (1956) pessimism: kas korpused ja
korpuslingvistilised meetodid ikka sobivad teoreetilise
lingvistika ülesannete lahendamiseks?
– Korpuste representatiivsus, andmete tõeväärsus
– Piiratud andmehulk, piiratud rakendused
• Kas nt keeleõppijale piisab korpusainesest, mis tuleb esile
kasutussageduse alusel?
– Keeletehnoloogilised probleemid, nt semantiline
ühestamine
• Keeletehnoloogilised lahendused häälikute, vormide, lekseemide,
konstruktsioonide, lausete analüüsiks ja sünteesiks
• Raskused sõna ja lause semantikaga (nt leksikaalsed ja
grammatilised homonüümid) – ühestamise probleemid

Samas ...
• 20. sajandi teisest poolest on korpuslingvistika
iseseisev metodoloogiline suund
• korpuslingvistilistilisi meetodeid rakendades
lahendatakse keeleõppe, automaattõlke,
masinõppe, leksikograafia jm probleeme
– keeletarkvara
– mitmetasemelised statistilised mudelid
– arvutused ja saadud tulemuste põhjal ennustamine
– R & erinevad statistilise andmeanalüüsi tehnikad
(vt Gries to appear, 179–180)

Korpusest tulenev
avastuspõhine suund
• Rakendatakse erinevaid andmekaeve
tehnikaid ja statistilise andmetöötluse
vahendeid
– Avatud Markovi mudel, n-grammid ehk mitmikud
• juhtiv meetod keelelise varieerumise uurimiseks –
lineaarne diskriminantanalüüs
• sageli korrelatsiooni- ja regressioonianalüüs
• hea mõõta kahe valimi andmete sarnasust-erinevust,
tuvastada valimitele omaseid kategoriaalseid seoseid ja
sõltuvusi, modelleerida keelelise varieerumise piire ja
keerukust jne (Vt Jarvis, Crossley 2012)

Klastrileidja
• Analüüsi vahend: Klastrileidja (Ots 2011; 2012)
– töötab andmekaeve põhimõttel, otsib libisevalt
ühesuguseid sõnaliigijärjendeid
– Java programmina kasutab EstCG 1,0 parseri
kitsenduste grammatika esimest ehk reeglipõhist
versiooni (Kaili Müürisep ja Tiina Puolakainen)
– Veebirakendusena Eesti vahekeele korpuse kodulehel
uus statistikapõhine versioon (selle versiooni kohta vt
Muischnek jt 2012: 75–80)
– Veebirakendus loeb ka esimese versiooniga
eelmärgendatud tekste

Kasutaja valikud olenevalt uurimuse
või rakenduse eesmärgist
• kasutaja määrab
– n-grammi pikkuse
• tavaliselt bigramm, trigramm (vt Chodorow, Leacock
2000; Conklin, Schmitt 2008)
– analüüsi lingvistilise objekti
• morfoloogia
• süntaks
• morfosüntaks
– kas vaja arvestada kirjavahemärkidega

– programm väljastab analüüsi tulemused Excelis
• n-grammi struktuur
• struktuurilt sarnaste n-grammide ühendamine klastriteks
– esinemus määratud arvuliselt
• keelenäited
– n-grammide, klastrite, klasside hierarhia tugineb
leitud struktuuride sagedusele ja osatähtsusele valimis
– lingvistiline interpreteerimine:
• n-grammide varieerumine klastris > klastrite varieerumine
klassis > klasside varieerumine
• n-grammide struktuurse, leksikaalsemantilise,
morfosüntaktilise ja funktsionaalse varieerumise piirid, sõna-
ja vormivaliku piirangud

Näited
• Eesti vahekeele korpuse vene emakeelega
gümnaasiumiõpilaste eesti keele olümpiaadi
tööde alamkorpuse esseed
• kolm sagedamat sõnajärjemustrit
**CLB @J @SUBJ @+FMV
451 kordust, nt et autor tahab
@SUBJ @+FMV @ADVL
446 kordust, nt autor kirjeldab mitte
@+FMV @ADVL @ADVL
415 kordust, nt on tänapäeval nii

• kolm sagedamat morfoloogilist struktuuri
– tegusõna (V) + määrsõna (D) + määrsõna (D) ehk
VDD-struktuur
64 kordust, nt on veel vara
– eitus (V) + tegusõna (V) + määrsõna ehk
VVD-struktuur
57 kordust, nt ei tule enam
– määrsõna (D) + määrsõna (D) + määrsõna (D) ehk
DDD-struktuur
52 kordust, nt juba kusagilt mujalt

• sagedam morfosüntaktiline muster
– kujuneb sageduselt teise morfoloogilise struktuuri
VVD (_V_ aux neg + _V_ main indic pres ps neg
#FinV #Intr + _D_)
– kuuenda süntaktilise struktuuri @NEG @+FMV
@ADVL põhjal
_V_ aux neg @NEG + _V_ main indic pres ps neg
#FinV #Intr @+FMV + _D_ @ADVL
nt ei tule enam

Mis esile tuleb?
• Keelekasutusmustrid
– eelistused sõnaliikide lineaarsel kombineerimisel (vt Croft
1999; Ellis 2006)
– seosed lekseemide semantika, morfosüntaksi ja tekstiliste
funktsioonide vahel (vt Tognini-Bonelli 2001; Ibbotson
2013)
– mitmesõnalised kooskasutused
• lingvistilised ja statistiliselt ilmnenud (vt Evert 2005: 15-20;
Muischnek & Sahkai 2010: 296 jj)
• püsiühendid (Kaalep, Muischnek 2009: 157)
• kollokatsioonid, idioomid, vormelid (Masini 2005: 145–146)
– keelendite funktsionaalse potentsiaali avanemine
• põhimõtteliselt uus teoreetilise lingvistika uurimistasand

Lingvistiline paradoks – vajab teooriat,
mis seda seletaks
• Vastuolulised tendentsid
– Keelekasutuse tüüpilisus vs. loomingulisus, kinnistunud
üksused vs. varieerumine
• anna valu! on alles uni! pani pihta, võttis üle – keelestruktuurides
domineerib pigem idiomaatilisuse kui avatud valiku printsiip
(Krikmann 2004; Sahkai 2008: 171–172)
– Entroopia ehk liiasuse ilmingud
• samatähenduslikud sünteetilised ja analüütilised verbid (nt
lahkuma – ära minema) (Eslon, Paeoja 2015)
– Keelesüsteemi leksikaalgrammatilise perifeeria mobiilsus –
tagab inimese keelelise kreatiivsuse, sageli kasutatud
keelestruktuuridel on semantilised, morfosüntaktilised ja
funktsionaalsed piirangud

Analoogia
• Keelekasutuses ei lähe suuremat osa
grammatikast vaja – grammatika liiasus
– analoogia geneetikanähtusega, kus suurem osa
genoomist kui geneetilise informatsiooni varamust
töötab n-ö tühikäigul (junk DNA) ega ole organismi
elutegevuseks otseselt vajalik
• 95% vs. 5%
– sarnaselt junk DNA-ga ei saa 95% ehk liiasust
pidada kasutuks – tagab genoomi säilimise (vt
Markov jt 2010)

Keelekasutusmustrite rakendused
1. Empiiriline lingvistika ja kasutuspõhine
keelekäsitlus
– Nt eesti keele adverbilised struktuurid verbist vasakul
Trainis, Allkivi 2014; Eslon 2014:
• adverb-adverb-verb ehk DDV (küll nüüd jookseb, just alles
tuli, vist ära läinud)
• adverb-verbverb ehk DVV (veel ei liikunud, siis pani põlema)
• adverb-substantiiv-verb ehk DSV (ikka puhtust pidanud, ka
märki tabanud)
• verb-adverb-verb ehk VDV (oli äsja abiellunud, oli järsult
keeldunud)

– Verbist paremal:
• VDD: läks peagi laiali, vaatab otsivalt ringi
• VVD: ei tulnud kaua <oodata>, ei vaata tagasi, ei ole
võlgu, ei seisa paigal
• VDA: oli häirivalt tõsine, tundus nii värske, on
tõepoolest vastastikune, on lausa pöörane
• VSD: pööras pilgu ära, sai alguse juba, läks lukk rikki
• VDS: sai täiesti aru, pole niipea tulekut, tõi endiselt lisa
• VAS: tekkis ähmane lootuskiir, on võõras veri, olid
osavad käed

• Verbist vasakul – valdavalt ühendverbide kasutus
• Verbist paremal – suurem osa on väljendverbid
• Sõnajärg – mida vabam grammatika järgi, seda
piiritletum keelekasutus
– Seos öeldise liigiga, adverb liitajavormide ja liitöeldise
komponentide vahel:
• Verbi mineviku liitaja vorm – VDV: on/oli ammu kadunud
(perfekt ja pluskvamperfekt) > on/oli ammu siit kadunud
• Liitöeldis – VDA: on juba ammu roheline, oli vist tõepoolest
hea; VVD: ei vaata naljalt tagasi jne

2. Eesti keele õpe
– Keelekasutusmustrid verbist vasakul ja paremal –
aktiivse grammatika põhistruktuurid sõnaliikide
kombineerimisel
– Statistilised ja idiomaatilised kooskasutused =
aktiivne sõnavara + võimalikud sünonüümsed ja
antonüümsed asendused
– Aktiivsed sõnajärjemallid

3. Täpsustatud reeglid tarkvara arendajatele
– Adverbide funktsioonid pole süntaksianalüsaatoris
täpsustatud – tähis @ADVL
• VDD-struktuur, korduvalt kasutatud samas funktsioonis >
kinnistunud adverbikooslused eitavas kõnes > sidendi
funktsioon
mitte ainult, enam üldse ja nii palju
polnud mitte ainult lapsed, vaid ka täiskasvanud (mitte ainult
... vaid ka); polnud enam üldse lapsed, vaid päris täiskasvanud
(enam üldse ... vaid); polnudki nii palju osavõtjaid, kui arvati
(nii palju ... kui)
polnud küll kunagi ja polnud küll päriselt ... aga, kuid, ent

– VDD-struktuur jaatavas kõnes: adverbid tõmbuvad
semantilis-süntaktiliseks ja fonoloogiliseks
terviküksuseks
• partiklid nii, mitte ja ka või levinud kasutusega rõhusõnad
veel, enam, ikka ja küll tõmbuvad järgneva adverbilise
komponendiga semantiliselt ja süntaktiliselt
– Analüütiliste üksuste ja liitadverbide kujunemine
oli jälle kord ennast tõestanud, oli vaid veidi eemale läinud, oli
niivõrd hästi ette valmistatud, et ..
Varieerumine:
jällekord analoogselt adverbiga veelkord
<taevast> oli allasadanud ja <taevast> oli alla sadanud jm

Viidatud kirjandus
Biber, Douglas; Conrad, Susan; Reppen, Randi 2006. Corpus linguistics. Investigating
language structure and use. New York: Cambridge University Press. (First published 1998.)
Chodorow, Martin, Claudia Leacock 2000. An unsupervised method for detecting grammatical
errors. – NAACL 2000 Proceedings of the 1st North American chapter of the Assotiation for
Computational Linguistics conference. Stroudsburg, USA: Assotiation for Computational
Linguistics, 140–147.
Chomsky, Noam 1956. Three Models for the Description of Language. – IRE Transactions on
Information theory (2), 113-124.
Conklin, Kathy; Schmitt, Norbert 2008. Formulaic sequences: Are they processed more quickly
than nonformulaic language by native and nonnative speakers? – Applied Linguistics, 29/1, 72–
89.
Croft , William 1999. Adaptation, optimality and diachrony. – Zeitschrift für Sprachwissenschaft
18 (2), 206–208. http://dx.doi.org/10.1515/zfsw.1999.18.2.206
Ellis, Nick C. 2006. Language aquisition as rational contingency learning. – Applied Linguistics
27 (1), 1–24. http://dx.doi.org/10.1093/applin/ami038
Eslon, Pille 2014. Adverbi sisaldavate struktuuride tekstifunktsioonidest eesti ilukirjandus- ja
õppijakeeles. – Lähivõrdlusi/Lähivertailuja, 24, 15–46. doi:10.5128/LV24.01
Eslon, Pille; Paeoja, Heleriin 2015. Samatähenduslike sünteetiliste ja analüütiliste verbide
kasutamine. – Lähivõrdlusi/Lähivertailuja, 25, 63–104. doi:10.5128/LV25.04

Evert, Stefan 2005. The Statistics of Word Cooccurrences, Word Pairs and Collocations. PhD
dissertation. Institut für maschinelle Sprachverarbeitung Universität Stuttgart.
Gries, Stefan Th. (to appear). Statistics for learner korpus research. – The Cambridge Handbook
of Learner Corpus Research. Eds. Gaëtanelle Gilquin, Sylviane Granger, Fanny
Meunier. Cambridge: Cambridge University Press, 159–182.
http://www.linguistics.ucsb.edu/faculty/stgries/research/ToApp_STG_StatsForLCR_CambHbOfL
CR.pdf (12.04.2016).
Ibbotson, Paul 2013. The scope of usage-based theory. – Frontiers in Psychology 4 (article 255),
1–15. http://dx.doi.org/10.3389/fpsyg.2013.00255
Jarvis, Scott; Crossley, Scott A. (Eds.) 2012. Approaching language transfer trough text
classification: Exploring in the detection-based approach. Bristol, Buffalo, Toronto: Multilingual
Matters.
Kaalep, Heiki-Jaan, Kadri Muischnek 2009. Eesti keele püsiühendid arvutilingvistikas: miks ja
kuidas. – Eesti Rakenduslingvistika Ühingu aastaraamat 5, 157–172.
http://dx.doi.org/10.5128/ERYa5.10
Krikmann, Arvo 2004. “Sai hea obaduse vastu obadust”: löömist ja peksmist märkivad väljendid
eesti keeles. Reetor 3. Tartu: Eesti Kirjandusmuuseumi folkloristika osakond, eesti kultuuriloo ja
folkloristika keskus.

Markov jt 2010 =

✁
✂
✄
☎
✆
✝
✞
✟
✄
✠
✁
✡
☛
✂
☞
✞
✁
☛
✌
✍
✌
✂
☎
✆
✌
✎
,
☞
✁
✞
✟
✂
✌
✏
✝
✡
✁
✑
☎
✞
✒
✟
✆
✌
✎
✝
✡
✌
✠
✌
✍
☎
✆
,
✝
✡
☛
✂
✟
✏
☞
✌
✑
✁
✞
✒
✟
✆
✌
✎
✓
☎
✂
☎
✑
✁
✟
✆
2010.
☞
✔
✁
✌
✍
☎
✠
✆
✕
✔
✒
✂
✁
✔
✍
✟
✂
✁
✖
✟
✡
☎
✍
✁
✌
✠
✞
☎
✗
✡
☎
✠
✑
✌
☎
✂
✖
✁
✡
✌
✔
✍
✁
✆
✘
✙
✚
✛
✜
✢
✣
✚
✤
✤
✚
✥
✦
✧
★
✩
✚
✪
✫
✦
✚
✬
✭
✦
✣
✚
✪
✬
✥
✛
✮
✬
✚
✫
✣
✪
✭
✜
✯
✣
✥
. –
✰
✭
✛
✮
✚
✤
✪
✚
✛
✚
✱
✣
✲
✮
✳
✬
✣
✴
✵
✩
✦
✤
✭
✛
✶
4,
3–14.
Masini, Francesca 2005. Multi-word expressions between syntax and the lexicon: ,e case of
Italian verb-particle constructions. – SKY Journal of Linguistics 18, 145–173.
http://www.ling.helsinki."/sky/julkaisut/SKY2005/ Masini.pdf (30.5.2014).
Muischnek jt 2012 = Muischnek, Kadri; Fišel, Mark; Kaalep, Heiki-Jaan; Koit, Mare; Müürisep,
Kaili; Orav, Heili; Vare, Kadri; Õim, Haldur 2012. Arvutilingvistika ja keeletehnoloogia Tartu
Ülikoolis. – Emakeele Seltsi aastaraamat, 57 (2011), 66–102. doi: 10.3176/esa57.05
Muischnek, Kadri, Heete Sahkai 2010. Liitpredikaadid leksikoni-grammatika kontiinumil:
konstruktsioonide produktiivsusest verbiga minema moodustatud liitpredikaatide näitel. – ESUKA
– JEFUL 1 (2), 295–316.
Ots, Sander 2012. Statistikapõhise tarkvara loomine morfoloogiliste kollokatsioonide
eraldamiseks eesti keele tekstidest. Bakalaureusetöö. Tallinna Ülikooli informaatika instituut.
Ots, Sander 2011. Tarkvara statistiliste kollokatsioonide eraldamiseks ning selle rakendus
morfosüntaktilises analüüsis. Seminaritöö. Tallinna Ülikooli informaatika instituut.

Römer, Ute 2007. Learner language and the norms in native corpora and EFL teaching materials:
A case study of English conditionals. – Anglistentag 2006 Halle. Proceedings. Sabine Volk-Birke,
Julia Lippert (Eds.). Trier: Wissenschaftlicher Verlag Trier. 355–363.
http://uteroemer.weebly.com/uploads/5/5/7/7/5577406/at_halle_paper_roemer_2007_on_conditio
nals.pdf (17.08.2015).
Sahkai, Heete 2008. Konstruktsioonipõhine keelemudel ja sõnaraamatumudel. – Eesti
Rakenduslingvistika Ühingu aastaraamat 4, 177–186. http://dx.doi. org/10.5128/ERYa4.11
Tognini-Bonelli, Elena 2001. Corpus linguistics at work. Studies in korpus linguistics 6.
Amsterdam / Philadelphia: John Benjamins Publ. Co.
Trainis, Jekaterina; Allkivi, Kais 2014. Ilukirjanduskeelest uue pilguga. – Eesti
Rakenduslingvistika Ühingu aastaraamat, 10, 283–306. http://dx.doi.org/10.5128/ERYa10.18
Tsui, Amy B. M. 2005. ESL teachers

questions and korpus evidence. – International
Journal of Corpus Linguistic, 10:3, 335–356.
Widdowson, H. G. 2000. The limitations of linguistics applied. – Applied Linguistics 21
(1), pp. 3-25.

Venia Legendi 2016: Pille Eslon

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

More from ifi8106tlu

More from ifi8106tlu (19)

Venia Legendi 2016: Pille Eslon