SlideShare a Scribd company logo
1 of 30
Download to read offline
Keele ja tehnoloogia piirimail
Pille Eslon
26. aprill 2016
Piirimaade võlu: uued arengud
• Bioloogia + semiootika = biosemiootika
• Keel + tehnoloogia = keeletehnoloogia
• Arvuti + lingvistika = arvutilingvistika
• Lingvistika + rakendused = rakenduslingvistika
• Tekstid > tekstikogud > korpused + lingvistika =
tekstilingvistika ja korpuslingvistika
Arvutilingvistika ja keeletehnoloogia
• Arvutilingvistika ja keeletehnoloogia asuvad
lingvistika ja informaatika vahel (Muischnek jt 2012:
67)
– arvutilingvistika on lähemal keeleteadusele,
ühendav lüli on teadmine loomulikust keelest
– keeletehnoloogia on lähemal arvutiteadusele,
arvutilingvistika rakenduslik pool
Korpus- ja arvutilingvistika
– Korpuslingvistika ja arvutilingvistika pakuvad
keeletehnoloogilisi rakendusi, nt leksikograafias,
keeleõppes, masintõlkes, loovad automaatselt
töötavaid programme jm korpusanalüüsi
vahendeid
• Morfo- ja süntaksianalüsaator, lemmatiseerija,
poolitaja, speller, silbitaja, grammatikakorrektor,
leksikograafide töövahend E-lex, tõlkija töökeskkond,
automattõlke programmid, tekst-kõne süntees jm
– sh TLÜ-s õppijakeele vealeidja, sõnajärjeleidja,
keeleoskustasemete automaatne tuvastamine,
pöördsõnastik
Põhivastuolu
• Grammatikareeglid vs. kasutusreeglid,
mentaalne vs. reaalne grammatika,
normeeritud kirjakeele standard vs. kasutusstandard
(ingl standard-in-use)
– Uurimisobjekt:
keele süsteemsed vs. keele tekstikasutuse
seaduspärad
• Keelestruktuuri paradigmaatiline kirjeldus, keelendite
süsteemsed funktsioonid
• Keelekasutus: keelendite omavaheline kombineerimine
tekstis ehk süsteemsete seoste rakendus süntagmaatilises
aspektis
Väike näide
• Ei lange kokku inglise keele
– if-konstruktsiooni põhireegel grammatikas
– if-konstruktsiooni põhireegel emakeelekõneleja
tekstikasutuses
– Kasutamisraskused saksa emakeelega inglise keele õppijate
tekstiloomes (vead isegi C1 tasemel)
(vt Römer 2007)
• Vastuolud grammatikatest ja õpikutest pärit
keeleandmete ning korpusandmete vahel
– õpetajate hinnangul puudutab vähemalt 16
leksikaalgrammatilist nähtust (vt Tsui 2005: 336–339)
Põhimõtteline küsimus
• Kas teoreetilise lingvistika ja kasutusgrammatika
vahel on otsene seos või peab rakenduslingvistika
välja töötama oma teooria, mis lingvistikat ja
keelekasutust vahendab ning nendevahelisi
seoseid interpreteerib, k.a lingvistika seoseid
muude diststipliinidega (nt keeleõppe,
automaattõlke, leksikograafia, tekstitöötluse
vajadused), vt Widdowson 2000
– Arvutite ja esinduslike korpuste kasutuselevõtmine on
loonud põhimõtteliselt uue olukorra
– Korpus- ja arvutilingvistika kui iseseisevad distsipliinid
Väärtustamine
• Biber, Conrad, Reppen 2006: 55–58
– tarkvaraprogrammide ja arvutusmeetodite rakendamine
korpuspõhistes sõnavara- ja grammatikauurimustes on
kujundanud uue arusaama, kuidas inimene keelt
tegelikult kasutab
– tähelepanu keskmes lekseemide kooskasutus,
sõnavormide distributiivsed omadused, semantika-vormi-
funktsiooni varieerumine ja varieerumise piirid, esinemus
• Joseph Greenberg , Martin Haspelmath, Wolfgang Wurzel,
Wolfgang Dressler:
sage = tavaline ja seega loomulik –– loomulik morfoloogia
Sage = markeerimata – markeerituse teooria (Eckman, Croft,
Haspelmath, Lee, Remes jt)
Uued küsimused
• Noam Chomsky (1956) pessimism: kas korpused ja
korpuslingvistilised meetodid ikka sobivad teoreetilise
lingvistika ülesannete lahendamiseks?
– Korpuste representatiivsus, andmete tõeväärsus
– Piiratud andmehulk, piiratud rakendused
• Kas nt keeleõppijale piisab korpusainesest, mis tuleb esile
kasutussageduse alusel?
– Keeletehnoloogilised probleemid, nt semantiline
ühestamine
• Keeletehnoloogilised lahendused häälikute, vormide, lekseemide,
konstruktsioonide, lausete analüüsiks ja sünteesiks
• Raskused sõna ja lause semantikaga (nt leksikaalsed ja
grammatilised homonüümid) – ühestamise probleemid
Samas ...
• 20. sajandi teisest poolest on korpuslingvistika
iseseisev metodoloogiline suund
• korpuslingvistilistilisi meetodeid rakendades
lahendatakse keeleõppe, automaattõlke,
masinõppe, leksikograafia jm probleeme
– keeletarkvara
– mitmetasemelised statistilised mudelid
– arvutused ja saadud tulemuste põhjal ennustamine
– R & erinevad statistilise andmeanalüüsi tehnikad
(vt Gries to appear, 179–180)
Korpusest tulenev
avastuspõhine suund
• Rakendatakse erinevaid andmekaeve
tehnikaid ja statistilise andmetöötluse
vahendeid
– Avatud Markovi mudel, n-grammid ehk mitmikud
• juhtiv meetod keelelise varieerumise uurimiseks –
lineaarne diskriminantanalüüs
• sageli korrelatsiooni- ja regressioonianalüüs
• hea mõõta kahe valimi andmete sarnasust-erinevust,
tuvastada valimitele omaseid kategoriaalseid seoseid ja
sõltuvusi, modelleerida keelelise varieerumise piire ja
keerukust jne (Vt Jarvis, Crossley 2012)
Klastrileidja
• Analüüsi vahend: Klastrileidja (Ots 2011; 2012)
– töötab andmekaeve põhimõttel, otsib libisevalt
ühesuguseid sõnaliigijärjendeid
– Java programmina kasutab EstCG 1,0 parseri
kitsenduste grammatika esimest ehk reeglipõhist
versiooni (Kaili Müürisep ja Tiina Puolakainen)
– Veebirakendusena Eesti vahekeele korpuse kodulehel
uus statistikapõhine versioon (selle versiooni kohta vt
Muischnek jt 2012: 75–80)
– Veebirakendus loeb ka esimese versiooniga
eelmärgendatud tekste
Kasutaja valikud olenevalt uurimuse
või rakenduse eesmärgist
• kasutaja määrab
– n-grammi pikkuse
• tavaliselt bigramm, trigramm (vt Chodorow, Leacock
2000; Conklin, Schmitt 2008)
– analüüsi lingvistilise objekti
• morfoloogia
• süntaks
• morfosüntaks
– kas vaja arvestada kirjavahemärkidega
– programm väljastab analüüsi tulemused Excelis
• n-grammi struktuur
• struktuurilt sarnaste n-grammide ühendamine klastriteks
– esinemus määratud arvuliselt
• keelenäited
– n-grammide, klastrite, klasside hierarhia tugineb
leitud struktuuride sagedusele ja osatähtsusele valimis
– lingvistiline interpreteerimine:
• n-grammide varieerumine klastris > klastrite varieerumine
klassis > klasside varieerumine
• n-grammide struktuurse, leksikaalsemantilise,
morfosüntaktilise ja funktsionaalse varieerumise piirid, sõna-
ja vormivaliku piirangud
Näited
• Eesti vahekeele korpuse vene emakeelega
gümnaasiumiõpilaste eesti keele olümpiaadi
tööde alamkorpuse esseed
• kolm sagedamat sõnajärjemustrit
**CLB @J @SUBJ @+FMV
451 kordust, nt et autor tahab
@SUBJ @+FMV @ADVL
446 kordust, nt autor kirjeldab mitte
@+FMV @ADVL @ADVL
415 kordust, nt on tänapäeval nii
• kolm sagedamat morfoloogilist struktuuri
– tegusõna (V) + määrsõna (D) + määrsõna (D) ehk
VDD-struktuur
64 kordust, nt on veel vara
– eitus (V) + tegusõna (V) + määrsõna ehk
VVD-struktuur
57 kordust, nt ei tule enam
– määrsõna (D) + määrsõna (D) + määrsõna (D) ehk
DDD-struktuur
52 kordust, nt juba kusagilt mujalt
• sagedam morfosüntaktiline muster
– kujuneb sageduselt teise morfoloogilise struktuuri
VVD (_V_ aux neg + _V_ main indic pres ps neg
#FinV #Intr + _D_)
– kuuenda süntaktilise struktuuri @NEG @+FMV
@ADVL põhjal
_V_ aux neg @NEG + _V_ main indic pres ps neg
#FinV #Intr @+FMV + _D_ @ADVL
nt ei tule enam
Mis esile tuleb?
• Keelekasutusmustrid
– eelistused sõnaliikide lineaarsel kombineerimisel (vt Croft
1999; Ellis 2006)
– seosed lekseemide semantika, morfosüntaksi ja tekstiliste
funktsioonide vahel (vt Tognini-Bonelli 2001; Ibbotson
2013)
– mitmesõnalised kooskasutused
• lingvistilised ja statistiliselt ilmnenud (vt Evert 2005: 15-20;
Muischnek & Sahkai 2010: 296 jj)
• püsiühendid (Kaalep, Muischnek 2009: 157)
• kollokatsioonid, idioomid, vormelid (Masini 2005: 145–146)
– keelendite funktsionaalse potentsiaali avanemine
• põhimõtteliselt uus teoreetilise lingvistika uurimistasand
Lingvistiline paradoks – vajab teooriat,
mis seda seletaks
• Vastuolulised tendentsid
– Keelekasutuse tüüpilisus vs. loomingulisus, kinnistunud
üksused vs. varieerumine
• anna valu! on alles uni! pani pihta, võttis üle – keelestruktuurides
domineerib pigem idiomaatilisuse kui avatud valiku printsiip
(Krikmann 2004; Sahkai 2008: 171–172)
– Entroopia ehk liiasuse ilmingud
• samatähenduslikud sünteetilised ja analüütilised verbid (nt
lahkuma – ära minema) (Eslon, Paeoja 2015)
– Keelesüsteemi leksikaalgrammatilise perifeeria mobiilsus –
tagab inimese keelelise kreatiivsuse, sageli kasutatud
keelestruktuuridel on semantilised, morfosüntaktilised ja
funktsionaalsed piirangud
Analoogia
• Keelekasutuses ei lähe suuremat osa
grammatikast vaja – grammatika liiasus
– analoogia geneetikanähtusega, kus suurem osa
genoomist kui geneetilise informatsiooni varamust
töötab n-ö tühikäigul (junk DNA) ega ole organismi
elutegevuseks otseselt vajalik
• 95% vs. 5%
– sarnaselt junk DNA-ga ei saa 95% ehk liiasust
pidada kasutuks – tagab genoomi säilimise (vt
Markov jt 2010)
Keelekasutusmustrite rakendused
1. Empiiriline lingvistika ja kasutuspõhine
keelekäsitlus
– Nt eesti keele adverbilised struktuurid verbist vasakul
Trainis, Allkivi 2014; Eslon 2014:
• adverb-adverb-verb ehk DDV (küll nüüd jookseb, just alles
tuli, vist ära läinud)
• adverb-verbverb ehk DVV (veel ei liikunud, siis pani põlema)
• adverb-substantiiv-verb ehk DSV (ikka puhtust pidanud, ka
märki tabanud)
• verb-adverb-verb ehk VDV (oli äsja abiellunud, oli järsult
keeldunud)
– Verbist paremal:
• VDD: läks peagi laiali, vaatab otsivalt ringi
• VVD: ei tulnud kaua <oodata>, ei vaata tagasi, ei ole
võlgu, ei seisa paigal
• VDA: oli häirivalt tõsine, tundus nii värske, on
tõepoolest vastastikune, on lausa pöörane
• VSD: pööras pilgu ära, sai alguse juba, läks lukk rikki
• VDS: sai täiesti aru, pole niipea tulekut, tõi endiselt lisa
• VAS: tekkis ähmane lootuskiir, on võõras veri, olid
osavad käed
• Verbist vasakul – valdavalt ühendverbide kasutus
• Verbist paremal – suurem osa on väljendverbid
• Sõnajärg – mida vabam grammatika järgi, seda
piiritletum keelekasutus
– Seos öeldise liigiga, adverb liitajavormide ja liitöeldise
komponentide vahel:
• Verbi mineviku liitaja vorm – VDV: on/oli ammu kadunud
(perfekt ja pluskvamperfekt) > on/oli ammu siit kadunud
• Liitöeldis – VDA: on juba ammu roheline, oli vist tõepoolest
hea; VVD: ei vaata naljalt tagasi jne
2. Eesti keele õpe
– Keelekasutusmustrid verbist vasakul ja paremal –
aktiivse grammatika põhistruktuurid sõnaliikide
kombineerimisel
– Statistilised ja idiomaatilised kooskasutused =
aktiivne sõnavara + võimalikud sünonüümsed ja
antonüümsed asendused
– Aktiivsed sõnajärjemallid
3. Täpsustatud reeglid tarkvara arendajatele
– Adverbide funktsioonid pole süntaksianalüsaatoris
täpsustatud – tähis @ADVL
• VDD-struktuur, korduvalt kasutatud samas funktsioonis >
kinnistunud adverbikooslused eitavas kõnes > sidendi
funktsioon
mitte ainult, enam üldse ja nii palju
polnud mitte ainult lapsed, vaid ka täiskasvanud (mitte ainult
... vaid ka); polnud enam üldse lapsed, vaid päris täiskasvanud
(enam üldse ... vaid); polnudki nii palju osavõtjaid, kui arvati
(nii palju ... kui)
polnud küll kunagi ja polnud küll päriselt ... aga, kuid, ent
– VDD-struktuur jaatavas kõnes: adverbid tõmbuvad
semantilis-süntaktiliseks ja fonoloogiliseks
terviküksuseks
• partiklid nii, mitte ja ka või levinud kasutusega rõhusõnad
veel, enam, ikka ja küll tõmbuvad järgneva adverbilise
komponendiga semantiliselt ja süntaktiliselt
– Analüütiliste üksuste ja liitadverbide kujunemine
oli jälle kord ennast tõestanud, oli vaid veidi eemale läinud, oli
niivõrd hästi ette valmistatud, et ..
Varieerumine:
jällekord analoogselt adverbiga veelkord
<taevast> oli allasadanud ja <taevast> oli alla sadanud jm
Viidatud kirjandus
Biber, Douglas; Conrad, Susan; Reppen, Randi 2006. Corpus linguistics. Investigating
language structure and use. New York: Cambridge University Press. (First published 1998.)
Chodorow, Martin, Claudia Leacock 2000. An unsupervised method for detecting grammatical
errors. – NAACL 2000 Proceedings of the 1st North American chapter of the Assotiation for
Computational Linguistics conference. Stroudsburg, USA: Assotiation for Computational
Linguistics, 140–147.
Chomsky, Noam 1956. Three Models for the Description of Language. – IRE Transactions on
Information theory (2), 113-124.
Conklin, Kathy; Schmitt, Norbert 2008. Formulaic sequences: Are they processed more quickly
than nonformulaic language by native and nonnative speakers? – Applied Linguistics, 29/1, 72–
89.
Croft , William 1999. Adaptation, optimality and diachrony. – Zeitschrift für Sprachwissenschaft
18 (2), 206–208. http://dx.doi.org/10.1515/zfsw.1999.18.2.206
Ellis, Nick C. 2006. Language aquisition as rational contingency learning. – Applied Linguistics
27 (1), 1–24. http://dx.doi.org/10.1093/applin/ami038
Eslon, Pille 2014. Adverbi sisaldavate struktuuride tekstifunktsioonidest eesti ilukirjandus- ja
õppijakeeles. – Lähivõrdlusi/Lähivertailuja, 24, 15–46. doi:10.5128/LV24.01
Eslon, Pille; Paeoja, Heleriin 2015. Samatähenduslike sünteetiliste ja analüütiliste verbide
kasutamine. – Lähivõrdlusi/Lähivertailuja, 25, 63–104. doi:10.5128/LV25.04
Evert, Stefan 2005. The Statistics of Word Cooccurrences, Word Pairs and Collocations. PhD
dissertation. Institut für maschinelle Sprachverarbeitung Universität Stuttgart.
Gries, Stefan Th. (to appear). Statistics for learner korpus research. – The Cambridge Handbook
of Learner Corpus Research. Eds. Gaëtanelle Gilquin, Sylviane Granger, Fanny
Meunier. Cambridge: Cambridge University Press, 159–182.
http://www.linguistics.ucsb.edu/faculty/stgries/research/ToApp_STG_StatsForLCR_CambHbOfL
CR.pdf (12.04.2016).
Ibbotson, Paul 2013. The scope of usage-based theory. – Frontiers in Psychology 4 (article 255),
1–15. http://dx.doi.org/10.3389/fpsyg.2013.00255
Jarvis, Scott; Crossley, Scott A. (Eds.) 2012. Approaching language transfer trough text
classification: Exploring in the detection-based approach. Bristol, Buffalo, Toronto: Multilingual
Matters.
Kaalep, Heiki-Jaan, Kadri Muischnek 2009. Eesti keele püsiühendid arvutilingvistikas: miks ja
kuidas. – Eesti Rakenduslingvistika Ühingu aastaraamat 5, 157–172.
http://dx.doi.org/10.5128/ERYa5.10
Krikmann, Arvo 2004. “Sai hea obaduse vastu obadust”: löömist ja peksmist märkivad väljendid
eesti keeles. Reetor 3. Tartu: Eesti Kirjandusmuuseumi folkloristika osakond, eesti kultuuriloo ja
folkloristika keskus.
Markov jt 2010 =
 
✁
✂
✄
☎
✆
✝
✞
✟
✄
✠
✁
✡
☛
✂
☞
✞
✁
☛
✌
✍
✌
✂
☎
✆
✌
✎
,
☞
✁
✞
✟
✂
✌
✏
✝
✡
✁
✑
☎
✞
✒
✟
✆
✌
✎
✝
✡
✌
✠
✌
✍
☎
✆
,
✝
✡
☛
✂
✟
✏
☞
✌
✑
✁
✞
✒
✟
✆
✌
✎
✓
☎
✂
☎
✑
✁
✟
✆
2010.
☞
✔
✁
✌
✍
☎
✠
✆
✕
✔
✒
✂
✁
✔
✍
✟
✂
✁
✖
✟
✡
☎
✍
✁
✌
✠
✞
☎
✗
✡
☎
✠
✑
✌
☎
✂
✖
✁
✡
✌
✔
✍
✁
✆
✘
✙
✚
✛
✜
✢
✣
✚
✤
✤
✚
✥
✦
✧
★
✩
✚
✪
✫
✦
✚
✬
✭
✦
✣
✚
✪
✬
✥
✛
✮
✬
✚
✫
✣
✪
✭
✜
✯
✣
✥
. –
✰
✭
✛
✮
✚
✤
✪
✚
✛
✚
✱
✣
✲
✮
✳
✬
✣
✴
✵
✩
✦
✤
✭
✛
✶
4,
3–14.
Masini, Francesca 2005. Multi-word expressions between syntax and the lexicon: ,e case of
Italian verb-particle constructions. – SKY Journal of Linguistics 18, 145–173.
http://www.ling.helsinki."/sky/julkaisut/SKY2005/ Masini.pdf (30.5.2014).
Muischnek jt 2012 = Muischnek, Kadri; Fišel, Mark; Kaalep, Heiki-Jaan; Koit, Mare; Müürisep,
Kaili; Orav, Heili; Vare, Kadri; Õim, Haldur 2012. Arvutilingvistika ja keeletehnoloogia Tartu
Ülikoolis. – Emakeele Seltsi aastaraamat, 57 (2011), 66–102. doi: 10.3176/esa57.05
Muischnek, Kadri, Heete Sahkai 2010. Liitpredikaadid leksikoni-grammatika kontiinumil:
konstruktsioonide produktiivsusest verbiga minema moodustatud liitpredikaatide näitel. – ESUKA
– JEFUL 1 (2), 295–316.
Ots, Sander 2012. Statistikapõhise tarkvara loomine morfoloogiliste kollokatsioonide
eraldamiseks eesti keele tekstidest. Bakalaureusetöö. Tallinna Ülikooli informaatika instituut.
Ots, Sander 2011. Tarkvara statistiliste kollokatsioonide eraldamiseks ning selle rakendus
morfosüntaktilises analüüsis. Seminaritöö. Tallinna Ülikooli informaatika instituut.
Römer, Ute 2007. Learner language and the norms in native corpora and EFL teaching materials:
A case study of English conditionals. – Anglistentag 2006 Halle. Proceedings. Sabine Volk-Birke,
Julia Lippert (Eds.). Trier: Wissenschaftlicher Verlag Trier. 355–363.
http://uteroemer.weebly.com/uploads/5/5/7/7/5577406/at_halle_paper_roemer_2007_on_conditio
nals.pdf (17.08.2015).
Sahkai, Heete 2008. Konstruktsioonipõhine keelemudel ja sõnaraamatumudel. – Eesti
Rakenduslingvistika Ühingu aastaraamat 4, 177–186. http://dx.doi. org/10.5128/ERYa4.11
Tognini-Bonelli, Elena 2001. Corpus linguistics at work. Studies in korpus linguistics 6.
Amsterdam / Philadelphia: John Benjamins Publ. Co.
Trainis, Jekaterina; Allkivi, Kais 2014. Ilukirjanduskeelest uue pilguga. – Eesti
Rakenduslingvistika Ühingu aastaraamat, 10, 283–306. http://dx.doi.org/10.5128/ERYa10.18
Tsui, Amy B. M. 2005. ESL teachers
 
questions and korpus evidence. – International
Journal of Corpus Linguistic, 10:3, 335–356.
Widdowson, H. G. 2000. The limitations of linguistics applied. – Applied Linguistics 21
(1), pp. 3-25.

More Related Content

Viewers also liked

2016-05-27 Venia Legendi (CEITER): Terje Väljataga
2016-05-27 Venia Legendi (CEITER): Terje Väljataga2016-05-27 Venia Legendi (CEITER): Terje Väljataga
2016-05-27 Venia Legendi (CEITER): Terje Väljatagaifi8106tlu
 
2015-11-19 Venia Legendi: Vladimir Tomberg
2015-11-19 Venia Legendi: Vladimir Tomberg2015-11-19 Venia Legendi: Vladimir Tomberg
2015-11-19 Venia Legendi: Vladimir Tombergifi8106tlu
 
2016-05-30 Venia Legendi (CEITER): Luis Pablo Prieto
2016-05-30 Venia Legendi (CEITER): Luis Pablo Prieto2016-05-30 Venia Legendi (CEITER): Luis Pablo Prieto
2016-05-30 Venia Legendi (CEITER): Luis Pablo Prietoifi8106tlu
 
2016-04-27 research seminar, 2nd presenter
2016-04-27 research seminar, 2nd presenter2016-04-27 research seminar, 2nd presenter
2016-04-27 research seminar, 2nd presenterifi8106tlu
 
Banff foundation and future of transplantation
Banff foundation and future of transplantationBanff foundation and future of transplantation
Banff foundation and future of transplantationKim Solez ,
 
2016-05-30 Venia Legendi (CEITER): Maria Jesus Rodriguez Triana
2016-05-30 Venia Legendi (CEITER): Maria Jesus Rodriguez Triana2016-05-30 Venia Legendi (CEITER): Maria Jesus Rodriguez Triana
2016-05-30 Venia Legendi (CEITER): Maria Jesus Rodriguez Trianaifi8106tlu
 
Sina marzoughi presentation pathology of homo sapiens 2.0
Sina marzoughi presentation pathology of homo sapiens 2.0Sina marzoughi presentation pathology of homo sapiens 2.0
Sina marzoughi presentation pathology of homo sapiens 2.0Kim Solez ,
 
Mainstreaming the Singularity in Universities and Beyond!
Mainstreaming the Singularity in Universities and Beyond!Mainstreaming the Singularity in Universities and Beyond!
Mainstreaming the Singularity in Universities and Beyond!Kim Solez ,
 
2016-05-30 Venia Legendi (CEITER): Minna Huotilainen
2016-05-30 Venia Legendi (CEITER): Minna Huotilainen2016-05-30 Venia Legendi (CEITER): Minna Huotilainen
2016-05-30 Venia Legendi (CEITER): Minna Huotilainenifi8106tlu
 
2016-05-31 Venia Legendi (CEITER): Sergey Sosnovsky
2016-05-31 Venia Legendi (CEITER): Sergey Sosnovsky2016-05-31 Venia Legendi (CEITER): Sergey Sosnovsky
2016-05-31 Venia Legendi (CEITER): Sergey Sosnovskyifi8106tlu
 
2015-11-04 research-seminar
2015-11-04 research-seminar2015-11-04 research-seminar
2015-11-04 research-seminarifi8106tlu
 
Kim Solez Microscope and Megamacroscope Presentation 2004
Kim Solez Microscope and Megamacroscope Presentation 2004Kim Solez Microscope and Megamacroscope Presentation 2004
Kim Solez Microscope and Megamacroscope Presentation 2004Kim Solez ,
 
2016-05-04 research seminar
2016-05-04 research seminar2016-05-04 research seminar
2016-05-04 research seminarifi8106tlu
 
Venia legendi 2016 Andi Kivinukk
Venia legendi 2016 Andi KivinukkVenia legendi 2016 Andi Kivinukk
Venia legendi 2016 Andi Kivinukkifi8106tlu
 
Kim Solez Renal transplant pathology and future perspectives corefall2016
Kim Solez Renal transplant pathology and future perspectives corefall2016Kim Solez Renal transplant pathology and future perspectives corefall2016
Kim Solez Renal transplant pathology and future perspectives corefall2016Kim Solez ,
 
2015-11-17 Venia Legendi: Aleksander Väljamäe
2015-11-17 Venia Legendi: Aleksander Väljamäe2015-11-17 Venia Legendi: Aleksander Väljamäe
2015-11-17 Venia Legendi: Aleksander Väljamäeifi8106tlu
 
Psychophysiological aspects of Human-System Integration i C4 and operation sa...
Psychophysiological aspects of Human-System Integration i C4 and operation sa...Psychophysiological aspects of Human-System Integration i C4 and operation sa...
Psychophysiological aspects of Human-System Integration i C4 and operation sa...Jerzy Achimowicz
 
Kim Solez Future of Medicine 2013
Kim Solez Future of Medicine 2013Kim Solez Future of Medicine 2013
Kim Solez Future of Medicine 2013Kim Solez ,
 

Viewers also liked (20)

2016-05-27 Venia Legendi (CEITER): Terje Väljataga
2016-05-27 Venia Legendi (CEITER): Terje Väljataga2016-05-27 Venia Legendi (CEITER): Terje Väljataga
2016-05-27 Venia Legendi (CEITER): Terje Väljataga
 
2015-11-19 Venia Legendi: Vladimir Tomberg
2015-11-19 Venia Legendi: Vladimir Tomberg2015-11-19 Venia Legendi: Vladimir Tomberg
2015-11-19 Venia Legendi: Vladimir Tomberg
 
2016-05-30 Venia Legendi (CEITER): Luis Pablo Prieto
2016-05-30 Venia Legendi (CEITER): Luis Pablo Prieto2016-05-30 Venia Legendi (CEITER): Luis Pablo Prieto
2016-05-30 Venia Legendi (CEITER): Luis Pablo Prieto
 
2016-04-27 research seminar, 2nd presenter
2016-04-27 research seminar, 2nd presenter2016-04-27 research seminar, 2nd presenter
2016-04-27 research seminar, 2nd presenter
 
Banff foundation and future of transplantation
Banff foundation and future of transplantationBanff foundation and future of transplantation
Banff foundation and future of transplantation
 
2016-05-30 Venia Legendi (CEITER): Maria Jesus Rodriguez Triana
2016-05-30 Venia Legendi (CEITER): Maria Jesus Rodriguez Triana2016-05-30 Venia Legendi (CEITER): Maria Jesus Rodriguez Triana
2016-05-30 Venia Legendi (CEITER): Maria Jesus Rodriguez Triana
 
Sina marzoughi presentation pathology of homo sapiens 2.0
Sina marzoughi presentation pathology of homo sapiens 2.0Sina marzoughi presentation pathology of homo sapiens 2.0
Sina marzoughi presentation pathology of homo sapiens 2.0
 
Mainstreaming the Singularity in Universities and Beyond!
Mainstreaming the Singularity in Universities and Beyond!Mainstreaming the Singularity in Universities and Beyond!
Mainstreaming the Singularity in Universities and Beyond!
 
2016-05-30 Venia Legendi (CEITER): Minna Huotilainen
2016-05-30 Venia Legendi (CEITER): Minna Huotilainen2016-05-30 Venia Legendi (CEITER): Minna Huotilainen
2016-05-30 Venia Legendi (CEITER): Minna Huotilainen
 
2016-05-31 Venia Legendi (CEITER): Sergey Sosnovsky
2016-05-31 Venia Legendi (CEITER): Sergey Sosnovsky2016-05-31 Venia Legendi (CEITER): Sergey Sosnovsky
2016-05-31 Venia Legendi (CEITER): Sergey Sosnovsky
 
2015-11-04 research-seminar
2015-11-04 research-seminar2015-11-04 research-seminar
2015-11-04 research-seminar
 
Kim Solez Microscope and Megamacroscope Presentation 2004
Kim Solez Microscope and Megamacroscope Presentation 2004Kim Solez Microscope and Megamacroscope Presentation 2004
Kim Solez Microscope and Megamacroscope Presentation 2004
 
2016-05-04 research seminar
2016-05-04 research seminar2016-05-04 research seminar
2016-05-04 research seminar
 
Venia legendi 2016 Andi Kivinukk
Venia legendi 2016 Andi KivinukkVenia legendi 2016 Andi Kivinukk
Venia legendi 2016 Andi Kivinukk
 
Kim Solez Renal transplant pathology and future perspectives corefall2016
Kim Solez Renal transplant pathology and future perspectives corefall2016Kim Solez Renal transplant pathology and future perspectives corefall2016
Kim Solez Renal transplant pathology and future perspectives corefall2016
 
2015-11-17 Venia Legendi: Aleksander Väljamäe
2015-11-17 Venia Legendi: Aleksander Väljamäe2015-11-17 Venia Legendi: Aleksander Väljamäe
2015-11-17 Venia Legendi: Aleksander Väljamäe
 
Psychophysiological aspects of Human-System Integration i C4 and operation sa...
Psychophysiological aspects of Human-System Integration i C4 and operation sa...Psychophysiological aspects of Human-System Integration i C4 and operation sa...
Psychophysiological aspects of Human-System Integration i C4 and operation sa...
 
Bicoherence bullock etal
Bicoherence bullock etalBicoherence bullock etal
Bicoherence bullock etal
 
Icasm2009 miam-poland
Icasm2009 miam-polandIcasm2009 miam-poland
Icasm2009 miam-poland
 
Kim Solez Future of Medicine 2013
Kim Solez Future of Medicine 2013Kim Solez Future of Medicine 2013
Kim Solez Future of Medicine 2013
 

More from ifi8106tlu

2016-05-11 research seminar
2016-05-11 research seminar2016-05-11 research seminar
2016-05-11 research seminarifi8106tlu
 
Venia Legendi 2016: Maria Zeltser
Venia Legendi 2016: Maria ZeltserVenia Legendi 2016: Maria Zeltser
Venia Legendi 2016: Maria Zeltserifi8106tlu
 
2016-04-27 research seminar
2016-04-27 research seminar2016-04-27 research seminar
2016-04-27 research seminarifi8106tlu
 
EstCORE veebinar
EstCORE veebinarEstCORE veebinar
EstCORE veebinarifi8106tlu
 
2016-04-13 research seminar appendix
2016-04-13 research seminar appendix2016-04-13 research seminar appendix
2016-04-13 research seminar appendixifi8106tlu
 
2016-04-13 research seminar presentation
2016-04-13 research seminar presentation2016-04-13 research seminar presentation
2016-04-13 research seminar presentationifi8106tlu
 
2016-04-06 research seminar
2016-04-06 research seminar2016-04-06 research seminar
2016-04-06 research seminarifi8106tlu
 
2016 03-16 research seminar
2016 03-16 research seminar2016 03-16 research seminar
2016 03-16 research seminarifi8106tlu
 
2016 03-09 research seminar
2016 03-09 research seminar2016 03-09 research seminar
2016 03-09 research seminarifi8106tlu
 
2016-03-02 research seminar
2016-03-02 research seminar2016-03-02 research seminar
2016-03-02 research seminarifi8106tlu
 
2016-02-10 research seminar, second part
2016-02-10 research seminar, second part2016-02-10 research seminar, second part
2016-02-10 research seminar, second partifi8106tlu
 
2016-02-17 research seminar
2016-02-17 research seminar2016-02-17 research seminar
2016-02-17 research seminarifi8106tlu
 
2016-02-10 research seminar, part 1
2016-02-10 research seminar, part 12016-02-10 research seminar, part 1
2016-02-10 research seminar, part 1ifi8106tlu
 
2016-02-03 research seminar
2016-02-03 research seminar2016-02-03 research seminar
2016-02-03 research seminarifi8106tlu
 
2015-12-17 research seminar 2nd part
2015-12-17 research seminar 2nd part2015-12-17 research seminar 2nd part
2015-12-17 research seminar 2nd partifi8106tlu
 
2015-12-17 research seminar 3rd part
2015-12-17 research seminar 3rd part2015-12-17 research seminar 3rd part
2015-12-17 research seminar 3rd partifi8106tlu
 
2015-12-17 research seminar 1st part
2015-12-17 research seminar 1st part2015-12-17 research seminar 1st part
2015-12-17 research seminar 1st partifi8106tlu
 
2015-12-09 research seminar
2015-12-09 research seminar2015-12-09 research seminar
2015-12-09 research seminarifi8106tlu
 
2015-12-02 research seminar
2015-12-02 research seminar2015-12-02 research seminar
2015-12-02 research seminarifi8106tlu
 

More from ifi8106tlu (19)

2016-05-11 research seminar
2016-05-11 research seminar2016-05-11 research seminar
2016-05-11 research seminar
 
Venia Legendi 2016: Maria Zeltser
Venia Legendi 2016: Maria ZeltserVenia Legendi 2016: Maria Zeltser
Venia Legendi 2016: Maria Zeltser
 
2016-04-27 research seminar
2016-04-27 research seminar2016-04-27 research seminar
2016-04-27 research seminar
 
EstCORE veebinar
EstCORE veebinarEstCORE veebinar
EstCORE veebinar
 
2016-04-13 research seminar appendix
2016-04-13 research seminar appendix2016-04-13 research seminar appendix
2016-04-13 research seminar appendix
 
2016-04-13 research seminar presentation
2016-04-13 research seminar presentation2016-04-13 research seminar presentation
2016-04-13 research seminar presentation
 
2016-04-06 research seminar
2016-04-06 research seminar2016-04-06 research seminar
2016-04-06 research seminar
 
2016 03-16 research seminar
2016 03-16 research seminar2016 03-16 research seminar
2016 03-16 research seminar
 
2016 03-09 research seminar
2016 03-09 research seminar2016 03-09 research seminar
2016 03-09 research seminar
 
2016-03-02 research seminar
2016-03-02 research seminar2016-03-02 research seminar
2016-03-02 research seminar
 
2016-02-10 research seminar, second part
2016-02-10 research seminar, second part2016-02-10 research seminar, second part
2016-02-10 research seminar, second part
 
2016-02-17 research seminar
2016-02-17 research seminar2016-02-17 research seminar
2016-02-17 research seminar
 
2016-02-10 research seminar, part 1
2016-02-10 research seminar, part 12016-02-10 research seminar, part 1
2016-02-10 research seminar, part 1
 
2016-02-03 research seminar
2016-02-03 research seminar2016-02-03 research seminar
2016-02-03 research seminar
 
2015-12-17 research seminar 2nd part
2015-12-17 research seminar 2nd part2015-12-17 research seminar 2nd part
2015-12-17 research seminar 2nd part
 
2015-12-17 research seminar 3rd part
2015-12-17 research seminar 3rd part2015-12-17 research seminar 3rd part
2015-12-17 research seminar 3rd part
 
2015-12-17 research seminar 1st part
2015-12-17 research seminar 1st part2015-12-17 research seminar 1st part
2015-12-17 research seminar 1st part
 
2015-12-09 research seminar
2015-12-09 research seminar2015-12-09 research seminar
2015-12-09 research seminar
 
2015-12-02 research seminar
2015-12-02 research seminar2015-12-02 research seminar
2015-12-02 research seminar
 

Venia Legendi 2016: Pille Eslon

  • 1. Keele ja tehnoloogia piirimail Pille Eslon 26. aprill 2016
  • 2. Piirimaade võlu: uued arengud • Bioloogia + semiootika = biosemiootika • Keel + tehnoloogia = keeletehnoloogia • Arvuti + lingvistika = arvutilingvistika • Lingvistika + rakendused = rakenduslingvistika • Tekstid > tekstikogud > korpused + lingvistika = tekstilingvistika ja korpuslingvistika
  • 3. Arvutilingvistika ja keeletehnoloogia • Arvutilingvistika ja keeletehnoloogia asuvad lingvistika ja informaatika vahel (Muischnek jt 2012: 67) – arvutilingvistika on lähemal keeleteadusele, ühendav lüli on teadmine loomulikust keelest – keeletehnoloogia on lähemal arvutiteadusele, arvutilingvistika rakenduslik pool
  • 4. Korpus- ja arvutilingvistika – Korpuslingvistika ja arvutilingvistika pakuvad keeletehnoloogilisi rakendusi, nt leksikograafias, keeleõppes, masintõlkes, loovad automaatselt töötavaid programme jm korpusanalüüsi vahendeid • Morfo- ja süntaksianalüsaator, lemmatiseerija, poolitaja, speller, silbitaja, grammatikakorrektor, leksikograafide töövahend E-lex, tõlkija töökeskkond, automattõlke programmid, tekst-kõne süntees jm – sh TLÜ-s õppijakeele vealeidja, sõnajärjeleidja, keeleoskustasemete automaatne tuvastamine, pöördsõnastik
  • 5. Põhivastuolu • Grammatikareeglid vs. kasutusreeglid, mentaalne vs. reaalne grammatika, normeeritud kirjakeele standard vs. kasutusstandard (ingl standard-in-use) – Uurimisobjekt: keele süsteemsed vs. keele tekstikasutuse seaduspärad • Keelestruktuuri paradigmaatiline kirjeldus, keelendite süsteemsed funktsioonid • Keelekasutus: keelendite omavaheline kombineerimine tekstis ehk süsteemsete seoste rakendus süntagmaatilises aspektis
  • 6. Väike näide • Ei lange kokku inglise keele – if-konstruktsiooni põhireegel grammatikas – if-konstruktsiooni põhireegel emakeelekõneleja tekstikasutuses – Kasutamisraskused saksa emakeelega inglise keele õppijate tekstiloomes (vead isegi C1 tasemel) (vt Römer 2007) • Vastuolud grammatikatest ja õpikutest pärit keeleandmete ning korpusandmete vahel – õpetajate hinnangul puudutab vähemalt 16 leksikaalgrammatilist nähtust (vt Tsui 2005: 336–339)
  • 7. Põhimõtteline küsimus • Kas teoreetilise lingvistika ja kasutusgrammatika vahel on otsene seos või peab rakenduslingvistika välja töötama oma teooria, mis lingvistikat ja keelekasutust vahendab ning nendevahelisi seoseid interpreteerib, k.a lingvistika seoseid muude diststipliinidega (nt keeleõppe, automaattõlke, leksikograafia, tekstitöötluse vajadused), vt Widdowson 2000 – Arvutite ja esinduslike korpuste kasutuselevõtmine on loonud põhimõtteliselt uue olukorra – Korpus- ja arvutilingvistika kui iseseisevad distsipliinid
  • 8. Väärtustamine • Biber, Conrad, Reppen 2006: 55–58 – tarkvaraprogrammide ja arvutusmeetodite rakendamine korpuspõhistes sõnavara- ja grammatikauurimustes on kujundanud uue arusaama, kuidas inimene keelt tegelikult kasutab – tähelepanu keskmes lekseemide kooskasutus, sõnavormide distributiivsed omadused, semantika-vormi- funktsiooni varieerumine ja varieerumise piirid, esinemus • Joseph Greenberg , Martin Haspelmath, Wolfgang Wurzel, Wolfgang Dressler: sage = tavaline ja seega loomulik –– loomulik morfoloogia Sage = markeerimata – markeerituse teooria (Eckman, Croft, Haspelmath, Lee, Remes jt)
  • 9. Uued küsimused • Noam Chomsky (1956) pessimism: kas korpused ja korpuslingvistilised meetodid ikka sobivad teoreetilise lingvistika ülesannete lahendamiseks? – Korpuste representatiivsus, andmete tõeväärsus – Piiratud andmehulk, piiratud rakendused • Kas nt keeleõppijale piisab korpusainesest, mis tuleb esile kasutussageduse alusel? – Keeletehnoloogilised probleemid, nt semantiline ühestamine • Keeletehnoloogilised lahendused häälikute, vormide, lekseemide, konstruktsioonide, lausete analüüsiks ja sünteesiks • Raskused sõna ja lause semantikaga (nt leksikaalsed ja grammatilised homonüümid) – ühestamise probleemid
  • 10. Samas ... • 20. sajandi teisest poolest on korpuslingvistika iseseisev metodoloogiline suund • korpuslingvistilistilisi meetodeid rakendades lahendatakse keeleõppe, automaattõlke, masinõppe, leksikograafia jm probleeme – keeletarkvara – mitmetasemelised statistilised mudelid – arvutused ja saadud tulemuste põhjal ennustamine – R & erinevad statistilise andmeanalüüsi tehnikad (vt Gries to appear, 179–180)
  • 11. Korpusest tulenev avastuspõhine suund • Rakendatakse erinevaid andmekaeve tehnikaid ja statistilise andmetöötluse vahendeid – Avatud Markovi mudel, n-grammid ehk mitmikud • juhtiv meetod keelelise varieerumise uurimiseks – lineaarne diskriminantanalüüs • sageli korrelatsiooni- ja regressioonianalüüs • hea mõõta kahe valimi andmete sarnasust-erinevust, tuvastada valimitele omaseid kategoriaalseid seoseid ja sõltuvusi, modelleerida keelelise varieerumise piire ja keerukust jne (Vt Jarvis, Crossley 2012)
  • 12. Klastrileidja • Analüüsi vahend: Klastrileidja (Ots 2011; 2012) – töötab andmekaeve põhimõttel, otsib libisevalt ühesuguseid sõnaliigijärjendeid – Java programmina kasutab EstCG 1,0 parseri kitsenduste grammatika esimest ehk reeglipõhist versiooni (Kaili Müürisep ja Tiina Puolakainen) – Veebirakendusena Eesti vahekeele korpuse kodulehel uus statistikapõhine versioon (selle versiooni kohta vt Muischnek jt 2012: 75–80) – Veebirakendus loeb ka esimese versiooniga eelmärgendatud tekste
  • 13. Kasutaja valikud olenevalt uurimuse või rakenduse eesmärgist • kasutaja määrab – n-grammi pikkuse • tavaliselt bigramm, trigramm (vt Chodorow, Leacock 2000; Conklin, Schmitt 2008) – analüüsi lingvistilise objekti • morfoloogia • süntaks • morfosüntaks – kas vaja arvestada kirjavahemärkidega
  • 14. – programm väljastab analüüsi tulemused Excelis • n-grammi struktuur • struktuurilt sarnaste n-grammide ühendamine klastriteks – esinemus määratud arvuliselt • keelenäited – n-grammide, klastrite, klasside hierarhia tugineb leitud struktuuride sagedusele ja osatähtsusele valimis – lingvistiline interpreteerimine: • n-grammide varieerumine klastris > klastrite varieerumine klassis > klasside varieerumine • n-grammide struktuurse, leksikaalsemantilise, morfosüntaktilise ja funktsionaalse varieerumise piirid, sõna- ja vormivaliku piirangud
  • 15. Näited • Eesti vahekeele korpuse vene emakeelega gümnaasiumiõpilaste eesti keele olümpiaadi tööde alamkorpuse esseed • kolm sagedamat sõnajärjemustrit **CLB @J @SUBJ @+FMV 451 kordust, nt et autor tahab @SUBJ @+FMV @ADVL 446 kordust, nt autor kirjeldab mitte @+FMV @ADVL @ADVL 415 kordust, nt on tänapäeval nii
  • 16. • kolm sagedamat morfoloogilist struktuuri – tegusõna (V) + määrsõna (D) + määrsõna (D) ehk VDD-struktuur 64 kordust, nt on veel vara – eitus (V) + tegusõna (V) + määrsõna ehk VVD-struktuur 57 kordust, nt ei tule enam – määrsõna (D) + määrsõna (D) + määrsõna (D) ehk DDD-struktuur 52 kordust, nt juba kusagilt mujalt
  • 17. • sagedam morfosüntaktiline muster – kujuneb sageduselt teise morfoloogilise struktuuri VVD (_V_ aux neg + _V_ main indic pres ps neg #FinV #Intr + _D_) – kuuenda süntaktilise struktuuri @NEG @+FMV @ADVL põhjal _V_ aux neg @NEG + _V_ main indic pres ps neg #FinV #Intr @+FMV + _D_ @ADVL nt ei tule enam
  • 18. Mis esile tuleb? • Keelekasutusmustrid – eelistused sõnaliikide lineaarsel kombineerimisel (vt Croft 1999; Ellis 2006) – seosed lekseemide semantika, morfosüntaksi ja tekstiliste funktsioonide vahel (vt Tognini-Bonelli 2001; Ibbotson 2013) – mitmesõnalised kooskasutused • lingvistilised ja statistiliselt ilmnenud (vt Evert 2005: 15-20; Muischnek & Sahkai 2010: 296 jj) • püsiühendid (Kaalep, Muischnek 2009: 157) • kollokatsioonid, idioomid, vormelid (Masini 2005: 145–146) – keelendite funktsionaalse potentsiaali avanemine • põhimõtteliselt uus teoreetilise lingvistika uurimistasand
  • 19. Lingvistiline paradoks – vajab teooriat, mis seda seletaks • Vastuolulised tendentsid – Keelekasutuse tüüpilisus vs. loomingulisus, kinnistunud üksused vs. varieerumine • anna valu! on alles uni! pani pihta, võttis üle – keelestruktuurides domineerib pigem idiomaatilisuse kui avatud valiku printsiip (Krikmann 2004; Sahkai 2008: 171–172) – Entroopia ehk liiasuse ilmingud • samatähenduslikud sünteetilised ja analüütilised verbid (nt lahkuma – ära minema) (Eslon, Paeoja 2015) – Keelesüsteemi leksikaalgrammatilise perifeeria mobiilsus – tagab inimese keelelise kreatiivsuse, sageli kasutatud keelestruktuuridel on semantilised, morfosüntaktilised ja funktsionaalsed piirangud
  • 20. Analoogia • Keelekasutuses ei lähe suuremat osa grammatikast vaja – grammatika liiasus – analoogia geneetikanähtusega, kus suurem osa genoomist kui geneetilise informatsiooni varamust töötab n-ö tühikäigul (junk DNA) ega ole organismi elutegevuseks otseselt vajalik • 95% vs. 5% – sarnaselt junk DNA-ga ei saa 95% ehk liiasust pidada kasutuks – tagab genoomi säilimise (vt Markov jt 2010)
  • 21. Keelekasutusmustrite rakendused 1. Empiiriline lingvistika ja kasutuspõhine keelekäsitlus – Nt eesti keele adverbilised struktuurid verbist vasakul Trainis, Allkivi 2014; Eslon 2014: • adverb-adverb-verb ehk DDV (küll nüüd jookseb, just alles tuli, vist ära läinud) • adverb-verbverb ehk DVV (veel ei liikunud, siis pani põlema) • adverb-substantiiv-verb ehk DSV (ikka puhtust pidanud, ka märki tabanud) • verb-adverb-verb ehk VDV (oli äsja abiellunud, oli järsult keeldunud)
  • 22. – Verbist paremal: • VDD: läks peagi laiali, vaatab otsivalt ringi • VVD: ei tulnud kaua <oodata>, ei vaata tagasi, ei ole võlgu, ei seisa paigal • VDA: oli häirivalt tõsine, tundus nii värske, on tõepoolest vastastikune, on lausa pöörane • VSD: pööras pilgu ära, sai alguse juba, läks lukk rikki • VDS: sai täiesti aru, pole niipea tulekut, tõi endiselt lisa • VAS: tekkis ähmane lootuskiir, on võõras veri, olid osavad käed
  • 23. • Verbist vasakul – valdavalt ühendverbide kasutus • Verbist paremal – suurem osa on väljendverbid • Sõnajärg – mida vabam grammatika järgi, seda piiritletum keelekasutus – Seos öeldise liigiga, adverb liitajavormide ja liitöeldise komponentide vahel: • Verbi mineviku liitaja vorm – VDV: on/oli ammu kadunud (perfekt ja pluskvamperfekt) > on/oli ammu siit kadunud • Liitöeldis – VDA: on juba ammu roheline, oli vist tõepoolest hea; VVD: ei vaata naljalt tagasi jne
  • 24. 2. Eesti keele õpe – Keelekasutusmustrid verbist vasakul ja paremal – aktiivse grammatika põhistruktuurid sõnaliikide kombineerimisel – Statistilised ja idiomaatilised kooskasutused = aktiivne sõnavara + võimalikud sünonüümsed ja antonüümsed asendused – Aktiivsed sõnajärjemallid
  • 25. 3. Täpsustatud reeglid tarkvara arendajatele – Adverbide funktsioonid pole süntaksianalüsaatoris täpsustatud – tähis @ADVL • VDD-struktuur, korduvalt kasutatud samas funktsioonis > kinnistunud adverbikooslused eitavas kõnes > sidendi funktsioon mitte ainult, enam üldse ja nii palju polnud mitte ainult lapsed, vaid ka täiskasvanud (mitte ainult ... vaid ka); polnud enam üldse lapsed, vaid päris täiskasvanud (enam üldse ... vaid); polnudki nii palju osavõtjaid, kui arvati (nii palju ... kui) polnud küll kunagi ja polnud küll päriselt ... aga, kuid, ent
  • 26. – VDD-struktuur jaatavas kõnes: adverbid tõmbuvad semantilis-süntaktiliseks ja fonoloogiliseks terviküksuseks • partiklid nii, mitte ja ka või levinud kasutusega rõhusõnad veel, enam, ikka ja küll tõmbuvad järgneva adverbilise komponendiga semantiliselt ja süntaktiliselt – Analüütiliste üksuste ja liitadverbide kujunemine oli jälle kord ennast tõestanud, oli vaid veidi eemale läinud, oli niivõrd hästi ette valmistatud, et .. Varieerumine: jällekord analoogselt adverbiga veelkord <taevast> oli allasadanud ja <taevast> oli alla sadanud jm
  • 27. Viidatud kirjandus Biber, Douglas; Conrad, Susan; Reppen, Randi 2006. Corpus linguistics. Investigating language structure and use. New York: Cambridge University Press. (First published 1998.) Chodorow, Martin, Claudia Leacock 2000. An unsupervised method for detecting grammatical errors. – NAACL 2000 Proceedings of the 1st North American chapter of the Assotiation for Computational Linguistics conference. Stroudsburg, USA: Assotiation for Computational Linguistics, 140–147. Chomsky, Noam 1956. Three Models for the Description of Language. – IRE Transactions on Information theory (2), 113-124. Conklin, Kathy; Schmitt, Norbert 2008. Formulaic sequences: Are they processed more quickly than nonformulaic language by native and nonnative speakers? – Applied Linguistics, 29/1, 72– 89. Croft , William 1999. Adaptation, optimality and diachrony. – Zeitschrift für Sprachwissenschaft 18 (2), 206–208. http://dx.doi.org/10.1515/zfsw.1999.18.2.206 Ellis, Nick C. 2006. Language aquisition as rational contingency learning. – Applied Linguistics 27 (1), 1–24. http://dx.doi.org/10.1093/applin/ami038 Eslon, Pille 2014. Adverbi sisaldavate struktuuride tekstifunktsioonidest eesti ilukirjandus- ja õppijakeeles. – Lähivõrdlusi/Lähivertailuja, 24, 15–46. doi:10.5128/LV24.01 Eslon, Pille; Paeoja, Heleriin 2015. Samatähenduslike sünteetiliste ja analüütiliste verbide kasutamine. – Lähivõrdlusi/Lähivertailuja, 25, 63–104. doi:10.5128/LV25.04
  • 28. Evert, Stefan 2005. The Statistics of Word Cooccurrences, Word Pairs and Collocations. PhD dissertation. Institut für maschinelle Sprachverarbeitung Universität Stuttgart. Gries, Stefan Th. (to appear). Statistics for learner korpus research. – The Cambridge Handbook of Learner Corpus Research. Eds. Gaëtanelle Gilquin, Sylviane Granger, Fanny Meunier. Cambridge: Cambridge University Press, 159–182. http://www.linguistics.ucsb.edu/faculty/stgries/research/ToApp_STG_StatsForLCR_CambHbOfL CR.pdf (12.04.2016). Ibbotson, Paul 2013. The scope of usage-based theory. – Frontiers in Psychology 4 (article 255), 1–15. http://dx.doi.org/10.3389/fpsyg.2013.00255 Jarvis, Scott; Crossley, Scott A. (Eds.) 2012. Approaching language transfer trough text classification: Exploring in the detection-based approach. Bristol, Buffalo, Toronto: Multilingual Matters. Kaalep, Heiki-Jaan, Kadri Muischnek 2009. Eesti keele püsiühendid arvutilingvistikas: miks ja kuidas. – Eesti Rakenduslingvistika Ühingu aastaraamat 5, 157–172. http://dx.doi.org/10.5128/ERYa5.10 Krikmann, Arvo 2004. “Sai hea obaduse vastu obadust”: löömist ja peksmist märkivad väljendid eesti keeles. Reetor 3. Tartu: Eesti Kirjandusmuuseumi folkloristika osakond, eesti kultuuriloo ja folkloristika keskus.
  • 29. Markov jt 2010 =   ✁ ✂ ✄ ☎ ✆ ✝ ✞ ✟ ✄ ✠ ✁ ✡ ☛ ✂ ☞ ✞ ✁ ☛ ✌ ✍ ✌ ✂ ☎ ✆ ✌ ✎ , ☞ ✁ ✞ ✟ ✂ ✌ ✏ ✝ ✡ ✁ ✑ ☎ ✞ ✒ ✟ ✆ ✌ ✎ ✝ ✡ ✌ ✠ ✌ ✍ ☎ ✆ , ✝ ✡ ☛ ✂ ✟ ✏ ☞ ✌ ✑ ✁ ✞ ✒ ✟ ✆ ✌ ✎ ✓ ☎ ✂ ☎ ✑ ✁ ✟ ✆ 2010. ☞ ✔ ✁ ✌ ✍ ☎ ✠ ✆ ✕ ✔ ✒ ✂ ✁ ✔ ✍ ✟ ✂ ✁ ✖ ✟ ✡ ☎ ✍ ✁ ✌ ✠ ✞ ☎ ✗ ✡ ☎ ✠ ✑ ✌ ☎ ✂ ✖ ✁ ✡ ✌ ✔ ✍ ✁ ✆ ✘ ✙ ✚ ✛ ✜ ✢ ✣ ✚ ✤ ✤ ✚ ✥ ✦ ✧ ★ ✩ ✚ ✪ ✫ ✦ ✚ ✬ ✭ ✦ ✣ ✚ ✪ ✬ ✥ ✛ ✮ ✬ ✚ ✫ ✣ ✪ ✭ ✜ ✯ ✣ ✥ . – ✰ ✭ ✛ ✮ ✚ ✤ ✪ ✚ ✛ ✚ ✱ ✣ ✲ ✮ ✳ ✬ ✣ ✴ ✵ ✩ ✦ ✤ ✭ ✛ ✶ 4, 3–14. Masini, Francesca 2005. Multi-word expressions between syntax and the lexicon: ,e case of Italian verb-particle constructions. – SKY Journal of Linguistics 18, 145–173. http://www.ling.helsinki."/sky/julkaisut/SKY2005/ Masini.pdf (30.5.2014). Muischnek jt 2012 = Muischnek, Kadri; Fišel, Mark; Kaalep, Heiki-Jaan; Koit, Mare; Müürisep, Kaili; Orav, Heili; Vare, Kadri; Õim, Haldur 2012. Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. – Emakeele Seltsi aastaraamat, 57 (2011), 66–102. doi: 10.3176/esa57.05 Muischnek, Kadri, Heete Sahkai 2010. Liitpredikaadid leksikoni-grammatika kontiinumil: konstruktsioonide produktiivsusest verbiga minema moodustatud liitpredikaatide näitel. – ESUKA – JEFUL 1 (2), 295–316. Ots, Sander 2012. Statistikapõhise tarkvara loomine morfoloogiliste kollokatsioonide eraldamiseks eesti keele tekstidest. Bakalaureusetöö. Tallinna Ülikooli informaatika instituut. Ots, Sander 2011. Tarkvara statistiliste kollokatsioonide eraldamiseks ning selle rakendus morfosüntaktilises analüüsis. Seminaritöö. Tallinna Ülikooli informaatika instituut.
  • 30. Römer, Ute 2007. Learner language and the norms in native corpora and EFL teaching materials: A case study of English conditionals. – Anglistentag 2006 Halle. Proceedings. Sabine Volk-Birke, Julia Lippert (Eds.). Trier: Wissenschaftlicher Verlag Trier. 355–363. http://uteroemer.weebly.com/uploads/5/5/7/7/5577406/at_halle_paper_roemer_2007_on_conditio nals.pdf (17.08.2015). Sahkai, Heete 2008. Konstruktsioonipõhine keelemudel ja sõnaraamatumudel. – Eesti Rakenduslingvistika Ühingu aastaraamat 4, 177–186. http://dx.doi. org/10.5128/ERYa4.11 Tognini-Bonelli, Elena 2001. Corpus linguistics at work. Studies in korpus linguistics 6. Amsterdam / Philadelphia: John Benjamins Publ. Co. Trainis, Jekaterina; Allkivi, Kais 2014. Ilukirjanduskeelest uue pilguga. – Eesti Rakenduslingvistika Ühingu aastaraamat, 10, 283–306. http://dx.doi.org/10.5128/ERYa10.18 Tsui, Amy B. M. 2005. ESL teachers   questions and korpus evidence. – International Journal of Corpus Linguistic, 10:3, 335–356. Widdowson, H. G. 2000. The limitations of linguistics applied. – Applied Linguistics 21 (1), pp. 3-25.