• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Kpi zaverecny ukol_40264
 

Kpi zaverecny ukol_40264

on

  • 195 views

 

Statistics

Views

Total Views
195
Views on SlideShare
195
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Kpi zaverecny ukol_40264 Kpi zaverecny ukol_40264 Document Transcript

    • Seznámení s počítačovou lingvistikou Závěrečný úkol do předmětu KPI11 Lucie Soukupová, UČO 40264 1
    • Anotace 1 Tento text si klade za cíl poskytnout základní informace o vědním oboru nazývaném počítačová lingvistika. Seznamuje čtenáře s jejím zařazením mezí ostatní vědní disciplíny a shrnuje ve stručnosti nejzajímavější praktické úkoly, kterými se tento obor zabývá. Klíčová slova: počítačová lingvistika, matematická lingvistika, zpracování přirozeného jazyka, seznámení s počítačovou lingvistikou, základy počítačové lingvistiky, úkoly počítačové lingvistiky, čím se zabývá počítačová lingvistika2
    • Argumentace 2Obor Čeština se specializací počítačová lingvistika, který druhým rokem studuji, patří mezi nejmladšíobory; v nabídce Filozofické fakulty Masarykovy univerzity se objevil poprvé roku 2010. Jeho názevnapovídá, že jde o spojení přirozeného jazyka (v tomto případě českého) a informačních technologií,což je pro mnoho lidí kombinace poměrně neobvyklá a hůře pochopitelná. Z těchto důvodů často vesvém okolí narážím na nedostatek informací o tom, co počítačová lingvistika vlastně je a jaké jsou jejícíle. V rámci všeobecné osvěty jsem se proto rozhodla napsat pojednání na toto základní téma. 3
    • Co je počítačová lingvistika 3 Počítačová lingvistika je vědní disciplínou na pomezí jazykovědy a informatiky. Fakt, že se jedná o disciplínu pomezní, nelze vykládat tak, že je to disciplína okrajová nebo v nějakém smyslu méně důležitá než její “mateřské” disciplíny; právě naopak, v dnešní době již mají pomezní vědní obory v tomto smyslu mnohdy větší význam než ty původní. Stejně tak v případě počítačové lingvistiky lze hovořit o sice relativně mladé, avšak velmi nadějné disciplíně, která je zaměřená převážně na řešení praktických problémů namísto teoretických bádání, a protože existuje teprve pár desítek let, nabízí ještě mnohé velmi zajímavé výzvy těm, kdo se jí budou chtít věnovat. Chceme-li co nejlépe objasnit pojem počítačová lingvistika, budeme potřebovat nejdříve vyložit význam několika dalších vědních oblastí, ze kterých počítačová lingvistika vychází, případně s nimi úzce souvisí. Tím získáme výchozí materiál, který použijeme k sestavení celkového obrázku, podobně jako když se z jednotlivých dílků skládá puzzle. Lingvistika (z latinského ling ua – jazyk) neboli česky jazykověda se zabývá studiem přirozených jazyků, jejich tříděním a stavbou v nejširším smyslu. Přirozenými jazyky jsou míněny komunikační systémy založené na slovech a vzniklé postupným, přirozeným způsobem, které za účelem běžného dorozumění používají prakticky všechna lidská společenství na světě; rozlišení je zde nutné proto, aby nedošlo k záměně za jiné typy jazyků, například programovací. Matematická lingvistika je pomezní obor, který využívá ke zkoumání jazyka nejrůznějších matematických metod. Tradičně se vnímá jako obor zastřešující a dělí se dále na tři oblasti: lingvistiku kvantitativní (statistickou), algebraickou (neboli teorii matematických modelů) a konečně počítačovou. První dvě jsou zaměřené teoreticky, třetí naopak převážně prakticky, přičemž se navzájem vhodně využívají a obohacují: počítačová lingvistika jednak využívá poznatků zmíněných teoretických disciplín, jednak jim zpětně nabízí ke zkoumání problémy, na které v praxi narazí. Specifickou oblastí počítačové lingvistiky je pak lingvistika korpusová, která se zabývá tvorbou a využitím rozsáhlých elektronických sbírek textů, takzvaných jazykových korpusů. Zpracování přirozeného jazyka (anglicky N a tura l La ng ua g e Processing, NLP) je prakticky synonymem pro počítačovou lingvistiku; vzhledem k tomu, že už víme, co je přirozený jazyk, můžeme jednoduše říct, že jde o zpracování přirozeného jazyka pomocí výpočetní techniky a řešení souvisejících praktických úkolů. Umělá inteligence je jedním z mnoha podoborů informatiky a jejím cílem je vytváření systémů, které jsou schopny napodobit inteligentní chování a uvažování. Významnou součástí takového úkolu je napodobení komunikace v přirozeném jazyce, tedy analýza vstupního a generování výstupního textu (případně mluvené řeči), podobně jako to dělá člověk. Dá se tedy říci, že zpracování přirozeného jazyka neboli počítačová lingvistika je součástí oboru umělé inteligence. Uvedené poznatky můžeme shrnout do nákresu, který názorně shrnuje, kam počítačová lingvistika jako věda patří:4
    • Co je počítačová lingvistika 3 5
    • Čím se počítačová lingvistika zabývá 4 Nyní víme, kam počítačovou lingvistiku v rámci vědních oborů zařadit, a také víme, že je zaměřená převážně prakticky. Zbývá otázka, čím přesně se zabývá a jaké konkrétní zajímavé úkoly řeší. Následující seznam je obsahuje v poměrně vyčerpávajícím množství a v přibližném pořadí od nejlehčích až po velmi obtížné, jejichž uspokojivé řešení není dosud na obzoru. Jazyková analýza textu (morfologická, syntaktická, sémantická) Korektura textu (doplňky textových editorů pro kontrolu pravopisu a gramatiky) Automatické dělení slov, vět Určení typu dokumentu Získávání a extrakce informací Výtah z textu Rozpoznávání psaného textu (skenování a převod do elektronické podoby, rozpoznání jazyka) Rozpoznávání a syntéza mluvené řeči Výuka jazyků za pomoci počítače Odpovídání na otázky Generování přirozeného jazyka (tvorba souvislého textu prezentujícího informace z databází) Strojový překlad (automatizovaný překlad z jednoho jazyka do druhého) Výsledky snah v oblasti strojového překladu jsou zatím největším zklamáním, protože úspěchy se dostavují výrazně pomaleji, než experti v oboru dříve předpokládali. Úspěšné jsou některé systémy pro poloautomatizovaný překlad a další pomůcky pro překladatele, plně automatizovaně se také daří překládat některé jednoduché texty technického rázu, ale například v oblasti krásné literatury se již dá s poměrně vysokou jistotou říci, že skutečně kvalitní překlad ještě dlouho zůstane výhradní doménou lidských talentů a velkou výzvou pro odborníky na strojový překlad. Největší výzvou počítačové lingvistiky je však ještě něco jiného: takzvaný Turingův test. Britský matematik Alan Turing jím v roce 1950 definoval konkrétní cíl snažení v oblasti počítačové inteligence. Zjednodušeně řečeno, cílem je vytvořit umělou inteligenci s komunikačními schopnostmi na takové úrovni, že nezávislý posuzovatel nepozná, zda mu na otázky odpovídá jiný člověk, nebo stroj. Odměnou za kompletní složení Turingova testu je Loebnerova cena, kterou nabízí americký vynálezce a filantrop Hugh Loebner ve spolupráci s Cambridge Center of Behavioral Studies. Cenu tvoří zlatá medaile a finanční odměna 100 000 dolarů. Každoročně se také uděluje dílčí cena (bronzová medaile a 2000 dolarů) pro stroj či program, který dosahuje zatím nejlepších výsledků. Jak je vidět, počítačová lingvistika skýtá mnohá zajímavá témata pro ty, kdo se jí budou chtít věnovat. Doufám, že snahy o propagaci tohoto zatím nepříliš známého oboru přinesou ovoce a že se mu v budoucnu bude věnovat více studentů, kteří do něj vnesou invenci a nadšení.6
    • Použitá literatura 51. ČERNÝ, Jiří. Ú vod do studia ja zyka . 1. vyd. Olomouc: Rubico, 1998. ISBN 80-85839-24-5.2. HORÁK, Aleš. Ú vod do počíta čové ling vistiky [online]. Brno: Fakulta informatiky Masarykovy univerzity, 2012 [cit. 2013-01-05]. Dostupné z: <http://nlp.fi.muni.cz/poc_lingv/pl01.pdf>.3. Natural language processing. W ikipedia : the free encyclopedia [online]. Wikimedia Foundation, Inc. 4. 1. 2013 [cit. 2013-01-05]. Dostupné z: <http://en.wikipedia.org/wiki/ Natural_language_processing>.4. BOLSHAKOV, Igor a Alexander GELBUKH. Com puta tiona l Ling uistics: M odels, Resources, A pplica tions [online]. Mexico: 2004 [cit. 2013-01-05]. Dostupné z: <http://www.gelbukh.com/ clbook/Computational-Linguistics.htm>.5. Český ná rodní korpus [online]. Praha: Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy. [cit. 2013-01-05]. Dostupné z: <http://ucnk.ff.cuni.cz>.6. TURING, Alan. Computing machinery and intelligence [online]. Původně publikováno v: M ind. 1950, č. 59, s. 433–460. [cit. 2013-01-05]. Dostupné z: <http://www.loebner.net/Prizef/ TuringArticle.html>.7. LOEBNER, Hugh. Hom e Pa g e of The Loebner Prize in A rtificia l Intellig ence: "The First Turing Test" [online]. 11. 1. 2011 [cit. 2013-01-05]. Dostupné z: <http://www.loebner.net/Prizef/loebner-prize. html>.8. Frequently asked questions about Computational Linguistics. A CL W iki for Com puta tiona l Ling uistics [online]. The Association for Computational Linguistics, 22. 11. 2005 [cit. 2013-01-05]. Dostupné z: <http://aclweb.org/aclwiki/index.php? title=Frequently_asked_questions_about_Computational_Linguistics>.Poznámka: Všechny uvedené zdroje (kromě Wikipedie) považuji za důvěryhodné, protože jsouzaštítěné konkrétní univerzitou, případně jinou institucí, jejíž důvěryhodnost se dá na Internetu namnoha místech snadno ověřit. Autory jsou univerzitní profesoři a další respektované osobnosti.Wikipedii si troufám považovat za poměrně spolehlivý zdroj v případě článků na široce pojatátémata, o kterých má informace mnoho lidí a jejich správnost na takto hojně navštěvovaném webunavzájem kontrolují. 7