Tomas neugebauer kpi_znackovani

Stručný úvod do značkování pro lingvisty

Argumentace: Téma jsem si vybral z důvodu mého studia korpusové lingvistiky na FF MU.
Značkování je věc, jež úzce souvisí s mým oborem a zároveň zasahuje i do látky probírané
v některých modulech předmětu KPI. S tématem jsem vzhledem k rozsahovému omezení
pracoval v určitých oblastech velmi stručně, ačkoliv by si určité části zasloužily značné
rozšíření. Text obsahuje obecný úvod do značkování a velmi stručně i jeho historii a
současnost. V druhé části se zabývá značkováním z pohledu lingvistiky. Snažil jsem se, aby
daný název tedy odpovídal probírané tematice.

Anotace: Článek je zaměřen na seznámení čtenářů s principem značkování a způsobu jeho
praktického využití jednak v rámci široké veřejnosti, a pak též v rámci odborného využití v
lingvistice. Shrnuje klady a zápory této metodologie a vyhodnocuje její současný stav.

Klíčová slova: značkování, tagování, lingvistika, internet, web, korpus, štítkování.

Značkování, neboli „tagování", je fenomén, jenž v současnosti není třeba dlouze představovat.
Myšlenka přiřazení jednoho nebo více „klíčových slov“ („tagů“) jistému předmětu hledání je
velice jednoduchá, snadno uskutečnitelná a při správném použití velmi efektivní. S masovým
rozvojem nových médií se značkování stalo kromě Internetu široce užívaným nástrojem i
v nejrůznějších odborných profesích.

Podstatou značkování je přidělení dané entitě tzv. značky („tagu“), jenž definuje její určitou
vlastnost. Nyní je na místě položit si otázku, čím se vlastně tento způsob liší od standardní
kategorizace např. z knihoven? Hlavním rozdílem mezi kategorizací a značkováním je fakt, že
zatímco v případě kategorizace je entita závislá na kontextu, u značkování je tato entita ničím
nevázanou jednotkou, které se naopak přidělují dané vlastnosti. Tento způsob nebylo možné
použít u starých médií, jelikož bez počítačového zpracování by byla taková databáze prvků
s různými, často i měnícími se značkami, z technického hlediska neuskutečnitelná.
Kombinacemi jednotlivých značek lze následně docílit velice přesného vyhledávání.

Největší „boom“ značkování nastal s relativně nedávným příchodem tzv. „Webu 2.0“.
Statický obsah webových stránek je nahrazen obsahem, na němž se aktivně podílí samotní
uživatelé. Poprvé tento termín použila Darcy DiNucci roku 1999 ve svém článku
"Fragmented future.“:

„Web, jak ho známe teď, který se jako statický text načte do okna prohlížeče, je jen zárodek
webu, který přijde. První záblesky Webu 2.0 se již začínají objevovat a my sledujeme, jak se
toto embryo začíná vyvíjet. Web bude chápán ne jako obrazovky plné textu a grafiky, ale jako
prostředí, jako éter, jehož prostřednictvím dochází k interaktivitě. Objeví se na obrazovce
počítače, na televizním přijímači, na palubní desce, na mobilním telefonu, na herní konzoli, a
možná, že i na vaší mikrovlnné troubě.“

V současnosti lze za představitele Webu 2.0 považovat širokou škálu různě zaměřených
internetových serverů. Od webů pro sdílení videa či fotek (Youtube,Flikr), přes blogy a
elektronické encyklopedie (Wikipedia), až po komplexní sociální sítě (Facebook). Všechny
tyto servery mají ale jedno společné, a to aktivní uživatele, jenž jistým způsobem značkují. Na
jednu stranu to je evidentní a nezpochybnitelná výhoda, na stranu druhou to do systému
přináší značný chaos. Uživatel může na server nahrát například video zachycující domácího
mazlíčka hrajícího na kytaru, ale jelikož pohled na značkování je z jistého hlediska velmi

subjektivní, dochází k použití velké řady zcela irelevantních a nesmyslných značek, se
kterými ostatní uživatelé nemusí nutně souhlasit. To je ovšem problém, protože značkování je
ve svém jádru přeci jistou nádstavbou standardní kategorizace. Má sloužit ke „škatulkování“
jednotlivých entit, aby byly snadno dohledatelné. V praxi je však zřejmé, že v systému naopak
působí značný chaos.
Vzrůst počtu uživatelů internetu

2000

1800 1800

1600

1400

1200

1000 Počet uživatelů (v milionech)
900
800

600 600

400
250
200
55
0
1996 2000 2003 2005 2009

Díky moderním počítačům s vysokým výpočetním výkonem může být značkování mnohem
komplexnější, než by si kdo, například před padesáti lety, představil. V lingvistice, která nás
lingvisty zajímá samozřejmě nejvíce, jde zejména o značkování tzv. korpusů. Korpusem je
myšlen soubor velkého množství souvislých textů v počítačově čitelné formě, jenž
reprezentuje daný jazyk jako celek. Velikost takovýchto korpusů se liší dle jejich zaměření,
ale v dnešní době se dá považovat za standard v případě synchronních korpusů psaného
jazyka zhruba 100 milionů vzorků. Na takovém souboru lze provádět samozřejmě nespočetné
množství jazykových analýz, pro ty složitější je však zapotřebí mít text náležitě označkovaný.
V těchto případech se pomocí morfologické analýzy určí atributy každé slovní jednotky, která
je pak náležitě označkována (slovní druh, rod, pád, číslo apod.). Ačkoliv všechny jazyky jsou
více či méně mnohoznačné, a tedy i přes důkladně formulované algoritmické popisy
jednotlivých jazykových jevů nemohou být všechna slova jednoznačně označkována a
vzhledem k velikosti některých korpusů není možné mnohoznačně interpretovatelné jevy
označkovat ručně (disambiguovat), jde o neocenitelnou pomoc při zkoumání jazyka. Základní
frekvenční analýza se bez značkování ještě obejde, ale chceme-li dostat výčet různých situací,
jako například na jaké slovní druhy se nejčastěji dané slovo váže, jakého pádu nabývá
v určitých situacích apod., je nutné tento výzkum provádět na označkovaném textu.
Korpusová lingvistika se tedy zejména díky značkování stává velice úspěšnou a široce
používanou metodologií zkoumání jazyka.

Máme-li si v tom udělat pořádek a shrnout výše zmíněná fakta do několika vět, značkování je
užitečný nástroj pro označení entity více vzájemně neovlivnitelnými vlastnostmi, zároveň
však při jeho použití vždy dochází k vytvoření jisté možnosti víceznačné interpretace daných
vlastností vlivem mnohoznačnosti jazyka, kdy je následně nutné vyhledávanou informaci
konkrétněji specifikovat. S nedůsledným použitím široké veřejnosti však v první řadě dochází,
vlivem vniklého „chaosu“, k naprosté degeneraci základní myšlenky značkování. Tento krok
již nelze vzít zpět, protože značkování je součástí internetu, a tak můžeme pouze přihlížet,
jakým způsobem ho bude nadále ovlivňovat.

Seznam použité literatury:

BLATNÁ, Renata a František ČERMÁK. Jak využívat Český národní korpus. 1. vyd. Praha:
Nakladatelství Lidové noviny, 2005, 180 s. ISBN: 80-7106-736-9

 Autoři FF UK spravující ČNK
 Kniha popisující téma a principy korpusové lingvistiky
 Kladné hodnocení v odborných kruzích
 Doporučovaná literatura pro studenty korpusové lingvistiky
 Srozumitelné podání tématu

DINUCCI, Darcy. Fragmented Future. Inflow: Information journal [online]. Print, 1999, č.
53., 32. s. [cit. 2012-12-25]. Dostupné z: http://www.darcyd.com/fragmented_future.pdf

 Autorka s mnoha publikacemi v odborných časopisech
 Redaktorka a editorka v několika odborných časopisech
 Velká míra citací jejích děl
 Množství certifikátů a praxe v oboru
 Prestižní akademická ocenění

ČERMÁK, František a Jan KOCEK. Co je korpus? Inflow: Information journal [online].
Dostupné z: http://ucnk.ff.cuni.cz/co_je_korpus.php

 Autoři FF UK spravující ČNK
 Stručný a srozumitelný popis tematiky
 Článek zaměřený pro představení tématu široké veřejnosti
 Článek umístěn na oficiálních stránkách ČNK
 Rozcestník na další informační zdroje v rámci ČNK

Tomas neugebauer kpi_znackovani

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (11)

Similar to Tomas neugebauer kpi_znackovani

Similar to Tomas neugebauer kpi_znackovani (20)

Tomas neugebauer kpi_znackovani