SlideShare a Scribd company logo
1 of 3
Download to read offline
Stručný úvod do značkování pro lingvisty

Argumentace: Téma jsem si vybral z důvodu mého studia korpusové lingvistiky na FF MU.
Značkování je věc, jež úzce souvisí s mým oborem a zároveň zasahuje i do látky probírané
v některých modulech předmětu KPI. S tématem jsem vzhledem k rozsahovému omezení
pracoval v určitých oblastech velmi stručně, ačkoliv by si určité části zasloužily značné
rozšíření. Text obsahuje obecný úvod do značkování a velmi stručně i jeho historii a
současnost. V druhé části se zabývá značkováním z pohledu lingvistiky. Snažil jsem se, aby
daný název tedy odpovídal probírané tematice.

Anotace: Článek je zaměřen na seznámení čtenářů s principem značkování a způsobu jeho
praktického využití jednak v rámci široké veřejnosti, a pak též v rámci odborného využití v
lingvistice. Shrnuje klady a zápory této metodologie a vyhodnocuje její současný stav.

Klíčová slova: značkování, tagování, lingvistika, internet, web, korpus, štítkování.

Značkování, neboli „tagování", je fenomén, jenž v současnosti není třeba dlouze představovat.
Myšlenka přiřazení jednoho nebo více „klíčových slov“ („tagů“) jistému předmětu hledání je
velice jednoduchá, snadno uskutečnitelná a při správném použití velmi efektivní. S masovým
rozvojem nových médií se značkování stalo kromě Internetu široce užívaným nástrojem i
v nejrůznějších odborných profesích.

Podstatou značkování je přidělení dané entitě tzv. značky („tagu“), jenž definuje její určitou
vlastnost. Nyní je na místě položit si otázku, čím se vlastně tento způsob liší od standardní
kategorizace např. z knihoven? Hlavním rozdílem mezi kategorizací a značkováním je fakt, že
zatímco v případě kategorizace je entita závislá na kontextu, u značkování je tato entita ničím
nevázanou jednotkou, které se naopak přidělují dané vlastnosti. Tento způsob nebylo možné
použít u starých médií, jelikož bez počítačového zpracování by byla taková databáze prvků
s různými, často i měnícími se značkami, z technického hlediska neuskutečnitelná.
Kombinacemi jednotlivých značek lze následně docílit velice přesného vyhledávání.

Největší „boom“ značkování nastal s relativně nedávným příchodem tzv. „Webu 2.0“.
Statický obsah webových stránek je nahrazen obsahem, na němž se aktivně podílí samotní
uživatelé. Poprvé tento termín použila Darcy DiNucci roku 1999 ve svém článku
"Fragmented future.“:

„Web, jak ho známe teď, který se jako statický text načte do okna prohlížeče, je jen zárodek
webu, který přijde. První záblesky Webu 2.0 se již začínají objevovat a my sledujeme, jak se
toto embryo začíná vyvíjet. Web bude chápán ne jako obrazovky plné textu a grafiky, ale jako
prostředí, jako éter, jehož prostřednictvím dochází k interaktivitě. Objeví se na obrazovce
počítače, na televizním přijímači, na palubní desce, na mobilním telefonu, na herní konzoli, a
možná, že i na vaší mikrovlnné troubě.“

V současnosti lze za představitele Webu 2.0 považovat širokou škálu různě zaměřených
internetových serverů. Od webů pro sdílení videa či fotek (Youtube,Flikr), přes blogy a
elektronické encyklopedie (Wikipedia), až po komplexní sociální sítě (Facebook). Všechny
tyto servery mají ale jedno společné, a to aktivní uživatele, jenž jistým způsobem značkují. Na
jednu stranu to je evidentní a nezpochybnitelná výhoda, na stranu druhou to do systému
přináší značný chaos. Uživatel může na server nahrát například video zachycující domácího
mazlíčka hrajícího na kytaru, ale jelikož pohled na značkování je z jistého hlediska velmi
subjektivní, dochází k použití velké řady zcela irelevantních a nesmyslných značek, se
kterými ostatní uživatelé nemusí nutně souhlasit. To je ovšem problém, protože značkování je
ve svém jádru přeci jistou nádstavbou standardní kategorizace. Má sloužit ke „škatulkování“
jednotlivých entit, aby byly snadno dohledatelné. V praxi je však zřejmé, že v systému naopak
působí značný chaos.
                                    Vzrůst počtu uživatelů internetu


 2000

 1800                                                                     1800

 1600

 1400

 1200

 1000                                                                            Počet uživatelů (v milionech)
                                                         900
  800

  600                                   600

  400
                          250
  200
              55
    0
           1996        2000         2003              2005             2009


Díky moderním počítačům s vysokým výpočetním výkonem může být značkování mnohem
komplexnější, než by si kdo, například před padesáti lety, představil. V lingvistice, která nás
lingvisty zajímá samozřejmě nejvíce, jde zejména o značkování tzv. korpusů. Korpusem je
myšlen soubor velkého množství souvislých textů v počítačově čitelné formě, jenž
reprezentuje daný jazyk jako celek. Velikost takovýchto korpusů se liší dle jejich zaměření,
ale v dnešní době se dá považovat za standard v případě synchronních korpusů psaného
jazyka zhruba 100 milionů vzorků. Na takovém souboru lze provádět samozřejmě nespočetné
množství jazykových analýz, pro ty složitější je však zapotřebí mít text náležitě označkovaný.
V těchto případech se pomocí morfologické analýzy určí atributy každé slovní jednotky, která
je pak náležitě označkována (slovní druh, rod, pád, číslo apod.). Ačkoliv všechny jazyky jsou
více či méně mnohoznačné, a tedy i přes důkladně formulované algoritmické popisy
jednotlivých jazykových jevů nemohou být všechna slova jednoznačně označkována a
vzhledem k velikosti některých korpusů není možné mnohoznačně interpretovatelné jevy
označkovat ručně (disambiguovat), jde o neocenitelnou pomoc při zkoumání jazyka. Základní
frekvenční analýza se bez značkování ještě obejde, ale chceme-li dostat výčet různých situací,
jako například na jaké slovní druhy se nejčastěji dané slovo váže, jakého pádu nabývá
v určitých situacích apod., je nutné tento výzkum provádět na označkovaném textu.
Korpusová lingvistika se tedy zejména díky značkování stává velice úspěšnou a široce
používanou metodologií zkoumání jazyka.

Máme-li si v tom udělat pořádek a shrnout výše zmíněná fakta do několika vět, značkování je
užitečný nástroj pro označení entity více vzájemně neovlivnitelnými vlastnostmi, zároveň
však při jeho použití vždy dochází k vytvoření jisté možnosti víceznačné interpretace daných
vlastností vlivem mnohoznačnosti jazyka, kdy je následně nutné vyhledávanou informaci
konkrétněji specifikovat. S nedůsledným použitím široké veřejnosti však v první řadě dochází,
vlivem vniklého „chaosu“, k naprosté degeneraci základní myšlenky značkování. Tento krok
již nelze vzít zpět, protože značkování je součástí internetu, a tak můžeme pouze přihlížet,
jakým způsobem ho bude nadále ovlivňovat.
Seznam použité literatury:

BLATNÁ, Renata a František ČERMÁK. Jak využívat Český národní korpus. 1. vyd. Praha:
Nakladatelství Lidové noviny, 2005, 180 s. ISBN: 80-7106-736-9

      Autoři FF UK spravující ČNK
      Kniha popisující téma a principy korpusové lingvistiky
      Kladné hodnocení v odborných kruzích
      Doporučovaná literatura pro studenty korpusové lingvistiky
      Srozumitelné podání tématu


DINUCCI, Darcy. Fragmented Future. Inflow: Information journal [online]. Print, 1999, č.
53., 32. s. [cit. 2012-12-25]. Dostupné z: http://www.darcyd.com/fragmented_future.pdf

      Autorka s mnoha publikacemi v odborných časopisech
      Redaktorka a editorka v několika odborných časopisech
      Velká míra citací jejích děl
      Množství certifikátů a praxe v oboru
      Prestižní akademická ocenění



ČERMÁK, František a Jan KOCEK. Co je korpus? Inflow: Information journal [online].
Dostupné z: http://ucnk.ff.cuni.cz/co_je_korpus.php

      Autoři FF UK spravující ČNK
      Stručný a srozumitelný popis tematiky
      Článek zaměřený pro představení tématu široké veřejnosti
      Článek umístěn na oficiálních stránkách ČNK
      Rozcestník na další informační zdroje v rámci ČNK

More Related Content

Viewers also liked

マイクロソフトMVPの紹介 .NETラボ勉強会 2010/11/27
マイクロソフトMVPの紹介 .NETラボ勉強会 2010/11/27マイクロソフトMVPの紹介 .NETラボ勉強会 2010/11/27
マイクロソフトMVPの紹介 .NETラボ勉強会 2010/11/27Tomokazu Kizawa
 
Facebook Rakip Marka Analizi
Facebook Rakip Marka AnaliziFacebook Rakip Marka Analizi
Facebook Rakip Marka AnaliziRamazan Güneş
 
บทที่ 5 ข้อมูลชนิดอาร์เรย์และสตริง 6.1
บทที่  5 ข้อมูลชนิดอาร์เรย์และสตริง 6.1บทที่  5 ข้อมูลชนิดอาร์เรย์และสตริง 6.1
บทที่ 5 ข้อมูลชนิดอาร์เรย์และสตริง 6.1Little Tukta Lita
 
20121223 the warmth of christmas-hope by ps. timothy loh
20121223 the warmth of christmas-hope by ps. timothy loh20121223 the warmth of christmas-hope by ps. timothy loh
20121223 the warmth of christmas-hope by ps. timothy loheaglepointcf
 
20121230 first christmas (part 3-peace) by ps. timothy loh
20121230 first christmas (part 3-peace) by ps. timothy loh20121230 first christmas (part 3-peace) by ps. timothy loh
20121230 first christmas (part 3-peace) by ps. timothy loheaglepointcf
 
MAKING the Most out of Your Content: ICE 16
MAKING the Most out of Your Content: ICE 16MAKING the Most out of Your Content: ICE 16
MAKING the Most out of Your Content: ICE 16canmarcotte
 

Viewers also liked (11)

マイクロソフトMVPの紹介 .NETラボ勉強会 2010/11/27
マイクロソフトMVPの紹介 .NETラボ勉強会 2010/11/27マイクロソフトMVPの紹介 .NETラボ勉強会 2010/11/27
マイクロソフトMVPの紹介 .NETラボ勉強会 2010/11/27
 
Facebook Rakip Marka Analizi
Facebook Rakip Marka AnaliziFacebook Rakip Marka Analizi
Facebook Rakip Marka Analizi
 
บทที่ 5 ข้อมูลชนิดอาร์เรย์และสตริง 6.1
บทที่  5 ข้อมูลชนิดอาร์เรย์และสตริง 6.1บทที่  5 ข้อมูลชนิดอาร์เรย์และสตริง 6.1
บทที่ 5 ข้อมูลชนิดอาร์เรย์และสตริง 6.1
 
20121223 the warmth of christmas-hope by ps. timothy loh
20121223 the warmth of christmas-hope by ps. timothy loh20121223 the warmth of christmas-hope by ps. timothy loh
20121223 the warmth of christmas-hope by ps. timothy loh
 
Be hip marketing power point
Be hip marketing power pointBe hip marketing power point
Be hip marketing power point
 
Kerstviering 2012
Kerstviering 2012Kerstviering 2012
Kerstviering 2012
 
0.sma 1 pajo rev.ok
0.sma 1 pajo rev.ok0.sma 1 pajo rev.ok
0.sma 1 pajo rev.ok
 
20121230 first christmas (part 3-peace) by ps. timothy loh
20121230 first christmas (part 3-peace) by ps. timothy loh20121230 first christmas (part 3-peace) by ps. timothy loh
20121230 first christmas (part 3-peace) by ps. timothy loh
 
MAKING the Most out of Your Content: ICE 16
MAKING the Most out of Your Content: ICE 16MAKING the Most out of Your Content: ICE 16
MAKING the Most out of Your Content: ICE 16
 
Income producing oceanview hotel
Income producing oceanview hotelIncome producing oceanview hotel
Income producing oceanview hotel
 
IPv6
IPv6IPv6
IPv6
 

Similar to Tomas neugebauer kpi_znackovani

Tvorba přístupných dokumentů v neziskových organizacích
Tvorba přístupných dokumentů v neziskových organizacíchTvorba přístupných dokumentů v neziskových organizacích
Tvorba přístupných dokumentů v neziskových organizacíchRadek Pavlíček
 
Architektura a implementace digitálních knihoven v prostředí sítě Internet
Architektura a implementace digitálních knihoven v prostředí sítě InternetArchitektura a implementace digitálních knihoven v prostředí sítě Internet
Architektura a implementace digitálních knihoven v prostředí sítě InternetDavid Pasek
 
Praktické aspekty přístupnosti
Praktické aspekty přístupnostiPraktické aspekty přístupnosti
Praktické aspekty přístupnostiRadek Pavlíček
 
Technologie sémantického webu pro vzdělávání
Technologie sémantického webu pro vzděláváníTechnologie sémantického webu pro vzdělávání
Technologie sémantického webu pro vzděláváníTomáš Pitner
 
Vyhledavani v prostredi Internetu
Vyhledavani v prostredi InternetuVyhledavani v prostredi Internetu
Vyhledavani v prostredi InternetuBarbora P
 
Jindra Planková: Systémy zprostředkování a dodávání dokumentů
Jindra Planková: Systémy zprostředkování a dodávání dokumentůJindra Planková: Systémy zprostředkování a dodávání dokumentů
Jindra Planková: Systémy zprostředkování a dodávání dokumentůÚISK FF UK
 
Klára Rösslerová: Proměny výměnných formátů bibliografických dat v čase
Klára Rösslerová: Proměny výměnných formátů bibliografických dat v časeKlára Rösslerová: Proměny výměnných formátů bibliografických dat v čase
Klára Rösslerová: Proměny výměnných formátů bibliografických dat v časeÚISK FF UK
 
Trendy automatizovaných knihovních systémů
Trendy automatizovaných knihovních systémůTrendy automatizovaných knihovních systémů
Trendy automatizovaných knihovních systémůkadlec
 
Kpi závěrečný úkol
Kpi závěrečný úkolKpi závěrečný úkol
Kpi závěrečný úkolValesovaM
 
Netextové informace
Netextové informaceNetextové informace
Netextové informaceCEINVE
 
Informační architektura na internetu
Informační architektura na internetuInformační architektura na internetu
Informační architektura na internetuVítězslav Rathouz
 
Elektronické informační zdroje
Elektronické informační zdrojeElektronické informační zdroje
Elektronické informační zdrojeCEINVE
 
Internet jako zdroj informací
Internet jako zdroj informacíInternet jako zdroj informací
Internet jako zdroj informacíCEINVE
 
Nové směry ve vývoji e-learningu
Nové směry ve vývoji e-learninguNové směry ve vývoji e-learningu
Nové směry ve vývoji e-learninguKamil Kopecky
 
Jakub Krč: Typografie v elektronických médiích
Jakub Krč: Typografie v elektronických médiíchJakub Krč: Typografie v elektronických médiích
Jakub Krč: Typografie v elektronických médiíchWebExpo
 
Online katalogy a weby knihoven
Online katalogy a weby knihovenOnline katalogy a weby knihoven
Online katalogy a weby knihovenJanKanka
 
Web 2.0 - Revolution or chimaera? (May 2009 presentation)
Web 2.0 - Revolution or chimaera? (May 2009 presentation)Web 2.0 - Revolution or chimaera? (May 2009 presentation)
Web 2.0 - Revolution or chimaera? (May 2009 presentation)Adam Zbiejczuk
 

Similar to Tomas neugebauer kpi_znackovani (20)

CSSI
CSSICSSI
CSSI
 
Virtual reality
Virtual reality Virtual reality
Virtual reality
 
Tvorba přístupných dokumentů v neziskových organizacích
Tvorba přístupných dokumentů v neziskových organizacíchTvorba přístupných dokumentů v neziskových organizacích
Tvorba přístupných dokumentů v neziskových organizacích
 
Architektura a implementace digitálních knihoven v prostředí sítě Internet
Architektura a implementace digitálních knihoven v prostředí sítě InternetArchitektura a implementace digitálních knihoven v prostředí sítě Internet
Architektura a implementace digitálních knihoven v prostředí sítě Internet
 
Praktické aspekty přístupnosti
Praktické aspekty přístupnostiPraktické aspekty přístupnosti
Praktické aspekty přístupnosti
 
Technologie sémantického webu pro vzdělávání
Technologie sémantického webu pro vzděláváníTechnologie sémantického webu pro vzdělávání
Technologie sémantického webu pro vzdělávání
 
Vyhledavani v prostredi Internetu
Vyhledavani v prostredi InternetuVyhledavani v prostredi Internetu
Vyhledavani v prostredi Internetu
 
Jindra Planková: Systémy zprostředkování a dodávání dokumentů
Jindra Planková: Systémy zprostředkování a dodávání dokumentůJindra Planková: Systémy zprostředkování a dodávání dokumentů
Jindra Planková: Systémy zprostředkování a dodávání dokumentů
 
Klára Rösslerová: Proměny výměnných formátů bibliografických dat v čase
Klára Rösslerová: Proměny výměnných formátů bibliografických dat v časeKlára Rösslerová: Proměny výměnných formátů bibliografických dat v čase
Klára Rösslerová: Proměny výměnných formátů bibliografických dat v čase
 
Trendy automatizovaných knihovních systémů
Trendy automatizovaných knihovních systémůTrendy automatizovaných knihovních systémů
Trendy automatizovaných knihovních systémů
 
Kpi závěrečný úkol
Kpi závěrečný úkolKpi závěrečný úkol
Kpi závěrečný úkol
 
TNPW2-2012-01
TNPW2-2012-01TNPW2-2012-01
TNPW2-2012-01
 
Netextové informace
Netextové informaceNetextové informace
Netextové informace
 
Informační architektura na internetu
Informační architektura na internetuInformační architektura na internetu
Informační architektura na internetu
 
Elektronické informační zdroje
Elektronické informační zdrojeElektronické informační zdroje
Elektronické informační zdroje
 
Internet jako zdroj informací
Internet jako zdroj informacíInternet jako zdroj informací
Internet jako zdroj informací
 
Nové směry ve vývoji e-learningu
Nové směry ve vývoji e-learninguNové směry ve vývoji e-learningu
Nové směry ve vývoji e-learningu
 
Jakub Krč: Typografie v elektronických médiích
Jakub Krč: Typografie v elektronických médiíchJakub Krč: Typografie v elektronických médiích
Jakub Krč: Typografie v elektronických médiích
 
Online katalogy a weby knihoven
Online katalogy a weby knihovenOnline katalogy a weby knihoven
Online katalogy a weby knihoven
 
Web 2.0 - Revolution or chimaera? (May 2009 presentation)
Web 2.0 - Revolution or chimaera? (May 2009 presentation)Web 2.0 - Revolution or chimaera? (May 2009 presentation)
Web 2.0 - Revolution or chimaera? (May 2009 presentation)
 

Tomas neugebauer kpi_znackovani

  • 1. Stručný úvod do značkování pro lingvisty Argumentace: Téma jsem si vybral z důvodu mého studia korpusové lingvistiky na FF MU. Značkování je věc, jež úzce souvisí s mým oborem a zároveň zasahuje i do látky probírané v některých modulech předmětu KPI. S tématem jsem vzhledem k rozsahovému omezení pracoval v určitých oblastech velmi stručně, ačkoliv by si určité části zasloužily značné rozšíření. Text obsahuje obecný úvod do značkování a velmi stručně i jeho historii a současnost. V druhé části se zabývá značkováním z pohledu lingvistiky. Snažil jsem se, aby daný název tedy odpovídal probírané tematice. Anotace: Článek je zaměřen na seznámení čtenářů s principem značkování a způsobu jeho praktického využití jednak v rámci široké veřejnosti, a pak též v rámci odborného využití v lingvistice. Shrnuje klady a zápory této metodologie a vyhodnocuje její současný stav. Klíčová slova: značkování, tagování, lingvistika, internet, web, korpus, štítkování. Značkování, neboli „tagování", je fenomén, jenž v současnosti není třeba dlouze představovat. Myšlenka přiřazení jednoho nebo více „klíčových slov“ („tagů“) jistému předmětu hledání je velice jednoduchá, snadno uskutečnitelná a při správném použití velmi efektivní. S masovým rozvojem nových médií se značkování stalo kromě Internetu široce užívaným nástrojem i v nejrůznějších odborných profesích. Podstatou značkování je přidělení dané entitě tzv. značky („tagu“), jenž definuje její určitou vlastnost. Nyní je na místě položit si otázku, čím se vlastně tento způsob liší od standardní kategorizace např. z knihoven? Hlavním rozdílem mezi kategorizací a značkováním je fakt, že zatímco v případě kategorizace je entita závislá na kontextu, u značkování je tato entita ničím nevázanou jednotkou, které se naopak přidělují dané vlastnosti. Tento způsob nebylo možné použít u starých médií, jelikož bez počítačového zpracování by byla taková databáze prvků s různými, často i měnícími se značkami, z technického hlediska neuskutečnitelná. Kombinacemi jednotlivých značek lze následně docílit velice přesného vyhledávání. Největší „boom“ značkování nastal s relativně nedávným příchodem tzv. „Webu 2.0“. Statický obsah webových stránek je nahrazen obsahem, na němž se aktivně podílí samotní uživatelé. Poprvé tento termín použila Darcy DiNucci roku 1999 ve svém článku "Fragmented future.“: „Web, jak ho známe teď, který se jako statický text načte do okna prohlížeče, je jen zárodek webu, který přijde. První záblesky Webu 2.0 se již začínají objevovat a my sledujeme, jak se toto embryo začíná vyvíjet. Web bude chápán ne jako obrazovky plné textu a grafiky, ale jako prostředí, jako éter, jehož prostřednictvím dochází k interaktivitě. Objeví se na obrazovce počítače, na televizním přijímači, na palubní desce, na mobilním telefonu, na herní konzoli, a možná, že i na vaší mikrovlnné troubě.“ V současnosti lze za představitele Webu 2.0 považovat širokou škálu různě zaměřených internetových serverů. Od webů pro sdílení videa či fotek (Youtube,Flikr), přes blogy a elektronické encyklopedie (Wikipedia), až po komplexní sociální sítě (Facebook). Všechny tyto servery mají ale jedno společné, a to aktivní uživatele, jenž jistým způsobem značkují. Na jednu stranu to je evidentní a nezpochybnitelná výhoda, na stranu druhou to do systému přináší značný chaos. Uživatel může na server nahrát například video zachycující domácího mazlíčka hrajícího na kytaru, ale jelikož pohled na značkování je z jistého hlediska velmi
  • 2. subjektivní, dochází k použití velké řady zcela irelevantních a nesmyslných značek, se kterými ostatní uživatelé nemusí nutně souhlasit. To je ovšem problém, protože značkování je ve svém jádru přeci jistou nádstavbou standardní kategorizace. Má sloužit ke „škatulkování“ jednotlivých entit, aby byly snadno dohledatelné. V praxi je však zřejmé, že v systému naopak působí značný chaos. Vzrůst počtu uživatelů internetu 2000 1800 1800 1600 1400 1200 1000 Počet uživatelů (v milionech) 900 800 600 600 400 250 200 55 0 1996 2000 2003 2005 2009 Díky moderním počítačům s vysokým výpočetním výkonem může být značkování mnohem komplexnější, než by si kdo, například před padesáti lety, představil. V lingvistice, která nás lingvisty zajímá samozřejmě nejvíce, jde zejména o značkování tzv. korpusů. Korpusem je myšlen soubor velkého množství souvislých textů v počítačově čitelné formě, jenž reprezentuje daný jazyk jako celek. Velikost takovýchto korpusů se liší dle jejich zaměření, ale v dnešní době se dá považovat za standard v případě synchronních korpusů psaného jazyka zhruba 100 milionů vzorků. Na takovém souboru lze provádět samozřejmě nespočetné množství jazykových analýz, pro ty složitější je však zapotřebí mít text náležitě označkovaný. V těchto případech se pomocí morfologické analýzy určí atributy každé slovní jednotky, která je pak náležitě označkována (slovní druh, rod, pád, číslo apod.). Ačkoliv všechny jazyky jsou více či méně mnohoznačné, a tedy i přes důkladně formulované algoritmické popisy jednotlivých jazykových jevů nemohou být všechna slova jednoznačně označkována a vzhledem k velikosti některých korpusů není možné mnohoznačně interpretovatelné jevy označkovat ručně (disambiguovat), jde o neocenitelnou pomoc při zkoumání jazyka. Základní frekvenční analýza se bez značkování ještě obejde, ale chceme-li dostat výčet různých situací, jako například na jaké slovní druhy se nejčastěji dané slovo váže, jakého pádu nabývá v určitých situacích apod., je nutné tento výzkum provádět na označkovaném textu. Korpusová lingvistika se tedy zejména díky značkování stává velice úspěšnou a široce používanou metodologií zkoumání jazyka. Máme-li si v tom udělat pořádek a shrnout výše zmíněná fakta do několika vět, značkování je užitečný nástroj pro označení entity více vzájemně neovlivnitelnými vlastnostmi, zároveň však při jeho použití vždy dochází k vytvoření jisté možnosti víceznačné interpretace daných vlastností vlivem mnohoznačnosti jazyka, kdy je následně nutné vyhledávanou informaci konkrétněji specifikovat. S nedůsledným použitím široké veřejnosti však v první řadě dochází, vlivem vniklého „chaosu“, k naprosté degeneraci základní myšlenky značkování. Tento krok již nelze vzít zpět, protože značkování je součástí internetu, a tak můžeme pouze přihlížet, jakým způsobem ho bude nadále ovlivňovat.
  • 3. Seznam použité literatury: BLATNÁ, Renata a František ČERMÁK. Jak využívat Český národní korpus. 1. vyd. Praha: Nakladatelství Lidové noviny, 2005, 180 s. ISBN: 80-7106-736-9  Autoři FF UK spravující ČNK  Kniha popisující téma a principy korpusové lingvistiky  Kladné hodnocení v odborných kruzích  Doporučovaná literatura pro studenty korpusové lingvistiky  Srozumitelné podání tématu DINUCCI, Darcy. Fragmented Future. Inflow: Information journal [online]. Print, 1999, č. 53., 32. s. [cit. 2012-12-25]. Dostupné z: http://www.darcyd.com/fragmented_future.pdf  Autorka s mnoha publikacemi v odborných časopisech  Redaktorka a editorka v několika odborných časopisech  Velká míra citací jejích děl  Množství certifikátů a praxe v oboru  Prestižní akademická ocenění ČERMÁK, František a Jan KOCEK. Co je korpus? Inflow: Information journal [online]. Dostupné z: http://ucnk.ff.cuni.cz/co_je_korpus.php  Autoři FF UK spravující ČNK  Stručný a srozumitelný popis tematiky  Článek zaměřený pro představení tématu široké veřejnosti  Článek umístěn na oficiálních stránkách ČNK  Rozcestník na další informační zdroje v rámci ČNK