Successfully reported this slideshow.

Readability formulas

969 views

Published on

Slajdy z přednášky o automatických měřítkách čitelnosti.

Published in: Education

Readability formulas

 1. 1. Readability formulasDigital Humanities, Šestá lekceJosef Šlerka, Studia nových médií
 2. 2. Readability formulasautomatická měřítka čitelnostisnaží kvantifikovat stupeň obtížnosti textu pro čteníKitson v roce 1921, Lively s Presseyem v roce 1923klasikové Rudolf Flesch, Edgar Dale a Jeanne Chall.u nás Jozef Mistrík: Štylistika slovenského jazykanověji Automatická měřítka čitelnosti pro česky psanétexty (Josef Šlerka, Filip Smolík)
 3. 3. Kontext psychologickýDelší věty více zatěžují pracovní paměť, protožemateriál ze začátku čtené věty se musí integrovat smateriálem, k němuž se čtenář dostane později. Vmezidobí musí být původní materiál udržován vpracovní paměti a u delších vět je třeba udržovat vícemateriálu po delší dobu. Tím je ovšem část kapacitypracovní paměti vyčerpána, a pracovní paměť paknemůže být efektivně využívána k dalším účelům, jakoje vyhledávání významu slov nebo udržováníkoherence ve větším textovém celku. Důležité je, žepracovní paměť dokáže efektivně ukládat větší shlukyinformací jako jednoduché obsahy, pokud čtenář tytocelky dobře zná.
 4. 4. Kontext strukturalníČitelnost můžeme chápat jako soulad s určitýmipravidly užívání psaného projevu, samozřejměpřiměřený myšlence, která je textem vyjádřena.Norma sama je realizací funkce a v tomto kontextu jefunkcí míra snadné čitelnosti textu. Nenechme sezmást tím, že v českém prostředí nemá tato funkceurčitá jasně formulovaná pravidla. Pravidla jsou totižpouhou kodifikací normy. Neříkají nám však nic opovaze normy jako takové.
 5. 5. Mukařovský„[norma] dává pocítit svou přítomnost jednajícímuindividuu jako omezení jeho akce, pro individuum,které hodnotí, je silou řídící jehoúsudek.“ (Mukařovský)Jinými slovy, pokud jsme schopni tvrdit, že významnousložkou čitelnosti textu je dodržování určitých – byť nenutně pozitivně formulovaných – norem textovéprodukce, pak zároveň říkáme, že je možné takovétonormy měřit.
 6. 6. Kritériapočet slovpočet jedinečných slov apočet větprůměrný počet slabiky ve slověprůměrný počet slov ve větěpočet slabik v textupočet složitých slovpočet znaků
 7. 7. FormuleFlesch reading ease scoreLIX (lix)
 8. 8. Flesch reading easescorefres = 206,835 – 1,015 * (počet slov / počet vět) – 84,6 *(počet slabik / počet slov)Vysoká čísla ukazují na snadnou srozumitelnost, nízkánaopak na srozumitelnost obtížnou. Klíč pro interpretacičíselných hodnot uvádí anglická verze internetovéencyklopedie Wikipedia (viz http://en.wikipedia.org/wiki/Flesch-Kincaid_readability_test). Je třeba vzít v úvahu, ženumerické konstanty uvedené ve vzorci byly nalezenyempiricky a jsou – stejně jako interpretační tabulka –specifické pro angličtinu.
 9. 9. LIXMetoda LIX pochází z roku 1968 a jejím autorem ješvédský jazykovědec C. H. Björnsson. Metodazohledňuje počet vět, počet slov a počet složitých slov.Za složitá se v původním vzorci považují slova delšínež dvě slabiky.lix = počet slov / počet vět + počet složitých slov * 100 /počet slov
 10. 10. Automated readabilityindex (ari)Vzorec Automated readability index byl vytvořenSenterem a Smithem v roce 1967 pro potřebyamerické armády. V roce 1970 byl kalibrován natechnických manuálech (DuBay 2004). Místo počtuslabik se opírá o počet písmen, což usnadňuje jehoautomatický výpočet.ari = (4,71 * počet písmen) / počet slov + (0,5 * početslov) / počet vět – 21,43
 11. 11. Gunning fog indexMěřítko pochází z roku 1952 a jeho autorem je RobertGunning. Značnou popularitu si získalo díky tomu, že bylokalibrováno pro pasáž o 100 slovech. Nebylo tedy přílišobtížné spočítat výsledek manuálně. V našich testech ovšempoužíváme vždy údaje z celého textu. Vzorec pracuje spočtem slov, počtem vět a s počtem složitých slov, která jsoudefinována jako slova delší než tři slabiky (http://en.wikipedia.org/wiki/Gunning_Fog). Vzorec posloužil i jakovýchodisko pro vytvoření výše uvedeného indexu lixfog = 0,4 * (počet vět / počet slov + (100,0 * počet složitýchslov) / počet slov)
 12. 12. SMOG index (smog) SMOG (Simple Measure of Gobbledygook) je vzorec z roku1969, jehož autorem je G. Harry McLaughlin. Posloužil jakozjednodušení Gunningova fog indexu, protože pracuje pouzese dvěma kritérii: s počtem vět a s počtem víceslabičnýchslov. V angličtině se jako víceslabičná chápou slova o třech avíce slabikách (v našich testech jsme pro účely češtiny zvolilijiné kritérium). Původní vzorec je kalibrován tak, aby výsledekzhruba odpovídal dosaženému ročníku vzdělání.smog = sqrt(počet složitých slov * 30 / počet slov) + 3
 13. 13. MistríkPodle slovenského jazykovědce Jozefa Mistríkanezohledňuje většina klasických měřítek čitelnosti indexopakování slov. Index opakování slov je poměr celkovéhopočtu slov v textu a počtu různých slov. Je tedy tím nižší, čímméně se v textu opakují jednotlivá slova. V anglické literatuřeje inverzní měřítko známo jako type-token ratio. Nižší indexopakování podle Mistríka (1970: 50) ukazuje na bohatostslovníku, rostoucí index opakování je příznakem rostoucípředvídatelnosti textu, a tím i rostoucí srozumitelnosti: „Priprvom stretnutí so zriedkavejším slovom se spomalí tempovnímania, ale pri opakovaných stretnutiach sa spomaľovaniezmenšuje, až sa úplně strácá.“
 14. 14. MistríkMistrík proto navrhuje vlastní vzorec, který obsahuje iindex opakování.mistrik = 50 – (průměrná délka slov ve slabikách *průměrný počet slov ve větě) / (počet slov / početrůzných slov)Pro tento vzorec platí, že čím nižší je výsledné číslo,tím je text obtížnější.
 15. 15. Vlastní výzkumVyvinut knihovna Rullus pro jazyky Ruby. .Pro lemmatizacitextu využívá knihovna Rullus volně dostupný slovník zprogramu OpenOffice. Pro stanovení počtu slabik, které jedůležité i pro identifikaci složitých slov, jsme využilijednoduchý postup spočítání počtu samohlásek ve slově,které jsme brali jako identické s počtem slabik. Slovaneobsahující žádnou nebo jen jednu samohlásku bylachápána jako slova jednoslabičná. Lemmatizace a určenípočtu slabik jsou pouze přibližné, ale vzhledem k tomu, žese opírají o rozsáhlé zdroje dat, lze jejich chybu zanedbat.Za složité slovo jsme v češtině považovali takové, kteréobsahuje čtyři a více slabik. (Šlerka, Smolík)
 16. 16. Čítanky a učebnice
 17. 17. Korelace
 18. 18. Děkuji za pozornost

×