SlideShare a Scribd company logo
1 of 33
Download to read offline
/
Radim Hladík
 Filoso cký ústav Akademie věd ČR, v. v. i.
 Česká asociace pro digitální humanitní vědy
 hladik@ u.cas.cz
 @hlageek
 (Jinonické) Informační pondělky
 FF UK
 2. března 2020
 ffuk
Úvod do slovních vektorů
pro humanitní a sociální vědce
/
Plán prezentace
1. Úvod do počítačového čtení
2. "Vnoření" slov a slovní vektory
3. Reality TV a zostuzování na sociálních sítích
4. Příklad analýzy komunikace na Facebooku s využítím
slovních vektorů
/
Úvod do počítačového čtení
/
"Skákal pes přes oves." Jak zpracovat tuto větu
počítačem?
skákat pes přes oves
lemmatizace
(převedení na
základní tvar)
přes 1
pes 1
oves 1
skákat 1 spočítat slova podle
metody přezdívané
"pytel slov" (nezáleží
nám pořadí)
Zpracování přirozeného jazyka
/
bag-of-words
bag-of-
nouns
bag-of-
verbs
Pytel slov
Zdroj: http://www.programmersought.com/
article/4304366575/
/
skákat pes přes oves
píseň A 1 1 1 1
Řádky jsou "dokumenty",
sloupce jsou "termy"
(slova).
"Skákal pes přes oves."
kočka lézt díra pes okno
píseň B 1 1 1 2 2 "Kočka leze dírou, pes
oknem, pes oknem."
Jožin z bažina močál plížit se
píseň C 1 1 1 1 1 1
"Jožin z bažin močálem se
plíží."
Dokument-termová matice
/
Dokument-termová matice
skákat pes přes oves kočka lézt díra okno Jožin z bažina močál plížit se
píseň
A
1 1 1 1 0 0 0 0 0 0 0 0 0 0
píseň
B
0 2 0 0 1 1 1 2 0 0 0 0 0 0
píseň
C
0 0 0 0 0 0 0 0 1 1 1 1 1 1
mnoho rozměrů!
/
term (slovo) píseň A píseň B píseň C
skákat 1 0 0
pes 1 2 0
přes 1 0 0
oves 1 0 0
kočka 0 1 0
lézt 0 1 0
díra 0 1 0
okno 0 2 0
Jožin 0 0 1
z 0 0 1
bažina 0 0 1
močál 0 0 1
plížit 0 0 1
se 0 0 1
Co se počítač naučil?
"pes" je něco jako "okno"
"skákat", "přes", "oves" jsou
synonyma
ale také už začíná tušit, že
"kočka" má k "pes" blíž než k
"bažina"
Velká data jsou potřebná!
Při dostatečně velkém počtu
zpracovaných dokumentů se
vektory významově příbuzných
slov začnou vzájemně
Term-dokumentová matice
/
"Vnoření" slov a slovní vektory
/
Vnoření slov, anglicky "word
embedding", je technika číselné
reprezentace jazyka, která dokáže
nejen zachytit význam slov, ale také
provádění vektorových operací se
slovy.
Algoritmus word2vec vyvinul český
informatik, Tomáš Mikolov (*1982).
Vnoření slov
Zdroj: https://www.nfneuron.cz/person/tomas-mikolov
http://www. t.vutbr.cz/~imikolov/rnnlm/thesis.pdf
/
doprava -0.046143 -0.067318 0.1498 0.22441 0.57443 0.0011836 0.45132 0.4257 0.069012
vyskytuje -0.54406 -0.27973 0.36249 0.14213 -0.010687 -0.12796 0.32648 0.34028 -0.79189
začíná -0.24223 -0.096392 0.38603 0.32804 0.048946 0.2903 0.39673 0.42556 -0.52009
budovy 0.23301 -0.40142 0.15148 -0.061427 0.27053 -0.20634 0.24459 0.046638 0.0064414
prostor -0.32551 -0.54198 0.41115 0.019167 0.10398 0.13452 0.11216 -0.10147 0.14465
dochází -0.22545 -0.14227 0.595 0.54857 0.065006 0.34605 0.43611 0.10809 -0.43822
správce -0.24079 -0.30575 -0.37093 0.1946 0.099271 -0.5291 0.55343 -0.12407 0.50548
okresu 0.55204 -0.57762 0.35748 0.08272 -0.01168 0.33997 0.18882 -0.13696 -0.20848
jmenován 0.31081 -0.41644 -0.39842 0.027425 0.20767 0.18164 0.01942 -0.023808 -0.27175
situace 0.18886 -0.017709 0.46432 -0.33836 0.10757 0.019564 0.31287 0.21401 0.014067
slovní vektory získané díky
algoritmu "fasttext"
natrénované na datech z
Wikipedie
zveřejněné Facebookem
pouze 10 dimenzí ze 300
Příklad slovních vektorů
/
počítač se snaží uhodnout slovo
na základě daných
předcházejících a následujících
slov
počítač se snaží uhodnout
předcházejících a následujících
slov na základě daného slova
Jak se vnoření slov trénuje
x
x
Zdroj: D. Steinbergr. Diplomová práce:
https://dspace5.zcu.cz/bitstream/11025/23695/1/D.Steinberg
/
Skákal pes přes oves přes zelenou louku šel za ním myslivec
péro na klobouku. Pejsku náš, co děláš žes tak vesel stále?
Řek bych vám, nevím sám hop, a skákal dále.
počítač se snaží uhodnout slovo
na základě daných
předcházejících a následujících
slov
počítač se snaží uhodnout
předcházejících a následujících
slov na základě daného slova
pohyblivé okno
zohledňuje kontext a syntax
Skákal pes přes oves přes zelenou louku šel za ním myslivec
péro na klobouku. Pejsku náš, co děláš žes tak vesel stále?
Řek bych vám, nevím sám hop, a skákal dále.
Skákal pes přes oves přes zelenou louku šel za ním myslivec
péro na klobouku. Pejsku náš, co děláš žes tak vesel stále?
Řek bych vám, nevím sám hop, a skákal dále.
Jak se vnoření slov trénuje
x
x
Zdroj: D. Steinbergr. Diplomová práce:
https://dspace5.zcu.cz/bitstream/11025/23695/1/D.Steinberg
/
Počítání se slovy
Zdroj:
https://blogs.mathworks.com/loren/2017/09/21/math-
with-words-word-embeddings-with-matlab-and-text-
analytics-toolbox/
/
Počítání se slovy - napříč časem
lze zachytit i vývoj významu slov v čase
výzkum de noval dva zákony významové změny (slova s vysokou frekvencí
jsou stabilnější, vícevýznamová slova mění význam rychleji)Zdroj: https://nlp.stanford.edu/projects/histwords/
/
Počítání se slovy - napříč jazyky
po zarovnání slovních vektorů z různých jazyků se překladová slova navzájem
přiblíží Zdroj: https://www.samtalksml.net/aligning-vector-
representations/
/
Počítání se slovy - příklad zarovnání vektorů
tři sady vektorů před zarovnáním
/
Počítání se slovy - příklad zarovnání vektorů
tři sady vektorů po zarovnání
/
3D vizualizace
https://projector.tensor ow.org/
Sémantický prostor českých médií
http://www.mapamedii.cz/
Slovní vektory - příklady
/
Zostuzování na sociálních sítích a Reality TV
výzkum ve spolupráci s Mgr. Markétou Štechovou
(Fakulta sociálních věd Univerzity Karlovy)
/
tzv. “démotický obrat” znamená, že televizní obsah
reprezentuje více zástupců z neelitních vrstev společnosti
významný podíl na této změně měl nástup žánru Reality
TV
výzkumy ze západní a severní Evropy ukazují, že členové z
nižších vrstev se však často stávají předmětem
zesměšňování či kontroverzí
média rozdíly ve společenském postavení vyjadřují
prostřednictvím rozdílů v kulturním vkusu nebo životním
stylu
Reality TV a sociální nerovnosti
/
britská Reality TV show
vznikla v roce 2003 (vysílána
7 let)
licenci pro český trh získala
TV Nova v roce 2005
do roku 2018 odvysílala 10
řad
premisou pořadu je výměna
domácností dvou manželek
Výměna manželek
/
základní dramatický náboj pořadu dodává volba rodin s
různým sociálním pozadím, např.
město X venkov
nezaměstnaný X nižší střední třída
etnický Čech X etnický Róm
jedno dítě X mnoho dětí
britští badatelé pořad kritizovali za "středostavovský
pohled" a "spektákl chudoby"
dělnická třída jako odstrašující příklad jinakosti
odrazový můstek pro výměnu politických názorů
Výměna manželek
/
Shaming neboli zostuzování
stud = individuální emoce
zostuzování = vynucování společenských norem pomocí
vytváření negativního kolektivního sentimentu a veřejné
identi kace provinilce
ne vždy nežádoucí jev (např. v politice)
/
Zostuzování na sociálních sítích
sociální média rozšířila pole pro zostuzování
viralita
dějiště příbuzných jevů (kyberšikana, pornogra e z pomsty,
doxing)
/
Zostuzování chudoby v Reality TV
Existuje spojitost mezi
zostuzovacím chováním na
sociálních sítích a způsobem, jakým
je prezentována chudoba v pořadu
Výměna manželek?
rozlišit negativní o ostatní (pozitivní či
neutrální) příspěvky
porovnat vektory "studu" v negativních a
ostatních příspěvcích
/
Příklad analýzy komunikace na Facebooku
s využítím slovních vektorů
/
facebooková stránka
pořadu
příspěvky všeho
druhu za 5 let od
ledna 2012 do března
2017
oznámení (1273)
komentáře (26383)
odpovědi (28459)
Data
/
Analýza sentimentu
dostupné nástroje pro češtinu
nefungovaly příliš dobře
vytvořili jsme učebnici 1300 ručně
označených příspěvků
s pomocí strojového učení jsme
vyvinuli vlastní klasi kátor
počty slov, počty slov
evidovaných v sentimentovém
lexikonu, zápory, jednotlivá
slova a slovní spojení dvou slov
Měřítko Hodnota
Správnost 0.69
Senzitivita (úplnost) 0.51
Přesnost 0.77
Roztřídění příspěvků podle sentimentu
/
Sentiment podle typu příspěvku a času
/
Vektor "studu" = Kombinace slov "ostuda", "stydet",
"hanba", "hamba
Slovo Kosínová podobnost
hanba 0.7999985
ostuda 0.7896267
hamba 0.6991059
sranda 0.5989249
blba 0.5721486
blbost 0.5703546
hloupost 0.5699992
blbce 0.5695691
todle 0.5621853
hovadina 0.5552371
Korelace mezi vektorem "studu" a vektorem 100
nejčastějších slov v prostoru negativních a ostatních
příspěvků
Vektor "studu"
/
Předběžné výsledky
vykastrovat drama primitiva navrch kym
kalhotky chytra vykat jest mym ztrapnit
nes tak druhych prach timhle nemas
stejno ostuda chudoba divim neu chodba
dement narvat list akorat senzace humac
binec ondra status blba nevis spiny vizitka
zviditelnit ditka hout nebrat natoz
dobrovolne buzna prachy oba
kompenzovat starej prdele delat pras
jedny krysa kost hrdy nemam poprat delo
chud povinny novu socky byt bordel
naroda spine muzy dulezita schopny
uklidit zout tam rika dobytek jakto hruza
hat demence cesko trouba hnus spin
takovy prase cuza kurna zametat leza
vubec prihlasit celebrita jin nevidel horsi
humus takovouhle hube anet nejvetsi
spina celym
/
Závěr
Co si z přednášky pamatovat?
počítání slov v dokumentech je základní technika pro zpracování
přirozeného jazyka počátačem
pokročilé metody jsou postaveny na modelech, které berou v potaz kontext
užítí slov
reprezentace slov hustými vektory výrazně posunuly možnosti
automatizované práce s textem a lepší mapování významu
příklad významových posunů používaných při zostuzování na sociálních
sítích ukazuje, že média společenské rozdíly redukují na rozdíly v životních
stylech - a diváci diskutující na sociálních sítích na tuto hru, zdá se,
přistupují
chovejme se na sociálních sítích eticky

More Related Content

More from ÚISK FF UK

Iva Horová: Sto let pokusů o vybudování národního zvukového archivu
Iva Horová: Sto let pokusů o vybudování národního zvukového archivuIva Horová: Sto let pokusů o vybudování národního zvukového archivu
Iva Horová: Sto let pokusů o vybudování národního zvukového archivuÚISK FF UK
 
Andrea Jelínková: Knihovědní detektivové
Andrea Jelínková: Knihovědní detektivovéAndrea Jelínková: Knihovědní detektivové
Andrea Jelínková: Knihovědní detektivovéÚISK FF UK
 
Martina Košanová: Vizuální smog v knihovnách
Martina Košanová: Vizuální smog v knihovnáchMartina Košanová: Vizuální smog v knihovnách
Martina Košanová: Vizuální smog v knihovnáchÚISK FF UK
 
Jana Šeblová: Samizdatová literatura a hudební publicistika
Jana Šeblová: Samizdatová literatura a hudební publicistikaJana Šeblová: Samizdatová literatura a hudební publicistika
Jana Šeblová: Samizdatová literatura a hudební publicistikaÚISK FF UK
 
Jiří Nechvátal: Projekt Obálkyknih.cz
Jiří Nechvátal: Projekt Obálkyknih.czJiří Nechvátal: Projekt Obálkyknih.cz
Jiří Nechvátal: Projekt Obálkyknih.czÚISK FF UK
 
Marie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autoritMarie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autoritÚISK FF UK
 
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?ÚISK FF UK
 
Anna Hoťová: Školní knihovny
Anna Hoťová: Školní knihovnyAnna Hoťová: Školní knihovny
Anna Hoťová: Školní knihovnyÚISK FF UK
 
Magdalena Paul: Fake news
Magdalena Paul: Fake newsMagdalena Paul: Fake news
Magdalena Paul: Fake newsÚISK FF UK
 
Rudolf Rosa: Milníky umělé inteligence
Rudolf Rosa: Milníky umělé inteligenceRudolf Rosa: Milníky umělé inteligence
Rudolf Rosa: Milníky umělé inteligenceÚISK FF UK
 
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021)
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021) Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021)
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021) ÚISK FF UK
 
Pavel Herout: Datová centra (18. 10. 2021)
Pavel Herout: Datová centra (18. 10. 2021)Pavel Herout: Datová centra (18. 10. 2021)
Pavel Herout: Datová centra (18. 10. 2021)ÚISK FF UK
 
Anna Štičková: Čuchni ke knize
Anna Štičková: Čuchni ke knizeAnna Štičková: Čuchni ke knize
Anna Štičková: Čuchni ke knizeÚISK FF UK
 
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovny
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovnyHana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovny
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovnyÚISK FF UK
 
Open data (Civic Tech)
Open data (Civic Tech) Open data (Civic Tech)
Open data (Civic Tech) ÚISK FF UK
 
Vojtěch Ripka: Taking Mediality Seriously
Vojtěch Ripka: Taking Mediality SeriouslyVojtěch Ripka: Taking Mediality Seriously
Vojtěch Ripka: Taking Mediality SeriouslyÚISK FF UK
 
Tereza Simandlová: Open science v prostředí akademických knihoven: nová výzva...
Tereza Simandlová: Open science v prostředí akademických knihoven: nová výzva...Tereza Simandlová: Open science v prostředí akademických knihoven: nová výzva...
Tereza Simandlová: Open science v prostředí akademických knihoven: nová výzva...ÚISK FF UK
 
Anna Hejlkova: Reprezentace historie ve videohrách: případová studie hry “Ki...
Anna Hejlkova:  Reprezentace historie ve videohrách: případová studie hry “Ki...Anna Hejlkova:  Reprezentace historie ve videohrách: případová studie hry “Ki...
Anna Hejlkova: Reprezentace historie ve videohrách: případová studie hry “Ki...ÚISK FF UK
 
Sven Ubik: Distanční spolupráce v živé kultuře
Sven Ubik: Distanční spolupráce v živé kultuřeSven Ubik: Distanční spolupráce v živé kultuře
Sven Ubik: Distanční spolupráce v živé kultuřeÚISK FF UK
 

More from ÚISK FF UK (20)

Iva Horová: Sto let pokusů o vybudování národního zvukového archivu
Iva Horová: Sto let pokusů o vybudování národního zvukového archivuIva Horová: Sto let pokusů o vybudování národního zvukového archivu
Iva Horová: Sto let pokusů o vybudování národního zvukového archivu
 
Andrea Jelínková: Knihovědní detektivové
Andrea Jelínková: Knihovědní detektivovéAndrea Jelínková: Knihovědní detektivové
Andrea Jelínková: Knihovědní detektivové
 
Martina Košanová: Vizuální smog v knihovnách
Martina Košanová: Vizuální smog v knihovnáchMartina Košanová: Vizuální smog v knihovnách
Martina Košanová: Vizuální smog v knihovnách
 
Jana Šeblová: Samizdatová literatura a hudební publicistika
Jana Šeblová: Samizdatová literatura a hudební publicistikaJana Šeblová: Samizdatová literatura a hudební publicistika
Jana Šeblová: Samizdatová literatura a hudební publicistika
 
Jiří Nechvátal: Projekt Obálkyknih.cz
Jiří Nechvátal: Projekt Obálkyknih.czJiří Nechvátal: Projekt Obálkyknih.cz
Jiří Nechvátal: Projekt Obálkyknih.cz
 
Jak na video?
Jak na video? Jak na video?
Jak na video?
 
Marie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autoritMarie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autorit
 
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?
 
Anna Hoťová: Školní knihovny
Anna Hoťová: Školní knihovnyAnna Hoťová: Školní knihovny
Anna Hoťová: Školní knihovny
 
Magdalena Paul: Fake news
Magdalena Paul: Fake newsMagdalena Paul: Fake news
Magdalena Paul: Fake news
 
Rudolf Rosa: Milníky umělé inteligence
Rudolf Rosa: Milníky umělé inteligenceRudolf Rosa: Milníky umělé inteligence
Rudolf Rosa: Milníky umělé inteligence
 
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021)
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021) Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021)
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021)
 
Pavel Herout: Datová centra (18. 10. 2021)
Pavel Herout: Datová centra (18. 10. 2021)Pavel Herout: Datová centra (18. 10. 2021)
Pavel Herout: Datová centra (18. 10. 2021)
 
Anna Štičková: Čuchni ke knize
Anna Štičková: Čuchni ke knizeAnna Štičková: Čuchni ke knize
Anna Štičková: Čuchni ke knize
 
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovny
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovnyHana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovny
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovny
 
Open data (Civic Tech)
Open data (Civic Tech) Open data (Civic Tech)
Open data (Civic Tech)
 
Vojtěch Ripka: Taking Mediality Seriously
Vojtěch Ripka: Taking Mediality SeriouslyVojtěch Ripka: Taking Mediality Seriously
Vojtěch Ripka: Taking Mediality Seriously
 
Tereza Simandlová: Open science v prostředí akademických knihoven: nová výzva...
Tereza Simandlová: Open science v prostředí akademických knihoven: nová výzva...Tereza Simandlová: Open science v prostředí akademických knihoven: nová výzva...
Tereza Simandlová: Open science v prostředí akademických knihoven: nová výzva...
 
Anna Hejlkova: Reprezentace historie ve videohrách: případová studie hry “Ki...
Anna Hejlkova:  Reprezentace historie ve videohrách: případová studie hry “Ki...Anna Hejlkova:  Reprezentace historie ve videohrách: případová studie hry “Ki...
Anna Hejlkova: Reprezentace historie ve videohrách: případová studie hry “Ki...
 
Sven Ubik: Distanční spolupráce v živé kultuře
Sven Ubik: Distanční spolupráce v živé kultuřeSven Ubik: Distanční spolupráce v živé kultuře
Sven Ubik: Distanční spolupráce v živé kultuře
 

Radim Hladík: Úvod do slovních vektorů pro humanitní a sociální vědce

  • 1. / Radim Hladík  Filoso cký ústav Akademie věd ČR, v. v. i.  Česká asociace pro digitální humanitní vědy  hladik@ u.cas.cz  @hlageek  (Jinonické) Informační pondělky  FF UK  2. března 2020  ffuk Úvod do slovních vektorů pro humanitní a sociální vědce
  • 2. / Plán prezentace 1. Úvod do počítačového čtení 2. "Vnoření" slov a slovní vektory 3. Reality TV a zostuzování na sociálních sítích 4. Příklad analýzy komunikace na Facebooku s využítím slovních vektorů
  • 4. / "Skákal pes přes oves." Jak zpracovat tuto větu počítačem? skákat pes přes oves lemmatizace (převedení na základní tvar) přes 1 pes 1 oves 1 skákat 1 spočítat slova podle metody přezdívané "pytel slov" (nezáleží nám pořadí) Zpracování přirozeného jazyka
  • 6. / skákat pes přes oves píseň A 1 1 1 1 Řádky jsou "dokumenty", sloupce jsou "termy" (slova). "Skákal pes přes oves." kočka lézt díra pes okno píseň B 1 1 1 2 2 "Kočka leze dírou, pes oknem, pes oknem." Jožin z bažina močál plížit se píseň C 1 1 1 1 1 1 "Jožin z bažin močálem se plíží." Dokument-termová matice
  • 7. / Dokument-termová matice skákat pes přes oves kočka lézt díra okno Jožin z bažina močál plížit se píseň A 1 1 1 1 0 0 0 0 0 0 0 0 0 0 píseň B 0 2 0 0 1 1 1 2 0 0 0 0 0 0 píseň C 0 0 0 0 0 0 0 0 1 1 1 1 1 1 mnoho rozměrů!
  • 8. / term (slovo) píseň A píseň B píseň C skákat 1 0 0 pes 1 2 0 přes 1 0 0 oves 1 0 0 kočka 0 1 0 lézt 0 1 0 díra 0 1 0 okno 0 2 0 Jožin 0 0 1 z 0 0 1 bažina 0 0 1 močál 0 0 1 plížit 0 0 1 se 0 0 1 Co se počítač naučil? "pes" je něco jako "okno" "skákat", "přes", "oves" jsou synonyma ale také už začíná tušit, že "kočka" má k "pes" blíž než k "bažina" Velká data jsou potřebná! Při dostatečně velkém počtu zpracovaných dokumentů se vektory významově příbuzných slov začnou vzájemně Term-dokumentová matice
  • 9. / "Vnoření" slov a slovní vektory
  • 10. / Vnoření slov, anglicky "word embedding", je technika číselné reprezentace jazyka, která dokáže nejen zachytit význam slov, ale také provádění vektorových operací se slovy. Algoritmus word2vec vyvinul český informatik, Tomáš Mikolov (*1982). Vnoření slov Zdroj: https://www.nfneuron.cz/person/tomas-mikolov http://www. t.vutbr.cz/~imikolov/rnnlm/thesis.pdf
  • 11. / doprava -0.046143 -0.067318 0.1498 0.22441 0.57443 0.0011836 0.45132 0.4257 0.069012 vyskytuje -0.54406 -0.27973 0.36249 0.14213 -0.010687 -0.12796 0.32648 0.34028 -0.79189 začíná -0.24223 -0.096392 0.38603 0.32804 0.048946 0.2903 0.39673 0.42556 -0.52009 budovy 0.23301 -0.40142 0.15148 -0.061427 0.27053 -0.20634 0.24459 0.046638 0.0064414 prostor -0.32551 -0.54198 0.41115 0.019167 0.10398 0.13452 0.11216 -0.10147 0.14465 dochází -0.22545 -0.14227 0.595 0.54857 0.065006 0.34605 0.43611 0.10809 -0.43822 správce -0.24079 -0.30575 -0.37093 0.1946 0.099271 -0.5291 0.55343 -0.12407 0.50548 okresu 0.55204 -0.57762 0.35748 0.08272 -0.01168 0.33997 0.18882 -0.13696 -0.20848 jmenován 0.31081 -0.41644 -0.39842 0.027425 0.20767 0.18164 0.01942 -0.023808 -0.27175 situace 0.18886 -0.017709 0.46432 -0.33836 0.10757 0.019564 0.31287 0.21401 0.014067 slovní vektory získané díky algoritmu "fasttext" natrénované na datech z Wikipedie zveřejněné Facebookem pouze 10 dimenzí ze 300 Příklad slovních vektorů
  • 12. / počítač se snaží uhodnout slovo na základě daných předcházejících a následujících slov počítač se snaží uhodnout předcházejících a následujících slov na základě daného slova Jak se vnoření slov trénuje x x Zdroj: D. Steinbergr. Diplomová práce: https://dspace5.zcu.cz/bitstream/11025/23695/1/D.Steinberg
  • 13. / Skákal pes přes oves přes zelenou louku šel za ním myslivec péro na klobouku. Pejsku náš, co děláš žes tak vesel stále? Řek bych vám, nevím sám hop, a skákal dále. počítač se snaží uhodnout slovo na základě daných předcházejících a následujících slov počítač se snaží uhodnout předcházejících a následujících slov na základě daného slova pohyblivé okno zohledňuje kontext a syntax Skákal pes přes oves přes zelenou louku šel za ním myslivec péro na klobouku. Pejsku náš, co děláš žes tak vesel stále? Řek bych vám, nevím sám hop, a skákal dále. Skákal pes přes oves přes zelenou louku šel za ním myslivec péro na klobouku. Pejsku náš, co děláš žes tak vesel stále? Řek bych vám, nevím sám hop, a skákal dále. Jak se vnoření slov trénuje x x Zdroj: D. Steinbergr. Diplomová práce: https://dspace5.zcu.cz/bitstream/11025/23695/1/D.Steinberg
  • 15. / Počítání se slovy - napříč časem lze zachytit i vývoj významu slov v čase výzkum de noval dva zákony významové změny (slova s vysokou frekvencí jsou stabilnější, vícevýznamová slova mění význam rychleji)Zdroj: https://nlp.stanford.edu/projects/histwords/
  • 16. / Počítání se slovy - napříč jazyky po zarovnání slovních vektorů z různých jazyků se překladová slova navzájem přiblíží Zdroj: https://www.samtalksml.net/aligning-vector- representations/
  • 17. / Počítání se slovy - příklad zarovnání vektorů tři sady vektorů před zarovnáním
  • 18. / Počítání se slovy - příklad zarovnání vektorů tři sady vektorů po zarovnání
  • 19. / 3D vizualizace https://projector.tensor ow.org/ Sémantický prostor českých médií http://www.mapamedii.cz/ Slovní vektory - příklady
  • 20. / Zostuzování na sociálních sítích a Reality TV výzkum ve spolupráci s Mgr. Markétou Štechovou (Fakulta sociálních věd Univerzity Karlovy)
  • 21. / tzv. “démotický obrat” znamená, že televizní obsah reprezentuje více zástupců z neelitních vrstev společnosti významný podíl na této změně měl nástup žánru Reality TV výzkumy ze západní a severní Evropy ukazují, že členové z nižších vrstev se však často stávají předmětem zesměšňování či kontroverzí média rozdíly ve společenském postavení vyjadřují prostřednictvím rozdílů v kulturním vkusu nebo životním stylu Reality TV a sociální nerovnosti
  • 22. / britská Reality TV show vznikla v roce 2003 (vysílána 7 let) licenci pro český trh získala TV Nova v roce 2005 do roku 2018 odvysílala 10 řad premisou pořadu je výměna domácností dvou manželek Výměna manželek
  • 23. / základní dramatický náboj pořadu dodává volba rodin s různým sociálním pozadím, např. město X venkov nezaměstnaný X nižší střední třída etnický Čech X etnický Róm jedno dítě X mnoho dětí britští badatelé pořad kritizovali za "středostavovský pohled" a "spektákl chudoby" dělnická třída jako odstrašující příklad jinakosti odrazový můstek pro výměnu politických názorů Výměna manželek
  • 24. / Shaming neboli zostuzování stud = individuální emoce zostuzování = vynucování společenských norem pomocí vytváření negativního kolektivního sentimentu a veřejné identi kace provinilce ne vždy nežádoucí jev (např. v politice)
  • 25. / Zostuzování na sociálních sítích sociální média rozšířila pole pro zostuzování viralita dějiště příbuzných jevů (kyberšikana, pornogra e z pomsty, doxing)
  • 26. / Zostuzování chudoby v Reality TV Existuje spojitost mezi zostuzovacím chováním na sociálních sítích a způsobem, jakým je prezentována chudoba v pořadu Výměna manželek? rozlišit negativní o ostatní (pozitivní či neutrální) příspěvky porovnat vektory "studu" v negativních a ostatních příspěvcích
  • 27. / Příklad analýzy komunikace na Facebooku s využítím slovních vektorů
  • 28. / facebooková stránka pořadu příspěvky všeho druhu za 5 let od ledna 2012 do března 2017 oznámení (1273) komentáře (26383) odpovědi (28459) Data
  • 29. / Analýza sentimentu dostupné nástroje pro češtinu nefungovaly příliš dobře vytvořili jsme učebnici 1300 ručně označených příspěvků s pomocí strojového učení jsme vyvinuli vlastní klasi kátor počty slov, počty slov evidovaných v sentimentovém lexikonu, zápory, jednotlivá slova a slovní spojení dvou slov Měřítko Hodnota Správnost 0.69 Senzitivita (úplnost) 0.51 Přesnost 0.77 Roztřídění příspěvků podle sentimentu
  • 30. / Sentiment podle typu příspěvku a času
  • 31. / Vektor "studu" = Kombinace slov "ostuda", "stydet", "hanba", "hamba Slovo Kosínová podobnost hanba 0.7999985 ostuda 0.7896267 hamba 0.6991059 sranda 0.5989249 blba 0.5721486 blbost 0.5703546 hloupost 0.5699992 blbce 0.5695691 todle 0.5621853 hovadina 0.5552371 Korelace mezi vektorem "studu" a vektorem 100 nejčastějších slov v prostoru negativních a ostatních příspěvků Vektor "studu"
  • 32. / Předběžné výsledky vykastrovat drama primitiva navrch kym kalhotky chytra vykat jest mym ztrapnit nes tak druhych prach timhle nemas stejno ostuda chudoba divim neu chodba dement narvat list akorat senzace humac binec ondra status blba nevis spiny vizitka zviditelnit ditka hout nebrat natoz dobrovolne buzna prachy oba kompenzovat starej prdele delat pras jedny krysa kost hrdy nemam poprat delo chud povinny novu socky byt bordel naroda spine muzy dulezita schopny uklidit zout tam rika dobytek jakto hruza hat demence cesko trouba hnus spin takovy prase cuza kurna zametat leza vubec prihlasit celebrita jin nevidel horsi humus takovouhle hube anet nejvetsi spina celym
  • 33. / Závěr Co si z přednášky pamatovat? počítání slov v dokumentech je základní technika pro zpracování přirozeného jazyka počátačem pokročilé metody jsou postaveny na modelech, které berou v potaz kontext užítí slov reprezentace slov hustými vektory výrazně posunuly možnosti automatizované práce s textem a lepší mapování významu příklad významových posunů používaných při zostuzování na sociálních sítích ukazuje, že média společenské rozdíly redukují na rozdíly v životních stylech - a diváci diskutující na sociálních sítích na tuto hru, zdá se, přistupují chovejme se na sociálních sítích eticky