Prezentace k přednášce v předmětu Informační pondělky ze dne 2. 3. 2020. Více informací o cyklu přednášek naleznete na: https://uisk.ff.cuni.cz/cs/pro-verejnost/informacni-pondelky/
Radim Hladík: Úvod do slovních vektorů pro humanitní a sociální vědce
1. /
Radim Hladík
Filoso cký ústav Akademie věd ČR, v. v. i.
Česká asociace pro digitální humanitní vědy
hladik@ u.cas.cz
@hlageek
(Jinonické) Informační pondělky
FF UK
2. března 2020
ffuk
Úvod do slovních vektorů
pro humanitní a sociální vědce
2. /
Plán prezentace
1. Úvod do počítačového čtení
2. "Vnoření" slov a slovní vektory
3. Reality TV a zostuzování na sociálních sítích
4. Příklad analýzy komunikace na Facebooku s využítím
slovních vektorů
4. /
"Skákal pes přes oves." Jak zpracovat tuto větu
počítačem?
skákat pes přes oves
lemmatizace
(převedení na
základní tvar)
přes 1
pes 1
oves 1
skákat 1 spočítat slova podle
metody přezdívané
"pytel slov" (nezáleží
nám pořadí)
Zpracování přirozeného jazyka
6. /
skákat pes přes oves
píseň A 1 1 1 1
Řádky jsou "dokumenty",
sloupce jsou "termy"
(slova).
"Skákal pes přes oves."
kočka lézt díra pes okno
píseň B 1 1 1 2 2 "Kočka leze dírou, pes
oknem, pes oknem."
Jožin z bažina močál plížit se
píseň C 1 1 1 1 1 1
"Jožin z bažin močálem se
plíží."
Dokument-termová matice
7. /
Dokument-termová matice
skákat pes přes oves kočka lézt díra okno Jožin z bažina močál plížit se
píseň
A
1 1 1 1 0 0 0 0 0 0 0 0 0 0
píseň
B
0 2 0 0 1 1 1 2 0 0 0 0 0 0
píseň
C
0 0 0 0 0 0 0 0 1 1 1 1 1 1
mnoho rozměrů!
8. /
term (slovo) píseň A píseň B píseň C
skákat 1 0 0
pes 1 2 0
přes 1 0 0
oves 1 0 0
kočka 0 1 0
lézt 0 1 0
díra 0 1 0
okno 0 2 0
Jožin 0 0 1
z 0 0 1
bažina 0 0 1
močál 0 0 1
plížit 0 0 1
se 0 0 1
Co se počítač naučil?
"pes" je něco jako "okno"
"skákat", "přes", "oves" jsou
synonyma
ale také už začíná tušit, že
"kočka" má k "pes" blíž než k
"bažina"
Velká data jsou potřebná!
Při dostatečně velkém počtu
zpracovaných dokumentů se
vektory významově příbuzných
slov začnou vzájemně
Term-dokumentová matice
10. /
Vnoření slov, anglicky "word
embedding", je technika číselné
reprezentace jazyka, která dokáže
nejen zachytit význam slov, ale také
provádění vektorových operací se
slovy.
Algoritmus word2vec vyvinul český
informatik, Tomáš Mikolov (*1982).
Vnoření slov
Zdroj: https://www.nfneuron.cz/person/tomas-mikolov
http://www. t.vutbr.cz/~imikolov/rnnlm/thesis.pdf
11. /
doprava -0.046143 -0.067318 0.1498 0.22441 0.57443 0.0011836 0.45132 0.4257 0.069012
vyskytuje -0.54406 -0.27973 0.36249 0.14213 -0.010687 -0.12796 0.32648 0.34028 -0.79189
začíná -0.24223 -0.096392 0.38603 0.32804 0.048946 0.2903 0.39673 0.42556 -0.52009
budovy 0.23301 -0.40142 0.15148 -0.061427 0.27053 -0.20634 0.24459 0.046638 0.0064414
prostor -0.32551 -0.54198 0.41115 0.019167 0.10398 0.13452 0.11216 -0.10147 0.14465
dochází -0.22545 -0.14227 0.595 0.54857 0.065006 0.34605 0.43611 0.10809 -0.43822
správce -0.24079 -0.30575 -0.37093 0.1946 0.099271 -0.5291 0.55343 -0.12407 0.50548
okresu 0.55204 -0.57762 0.35748 0.08272 -0.01168 0.33997 0.18882 -0.13696 -0.20848
jmenován 0.31081 -0.41644 -0.39842 0.027425 0.20767 0.18164 0.01942 -0.023808 -0.27175
situace 0.18886 -0.017709 0.46432 -0.33836 0.10757 0.019564 0.31287 0.21401 0.014067
slovní vektory získané díky
algoritmu "fasttext"
natrénované na datech z
Wikipedie
zveřejněné Facebookem
pouze 10 dimenzí ze 300
Příklad slovních vektorů
12. /
počítač se snaží uhodnout slovo
na základě daných
předcházejících a následujících
slov
počítač se snaží uhodnout
předcházejících a následujících
slov na základě daného slova
Jak se vnoření slov trénuje
x
x
Zdroj: D. Steinbergr. Diplomová práce:
https://dspace5.zcu.cz/bitstream/11025/23695/1/D.Steinberg
13. /
Skákal pes přes oves přes zelenou louku šel za ním myslivec
péro na klobouku. Pejsku náš, co děláš žes tak vesel stále?
Řek bych vám, nevím sám hop, a skákal dále.
počítač se snaží uhodnout slovo
na základě daných
předcházejících a následujících
slov
počítač se snaží uhodnout
předcházejících a následujících
slov na základě daného slova
pohyblivé okno
zohledňuje kontext a syntax
Skákal pes přes oves přes zelenou louku šel za ním myslivec
péro na klobouku. Pejsku náš, co děláš žes tak vesel stále?
Řek bych vám, nevím sám hop, a skákal dále.
Skákal pes přes oves přes zelenou louku šel za ním myslivec
péro na klobouku. Pejsku náš, co děláš žes tak vesel stále?
Řek bych vám, nevím sám hop, a skákal dále.
Jak se vnoření slov trénuje
x
x
Zdroj: D. Steinbergr. Diplomová práce:
https://dspace5.zcu.cz/bitstream/11025/23695/1/D.Steinberg
15. /
Počítání se slovy - napříč časem
lze zachytit i vývoj významu slov v čase
výzkum de noval dva zákony významové změny (slova s vysokou frekvencí
jsou stabilnější, vícevýznamová slova mění význam rychleji)Zdroj: https://nlp.stanford.edu/projects/histwords/
16. /
Počítání se slovy - napříč jazyky
po zarovnání slovních vektorů z různých jazyků se překladová slova navzájem
přiblíží Zdroj: https://www.samtalksml.net/aligning-vector-
representations/
17. /
Počítání se slovy - příklad zarovnání vektorů
tři sady vektorů před zarovnáním
18. /
Počítání se slovy - příklad zarovnání vektorů
tři sady vektorů po zarovnání
20. /
Zostuzování na sociálních sítích a Reality TV
výzkum ve spolupráci s Mgr. Markétou Štechovou
(Fakulta sociálních věd Univerzity Karlovy)
21. /
tzv. “démotický obrat” znamená, že televizní obsah
reprezentuje více zástupců z neelitních vrstev společnosti
významný podíl na této změně měl nástup žánru Reality
TV
výzkumy ze západní a severní Evropy ukazují, že členové z
nižších vrstev se však často stávají předmětem
zesměšňování či kontroverzí
média rozdíly ve společenském postavení vyjadřují
prostřednictvím rozdílů v kulturním vkusu nebo životním
stylu
Reality TV a sociální nerovnosti
22. /
britská Reality TV show
vznikla v roce 2003 (vysílána
7 let)
licenci pro český trh získala
TV Nova v roce 2005
do roku 2018 odvysílala 10
řad
premisou pořadu je výměna
domácností dvou manželek
Výměna manželek
23. /
základní dramatický náboj pořadu dodává volba rodin s
různým sociálním pozadím, např.
město X venkov
nezaměstnaný X nižší střední třída
etnický Čech X etnický Róm
jedno dítě X mnoho dětí
britští badatelé pořad kritizovali za "středostavovský
pohled" a "spektákl chudoby"
dělnická třída jako odstrašující příklad jinakosti
odrazový můstek pro výměnu politických názorů
Výměna manželek
24. /
Shaming neboli zostuzování
stud = individuální emoce
zostuzování = vynucování společenských norem pomocí
vytváření negativního kolektivního sentimentu a veřejné
identi kace provinilce
ne vždy nežádoucí jev (např. v politice)
25. /
Zostuzování na sociálních sítích
sociální média rozšířila pole pro zostuzování
viralita
dějiště příbuzných jevů (kyberšikana, pornogra e z pomsty,
doxing)
26. /
Zostuzování chudoby v Reality TV
Existuje spojitost mezi
zostuzovacím chováním na
sociálních sítích a způsobem, jakým
je prezentována chudoba v pořadu
Výměna manželek?
rozlišit negativní o ostatní (pozitivní či
neutrální) příspěvky
porovnat vektory "studu" v negativních a
ostatních příspěvcích
29. /
Analýza sentimentu
dostupné nástroje pro češtinu
nefungovaly příliš dobře
vytvořili jsme učebnici 1300 ručně
označených příspěvků
s pomocí strojového učení jsme
vyvinuli vlastní klasi kátor
počty slov, počty slov
evidovaných v sentimentovém
lexikonu, zápory, jednotlivá
slova a slovní spojení dvou slov
Měřítko Hodnota
Správnost 0.69
Senzitivita (úplnost) 0.51
Přesnost 0.77
Roztřídění příspěvků podle sentimentu
31. /
Vektor "studu" = Kombinace slov "ostuda", "stydet",
"hanba", "hamba
Slovo Kosínová podobnost
hanba 0.7999985
ostuda 0.7896267
hamba 0.6991059
sranda 0.5989249
blba 0.5721486
blbost 0.5703546
hloupost 0.5699992
blbce 0.5695691
todle 0.5621853
hovadina 0.5552371
Korelace mezi vektorem "studu" a vektorem 100
nejčastějších slov v prostoru negativních a ostatních
příspěvků
Vektor "studu"
32. /
Předběžné výsledky
vykastrovat drama primitiva navrch kym
kalhotky chytra vykat jest mym ztrapnit
nes tak druhych prach timhle nemas
stejno ostuda chudoba divim neu chodba
dement narvat list akorat senzace humac
binec ondra status blba nevis spiny vizitka
zviditelnit ditka hout nebrat natoz
dobrovolne buzna prachy oba
kompenzovat starej prdele delat pras
jedny krysa kost hrdy nemam poprat delo
chud povinny novu socky byt bordel
naroda spine muzy dulezita schopny
uklidit zout tam rika dobytek jakto hruza
hat demence cesko trouba hnus spin
takovy prase cuza kurna zametat leza
vubec prihlasit celebrita jin nevidel horsi
humus takovouhle hube anet nejvetsi
spina celym
33. /
Závěr
Co si z přednášky pamatovat?
počítání slov v dokumentech je základní technika pro zpracování
přirozeného jazyka počátačem
pokročilé metody jsou postaveny na modelech, které berou v potaz kontext
užítí slov
reprezentace slov hustými vektory výrazně posunuly možnosti
automatizované práce s textem a lepší mapování významu
příklad významových posunů používaných při zostuzování na sociálních
sítích ukazuje, že média společenské rozdíly redukují na rozdíly v životních
stylech - a diváci diskutující na sociálních sítích na tuto hru, zdá se,
přistupují
chovejme se na sociálních sítích eticky