Information extraction can be based on a method of distributional vector space embedding of words and phrases. Embedding assumes that words and phrases are represented as dense real-valued vectors, and it is designed to satisfy the distributional hypothesis: words and phrases that occur in similar contexts tend to have similar meanings, and therefore they should have vectors which are close to each other in a vector space. In this speech we will show you how we manage to extract phrases using Pointwise Mutual Information and then learned word and phrase vectors, using as a training corpora set of business articles, job vacancies and employee resumes.
Geospatial Analysis and Open Data - Forest and Climate
Semi-supervised information extraction in semantical vector space - Jelena Milovanovic
1. Ugradjivanje reči i fraza u vektorske
prostore i polu-nadgledano otkrivanje
semantičkih sličnosti
Jelena Milovanović , asistent u istraživanju
Istraživačko razvojni institut NIRI
10. Uvod: Metod polu-nadgledanogUvod: Metod polu-nadgledanog
dobijanja informacijadobijanja informacija
Pedloženi metod sastoji se iz dva osnovna
koraka i koristi:
● Grupu modela poznatu pod skraćenicom
Word2Vec za ugrađivanje reči i fraza u
vektorske prostore
● Hijerarhijsko aglomerativno klasterovanje za
dobijanje informacija
11. ● Jedan-od reprezentacija reči (One-hot)
House [0 0 0...0 1 0...0 0 0 0 0 0 0 0 0 ]
Cottage [0 1 0...0 0 0...0 0 0 0 0 0 0 0 0 ]
Moon [0 0 0...0 0 0...0 0 0 0 0 0 0 0 1 ]
Vektorska reprezentacija rečiVektorska reprezentacija reči
12. ● Jedan-od reprezentacija reči (One-hot)
House [0 0 0...0 1 0...0 0 0 0 0 0 0 0 0 ]
Cottage [0 1 0...0 0 0...0 0 0 0 0 0 0 0 0 ]
Moon [0 0 0...0 0 0...0 0 0 0 0 0 0 0 1 ]
Vektorska reprezentacija rečiVektorska reprezentacija reči
I live in the house I live in the ?
15. Word2Vec modeliWord2Vec modeli
Distribuirana reprezentacija rečiDistribuirana reprezentacija reči
Cottage [0,34 1,43 -6,8...0.5 ]
House [0,38 1,52 -6,8...0.5 ]
Music[7,45 4,78... -8,7 4,5 ]
Cottage
DOG
Moon
Sun
House
16. Distributivna hipoteza:
Reči i fraze koje se javljaju u istim kontekstima
teže da imaju isto značenje
Fert, 1957
Word2Vec modeliWord2Vec modeli::
Distributivna hipotezaDistributivna hipoteza
17. Word2Vec modeliWord2Vec modeli::
Distributivna hipotezaDistributivna hipoteza
I have built a house for my family.
I have built a cottage for my family.
It takes the Moon 28 days to make a complete orbit of the Earth
29. ● Nenadgledano učenje
● Za treniranje se koriste tekstualni dokumenti koji se
sastoji od reči i fraza
● Radi sa velikim korpusima
● Vektori semantički sličnih reči nalaze se u blizini
● Dobijeni vektorski prostor sadrži sintaksne i
semantičke relacije koje su uslovljene relativnim
položajem vektora
Word2Vec modeliWord2Vec modeli::
KarakteristikeKarakteristike
30. Uvod:Uvod: Obrada podatakaObrada podataka
● Polu-nadgledano dobijanje informacija
● Upit se sastoji od poznatih termina koje
nazivamo semenima
● Cilj: Izdvajanje termina koji imaju slično
semantičko značenje kao i semena
31. Uvod:Uvod: Obrada podatakaObrada podataka
● Korišćen algoritam hijerarhijskog
aglomerativnog klasterovanja
● Reči i fraze predstavljene listovima
● Odsecanje stabla u u čvoru koji je
semenima najbliži zajednički predak
● Dobijeni klasteri pored semena sadrže reči
i fraze semantički slične semenima
32. OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži
zajednički predak semenimazajednički predak semenima
OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži
zajednički predak semenimazajednički predak semenima
33. OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži
zajednički predak semenimazajednički predak semenima
34. OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži
zajednički predak semenimazajednički predak semenima
35. ● Luxemburg
● Estonia
● Sloavakia
● Croatia
● Latvia
● Lithuania
● Slovenia
● Belgium
● Denmark
● Netherlands
● Switzerland
OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži
zajednički predak semenimazajednički predak semenima
36. Proces dobijanjaProces dobijanja
informacijainformacija
1. Prikupljanje dokumentata
2. Procesiranje korpusa (izbacivanje znakova
interpunkcije)
3. Detekcija fraza
4. Treniranje Word2Vec modela
5. Aglomerativno hijerarhijsko klasterovanje
dobijenih vektora
6. Odsecanje stabla pomoću semena i dobijanje
podataka
37. Detekcija frazaDetekcija fraza
● Kao mera povezanosti reči koristi se uzajamno
pojavljivanje tačaka (eng. Pointwise MutualPointwise Mutual
InformationInformation)
● PMI je jedinica povezanosti dva događaja i
dobija se
38. Detekcija frazaDetekcija fraza
● Kao mera povezanosti reči koristi se uzajamno
pojavljivanje tačaka (eng. Pointwise MutualPointwise Mutual
InformationInformation)
● PMI je jedinica povezanosti dva događaja i
dobija se
39. Detekcija frazaDetekcija fraza
● Kao mera povezanosti reči koristi se uzajamno
pojavljivanje tačaka (eng. Pointwise MutualPointwise Mutual
InformationInformation)
● PMI je jedinica povezanosti dva događaja i
dobija se
● Dužina fraza uslovljena je brojem iteracija
43. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
● Model kontinualne grupe (vreće) reči
● Opisuje kako neuronska mreža uči
vektorske reprezentacije reči
44. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
45. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
46. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
47. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
65. Word2Vec modeli : OptimizacijaWord2Vec modeli : Optimizacija
● Hijerarhijski sloj izlaznih neurona (eng.
Hierarchical softmax)
● Uzimanje negativnih uzoraka (eng. Negative
Sampling)
66. ● Koristi se hijerarhijski sloj umesto softmax
sloja
● Reči se predstavljaju binarnim stablom gde
je broj listova jednak dužini rečnika
● Svaka reč predstavljna je jednim listom
● Verovatnoća pojavljivanja reči u datom
kontekstu računa se na osnovu puta od
korena do lista kojim je predstavljena
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
69. p (chair | contekst) = p ( skretanje levo u čvoru 1)
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
70. p (chair | contekst) = p ( skretanje levo u čvoru 1) * p ( skretanje levo u čvoru 2)
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
71. p (chair | contekst) = p ( skretanje levo u čvoru 1) * p (skretanja levo u čvoru 2) *
* p (skretanja desno u čvoru 4)
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
72. ● Izlazni sloj je sloj sigmoidalnih neurona koji odgovaraju unutrašnjim
čvorovima stabla
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
73. ● Izlazni sloj je sloj sigmoidalnih neurona koji odgovaraju unutrašnjim
čvorovima stabla
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
● Izlaz iz j-tog neurona je verovatnoća grananja u levo u tom čvoru
74. Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
● P(w) skup čvorova na putu od korena do lista
● Verovatnoća grananja u pravcu reči u čvoru j
● Ako se put grana u levo jednaka (izlaz iz j-tog
nerona) u suprotnom
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
●
●
75. Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
● P(w) skup čvorova na putu od korena do lista
● Verovatnoća grananja u pravcu reči u čvoru j
● Ako se put grana u levo jednaka (izlaz iz j-tog
nerona) u suprotnom
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
●
●
77. Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmaxWord2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
● Najbolji rezultati se postižu kada se reči predstavljaju Huffman-ovim stablom
78. Word2Vec modeli:Word2Vec modeli: Negative samplingNegative sampling
● Ne moraju da se koriste neuronske
mreže
● Problem estimacije verovatnoća
posmatra se kao klasifikacioni i rešava
uz pomoć Logističke regresije
79. Word2Vec modeli:Word2Vec modeli: Negative samplingNegative sampling
● D – skup pozitivnih primera(svih parova (reč,kontekst) koji
su se javili u korpusu)
● D' – skup negativnih primera(svih parova (reč,kontekst)
koji se nisu javili u korpusu)
● Cilj da dobijemo klasifikator koji dodeljuje labelu Z = 1 (par
pripada skupu D) ili Z = 0 (ne pripada skupu D)
●
●
80. Word2Vec modeli:Word2Vec modeli: Negative samplingNegative sampling
& CBOW& CBOW
●
● ( , ) - trening primer
● - skup negativnih primera generisanih na
●
osnovu raspodele P(w) =
| | | = k ( 2 < k < 5 V 15 < k < 20)
83. Testovi analogijskog povezivanja
germany : berlin = france : paris
germany : berlin = france : ?
Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta
vektoravektora
84. Testovi analogijskog povezivanja
vec(paris) - vec (france) ≈ vec (germany) – vec (berlin)
germany : berlin = france : paris
germany : berlin = france : ?
Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta
vektoravektora
85. Testovi analogijskog povezivanja
germany : berlin = france : paris
germany : berlin = france : x
vec(paris) - vec (france) ≈ vec (germany) – vec (berlin)
vec(x) ≈ vec (germany) – vec (berlin) + vec (france)
Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta
vektoravektora
86. Testovi analogijskog povezivanja
germany : berlin = france : paris
germany : berlin = france : x
vec(paris) - vec (france) ≈ vec (germany) – vec (berlin)
vec(x) ≈ vec (germany) – vec (berlin) + vec (france)
x = paris ✔
Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta
vektoravektora
96. Obrada podatakaObrada podataka
● Hijerarhijsko aglomerativno klasterovanje
● Problem:
Složenost izračunavanja i memorijskih zahteva
97. Obrada podatakaObrada podataka
● Hijerarhijsko aglomerativno klasterovanje
● Problem:
Složenost izračunavanja i memorijskih zahteva
● Ne može se koristiti standardni algoritam za
klasterovanje rečnika koji sadrže više od 30 000 reči
99. Obrada podataka:Obrada podataka:
Hibridni algoritamHibridni algoritam
● Hibridni algoritam
Kombinuje:
A) Metod sredjih vrednosti (eng. K-means)
B) Hijerarhijsko aglomerativno klasterovanje
107. Dobijanje informacijaDobijanje informacija
● Iz stabla se podaci dobijaju polu-nadgledano
● Sečenje stabla u najbližem zajedničkom pretku
● Dobijaju se klasteri koji sadrže semena i njima semantički
slične termine
108. ZaključakZaključak
● Metod se može koristiti za izdvajanje sličnih termina
● Za izdvajanje isith termina neophodna je kontrola od
strane korisnika
111. Zaključak:Zaključak: Vektorski prostoriVektorski prostori
● Korišćenjem različitih mera za upoređivanje
vektora otkrivaju se različite sličnosti između reči
● Za otkrivanje semantičkih sličnosti potrebno je
detaljno istražitivanje prostora pa čak i
unapređenje prostora i prilagođavanje
konkretnom zahtevu korisnika