SlideShare a Scribd company logo
1 of 112
Download to read offline
Ugradjivanje reči i fraza u vektorske
prostore i polu-nadgledano otkrivanje
semantičkih sličnosti
Jelena Milovanović , asistent u istraživanju
Istraživačko razvojni institut NIRI
cat
dog
PregledPregled
● Uvod
● Detekcija fraza
● Ugradjivanje reči i fraza u vektorske prostore
● Obrada podataka
● Zaključak
● Osvežavanje ontologije poslovnih veština
Uvod:Uvod: PrimenaPrimena
● Osvežavanje ontologije poslovnih veština
● presentional_skills
● comunication_skills
Uvod:Uvod: PrimenaPrimena
● Osvežavanje ontologije poslovnih veština
● presentional_skills
● comunication_skills
● inter_personal_skills
● influencing_skills
● organisational_skills
● problem_solving_skills
● analitical_skills
Uvod:Uvod: PrimenaPrimena
Uvod: Metod polu-nadgledanogUvod: Metod polu-nadgledanog
dobijanja informacijadobijanja informacija
Pedloženi metod sastoji se iz dva osnovna
koraka i koristi:
● Grupu modela poznatu pod skraćenicom
Word2Vec za ugrađivanje reči i fraza u
vektorske prostore
● Hijerarhijsko aglomerativno klasterovanje za
dobijanje informacija
● Jedan-od reprezentacija reči (One-hot)
House [0 0 0...0 1 0...0 0 0 0 0 0 0 0 0 ]
Cottage [0 1 0...0 0 0...0 0 0 0 0 0 0 0 0 ]
Moon [0 0 0...0 0 0...0 0 0 0 0 0 0 0 1 ]
Vektorska reprezentacija rečiVektorska reprezentacija reči
● Jedan-od reprezentacija reči (One-hot)
House [0 0 0...0 1 0...0 0 0 0 0 0 0 0 0 ]
Cottage [0 1 0...0 0 0...0 0 0 0 0 0 0 0 0 ]
Moon [0 0 0...0 0 0...0 0 0 0 0 0 0 0 1 ]
Vektorska reprezentacija rečiVektorska reprezentacija reči
I live in the house I live in the ?
Vektorska reprezentacija rečiVektorska reprezentacija reči
Vektorska reprezentacija rečiVektorska reprezentacija reči
Word2Vec modeliWord2Vec modeli
Distribuirana reprezentacija rečiDistribuirana reprezentacija reči
Cottage [0,34 1,43 -6,8...0.5 ]
House [0,38 1,52 -6,8...0.5 ]
Music[7,45 4,78... -8,7 4,5 ]
Cottage
DOG
Moon
Sun
House
Distributivna hipoteza:
Reči i fraze koje se javljaju u istim kontekstima
teže da imaju isto značenje
Fert, 1957
Word2Vec modeliWord2Vec modeli::
Distributivna hipotezaDistributivna hipoteza
Word2Vec modeliWord2Vec modeli::
Distributivna hipotezaDistributivna hipoteza
I have built a house for my family.
I have built a cottage for my family.
It takes the Moon 28 days to make a complete orbit of the Earth
Word2Vec modeliWord2Vec modeli::
Relacije izmedju vektoraRelacije izmedju vektora
Word2Vec modeliWord2Vec modeli::
Relacije izmedju vektoraRelacije izmedju vektora
Word2Vec modeliWord2Vec modeli::
Relacije izmedju vektoraRelacije izmedju vektora
Word2Vec modeliWord2Vec modeli::
Relacije izmedju vektoraRelacije izmedju vektora
2D projekcija 1000-dimenzionih vektora dobijena metodom glavnih komponenti (eng.
Principal Component analysis)
Word2Vec modeliWord2Vec modeli::
Relacije izmedju vektoraRelacije izmedju vektora
vec(''king'') - vec(''man'') + vec(''woman'') = vec(''queen'')
Word2Vec modeliWord2Vec modeli::
Relacije izmedju vektoraRelacije izmedju vektora
vec(''king'') - vec(''man'') = vec(''queen'') - vec(''woman'')
athens : greece = baghdad : ?
bulgaria : lev = sweden : ?
boy : girl = brother : ?
amazing : amazingly = apparent : ?
acceptable : unacceptable = aware : ?
bad : worse = big : ?
Word2Vec modeliWord2Vec modeli::
Relacije izmedju vektoraRelacije izmedju vektora
Word2Vec modeliWord2Vec modeli::
Relacije izmedju prostoraRelacije izmedju prostora
Word2Vec modeliWord2Vec modeli::
Relacije izmedju prostoraRelacije izmedju prostora
Word2Vec modeliWord2Vec modeli::
KorpusKorpus
● Nenadgledano učenje
● Za treniranje se koriste tekstualni dokumenti koji se
sastoji od reči i fraza
● Radi sa velikim korpusima
● Vektori semantički sličnih reči nalaze se u blizini
● Dobijeni vektorski prostor sadrži sintaksne i
semantičke relacije koje su uslovljene relativnim
položajem vektora
Word2Vec modeliWord2Vec modeli::
KarakteristikeKarakteristike
Uvod:Uvod: Obrada podatakaObrada podataka
● Polu-nadgledano dobijanje informacija
● Upit se sastoji od poznatih termina koje
nazivamo semenima
● Cilj: Izdvajanje termina koji imaju slično
semantičko značenje kao i semena
Uvod:Uvod: Obrada podatakaObrada podataka
● Korišćen algoritam hijerarhijskog
aglomerativnog klasterovanja
● Reči i fraze predstavljene listovima
● Odsecanje stabla u u čvoru koji je
semenima najbliži zajednički predak
● Dobijeni klasteri pored semena sadrže reči
i fraze semantički slične semenima
OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži
zajednički predak semenimazajednički predak semenima
OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži
zajednički predak semenimazajednički predak semenima
OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži
zajednički predak semenimazajednički predak semenima
OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži
zajednički predak semenimazajednički predak semenima
● Luxemburg
● Estonia
● Sloavakia
● Croatia
● Latvia
● Lithuania
● Slovenia
● Belgium
● Denmark
● Netherlands
● Switzerland
OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži
zajednički predak semenimazajednički predak semenima
Proces dobijanjaProces dobijanja
informacijainformacija
1. Prikupljanje dokumentata
2. Procesiranje korpusa (izbacivanje znakova
interpunkcije)
3. Detekcija fraza
4. Treniranje Word2Vec modela
5. Aglomerativno hijerarhijsko klasterovanje
dobijenih vektora
6. Odsecanje stabla pomoću semena i dobijanje
podataka
Detekcija frazaDetekcija fraza
● Kao mera povezanosti reči koristi se uzajamno
pojavljivanje tačaka (eng. Pointwise MutualPointwise Mutual
InformationInformation)
● PMI je jedinica povezanosti dva događaja i
dobija se
Detekcija frazaDetekcija fraza
● Kao mera povezanosti reči koristi se uzajamno
pojavljivanje tačaka (eng. Pointwise MutualPointwise Mutual
InformationInformation)
● PMI je jedinica povezanosti dva događaja i
dobija se
Detekcija frazaDetekcija fraza
● Kao mera povezanosti reči koristi se uzajamno
pojavljivanje tačaka (eng. Pointwise MutualPointwise Mutual
InformationInformation)
● PMI je jedinica povezanosti dva događaja i
dobija se
● Dužina fraza uslovljena je brojem iteracija
Detekcija frazaDetekcija fraza
● working_class
● french_revolution
● should_be
● google_maps
● adobe_photoshop
● classical_guitar
● kennedy_space_center
● artificial_intelligence_laboratory
● american_central_intelligence_agency
● british_prime_minister_winston_churchill
Word2Vec modeliWord2Vec modeli
● Model Kontinualne grupe reči (eng.
Continuous bag of words - CBOW)
● Model preskakanja reči (eng. Skip-gram)
Word2Vec modeliWord2Vec modeli
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
● Model kontinualne grupe (vreće) reči
● Opisuje kako neuronska mreža uči
vektorske reprezentacije reči
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
● Linearna
aktivaciona
funkcija
skrivenog sloja
● Softmax sloj
izlaznih neurona
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kriterijumska funkcijaKriterijumska funkcija
Word2Vec modeli :Word2Vec modeli :
Stohastički gradijentni spustStohastički gradijentni spust
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Kontekst dužine 1Kontekst dužine 1
Tehnika propagiranja greškeTehnika propagiranja greške
u nazadu nazad
wki w'ki
Tehnika propagiranja greškeTehnika propagiranja greške
unazadunazad
Tehnika propagiranja greškeTehnika propagiranja greške
unazadunazad
Tehnika propagiranja greškeTehnika propagiranja greške
unazadunazad
Tehnika propagiranja greškeTehnika propagiranja greške
unazadunazad
Tehnika propagiranja greškeTehnika propagiranja greške
unazadunazad
v
v'V
Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
Word2Vec modeli : Skip-gramWord2Vec modeli : Skip-gram
Word2Vec modeli : Skip-gramWord2Vec modeli : Skip-gram
Word2Vec modeli : Skip-gramWord2Vec modeli : Skip-gram
Word2Vec modeli : OptimizacijaWord2Vec modeli : Optimizacija
● Hijerarhijski sloj izlaznih neurona (eng.
Hierarchical softmax)
● Uzimanje negativnih uzoraka (eng. Negative
Sampling)
● Koristi se hijerarhijski sloj umesto softmax
sloja
● Reči se predstavljaju binarnim stablom gde
je broj listova jednak dužini rečnika
● Svaka reč predstavljna je jednim listom
● Verovatnoća pojavljivanja reči u datom
kontekstu računa se na osnovu puta od
korena do lista kojim je predstavljena
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
p (chair | contekst) =
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
p (chair | contekst) = p ( skretanje levo u čvoru 1)
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
p (chair | contekst) = p ( skretanje levo u čvoru 1) * p ( skretanje levo u čvoru 2)
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
p (chair | contekst) = p ( skretanje levo u čvoru 1) * p (skretanja levo u čvoru 2) *
* p (skretanja desno u čvoru 4)
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
● Izlazni sloj je sloj sigmoidalnih neurona koji odgovaraju unutrašnjim
čvorovima stabla
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
● Izlazni sloj je sloj sigmoidalnih neurona koji odgovaraju unutrašnjim
čvorovima stabla
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
● Izlaz iz j-tog neurona je verovatnoća grananja u levo u tom čvoru
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
● P(w) skup čvorova na putu od korena do lista
● Verovatnoća grananja u pravcu reči u čvoru j
● Ako se put grana u levo jednaka (izlaz iz j-tog
nerona) u suprotnom
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
●
●
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
● P(w) skup čvorova na putu od korena do lista
● Verovatnoća grananja u pravcu reči u čvoru j
● Ako se put grana u levo jednaka (izlaz iz j-tog
nerona) u suprotnom
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
●
●
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmaxWord2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmaxWord2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
● Najbolji rezultati se postižu kada se reči predstavljaju Huffman-ovim stablom
Word2Vec modeli:Word2Vec modeli: Negative samplingNegative sampling
● Ne moraju da se koriste neuronske
mreže
● Problem estimacije verovatnoća
posmatra se kao klasifikacioni i rešava
uz pomoć Logističke regresije
Word2Vec modeli:Word2Vec modeli: Negative samplingNegative sampling
● D – skup pozitivnih primera(svih parova (reč,kontekst) koji
su se javili u korpusu)
● D' – skup negativnih primera(svih parova (reč,kontekst)
koji se nisu javili u korpusu)
● Cilj da dobijemo klasifikator koji dodeljuje labelu Z = 1 (par
pripada skupu D) ili Z = 0 (ne pripada skupu D)
●
●
Word2Vec modeli:Word2Vec modeli: Negative samplingNegative sampling
& CBOW& CBOW
●
● ( , ) - trening primer
● - skup negativnih primera generisanih na
●
osnovu raspodele P(w) =
| | | = k ( 2 < k < 5 V 15 < k < 20)
Word2Vec modeli:Word2Vec modeli: Negative samplingNegative sampling
& CBOW& CBOW
Testovi analogijskog povezivanja
germany : berlin = france : paris
Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta
vektoravektora
Testovi analogijskog povezivanja
germany : berlin = france : paris
germany : berlin = france : ?
Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta
vektoravektora
Testovi analogijskog povezivanja
vec(paris) - vec (france) ≈ vec (germany) – vec (berlin)
germany : berlin = france : paris
germany : berlin = france : ?
Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta
vektoravektora
Testovi analogijskog povezivanja
germany : berlin = france : paris
germany : berlin = france : x
vec(paris) - vec (france) ≈ vec (germany) – vec (berlin)
vec(x) ≈ vec (germany) – vec (berlin) + vec (france)
Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta
vektoravektora
Testovi analogijskog povezivanja
germany : berlin = france : paris
germany : berlin = france : x
vec(paris) - vec (france) ≈ vec (germany) – vec (berlin)
vec(x) ≈ vec (germany) – vec (berlin) + vec (france)
x = paris ✔
Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta
vektoravektora
Word2Vec modeli: TestiranjeWord2Vec modeli: Testiranje
● 5 tipova semantičkih relacija
● 9 tipova sintaksičkih relacija
● 8869 semantičkih pitanja
● 10 675 sintaksičkih pitanja
Word2Vec modeli: TestiranjeWord2Vec modeli: Testiranje
Word2Vec modeli:Word2Vec modeli: Mere sličnostiMere sličnosti
a : b = a* : b*
vec(b*) ≈ vec(a) – vec(b) + vec(a*)
Word2Vec modeli:Word2Vec modeli: Mere sličnostiMere sličnosti
a : b = a* : b*
vec(b*) ≈ vec(a) – vec(b) + vec(a*)
Word2Vec modeli:Word2Vec modeli: Mere sličnostiMere sličnosti
log log log
Word2Vec modeli:Word2Vec modeli: Mere sličnostiMere sličnosti
log log log
london : england = baghdad : ?
cos similarity : mosul
cos mul : iraq
Word2Vec modeli:Word2Vec modeli: NedostaciNedostaci
● Dvosmislenost
● Korpus je niz tokena
Obrada podatakaObrada podataka
● Hijerarhijsko aglomerativno klasterovanje
Obrada podatakaObrada podataka
● Hijerarhijsko aglomerativno klasterovanje
● Problem:
Obrada podatakaObrada podataka
● Hijerarhijsko aglomerativno klasterovanje
● Problem:
Složenost izračunavanja i memorijskih zahteva
Obrada podatakaObrada podataka
● Hijerarhijsko aglomerativno klasterovanje
● Problem:
Složenost izračunavanja i memorijskih zahteva
● Ne može se koristiti standardni algoritam za
klasterovanje rečnika koji sadrže više od 30 000 reči
Obrada podataka:Obrada podataka:
Hibridni algoritamHibridni algoritam
● Hibridni algoritam
Obrada podataka:Obrada podataka:
Hibridni algoritamHibridni algoritam
● Hibridni algoritam
Kombinuje:
A) Metod sredjih vrednosti (eng. K-means)
B) Hijerarhijsko aglomerativno klasterovanje
Obrada podataka:Obrada podataka:
Hibridni algoritamHibridni algoritam
Obrada podataka:Obrada podataka:
Hibridni algoritamHibridni algoritam
Obrada podataka:Obrada podataka:
Hibridni algoritamHibridni algoritam
Obrada podataka:Obrada podataka:
Hibridni algoritamHibridni algoritam
Obrada podataka:Obrada podataka:
Hibridni algoritamHibridni algoritam
Obrada podataka:Obrada podataka:
Hibridni algoritamHibridni algoritam
Obrada podataka:Obrada podataka:
Hibridni algoritamHibridni algoritam
Dobijanje informacijaDobijanje informacija
● Iz stabla se podaci dobijaju polu-nadgledano
● Sečenje stabla u najbližem zajedničkom pretku
● Dobijaju se klasteri koji sadrže semena i njima semantički
slične termine
ZaključakZaključak
● Metod se može koristiti za izdvajanje sličnih termina
● Za izdvajanje isith termina neophodna je kontrola od
strane korisnika
ZaključakZaključak
● C++
● Java
● Perl
● Cobol
● Assembler
● Pascal
● Visual Basic
ZaključakZaključak
● C++
● Java
● Perl
● Cobol
● Assembler
● Pascal
● Visual Basic
● Visual c++
● Eclipse
● Programming language
Zaključak:Zaključak: Vektorski prostoriVektorski prostori
● Korišćenjem različitih mera za upoređivanje
vektora otkrivaju se različite sličnosti između reči
● Za otkrivanje semantičkih sličnosti potrebno je
detaljno istražitivanje prostora pa čak i
unapređenje prostora i prilagođavanje
konkretnom zahtevu korisnika
HVALA NA PAŽNJI!

More Related Content

Viewers also liked

Viewers also liked (9)

David Barber - Deep Nets, Bayes and the story of AI
David Barber - Deep Nets, Bayes and the story of AIDavid Barber - Deep Nets, Bayes and the story of AI
David Barber - Deep Nets, Bayes and the story of AI
 
Vragend voornaamwoord
Vragend voornaamwoordVragend voornaamwoord
Vragend voornaamwoord
 
Amb amor perfeito schânya maximiano
Amb amor perfeito schânya maximianoAmb amor perfeito schânya maximiano
Amb amor perfeito schânya maximiano
 
[Web Agency] Project Process Standard Guide
[Web Agency] Project Process Standard Guide[Web Agency] Project Process Standard Guide
[Web Agency] Project Process Standard Guide
 
Wrangle 2016: Staying Hippocratic with High Stakes Data
Wrangle 2016: Staying Hippocratic with High Stakes DataWrangle 2016: Staying Hippocratic with High Stakes Data
Wrangle 2016: Staying Hippocratic with High Stakes Data
 
LetSwift RxSwift 시작하기
LetSwift RxSwift 시작하기LetSwift RxSwift 시작하기
LetSwift RxSwift 시작하기
 
Variational AutoEncoder
Variational AutoEncoderVariational AutoEncoder
Variational AutoEncoder
 
Docker로 서버 개발 편하게 하기
Docker로 서버 개발 편하게 하기Docker로 서버 개발 편하게 하기
Docker로 서버 개발 편하게 하기
 
Ibis2016okanohara
Ibis2016okanoharaIbis2016okanohara
Ibis2016okanohara
 

More from Institute of Contemporary Sciences

More from Institute of Contemporary Sciences (20)

First 5 years of PSI:ML - Filip Panjevic
First 5 years of PSI:ML - Filip PanjevicFirst 5 years of PSI:ML - Filip Panjevic
First 5 years of PSI:ML - Filip Panjevic
 
Building valuable (online and offline) Data Science communities - Experience ...
Building valuable (online and offline) Data Science communities - Experience ...Building valuable (online and offline) Data Science communities - Experience ...
Building valuable (online and offline) Data Science communities - Experience ...
 
Data Science Master 4.0 on Belgrade University - Drazen Draskovic
Data Science Master 4.0 on Belgrade University - Drazen DraskovicData Science Master 4.0 on Belgrade University - Drazen Draskovic
Data Science Master 4.0 on Belgrade University - Drazen Draskovic
 
Deep learning fast and slow, a responsible and explainable AI framework - Ahm...
Deep learning fast and slow, a responsible and explainable AI framework - Ahm...Deep learning fast and slow, a responsible and explainable AI framework - Ahm...
Deep learning fast and slow, a responsible and explainable AI framework - Ahm...
 
Solving churn challenge in Big Data environment - Jelena Pekez
Solving churn challenge in Big Data environment  - Jelena PekezSolving churn challenge in Big Data environment  - Jelena Pekez
Solving churn challenge in Big Data environment - Jelena Pekez
 
Application of Business Intelligence in bank risk management - Dimitar Dilov
Application of Business Intelligence in bank risk management - Dimitar DilovApplication of Business Intelligence in bank risk management - Dimitar Dilov
Application of Business Intelligence in bank risk management - Dimitar Dilov
 
Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...
Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...
Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...
 
Recommender systems for personalized financial advice from concept to product...
Recommender systems for personalized financial advice from concept to product...Recommender systems for personalized financial advice from concept to product...
Recommender systems for personalized financial advice from concept to product...
 
Advanced tools in real time analytics and AI in customer support - Milan Sima...
Advanced tools in real time analytics and AI in customer support - Milan Sima...Advanced tools in real time analytics and AI in customer support - Milan Sima...
Advanced tools in real time analytics and AI in customer support - Milan Sima...
 
Complex AI forecasting methods for investments portfolio optimization - Pawel...
Complex AI forecasting methods for investments portfolio optimization - Pawel...Complex AI forecasting methods for investments portfolio optimization - Pawel...
Complex AI forecasting methods for investments portfolio optimization - Pawel...
 
From Zero to ML Hero for Underdogs - Amir Tabakovic
From Zero to ML Hero for Underdogs  - Amir TabakovicFrom Zero to ML Hero for Underdogs  - Amir Tabakovic
From Zero to ML Hero for Underdogs - Amir Tabakovic
 
Data and data scientists are not equal to money david hoyle
Data and data scientists are not equal to money   david hoyleData and data scientists are not equal to money   david hoyle
Data and data scientists are not equal to money david hoyle
 
The price is right - Tomislav Krizan
The price is right - Tomislav KrizanThe price is right - Tomislav Krizan
The price is right - Tomislav Krizan
 
When it's raining gold, bring a bucket - Andjela Culibrk
When it's raining gold, bring a bucket - Andjela CulibrkWhen it's raining gold, bring a bucket - Andjela Culibrk
When it's raining gold, bring a bucket - Andjela Culibrk
 
Reality and traps of real time data engineering - Milos Solujic
Reality and traps of real time data engineering - Milos SolujicReality and traps of real time data engineering - Milos Solujic
Reality and traps of real time data engineering - Milos Solujic
 
Sensor networks for personalized health monitoring - Vladimir Brusic
Sensor networks for personalized health monitoring - Vladimir BrusicSensor networks for personalized health monitoring - Vladimir Brusic
Sensor networks for personalized health monitoring - Vladimir Brusic
 
Improving Data Quality with Product Similarity Search
Improving Data Quality with Product Similarity SearchImproving Data Quality with Product Similarity Search
Improving Data Quality with Product Similarity Search
 
Prediction of good patterns for future sales using image recognition
Prediction of good patterns for future sales using image recognitionPrediction of good patterns for future sales using image recognition
Prediction of good patterns for future sales using image recognition
 
Using data to fight corruption: full budget transparency in local government
Using data to fight corruption: full budget transparency in local governmentUsing data to fight corruption: full budget transparency in local government
Using data to fight corruption: full budget transparency in local government
 
Geospatial Analysis and Open Data - Forest and Climate
Geospatial Analysis and Open Data - Forest and ClimateGeospatial Analysis and Open Data - Forest and Climate
Geospatial Analysis and Open Data - Forest and Climate
 

Semi-supervised information extraction in semantical vector space - Jelena Milovanovic

  • 1. Ugradjivanje reči i fraza u vektorske prostore i polu-nadgledano otkrivanje semantičkih sličnosti Jelena Milovanović , asistent u istraživanju Istraživačko razvojni institut NIRI
  • 2.
  • 3.
  • 4.
  • 6. PregledPregled ● Uvod ● Detekcija fraza ● Ugradjivanje reči i fraza u vektorske prostore ● Obrada podataka ● Zaključak
  • 7. ● Osvežavanje ontologije poslovnih veština Uvod:Uvod: PrimenaPrimena
  • 8. ● Osvežavanje ontologije poslovnih veština ● presentional_skills ● comunication_skills Uvod:Uvod: PrimenaPrimena
  • 9. ● Osvežavanje ontologije poslovnih veština ● presentional_skills ● comunication_skills ● inter_personal_skills ● influencing_skills ● organisational_skills ● problem_solving_skills ● analitical_skills Uvod:Uvod: PrimenaPrimena
  • 10. Uvod: Metod polu-nadgledanogUvod: Metod polu-nadgledanog dobijanja informacijadobijanja informacija Pedloženi metod sastoji se iz dva osnovna koraka i koristi: ● Grupu modela poznatu pod skraćenicom Word2Vec za ugrađivanje reči i fraza u vektorske prostore ● Hijerarhijsko aglomerativno klasterovanje za dobijanje informacija
  • 11. ● Jedan-od reprezentacija reči (One-hot) House [0 0 0...0 1 0...0 0 0 0 0 0 0 0 0 ] Cottage [0 1 0...0 0 0...0 0 0 0 0 0 0 0 0 ] Moon [0 0 0...0 0 0...0 0 0 0 0 0 0 0 1 ] Vektorska reprezentacija rečiVektorska reprezentacija reči
  • 12. ● Jedan-od reprezentacija reči (One-hot) House [0 0 0...0 1 0...0 0 0 0 0 0 0 0 0 ] Cottage [0 1 0...0 0 0...0 0 0 0 0 0 0 0 0 ] Moon [0 0 0...0 0 0...0 0 0 0 0 0 0 0 1 ] Vektorska reprezentacija rečiVektorska reprezentacija reči I live in the house I live in the ?
  • 15. Word2Vec modeliWord2Vec modeli Distribuirana reprezentacija rečiDistribuirana reprezentacija reči Cottage [0,34 1,43 -6,8...0.5 ] House [0,38 1,52 -6,8...0.5 ] Music[7,45 4,78... -8,7 4,5 ] Cottage DOG Moon Sun House
  • 16. Distributivna hipoteza: Reči i fraze koje se javljaju u istim kontekstima teže da imaju isto značenje Fert, 1957 Word2Vec modeliWord2Vec modeli:: Distributivna hipotezaDistributivna hipoteza
  • 17. Word2Vec modeliWord2Vec modeli:: Distributivna hipotezaDistributivna hipoteza I have built a house for my family. I have built a cottage for my family. It takes the Moon 28 days to make a complete orbit of the Earth
  • 18.
  • 19. Word2Vec modeliWord2Vec modeli:: Relacije izmedju vektoraRelacije izmedju vektora
  • 20. Word2Vec modeliWord2Vec modeli:: Relacije izmedju vektoraRelacije izmedju vektora
  • 21. Word2Vec modeliWord2Vec modeli:: Relacije izmedju vektoraRelacije izmedju vektora
  • 22. Word2Vec modeliWord2Vec modeli:: Relacije izmedju vektoraRelacije izmedju vektora
  • 23. 2D projekcija 1000-dimenzionih vektora dobijena metodom glavnih komponenti (eng. Principal Component analysis) Word2Vec modeliWord2Vec modeli:: Relacije izmedju vektoraRelacije izmedju vektora
  • 24. vec(''king'') - vec(''man'') + vec(''woman'') = vec(''queen'') Word2Vec modeliWord2Vec modeli:: Relacije izmedju vektoraRelacije izmedju vektora vec(''king'') - vec(''man'') = vec(''queen'') - vec(''woman'')
  • 25. athens : greece = baghdad : ? bulgaria : lev = sweden : ? boy : girl = brother : ? amazing : amazingly = apparent : ? acceptable : unacceptable = aware : ? bad : worse = big : ? Word2Vec modeliWord2Vec modeli:: Relacije izmedju vektoraRelacije izmedju vektora
  • 26. Word2Vec modeliWord2Vec modeli:: Relacije izmedju prostoraRelacije izmedju prostora
  • 27. Word2Vec modeliWord2Vec modeli:: Relacije izmedju prostoraRelacije izmedju prostora
  • 29. ● Nenadgledano učenje ● Za treniranje se koriste tekstualni dokumenti koji se sastoji od reči i fraza ● Radi sa velikim korpusima ● Vektori semantički sličnih reči nalaze se u blizini ● Dobijeni vektorski prostor sadrži sintaksne i semantičke relacije koje su uslovljene relativnim položajem vektora Word2Vec modeliWord2Vec modeli:: KarakteristikeKarakteristike
  • 30. Uvod:Uvod: Obrada podatakaObrada podataka ● Polu-nadgledano dobijanje informacija ● Upit se sastoji od poznatih termina koje nazivamo semenima ● Cilj: Izdvajanje termina koji imaju slično semantičko značenje kao i semena
  • 31. Uvod:Uvod: Obrada podatakaObrada podataka ● Korišćen algoritam hijerarhijskog aglomerativnog klasterovanja ● Reči i fraze predstavljene listovima ● Odsecanje stabla u u čvoru koji je semenima najbliži zajednički predak ● Dobijeni klasteri pored semena sadrže reči i fraze semantički slične semenima
  • 32. OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži zajednički predak semenimazajednički predak semenima OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži zajednički predak semenimazajednički predak semenima
  • 33. OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži zajednički predak semenimazajednički predak semenima
  • 34. OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži zajednički predak semenimazajednički predak semenima
  • 35. ● Luxemburg ● Estonia ● Sloavakia ● Croatia ● Latvia ● Lithuania ● Slovenia ● Belgium ● Denmark ● Netherlands ● Switzerland OOdsecanje stabla u čvoru koji je najbližidsecanje stabla u čvoru koji je najbliži zajednički predak semenimazajednički predak semenima
  • 36. Proces dobijanjaProces dobijanja informacijainformacija 1. Prikupljanje dokumentata 2. Procesiranje korpusa (izbacivanje znakova interpunkcije) 3. Detekcija fraza 4. Treniranje Word2Vec modela 5. Aglomerativno hijerarhijsko klasterovanje dobijenih vektora 6. Odsecanje stabla pomoću semena i dobijanje podataka
  • 37. Detekcija frazaDetekcija fraza ● Kao mera povezanosti reči koristi se uzajamno pojavljivanje tačaka (eng. Pointwise MutualPointwise Mutual InformationInformation) ● PMI je jedinica povezanosti dva događaja i dobija se
  • 38. Detekcija frazaDetekcija fraza ● Kao mera povezanosti reči koristi se uzajamno pojavljivanje tačaka (eng. Pointwise MutualPointwise Mutual InformationInformation) ● PMI je jedinica povezanosti dva događaja i dobija se
  • 39. Detekcija frazaDetekcija fraza ● Kao mera povezanosti reči koristi se uzajamno pojavljivanje tačaka (eng. Pointwise MutualPointwise Mutual InformationInformation) ● PMI je jedinica povezanosti dva događaja i dobija se ● Dužina fraza uslovljena je brojem iteracija
  • 40. Detekcija frazaDetekcija fraza ● working_class ● french_revolution ● should_be ● google_maps ● adobe_photoshop ● classical_guitar ● kennedy_space_center ● artificial_intelligence_laboratory ● american_central_intelligence_agency ● british_prime_minister_winston_churchill
  • 41. Word2Vec modeliWord2Vec modeli ● Model Kontinualne grupe reči (eng. Continuous bag of words - CBOW) ● Model preskakanja reči (eng. Skip-gram)
  • 43. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model ● Model kontinualne grupe (vreće) reči ● Opisuje kako neuronska mreža uči vektorske reprezentacije reči
  • 44. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model Kontekst dužine 1Kontekst dužine 1
  • 45. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model Kontekst dužine 1Kontekst dužine 1
  • 46. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model Kontekst dužine 1Kontekst dužine 1
  • 47. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model Kontekst dužine 1Kontekst dužine 1
  • 48. ● Linearna aktivaciona funkcija skrivenog sloja ● Softmax sloj izlaznih neurona Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model Kontekst dužine 1Kontekst dužine 1
  • 49. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model Kontekst dužine 1Kontekst dužine 1
  • 50. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model Kontekst dužine 1Kontekst dužine 1
  • 51. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model Kontekst dužine 1Kontekst dužine 1
  • 52. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model Kriterijumska funkcijaKriterijumska funkcija
  • 53. Word2Vec modeli :Word2Vec modeli : Stohastički gradijentni spustStohastički gradijentni spust
  • 54. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model Kontekst dužine 1Kontekst dužine 1
  • 55. Tehnika propagiranja greškeTehnika propagiranja greške u nazadu nazad wki w'ki
  • 56. Tehnika propagiranja greškeTehnika propagiranja greške unazadunazad
  • 57. Tehnika propagiranja greškeTehnika propagiranja greške unazadunazad
  • 58. Tehnika propagiranja greškeTehnika propagiranja greške unazadunazad
  • 59. Tehnika propagiranja greškeTehnika propagiranja greške unazadunazad
  • 60. Tehnika propagiranja greškeTehnika propagiranja greške unazadunazad v v'V
  • 61. Word2Vec modeli : CBOW modelWord2Vec modeli : CBOW model
  • 62. Word2Vec modeli : Skip-gramWord2Vec modeli : Skip-gram
  • 63. Word2Vec modeli : Skip-gramWord2Vec modeli : Skip-gram
  • 64. Word2Vec modeli : Skip-gramWord2Vec modeli : Skip-gram
  • 65. Word2Vec modeli : OptimizacijaWord2Vec modeli : Optimizacija ● Hijerarhijski sloj izlaznih neurona (eng. Hierarchical softmax) ● Uzimanje negativnih uzoraka (eng. Negative Sampling)
  • 66. ● Koristi se hijerarhijski sloj umesto softmax sloja ● Reči se predstavljaju binarnim stablom gde je broj listova jednak dužini rečnika ● Svaka reč predstavljna je jednim listom ● Verovatnoća pojavljivanja reči u datom kontekstu računa se na osnovu puta od korena do lista kojim je predstavljena Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
  • 67. Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
  • 68. p (chair | contekst) = Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
  • 69. p (chair | contekst) = p ( skretanje levo u čvoru 1) Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
  • 70. p (chair | contekst) = p ( skretanje levo u čvoru 1) * p ( skretanje levo u čvoru 2) Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
  • 71. p (chair | contekst) = p ( skretanje levo u čvoru 1) * p (skretanja levo u čvoru 2) * * p (skretanja desno u čvoru 4) Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
  • 72. ● Izlazni sloj je sloj sigmoidalnih neurona koji odgovaraju unutrašnjim čvorovima stabla Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
  • 73. ● Izlazni sloj je sloj sigmoidalnih neurona koji odgovaraju unutrašnjim čvorovima stabla Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax ● Izlaz iz j-tog neurona je verovatnoća grananja u levo u tom čvoru
  • 74. Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax ● P(w) skup čvorova na putu od korena do lista ● Verovatnoća grananja u pravcu reči u čvoru j ● Ako se put grana u levo jednaka (izlaz iz j-tog nerona) u suprotnom Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax ● ●
  • 75. Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax ● P(w) skup čvorova na putu od korena do lista ● Verovatnoća grananja u pravcu reči u čvoru j ● Ako se put grana u levo jednaka (izlaz iz j-tog nerona) u suprotnom Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax ● ●
  • 76. Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmaxWord2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax
  • 77. Word2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmaxWord2Vec modeli:Word2Vec modeli: Hierarchical softmaxHierarchical softmax ● Najbolji rezultati se postižu kada se reči predstavljaju Huffman-ovim stablom
  • 78. Word2Vec modeli:Word2Vec modeli: Negative samplingNegative sampling ● Ne moraju da se koriste neuronske mreže ● Problem estimacije verovatnoća posmatra se kao klasifikacioni i rešava uz pomoć Logističke regresije
  • 79. Word2Vec modeli:Word2Vec modeli: Negative samplingNegative sampling ● D – skup pozitivnih primera(svih parova (reč,kontekst) koji su se javili u korpusu) ● D' – skup negativnih primera(svih parova (reč,kontekst) koji se nisu javili u korpusu) ● Cilj da dobijemo klasifikator koji dodeljuje labelu Z = 1 (par pripada skupu D) ili Z = 0 (ne pripada skupu D) ● ●
  • 80. Word2Vec modeli:Word2Vec modeli: Negative samplingNegative sampling & CBOW& CBOW ● ● ( , ) - trening primer ● - skup negativnih primera generisanih na ● osnovu raspodele P(w) = | | | = k ( 2 < k < 5 V 15 < k < 20)
  • 81. Word2Vec modeli:Word2Vec modeli: Negative samplingNegative sampling & CBOW& CBOW
  • 82. Testovi analogijskog povezivanja germany : berlin = france : paris Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta vektoravektora
  • 83. Testovi analogijskog povezivanja germany : berlin = france : paris germany : berlin = france : ? Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta vektoravektora
  • 84. Testovi analogijskog povezivanja vec(paris) - vec (france) ≈ vec (germany) – vec (berlin) germany : berlin = france : paris germany : berlin = france : ? Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta vektoravektora
  • 85. Testovi analogijskog povezivanja germany : berlin = france : paris germany : berlin = france : x vec(paris) - vec (france) ≈ vec (germany) – vec (berlin) vec(x) ≈ vec (germany) – vec (berlin) + vec (france) Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta vektoravektora
  • 86. Testovi analogijskog povezivanja germany : berlin = france : paris germany : berlin = france : x vec(paris) - vec (france) ≈ vec (germany) – vec (berlin) vec(x) ≈ vec (germany) – vec (berlin) + vec (france) x = paris ✔ Word2Vec modeli:Word2Vec modeli: Merenje kvalitetaMerenje kvaliteta vektoravektora
  • 87. Word2Vec modeli: TestiranjeWord2Vec modeli: Testiranje ● 5 tipova semantičkih relacija ● 9 tipova sintaksičkih relacija ● 8869 semantičkih pitanja ● 10 675 sintaksičkih pitanja
  • 89. Word2Vec modeli:Word2Vec modeli: Mere sličnostiMere sličnosti a : b = a* : b* vec(b*) ≈ vec(a) – vec(b) + vec(a*)
  • 90. Word2Vec modeli:Word2Vec modeli: Mere sličnostiMere sličnosti a : b = a* : b* vec(b*) ≈ vec(a) – vec(b) + vec(a*)
  • 91. Word2Vec modeli:Word2Vec modeli: Mere sličnostiMere sličnosti log log log
  • 92. Word2Vec modeli:Word2Vec modeli: Mere sličnostiMere sličnosti log log log london : england = baghdad : ? cos similarity : mosul cos mul : iraq
  • 93. Word2Vec modeli:Word2Vec modeli: NedostaciNedostaci ● Dvosmislenost ● Korpus je niz tokena
  • 94. Obrada podatakaObrada podataka ● Hijerarhijsko aglomerativno klasterovanje
  • 95. Obrada podatakaObrada podataka ● Hijerarhijsko aglomerativno klasterovanje ● Problem:
  • 96. Obrada podatakaObrada podataka ● Hijerarhijsko aglomerativno klasterovanje ● Problem: Složenost izračunavanja i memorijskih zahteva
  • 97. Obrada podatakaObrada podataka ● Hijerarhijsko aglomerativno klasterovanje ● Problem: Složenost izračunavanja i memorijskih zahteva ● Ne može se koristiti standardni algoritam za klasterovanje rečnika koji sadrže više od 30 000 reči
  • 98. Obrada podataka:Obrada podataka: Hibridni algoritamHibridni algoritam ● Hibridni algoritam
  • 99. Obrada podataka:Obrada podataka: Hibridni algoritamHibridni algoritam ● Hibridni algoritam Kombinuje: A) Metod sredjih vrednosti (eng. K-means) B) Hijerarhijsko aglomerativno klasterovanje
  • 100. Obrada podataka:Obrada podataka: Hibridni algoritamHibridni algoritam
  • 101. Obrada podataka:Obrada podataka: Hibridni algoritamHibridni algoritam
  • 102. Obrada podataka:Obrada podataka: Hibridni algoritamHibridni algoritam
  • 103. Obrada podataka:Obrada podataka: Hibridni algoritamHibridni algoritam
  • 104. Obrada podataka:Obrada podataka: Hibridni algoritamHibridni algoritam
  • 105. Obrada podataka:Obrada podataka: Hibridni algoritamHibridni algoritam
  • 106. Obrada podataka:Obrada podataka: Hibridni algoritamHibridni algoritam
  • 107. Dobijanje informacijaDobijanje informacija ● Iz stabla se podaci dobijaju polu-nadgledano ● Sečenje stabla u najbližem zajedničkom pretku ● Dobijaju se klasteri koji sadrže semena i njima semantički slične termine
  • 108. ZaključakZaključak ● Metod se može koristiti za izdvajanje sličnih termina ● Za izdvajanje isith termina neophodna je kontrola od strane korisnika
  • 109. ZaključakZaključak ● C++ ● Java ● Perl ● Cobol ● Assembler ● Pascal ● Visual Basic
  • 110. ZaključakZaključak ● C++ ● Java ● Perl ● Cobol ● Assembler ● Pascal ● Visual Basic ● Visual c++ ● Eclipse ● Programming language
  • 111. Zaključak:Zaključak: Vektorski prostoriVektorski prostori ● Korišćenjem različitih mera za upoređivanje vektora otkrivaju se različite sličnosti između reči ● Za otkrivanje semantičkih sličnosti potrebno je detaljno istražitivanje prostora pa čak i unapređenje prostora i prilagođavanje konkretnom zahtevu korisnika