SlideShare a Scribd company logo
1 of 48
LATENT SEMANTIC
INDEXING
Limiti della ricerca per parole chiave
• I metodi di ranking tradizionali calcolano l’attinenza di
un documento ad una query sulla base della presenza o
meno di parole contenute nella query: un termine o è
presente o non lo è
• Nel LSI la ricerca avviene per concetti: ma un concetto
non è l’astrazione-generalizazzione di un termine (es:
golf vestiario) bensì un insieme di termini
correlati (golf, maglia, vestito) detti co-occorrenze o
dominio semantico
• Data una collezione di documenti, LSI è in grado di rilevare che
alcune n-uple di termini co-occorrono frequentemente (es:
gerarchia, ordinamento e classificazione)
• Se viene fatta una ricerca con gerarchia, ordinamento
vengono “automaticamente” recuperati documenti che
contengono anche (e eventualmente solo!)
classificazione
Dominio
Semantico k
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
Selezione dei documenti basata sul termine ‘Golf’
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
Car
Petrol
Topgear
GTI
Polo
Base di documenti (20)
Motor
Bike
Oil
Petrol
Tourer
Bed
lace
legal
Petrol
button
soft
Petrol
cat
line
yellow
wind
full
sail
harbour
beach
report
Petrol
Topgear
June
Speed
Fish
Pond
gold
Petrol
Koi
PC
Dell
RAM
Petrol
Floppy
Core
Petrol
Apple
Pip
Tree
Pea
Pod
Fresh
Green
French
Lupin
Petrol
Seed
May
April
Office
Pen
Desk
Petrol
VDU
Friend
Pal
Help
Petrol
Can
Paper
Petrol
Paste
Pencil
Roof
Card
Stamp
Glue
Happy
Send
Toil
Petrol
Work
Time
Cost
con il modello keyword
vengono estratti 4
documenti
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
Selezione basata su ‘Golf’
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
Car
Petrol
Topgear
GTI
Polo
Tutti i 20 documenti
Motor
Bike
Oil
Petrol
Tourer
Bed
lace
legal
Petrol
button
soft
Petrol
cat
line
yellow
wind
full
sail
harbour
beach
report
Petrol
Topgear
June
Speed
Fish
Pond
gold
Petrol
Koi
PC
Dell
RAM
Petrol
Floppy
Core
Petrol
Apple
Pip
Tree
Pea
Pod
Fresh
Green
French
Lupin
Petrol
Seed
May
April
Office
Pen
Desk
Petrol
VDU
Friend
Pal
Help
Petrol
Can
Paper
Petrol
Paste
Pencil
Roof
Card
Stamp
Glue
Happy
Send
Toil
Petrol
Work
Time
Cost
vediamo quali sono le parole
più rilevanti associate a Golf
di questi 4 documenti. Esse sono:
Car, Topgear and Petrol
rank
dei
doc
selezionati
Car
2 *(20/3) = 13
Topgear
2 *(20/3) = 13
Petrol
3 *(20/16) = 4
wf.idf
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
rank
dei
doc
selezionati
Selezione basata su ‘Golf’
Car
2 *(20/3) = 13
Topgear
2 *(20/3) = 13
Petrol
3 *(20/16) = 4
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
Car
Petrol
Topgear
GTI
Polo
Tutti i 20 documenti
Motor
Bike
Oil
Petrol
Tourer
Bed
lace
legal
Petrol
button
soft
Petrol
cat
line
yellow
wind
full
sail
harbour
beach
report
Petrol
Topgear
June
Speed
Fish
Pond
gold
Petrol
Koi
PC
Dell
RAM
Petrol
Floppy
Core
Petrol
Apple
Pip
Tree
Pea
Pod
Fresh
Green
French
Lupin
Petrol
Seed
May
April
Office
Pen
Desk
Petrol
VDU
Friend
Pal
Help
Petrol
Can
Paper
Petrol
Paste
Pencil
Roof
Card
Stamp
Glue
Happy
Send
Toil
Petrol
Work
Time
Cost
poiché le parole sono pesate anche
rispetto al loro idf, risulta che :
Car e Topgear sono associate a Golf
più di Petrol
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
Car
Petrol
Topgear
GTI
Polo
Tutti i 20 documenti
Motor
Bike
Oil
Petrol
Tourer
Bed
lace
legal
Petrol
button
soft
Petrol
cat
line
yellow
wind
full
sail
harbour
beach
report
Petrol
Topgear
June
Speed
Fish
Pond
gold
Petrol
Koi
PC
Dell
RAM
Petrol
Floppy
Core
Petrol
Apple
Pip
Tree
Pea
Pod
Fresh
Green
French
Lupin
Petrol
Seed
May
April
Office
Pen
Desk
Petrol
VDU
Friend
Pal
Help
Petrol
Can
Paper
Petrol
Paste
Pencil
Roof
Card
Stamp
Glue
Happy
Send
Toil
Petrol
Work
Time
Cost
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
rank
dei
doc
selezionati
Selezione basata su ‘Golf’
selezione basata sul dominio semantico
Car
2 *(20/3) = 13
Topgear
2 *(20/3) = 13
Petrol
3 *(20/16) = 4
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
Car
Wheel
Topgear
GTI
Polo
Ora cerchiamo ancora nella base
di documenti, usando questo insieme
di parole che rappresentano
il “dominio semantico” di Golf .
La lista ora include un nuovo documento,
non catturato sulla base della
semplice ricerca per keywords.
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
rank
dei
doc
selezionati
Selezione basata su ‘Golf’
selezione basata sul dominio semantico
Car
2 *(20/3) = 13
Topgear
2 *(20/3) = 13
Petrol
3 *(20/16) = 4
Rank 2617 17 030
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
Car
Petrol
Topgear
GTI
Polo
Tutti i 20 documenti
Motor
Bike
Oil
Petrol
Tourer
Bed
lace
legal
Petrol
button
soft
Petrol
cat
line
yellow
wind
full
sail
harbour
beach
report
Petrol
Topgear
June
Speed
Fish
Pond
gold
Petrol
Koi
PC
Dell
RAM
Petrol
Floppy
Core
Petrol
Apple
Pip
Tree
Pea
Pod
Fresh
Green
French
Lupin
Petrol
Seed
May
April
Office
Pen
Desk
Petrol
VDU
Friend
Pal
Help
Petrol
Can
Paper
Petrol
Paste
Pencil
Roof
Card
Stamp
Glue
Happy
Send
Toil
Petrol
Work
Time
Cost
Golf
Car
Topgear
Petrol
GTI
Golf
Car
Clarkson
Petrol
Badge
Golf
Petrol
Topgear
Polo
Red
Golf
Tiger
Woods
Belfry
Tee
Car
Wheel
Topgear
GTI
Polo
Usando un ranking
basato sulla co-occorrenza dei termini
possiamo assegnare
un miglior ranking ai documenti.
Notate che: il documento
più rilevante non contiene la parola Golf, e
che uno dei documenti che la conteneva
scompare (era infatti un senso “spurio”di Golf).
Esempio 2
Matrice termini-documenti
L
Co-occorrenze dei termini nei
documenti
== ΛΛΑ Τ
ijA = T
ikL kjL
T
L L
∑∑ ==
==
n
k
kjki
n
k
kj
T
ikij LLLLA
11
Aij è il numero di co-occorrenze nei documenti
fra il termine i ed il termine j
A trees,graph = (000001110)T
•(000000111)=2
Esempio 2
2 2 0
2 2 0
0 0 1
w1
w2
w3
d1 d2 d3
1 0 1
1 0 1
0 1 0
LLT
1 1 0
0 0 1
1 1 0
=
w11 w12 w13
w21 w22 w23
w31 w32 w33
Ma wij=wji quindi
w11 w12 w13
w12 w22 w23
w13 w23 w33Simmetrica!
Matrici delle co-occorrenze
• Se L è una matrice nxm (termini x documenti)
• Allora:
– LT
L è la matrice le cui righe ai rappresentano le co-
occorrenze di termini fra di e dj, per ogni dj. Dato un
documento, indica quali sono i documenti più simili.
– LLT
è la matrice le cui righe ai rappresentano le co-
occorrenze nei documenti fra ti e tj per ogni tj. Dato un
termine, indica quali sono i termini più correlati.
– Usando, ad esempio, la matrice LLT
potrei “espandere” ogni
termine con quelli aventi il più alto valore di correlazione
(cioè, aggiungere alla query in cui compare la parola w anche
quelle che co-occorrono con w più frequentemente)
Osservazione
• Tutte le possibili co-occorrenze sarebbero assai di più dei
termini singoli (detta L la matrice termini-documenti, dovrei
calcolare A=LLT
).
• Tuttavia, sebbene la matrice A ha dimensionalità elevata la
maggioranza delle celle hanno valore zero
• Con i metodi classici ogni documento o query è un vettore in
uno spazio t-dimensionale
• LSI tenta di proiettare questo spazio in uno spazio di
dimensione ridotta, in cui, anziché termini, le dimensioni
rappresentano co-occorrenze o dominii semantici, ma solo quelli
preponderanti
• Tuttavia LSI utilizza per questa riduzione di rango solo
strumenti matematici (singular value decomposition, SVD).
LT
L
c13 c23
c12
c123
d1 d2
d3
c13
c23
c123
c23
Similarità fra documenti
come diagramma di Venn
Similarità fra documenti
come sim fra vettori nello
spazio delle co-occorrenze
Cosa significa “proiettare
in uno spazio di concetti”
Singual value decomposition
• Come detto, LSI proietta la matrice L termini-
documenti in uno spazio concettuale di dimensioni
ridotte, dove le dimensioni sono gruppi di concetti che
co-occorrono, definendo un “dominio semantico”
• Il metodo utilizzato per effettuare questa proiezione è
la singular value decomposition, un metodo algebrico.
• Ci occorre un piccolo ripasso di algebra per capire
questo metodo.
Ripasso di algebra
• Autovalori
• Autovettori
• Vettori e valori singolari
Autovalori & Autovettori
Ha soluzioni non nulle se
Se S mxm, questa è un’equazione di grado m in λ che ha al
più m soluzioni distinte (le radici del polinomio
caratteristico) – possono essere complesse anche se S è
reale.
(right) eigenvector eigenvalue
Esempio
Eigenvectors o autovettori (di una matrice S)
Quanti autovalori al massimo ha S?
Esempio: calcolo di Eigenvalues and
Eigenvectors
• Def: Un vettore v ∈ Rn
, v ≠ 0, è un
autovettore di una matrice n×n A con
corrispondente autovalore λ, se:
Av = λv
A =
1 −1
3 5
⎛
⎝
⎜
⎞
⎠
⎟⋅v =
1
−3
⎛
⎝
⎜
⎞
⎠
⎟⋅λ = 4
Av = λv
1 −1
3 5
⎛
⎝
⎜
⎞
⎠
⎟
1
−3
⎛
⎝
⎜
⎞
⎠
⎟= 4
1
−3
⎛
⎝
⎜
⎞
⎠
⎟
1+−3(−1)
3 +5(−3)
⎛
⎝
⎜
⎞
⎠
⎟=
4
−12
⎛
⎝
⎜
⎞
⎠
⎟
4
−12
⎛
⎝
⎜
⎞
⎠
⎟=
4
−12
⎛
⎝
⎜
⎞
⎠
⎟
Esempio di calcolo
0
53
11
0
0
0
53
11
0
10
01
53
11
0)det(
53
11
=








−
−−
=








−







 −
=








−







 −
=−







 −
=
λ
λ
λ
λ
λ
λΙΑ
Α
2,4
0)2)(4(
086
0356
03)5)(1(
21
2
2
==
=−−
=+−
=++−
=+−−
λλ
λλ
λλ
λλ
λλ
Ricorda il determinante
di una matrice M 2x2
bcad
dc
ba
MM −=== ||δετ
2 e 4 sono i due
eigenvalues di A




−=
=+
=−−








=















 −−








=
















−
−−
=−
βα
βα
βα
β
α
β
α
λ
033
0
0
0
33
11
0
0
253
121
0)( vIA
(A − λI)v = 0
1− 4 −1
3 5 − 4
⎛
⎝
⎜
⎞
⎠
⎟
α
β
⎛
⎝
⎜
⎞
⎠
⎟=
0
0
⎛
⎝
⎜
⎞
⎠
⎟
−3 −1
3 1
⎛
⎝
⎜
⎞
⎠
⎟
α
β
⎛
⎝
⎜
⎞
⎠
⎟=
0
0
⎛
⎝
⎜
⎞
⎠
⎟
−3α −β = 0
3α + β = 0
β = −
⎧
⎨
⎩
3α








−
=
=
β
β
λ
v
22








−
=
=
α
α
λ
3
41
v
Polinomio
caratteristico
Approfondimenti
• http://www.sosmath.com/matrix/eigen0/eigen0.html
• http://www.cs.ut.ee/~toomas_l/linalg/lin2/node14.ht
ml
Significato geometrico di autovalori
e autovettori
• La moltiplicazione di una matrice A mxn per un
vettore v è una trasformazione lineare che
trasferisce il vettore v dallo spazio Rn
a Rm
• Gli autovettori sono quei vettorila cui direzione
non cambia per effetto della trasformazione A
Moltiplicare per una matrice è una
trasformazione lineare
In questa trasformazione lineare della
Gioconda, l'immagine è
modificata ma l'asse centrale verticale
rimane fisso.
Il vettore blu ha cambiato direzione,
mentre quello rosso no.
Quindi il vettore rosso è un
autovettore della trasformazione e
quello blu no. Inoltre, poiché il vettore
rosso non è stato né allungato, né
compresso, né ribaltato, il suo
autovalore è 1 (quindi l’autovalore
indica una costante di traslazione dei
punti dell’immagine nella direzione
blu) . Tutti i vettori sull'asse verticale
sono multipli scalari del vettore rosso,
e sono tutti autovettori.
Av=λv
Trasformazioni lineari
• Se v è un vettore qualsiasi, A una matrice nxm
(trasformazione lineare), vi gli autovettori di A e
λi gli autovalori, la trasformazione del vettore è
completamente definita da autovalori e
autovettori di A:
A
r
v = λ1(v1⋅ v) + λ2(v2 ⋅ v) + ...λk(vk ⋅ v)
Riduzione della dimensionalità (o
approssimazione di rango k di una matrice)
Moltiplicare una matrice per un vettore ha due effetti sul vettore:
rotazione (il vettore cambia coordinate) e scalatura (la lunghezza
del vettore cambia). La massima compressione e rotazione
dipendono dagli autovalori della matrice (vedi formula precedente)
Riduzione della dimensionalità (o approssimazione
di rango k di una matrice)
Nello schiacciamento e compressione il ruolo principale lo giocano
i valori singolari più grandi della matrice (s1 e s2 in figura)
Gli autovalori descrivono dunque quanto la matrice
distorce (riduce e comprime) il vettore originario
Riduzione della dimensionalità (o approssimazione
di rango k di una matrice)
Qui invece supponiamo che, invece di ruotare un vettore,
ruotiamo un insieme di vettori ortonormali. Se, ad es, di tre
autovalori uno lo trascuriamo perché più piccolo, è come se
rimuovessimo una dimensione (se invece eliminiamo due
autovalori, l’ellissoide si schiaccia su una retta)
Cosa c’entra tutto ciò?
• Riassumiamo:
– Se q è il vettore di una query e L è la matrice termini-
documenti, il prodotto LT
q fornisce una matrice delle
similarità fra q e i documenti della collezione, secondo il
modello vettoriale standard
– Ma LT
q è una trasformazione lineare, e, se λi e vi sono
autovalori e autovettori di LT
=A, allora
– Se posso trascurare alcuni autovalori, allora è come se
proiettassi q in uno spazio a dimensioni ridotte: ma
come?
– Servono altre definizioni .. ( e ci resta da capire cosa
c’entrano le matrici delle co-occorrenze LT
L e LLT
viste
Aq = λ1(v1 ⋅q) + λ2(v2 ⋅q) +...λk (vk ⋅q)
Valori e vettori singolari
• Data una matrice L nxm, la radice quadrata degli n
autovalori di LT
L si dicono valori singolari di L
• Gli n autovettori di LT
L si dicono vettori singolari
destri
• Gli m autovettori di LLT
si dicono vettori singolari
sinistri
• E finalmente…
Singular Value Decomposition!!
Sia L una matrice nxm
Data una matrice nxn, esistono 3 matrici U, Σ e VT
, tali che:
L = UΣVT
• U e V sono le matrici dei vettori singolari sinistro e destro di
L (cioè gli autovettori o eigenvectors di LLT
e LT
L,
rispettivamente)
• Le colonne di U e le righe di V definiscono uno spazio
ortonormale, cioè: U-1
=VT
• Σ è la matrice diagonale dei valori singolari σ di L
I valori singolari sono le radici degli autovalori di LLT
o LT
L
(si dimostra che sono uguali). Poiché LLT
è SIMMETRICA,i suoi
autovalori √σ= λ saranno reali decrescenti lungo Σ.
Riduzione del rango in LSI
Gli elementi diagonali in Σ sono positivi e decrescenti in
grandezza. Si prendono i primi k e gli altri vengono posti a zero.
Si cancellano le righe e le colonne zero di Σ e le corrispondenti
righe e colonne di U e V. Si ottiene:
L ≈ U’Σ’VT’
Interpretazione
Se il valore k è selezionato opportunamente, l’aspettativa è che la
nuova matrice mantenga l’informazione semantica di L, ma
elimini il rumore derivante dalla sinonimia (perché sensi diversi
avranno co-occorrenze diverse) e riconosca la dipendenza fra
termini co-occorrenti.
^
ˆL
Riduzione del rango
L =
t x d t x k k x dk x k
k è il numero di valori singolari scelti per rappresentare i
concetti nell’insieme dei documenti
In genere, k « d.
U’
Σ’ V’T
Ma insomma, cosa c’entrano le
co-occorrenze????
• Abbiamo detto che U, Σ e V sono matrici degli
autovalori e autovettori di LT
L e LLT
(nonchè
valori e vettori singolari di L).
• Ma come calcoliamo, ad es. gli autovalori di
LT
L?
Ricordate come è fatta la matrice
LT
L
w11 w12 w13
w12 w22 w23
w13 w23 w33
Per trovare gli autovalori, devo calcolare
il determinante di:
w11-λ w12 w13
w12 w22 -λ w23
w13 w23 w33 -λ
L’equazione caratteristica di terzo grado è data, in questo esempio, da:
(w11 −λ) (w22 −λ)(w33 −λ)−2w23[ ] −w12 w12(w23 −λ)−w23w13[ ] +w13(w12w23 −w22w13)
Che come si vede, contiene prodotti di co-occorrenze: gli
autovalori di grandezza maggiore (o vettori singolari di L)
saranno determinati dai prodotti di co-occorrenze tutte non nulle
Esempio LLT
(ricordate?)
2 2 0
2 2 0
0 0 1
Si vede chiaramente che esistono
due dimensioni: quella di w1 e w2
(w12), e quella di w3
w11 w12 w13
w12 w22 w23
w13 w23 w33
Calcolando autovalori e autovettori su:
http://www.bluebit.gr/matrix-calculator/calculate.aspx
si ottiene il polinomio caratteristico:
Con autovalori 4, 1 e 0.
λ3 −5λ2 + 4λ
Matrice LLT
Autovalori e autovettori reali
La matrice L termini-documenti
Autovettori di LLT
o
vettori singolari sinistri di L
Radici degli autovalori di LLT
o valori singolari di L
Autovettori di LTL o vettori
singolari destri
SVD nel LSI: conclusioni
• Nel modello vettoriale, queries e documenti sono
vettori in uno spazio le cui dimensioni sono i termini,
considerati fra loro ortonormali, cioè indipendenti fra
loro
• LSI trasferisce questi vettori in uno spazio le cui
dimensioni sono concetti, cioè co-occorrenze fra
termini
• La riduzione di rango ha l’effetto di eliminare i concetti
poco rilevanti
Riassunto del Procedimento
• L=UΣVT
dove L nxm
1. Calcola la trasposta LT
di L
2. Determina gli autovalori di LT
L e ordinali in ordine
decrescente. Calcola le radici quadrate.
3. Costruisci la matrice Σ
4. Calcola gli autovettori di LT
L. Questi sono le colonne
di V. Genera VT
5. Calcola U=AVΣ-1
Esempio per una matrice termini
documenti
query
L
1. Calcolo UΣVT
2. Approssimazione di rango 2
3a. Calcolo similarità query-
documento
• Per N documenti, V contiene N righe, ognuna
delle quali rappresenta le coordinate del
documento diproiettato nella dimensione LSI
• Una query viene trattata come un documento e
anch’essa proiettata nello spazio LSI
3b. L=USVT
• Se L=UΣVT
si ha anche che
• V = LT
UΣ-1
• d = dT
UΣ-1
• q = qT
UΣ-1
• Dopo la riduzione di rango k:
– d = dT
UkΣk
-1
– q = qT
UkΣk
-1
– sim(q, d) = sim(qT
UkΣk
-1
, dT
UkΣk
-1
)
3c. Calcolo del query vector
q = qT
UkΣk
-1
Vettori della query e dei documenti
nello spazio LSI
Similarità query-documento

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

5.lsi

  • 2. Limiti della ricerca per parole chiave • I metodi di ranking tradizionali calcolano l’attinenza di un documento ad una query sulla base della presenza o meno di parole contenute nella query: un termine o è presente o non lo è • Nel LSI la ricerca avviene per concetti: ma un concetto non è l’astrazione-generalizazzione di un termine (es: golf vestiario) bensì un insieme di termini correlati (golf, maglia, vestito) detti co-occorrenze o dominio semantico
  • 3. • Data una collezione di documenti, LSI è in grado di rilevare che alcune n-uple di termini co-occorrono frequentemente (es: gerarchia, ordinamento e classificazione) • Se viene fatta una ricerca con gerarchia, ordinamento vengono “automaticamente” recuperati documenti che contengono anche (e eventualmente solo!) classificazione Dominio Semantico k
  • 4. Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Selezione dei documenti basata sul termine ‘Golf’ Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Base di documenti (20) Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost con il modello keyword vengono estratti 4 documenti
  • 5. Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Selezione basata su ‘Golf’ Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost vediamo quali sono le parole più rilevanti associate a Golf di questi 4 documenti. Esse sono: Car, Topgear and Petrol rank dei doc selezionati Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 wf.idf
  • 6. Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su ‘Golf’ Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost poiché le parole sono pesate anche rispetto al loro idf, risulta che : Car e Topgear sono associate a Golf più di Petrol
  • 7. Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su ‘Golf’ selezione basata sul dominio semantico Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Wheel Topgear GTI Polo Ora cerchiamo ancora nella base di documenti, usando questo insieme di parole che rappresentano il “dominio semantico” di Golf . La lista ora include un nuovo documento, non catturato sulla base della semplice ricerca per keywords.
  • 8. Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su ‘Golf’ selezione basata sul dominio semantico Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Rank 2617 17 030 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Wheel Topgear GTI Polo Usando un ranking basato sulla co-occorrenza dei termini possiamo assegnare un miglior ranking ai documenti. Notate che: il documento più rilevante non contiene la parola Golf, e che uno dei documenti che la conteneva scompare (era infatti un senso “spurio”di Golf).
  • 11. Co-occorrenze dei termini nei documenti == ΛΛΑ Τ ijA = T ikL kjL T L L ∑∑ == == n k kjki n k kj T ikij LLLLA 11 Aij è il numero di co-occorrenze nei documenti fra il termine i ed il termine j
  • 12. A trees,graph = (000001110)T •(000000111)=2
  • 13. Esempio 2 2 2 0 2 2 0 0 0 1 w1 w2 w3 d1 d2 d3 1 0 1 1 0 1 0 1 0 LLT 1 1 0 0 0 1 1 1 0 = w11 w12 w13 w21 w22 w23 w31 w32 w33 Ma wij=wji quindi w11 w12 w13 w12 w22 w23 w13 w23 w33Simmetrica!
  • 14. Matrici delle co-occorrenze • Se L è una matrice nxm (termini x documenti) • Allora: – LT L è la matrice le cui righe ai rappresentano le co- occorrenze di termini fra di e dj, per ogni dj. Dato un documento, indica quali sono i documenti più simili. – LLT è la matrice le cui righe ai rappresentano le co- occorrenze nei documenti fra ti e tj per ogni tj. Dato un termine, indica quali sono i termini più correlati. – Usando, ad esempio, la matrice LLT potrei “espandere” ogni termine con quelli aventi il più alto valore di correlazione (cioè, aggiungere alla query in cui compare la parola w anche quelle che co-occorrono con w più frequentemente)
  • 15. Osservazione • Tutte le possibili co-occorrenze sarebbero assai di più dei termini singoli (detta L la matrice termini-documenti, dovrei calcolare A=LLT ). • Tuttavia, sebbene la matrice A ha dimensionalità elevata la maggioranza delle celle hanno valore zero • Con i metodi classici ogni documento o query è un vettore in uno spazio t-dimensionale • LSI tenta di proiettare questo spazio in uno spazio di dimensione ridotta, in cui, anziché termini, le dimensioni rappresentano co-occorrenze o dominii semantici, ma solo quelli preponderanti • Tuttavia LSI utilizza per questa riduzione di rango solo strumenti matematici (singular value decomposition, SVD).
  • 16. LT L c13 c23 c12 c123 d1 d2 d3 c13 c23 c123 c23 Similarità fra documenti come diagramma di Venn Similarità fra documenti come sim fra vettori nello spazio delle co-occorrenze Cosa significa “proiettare in uno spazio di concetti”
  • 17. Singual value decomposition • Come detto, LSI proietta la matrice L termini- documenti in uno spazio concettuale di dimensioni ridotte, dove le dimensioni sono gruppi di concetti che co-occorrono, definendo un “dominio semantico” • Il metodo utilizzato per effettuare questa proiezione è la singular value decomposition, un metodo algebrico. • Ci occorre un piccolo ripasso di algebra per capire questo metodo.
  • 18. Ripasso di algebra • Autovalori • Autovettori • Vettori e valori singolari
  • 19. Autovalori & Autovettori Ha soluzioni non nulle se Se S mxm, questa è un’equazione di grado m in λ che ha al più m soluzioni distinte (le radici del polinomio caratteristico) – possono essere complesse anche se S è reale. (right) eigenvector eigenvalue Esempio Eigenvectors o autovettori (di una matrice S) Quanti autovalori al massimo ha S?
  • 20. Esempio: calcolo di Eigenvalues and Eigenvectors • Def: Un vettore v ∈ Rn , v ≠ 0, è un autovettore di una matrice n×n A con corrispondente autovalore λ, se: Av = λv A = 1 −1 3 5 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟⋅v = 1 −3 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟⋅λ = 4 Av = λv 1 −1 3 5 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 1 −3 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟= 4 1 −3 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 1+−3(−1) 3 +5(−3) ⎛ ⎝ ⎜ ⎞ ⎠ ⎟= 4 −12 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 4 −12 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟= 4 −12 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟
  • 21. Esempio di calcolo 0 53 11 0 0 0 53 11 0 10 01 53 11 0)det( 53 11 =         − −− =         −         − =         −         − =−         − = λ λ λ λ λ λΙΑ Α 2,4 0)2)(4( 086 0356 03)5)(1( 21 2 2 == =−− =+− =++− =+−− λλ λλ λλ λλ λλ Ricorda il determinante di una matrice M 2x2 bcad dc ba MM −=== ||δετ 2 e 4 sono i due eigenvalues di A     −= =+ =−−         =                 −−         =                 − −− =− βα βα βα β α β α λ 033 0 0 0 33 11 0 0 253 121 0)( vIA (A − λI)v = 0 1− 4 −1 3 5 − 4 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ α β ⎛ ⎝ ⎜ ⎞ ⎠ ⎟= 0 0 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ −3 −1 3 1 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ α β ⎛ ⎝ ⎜ ⎞ ⎠ ⎟= 0 0 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ −3α −β = 0 3α + β = 0 β = − ⎧ ⎨ ⎩ 3α         − = = β β λ v 22         − = = α α λ 3 41 v Polinomio caratteristico
  • 23. Significato geometrico di autovalori e autovettori • La moltiplicazione di una matrice A mxn per un vettore v è una trasformazione lineare che trasferisce il vettore v dallo spazio Rn a Rm • Gli autovettori sono quei vettorila cui direzione non cambia per effetto della trasformazione A
  • 24. Moltiplicare per una matrice è una trasformazione lineare In questa trasformazione lineare della Gioconda, l'immagine è modificata ma l'asse centrale verticale rimane fisso. Il vettore blu ha cambiato direzione, mentre quello rosso no. Quindi il vettore rosso è un autovettore della trasformazione e quello blu no. Inoltre, poiché il vettore rosso non è stato né allungato, né compresso, né ribaltato, il suo autovalore è 1 (quindi l’autovalore indica una costante di traslazione dei punti dell’immagine nella direzione blu) . Tutti i vettori sull'asse verticale sono multipli scalari del vettore rosso, e sono tutti autovettori. Av=λv
  • 25. Trasformazioni lineari • Se v è un vettore qualsiasi, A una matrice nxm (trasformazione lineare), vi gli autovettori di A e λi gli autovalori, la trasformazione del vettore è completamente definita da autovalori e autovettori di A: A r v = λ1(v1⋅ v) + λ2(v2 ⋅ v) + ...λk(vk ⋅ v)
  • 26. Riduzione della dimensionalità (o approssimazione di rango k di una matrice) Moltiplicare una matrice per un vettore ha due effetti sul vettore: rotazione (il vettore cambia coordinate) e scalatura (la lunghezza del vettore cambia). La massima compressione e rotazione dipendono dagli autovalori della matrice (vedi formula precedente)
  • 27. Riduzione della dimensionalità (o approssimazione di rango k di una matrice) Nello schiacciamento e compressione il ruolo principale lo giocano i valori singolari più grandi della matrice (s1 e s2 in figura) Gli autovalori descrivono dunque quanto la matrice distorce (riduce e comprime) il vettore originario
  • 28. Riduzione della dimensionalità (o approssimazione di rango k di una matrice) Qui invece supponiamo che, invece di ruotare un vettore, ruotiamo un insieme di vettori ortonormali. Se, ad es, di tre autovalori uno lo trascuriamo perché più piccolo, è come se rimuovessimo una dimensione (se invece eliminiamo due autovalori, l’ellissoide si schiaccia su una retta)
  • 29. Cosa c’entra tutto ciò? • Riassumiamo: – Se q è il vettore di una query e L è la matrice termini- documenti, il prodotto LT q fornisce una matrice delle similarità fra q e i documenti della collezione, secondo il modello vettoriale standard – Ma LT q è una trasformazione lineare, e, se λi e vi sono autovalori e autovettori di LT =A, allora – Se posso trascurare alcuni autovalori, allora è come se proiettassi q in uno spazio a dimensioni ridotte: ma come? – Servono altre definizioni .. ( e ci resta da capire cosa c’entrano le matrici delle co-occorrenze LT L e LLT viste Aq = λ1(v1 ⋅q) + λ2(v2 ⋅q) +...λk (vk ⋅q)
  • 30. Valori e vettori singolari • Data una matrice L nxm, la radice quadrata degli n autovalori di LT L si dicono valori singolari di L • Gli n autovettori di LT L si dicono vettori singolari destri • Gli m autovettori di LLT si dicono vettori singolari sinistri • E finalmente…
  • 31. Singular Value Decomposition!! Sia L una matrice nxm Data una matrice nxn, esistono 3 matrici U, Σ e VT , tali che: L = UΣVT • U e V sono le matrici dei vettori singolari sinistro e destro di L (cioè gli autovettori o eigenvectors di LLT e LT L, rispettivamente) • Le colonne di U e le righe di V definiscono uno spazio ortonormale, cioè: U-1 =VT • Σ è la matrice diagonale dei valori singolari σ di L I valori singolari sono le radici degli autovalori di LLT o LT L (si dimostra che sono uguali). Poiché LLT è SIMMETRICA,i suoi autovalori √σ= λ saranno reali decrescenti lungo Σ.
  • 32. Riduzione del rango in LSI Gli elementi diagonali in Σ sono positivi e decrescenti in grandezza. Si prendono i primi k e gli altri vengono posti a zero. Si cancellano le righe e le colonne zero di Σ e le corrispondenti righe e colonne di U e V. Si ottiene: L ≈ U’Σ’VT’ Interpretazione Se il valore k è selezionato opportunamente, l’aspettativa è che la nuova matrice mantenga l’informazione semantica di L, ma elimini il rumore derivante dalla sinonimia (perché sensi diversi avranno co-occorrenze diverse) e riconosca la dipendenza fra termini co-occorrenti. ^ ˆL
  • 33. Riduzione del rango L = t x d t x k k x dk x k k è il numero di valori singolari scelti per rappresentare i concetti nell’insieme dei documenti In genere, k « d. U’ Σ’ V’T
  • 34. Ma insomma, cosa c’entrano le co-occorrenze???? • Abbiamo detto che U, Σ e V sono matrici degli autovalori e autovettori di LT L e LLT (nonchè valori e vettori singolari di L). • Ma come calcoliamo, ad es. gli autovalori di LT L?
  • 35. Ricordate come è fatta la matrice LT L w11 w12 w13 w12 w22 w23 w13 w23 w33 Per trovare gli autovalori, devo calcolare il determinante di: w11-λ w12 w13 w12 w22 -λ w23 w13 w23 w33 -λ L’equazione caratteristica di terzo grado è data, in questo esempio, da: (w11 −λ) (w22 −λ)(w33 −λ)−2w23[ ] −w12 w12(w23 −λ)−w23w13[ ] +w13(w12w23 −w22w13) Che come si vede, contiene prodotti di co-occorrenze: gli autovalori di grandezza maggiore (o vettori singolari di L) saranno determinati dai prodotti di co-occorrenze tutte non nulle
  • 36. Esempio LLT (ricordate?) 2 2 0 2 2 0 0 0 1 Si vede chiaramente che esistono due dimensioni: quella di w1 e w2 (w12), e quella di w3 w11 w12 w13 w12 w22 w23 w13 w23 w33 Calcolando autovalori e autovettori su: http://www.bluebit.gr/matrix-calculator/calculate.aspx si ottiene il polinomio caratteristico: Con autovalori 4, 1 e 0. λ3 −5λ2 + 4λ
  • 37. Matrice LLT Autovalori e autovettori reali
  • 38. La matrice L termini-documenti Autovettori di LLT o vettori singolari sinistri di L Radici degli autovalori di LLT o valori singolari di L Autovettori di LTL o vettori singolari destri
  • 39. SVD nel LSI: conclusioni • Nel modello vettoriale, queries e documenti sono vettori in uno spazio le cui dimensioni sono i termini, considerati fra loro ortonormali, cioè indipendenti fra loro • LSI trasferisce questi vettori in uno spazio le cui dimensioni sono concetti, cioè co-occorrenze fra termini • La riduzione di rango ha l’effetto di eliminare i concetti poco rilevanti
  • 40. Riassunto del Procedimento • L=UΣVT dove L nxm 1. Calcola la trasposta LT di L 2. Determina gli autovalori di LT L e ordinali in ordine decrescente. Calcola le radici quadrate. 3. Costruisci la matrice Σ 4. Calcola gli autovettori di LT L. Questi sono le colonne di V. Genera VT 5. Calcola U=AVΣ-1
  • 41. Esempio per una matrice termini documenti query L
  • 44. 3a. Calcolo similarità query- documento • Per N documenti, V contiene N righe, ognuna delle quali rappresenta le coordinate del documento diproiettato nella dimensione LSI • Una query viene trattata come un documento e anch’essa proiettata nello spazio LSI
  • 45. 3b. L=USVT • Se L=UΣVT si ha anche che • V = LT UΣ-1 • d = dT UΣ-1 • q = qT UΣ-1 • Dopo la riduzione di rango k: – d = dT UkΣk -1 – q = qT UkΣk -1 – sim(q, d) = sim(qT UkΣk -1 , dT UkΣk -1 )
  • 46. 3c. Calcolo del query vector q = qT UkΣk -1
  • 47. Vettori della query e dei documenti nello spazio LSI