SlideShare a Scribd company logo
1 of 111
Download to read offline
Algoritmi di feature selection
Simone Rutigliano
Corso di Laurea in Informatica Magistrale
2 aprile 2015
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 1 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 2 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Relief
Valuta gli attributi sulla base di quanto siano in grado di
discriminare le istanze vicine
Data una istanza, cerca:
nearest hit: l’istanza pi`u vicina della stessa classe
nearest miss: l’istanza pi`u vicina di classe diversa
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 3 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Caratteristiche
Qualit`a:
le feature possono essere anche dipendenti tra loro
complessit`a O(n) in tempo dove n indica il numero di feature
tolleranza al rumore
robusta alle interazioni tra feature
applicabile sia a dati binari che a dati continui
Limiti:
Non discrimina le feature ridondanti
Un basso numero di istanze di training pu`o alterare i risultati
Limitato a problemi di classificazione binaria
Non tratta dati incompleti
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 4 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Caratteristiche
Qualit`a:
le feature possono essere anche dipendenti tra loro
complessit`a O(n) in tempo dove n indica il numero di feature
tolleranza al rumore
robusta alle interazioni tra feature
applicabile sia a dati binari che a dati continui
Limiti:
Non discrimina le feature ridondanti
Un basso numero di istanze di training pu`o alterare i risultati
Limitato a problemi di classificazione binaria
Non tratta dati incompleti
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 4 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
ReliefF - Idea di base
Trova i primi k pi`u vicini di ogni classe ottenendo il vettore
probabilistico dei pesi di ogni classe
Estensione di Relief
Fornisce stime probabilistiche pi`u affidabili
Permette di trattare dati incompleti
Gestisce dataset multi-classe
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 5 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
ReliefF - Idea di base
Trova i primi k pi`u vicini di ogni classe ottenendo il vettore
probabilistico dei pesi di ogni classe
Estensione di Relief
Fornisce stime probabilistiche pi`u affidabili
Permette di trattare dati incompleti
Gestisce dataset multi-classe
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 5 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Calcolo
Dato un campione di p istanze estratte dal training set, il valore di
ogni istanza sar`a:
SCr (fi ) =
1
2
p
t=1
d(ft,i − fNM(xt ),i ) − d(ft,i − fNH(xt ),i )
dove:
d : funzione distanza
ft,i : feature i dell’istanza t
NM(xt) : istanze vicine a xt di classe differente
NH(xt) : istanze vicine a xt di della stessa classe
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 6 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Calcolo
Il valore calcolato rappresenta la qualit`a della feature
Un buon attributo deve avere:
valori simili per istanze appartenenti alla stessa classe
ft,i − fNH(xt ),i ≈ 0
valori differenti per istanze appartenenti a classi differenti
|ft,i − fNM(xt ),i | 0
Approccio probabilistico della funzione distanza
Reliefx = P(valori differenti di X | classe differente)−
P(valori differenti di X | stessa classe)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 7 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Missing value
Le probabilit`a condizionate saranno approssimate in base alla
frequenza relativa definita dal training set
Definita la funzione distanza dist(Attribute, Instance1, Instance2)
se una istanza (e.g. I1) ha missing value:
dist(A, I1, I2) = 1 − P(value(A, I2)|class(I1))
se entrambe hanno missing value:
dist(A, I1, I2) = 1−
#values(A)
V
(P(V |class(I1)) x P(V |class(I2)))
dove V rappresenta tutti i possibili valori dell’attributo A
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 8 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Dataset multi-classe
cerca il vicino di classe differente (near missing M(C)) per
ogni classe diversa da quella considerata (R)
verr`a calcolata la media delle probabilit`a di ogni classe
differente
C=class(R)
P(C)
1−P(class(R)) x dist(A, R, M(C))
n
dove n rappresenta la cardinalit`a di C
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 9 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 10 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
mRMR - Idea di base
Consiste nel calcolo della
minima ridondanza tra le features
massima rilevanza delle features con la classe target
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 11 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Mutual Information - Definizione
La mutua informazione rappresenta i bit di informazione che
una delle variabili fornisce riguardo l’altra
Date due variabili casuali X e Y, la mutua informazione `e
definita come
I(X; Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X)
dove le entropie sono calcolate
H(X) = −
i∈X
P(xi ) · log(P(xi ))
H(X, Y ) = −
i∈X j∈Y
P(xi , yj ) · log(P(xi , yj ))
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 12 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Considerazioni
Indipendenza: I(X; Y ) = 0
Simmetria: I(X; Y ) = H(X)−H(X|Y ) = H(Y )−H(Y |X) = I(Y ; X)
Riflessivit`a: I(X; X) = H(X)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 13 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Minima Ridondanza - Definizione
Consiste nel selezionare le features in modo tale che siano tra
loro pi`u dissimilari
Il subset che si otterr`a sar`a il pi`u rappresentativo possibile
dell’intero dataset
Formalmente consiste nel
Calcolare una funzione Red calcolata sul set di feature S
Trovare il subset che minimizza la funzione calcolata
min Red(S)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 14 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo per variabili discrete
Red(S) =
1
|S|2
xi ,xj ∈S
I(xi ; xj )
dove
|S| `e il numero di features presenti nel subset S
xi e xj rappresentano rispettivamente la i-esima e j-esima
feature del subset S
I(xi ; xj ) rappresenta la mutua informazione tra le due feature
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 15 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo per variabili continue
Red(S) =
1
|S|2
xi ,xj ∈S
|c(xi ; xj )|
dove
|S| `e il numero di features presenti nel subset S
xi e xj rappresentano rispettivamente la i-esima e j-esima
feature del subset S
|c(xi ; xj )| indica il valore assoluto del coefficiente di
correlazione di Pearson tra le feature xi e xj
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 16 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Massima Rilevanza - Definizione
Ricercare le feature che riescano ad approssimare la funzione
max Dep(S, c) Dep = I({x1, . . . , xm}; c)
con il valor medio di tutti i valori della mutua informazione tra
le singole feature xi e la classe c
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 17 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo per variabili discrete
In caso di variabili discrete l’obiettivo sar`a massimizzare la funzione
Dep calcolata nel seguente modo
Dep(S, c) =
1
|S|
xi ∈S
I(xi ; c)
dove
S indica il set contenente tutte le features
xi indica la i-sima feature da considerare
c indica la classe target
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 18 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo per variabili continue. . .
Per le variabili continue bisogna usare la F-statistic come misura
per calcolare la rilevanza tra le features xi e la classe target c
F(xi , c) =
K
nk ( ¯xk −¯x)
K−1
σ2
dove:
σ2 = k
(nk −1)σ2
k
n−K
K indica le classi denotate da c
¯x `e il valor medio di xi di tutti i campioni
¯xk `e il valor medio di xi di tutti i campioni di classe k
nk e σk indicano dimensione e varianza della k−classe
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 19 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
. . . calcolo per variabili continue
In caso di variabili continue l’obiettivo sar`a massimizzare la
funzione Dep calcolata nel seguente modo
Dep(S, c) =
1
|S|
xi ∈S
F(xi ; c)
dove
F indica la funzione F − test calcolata sulle feature in
relazione alla classe target
S indica il set contenente tutte le features
xi indica la i-sima feature da considerare
c indica la classe target
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 20 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo mRMR
Variabili discrete
MID - Mutual Information Difference
MIQ - Mutual Information Quotient
Variabili continue
FCD - F-test Correlation Difference
FCQ - F-test Correlation Quotient
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 21 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Discrete - MID
Consiste nel trovare le features che massimizzino la differenza tra
dipendenze e ridondanze di queste features dalla classe target
attraverso il calcolo della mutua informazione
max(Dep(S, c) − Red(S))
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
I(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
I(xi ; xj )
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 22 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Discrete - MIQ
Consiste nel trovare le features che massimizzino il rapporto tra
dipendenze e ridondanze di queste features dalla classe target
attraverso il calcolo della mutua informazione
max
Dep(S, c)
Red(S)
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
I(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
I(xi ; xj )
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 23 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Continuous - FCD
Consiste nel trovare le features che massimizzino la differenza tra
dipendenze e ridondanze di queste features dalla classe target
attraverso il calcolo del F-test
max((Dep(S, c) − Red(S))
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
F(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
|c(xi ; xj )|
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 24 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Continuous - FCQ
Consiste nel trovare le features che massimizzino il rapporto tra
dipendenze e ridondanze di queste features dalla classe target
attraverso il calcolo del F-test
max
Dep(S, c)
Red(S)
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
F(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
|c(xi ; xj )|
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 25 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Benefici
Con lo stesso numero di features, mRMR garantisce maggiore
rappresentativit`a al dataset offrendo una migliore propriet`a di
generalizzazione
Allo stesso modo, possiamo usare un set di feature mRMR pi`u
piccolo per ricoprire in maniera pi`u efficace lo stesso spazio
ricoperto da feature set convenzionale pi`u grande
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 26 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 27 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
CFSubset - Idea alla base
Cerca in maniera esaustiva il subset ottimale che sia in grado di
massimizzare la predizione della classe
minimizzare la ridondanza tra le feature
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 28 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
CFSubset - Calcolo
La funzione di merito associata sar`a
MS =
k · rcf
k + k · (k − 1) · rff
Dove :
rcf : correlazione media tra la classe c e la feature f ∈ S
attributi discreti : Correlazione basata sulla entropia
attributi continui : Correlazione di Pearson
rff : intercorrelazione media feature-feature
k : numero di feature f ∈ S
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 29 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
Correlazione di Pearson
Misura il peso della correlazione lineare tra due variabili
In particolare indica:
Forza della relazione (forte, debole o nulla) → da 0 a 1
Direzione della relazione → positiva(+) o negativa(-)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 30 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
Correlazione di Pearson
Assumptions:
Variabili sono quantitative o ordinali
Seguono una distribuzione normale
Relazione lineare
ρX,Y = i (xi − ¯x)(yi − ¯y)
j (xj − ¯x)2 · k (yk − ¯y)2
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 31 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
In dettaglio ...
Nel caso in cui le due feature siano gi`a entrambe continue, la
correlazione verr`a calcolata con:
rXY =
(x, y)
n · σx σy
dove:
X e Y sono due variabili continue espresse in termini di
deviazioni standard
n rappresenta il numero di osservazioni
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 32 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
... in dettaglio ...
Se uno dei due attributi `e discreto e l’altro continuo, la
correlazione di Pearson calcolata sar`a:
rXY =
k
i=1
p(X = xi ) · rXbi Y
dove Xbi =
1 se X = xi
0 altrimenti
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 33 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
... in dettaglio
Se invece, entrambi gli attributi risultano essere discreti, essi
verranno dapprima discretizzati ed in seguito verr`a calcolata la
correlazione nel seguente modo:
rXY =
k
i=1
m
j=1
p(X = xi , Y = yj ) · rXbi Ybj
dove :
Xbi =
1 se X = xi
0 altrimenti
Ybj =
1 se Y = yj
0 altrimenti
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 34 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
Correlazione basata su entropia
Per attributi di carattere discreto verr`a utilizzato il concetto di
entropia dell’attributo
SU = 2 ·
H(X) + H(Y ) − H(X, Y )
H(Y ) + H(X)
dove:
SU rappresenta la misura di incertezza simmetrica
H(X) : entropia della feature X
H(X, Y ) : entropia congiunta di X e Y (ogni possibile
combinazioni di valori sia di X che di Y)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 35 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 36 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA
Riduce la dimensionalit`a del dataset combinando le variabili in
gioco
Mantiene lo stesso apporto informativo del dataset originale
Le nuove variabili, chiamate Principal Components (PC), sono
non correlate, e sono ordinate in base all’informazione che
essa contiene
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 37 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA - Idea di base
Trova l’asse che meglio rappresenta la pi`u grande variazione
(First principal component) e proietta tutti i punti su
quest’asse
Definisce la nuova dimensionalit`a sulla base degli autovettori
della matrice di covarianza associata
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 38 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA - Algoritmo
1 X ← Creare la matrice istanze/attributi N x d, dove ogni riga
rappresenta l’istanza xn
2 Sottrarre il valor medio x da ogni vettore riga xn ∈ X
3 Σ ← matrice di covarianza di X
4 Trovare gli autovalori e gli autovettori di Σ : a1j , a2j , · · · , adj
5 I primi p autovettori con autovalori pi`u alti formeranno la PC
G ← [a1j , a2j , · · · , apj ] con p < d
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 39 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Propriet`a ottimale della PCA
La matrice G `e costituita dai primi p autovettori della matrice di
covarianza S soddisfano il problema di minimo:
min
G∈ d x p
X − G(G X) 2
F tale che G G = Ip
Proiezione PCA minimizza l’errore di ricostruzione delle proiezioni
lineari della dimensione p
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 40 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Rappresentazione grafica
Restituisce la
proiezione
migliore
Minimizza
l’errore
quadratico
medio
Le principal
component
sono tra loro
ortogonali
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 41 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Principal Component
First Principal component (PC1)
direzione lungo la quale c’`e la maggiore varianza
Second Principal component (PC2)
direzione con la varianza massima trascurata dai dati
ortogonale con PC1
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 42 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Quante componenti considerare?
Si considera la distribuzione degli autovalori
Si mantengono un numero tale di autovettori in grado di
coprire l’80-90% della varianza del dataset
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 43 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA non lineare usando Kernel
PCA tradizionale applica una trasformazione lineare
Potrebbe non essere efficace su dati non lineari
Soluzione: applica una trasformazione non lineare a spazi
dimensionali molto alti
φ : x → φ(x)
Computazionalmente efficiente: applica il kernel trick
riscrittura in termini di prodotto interno
K(xi , xj ) = φ(xi ) · φ(xj )
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 44 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 45 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
χ2
- Idea di base
Verifica se esiste una correlazione tra le feature e l’attributo di
classe usando la statistica χ2
Il test statistico sar`a:
χ2
=
C
i=1
(Oi − Ei )2
Ei
con gradi di libert`a = C − 1
dove
C = numero di categorie
Oi = frequenze osservate per la categoria i
Ei = frequenze attese per la categoria i
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 46 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Area di rigetto
Verranno definite le ipotesi statistiche
H0 : la feature `e dipendente dalla classe target
H1 : la feature `e indipendente dalla classe target
Si rigetta H0 se χ2 > χ2
α
(con C − 1 gradi di libert`a)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 47 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
χ2
nella feature selection
1. Crea la matrice di contingenza (F x C)
2. Esegue la statistica χ2 tra le occorrenze del termine e quelle
della classe
Calcola i gradi di libert`a (df = (#rows-1)(#cols-1))
Ricerca nella χ2
table del valore χ2
α da usare per il confronto
3. Se χ2 > χ2
α l’ipotesi H0 verr`a rigettata
χ2
alto, dipendenza tra la feature e l’attributo di classe alta
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 48 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
χ2
test statistic
Il test statistico sar`a:
χ2
(D, t, c) =
et ∈{0,1} ec ∈{0,1}
(Net ec − Eet ec )2
Eet ec
Dove:
ec =
1 se il documento `e di classe c
0 altrimenti
et =
1 se il termine t `e incluso nel documento
0 altrimenti
N rappresenta la frequenza osservata in D
E rappresenta la frequenza attesa (i.e. E11 `e la frequenza
attesa di t e c che co-occorrono nel documento assumendo
che il termine sia indipendente dalla classe)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 49 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Tabella di contingenza
In una tabella di contingenza:
Le celle contengono il numero di casi che presentano
congiuntamente le due variabili (frequenze di cella)
I totali di riga/colonna sono chiamati frequenze marginali
Le righe/colonne intermedie sono distribuzioni condizionate
X
Y y1 y2 · · · yk totale
x1 f1,1 f1,2 · · · f1,k f1,.
x2 f2,1 f2,2 · · · f2,k f2,.
...
...
...
...
...
...
xh fh,1 fh,2 · · · fh,k fh,.
totale f.,1 f.,2 · · · f.,k 1
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 50 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Esempio
Verificare se esiste correlazione tra:
Hand preference vs. Gender
Hand Preference: Left vs. Right
Gender: Male vs. Female
Le ipotesi da verificare saranno:
H0: Non esiste correlazione tra Hand Preference e Gender
H1: La Hand Preference `e dipendente dal Gender
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 51 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Esempio ...
Risultati campionati nella tabella di contingenza:
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 52 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio ...
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 53 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 54 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 55 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Information Gain - Idea di base
Valuta gli attributi sulla base del guadagno di informazione
che apporta al dataset
Guadagno ottenuto riducendo l’incertezza iniziale
IG(Attr) = Entropy(S) −
v∈Values(Attr)
|Sv |
|S|
· Entropy(Sv )
dove:
S : dataset di training
Attr : rappresenta l’attributo da analizzare
v : valori degli attributi Attr
Sv : subset di istanze con attributo Attr valorizzato con v
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 56 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Entropia
Prendendo in cosiderazione:
S dataset di training
C1 . . . Ck etichette di classe
RF(Ci , S) frequenze relative dei s ∈ S di classe Ci
L’entropia E di S sar`a calcolata come:
E(S) = −
k
i=1
RF(Ci , S) log(RF(Ci , S))
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 57 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Entropia
Misura il quantitativo di incertezza presente in S
High entropy significa che S segue una distribuzione uniforme
RF(C1, S) = · · · = RF(Ck, S)
low entropy significa che S proviene da una distribuzione non
uniforme dove alcuni eventi sono molto pi`u probabili degli altri
RF(Ci , S) RF(Cj , S) ∀i = j
zero entropy significa che S conterr`a eventi certi
annullandone l’incertezza
RF(Ci , S) = 1 RF(Cj , S) = 0 ∀j = i
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 58 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Classificazione binaria
In un problema di classificazione binaria (C1 positivo, C2 negativo)
dove:
p rappresenta la proporzione di esempi positivi in S
n rappresenta la proporzione di esempi negativi in S
L’entropia di S `e computata come:
E(S) = −p · log2p − n · log2n
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 59 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Esempio ...
Day Outlook Temp Humidity Wind PlayTennis
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
D7 Overcast Cool Normal Weak Yes
D8 Sunny Mild High Weak No
D9 Sunny Cold Normal Weak Yes
D10 Rain Mild Normal Strong Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rain Mild High Strong No
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 60 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
... esempio ...
Descrizione del dataset:
istanze di training : 14
istanze classificate come Yes : 9
istanze classificate come No : 5
Entropia del dataset:
E(S) = −
9
14
· log2
9
14
−
5
14
· log2
5
14
= 0.940
Descrizione dell’attributo outlook:
sunny overcast rain
yes 2 4 3
no 3 0 2
tot 5 4 5
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 61 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
... esempio ...
Le entropie dei valori di outlook saranno:
E(sunny) = −
2
5
· log2
2
5
−
3
5
· log2
3
5
= 0.971
E(overcast) = −
4
4
· log2
4
4
−
0
4
· log2
0
4
= 0
E(rain) = −
2
5
· log2
2
5
−
3
5
· log2
3
5
= 0.971
L’entropia totale di outlook sar`a:
E(outlook) =
5
14
· 0.971 +
4
14
· 0 +
5
14
· 0.971 = 0.694
L’information gain ottenuta dall’attributo outlook sar`a:
IG(outlook) = 0.940 − 0.694 = 0.246
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 62 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
... esempio
Eseguendo lo stesso test anche sugli altri attributi otterremo:
IG(temperature) = 0.029
IG(humidity) = 0.151
IG(windy) = 0.048
Quindi il ranking ottenuto sulla base dell’information gain
apportato dagli attributi sar`a:
1 outlook
2 humidity
3 windy
4 temperature
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 63 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 64 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
PageRank
Implementazione del Wrapper Model:
Utilizzare lo stesso algoritmo sia per la feature selection sia
per la fase di raccomandazione
Subset ottimizzato per la raccomandazione
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 65 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Idea di base
Pesatura dei link in base all’importanza del sito da cui proviene
L’importanza di un link da una qualunque sorgente dovrebbe
essere attenuato dal numero dei siti che la sorgente vota
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 66 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Definizione
Indicata con P una generica pagina, il suo punteggio sar`a
r(P) =
Q∈BP
r(Q)
|Q|
dove
BP = { insieme di tutte le pagine puntanti a P}
|Q| = numero degli outlink di Q
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 67 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Calcolo punteggio PageRank . . .
Se abbiamo n pagine P1, P2, . . . , Pn ed assegniamo a ciascuna
pagina un arbitrario punteggio iniziale r0(Pi ) = 1
n
Il punteggio r(P) pu`o essere calcolato mediante la seguente
iterazione:
rj (Pi ) =
Q∈BPi
rj−1(Q)
|Q|
j = 1, 2, 3, . . .
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 68 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . calcolo punteggio PageRank . . .
Ponendo: πj = (rj (P1), rj (P2), . . . , rj (Pn))
Definiamo la matrice di Google per righe P tale che:
pij =
1
Pi
se Pi si connette con la pagina Pj
0 altrimenti
La precedente iterazione si pu`o riscrivere come:
πj = πj−1P
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 69 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . calcolo punteggio PageRank
Se il limite esiste, il vettore PageRank `e definito
π = lim
j→∞
πj
la i-sima componente del vettore PageRank `e il
punteggio(pagerank) della pagina Pi
Per assicurare la convergenza del processo iterativo la matrice
P deve essere modificata
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 70 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Esempio di graph web
1 2
3
54
6
Matrice Google per righe P
P =











0 1
2
1
2 0 0 0
1
2 0 1
2 0 0 0
0 1
2 0 1
2 0 0
0 0 0 0 1
2
1
2
0 0 1
2
1
2 0 0
0 0 0 0 0 1











Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 71 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Matrice Google per righe
La matrice di Google per righe P `e
non-negativa
somma degli elementi sulle righe pari a zero1
o uno
Se la matrice P ha tutte le righe con somma pari a uno allora
si parla di matrice stocastica:
autovalore dominante uguale a 1
iterazione PageRank converge all’autovettore sinistro
normalizzato π = π P t.c. π 1 = 1
1
nodi dangling
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 72 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Esempio nodo dangling
1 2
3
54
6
P =











0 1
2
1
2 0 0 0
1
2 0 1
2 0 0 0
0 1
2 0 1
2 0 0
0 0 0 0 1
2
1
2
0 0 1
2
1
2 0 0
0 0 0 0 0 0











s
Il nodo 6 `e un nodo dangling in quanto non ha outlink
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 73 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Trasformazione Matrice di Google per righe . . .
Stocastica
Sostituire ad ogni riga nulla il vettore 1
n
La nuova matrice stocastica si indica con ¯P
Irriducibile
Aggiungere una matrice di perturbazione E = 11
n
La nuova matrice sar`a uguale a
¯¯P = d ¯P + (1 − d)E d ∈ [0, 1]
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 74 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Trasformazione Matrice di Google per righe
La matrice di Google attualmente utilizzata `e ottenuta
considerando la matrice di perturbazione E = 1v dove v `e un
vettore di personalizzazione dell’utente
¯¯P = d ¯P + (1 − d)1v d ∈ [0, 1]
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 75 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Damping factor d
Fattore il cui valore `e stabilito da Google
Nella documentazione originale fornita dal Searcher il damping
factor `e pari a 0,85 (pu`o subire aggiustamenti a discrezione di
Google)
Attraverso il damping factor, Google pu`o determinare il valore
percentuale di PageRank che transita da una pagina all’altra e
stabilire un valore minimo di PageRank attribuito ad ognuna
delle pagine presenti nei suoi archivi
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 76 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Esempio . . .
Consideriamo l’insieme di rilevanza composto da sei pagine web
aventi la seguente struttura ad hyperlink
1 2
3
56
4
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 77 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Esempio . . .
La matrice di Google per righe corrispondente al grafo sar`a la
seguente
P =











0 1
2
1
2 0 0 0
0 0 0 0 0 0
1
3
1
3 0 0 1
3 0
0 0 0 0 1
2
1
2
0 0 0 1
2 0 1
2
0 0 0 1 0 0











Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 78 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Esempio . . .
Considerato che il nodo 2 `e un nodo dangling allora sar`a necessario
trasformarla in matrice stocastica
1 2
3
56
4
¯P =











0 1
2
1
2 0 0 0
1
6
1
6
1
6
1
6
1
6
1
6
1
3
1
3 0 0 1
3 0
0 0 0 0 1
2
1
2
0 0 0 1
2 0 1
2
0 0 0 1 0 0











Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 79 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Esempio . . .
La matrice stocastica ottenuta `e una matrice riducibile
¯P =











0 1
2
1
2 0 0 0
1
6
1
6
1
6
1
6
1
6
1
6
1
3
1
3 0 0 1
3 0
0 0 0 0 1
2
1
2
0 0 0 1
2 0 1
2
0 0 0 1 0 0











Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 80 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Esempio . . .
Per ottenere una matrice irriducibile settiamo il parametro
d = 0.85 da applicare alla formula 2
¯¯P = 0.85 ∗ ¯P +
0.15 ∗ 11
6
2 ¯¯P = d ¯P + (1−d)11
n
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 81 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Esempio . . .
6 5
4
2
3
2
2
2
1
1
11
1 0.85 · 0 + 0.15 · 1
6
2 0.85 · 1
2 + 0.15 · 1
6
3 0.85 · 1 + 0.15 · 1
6
0.85 ∗






...
...
...
...
. . . 0 1
2
1
2
. . . 1
2 0 1
2
. . . 1 0 0






+ 0.15 ∗






...
...
...
...
. . . 1
6
1
6
1
6
. . . 1
6
1
6
1
6
. . . 1
6
1
6
1
6






Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 82 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Esempio
Il vettore di PageRank associato alla precedente matrice sar`a
π = (0.3721 0.05396 0.0415 0.375 0.206 0.286)
PageRank indipendente dalla query
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 83 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Esempio di raccomandazione . . .
Data una query contenente i termini t1 e t2
Inverted term-document associato sar`a
t1 −→ doc1, doc4, doc6
t2 −→ doc1, doc3
...
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 84 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Esempio di raccomandazione
Calcoliamo l’insieme di rilevanza per la query q = (t1, t2)
Insieme di rilevanza {1 3 4 6}
I PageRank dei 4 documenti possono essere confrontati per
individuare quale dei documenti `e il pi`u rilevante
ordinare le componenti del vettore pagerank associate ai
documenti selezionati in modo decrescente
π4 π6 π3 π1
doc4 −→ documento pi`u rilevante
seguono doc6, doc3, doc1
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 85 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 86 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Classificatore lineare
Definito un dataset etichettato in maniera binaria
Etichette di classe:
istanze negative -1
istanze positive +1
Trovare una retta che sia in grado di classificare i dati in maniera
corretta
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 87 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Classificatore lineare
Entrambe le soluzioni risultano corrette
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 88 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Classificatore lineare
In realt`a le soluzioni che possono soddisfare il problema posso
essere potenzialmente infinite
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 89 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Support Vector Machine (SVM) - Idea di base
Un SVM lineare `e un classificatore che riesce a trovare la retta
classificante con il pi`u ampio margine possibile
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 90 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizioni
Un vettore W in uno spazio d-dimensionale
rappresenta una lista di d numeri, e.g.
W = (−1, 2)
Vettore `e un segmento orientato nello spazio
La norma del vettore W rappresenta la sua
lunghezza
W X : proiezione dell’asse
X su W
W X = 0 → punti che si
intersecano con l’asse
W X = 1 : linea parallela a
W X = 0 shiftata di 1
W
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 91 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM - boundary e margini
Trovare il coefficiente angolare della retta (W ) e l’offset della retta
(b) tale che:
tutti gli esempi positivi (X,Y=1) ricadano nella zona rossa
tutti gli esempi negativi (X,Y=-1) ricadano nella zona blu
il margine M sia massimizzato
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 92 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM come ottimizzazione di vincoli
Variabili:
Vettore W
offset della retta b
N punti (Xi , Yi ) dove Yi = {−1, 1}
Funzione obiettivo:
max
2
W
→ min W
Vincoli da considerare:
∀i se Yi =
1 W Xi + b ≥ 1
−1 W Xi + b ≤ −1
unificabile in:
Yi (W Xi + b) ≥ 1
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 93 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM come Quadratic Program
Funzione obiettivo quadratica
Vincoli lineari
Questo problema `e conosciuto come Quadratic Program
(QP) per il quale esistono algoritmi che ricercano la soluzione
globale pi`u efficiente
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 94 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Casi non separabili
Nel caso in cui ci dovessimo trovare in questa situazione
Esistono due possibili soluzioni
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 95 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM con slack variable
Rilassare i vincoli
Per un dato boundary (W , b) si andranno a calcolare quante
misclassification sono state considerate
I vincoli diventeranno:
Yi (W Xi + b) ≥ 1 − i
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 96 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM con slack variable
Il nuovo obiettivo diventa quindi:
Minimizzare gli errori di misclassification e le istanze presenti
all’interno dei margini
min
w
w 2
+C
i
i
C indica il trade-off tra la larghezza dei margini e le
misclassification
In questo caso verr`a aggiunto un ulteriore vincolo
∀i i ≥ 0
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 97 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM con kernel trick
Il prodotto scalare viene tramutato in una funzione kernel non
lineare φ
L’algoritmo crea l’iperpiano che massimizza i margini nel
nuovo spazio delle feature trasformato
φ
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 98 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Ricapitolando
SVM massimizza il margine di separazione tra gli iperpiani
La funzione di decisione viene creata sulla base del subset di
esempi (support vectors)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 99 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 100 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Gain Ratio - Idea di base
Estensione dell’information gain classico
Mira a penalizzare gli attributi con un numero elevato di valori
Normalizza l’InfoGain usando l’entropia di S in relazione
all’attributo Attr (Split information)
SplitInformation(S, Attr) = −
v∈Values(Attr)
|Sv |
|S|
log
|Sv |
|S|
Definizione di GainRatio:
GainRatio(S, Attr) =
IG(S, Attr)
SplitInformation(S, Attr)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 101 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Esempio ...
Riprendendo l’esempio definito in precedenza
Day Outlook Temp Humidity Wind PlayTennis
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
D7 Overcast Cool Normal Weak Yes
D8 Sunny Mild High Weak No
D9 Sunny Cold Normal Weak Yes
D10 Rain Mild Normal Strong Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rain Mild High Strong No
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 102 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio ...
Descrizione del dataset:
istanze di training : 14
istanze classificate come Yes : 9
istanze classificate come No : 5
Descrizione dell’attributo outlook:
sunny overcast rain
yes 2 4 3
no 3 0 2
tot 5 4 5
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 103 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio ...
La Split information dell’attributo outlook sar`a:
SI(S, outlook) = SI(S, sunny)+SI(S, overcast)+SI(S, rain) = 1.577
dove:
SI(S, sunny): − 5
14 · log2
5
14 = 0, 5305
SI(S, overcast): − 4
14 · log2
4
14 = 0, 5160
SI(S, rain): − 5
14 · log2
5
14 = 0, 5305
Quindi la gain ratio dell’attributo outlook sar`a:
GainRatio(S, outlook) =
IG(S, outlook)
SI(S, outlook)
=
0.246
1.577
= 0.156
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 104 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio
Usando l’approccio del Gain Ratio il nuovo ranking sar`a:
GainRatio(S, outlook) =
IG(S, outlook)
SI(S, outlook)
=
0.246
1.577
= 0.156
GainRatio(S, humidity) =
IG(S, humidity)
SI(S, humidity)
=
0.151
1
= 0.151
GainRatio(S, wind) =
IG(S, wind)
SI(S, wind)
=
0.048
0.9
= 0.053
GainRatio(S, temperature) =
IG(S, temperature)
SI(S, temperature)
=
0.029
1.788
= 0.016
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 105 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Ricapitolando
Di seguito sono mostrati gli attributi con i rispettivi valori e il
numero di istanze avvalorate in quel modo
outlook



sunny : 5
overcast : 4
rainy : 5
humidity
high : 7
normal : 7
windy
strong : 6
weak : 8
temperature



hot : 4
mild : 6
cool : 3
cold : 1
InfoGain GainRatio
Outlook .246 .156
humidity .151 .151
windy .048 .053
temperature .029 .016
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 106 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
References I
Monica Bianchini, Marco Gori, and Franco Scarselli.
Inside pagerank.
ACM Trans. Internet Technol., 5(1):92–128, February 2005.
Isabelle Guyon, Jason Weston, Stephen Barnhill, and Vladimir Vapnik.
Gene selection for cancer classification using support vector machines.
Machine learning, 46(1-3):389–422, 2002.
M. A. Hall.
Correlation-based Feature Subset Selection for Machine Learning.
PhD thesis, University of Waikato, Hamilton, New Zealand, 1998.
Harold Hotelling.
Analysis of a complex of statistical variables into principal components.
Journal of educational psychology, 24(6):417, 1933.
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 107 / 108
ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
References II
Igor Kononenko, Edvard ˇSimec, and Marko Robnik-ˇSikonja.
Overcoming the myopia of inductive learning algorithms with relieff.
Applied Intelligence, 7(1):39–55, 1997.
Hanchuan Peng, Fuhui Long, and Chris Ding.
Feature selection based on mutual information: criteria of
max-dependency, max-relevance, and min-redundancy.
IEEE Transactions on Pattern Analysis and Machine Intelligence,
27:1226–1238, 2005.
George Waddel Snedecor and William G. Cochran.
Statistical methods.
Iowa State University Press, 1989.
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 108 / 108

More Related Content

Viewers also liked (8)

Wrapper feature selection method
Wrapper feature selection methodWrapper feature selection method
Wrapper feature selection method
 
22 Machine Learning Feature Selection
22 Machine Learning Feature Selection22 Machine Learning Feature Selection
22 Machine Learning Feature Selection
 
Branch And Bound and Beam Search Feature Selection Algorithms
Branch And Bound and Beam Search Feature Selection AlgorithmsBranch And Bound and Beam Search Feature Selection Algorithms
Branch And Bound and Beam Search Feature Selection Algorithms
 
Feature selection
Feature selectionFeature selection
Feature selection
 
Feature selection concepts and methods
Feature selection concepts and methodsFeature selection concepts and methods
Feature selection concepts and methods
 
Chi square test final
Chi square test finalChi square test final
Chi square test final
 
Chi square test
Chi square testChi square test
Chi square test
 
Chi Square Worked Example
Chi Square Worked ExampleChi Square Worked Example
Chi Square Worked Example
 

Features Selection's algorithms

  • 1. Algoritmi di feature selection Simone Rutigliano Corso di Laurea in Informatica Magistrale 2 aprile 2015
  • 2. Outline 1. ReliefF Relief Calcoli Missing value Multiclass 2. mRMR Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici 3. CFSubset Correlazioni 4. PCA Analisi 5. Chi-Squared Esempio 6. Info Gain Entropia Esempio 7. PageRank Definizione Calcolo Esempio 8. SVM 9. Gain Ratio Esempio Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 1 / 108
  • 3. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Relief Calcoli Missing value Multiclass Outline 1. ReliefF Relief Calcoli Missing value Multiclass 2. mRMR Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici 3. CFSubset Correlazioni 4. PCA Analisi 5. Chi-Squared Esempio 6. Info Gain Entropia Esempio 7. PageRank Definizione Calcolo Esempio 8. SVM 9. Gain Ratio Esempio Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 2 / 108
  • 4. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Relief Calcoli Missing value Multiclass Relief Valuta gli attributi sulla base di quanto siano in grado di discriminare le istanze vicine Data una istanza, cerca: nearest hit: l’istanza pi`u vicina della stessa classe nearest miss: l’istanza pi`u vicina di classe diversa Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 3 / 108
  • 5. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Relief Calcoli Missing value Multiclass Caratteristiche Qualit`a: le feature possono essere anche dipendenti tra loro complessit`a O(n) in tempo dove n indica il numero di feature tolleranza al rumore robusta alle interazioni tra feature applicabile sia a dati binari che a dati continui Limiti: Non discrimina le feature ridondanti Un basso numero di istanze di training pu`o alterare i risultati Limitato a problemi di classificazione binaria Non tratta dati incompleti Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 4 / 108
  • 6. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Relief Calcoli Missing value Multiclass Caratteristiche Qualit`a: le feature possono essere anche dipendenti tra loro complessit`a O(n) in tempo dove n indica il numero di feature tolleranza al rumore robusta alle interazioni tra feature applicabile sia a dati binari che a dati continui Limiti: Non discrimina le feature ridondanti Un basso numero di istanze di training pu`o alterare i risultati Limitato a problemi di classificazione binaria Non tratta dati incompleti Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 4 / 108
  • 7. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Relief Calcoli Missing value Multiclass ReliefF - Idea di base Trova i primi k pi`u vicini di ogni classe ottenendo il vettore probabilistico dei pesi di ogni classe Estensione di Relief Fornisce stime probabilistiche pi`u affidabili Permette di trattare dati incompleti Gestisce dataset multi-classe Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 5 / 108
  • 8. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Relief Calcoli Missing value Multiclass ReliefF - Idea di base Trova i primi k pi`u vicini di ogni classe ottenendo il vettore probabilistico dei pesi di ogni classe Estensione di Relief Fornisce stime probabilistiche pi`u affidabili Permette di trattare dati incompleti Gestisce dataset multi-classe Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 5 / 108
  • 9. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Relief Calcoli Missing value Multiclass Calcolo Dato un campione di p istanze estratte dal training set, il valore di ogni istanza sar`a: SCr (fi ) = 1 2 p t=1 d(ft,i − fNM(xt ),i ) − d(ft,i − fNH(xt ),i ) dove: d : funzione distanza ft,i : feature i dell’istanza t NM(xt) : istanze vicine a xt di classe differente NH(xt) : istanze vicine a xt di della stessa classe Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 6 / 108
  • 10. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Relief Calcoli Missing value Multiclass Calcolo Il valore calcolato rappresenta la qualit`a della feature Un buon attributo deve avere: valori simili per istanze appartenenti alla stessa classe ft,i − fNH(xt ),i ≈ 0 valori differenti per istanze appartenenti a classi differenti |ft,i − fNM(xt ),i | 0 Approccio probabilistico della funzione distanza Reliefx = P(valori differenti di X | classe differente)− P(valori differenti di X | stessa classe) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 7 / 108
  • 11. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Relief Calcoli Missing value Multiclass Missing value Le probabilit`a condizionate saranno approssimate in base alla frequenza relativa definita dal training set Definita la funzione distanza dist(Attribute, Instance1, Instance2) se una istanza (e.g. I1) ha missing value: dist(A, I1, I2) = 1 − P(value(A, I2)|class(I1)) se entrambe hanno missing value: dist(A, I1, I2) = 1− #values(A) V (P(V |class(I1)) x P(V |class(I2))) dove V rappresenta tutti i possibili valori dell’attributo A Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 8 / 108
  • 12. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Relief Calcoli Missing value Multiclass Dataset multi-classe cerca il vicino di classe differente (near missing M(C)) per ogni classe diversa da quella considerata (R) verr`a calcolata la media delle probabilit`a di ogni classe differente C=class(R) P(C) 1−P(class(R)) x dist(A, R, M(C)) n dove n rappresenta la cardinalit`a di C Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 9 / 108
  • 13. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Outline 1. ReliefF Relief Calcoli Missing value Multiclass 2. mRMR Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici 3. CFSubset Correlazioni 4. PCA Analisi 5. Chi-Squared Esempio 6. Info Gain Entropia Esempio 7. PageRank Definizione Calcolo Esempio 8. SVM 9. Gain Ratio Esempio Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 10 / 108
  • 14. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici mRMR - Idea di base Consiste nel calcolo della minima ridondanza tra le features massima rilevanza delle features con la classe target Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 11 / 108
  • 15. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Mutual Information - Definizione La mutua informazione rappresenta i bit di informazione che una delle variabili fornisce riguardo l’altra Date due variabili casuali X e Y, la mutua informazione `e definita come I(X; Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X) dove le entropie sono calcolate H(X) = − i∈X P(xi ) · log(P(xi )) H(X, Y ) = − i∈X j∈Y P(xi , yj ) · log(P(xi , yj )) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 12 / 108
  • 16. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Considerazioni Indipendenza: I(X; Y ) = 0 Simmetria: I(X; Y ) = H(X)−H(X|Y ) = H(Y )−H(Y |X) = I(Y ; X) Riflessivit`a: I(X; X) = H(X) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 13 / 108
  • 17. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Minima Ridondanza - Definizione Consiste nel selezionare le features in modo tale che siano tra loro pi`u dissimilari Il subset che si otterr`a sar`a il pi`u rappresentativo possibile dell’intero dataset Formalmente consiste nel Calcolare una funzione Red calcolata sul set di feature S Trovare il subset che minimizza la funzione calcolata min Red(S) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 14 / 108
  • 18. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Calcolo per variabili discrete Red(S) = 1 |S|2 xi ,xj ∈S I(xi ; xj ) dove |S| `e il numero di features presenti nel subset S xi e xj rappresentano rispettivamente la i-esima e j-esima feature del subset S I(xi ; xj ) rappresenta la mutua informazione tra le due feature Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 15 / 108
  • 19. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Calcolo per variabili continue Red(S) = 1 |S|2 xi ,xj ∈S |c(xi ; xj )| dove |S| `e il numero di features presenti nel subset S xi e xj rappresentano rispettivamente la i-esima e j-esima feature del subset S |c(xi ; xj )| indica il valore assoluto del coefficiente di correlazione di Pearson tra le feature xi e xj Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 16 / 108
  • 20. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Massima Rilevanza - Definizione Ricercare le feature che riescano ad approssimare la funzione max Dep(S, c) Dep = I({x1, . . . , xm}; c) con il valor medio di tutti i valori della mutua informazione tra le singole feature xi e la classe c Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 17 / 108
  • 21. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Calcolo per variabili discrete In caso di variabili discrete l’obiettivo sar`a massimizzare la funzione Dep calcolata nel seguente modo Dep(S, c) = 1 |S| xi ∈S I(xi ; c) dove S indica il set contenente tutte le features xi indica la i-sima feature da considerare c indica la classe target Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 18 / 108
  • 22. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Calcolo per variabili continue. . . Per le variabili continue bisogna usare la F-statistic come misura per calcolare la rilevanza tra le features xi e la classe target c F(xi , c) = K nk ( ¯xk −¯x) K−1 σ2 dove: σ2 = k (nk −1)σ2 k n−K K indica le classi denotate da c ¯x `e il valor medio di xi di tutti i campioni ¯xk `e il valor medio di xi di tutti i campioni di classe k nk e σk indicano dimensione e varianza della k−classe Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 19 / 108
  • 23. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici . . . calcolo per variabili continue In caso di variabili continue l’obiettivo sar`a massimizzare la funzione Dep calcolata nel seguente modo Dep(S, c) = 1 |S| xi ∈S F(xi ; c) dove F indica la funzione F − test calcolata sulle feature in relazione alla classe target S indica il set contenente tutte le features xi indica la i-sima feature da considerare c indica la classe target Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 20 / 108
  • 24. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Calcolo mRMR Variabili discrete MID - Mutual Information Difference MIQ - Mutual Information Quotient Variabili continue FCD - F-test Correlation Difference FCQ - F-test Correlation Quotient Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 21 / 108
  • 25. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Discrete - MID Consiste nel trovare le features che massimizzino la differenza tra dipendenze e ridondanze di queste features dalla classe target attraverso il calcolo della mutua informazione max(Dep(S, c) − Red(S)) dove ricordiamo che Dep(S, c) = 1 |S| xi ∈S I(xi ; c) Red(S) = 1 |S|2 xi ,xj ∈S I(xi ; xj ) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 22 / 108
  • 26. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Discrete - MIQ Consiste nel trovare le features che massimizzino il rapporto tra dipendenze e ridondanze di queste features dalla classe target attraverso il calcolo della mutua informazione max Dep(S, c) Red(S) dove ricordiamo che Dep(S, c) = 1 |S| xi ∈S I(xi ; c) Red(S) = 1 |S|2 xi ,xj ∈S I(xi ; xj ) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 23 / 108
  • 27. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Continuous - FCD Consiste nel trovare le features che massimizzino la differenza tra dipendenze e ridondanze di queste features dalla classe target attraverso il calcolo del F-test max((Dep(S, c) − Red(S)) dove ricordiamo che Dep(S, c) = 1 |S| xi ∈S F(xi ; c) Red(S) = 1 |S|2 xi ,xj ∈S |c(xi ; xj )| Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 24 / 108
  • 28. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Continuous - FCQ Consiste nel trovare le features che massimizzino il rapporto tra dipendenze e ridondanze di queste features dalla classe target attraverso il calcolo del F-test max Dep(S, c) Red(S) dove ricordiamo che Dep(S, c) = 1 |S| xi ∈S F(xi ; c) Red(S) = 1 |S|2 xi ,xj ∈S |c(xi ; xj )| Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 25 / 108
  • 29. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici Benefici Con lo stesso numero di features, mRMR garantisce maggiore rappresentativit`a al dataset offrendo una migliore propriet`a di generalizzazione Allo stesso modo, possiamo usare un set di feature mRMR pi`u piccolo per ricoprire in maniera pi`u efficace lo stesso spazio ricoperto da feature set convenzionale pi`u grande Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 26 / 108
  • 30. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Correlazioni Outline 1. ReliefF Relief Calcoli Missing value Multiclass 2. mRMR Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici 3. CFSubset Correlazioni 4. PCA Analisi 5. Chi-Squared Esempio 6. Info Gain Entropia Esempio 7. PageRank Definizione Calcolo Esempio 8. SVM 9. Gain Ratio Esempio Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 27 / 108
  • 31. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Correlazioni CFSubset - Idea alla base Cerca in maniera esaustiva il subset ottimale che sia in grado di massimizzare la predizione della classe minimizzare la ridondanza tra le feature Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 28 / 108
  • 32. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Correlazioni CFSubset - Calcolo La funzione di merito associata sar`a MS = k · rcf k + k · (k − 1) · rff Dove : rcf : correlazione media tra la classe c e la feature f ∈ S attributi discreti : Correlazione basata sulla entropia attributi continui : Correlazione di Pearson rff : intercorrelazione media feature-feature k : numero di feature f ∈ S Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 29 / 108
  • 33. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Correlazioni Correlazione di Pearson Misura il peso della correlazione lineare tra due variabili In particolare indica: Forza della relazione (forte, debole o nulla) → da 0 a 1 Direzione della relazione → positiva(+) o negativa(-) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 30 / 108
  • 34. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Correlazioni Correlazione di Pearson Assumptions: Variabili sono quantitative o ordinali Seguono una distribuzione normale Relazione lineare ρX,Y = i (xi − ¯x)(yi − ¯y) j (xj − ¯x)2 · k (yk − ¯y)2 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 31 / 108
  • 35. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Correlazioni In dettaglio ... Nel caso in cui le due feature siano gi`a entrambe continue, la correlazione verr`a calcolata con: rXY = (x, y) n · σx σy dove: X e Y sono due variabili continue espresse in termini di deviazioni standard n rappresenta il numero di osservazioni Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 32 / 108
  • 36. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Correlazioni ... in dettaglio ... Se uno dei due attributi `e discreto e l’altro continuo, la correlazione di Pearson calcolata sar`a: rXY = k i=1 p(X = xi ) · rXbi Y dove Xbi = 1 se X = xi 0 altrimenti Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 33 / 108
  • 37. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Correlazioni ... in dettaglio Se invece, entrambi gli attributi risultano essere discreti, essi verranno dapprima discretizzati ed in seguito verr`a calcolata la correlazione nel seguente modo: rXY = k i=1 m j=1 p(X = xi , Y = yj ) · rXbi Ybj dove : Xbi = 1 se X = xi 0 altrimenti Ybj = 1 se Y = yj 0 altrimenti Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 34 / 108
  • 38. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Correlazioni Correlazione basata su entropia Per attributi di carattere discreto verr`a utilizzato il concetto di entropia dell’attributo SU = 2 · H(X) + H(Y ) − H(X, Y ) H(Y ) + H(X) dove: SU rappresenta la misura di incertezza simmetrica H(X) : entropia della feature X H(X, Y ) : entropia congiunta di X e Y (ogni possibile combinazioni di valori sia di X che di Y) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 35 / 108
  • 39. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Analisi Outline 1. ReliefF Relief Calcoli Missing value Multiclass 2. mRMR Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici 3. CFSubset Correlazioni 4. PCA Analisi 5. Chi-Squared Esempio 6. Info Gain Entropia Esempio 7. PageRank Definizione Calcolo Esempio 8. SVM 9. Gain Ratio Esempio Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 36 / 108
  • 40. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Analisi PCA Riduce la dimensionalit`a del dataset combinando le variabili in gioco Mantiene lo stesso apporto informativo del dataset originale Le nuove variabili, chiamate Principal Components (PC), sono non correlate, e sono ordinate in base all’informazione che essa contiene Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 37 / 108
  • 41. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Analisi PCA - Idea di base Trova l’asse che meglio rappresenta la pi`u grande variazione (First principal component) e proietta tutti i punti su quest’asse Definisce la nuova dimensionalit`a sulla base degli autovettori della matrice di covarianza associata Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 38 / 108
  • 42. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Analisi PCA - Algoritmo 1 X ← Creare la matrice istanze/attributi N x d, dove ogni riga rappresenta l’istanza xn 2 Sottrarre il valor medio x da ogni vettore riga xn ∈ X 3 Σ ← matrice di covarianza di X 4 Trovare gli autovalori e gli autovettori di Σ : a1j , a2j , · · · , adj 5 I primi p autovettori con autovalori pi`u alti formeranno la PC G ← [a1j , a2j , · · · , apj ] con p < d Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 39 / 108
  • 43. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Analisi Propriet`a ottimale della PCA La matrice G `e costituita dai primi p autovettori della matrice di covarianza S soddisfano il problema di minimo: min G∈ d x p X − G(G X) 2 F tale che G G = Ip Proiezione PCA minimizza l’errore di ricostruzione delle proiezioni lineari della dimensione p Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 40 / 108
  • 44. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Analisi Rappresentazione grafica Restituisce la proiezione migliore Minimizza l’errore quadratico medio Le principal component sono tra loro ortogonali Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 41 / 108
  • 45. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Analisi Principal Component First Principal component (PC1) direzione lungo la quale c’`e la maggiore varianza Second Principal component (PC2) direzione con la varianza massima trascurata dai dati ortogonale con PC1 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 42 / 108
  • 46. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Analisi Quante componenti considerare? Si considera la distribuzione degli autovalori Si mantengono un numero tale di autovettori in grado di coprire l’80-90% della varianza del dataset Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 43 / 108
  • 47. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Analisi PCA non lineare usando Kernel PCA tradizionale applica una trasformazione lineare Potrebbe non essere efficace su dati non lineari Soluzione: applica una trasformazione non lineare a spazi dimensionali molto alti φ : x → φ(x) Computazionalmente efficiente: applica il kernel trick riscrittura in termini di prodotto interno K(xi , xj ) = φ(xi ) · φ(xj ) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 44 / 108
  • 48. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio Outline 1. ReliefF Relief Calcoli Missing value Multiclass 2. mRMR Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici 3. CFSubset Correlazioni 4. PCA Analisi 5. Chi-Squared Esempio 6. Info Gain Entropia Esempio 7. PageRank Definizione Calcolo Esempio 8. SVM 9. Gain Ratio Esempio Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 45 / 108
  • 49. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio χ2 - Idea di base Verifica se esiste una correlazione tra le feature e l’attributo di classe usando la statistica χ2 Il test statistico sar`a: χ2 = C i=1 (Oi − Ei )2 Ei con gradi di libert`a = C − 1 dove C = numero di categorie Oi = frequenze osservate per la categoria i Ei = frequenze attese per la categoria i Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 46 / 108
  • 50. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio Area di rigetto Verranno definite le ipotesi statistiche H0 : la feature `e dipendente dalla classe target H1 : la feature `e indipendente dalla classe target Si rigetta H0 se χ2 > χ2 α (con C − 1 gradi di libert`a) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 47 / 108
  • 51. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio χ2 nella feature selection 1. Crea la matrice di contingenza (F x C) 2. Esegue la statistica χ2 tra le occorrenze del termine e quelle della classe Calcola i gradi di libert`a (df = (#rows-1)(#cols-1)) Ricerca nella χ2 table del valore χ2 α da usare per il confronto 3. Se χ2 > χ2 α l’ipotesi H0 verr`a rigettata χ2 alto, dipendenza tra la feature e l’attributo di classe alta Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 48 / 108
  • 52. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio χ2 test statistic Il test statistico sar`a: χ2 (D, t, c) = et ∈{0,1} ec ∈{0,1} (Net ec − Eet ec )2 Eet ec Dove: ec = 1 se il documento `e di classe c 0 altrimenti et = 1 se il termine t `e incluso nel documento 0 altrimenti N rappresenta la frequenza osservata in D E rappresenta la frequenza attesa (i.e. E11 `e la frequenza attesa di t e c che co-occorrono nel documento assumendo che il termine sia indipendente dalla classe) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 49 / 108
  • 53. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio Tabella di contingenza In una tabella di contingenza: Le celle contengono il numero di casi che presentano congiuntamente le due variabili (frequenze di cella) I totali di riga/colonna sono chiamati frequenze marginali Le righe/colonne intermedie sono distribuzioni condizionate X Y y1 y2 · · · yk totale x1 f1,1 f1,2 · · · f1,k f1,. x2 f2,1 f2,2 · · · f2,k f2,. ... ... ... ... ... ... xh fh,1 fh,2 · · · fh,k fh,. totale f.,1 f.,2 · · · f.,k 1 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 50 / 108
  • 54. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio Esempio Verificare se esiste correlazione tra: Hand preference vs. Gender Hand Preference: Left vs. Right Gender: Male vs. Female Le ipotesi da verificare saranno: H0: Non esiste correlazione tra Hand Preference e Gender H1: La Hand Preference `e dipendente dal Gender Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 51 / 108
  • 55. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio Esempio ... Risultati campionati nella tabella di contingenza: Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 52 / 108
  • 56. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio ... esempio ... Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 53 / 108
  • 57. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio ... esempio Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 54 / 108
  • 58. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Entropia Esempio Outline 1. ReliefF Relief Calcoli Missing value Multiclass 2. mRMR Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici 3. CFSubset Correlazioni 4. PCA Analisi 5. Chi-Squared Esempio 6. Info Gain Entropia Esempio 7. PageRank Definizione Calcolo Esempio 8. SVM 9. Gain Ratio Esempio Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 55 / 108
  • 59. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Entropia Esempio Information Gain - Idea di base Valuta gli attributi sulla base del guadagno di informazione che apporta al dataset Guadagno ottenuto riducendo l’incertezza iniziale IG(Attr) = Entropy(S) − v∈Values(Attr) |Sv | |S| · Entropy(Sv ) dove: S : dataset di training Attr : rappresenta l’attributo da analizzare v : valori degli attributi Attr Sv : subset di istanze con attributo Attr valorizzato con v Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 56 / 108
  • 60. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Entropia Esempio Entropia Prendendo in cosiderazione: S dataset di training C1 . . . Ck etichette di classe RF(Ci , S) frequenze relative dei s ∈ S di classe Ci L’entropia E di S sar`a calcolata come: E(S) = − k i=1 RF(Ci , S) log(RF(Ci , S)) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 57 / 108
  • 61. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Entropia Esempio Entropia Misura il quantitativo di incertezza presente in S High entropy significa che S segue una distribuzione uniforme RF(C1, S) = · · · = RF(Ck, S) low entropy significa che S proviene da una distribuzione non uniforme dove alcuni eventi sono molto pi`u probabili degli altri RF(Ci , S) RF(Cj , S) ∀i = j zero entropy significa che S conterr`a eventi certi annullandone l’incertezza RF(Ci , S) = 1 RF(Cj , S) = 0 ∀j = i Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 58 / 108
  • 62. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Entropia Esempio Classificazione binaria In un problema di classificazione binaria (C1 positivo, C2 negativo) dove: p rappresenta la proporzione di esempi positivi in S n rappresenta la proporzione di esempi negativi in S L’entropia di S `e computata come: E(S) = −p · log2p − n · log2n Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 59 / 108
  • 63. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Entropia Esempio Esempio ... Day Outlook Temp Humidity Wind PlayTennis D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Weak Yes D8 Sunny Mild High Weak No D9 Sunny Cold Normal Weak Yes D10 Rain Mild Normal Strong Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes D14 Rain Mild High Strong No Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 60 / 108
  • 64. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Entropia Esempio ... esempio ... Descrizione del dataset: istanze di training : 14 istanze classificate come Yes : 9 istanze classificate come No : 5 Entropia del dataset: E(S) = − 9 14 · log2 9 14 − 5 14 · log2 5 14 = 0.940 Descrizione dell’attributo outlook: sunny overcast rain yes 2 4 3 no 3 0 2 tot 5 4 5 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 61 / 108
  • 65. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Entropia Esempio ... esempio ... Le entropie dei valori di outlook saranno: E(sunny) = − 2 5 · log2 2 5 − 3 5 · log2 3 5 = 0.971 E(overcast) = − 4 4 · log2 4 4 − 0 4 · log2 0 4 = 0 E(rain) = − 2 5 · log2 2 5 − 3 5 · log2 3 5 = 0.971 L’entropia totale di outlook sar`a: E(outlook) = 5 14 · 0.971 + 4 14 · 0 + 5 14 · 0.971 = 0.694 L’information gain ottenuta dall’attributo outlook sar`a: IG(outlook) = 0.940 − 0.694 = 0.246 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 62 / 108
  • 66. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Entropia Esempio ... esempio Eseguendo lo stesso test anche sugli altri attributi otterremo: IG(temperature) = 0.029 IG(humidity) = 0.151 IG(windy) = 0.048 Quindi il ranking ottenuto sulla base dell’information gain apportato dagli attributi sar`a: 1 outlook 2 humidity 3 windy 4 temperature Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 63 / 108
  • 67. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio Outline 1. ReliefF Relief Calcoli Missing value Multiclass 2. mRMR Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici 3. CFSubset Correlazioni 4. PCA Analisi 5. Chi-Squared Esempio 6. Info Gain Entropia Esempio 7. PageRank Definizione Calcolo Esempio 8. SVM 9. Gain Ratio Esempio Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 64 / 108
  • 68. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio PageRank Implementazione del Wrapper Model: Utilizzare lo stesso algoritmo sia per la feature selection sia per la fase di raccomandazione Subset ottimizzato per la raccomandazione Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 65 / 108
  • 69. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio Idea di base Pesatura dei link in base all’importanza del sito da cui proviene L’importanza di un link da una qualunque sorgente dovrebbe essere attenuato dal numero dei siti che la sorgente vota Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 66 / 108
  • 70. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio Definizione Indicata con P una generica pagina, il suo punteggio sar`a r(P) = Q∈BP r(Q) |Q| dove BP = { insieme di tutte le pagine puntanti a P} |Q| = numero degli outlink di Q Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 67 / 108
  • 71. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio Calcolo punteggio PageRank . . . Se abbiamo n pagine P1, P2, . . . , Pn ed assegniamo a ciascuna pagina un arbitrario punteggio iniziale r0(Pi ) = 1 n Il punteggio r(P) pu`o essere calcolato mediante la seguente iterazione: rj (Pi ) = Q∈BPi rj−1(Q) |Q| j = 1, 2, 3, . . . Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 68 / 108
  • 72. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio . . . calcolo punteggio PageRank . . . Ponendo: πj = (rj (P1), rj (P2), . . . , rj (Pn)) Definiamo la matrice di Google per righe P tale che: pij = 1 Pi se Pi si connette con la pagina Pj 0 altrimenti La precedente iterazione si pu`o riscrivere come: πj = πj−1P Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 69 / 108
  • 73. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio . . . calcolo punteggio PageRank Se il limite esiste, il vettore PageRank `e definito π = lim j→∞ πj la i-sima componente del vettore PageRank `e il punteggio(pagerank) della pagina Pi Per assicurare la convergenza del processo iterativo la matrice P deve essere modificata Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 70 / 108
  • 74. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio Esempio di graph web 1 2 3 54 6 Matrice Google per righe P P =            0 1 2 1 2 0 0 0 1 2 0 1 2 0 0 0 0 1 2 0 1 2 0 0 0 0 0 0 1 2 1 2 0 0 1 2 1 2 0 0 0 0 0 0 0 1            Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 71 / 108
  • 75. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio Matrice Google per righe La matrice di Google per righe P `e non-negativa somma degli elementi sulle righe pari a zero1 o uno Se la matrice P ha tutte le righe con somma pari a uno allora si parla di matrice stocastica: autovalore dominante uguale a 1 iterazione PageRank converge all’autovettore sinistro normalizzato π = π P t.c. π 1 = 1 1 nodi dangling Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 72 / 108
  • 76. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio Esempio nodo dangling 1 2 3 54 6 P =            0 1 2 1 2 0 0 0 1 2 0 1 2 0 0 0 0 1 2 0 1 2 0 0 0 0 0 0 1 2 1 2 0 0 1 2 1 2 0 0 0 0 0 0 0 0            s Il nodo 6 `e un nodo dangling in quanto non ha outlink Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 73 / 108
  • 77. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio Trasformazione Matrice di Google per righe . . . Stocastica Sostituire ad ogni riga nulla il vettore 1 n La nuova matrice stocastica si indica con ¯P Irriducibile Aggiungere una matrice di perturbazione E = 11 n La nuova matrice sar`a uguale a ¯¯P = d ¯P + (1 − d)E d ∈ [0, 1] Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 74 / 108
  • 78. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio . . . Trasformazione Matrice di Google per righe La matrice di Google attualmente utilizzata `e ottenuta considerando la matrice di perturbazione E = 1v dove v `e un vettore di personalizzazione dell’utente ¯¯P = d ¯P + (1 − d)1v d ∈ [0, 1] Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 75 / 108
  • 79. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio Damping factor d Fattore il cui valore `e stabilito da Google Nella documentazione originale fornita dal Searcher il damping factor `e pari a 0,85 (pu`o subire aggiustamenti a discrezione di Google) Attraverso il damping factor, Google pu`o determinare il valore percentuale di PageRank che transita da una pagina all’altra e stabilire un valore minimo di PageRank attribuito ad ognuna delle pagine presenti nei suoi archivi Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 76 / 108
  • 80. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio Esempio . . . Consideriamo l’insieme di rilevanza composto da sei pagine web aventi la seguente struttura ad hyperlink 1 2 3 56 4 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 77 / 108
  • 81. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio . . . Esempio . . . La matrice di Google per righe corrispondente al grafo sar`a la seguente P =            0 1 2 1 2 0 0 0 0 0 0 0 0 0 1 3 1 3 0 0 1 3 0 0 0 0 0 1 2 1 2 0 0 0 1 2 0 1 2 0 0 0 1 0 0            Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 78 / 108
  • 82. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio . . . Esempio . . . Considerato che il nodo 2 `e un nodo dangling allora sar`a necessario trasformarla in matrice stocastica 1 2 3 56 4 ¯P =            0 1 2 1 2 0 0 0 1 6 1 6 1 6 1 6 1 6 1 6 1 3 1 3 0 0 1 3 0 0 0 0 0 1 2 1 2 0 0 0 1 2 0 1 2 0 0 0 1 0 0            Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 79 / 108
  • 83. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio . . . Esempio . . . La matrice stocastica ottenuta `e una matrice riducibile ¯P =            0 1 2 1 2 0 0 0 1 6 1 6 1 6 1 6 1 6 1 6 1 3 1 3 0 0 1 3 0 0 0 0 0 1 2 1 2 0 0 0 1 2 0 1 2 0 0 0 1 0 0            Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 80 / 108
  • 84. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio . . . Esempio . . . Per ottenere una matrice irriducibile settiamo il parametro d = 0.85 da applicare alla formula 2 ¯¯P = 0.85 ∗ ¯P + 0.15 ∗ 11 6 2 ¯¯P = d ¯P + (1−d)11 n Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 81 / 108
  • 85. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio . . . Esempio . . . 6 5 4 2 3 2 2 2 1 1 11 1 0.85 · 0 + 0.15 · 1 6 2 0.85 · 1 2 + 0.15 · 1 6 3 0.85 · 1 + 0.15 · 1 6 0.85 ∗       ... ... ... ... . . . 0 1 2 1 2 . . . 1 2 0 1 2 . . . 1 0 0       + 0.15 ∗       ... ... ... ... . . . 1 6 1 6 1 6 . . . 1 6 1 6 1 6 . . . 1 6 1 6 1 6       Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 82 / 108
  • 86. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio . . . Esempio Il vettore di PageRank associato alla precedente matrice sar`a π = (0.3721 0.05396 0.0415 0.375 0.206 0.286) PageRank indipendente dalla query Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 83 / 108
  • 87. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio Esempio di raccomandazione . . . Data una query contenente i termini t1 e t2 Inverted term-document associato sar`a t1 −→ doc1, doc4, doc6 t2 −→ doc1, doc3 ... Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 84 / 108
  • 88. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizione Calcolo Esempio . . . Esempio di raccomandazione Calcoliamo l’insieme di rilevanza per la query q = (t1, t2) Insieme di rilevanza {1 3 4 6} I PageRank dei 4 documenti possono essere confrontati per individuare quale dei documenti `e il pi`u rilevante ordinare le componenti del vettore pagerank associate ai documenti selezionati in modo decrescente π4 π6 π3 π1 doc4 −→ documento pi`u rilevante seguono doc6, doc3, doc1 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 85 / 108
  • 89. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Outline 1. ReliefF Relief Calcoli Missing value Multiclass 2. mRMR Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici 3. CFSubset Correlazioni 4. PCA Analisi 5. Chi-Squared Esempio 6. Info Gain Entropia Esempio 7. PageRank Definizione Calcolo Esempio 8. SVM 9. Gain Ratio Esempio Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 86 / 108
  • 90. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Classificatore lineare Definito un dataset etichettato in maniera binaria Etichette di classe: istanze negative -1 istanze positive +1 Trovare una retta che sia in grado di classificare i dati in maniera corretta Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 87 / 108
  • 91. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Classificatore lineare Entrambe le soluzioni risultano corrette Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 88 / 108
  • 92. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Classificatore lineare In realt`a le soluzioni che possono soddisfare il problema posso essere potenzialmente infinite Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 89 / 108
  • 93. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Support Vector Machine (SVM) - Idea di base Un SVM lineare `e un classificatore che riesce a trovare la retta classificante con il pi`u ampio margine possibile Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 90 / 108
  • 94. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Definizioni Un vettore W in uno spazio d-dimensionale rappresenta una lista di d numeri, e.g. W = (−1, 2) Vettore `e un segmento orientato nello spazio La norma del vettore W rappresenta la sua lunghezza W X : proiezione dell’asse X su W W X = 0 → punti che si intersecano con l’asse W X = 1 : linea parallela a W X = 0 shiftata di 1 W Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 91 / 108
  • 95. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio SVM - boundary e margini Trovare il coefficiente angolare della retta (W ) e l’offset della retta (b) tale che: tutti gli esempi positivi (X,Y=1) ricadano nella zona rossa tutti gli esempi negativi (X,Y=-1) ricadano nella zona blu il margine M sia massimizzato Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 92 / 108
  • 96. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio SVM come ottimizzazione di vincoli Variabili: Vettore W offset della retta b N punti (Xi , Yi ) dove Yi = {−1, 1} Funzione obiettivo: max 2 W → min W Vincoli da considerare: ∀i se Yi = 1 W Xi + b ≥ 1 −1 W Xi + b ≤ −1 unificabile in: Yi (W Xi + b) ≥ 1 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 93 / 108
  • 97. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio SVM come Quadratic Program Funzione obiettivo quadratica Vincoli lineari Questo problema `e conosciuto come Quadratic Program (QP) per il quale esistono algoritmi che ricercano la soluzione globale pi`u efficiente Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 94 / 108
  • 98. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Casi non separabili Nel caso in cui ci dovessimo trovare in questa situazione Esistono due possibili soluzioni Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 95 / 108
  • 99. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio SVM con slack variable Rilassare i vincoli Per un dato boundary (W , b) si andranno a calcolare quante misclassification sono state considerate I vincoli diventeranno: Yi (W Xi + b) ≥ 1 − i Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 96 / 108
  • 100. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio SVM con slack variable Il nuovo obiettivo diventa quindi: Minimizzare gli errori di misclassification e le istanze presenti all’interno dei margini min w w 2 +C i i C indica il trade-off tra la larghezza dei margini e le misclassification In questo caso verr`a aggiunto un ulteriore vincolo ∀i i ≥ 0 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 97 / 108
  • 101. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio SVM con kernel trick Il prodotto scalare viene tramutato in una funzione kernel non lineare φ L’algoritmo crea l’iperpiano che massimizza i margini nel nuovo spazio delle feature trasformato φ Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 98 / 108
  • 102. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Ricapitolando SVM massimizza il margine di separazione tra gli iperpiani La funzione di decisione viene creata sulla base del subset di esempi (support vectors) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 99 / 108
  • 103. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio Outline 1. ReliefF Relief Calcoli Missing value Multiclass 2. mRMR Mutual Information Minima Ridondanza Massima Rilevanza Formule Benefici 3. CFSubset Correlazioni 4. PCA Analisi 5. Chi-Squared Esempio 6. Info Gain Entropia Esempio 7. PageRank Definizione Calcolo Esempio 8. SVM 9. Gain Ratio Esempio Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 100 / 108
  • 104. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio Gain Ratio - Idea di base Estensione dell’information gain classico Mira a penalizzare gli attributi con un numero elevato di valori Normalizza l’InfoGain usando l’entropia di S in relazione all’attributo Attr (Split information) SplitInformation(S, Attr) = − v∈Values(Attr) |Sv | |S| log |Sv | |S| Definizione di GainRatio: GainRatio(S, Attr) = IG(S, Attr) SplitInformation(S, Attr) Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 101 / 108
  • 105. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio Esempio ... Riprendendo l’esempio definito in precedenza Day Outlook Temp Humidity Wind PlayTennis D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Weak Yes D8 Sunny Mild High Weak No D9 Sunny Cold Normal Weak Yes D10 Rain Mild Normal Strong Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes D14 Rain Mild High Strong No Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 102 / 108
  • 106. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio ... esempio ... Descrizione del dataset: istanze di training : 14 istanze classificate come Yes : 9 istanze classificate come No : 5 Descrizione dell’attributo outlook: sunny overcast rain yes 2 4 3 no 3 0 2 tot 5 4 5 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 103 / 108
  • 107. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio ... esempio ... La Split information dell’attributo outlook sar`a: SI(S, outlook) = SI(S, sunny)+SI(S, overcast)+SI(S, rain) = 1.577 dove: SI(S, sunny): − 5 14 · log2 5 14 = 0, 5305 SI(S, overcast): − 4 14 · log2 4 14 = 0, 5160 SI(S, rain): − 5 14 · log2 5 14 = 0, 5305 Quindi la gain ratio dell’attributo outlook sar`a: GainRatio(S, outlook) = IG(S, outlook) SI(S, outlook) = 0.246 1.577 = 0.156 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 104 / 108
  • 108. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio ... esempio Usando l’approccio del Gain Ratio il nuovo ranking sar`a: GainRatio(S, outlook) = IG(S, outlook) SI(S, outlook) = 0.246 1.577 = 0.156 GainRatio(S, humidity) = IG(S, humidity) SI(S, humidity) = 0.151 1 = 0.151 GainRatio(S, wind) = IG(S, wind) SI(S, wind) = 0.048 0.9 = 0.053 GainRatio(S, temperature) = IG(S, temperature) SI(S, temperature) = 0.029 1.788 = 0.016 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 105 / 108
  • 109. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio Esempio Ricapitolando Di seguito sono mostrati gli attributi con i rispettivi valori e il numero di istanze avvalorate in quel modo outlook    sunny : 5 overcast : 4 rainy : 5 humidity high : 7 normal : 7 windy strong : 6 weak : 8 temperature    hot : 4 mild : 6 cool : 3 cold : 1 InfoGain GainRatio Outlook .246 .156 humidity .151 .151 windy .048 .053 temperature .029 .016 Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 106 / 108
  • 110. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio References I Monica Bianchini, Marco Gori, and Franco Scarselli. Inside pagerank. ACM Trans. Internet Technol., 5(1):92–128, February 2005. Isabelle Guyon, Jason Weston, Stephen Barnhill, and Vladimir Vapnik. Gene selection for cancer classification using support vector machines. Machine learning, 46(1-3):389–422, 2002. M. A. Hall. Correlation-based Feature Subset Selection for Machine Learning. PhD thesis, University of Waikato, Hamilton, New Zealand, 1998. Harold Hotelling. Analysis of a complex of statistical variables into principal components. Journal of educational psychology, 24(6):417, 1933. Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 107 / 108
  • 111. ReliefF mRMR CFSubset PCA Chi-Squared Info Gain PageRank SVM Gain Ratio References II Igor Kononenko, Edvard ˇSimec, and Marko Robnik-ˇSikonja. Overcoming the myopia of inductive learning algorithms with relieff. Applied Intelligence, 7(1):39–55, 1997. Hanchuan Peng, Fuhui Long, and Chris Ding. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27:1226–1238, 2005. George Waddel Snedecor and William G. Cochran. Statistical methods. Iowa State University Press, 1989. Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 108 / 108