1. Algoritmi di feature selection
Simone Rutigliano
Corso di Laurea in Informatica Magistrale
2 aprile 2015
2. Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 1 / 108
3. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 2 / 108
4. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Relief
Valuta gli attributi sulla base di quanto siano in grado di
discriminare le istanze vicine
Data una istanza, cerca:
nearest hit: l’istanza pi`u vicina della stessa classe
nearest miss: l’istanza pi`u vicina di classe diversa
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 3 / 108
5. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Caratteristiche
Qualit`a:
le feature possono essere anche dipendenti tra loro
complessit`a O(n) in tempo dove n indica il numero di feature
tolleranza al rumore
robusta alle interazioni tra feature
applicabile sia a dati binari che a dati continui
Limiti:
Non discrimina le feature ridondanti
Un basso numero di istanze di training pu`o alterare i risultati
Limitato a problemi di classificazione binaria
Non tratta dati incompleti
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 4 / 108
6. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Caratteristiche
Qualit`a:
le feature possono essere anche dipendenti tra loro
complessit`a O(n) in tempo dove n indica il numero di feature
tolleranza al rumore
robusta alle interazioni tra feature
applicabile sia a dati binari che a dati continui
Limiti:
Non discrimina le feature ridondanti
Un basso numero di istanze di training pu`o alterare i risultati
Limitato a problemi di classificazione binaria
Non tratta dati incompleti
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 4 / 108
7. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
ReliefF - Idea di base
Trova i primi k pi`u vicini di ogni classe ottenendo il vettore
probabilistico dei pesi di ogni classe
Estensione di Relief
Fornisce stime probabilistiche pi`u affidabili
Permette di trattare dati incompleti
Gestisce dataset multi-classe
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 5 / 108
8. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
ReliefF - Idea di base
Trova i primi k pi`u vicini di ogni classe ottenendo il vettore
probabilistico dei pesi di ogni classe
Estensione di Relief
Fornisce stime probabilistiche pi`u affidabili
Permette di trattare dati incompleti
Gestisce dataset multi-classe
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 5 / 108
9. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Calcolo
Dato un campione di p istanze estratte dal training set, il valore di
ogni istanza sar`a:
SCr (fi ) =
1
2
p
t=1
d(ft,i − fNM(xt ),i ) − d(ft,i − fNH(xt ),i )
dove:
d : funzione distanza
ft,i : feature i dell’istanza t
NM(xt) : istanze vicine a xt di classe differente
NH(xt) : istanze vicine a xt di della stessa classe
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 6 / 108
10. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Calcolo
Il valore calcolato rappresenta la qualit`a della feature
Un buon attributo deve avere:
valori simili per istanze appartenenti alla stessa classe
ft,i − fNH(xt ),i ≈ 0
valori differenti per istanze appartenenti a classi differenti
|ft,i − fNM(xt ),i | 0
Approccio probabilistico della funzione distanza
Reliefx = P(valori differenti di X | classe differente)−
P(valori differenti di X | stessa classe)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 7 / 108
11. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Missing value
Le probabilit`a condizionate saranno approssimate in base alla
frequenza relativa definita dal training set
Definita la funzione distanza dist(Attribute, Instance1, Instance2)
se una istanza (e.g. I1) ha missing value:
dist(A, I1, I2) = 1 − P(value(A, I2)|class(I1))
se entrambe hanno missing value:
dist(A, I1, I2) = 1−
#values(A)
V
(P(V |class(I1)) x P(V |class(I2)))
dove V rappresenta tutti i possibili valori dell’attributo A
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 8 / 108
12. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Dataset multi-classe
cerca il vicino di classe differente (near missing M(C)) per
ogni classe diversa da quella considerata (R)
verr`a calcolata la media delle probabilit`a di ogni classe
differente
C=class(R)
P(C)
1−P(class(R)) x dist(A, R, M(C))
n
dove n rappresenta la cardinalit`a di C
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 9 / 108
13. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 10 / 108
14. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
mRMR - Idea di base
Consiste nel calcolo della
minima ridondanza tra le features
massima rilevanza delle features con la classe target
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 11 / 108
15. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Mutual Information - Definizione
La mutua informazione rappresenta i bit di informazione che
una delle variabili fornisce riguardo l’altra
Date due variabili casuali X e Y, la mutua informazione `e
definita come
I(X; Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X)
dove le entropie sono calcolate
H(X) = −
i∈X
P(xi ) · log(P(xi ))
H(X, Y ) = −
i∈X j∈Y
P(xi , yj ) · log(P(xi , yj ))
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 12 / 108
16. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Considerazioni
Indipendenza: I(X; Y ) = 0
Simmetria: I(X; Y ) = H(X)−H(X|Y ) = H(Y )−H(Y |X) = I(Y ; X)
Riflessivit`a: I(X; X) = H(X)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 13 / 108
17. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Minima Ridondanza - Definizione
Consiste nel selezionare le features in modo tale che siano tra
loro pi`u dissimilari
Il subset che si otterr`a sar`a il pi`u rappresentativo possibile
dell’intero dataset
Formalmente consiste nel
Calcolare una funzione Red calcolata sul set di feature S
Trovare il subset che minimizza la funzione calcolata
min Red(S)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 14 / 108
18. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo per variabili discrete
Red(S) =
1
|S|2
xi ,xj ∈S
I(xi ; xj )
dove
|S| `e il numero di features presenti nel subset S
xi e xj rappresentano rispettivamente la i-esima e j-esima
feature del subset S
I(xi ; xj ) rappresenta la mutua informazione tra le due feature
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 15 / 108
19. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo per variabili continue
Red(S) =
1
|S|2
xi ,xj ∈S
|c(xi ; xj )|
dove
|S| `e il numero di features presenti nel subset S
xi e xj rappresentano rispettivamente la i-esima e j-esima
feature del subset S
|c(xi ; xj )| indica il valore assoluto del coefficiente di
correlazione di Pearson tra le feature xi e xj
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 16 / 108
20. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Massima Rilevanza - Definizione
Ricercare le feature che riescano ad approssimare la funzione
max Dep(S, c) Dep = I({x1, . . . , xm}; c)
con il valor medio di tutti i valori della mutua informazione tra
le singole feature xi e la classe c
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 17 / 108
21. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo per variabili discrete
In caso di variabili discrete l’obiettivo sar`a massimizzare la funzione
Dep calcolata nel seguente modo
Dep(S, c) =
1
|S|
xi ∈S
I(xi ; c)
dove
S indica il set contenente tutte le features
xi indica la i-sima feature da considerare
c indica la classe target
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 18 / 108
22. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo per variabili continue. . .
Per le variabili continue bisogna usare la F-statistic come misura
per calcolare la rilevanza tra le features xi e la classe target c
F(xi , c) =
K
nk ( ¯xk −¯x)
K−1
σ2
dove:
σ2 = k
(nk −1)σ2
k
n−K
K indica le classi denotate da c
¯x `e il valor medio di xi di tutti i campioni
¯xk `e il valor medio di xi di tutti i campioni di classe k
nk e σk indicano dimensione e varianza della k−classe
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 19 / 108
23. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
. . . calcolo per variabili continue
In caso di variabili continue l’obiettivo sar`a massimizzare la
funzione Dep calcolata nel seguente modo
Dep(S, c) =
1
|S|
xi ∈S
F(xi ; c)
dove
F indica la funzione F − test calcolata sulle feature in
relazione alla classe target
S indica il set contenente tutte le features
xi indica la i-sima feature da considerare
c indica la classe target
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 20 / 108
24. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo mRMR
Variabili discrete
MID - Mutual Information Difference
MIQ - Mutual Information Quotient
Variabili continue
FCD - F-test Correlation Difference
FCQ - F-test Correlation Quotient
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 21 / 108
25. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Discrete - MID
Consiste nel trovare le features che massimizzino la differenza tra
dipendenze e ridondanze di queste features dalla classe target
attraverso il calcolo della mutua informazione
max(Dep(S, c) − Red(S))
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
I(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
I(xi ; xj )
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 22 / 108
26. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Discrete - MIQ
Consiste nel trovare le features che massimizzino il rapporto tra
dipendenze e ridondanze di queste features dalla classe target
attraverso il calcolo della mutua informazione
max
Dep(S, c)
Red(S)
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
I(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
I(xi ; xj )
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 23 / 108
27. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Continuous - FCD
Consiste nel trovare le features che massimizzino la differenza tra
dipendenze e ridondanze di queste features dalla classe target
attraverso il calcolo del F-test
max((Dep(S, c) − Red(S))
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
F(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
|c(xi ; xj )|
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 24 / 108
28. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Continuous - FCQ
Consiste nel trovare le features che massimizzino il rapporto tra
dipendenze e ridondanze di queste features dalla classe target
attraverso il calcolo del F-test
max
Dep(S, c)
Red(S)
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
F(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
|c(xi ; xj )|
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 25 / 108
29. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Benefici
Con lo stesso numero di features, mRMR garantisce maggiore
rappresentativit`a al dataset offrendo una migliore propriet`a di
generalizzazione
Allo stesso modo, possiamo usare un set di feature mRMR pi`u
piccolo per ricoprire in maniera pi`u efficace lo stesso spazio
ricoperto da feature set convenzionale pi`u grande
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 26 / 108
30. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 27 / 108
32. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
CFSubset - Calcolo
La funzione di merito associata sar`a
MS =
k · rcf
k + k · (k − 1) · rff
Dove :
rcf : correlazione media tra la classe c e la feature f ∈ S
attributi discreti : Correlazione basata sulla entropia
attributi continui : Correlazione di Pearson
rff : intercorrelazione media feature-feature
k : numero di feature f ∈ S
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 29 / 108
35. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
In dettaglio ...
Nel caso in cui le due feature siano gi`a entrambe continue, la
correlazione verr`a calcolata con:
rXY =
(x, y)
n · σx σy
dove:
X e Y sono due variabili continue espresse in termini di
deviazioni standard
n rappresenta il numero di osservazioni
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 32 / 108
37. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
... in dettaglio
Se invece, entrambi gli attributi risultano essere discreti, essi
verranno dapprima discretizzati ed in seguito verr`a calcolata la
correlazione nel seguente modo:
rXY =
k
i=1
m
j=1
p(X = xi , Y = yj ) · rXbi Ybj
dove :
Xbi =
1 se X = xi
0 altrimenti
Ybj =
1 se Y = yj
0 altrimenti
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 34 / 108
38. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
Correlazione basata su entropia
Per attributi di carattere discreto verr`a utilizzato il concetto di
entropia dell’attributo
SU = 2 ·
H(X) + H(Y ) − H(X, Y )
H(Y ) + H(X)
dove:
SU rappresenta la misura di incertezza simmetrica
H(X) : entropia della feature X
H(X, Y ) : entropia congiunta di X e Y (ogni possibile
combinazioni di valori sia di X che di Y)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 35 / 108
39. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 36 / 108
40. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA
Riduce la dimensionalit`a del dataset combinando le variabili in
gioco
Mantiene lo stesso apporto informativo del dataset originale
Le nuove variabili, chiamate Principal Components (PC), sono
non correlate, e sono ordinate in base all’informazione che
essa contiene
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 37 / 108
41. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA - Idea di base
Trova l’asse che meglio rappresenta la pi`u grande variazione
(First principal component) e proietta tutti i punti su
quest’asse
Definisce la nuova dimensionalit`a sulla base degli autovettori
della matrice di covarianza associata
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 38 / 108
42. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA - Algoritmo
1 X ← Creare la matrice istanze/attributi N x d, dove ogni riga
rappresenta l’istanza xn
2 Sottrarre il valor medio x da ogni vettore riga xn ∈ X
3 Σ ← matrice di covarianza di X
4 Trovare gli autovalori e gli autovettori di Σ : a1j , a2j , · · · , adj
5 I primi p autovettori con autovalori pi`u alti formeranno la PC
G ← [a1j , a2j , · · · , apj ] con p < d
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 39 / 108
43. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Propriet`a ottimale della PCA
La matrice G `e costituita dai primi p autovettori della matrice di
covarianza S soddisfano il problema di minimo:
min
G∈ d x p
X − G(G X) 2
F tale che G G = Ip
Proiezione PCA minimizza l’errore di ricostruzione delle proiezioni
lineari della dimensione p
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 40 / 108
45. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Principal Component
First Principal component (PC1)
direzione lungo la quale c’`e la maggiore varianza
Second Principal component (PC2)
direzione con la varianza massima trascurata dai dati
ortogonale con PC1
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 42 / 108
47. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA non lineare usando Kernel
PCA tradizionale applica una trasformazione lineare
Potrebbe non essere efficace su dati non lineari
Soluzione: applica una trasformazione non lineare a spazi
dimensionali molto alti
φ : x → φ(x)
Computazionalmente efficiente: applica il kernel trick
riscrittura in termini di prodotto interno
K(xi , xj ) = φ(xi ) · φ(xj )
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 44 / 108
48. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 45 / 108
49. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
χ2
- Idea di base
Verifica se esiste una correlazione tra le feature e l’attributo di
classe usando la statistica χ2
Il test statistico sar`a:
χ2
=
C
i=1
(Oi − Ei )2
Ei
con gradi di libert`a = C − 1
dove
C = numero di categorie
Oi = frequenze osservate per la categoria i
Ei = frequenze attese per la categoria i
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 46 / 108
50. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Area di rigetto
Verranno definite le ipotesi statistiche
H0 : la feature `e dipendente dalla classe target
H1 : la feature `e indipendente dalla classe target
Si rigetta H0 se χ2 > χ2
α
(con C − 1 gradi di libert`a)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 47 / 108
51. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
χ2
nella feature selection
1. Crea la matrice di contingenza (F x C)
2. Esegue la statistica χ2 tra le occorrenze del termine e quelle
della classe
Calcola i gradi di libert`a (df = (#rows-1)(#cols-1))
Ricerca nella χ2
table del valore χ2
α da usare per il confronto
3. Se χ2 > χ2
α l’ipotesi H0 verr`a rigettata
χ2
alto, dipendenza tra la feature e l’attributo di classe alta
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 48 / 108
52. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
χ2
test statistic
Il test statistico sar`a:
χ2
(D, t, c) =
et ∈{0,1} ec ∈{0,1}
(Net ec − Eet ec )2
Eet ec
Dove:
ec =
1 se il documento `e di classe c
0 altrimenti
et =
1 se il termine t `e incluso nel documento
0 altrimenti
N rappresenta la frequenza osservata in D
E rappresenta la frequenza attesa (i.e. E11 `e la frequenza
attesa di t e c che co-occorrono nel documento assumendo
che il termine sia indipendente dalla classe)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 49 / 108
53. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Tabella di contingenza
In una tabella di contingenza:
Le celle contengono il numero di casi che presentano
congiuntamente le due variabili (frequenze di cella)
I totali di riga/colonna sono chiamati frequenze marginali
Le righe/colonne intermedie sono distribuzioni condizionate
X
Y y1 y2 · · · yk totale
x1 f1,1 f1,2 · · · f1,k f1,.
x2 f2,1 f2,2 · · · f2,k f2,.
...
...
...
...
...
...
xh fh,1 fh,2 · · · fh,k fh,.
totale f.,1 f.,2 · · · f.,k 1
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 50 / 108
54. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Esempio
Verificare se esiste correlazione tra:
Hand preference vs. Gender
Hand Preference: Left vs. Right
Gender: Male vs. Female
Le ipotesi da verificare saranno:
H0: Non esiste correlazione tra Hand Preference e Gender
H1: La Hand Preference `e dipendente dal Gender
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 51 / 108
58. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 55 / 108
59. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Information Gain - Idea di base
Valuta gli attributi sulla base del guadagno di informazione
che apporta al dataset
Guadagno ottenuto riducendo l’incertezza iniziale
IG(Attr) = Entropy(S) −
v∈Values(Attr)
|Sv |
|S|
· Entropy(Sv )
dove:
S : dataset di training
Attr : rappresenta l’attributo da analizzare
v : valori degli attributi Attr
Sv : subset di istanze con attributo Attr valorizzato con v
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 56 / 108
60. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Entropia
Prendendo in cosiderazione:
S dataset di training
C1 . . . Ck etichette di classe
RF(Ci , S) frequenze relative dei s ∈ S di classe Ci
L’entropia E di S sar`a calcolata come:
E(S) = −
k
i=1
RF(Ci , S) log(RF(Ci , S))
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 57 / 108
61. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Entropia
Misura il quantitativo di incertezza presente in S
High entropy significa che S segue una distribuzione uniforme
RF(C1, S) = · · · = RF(Ck, S)
low entropy significa che S proviene da una distribuzione non
uniforme dove alcuni eventi sono molto pi`u probabili degli altri
RF(Ci , S) RF(Cj , S) ∀i = j
zero entropy significa che S conterr`a eventi certi
annullandone l’incertezza
RF(Ci , S) = 1 RF(Cj , S) = 0 ∀j = i
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 58 / 108
62. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Classificazione binaria
In un problema di classificazione binaria (C1 positivo, C2 negativo)
dove:
p rappresenta la proporzione di esempi positivi in S
n rappresenta la proporzione di esempi negativi in S
L’entropia di S `e computata come:
E(S) = −p · log2p − n · log2n
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 59 / 108
63. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Esempio ...
Day Outlook Temp Humidity Wind PlayTennis
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
D7 Overcast Cool Normal Weak Yes
D8 Sunny Mild High Weak No
D9 Sunny Cold Normal Weak Yes
D10 Rain Mild Normal Strong Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rain Mild High Strong No
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 60 / 108
64. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
... esempio ...
Descrizione del dataset:
istanze di training : 14
istanze classificate come Yes : 9
istanze classificate come No : 5
Entropia del dataset:
E(S) = −
9
14
· log2
9
14
−
5
14
· log2
5
14
= 0.940
Descrizione dell’attributo outlook:
sunny overcast rain
yes 2 4 3
no 3 0 2
tot 5 4 5
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 61 / 108
65. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
... esempio ...
Le entropie dei valori di outlook saranno:
E(sunny) = −
2
5
· log2
2
5
−
3
5
· log2
3
5
= 0.971
E(overcast) = −
4
4
· log2
4
4
−
0
4
· log2
0
4
= 0
E(rain) = −
2
5
· log2
2
5
−
3
5
· log2
3
5
= 0.971
L’entropia totale di outlook sar`a:
E(outlook) =
5
14
· 0.971 +
4
14
· 0 +
5
14
· 0.971 = 0.694
L’information gain ottenuta dall’attributo outlook sar`a:
IG(outlook) = 0.940 − 0.694 = 0.246
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 62 / 108
66. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
... esempio
Eseguendo lo stesso test anche sugli altri attributi otterremo:
IG(temperature) = 0.029
IG(humidity) = 0.151
IG(windy) = 0.048
Quindi il ranking ottenuto sulla base dell’information gain
apportato dagli attributi sar`a:
1 outlook
2 humidity
3 windy
4 temperature
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 63 / 108
67. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 64 / 108
71. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Calcolo punteggio PageRank . . .
Se abbiamo n pagine P1, P2, . . . , Pn ed assegniamo a ciascuna
pagina un arbitrario punteggio iniziale r0(Pi ) = 1
n
Il punteggio r(P) pu`o essere calcolato mediante la seguente
iterazione:
rj (Pi ) =
Q∈BPi
rj−1(Q)
|Q|
j = 1, 2, 3, . . .
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 68 / 108
72. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . calcolo punteggio PageRank . . .
Ponendo: πj = (rj (P1), rj (P2), . . . , rj (Pn))
Definiamo la matrice di Google per righe P tale che:
pij =
1
Pi
se Pi si connette con la pagina Pj
0 altrimenti
La precedente iterazione si pu`o riscrivere come:
πj = πj−1P
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 69 / 108
73. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . calcolo punteggio PageRank
Se il limite esiste, il vettore PageRank `e definito
π = lim
j→∞
πj
la i-sima componente del vettore PageRank `e il
punteggio(pagerank) della pagina Pi
Per assicurare la convergenza del processo iterativo la matrice
P deve essere modificata
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 70 / 108
75. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Matrice Google per righe
La matrice di Google per righe P `e
non-negativa
somma degli elementi sulle righe pari a zero1
o uno
Se la matrice P ha tutte le righe con somma pari a uno allora
si parla di matrice stocastica:
autovalore dominante uguale a 1
iterazione PageRank converge all’autovettore sinistro
normalizzato π = π P t.c. π 1 = 1
1
nodi dangling
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 72 / 108
78. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Trasformazione Matrice di Google per righe
La matrice di Google attualmente utilizzata `e ottenuta
considerando la matrice di perturbazione E = 1v dove v `e un
vettore di personalizzazione dell’utente
¯¯P = d ¯P + (1 − d)1v d ∈ [0, 1]
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 75 / 108
79. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Damping factor d
Fattore il cui valore `e stabilito da Google
Nella documentazione originale fornita dal Searcher il damping
factor `e pari a 0,85 (pu`o subire aggiustamenti a discrezione di
Google)
Attraverso il damping factor, Google pu`o determinare il valore
percentuale di PageRank che transita da una pagina all’altra e
stabilire un valore minimo di PageRank attribuito ad ognuna
delle pagine presenti nei suoi archivi
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 76 / 108
88. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Esempio di raccomandazione
Calcoliamo l’insieme di rilevanza per la query q = (t1, t2)
Insieme di rilevanza {1 3 4 6}
I PageRank dei 4 documenti possono essere confrontati per
individuare quale dei documenti `e il pi`u rilevante
ordinare le componenti del vettore pagerank associate ai
documenti selezionati in modo decrescente
π4 π6 π3 π1
doc4 −→ documento pi`u rilevante
seguono doc6, doc3, doc1
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 85 / 108
89. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 86 / 108
90. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Classificatore lineare
Definito un dataset etichettato in maniera binaria
Etichette di classe:
istanze negative -1
istanze positive +1
Trovare una retta che sia in grado di classificare i dati in maniera
corretta
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 87 / 108
94. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizioni
Un vettore W in uno spazio d-dimensionale
rappresenta una lista di d numeri, e.g.
W = (−1, 2)
Vettore `e un segmento orientato nello spazio
La norma del vettore W rappresenta la sua
lunghezza
W X : proiezione dell’asse
X su W
W X = 0 → punti che si
intersecano con l’asse
W X = 1 : linea parallela a
W X = 0 shiftata di 1
W
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 91 / 108
95. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM - boundary e margini
Trovare il coefficiente angolare della retta (W ) e l’offset della retta
(b) tale che:
tutti gli esempi positivi (X,Y=1) ricadano nella zona rossa
tutti gli esempi negativi (X,Y=-1) ricadano nella zona blu
il margine M sia massimizzato
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 92 / 108
96. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM come ottimizzazione di vincoli
Variabili:
Vettore W
offset della retta b
N punti (Xi , Yi ) dove Yi = {−1, 1}
Funzione obiettivo:
max
2
W
→ min W
Vincoli da considerare:
∀i se Yi =
1 W Xi + b ≥ 1
−1 W Xi + b ≤ −1
unificabile in:
Yi (W Xi + b) ≥ 1
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 93 / 108
97. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM come Quadratic Program
Funzione obiettivo quadratica
Vincoli lineari
Questo problema `e conosciuto come Quadratic Program
(QP) per il quale esistono algoritmi che ricercano la soluzione
globale pi`u efficiente
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 94 / 108
99. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM con slack variable
Rilassare i vincoli
Per un dato boundary (W , b) si andranno a calcolare quante
misclassification sono state considerate
I vincoli diventeranno:
Yi (W Xi + b) ≥ 1 − i
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 96 / 108
100. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM con slack variable
Il nuovo obiettivo diventa quindi:
Minimizzare gli errori di misclassification e le istanze presenti
all’interno dei margini
min
w
w 2
+C
i
i
C indica il trade-off tra la larghezza dei margini e le
misclassification
In questo caso verr`a aggiunto un ulteriore vincolo
∀i i ≥ 0
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 97 / 108
101. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM con kernel trick
Il prodotto scalare viene tramutato in una funzione kernel non
lineare φ
L’algoritmo crea l’iperpiano che massimizza i margini nel
nuovo spazio delle feature trasformato
φ
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 98 / 108
103. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 100 / 108
104. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Gain Ratio - Idea di base
Estensione dell’information gain classico
Mira a penalizzare gli attributi con un numero elevato di valori
Normalizza l’InfoGain usando l’entropia di S in relazione
all’attributo Attr (Split information)
SplitInformation(S, Attr) = −
v∈Values(Attr)
|Sv |
|S|
log
|Sv |
|S|
Definizione di GainRatio:
GainRatio(S, Attr) =
IG(S, Attr)
SplitInformation(S, Attr)
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 101 / 108
105. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Esempio ...
Riprendendo l’esempio definito in precedenza
Day Outlook Temp Humidity Wind PlayTennis
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
D7 Overcast Cool Normal Weak Yes
D8 Sunny Mild High Weak No
D9 Sunny Cold Normal Weak Yes
D10 Rain Mild Normal Strong Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rain Mild High Strong No
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 102 / 108
106. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio ...
Descrizione del dataset:
istanze di training : 14
istanze classificate come Yes : 9
istanze classificate come No : 5
Descrizione dell’attributo outlook:
sunny overcast rain
yes 2 4 3
no 3 0 2
tot 5 4 5
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 103 / 108
107. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio ...
La Split information dell’attributo outlook sar`a:
SI(S, outlook) = SI(S, sunny)+SI(S, overcast)+SI(S, rain) = 1.577
dove:
SI(S, sunny): − 5
14 · log2
5
14 = 0, 5305
SI(S, overcast): − 4
14 · log2
4
14 = 0, 5160
SI(S, rain): − 5
14 · log2
5
14 = 0, 5305
Quindi la gain ratio dell’attributo outlook sar`a:
GainRatio(S, outlook) =
IG(S, outlook)
SI(S, outlook)
=
0.246
1.577
= 0.156
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 104 / 108
108. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio
Usando l’approccio del Gain Ratio il nuovo ranking sar`a:
GainRatio(S, outlook) =
IG(S, outlook)
SI(S, outlook)
=
0.246
1.577
= 0.156
GainRatio(S, humidity) =
IG(S, humidity)
SI(S, humidity)
=
0.151
1
= 0.151
GainRatio(S, wind) =
IG(S, wind)
SI(S, wind)
=
0.048
0.9
= 0.053
GainRatio(S, temperature) =
IG(S, temperature)
SI(S, temperature)
=
0.029
1.788
= 0.016
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 105 / 108
109. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Ricapitolando
Di seguito sono mostrati gli attributi con i rispettivi valori e il
numero di istanze avvalorate in quel modo
outlook
sunny : 5
overcast : 4
rainy : 5
humidity
high : 7
normal : 7
windy
strong : 6
weak : 8
temperature
hot : 4
mild : 6
cool : 3
cold : 1
InfoGain GainRatio
Outlook .246 .156
humidity .151 .151
windy .048 .053
temperature .029 .016
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 106 / 108
110. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
References I
Monica Bianchini, Marco Gori, and Franco Scarselli.
Inside pagerank.
ACM Trans. Internet Technol., 5(1):92–128, February 2005.
Isabelle Guyon, Jason Weston, Stephen Barnhill, and Vladimir Vapnik.
Gene selection for cancer classification using support vector machines.
Machine learning, 46(1-3):389–422, 2002.
M. A. Hall.
Correlation-based Feature Subset Selection for Machine Learning.
PhD thesis, University of Waikato, Hamilton, New Zealand, 1998.
Harold Hotelling.
Analysis of a complex of statistical variables into principal components.
Journal of educational psychology, 24(6):417, 1933.
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 107 / 108
111. ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
References II
Igor Kononenko, Edvard ˇSimec, and Marko Robnik-ˇSikonja.
Overcoming the myopia of inductive learning algorithms with relieff.
Applied Intelligence, 7(1):39–55, 1997.
Hanchuan Peng, Fuhui Long, and Chris Ding.
Feature selection based on mutual information: criteria of
max-dependency, max-relevance, and min-redundancy.
IEEE Transactions on Pattern Analysis and Machine Intelligence,
27:1226–1238, 2005.
George Waddel Snedecor and William G. Cochran.
Statistical methods.
Iowa State University Press, 1989.
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 108 / 108