Features Selection's algorithms

Algoritmi di feature selection
Simone Rutigliano
Corso di Laurea in Informatica Magistrale
2 aprile 2015

Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Beneﬁci
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Deﬁnizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio
Simone Rutigliano Algoritmi di feature selection 2 aprile 2015 1 / 108

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Beneﬁci
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Deﬁnizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Relief
Valuta gli attributi sulla base di quanto siano in grado di
discriminare le istanze vicine
Data una istanza, cerca:
nearest hit: l’istanza pi`u vicina della stessa classe
nearest miss: l’istanza pi`u vicina di classe diversa

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Caratteristiche
Qualità:
le feature possono essere anche dipendenti tra loro
complessità O(n) in tempo dove n indica il numero di feature
tolleranza al rumore
robusta alle interazioni tra feature
applicabile sia a dati binari che a dati continui
Limiti:
Non discrimina le feature ridondanti
Un basso numero di istanze di training può alterare i risultati
Limitato a problemi di classificazione binaria
Non tratta dati incompleti

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
ReliefF - Idea di base
Trova i primi k più vicini di ogni classe ottenendo il vettore
probabilistico dei pesi di ogni classe
Estensione di Relief
Fornisce stime probabilistiche più affidabili
Permette di trattare dati incompleti
Gestisce dataset multi-classe

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Calcolo
Dato un campione di p istanze estratte dal training set, il valore di
ogni istanza sar`a:
SCr (fi ) =
1
2
p
t=1
d(ft,i − fNM(xt ),i ) − d(ft,i − fNH(xt ),i )
dove:
d : funzione distanza
ft,i : feature i dell’istanza t
NM(xt) : istanze vicine a xt di classe diﬀerente
NH(xt) : istanze vicine a xt di della stessa classe

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Calcolo
Il valore calcolato rappresenta la qualità della feature
Un buon attributo deve avere:
valori simili per istanze appartenenti alla stessa classe
ft,i − fNH(xt ),i ≈ 0
valori differenti per istanze appartenenti a classi differenti
|ft,i − fNM(xt ),i | 0
Approccio probabilistico della funzione distanza
Reliefx = P(valori differenti di X | classe differente)−
P(valori differenti di X | stessa classe)

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Missing value
Le probabilità condizionate saranno approssimate in base alla
frequenza relativa definita dal training set
Definita la funzione distanza dist(Attribute, Instance1, Instance2)
se una istanza (e.g. I1) ha missing value:
dist(A, I1, I2) = 1 − P(value(A, I2)|class(I1))
se entrambe hanno missing value:
dist(A, I1, I2) = 1−
#values(A)
V
(P(V |class(I1)) x P(V |class(I2)))
dove V rappresenta tutti i possibili valori dell’attributo A

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Relief
Calcoli
Missing value
Multiclass
Dataset multi-classe
cerca il vicino di classe differente (near missing M(C)) per
ogni classe diversa da quella considerata (R)
verrà calcolata la media delle probabilità di ogni classe
differente
C=class(R)
P(C)
1−P(class(R)) x dist(A, R, M(C))
n
dove n rappresenta la cardinalità di C

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Beneﬁci
mRMR - Idea di base
Consiste nel calcolo della
minima ridondanza tra le features
massima rilevanza delle features con la classe target

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Mutual Information - Definizione
La mutua informazione rappresenta i bit di informazione che
una delle variabili fornisce riguardo l’altra
Date due variabili casuali X e Y, la mutua informazione è
definita come
I(X; Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X)
dove le entropie sono calcolate
H(X) = −
i∈X
P(xi ) · log(P(xi ))
H(X, Y ) = −
i∈X j∈Y
P(xi , yj ) · log(P(xi , yj ))

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Beneﬁci
Considerazioni
Indipendenza: I(X; Y ) = 0
Simmetria: I(X; Y ) = H(X)−H(X|Y ) = H(Y )−H(Y |X) = I(Y ; X)
Riflessivit`a: I(X; X) = H(X)

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Minima Ridondanza - Definizione
Consiste nel selezionare le features in modo tale che siano tra
loro più dissimilari
Il subset che si otterrà sarà il più rappresentativo possibile
dell’intero dataset
Formalmente consiste nel
Calcolare una funzione Red calcolata sul set di feature S
Trovare il subset che minimizza la funzione calcolata
min Red(S)

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Beneﬁci
Calcolo per variabili discrete
Red(S) =
1
|S|2
xi ,xj ∈S
I(xi ; xj )
dove
|S| `e il numero di features presenti nel subset S
xi e xj rappresentano rispettivamente la i-esima e j-esima
feature del subset S
I(xi ; xj ) rappresenta la mutua informazione tra le due feature

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo per variabili continue
Red(S) =
1
|S|2
xi ,xj ∈S
|c(xi ; xj )|
dove
|S| è il numero di features presenti nel subset S
xi e xj rappresentano rispettivamente la i-esima e j-esima
feature del subset S
|c(xi ; xj )| indica il valore assoluto del coefficiente di
correlazione di Pearson tra le feature xi e xj

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Beneﬁci
Massima Rilevanza - Deﬁnizione
Ricercare le feature che riescano ad approssimare la funzione
max Dep(S, c) Dep = I({x1, . . . , xm}; c)
con il valor medio di tutti i valori della mutua informazione tra
le singole feature xi e la classe c

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Beneﬁci
Calcolo per variabili discrete
In caso di variabili discrete l’obiettivo sar`a massimizzare la funzione
Dep calcolata nel seguente modo
Dep(S, c) =
1
|S|
xi ∈S
I(xi ; c)
dove
S indica il set contenente tutte le features
xi indica la i-sima feature da considerare
c indica la classe target

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo per variabili continue. . .
Per le variabili continue bisogna usare la F-statistic come misura
per calcolare la rilevanza tra le features xi e la classe target c
F(xi , c) =
K
nk ( ¯xk −¯x)
K−1
σ2
dove:
σ2 = k
(nk −1)σ2
k
n−K
K indica le classi denotate da c
¯x è il valor medio di xi di tutti i campioni
¯xk è il valor medio di xi di tutti i campioni di classe k
nk e σk indicano dimensione e varianza della k−classe

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Beneﬁci
. . . calcolo per variabili continue
In caso di variabili continue l’obiettivo sar`a massimizzare la
funzione Dep calcolata nel seguente modo
Dep(S, c) =
1
|S|
xi ∈S
F(xi ; c)
dove
F indica la funzione F − test calcolata sulle feature in
relazione alla classe target
S indica il set contenente tutte le features
xi indica la i-sima feature da considerare
c indica la classe target

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Calcolo mRMR
Variabili discrete
MID - Mutual Information Difference
MIQ - Mutual Information Quotient
Variabili continue
FCD - F-test Correlation Difference
FCQ - F-test Correlation Quotient

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Beneﬁci
Discrete - MID
Consiste nel trovare le features che massimizzino la diﬀerenza tra
dipendenze e ridondanze di queste features dalla classe target
attraverso il calcolo della mutua informazione
max(Dep(S, c) − Red(S))
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
I(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
I(xi ; xj )

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Beneﬁci
Discrete - MIQ
Consiste nel trovare le features che massimizzino il rapporto tra
attraverso il calcolo della mutua informazione
max
Dep(S, c)
Red(S)
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
I(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
I(xi ; xj )

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Beneﬁci
Continuous - FCD
Consiste nel trovare le features che massimizzino la diﬀerenza tra
attraverso il calcolo del F-test
max((Dep(S, c) − Red(S))
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
F(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
|c(xi ; xj )|

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Beneﬁci
Continuous - FCQ
Consiste nel trovare le features che massimizzino il rapporto tra
attraverso il calcolo del F-test
max
Dep(S, c)
Red(S)
dove ricordiamo che
Dep(S, c) = 1
|S|
xi ∈S
F(xi ; c)
Red(S) = 1
|S|2
xi ,xj ∈S
|c(xi ; xj )|

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Mutual Information
Minima Ridondanza
Massima Rilevanza
Formule
Benefici
Benefici
Con lo stesso numero di features, mRMR garantisce maggiore
rappresentatività al dataset offrendo una migliore proprietà di
generalizzazione
Allo stesso modo, possiamo usare un set di feature mRMR più
piccolo per ricoprire in maniera più efficace lo stesso spazio
ricoperto da feature set convenzionale più grande

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Beneﬁci
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Deﬁnizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
CFSubset - Idea alla base
Cerca in maniera esaustiva il subset ottimale che sia in grado di
massimizzare la predizione della classe
minimizzare la ridondanza tra le feature

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
CFSubset - Calcolo
La funzione di merito associata sarà
MS =
k · rcf
k + k · (k − 1) · rff
Dove :
rcf : correlazione media tra la classe c e la feature f ∈ S
attributi discreti : Correlazione basata sulla entropia
attributi continui : Correlazione di Pearson
rff : intercorrelazione media feature-feature
k : numero di feature f ∈ S

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
Correlazione di Pearson
Misura il peso della correlazione lineare tra due variabili
In particolare indica:
Forza della relazione (forte, debole o nulla) → da 0 a 1
Direzione della relazione → positiva(+) o negativa(-)

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
Correlazione di Pearson
Assumptions:
Variabili sono quantitative o ordinali
Seguono una distribuzione normale
Relazione lineare
ρX,Y = i (xi − ¯x)(yi − ¯y)
j (xj − ¯x)2 · k (yk − ¯y)2

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
In dettaglio ...
Nel caso in cui le due feature siano gi`a entrambe continue, la
correlazione verr`a calcolata con:
rXY =
(x, y)
n · σx σy
dove:
X e Y sono due variabili continue espresse in termini di
deviazioni standard
n rappresenta il numero di osservazioni

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
... in dettaglio ...
Se uno dei due attributi `e discreto e l’altro continuo, la
correlazione di Pearson calcolata sar`a:
rXY =
k
i=1
p(X = xi ) · rXbi Y
dove Xbi =
1 se X = xi
0 altrimenti

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
... in dettaglio
Se invece, entrambi gli attributi risultano essere discreti, essi
verranno dapprima discretizzati ed in seguito verr`a calcolata la
correlazione nel seguente modo:
rXY =
k
i=1
m
j=1
p(X = xi , Y = yj ) · rXbi Ybj
dove :
Xbi =
1 se X = xi
0 altrimenti
Ybj =
1 se Y = yj
0 altrimenti

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Correlazioni
Correlazione basata su entropia
Per attributi di carattere discreto verr`a utilizzato il concetto di
entropia dell’attributo
SU = 2 ·
H(X) + H(Y ) − H(X, Y )
H(Y ) + H(X)
dove:
SU rappresenta la misura di incertezza simmetrica
H(X) : entropia della feature X
H(X, Y ) : entropia congiunta di X e Y (ogni possibile
combinazioni di valori sia di X che di Y)

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Beneﬁci
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Deﬁnizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA
Riduce la dimensionalit`a del dataset combinando le variabili in
gioco
Mantiene lo stesso apporto informativo del dataset originale
Le nuove variabili, chiamate Principal Components (PC), sono
non correlate, e sono ordinate in base all’informazione che
essa contiene

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA - Idea di base
Trova l’asse che meglio rappresenta la più grande variazione
(First principal component) e proietta tutti i punti su
quest’asse
Definisce la nuova dimensionalità sulla base degli autovettori
della matrice di covarianza associata

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA - Algoritmo
1 X ← Creare la matrice istanze/attributi N x d, dove ogni riga
rappresenta l’istanza xn
2 Sottrarre il valor medio x da ogni vettore riga xn ∈ X
3 Σ ← matrice di covarianza di X
4 Trovare gli autovalori e gli autovettori di Σ : a1j , a2j , · · · , adj
5 I primi p autovettori con autovalori pi`u alti formeranno la PC
G ← [a1j , a2j , · · · , apj ] con p < d

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Propriet`a ottimale della PCA
La matrice G `e costituita dai primi p autovettori della matrice di
covarianza S soddisfano il problema di minimo:
min
G∈ d x p
X − G(G X) 2
F tale che G G = Ip
Proiezione PCA minimizza l’errore di ricostruzione delle proiezioni
lineari della dimensione p

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Rappresentazione graﬁca
Restituisce la
proiezione
migliore
Minimizza
l’errore
quadratico
medio
Le principal
component
sono tra loro
ortogonali

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Principal Component
First Principal component (PC1)
direzione lungo la quale c’`e la maggiore varianza
Second Principal component (PC2)
direzione con la varianza massima trascurata dai dati
ortogonale con PC1

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
Quante componenti considerare?
Si considera la distribuzione degli autovalori
Si mantengono un numero tale di autovettori in grado di
coprire l’80-90% della varianza del dataset

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Analisi
PCA non lineare usando Kernel
PCA tradizionale applica una trasformazione lineare
Potrebbe non essere eﬃcace su dati non lineari
Soluzione: applica una trasformazione non lineare a spazi
dimensionali molto alti
φ : x → φ(x)
Computazionalmente eﬃciente: applica il kernel trick
riscrittura in termini di prodotto interno
K(xi , xj ) = φ(xi ) · φ(xj )

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Beneﬁci
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Deﬁnizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
χ2
- Idea di base
Verifica se esiste una correlazione tra le feature e l’attributo di
classe usando la statistica χ2
Il test statistico sarà:
χ2
=
C
i=1
(Oi − Ei )2
Ei
con gradi di libertà = C − 1
dove
C = numero di categorie
Oi = frequenze osservate per la categoria i
Ei = frequenze attese per la categoria i

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Area di rigetto
Verranno definite le ipotesi statistiche
H0 : la feature è dipendente dalla classe target
H1 : la feature è indipendente dalla classe target
Si rigetta H0 se χ2 > χ2
α
(con C − 1 gradi di libertà)

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
χ2
nella feature selection
1. Crea la matrice di contingenza (F x C)
2. Esegue la statistica χ2 tra le occorrenze del termine e quelle
della classe
Calcola i gradi di libert`a (df = (#rows-1)(#cols-1))
Ricerca nella χ2
table del valore χ2
α da usare per il confronto
3. Se χ2 > χ2
α l’ipotesi H0 verr`a rigettata
χ2
alto, dipendenza tra la feature e l’attributo di classe alta

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
χ2
test statistic
Il test statistico sarà:
χ2
(D, t, c) =
et ∈{0,1} ec ∈{0,1}
(Net ec − Eet ec )2
Eet ec
Dove:
ec =
1 se il documento è di classe c
0 altrimenti
et =
1 se il termine t è incluso nel documento
0 altrimenti
N rappresenta la frequenza osservata in D
E rappresenta la frequenza attesa (i.e. E11 è la frequenza
attesa di t e c che co-occorrono nel documento assumendo
che il termine sia indipendente dalla classe)

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Tabella di contingenza
In una tabella di contingenza:
Le celle contengono il numero di casi che presentano
congiuntamente le due variabili (frequenze di cella)
I totali di riga/colonna sono chiamati frequenze marginali
Le righe/colonne intermedie sono distribuzioni condizionate
X
Y y1 y2 · · · yk totale
x1 f1,1 f1,2 · · · f1,k f1,.
x2 f2,1 f2,2 · · · f2,k f2,.
...
...
...
...
...
...
xh fh,1 fh,2 · · · fh,k fh,.
totale f.,1 f.,2 · · · f.,k 1

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Esempio
Verificare se esiste correlazione tra:
Hand preference vs. Gender
Hand Preference: Left vs. Right
Gender: Male vs. Female
Le ipotesi da verificare saranno:
H0: Non esiste correlazione tra Hand Preference e Gender
H1: La Hand Preference è dipendente dal Gender

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Esempio ...
Risultati campionati nella tabella di contingenza:

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio ...

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Beneﬁci
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Deﬁnizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Information Gain - Idea di base
Valuta gli attributi sulla base del guadagno di informazione
che apporta al dataset
Guadagno ottenuto riducendo l’incertezza iniziale
IG(Attr) = Entropy(S) −
v∈Values(Attr)
|Sv |
|S|
· Entropy(Sv )
dove:
S : dataset di training
Attr : rappresenta l’attributo da analizzare
v : valori degli attributi Attr
Sv : subset di istanze con attributo Attr valorizzato con v

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Entropia
Prendendo in cosiderazione:
S dataset di training
C1 . . . Ck etichette di classe
RF(Ci , S) frequenze relative dei s ∈ S di classe Ci
L’entropia E di S sar`a calcolata come:
E(S) = −
k
i=1
RF(Ci , S) log(RF(Ci , S))

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Entropia
Misura il quantitativo di incertezza presente in S
High entropy significa che S segue una distribuzione uniforme
RF(C1, S) = · · · = RF(Ck, S)
low entropy significa che S proviene da una distribuzione non
uniforme dove alcuni eventi sono molto più probabili degli altri
RF(Ci , S) RF(Cj , S) ∀i = j
zero entropy significa che S conterrà eventi certi
annullandone l’incertezza
RF(Ci , S) = 1 RF(Cj , S) = 0 ∀j = i

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Classificazione binaria
In un problema di classificazione binaria (C1 positivo, C2 negativo)
dove:
p rappresenta la proporzione di esempi positivi in S
n rappresenta la proporzione di esempi negativi in S
L’entropia di S è computata come:
E(S) = −p · log2p − n · log2n

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
Esempio ...
Day Outlook Temp Humidity Wind PlayTennis
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
D7 Overcast Cool Normal Weak Yes
D8 Sunny Mild High Weak No
D9 Sunny Cold Normal Weak Yes
D10 Rain Mild Normal Strong Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rain Mild High Strong No

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
... esempio ...
Descrizione del dataset:
istanze di training : 14
istanze classiﬁcate come Yes : 9
istanze classiﬁcate come No : 5
Entropia del dataset:
E(S) = −
9
14
· log2
9
14
−
5
14
· log2
5
14
= 0.940
Descrizione dell’attributo outlook:
sunny overcast rain
yes 2 4 3
no 3 0 2
tot 5 4 5

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
... esempio ...
Le entropie dei valori di outlook saranno:
E(sunny) = −
2
5
· log2
2
5
−
3
5
· log2
3
5
= 0.971
E(overcast) = −
4
4
· log2
4
4
−
0
4
· log2
0
4
= 0
E(rain) = −
2
5
· log2
2
5
−
3
5
· log2
3
5
= 0.971
L’entropia totale di outlook sar`a:
E(outlook) =
5
14
· 0.971 +
4
14
· 0 +
5
14
· 0.971 = 0.694
L’information gain ottenuta dall’attributo outlook sar`a:
IG(outlook) = 0.940 − 0.694 = 0.246

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entropia Esempio
... esempio
Eseguendo lo stesso test anche sugli altri attributi otterremo:
IG(temperature) = 0.029
IG(humidity) = 0.151
IG(windy) = 0.048
Quindi il ranking ottenuto sulla base dell’information gain
apportato dagli attributi sar`a:
1 outlook
2 humidity
3 windy
4 temperature

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Benefici
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Definizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
PageRank
Implementazione del Wrapper Model:
Utilizzare lo stesso algoritmo sia per la feature selection sia
per la fase di raccomandazione
Subset ottimizzato per la raccomandazione

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
Idea di base
Pesatura dei link in base all’importanza del sito da cui proviene
L’importanza di un link da una qualunque sorgente dovrebbe
essere attenuato dal numero dei siti che la sorgente vota

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Definizione
Indicata con P una generica pagina, il suo punteggio sarà
r(P) =
Q∈BP
r(Q)
|Q|
dove
BP = { insieme di tutte le pagine puntanti a P}
|Q| = numero degli outlink di Q

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
Calcolo punteggio PageRank . . .
Se abbiamo n pagine P1, P2, . . . , Pn ed assegniamo a ciascuna
pagina un arbitrario punteggio iniziale r0(Pi ) = 1
n
Il punteggio r(P) pu`o essere calcolato mediante la seguente
iterazione:
rj (Pi ) =
Q∈BPi
rj−1(Q)
|Q|
j = 1, 2, 3, . . .

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . calcolo punteggio PageRank . . .
Ponendo: πj = (rj (P1), rj (P2), . . . , rj (Pn))
Definiamo la matrice di Google per righe P tale che:
pij =
1
Pi
se Pi si connette con la pagina Pj
0 altrimenti
La precedente iterazione si può riscrivere come:
πj = πj−1P

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . calcolo punteggio PageRank
Se il limite esiste, il vettore PageRank è definito
π = lim
j→∞
πj
la i-sima componente del vettore PageRank è il
punteggio(pagerank) della pagina Pi
Per assicurare la convergenza del processo iterativo la matrice
P deve essere modificata

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
Esempio di graph web
1 2
3
54
6
Matrice Google per righe P
P =











0 1
2
1
2 0 0 0
1
2 0 1
2 0 0 0
0 1
2 0 1
2 0 0
0 0 0 0 1
2
1
2
0 0 1
2
1
2 0 0
0 0 0 0 0 1












ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
Matrice Google per righe
La matrice di Google per righe P `e
non-negativa
somma degli elementi sulle righe pari a zero1
o uno
Se la matrice P ha tutte le righe con somma pari a uno allora
si parla di matrice stocastica:
autovalore dominante uguale a 1
iterazione PageRank converge all’autovettore sinistro
normalizzato π = π P t.c. π 1 = 1
1
nodi dangling

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
Esempio nodo dangling
1 2
3
54
6
P =











0 1
2
1
2 0 0 0
1
2 0 1
2 0 0 0
0 1
2 0 1
2 0 0
0 0 0 0 1
2
1
2
0 0 1
2
1
2 0 0
0 0 0 0 0 0











s
Il nodo 6 `e un nodo dangling in quanto non ha outlink

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
Trasformazione Matrice di Google per righe . . .
Stocastica
Sostituire ad ogni riga nulla il vettore 1
n
La nuova matrice stocastica si indica con ¯P
Irriducibile
Aggiungere una matrice di perturbazione E = 11
n
La nuova matrice sar`a uguale a
¯¯P = d ¯P + (1 − d)E d ∈ [0, 1]

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Trasformazione Matrice di Google per righe
La matrice di Google attualmente utilizzata è ottenuta
considerando la matrice di perturbazione E = 1v dove v è un
vettore di personalizzazione dell’utente
¯¯P = d ¯P + (1 − d)1v d ∈ [0, 1]

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
Damping factor d
Fattore il cui valore è stabilito da Google
Nella documentazione originale fornita dal Searcher il damping
factor è pari a 0,85 (può subire aggiustamenti a discrezione di
Google)
Attraverso il damping factor, Google può determinare il valore
percentuale di PageRank che transita da una pagina all’altra e
stabilire un valore minimo di PageRank attribuito ad ognuna
delle pagine presenti nei suoi archivi

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
Esempio . . .
Consideriamo l’insieme di rilevanza composto da sei pagine web
aventi la seguente struttura ad hyperlink
1 2
3
56
4

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
. . . Esempio . . .
La matrice di Google per righe corrispondente al grafo sar`a la
seguente
P =











0 1
2
1
2 0 0 0
0 0 0 0 0 0
1
3
1
3 0 0 1
3 0
0 0 0 0 1
2
1
2
0 0 0 1
2 0 1
2
0 0 0 1 0 0












ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Esempio . . .
Considerato che il nodo 2 è un nodo dangling allora sarà necessario
trasformarla in matrice stocastica
1 2
3
56
4
¯P =











0 1
2
1
2 0 0 0
1
6
1
6
1
6
1
6
1
6
1
6
1
3
1
3 0 0 1
3 0
0 0 0 0 1
2
1
2
0 0 0 1
2 0 1
2
0 0 0 1 0 0












ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
. . . Esempio . . .
La matrice stocastica ottenuta `e una matrice riducibile
¯P =











0 1
2
1
2 0 0 0
1
6
1
6
1
6
1
6
1
6
1
6
1
3
1
3 0 0 1
3 0
0 0 0 0 1
2
1
2
0 0 0 1
2 0 1
2
0 0 0 1 0 0












ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
. . . Esempio . . .
Per ottenere una matrice irriducibile settiamo il parametro
d = 0.85 da applicare alla formula 2
¯¯P = 0.85 ∗ ¯P +
0.15 ∗ 11
6
2 ¯¯P = d ¯P + (1−d)11
n

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
. . . Esempio . . .
6 5
4
2
3
2
2
2
1
1
11
1 0.85 · 0 + 0.15 · 1
6
2 0.85 · 1
2 + 0.15 · 1
6
3 0.85 · 1 + 0.15 · 1
6
0.85 ∗






...
...
...
...
. . . 0 1
2
1
2
. . . 1
2 0 1
2
. . . 1 0 0






+ 0.15 ∗






...
...
...
...
. . . 1
6
1
6
1
6
. . . 1
6
1
6
1
6
. . . 1
6
1
6
1
6







ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
. . . Esempio
Il vettore di PageRank associato alla precedente matrice sar`a
π = (0.3721 0.05396 0.0415 0.375 0.206 0.286)
PageRank indipendente dalla query

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizione
Calcolo
Esempio
Esempio di raccomandazione . . .
Data una query contenente i termini t1 e t2
Inverted term-document associato sar`a
t1 −→ doc1, doc4, doc6
t2 −→ doc1, doc3
...

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Definizione
Calcolo
Esempio
. . . Esempio di raccomandazione
Calcoliamo l’insieme di rilevanza per la query q = (t1, t2)
Insieme di rilevanza {1 3 4 6}
I PageRank dei 4 documenti possono essere confrontati per
individuare quale dei documenti è il più rilevante
ordinare le componenti del vettore pagerank associate ai
documenti selezionati in modo decrescente
π4 π6 π3 π1
doc4 −→ documento più rilevante
seguono doc6, doc3, doc1

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Beneﬁci
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Deﬁnizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Classificatore lineare
Definito un dataset etichettato in maniera binaria
Etichette di classe:
istanze negative -1
istanze positive +1
Trovare una retta che sia in grado di classificare i dati in maniera
corretta

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Entrambe le soluzioni risultano corrette

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
In realt`a le soluzioni che possono soddisfare il problema posso
essere potenzialmente inﬁnite

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Support Vector Machine (SVM) - Idea di base
Un SVM lineare è un classificatore che riesce a trovare la retta
classificante con il più ampio margine possibile

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Deﬁnizioni
Un vettore W in uno spazio d-dimensionale
rappresenta una lista di d numeri, e.g.
W = (−1, 2)
Vettore `e un segmento orientato nello spazio
La norma del vettore W rappresenta la sua
lunghezza
W X : proiezione dell’asse
X su W
W X = 0 → punti che si
intersecano con l’asse
W X = 1 : linea parallela a
W X = 0 shiftata di 1
W

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM - boundary e margini
Trovare il coeﬃciente angolare della retta (W ) e l’oﬀset della retta
(b) tale che:
tutti gli esempi positivi (X,Y=1) ricadano nella zona rossa
tutti gli esempi negativi (X,Y=-1) ricadano nella zona blu
il margine M sia massimizzato

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM come ottimizzazione di vincoli
Variabili:
Vettore W
oﬀset della retta b
N punti (Xi , Yi ) dove Yi = {−1, 1}
Funzione obiettivo:
max
2
W
→ min W
Vincoli da considerare:
∀i se Yi =
1 W Xi + b ≥ 1
−1 W Xi + b ≤ −1
uniﬁcabile in:
Yi (W Xi + b) ≥ 1

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM come Quadratic Program
Funzione obiettivo quadratica
Vincoli lineari
Questo problema è conosciuto come Quadratic Program
(QP) per il quale esistono algoritmi che ricercano la soluzione
globale più efficiente

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Casi non separabili
Nel caso in cui ci dovessimo trovare in questa situazione
Esistono due possibili soluzioni

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM con slack variable
Rilassare i vincoli
Per un dato boundary (W , b) si andranno a calcolare quante
misclassiﬁcation sono state considerate
I vincoli diventeranno:
Yi (W Xi + b) ≥ 1 − i

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM con slack variable
Il nuovo obiettivo diventa quindi:
Minimizzare gli errori di misclassification e le istanze presenti
all’interno dei margini
min
w
w 2
+C
i
i
C indica il trade-off tra la larghezza dei margini e le
misclassification
In questo caso verrà aggiunto un ulteriore vincolo
∀i i ≥ 0

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
SVM con kernel trick
Il prodotto scalare viene tramutato in una funzione kernel non
lineare φ
L’algoritmo crea l’iperpiano che massimizza i margini nel
nuovo spazio delle feature trasformato
φ

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Ricapitolando
SVM massimizza il margine di separazione tra gli iperpiani
La funzione di decisione viene creata sulla base del subset di
esempi (support vectors)

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Outline
1. ReliefF
Relief
Calcoli
Missing value
Multiclass
2. mRMR
Mutual
Information
Minima
Ridondanza
Massima
Rilevanza
Formule
Beneﬁci
3. CFSubset
Correlazioni
4. PCA
Analisi
5. Chi-Squared
Esempio
6. Info Gain
Entropia
Esempio
7. PageRank
Deﬁnizione
Calcolo
Esempio
8. SVM
9. Gain Ratio
Esempio

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Gain Ratio - Idea di base
Estensione dell’information gain classico
Mira a penalizzare gli attributi con un numero elevato di valori
Normalizza l’InfoGain usando l’entropia di S in relazione
all’attributo Attr (Split information)
SplitInformation(S, Attr) = −
v∈Values(Attr)
|Sv |
|S|
log
|Sv |
|S|
Deﬁnizione di GainRatio:
GainRatio(S, Attr) =
IG(S, Attr)
SplitInformation(S, Attr)

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Esempio ...
Riprendendo l’esempio deﬁnito in precedenza
Day Outlook Temp Humidity Wind PlayTennis
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
D7 Overcast Cool Normal Weak Yes
D8 Sunny Mild High Weak No
D9 Sunny Cold Normal Weak Yes
D10 Rain Mild Normal Strong Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rain Mild High Strong No

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio ...
Descrizione del dataset:
istanze di training : 14
istanze classiﬁcate come Yes : 9
istanze classiﬁcate come No : 5
Descrizione dell’attributo outlook:
sunny overcast rain
yes 2 4 3
no 3 0 2
tot 5 4 5

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio ...
La Split information dell’attributo outlook sar`a:
SI(S, outlook) = SI(S, sunny)+SI(S, overcast)+SI(S, rain) = 1.577
dove:
SI(S, sunny): − 5
14 · log2
5
14 = 0, 5305
SI(S, overcast): − 4
14 · log2
4
14 = 0, 5160
SI(S, rain): − 5
14 · log2
5
14 = 0, 5305
Quindi la gain ratio dell’attributo outlook sar`a:
GainRatio(S, outlook) =
IG(S, outlook)
SI(S, outlook)
=
0.246
1.577
= 0.156

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
... esempio
Usando l’approccio del Gain Ratio il nuovo ranking sar`a:
GainRatio(S, outlook) =
IG(S, outlook)
SI(S, outlook)
=
0.246
1.577
= 0.156
GainRatio(S, humidity) =
IG(S, humidity)
SI(S, humidity)
=
0.151
1
= 0.151
GainRatio(S, wind) =
IG(S, wind)
SI(S, wind)
=
0.048
0.9
= 0.053
GainRatio(S, temperature) =
IG(S, temperature)
SI(S, temperature)
=
0.029
1.788
= 0.016

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
Esempio
Ricapitolando
Di seguito sono mostrati gli attributi con i rispettivi valori e il
numero di istanze avvalorate in quel modo
outlook



sunny : 5
overcast : 4
rainy : 5
humidity
high : 7
normal : 7
windy
strong : 6
weak : 8
temperature



hot : 4
mild : 6
cool : 3
cold : 1
InfoGain GainRatio
Outlook .246 .156
humidity .151 .151
windy .048 .053
temperature .029 .016

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
References I
Monica Bianchini, Marco Gori, and Franco Scarselli.
Inside pagerank.
ACM Trans. Internet Technol., 5(1):92–128, February 2005.
Isabelle Guyon, Jason Weston, Stephen Barnhill, and Vladimir Vapnik.
Gene selection for cancer classiﬁcation using support vector machines.
Machine learning, 46(1-3):389–422, 2002.
M. A. Hall.
Correlation-based Feature Subset Selection for Machine Learning.
PhD thesis, University of Waikato, Hamilton, New Zealand, 1998.
Harold Hotelling.
Analysis of a complex of statistical variables into principal components.
Journal of educational psychology, 24(6):417, 1933.

ReliefF
mRMR
CFSubset
PCA
Chi-Squared
Info Gain
PageRank
SVM
Gain Ratio
References II
Igor Kononenko, Edvard ˇSimec, and Marko Robnik-ˇSikonja.
Overcoming the myopia of inductive learning algorithms with relieﬀ.
Applied Intelligence, 7(1):39–55, 1997.
Hanchuan Peng, Fuhui Long, and Chris Ding.
Feature selection based on mutual information: criteria of
max-dependency, max-relevance, and min-redundancy.
IEEE Transactions on Pattern Analysis and Machine Intelligence,
27:1226–1238, 2005.
George Waddel Snedecor and William G. Cochran.
Statistical methods.
Iowa State University Press, 1989.

Features Selection's algorithms

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (8)

Features Selection's algorithms