Extended Summary of "Genetic Programming Approaches To Learning Fair Classifiers"

UNIVERSITÀ DEGLI STUDI DI TRIESTE
DIPARTIMENTO DI INGEGNERIA E ARCHITETTURA
Corso di laurea in
Ingegneria Elettronica e Informatica
Extended Summary of “Genetic programming
approaches to learning fair classifiers”
Relatore:
Ch.mo Prof.
Andrea DE LORENZO
Candidato:
Alice SANTORO
Matricola IN0500946
Anno accademico:
2022/2023

Indice
1 Introduzione 2
1.1 Contesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Metodi 2
2.1 Approccio multi-obiettivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Selezione lessicale equa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Esperimenti 4
3.1 Auditing dell’equità dei sottogruppi . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2 Misura di accuratezza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3 Compromesso tra accuratezza ed equità . . . . . . . . . . . . . . . . . . . . . . . 6
4 Risultati 7
5 Conclusione 8
6 Bibliografia 8
1

1 Introduzione
L’articolo propone e valuta metodi che utilizzano la Programmazione Genetica [GP] per adde-
strare classificatori con garanzie di equità. Presenta risultati sperimentali che confrontano le
prestazioni dei modelli proposti con quelli precedenti.
La necessità di garantire l’equità nasce dal crescente affidamento della società alle decisioni prese
da algoritmi.
L’equità è definita come la richiesta che un classificatore si comporti mediamente allo stesso
modo (secondo una certa metrica) tra vari gruppi di una popolazione.
1.1 Contesto
L’ingiustizia algoritmica è spesso causata dalle caratteristiche dei dati utilizzati per addestrare
un modello. La raccolta dei dati da gruppi demografici non equilibrati porta gli algoritmi che
minimizzano l’errore medio su tutti i campioni ad adattarsi alla maggioranza.
Addestrando modelli separati per diverse popolazioni, si può ridurre il pregiudizio. Tuttavia,
in alcuni casi, l’uso di dati demografici per le previsioni è vietato. Inoltre, volendo proteggere
diversi attributi sensibili, dividere i dati in precedenza è complicato e limita la dimensione del
campione utilizzato, compromettendo le prestazioni.
Si cita il lavoro di Kearns et al. [1], in cui è proposta una soluzione euristica per addestrare un
modello che garantisca l’equità non solo fra singoli gruppi di caratterstiche protette, ma anche
nelle loro intersezioni.
Per superare lo studio precedente, gli autori pongono l’attenzione sulla generalizzazione dei mo-
delli di classificazione appresi, valutando le prestazioni su previsioni cross-validate.
Si ritiene pertinente condurre un’analisi empirica utilizzando la GP come metodo euristico, com-
binandola con metodi di ottimizzazione multi-obiettivo come NSGA2 ed altri modellati per non
adattarsi alla maggioranza come la selezione lessicale. Questo approccio consente di affrontare
la durezza del problema, considerare simultaneamente equità ed efficienza e gestire lo squilibrio
demografico.
2 Metodi
Sia D un dataset di triple contenente m esempi, rappresentato come D = (xi, x′
i, yi)
m
i=1.
Le etichette y ∈ {0, 1} sono di classificazine binaria ed x è un vettore di d caratteristiche. x’ è
un vettore di p caratteristiche sensibili da proteggere con un vincolo di equità. Si nota che x
contiene x′, ovvero il classificatore addestrato ha accesso alle osservazioni dell’attributo sensibile
durante le previsioni.
Siano G dei gruppi protetti, g ∈ G una funzione indicatrice che mappa un insieme di caratteristi-
che sensibili x′
ad un’appartenenza al gruppo. Si definisce un insieme semplice di gruppi protetti
G0 che corrispondono ai singoli livelli di ogni caratteristica in x’.
Ad esempio, se x1′ ∈ {nero,bianco} e x2′ ∈ {uomo,donna} si ha:
G0 =
{g1(x′
) = 1{x′
1 = nero},
g2(x′
) = 1{x′
1 = bianco},
g3(x′
) = 1{x′
2 = uomo},
g4(x′
) = 1{x′
2 = donna}}
Viene usata FEAT, tecnica di GP che addestra una popolazione di individui n ∈ N che classifi-
cano tramite n(x) ∈ {0, 1}.
2

La fitness f(n) è la misura delle prestazioni individuali in termini di minimizzazione dell’errore
nella classificazione dei dati di addestramento, mentre con f(n, g) si indica la performance su un
gruppo specifico di campioni.
L’equità di un classificatore rispetto ad un particolare gruppo viene misurata come:
f-Fairness(n, g) = |f(n) − f(n, g)|
Si sceglie di valutare l’equità dei modelli addestrati in termini di tasso di falsi positivi [FP] e
negativi [FN].
2.1 Approccio multi-obiettivo
Per incorporare l’equità in FEAT la si può considerare in un algoritmo di ottimizzazione multio-
biettivo come NSGA2.
Si indica l’equità di primo livello come
f-Marginal Fairness(n, G0) =
1
|G0|
X
g∈G0
f-Fairness(n,g)
Una limitazione della formula è che non spinge a prestazioni elevate nelle intersezioni.
Non potendo fare l’audit di ogni classificatore su tutte le possibili combinazioni di sottogruppi
ed essendo l’implementazione della soluzione approssimata proposta precedentemente computa-
zionalmente onerosa, si propone un adattamento della selezione lessicale.
2.2 Selezione lessicale equa
Lexicase è un algoritmo di selezione parentale per l’evoluzione di un algoritmo genetico che filtra
la popolazione attraverso un ordinamento casuale delle casistiche.
Ogni individuo viene valutato in base alle sue prestazioni rispetto agli altri presenti nella popo-
lazione corrente. Per superare una specifica casistica, l’individuo non deve avere prestazioni che
superano di una certa soglia di tolleranza quella peggiore.
Il processo si interrompe quando rimane un solo individuo, selezionato come genitore. Se si
esauriscono anticipatamente le casistiche, la selezione nel gruppo rimanente è casuale.
Lexicase applica maggiore pressione selettiva sui campioni più complessi. Inoltre, applica una
selezione basata sul fronte di Pareto, mantenendo gli individui specializzati che ottengono buoni
risultati anche solo su un piccolo numero di casi difficili. Non richiede la valutazione di ogni
individuo su ogni caso: spesso la selezione avviene prima dell’esaurimento dei casi, permettendo
di non dover costruire in anticipo tutte le intersezioni di gruppi.
Nella variante FLEX (Fair Lexicase Selection), i casi vengono definiti dai gruppi semplici presenti
in G0. Un ordine casuale di questi valuta le prestazioni del classificatore su una combinazione
di attributi protetti. Ciò sposta la pressione selettiva verso i sottogruppi che sono più difficili da
risolvere.
3

Figura 1: Esempi di eventi di selezione con FLEX, con N = {n1, ..., n5} e G = {g1, ..., g4}
Un punto debole di FLEX rispetto all’approccio multiobiettivo è che non fa pressione per ottene-
re equità ed accuratezza contemporaneamente tra i casi. Se, da un lato, selezionare l’accuratezza
uniformemente potrebbe portare all’equità, potrebbe anche preservare modelli ingiusti. Questa
problematica viene affrontata imponendo che f(n, g) ed f-Fairness(n,g) compaiano con uguale
probabilità.
Figura 2: FLEX applicato ad individui n ∈ N con perdita f(n, g) su gruppi protetti g ∈ G0
3 Esperimenti
Gli esperimenti sono stati condotti su quattro set di dati ripresi dai lavori precedenti. Riguardano
modelli per le decisioni di ammissione (Lawschool e Student), previsione di tassi di criminalità
nella comunità (Communities) o di livello di reddito (Adult).
4

Figura 3: Proprietà dei dataset usati per il confronto
Nello studio si confrontano otto diversi approcci di modellazione, con i seguenti parametri:
Figura 4: Configurazioni dei metodi negli esperimenti
Per primo si usa Gerryfair, il quale adotta un approccio di teoria dei giochi. Un giocatore imper-
sona il classificatore e cerca di minimizzare l’errore su campioni di addestramento pesati, mentre
l’altro (l’auditor) cerca il sottogruppo di previsioni in cui c’è la maggiore inequità. Il gioco ter-
mina al finire delle iterazioni o finchè la massima violazione di equità non supera la soglia. Si fa
uso dell’auditor per convalidare le prestazioni di tutti i modelli confrontati.
L’altro metodo è FEAT, un metodo di GP in cui ciascun modello individuale n consiste in un
insieme di programmi (ovvero caratteristiche ingenerizzate) alimentati in un modello di regres-
sione logistica.
Figura 5: Diagramma della valutazione di un singolo individuo FEAT, che produce un modello
di regressione logistica sugli output del programma ϕ
5

É vantaggioso in quanto può essere abbinato alla regressione logistica, che fornisce output pro-
babilistici per la classificazione.
Per FEAT si testano sei diversi metodi di selezione/sopravvivenza.
I parametri di training vengono scelti in modo da corrispondere quelli di GerryFair e produrre
lo stesso numero di risultati finali, ma, poichè i metodi di GP si basano sulla popolazione, adde-
strano 100 modelli per generazione (tranne Random), contro i 2 di GerryFair. Di conseguenza
richiedono circa 50 vote in più di calcolo.
Si eseguono 50 prove ripetute di ciascun metodo su ogni dataset, con dati divisi in training e test
sets.
Tutte le prove sono eseguite sullo stesso hardware.
Si calcolano diverse metriche di confronto, definite di seguito.
3.1 Auditing dell’equità dei sottogruppi
Per validare i classificatori si fa uso del metodo sviluppato da Kearns et al. [1].
L’auditor usa una classificazione sensibile ai costi per stimare il gruppo che viola di più una
misura di equità, che in questo caso è la violazione di FP o FN.
Considerando i FP, si può definire come
αF P (g, P) = PrP [g(x′) = 1, y = 0]
β(n, g) = |FP(n) − FP(n, g)|
FP-Violation(n, g, P) = αF P (g)β(n, g, P)
con P la distribuzione da cui sono estratti i dati D. La metrica si definisce in modo equivalente
per FN.
L’obiettivo dell’algoritmo di auditing è restituire una stima del gruppo g con la più alta violazione
di FP o FN.
3.2 Misura di accuratezza
Sono state utilizzate le misure di
Accuracy(n) =
1
m
m
X
i
1[n(xi) = yi]
ed il tasso di precisione media
APS(n) =
X
t
(Rt(n) − Rt−1(n))Pt(n)
con t diversi livelli di soglia per la classificazione, R(n) = P r[n=1,y=1]
P r[y=1] il richiamo del modello e
P(n) = P r[n=1,y=1]
P r[n=1] la precisione di n(x).
3.3 Compromesso tra accuratezza ed equità
Gli studi si sono concentrati sul confronto tra le soluzioni Pareto-ottimali. Dopo aver calcolato l’i-
pervolume del fronte di Pareto tra coppie concorrenti di obiettivi di accuratezza (Accuracy,APS)
ed equità (FP Subgroup violation, FN subgroup violation), si ha una stima dell’area dello spazio
degli obiettivi che è dominata da un insieme di soluzioni, evidenziando come ogni metodo riesce
a caratterizzare il compromesso.
6

4 Risultati
Dalla figura 6 si osserva che, considerando la coppia FPviolation-APS, gli approcci basati su GP
si comportano bene rispetto a GerryFair. Considerando tutte le quattro misure di ipervolume,
Random search ottiene i risultati migliori.
Figura 6: Ipervolume del fronte di Pareto nor-
malizzato per i valori di FP violation ed ave-
rage precision score
Figura 7: Rankings dei metodi secondo quat-
tro diverse misure di ipervolume su tutti i pro-
blemi
Rappresentando i fronti di Pareto di prove specifiche di ciascun metodo su due problemi, consi-
derando i risultati per Adult si nota che nonostante ogni metodo produca 100 modelli, solo una
frazione di questi produce insiemi di soluzioni Pareto-efficienti sui dati di test. Ciò indica che la
maggior parte dei classificatori è sovradattata in termini di tasso di errore e/o ingiustizia.
I modelli per Student sono dominati da Random Search.
Figura 8: Fronte di Pareto per l’errore (Accu-
racy) e l’inequità (audit FN-violation) basato
sulle previsioni di test sul dataset Adult
Figura 9: Fronte di Pareto per l’errore (APS)
e l’inequità (audit FN-violation) basato sulle
previsioni di test sul dataset Student
7

Valutando ogni metodo su un singolo core, Random risulta il più veloce da addestrare, seguito
dalle varianti di GerryFair, il quale presenta tempi di esecuzione più veloci dei metodi di GP ge-
nerazionali. NSGA2 termina più rapidamente, suggerendo che durante l’ottimizzazione potrebbe
essere polarizzato verso modelli più piccoli.
Figura 10: Tempi di esecuzione effettivi per tutti i metodi su tutti i dataset
5 Conclusione
I risultati mostrano che i metodi di GP in generale, e la ricerca randomica in particolare, si
adattano bene alla richiesta.
I metodi di GP, grazie alla loro natura simbolica, possono generare modelli intelligibili. Tuttavia,
nel complesso, non hanno ottenuto risultati significativamente migliori rispetto a modelli generati
casualmente.
Incorporare un obiettivo di equità marginale in NSGA2 non è risultato sufficiente.
La proposta di FLEX non ha cambiato significaticamente le prestazioni della selezione lessicale.
L’articolo lascia spunto a future linee di indagine: lo studio della stabilità della stima di inequità
fornita dall’auditor e l’aumento del numero di dataset per considerare nuovi risultati.
6 Bibliografia
William La Cava and Jason H. Moore. 2020. Genetic programming approaches to learning fair
classifiers. In Genetic and Evolutionary Computation Conference (GECCO ’20), July 8–12, 2020,
Cancún, Mexico. ACM, New York, NY, USA, 9 pages. https://doi.org/10.1145/3377930.3390157
[1] Michael Kearns, Seth Neel, Aaron Roth, and Zhiwei Steven Wu. 2017. Preventing Fairness
Gerrymandering: Auditing and Learning for Subgroup Fairness. arXiv:1711.05144 [cs] (Nov.
2017). http://arxiv.org/abs/1711.05144 arXiv: 1711.05144.
8

Extended Summary of "Genetic Programming Approaches To Learning Fair Classifiers"

Recommended

Recommended

More Related Content

Similar to Extended Summary of "Genetic Programming Approaches To Learning Fair Classifiers"

Similar to Extended Summary of "Genetic Programming Approaches To Learning Fair Classifiers" (14)

Recently uploaded

Recently uploaded (18)

Extended Summary of "Genetic Programming Approaches To Learning Fair Classifiers"