Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Presentazione

Rilevamento di facce in ﬂussi video per l’ausilio ai
non vedenti
Michele Vittori
Universit`a degli Studi di Trieste
8 marzo 2016
1/24

2/24
Introduzione
La tesi si inserisce in un progetto pi`u ampio.
I punti principali del progetto sono:
l’ausilio a interazioni sociali di soggetti non vedenti
mediante computer vision
implementata su di un dispositivo portatile

3/24
Problemi
Si `e voluto implementare un dispositivo che permetta al non
vedente di iniziare la conversazione, riconoscendo persone
conosciute o volti amichevoli.
Per rispondere a queste esigenze bisogna ricorrere a:
riconoscimento facciale
riconoscimento delle espressioni
Entrambi necessitano di un accurato rilevamento facciale a priori.

4/24
Machine Learning
Gli algoritmi di face detection rientrano nei problemi di
classificazione affrontati nel machine learning.
Con machine learning si indica il campo che si occupa
di creare sistemi informatici che migliorino
automaticamente fino a giungere alla risoluzione di un
problema assegnato sfruttando l’esperienza.
L’esperienza è un insieme di input e output desiderati. Prende il
nome di ground truth ed è:
Input = insieme di frame estratti da filmati
Output = informazioni su presenza, quantità e posizione di
facce in ciascun frame

5/24
Face Detection
Nel corso di questa tesi sono stati presi in considerazione quattro
algoritmi di face detection, ridotti subito a tre.
Tali algoritmi sono:
Viola-Jones (VJ)
Zhu-Ramanan (escluso per lentezza computazionale)
Normalized Pixel Diﬀerence (NPD)
Pixel Intensity Comparison Organized in Decision Trees
(PICO)

6/24
Contributo al progetto
Il contributo della tesi al progetto `e stato:
La creazione di un dataset che rispecchi le criticit`a dovute alle
particolari condizioni di lavoro del dispositivo
Il confronto di tre diversi algoritmi di face detection su questo
dataset

7/24
Caratteristiche dei filmati
Cause principali delle caratteristiche cercate e replicate:
Criticità dovute al tipo di videocamera impiegato
Inquadrature storte
Motion blur causato da movimenti bruschi
Ottiche grandangolari
Il tipo di situazione sociale desiderato
Ricerca di soggetti intenzionati ad interagire
Le difficoltà per gli algoritmi di face detection
Condizioni di luce
Scarsa luce
Forte contrasto
Occultamento parziale dei volti
Orientamento dei volti

8/24
Acquisizione dei filmati
In seguito si sono effettuate le riprese con la collaborazione di non
vedenti:
Si è fatto indossare ai collaboratori non vedenti due
videocamere
Gx-9: Integrata nel ponte di un paio di occhiali
Cube: Appesa al collo
Si sono istruiti i non vedenti ed i collaboratori che hanno fatto
da comparse su
Posizione e percorsi
Inizio di conversazione o meno, e da parte di chi
Si sono filmate varie scene di incontro in vari luoghi
L’uso delle comparse ha la duplice funzione di:
Maggior controllo su situazioni che avvengono
Presenza ripetuta di certi volti per successivi sviluppi di face
recognition

9/24
Elaborazione dei ﬁlmati
I ﬁlmati sono poi stati:
Tagliati per estrarre sequenze
Convertiti
Silenziati
Salvati e rinominati con una nomenclatura ed organizzazione
chiara
Ruotati di 180◦ (CUBE)
Uniti (CUBE)

10/24
Scelta spezzoni
Di 120 spezzoni estratti, da almeno 300 frames ciascuno, si sono
scelti:
Casualmente: 6 spezzoni per un totale di più di 5000
frames e più di 9000 volti
Semi-casualmente: 3 frammenti di 300/360 frames
ciascuno estratto da un insieme di spezzoni specifici per
ovviare alla mancanza di alcuni luoghi di ripresa dalla prima
estrazione
Per un totale di 9 filmati di cui:
4 ripresi con Gx-9, 5 ripresi con CUBE
5 ripresi da una collaboratrice, 4 dall’altra
4 ripresi al chiuso, 5 all’aperto

11/24
Etichettatura
Si è usato il software Viper-GT:
Interfaccia grafica per
Definire le etichette
Applicarle
Converte le informazioni in un file
.xgtf (xml ground truth file)
In questo modo le informazioni sono
memorizzate in stringhe facili da
manipolare
Figura: L’interfaccia principale
del software e l’interfaccia per
la definizione dello schema base

12/24
Test del dataset
Per confrontare gli algoritmi sul nostro
dataset si è usato Matlab:
Il filmato analizzato viene
convertito in una serie di frame
Il file .xgtf viene parsato in una
matrice analoga ai risultati delle
detection
Viene fatta la detection frame per
frame
I risultati delle detection vengono
confrontati con il ground truth
I risultati vengono esposti in forma
grafica e numerica
Figura: Esempio di confronto
grafico e di risultato numerico

13/24
Indici di giudizio
Innanzitutto è necessario definire come:
True positive (TP): caso in cui vi è riscontro tra una detection
ed il ground truth
False positive (FP): caso in cui un’avvenuta detection non
corrisponde a nessun volto definito nel ground truth
False negative (FN): caso in cui non avvenga una detection
dove il ground truth definisce la presenza di un volto
Definiamo inoltre:
Precision (%): TP
TP+FP · 100
Recall (%): TP
TP+FN · 100

14/24
Analisi visiva dei risultati
Dal confronto della posizione delle detection con i volti annotati
nel ground truth emerge che:
I true positive sono nella stessa area in frame successivi
I false positive non hanno continuità in frame successivi
Da questa considerazione si può proporre un metodo per sfruttare
la componente temporale per filtrare i false positive e quindi
cercare nei nostri confronti il metodo con il migliore recall a
scapito della precision.

15/24
Analisi numerica
PICO ha ottenuto i migliori valori di
recall. Una sua variante per ottenere
più detection, “PICO alt”, ancora
migliori a scapito della precision.
La precision di PICO non è molto
diversa dalla migliore di NPD.
È evidente la netta superiorita della
videocamera CUBE sia in termini di
recall che di precision.
Recall medio (%) Precision media (%)
NPD 33.2928 27.2676
VJ 28.9759 17.2501
PICO 43.6984 24.869
PICO alt 53.7653 12.6236
Tabella: Recall e precision medi
per i metodi confrontati
Recall medio (%) Precision media (%)
CUBE 45.69401 20.0638
Gx-9 29.8495 13.9166
Tabella: Recall e precision medi
per ciascuna videocamera

16/24
Caratteristiche dei filmati analizzati
Videocamera Luogo Caratteristiche Frames
A CUBE Esterno bar di farmacia
Forte contrasto e controluce.
Volti occlusi e laterali.
Videocamera storta.
379
B CUBE Fermata dell’autobus
Molti volti.
Buona illuminazione, ma luce soffusa.
1138
C Gx-9 Biblioteca di giurisprudenza
Motion blur dovuto alla GX9.
Illuminazione abbastanza buona.
1380
D CUBE Esterno edificio centrale
Occlusioni parziali.
Videocamera storta.
697
E CUBE Interno del bar H3
Ambiente scuro.
Movimenti bruschi.
Molti volti occlusi o laterali
1200
F CUBE Interno della mensa C4
Contrasto e controluce.
Movimenti lenti.
838
G Gx-9 Interno del bar C4
Contrasto e controluce.
360
H Gx-9 Interno del bar H3
Ambiente scuro.
Movimenti bruschi.
Abbondanza di volti laterali.
300
I Gx-9 Fermata dell’autobus Buona illuminazione, ma luce “dura”. 360

17/24
Considerazioni sui valori di Recall
Oltre alle considerazioni sui migliori
valori di PICO e PICO alt, si può
osservare che:
I filmati che hanno dato peggiori
risultati (A,D,E,H) presentano:
Forti contrasti e controluce
Inquadrature storte
In questi casi VJ ha dato risultati
migliori di NPD
NPD VJ PICO PICO alt
A 11.8881 14.6853 24.4755 31.8182
B 64.7938 52.2714 71.5182 77.3162
C 23.8527 16.1473 32.1813 50.8215
D 6.3624 11.4799 21.0235 35.1314
E 10.4646 17.3627 25.5748 36.6025
F 44.8276 40.9037 61.7122 67.1819
G 30.7787 28.9246 41.78 50.6799
H 5.96 8.99333 9.5302 19.0604
I 31.2572 18.6851 43.2526 53.5179
Tabella: Recall per i diversi
metodi sui filmati testati

Figura: Frames estratti dai ﬁlmati che hanno dato i peggiori risultati
18/24

19/24
Considerazioni sui valori di Precision
NPD è il migliore in condizioni
ottimali (buona luce, immagine
nitida)
VJ è il migliore sui filmati con
buona luce ma immagine
“rumorosa”(Gx-9)
PICO è il migliore nei filmati dalle
condizioni più difficili
PICO alt è sempre peggiore di
PICO
NPD VJ PICO PICO alt
A 4.6512 2.0076 4.9088 2.2671
B 55.2497 40.1977 51.1434 27.3525
C 10.5805 17.0659 12.305 6.7724
D 8.4715 3.5838 14.4762 7.8226
E 12.3136 8.4302 13.0352 7.7604
F 35.3991 13.3852 29.1082 18.4279
G 22.6983 27.9236 22.4287 11.4685
H 13.213 8.7811 23.355 17.1913
I 47.2125 46.2857 54.8246 29.8777
Tabella: Precision per i diversi
metodi sui filmati testati

20/24
Conclusioni
In conclusione, si può affermare che il dataset cos`ı creato è un
valido strumento per il confronto di metodi per la face detection
per non vedenti poiché:
I risultati sono coerenti:
Tutti gli algoritmi hanno performance in media peggiori sugli
stessi filmati
Le differenze di performance sono giustificate dalle
caratteristiche degli algoritmi
I risultati sono sufficientemente diversi da quelli ottenuti su
dataset non specifici da giustificarne l’adozione

21/24
Conclusioni
Inoltre:
L’algoritmo PICO ha presentato i risultati migliori in termini
di rapporto recall/precision
L’algoritmo PICO alt ha presentato migliori valori di recall ma
a costo di un maggiore costo computazionale ed una peggiore
precision che a sua volta deve venire migliorata con metodi
alternativi
La scelta della videocamera è importante
Non si sono rilevate differenze tra i risultati ottenuti sui filmati
acquisiti dalle due collaboratrici

22/24
Sviluppi futuri
Miglioramento face detection
Provare altri parametri
Addestrare l’algoritmo sul nostro dataset
Migliorare la precision provando ad implementare un ﬁltraggio
dei false positive basato sulla componente temporale
Implementazione del dispositivo
Implementazione di face recognition
Implementazione del riconoscimento delle espressioni
Scelta della piattaforma
Studio del metodo di comunicazione dell’informazione al non
vedente

23/24
Si segnala inoltre che dal lavoro di questa tesi `e stato tratto un
articolo sottoposto alla conferenza MIPRO 2016 dal titolo:
Computer Vision for the blind: a dataset for
experiments on face detection and recognition

Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Presentazione

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (14)

Similar to Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Presentazione

Similar to Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Presentazione (20)

Recently uploaded

Recently uploaded (11)

Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Presentazione