SlideShare a Scribd company logo
Rilevamento di facce in flussi video per l’ausilio ai
non vedenti
Michele Vittori
Universit`a degli Studi di Trieste
8 marzo 2016
1/24
2/24
Introduzione
La tesi si inserisce in un progetto pi`u ampio.
I punti principali del progetto sono:
l’ausilio a interazioni sociali di soggetti non vedenti
mediante computer vision
implementata su di un dispositivo portatile
3/24
Problemi
Si `e voluto implementare un dispositivo che permetta al non
vedente di iniziare la conversazione, riconoscendo persone
conosciute o volti amichevoli.
Per rispondere a queste esigenze bisogna ricorrere a:
riconoscimento facciale
riconoscimento delle espressioni
Entrambi necessitano di un accurato rilevamento facciale a priori.
4/24
Machine Learning
Gli algoritmi di face detection rientrano nei problemi di
classificazione affrontati nel machine learning.
Con machine learning si indica il campo che si occupa
di creare sistemi informatici che migliorino
automaticamente fino a giungere alla risoluzione di un
problema assegnato sfruttando l’esperienza.
L’esperienza `e un insieme di input e output desiderati. Prende il
nome di ground truth ed `e:
Input = insieme di frame estratti da filmati
Output = informazioni su presenza, quantit`a e posizione di
facce in ciascun frame
5/24
Face Detection
Nel corso di questa tesi sono stati presi in considerazione quattro
algoritmi di face detection, ridotti subito a tre.
Tali algoritmi sono:
Viola-Jones (VJ)
Zhu-Ramanan (escluso per lentezza computazionale)
Normalized Pixel Difference (NPD)
Pixel Intensity Comparison Organized in Decision Trees
(PICO)
6/24
Contributo al progetto
Il contributo della tesi al progetto `e stato:
La creazione di un dataset che rispecchi le criticit`a dovute alle
particolari condizioni di lavoro del dispositivo
Il confronto di tre diversi algoritmi di face detection su questo
dataset
7/24
Caratteristiche dei filmati
Cause principali delle caratteristiche cercate e replicate:
Criticit`a dovute al tipo di videocamera impiegato
Inquadrature storte
Motion blur causato da movimenti bruschi
Ottiche grandangolari
Il tipo di situazione sociale desiderato
Ricerca di soggetti intenzionati ad interagire
Le difficolt`a per gli algoritmi di face detection
Condizioni di luce
Scarsa luce
Forte contrasto
Occultamento parziale dei volti
Orientamento dei volti
8/24
Acquisizione dei filmati
In seguito si sono effettuate le riprese con la collaborazione di non
vedenti:
Si `e fatto indossare ai collaboratori non vedenti due
videocamere
Gx-9: Integrata nel ponte di un paio di occhiali
Cube: Appesa al collo
Si sono istruiti i non vedenti ed i collaboratori che hanno fatto
da comparse su
Posizione e percorsi
Inizio di conversazione o meno, e da parte di chi
Si sono filmate varie scene di incontro in vari luoghi
L’uso delle comparse ha la duplice funzione di:
Maggior controllo su situazioni che avvengono
Presenza ripetuta di certi volti per successivi sviluppi di face
recognition
9/24
Elaborazione dei filmati
I filmati sono poi stati:
Tagliati per estrarre sequenze
Convertiti
Silenziati
Salvati e rinominati con una nomenclatura ed organizzazione
chiara
Ruotati di 180◦ (CUBE)
Uniti (CUBE)
10/24
Scelta spezzoni
Di 120 spezzoni estratti, da almeno 300 frames ciascuno, si sono
scelti:
Casualmente: 6 spezzoni per un totale di pi`u di 5000
frames e pi`u di 9000 volti
Semi-casualmente: 3 frammenti di 300/360 frames
ciascuno estratto da un insieme di spezzoni specifici per
ovviare alla mancanza di alcuni luoghi di ripresa dalla prima
estrazione
Per un totale di 9 filmati di cui:
4 ripresi con Gx-9, 5 ripresi con CUBE
5 ripresi da una collaboratrice, 4 dall’altra
4 ripresi al chiuso, 5 all’aperto
11/24
Etichettatura
Si `e usato il software Viper-GT:
Interfaccia grafica per
Definire le etichette
Applicarle
Converte le informazioni in un file
.xgtf (xml ground truth file)
In questo modo le informazioni sono
memorizzate in stringhe facili da
manipolare
Figura: L’interfaccia principale
del software e l’interfaccia per
la definizione dello schema base
12/24
Test del dataset
Per confrontare gli algoritmi sul nostro
dataset si `e usato Matlab:
Il filmato analizzato viene
convertito in una serie di frame
Il file .xgtf viene parsato in una
matrice analoga ai risultati delle
detection
Viene fatta la detection frame per
frame
I risultati delle detection vengono
confrontati con il ground truth
I risultati vengono esposti in forma
grafica e numerica
Figura: Esempio di confronto
grafico e di risultato numerico
13/24
Indici di giudizio
Innanzitutto `e necessario definire come:
True positive (TP): caso in cui vi `e riscontro tra una detection
ed il ground truth
False positive (FP): caso in cui un’avvenuta detection non
corrisponde a nessun volto definito nel ground truth
False negative (FN): caso in cui non avvenga una detection
dove il ground truth definisce la presenza di un volto
Definiamo inoltre:
Precision (%): TP
TP+FP · 100
Recall (%): TP
TP+FN · 100
14/24
Analisi visiva dei risultati
Dal confronto della posizione delle detection con i volti annotati
nel ground truth emerge che:
I true positive sono nella stessa area in frame successivi
I false positive non hanno continuit`a in frame successivi
Da questa considerazione si pu`o proporre un metodo per sfruttare
la componente temporale per filtrare i false positive e quindi
cercare nei nostri confronti il metodo con il migliore recall a
scapito della precision.
15/24
Analisi numerica
PICO ha ottenuto i migliori valori di
recall. Una sua variante per ottenere
pi`u detection, “PICO alt”, ancora
migliori a scapito della precision.
La precision di PICO non `e molto
diversa dalla migliore di NPD.
`E evidente la netta superiorita della
videocamera CUBE sia in termini di
recall che di precision.
Recall medio (%) Precision media (%)
NPD 33.2928 27.2676
VJ 28.9759 17.2501
PICO 43.6984 24.869
PICO alt 53.7653 12.6236
Tabella: Recall e precision medi
per i metodi confrontati
Recall medio (%) Precision media (%)
CUBE 45.69401 20.0638
Gx-9 29.8495 13.9166
Tabella: Recall e precision medi
per ciascuna videocamera
16/24
Caratteristiche dei filmati analizzati
Videocamera Luogo Caratteristiche Frames
A CUBE Esterno bar di farmacia
Forte contrasto e controluce.
Volti occlusi e laterali.
Videocamera storta.
379
B CUBE Fermata dell’autobus
Molti volti.
Buona illuminazione, ma luce soffusa.
1138
C Gx-9 Biblioteca di giurisprudenza
Motion blur dovuto alla GX9.
Illuminazione abbastanza buona.
1380
D CUBE Esterno edificio centrale
Occlusioni parziali.
Videocamera storta.
697
E CUBE Interno del bar H3
Ambiente scuro.
Movimenti bruschi.
Molti volti occlusi o laterali
1200
F CUBE Interno della mensa C4
Contrasto e controluce.
Illuminazione abbastanza buona.
Movimenti lenti.
838
G Gx-9 Interno del bar C4
Contrasto e controluce.
Illuminazione abbastanza buona.
360
H Gx-9 Interno del bar H3
Ambiente scuro.
Movimenti bruschi.
Abbondanza di volti laterali.
300
I Gx-9 Fermata dell’autobus Buona illuminazione, ma luce “dura”. 360
17/24
Considerazioni sui valori di Recall
Oltre alle considerazioni sui migliori
valori di PICO e PICO alt, si pu`o
osservare che:
I filmati che hanno dato peggiori
risultati (A,D,E,H) presentano:
Forti contrasti e controluce
Inquadrature storte
In questi casi VJ ha dato risultati
migliori di NPD
NPD VJ PICO PICO alt
A 11.8881 14.6853 24.4755 31.8182
B 64.7938 52.2714 71.5182 77.3162
C 23.8527 16.1473 32.1813 50.8215
D 6.3624 11.4799 21.0235 35.1314
E 10.4646 17.3627 25.5748 36.6025
F 44.8276 40.9037 61.7122 67.1819
G 30.7787 28.9246 41.78 50.6799
H 5.96 8.99333 9.5302 19.0604
I 31.2572 18.6851 43.2526 53.5179
Tabella: Recall per i diversi
metodi sui filmati testati
Figura: Frames estratti dai filmati che hanno dato i peggiori risultati
18/24
19/24
Considerazioni sui valori di Precision
NPD `e il migliore in condizioni
ottimali (buona luce, immagine
nitida)
VJ `e il migliore sui filmati con
buona luce ma immagine
“rumorosa”(Gx-9)
PICO `e il migliore nei filmati dalle
condizioni pi`u difficili
PICO alt `e sempre peggiore di
PICO
NPD VJ PICO PICO alt
A 4.6512 2.0076 4.9088 2.2671
B 55.2497 40.1977 51.1434 27.3525
C 10.5805 17.0659 12.305 6.7724
D 8.4715 3.5838 14.4762 7.8226
E 12.3136 8.4302 13.0352 7.7604
F 35.3991 13.3852 29.1082 18.4279
G 22.6983 27.9236 22.4287 11.4685
H 13.213 8.7811 23.355 17.1913
I 47.2125 46.2857 54.8246 29.8777
Tabella: Precision per i diversi
metodi sui filmati testati
20/24
Conclusioni
In conclusione, si pu`o affermare che il dataset cos`ı creato `e un
valido strumento per il confronto di metodi per la face detection
per non vedenti poich´e:
I risultati sono coerenti:
Tutti gli algoritmi hanno performance in media peggiori sugli
stessi filmati
Le differenze di performance sono giustificate dalle
caratteristiche degli algoritmi
I risultati sono sufficientemente diversi da quelli ottenuti su
dataset non specifici da giustificarne l’adozione
21/24
Conclusioni
Inoltre:
L’algoritmo PICO ha presentato i risultati migliori in termini
di rapporto recall/precision
L’algoritmo PICO alt ha presentato migliori valori di recall ma
a costo di un maggiore costo computazionale ed una peggiore
precision che a sua volta deve venire migliorata con metodi
alternativi
La scelta della videocamera `e importante
Non si sono rilevate differenze tra i risultati ottenuti sui filmati
acquisiti dalle due collaboratrici
22/24
Sviluppi futuri
Miglioramento face detection
Provare altri parametri
Addestrare l’algoritmo sul nostro dataset
Migliorare la precision provando ad implementare un filtraggio
dei false positive basato sulla componente temporale
Implementazione del dispositivo
Implementazione di face recognition
Implementazione del riconoscimento delle espressioni
Scelta della piattaforma
Studio del metodo di comunicazione dell’informazione al non
vedente
23/24
Si segnala inoltre che dal lavoro di questa tesi `e stato tratto un
articolo sottoposto alla conferenza MIPRO 2016 dal titolo:
Computer Vision for the blind: a dataset for
experiments on face detection and recognition
Grazie
24/24

More Related Content

Viewers also liked

Mortgage Compliance Magazine - July 2016
Mortgage Compliance Magazine - July 2016Mortgage Compliance Magazine - July 2016
Mortgage Compliance Magazine - July 2016Heather Blasko
 
Competitic Dématérialisation des documents - numerique en entreprise
Competitic  Dématérialisation des documents - numerique en entrepriseCompetitic  Dématérialisation des documents - numerique en entreprise
Competitic Dématérialisation des documents - numerique en entreprise
COMPETITIC
 
Presentazione rbrake mar16
Presentazione rbrake mar16Presentazione rbrake mar16
Presentazione rbrake mar16
Dino De Masi
 
Продающий сайт - Hospitality IT, Александр Орлов
Продающий сайт - Hospitality IT, Александр ОрловПродающий сайт - Hospitality IT, Александр Орлов
Продающий сайт - Hospitality IT, Александр Орлов
Olga Prokhorova
 
Progettazione ed implementazione di una piattaforma software per la gestione ...
Progettazione ed implementazione di una piattaforma software per la gestione ...Progettazione ed implementazione di una piattaforma software per la gestione ...
Progettazione ed implementazione di una piattaforma software per la gestione ...
Lorenzo Rossoni
 
Studio ed ottimizzazione di un sistema wireless alimentato ad energia solare ...
Studio ed ottimizzazione di un sistema wireless alimentato ad energia solare ...Studio ed ottimizzazione di un sistema wireless alimentato ad energia solare ...
Studio ed ottimizzazione di un sistema wireless alimentato ad energia solare ...
Matija Colja
 
Tracking di prodotto di colata basato su immagini
Tracking di prodotto di colata basato su immaginiTracking di prodotto di colata basato su immagini
Tracking di prodotto di colata basato su immagini
Denis Ronchese
 
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
Pasquale Naclerio
 
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - TesiRilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
temp temp
 
Progettazione e sviluppo di un software applicativo su un single board computer
Progettazione e sviluppo di un software applicativo su un single board computerProgettazione e sviluppo di un software applicativo su un single board computer
Progettazione e sviluppo di un software applicativo su un single board computer
Alessandro Mascherin
 
Tracking di prodotto di colata basato su immagini [Presentazione]
Tracking di prodotto di colata basato su immagini [Presentazione]Tracking di prodotto di colata basato su immagini [Presentazione]
Tracking di prodotto di colata basato su immagini [Presentazione]
Denis Ronchese
 
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
Pasquale Naclerio
 
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
Mattia De Bernardi
 
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
Mattia De Bernardi
 

Viewers also liked (14)

Mortgage Compliance Magazine - July 2016
Mortgage Compliance Magazine - July 2016Mortgage Compliance Magazine - July 2016
Mortgage Compliance Magazine - July 2016
 
Competitic Dématérialisation des documents - numerique en entreprise
Competitic  Dématérialisation des documents - numerique en entrepriseCompetitic  Dématérialisation des documents - numerique en entreprise
Competitic Dématérialisation des documents - numerique en entreprise
 
Presentazione rbrake mar16
Presentazione rbrake mar16Presentazione rbrake mar16
Presentazione rbrake mar16
 
Продающий сайт - Hospitality IT, Александр Орлов
Продающий сайт - Hospitality IT, Александр ОрловПродающий сайт - Hospitality IT, Александр Орлов
Продающий сайт - Hospitality IT, Александр Орлов
 
Progettazione ed implementazione di una piattaforma software per la gestione ...
Progettazione ed implementazione di una piattaforma software per la gestione ...Progettazione ed implementazione di una piattaforma software per la gestione ...
Progettazione ed implementazione di una piattaforma software per la gestione ...
 
Studio ed ottimizzazione di un sistema wireless alimentato ad energia solare ...
Studio ed ottimizzazione di un sistema wireless alimentato ad energia solare ...Studio ed ottimizzazione di un sistema wireless alimentato ad energia solare ...
Studio ed ottimizzazione di un sistema wireless alimentato ad energia solare ...
 
Tracking di prodotto di colata basato su immagini
Tracking di prodotto di colata basato su immaginiTracking di prodotto di colata basato su immagini
Tracking di prodotto di colata basato su immagini
 
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
 
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - TesiRilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
 
Progettazione e sviluppo di un software applicativo su un single board computer
Progettazione e sviluppo di un software applicativo su un single board computerProgettazione e sviluppo di un software applicativo su un single board computer
Progettazione e sviluppo di un software applicativo su un single board computer
 
Tracking di prodotto di colata basato su immagini [Presentazione]
Tracking di prodotto di colata basato su immagini [Presentazione]Tracking di prodotto di colata basato su immagini [Presentazione]
Tracking di prodotto di colata basato su immagini [Presentazione]
 
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
Implementazione di un sistema di misura di tipo quantitativo per sensori a na...
 
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
 
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
Sviluppo di un'applicazione ibrida su dispositivo mobile per l'interfacciamen...
 

Similar to Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Presentazione

Slides marco de_marco
Slides marco de_marcoSlides marco de_marco
Slides marco de_marco
Marco De Marco
 
Presentazione master
Presentazione masterPresentazione master
Presentazione master
Luca Caliciotti
 
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...
Andrea Bidinost
 
Android Visual Odometry
Android Visual OdometryAndroid Visual Odometry
Android Visual Odometry
Marco Righini
 
Thesis marco de_marco
Thesis marco de_marcoThesis marco de_marco
Thesis marco de_marco
Marco De Marco
 
Modulo1 documentazione iconografica
Modulo1 documentazione iconograficaModulo1 documentazione iconografica
Modulo1 documentazione iconografica
accademiatn
 
Tecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsTecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systems
Giuseppe Ricci
 
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaPresentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
Giuseppe Ricci
 
Giancristofaro C., Ricostruzione fotogrammetrica 3D della “Tomba della Scimmi...
Giancristofaro C., Ricostruzione fotogrammetrica 3D della “Tomba della Scimmi...Giancristofaro C., Ricostruzione fotogrammetrica 3D della “Tomba della Scimmi...
Giancristofaro C., Ricostruzione fotogrammetrica 3D della “Tomba della Scimmi...
Progetto Open Téchne
 
Presentazione Tesi di Laurea Magistrale - NAEVUS
Presentazione Tesi di Laurea Magistrale - NAEVUSPresentazione Tesi di Laurea Magistrale - NAEVUS
Presentazione Tesi di Laurea Magistrale - NAEVUS
Francesco Garofalo
 
Feature Extraction for High Resolution Remote Sensing Image Classification us...
Feature Extraction for High Resolution Remote Sensing Image Classification us...Feature Extraction for High Resolution Remote Sensing Image Classification us...
Feature Extraction for High Resolution Remote Sensing Image Classification us...
Simone Rossi
 
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
RiccardoScilla
 
MSc Thesis - Loop Closing, Place Recognition
MSc Thesis - Loop Closing, Place RecognitionMSc Thesis - Loop Closing, Place Recognition
MSc Thesis - Loop Closing, Place RecognitionGiacomo Picchiarelli
 
Corso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti NeuraliCorso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti Neurali
Valerio Capozio
 
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
RiccardoScilla
 
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Nicola Procopio
 
Scanner 3D e reverse Engineering
Scanner 3D e reverse EngineeringScanner 3D e reverse Engineering
Scanner 3D e reverse Engineering
Paolo Aliverti
 
Markerless tracking techniques for systems maintenance and assembly in Augmen...
Markerless tracking techniques for systems maintenance and assembly in Augmen...Markerless tracking techniques for systems maintenance and assembly in Augmen...
Markerless tracking techniques for systems maintenance and assembly in Augmen...
Gino Farisano
 
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
Confindustria Emilia-Romagna Ricerca
 
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
Confindustria Emilia-Romagna Ricerca
 

Similar to Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Presentazione (20)

Slides marco de_marco
Slides marco de_marcoSlides marco de_marco
Slides marco de_marco
 
Presentazione master
Presentazione masterPresentazione master
Presentazione master
 
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...
Presentazione Sviluppo e confronto di tecniche di stima della traiettoria di ...
 
Android Visual Odometry
Android Visual OdometryAndroid Visual Odometry
Android Visual Odometry
 
Thesis marco de_marco
Thesis marco de_marcoThesis marco de_marco
Thesis marco de_marco
 
Modulo1 documentazione iconografica
Modulo1 documentazione iconograficaModulo1 documentazione iconografica
Modulo1 documentazione iconografica
 
Tecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsTecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systems
 
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaPresentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
 
Giancristofaro C., Ricostruzione fotogrammetrica 3D della “Tomba della Scimmi...
Giancristofaro C., Ricostruzione fotogrammetrica 3D della “Tomba della Scimmi...Giancristofaro C., Ricostruzione fotogrammetrica 3D della “Tomba della Scimmi...
Giancristofaro C., Ricostruzione fotogrammetrica 3D della “Tomba della Scimmi...
 
Presentazione Tesi di Laurea Magistrale - NAEVUS
Presentazione Tesi di Laurea Magistrale - NAEVUSPresentazione Tesi di Laurea Magistrale - NAEVUS
Presentazione Tesi di Laurea Magistrale - NAEVUS
 
Feature Extraction for High Resolution Remote Sensing Image Classification us...
Feature Extraction for High Resolution Remote Sensing Image Classification us...Feature Extraction for High Resolution Remote Sensing Image Classification us...
Feature Extraction for High Resolution Remote Sensing Image Classification us...
 
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
 
MSc Thesis - Loop Closing, Place Recognition
MSc Thesis - Loop Closing, Place RecognitionMSc Thesis - Loop Closing, Place Recognition
MSc Thesis - Loop Closing, Place Recognition
 
Corso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti NeuraliCorso Introduttivo alle Reti Neurali
Corso Introduttivo alle Reti Neurali
 
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
Progettazione e sviluppo di un sistema di visione artificiale per il monitora...
 
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
 
Scanner 3D e reverse Engineering
Scanner 3D e reverse EngineeringScanner 3D e reverse Engineering
Scanner 3D e reverse Engineering
 
Markerless tracking techniques for systems maintenance and assembly in Augmen...
Markerless tracking techniques for systems maintenance and assembly in Augmen...Markerless tracking techniques for systems maintenance and assembly in Augmen...
Markerless tracking techniques for systems maintenance and assembly in Augmen...
 
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
 
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
Applicazioni dell'Additive Manufacturing a componenti di macchine per l'indus...
 

Recently uploaded

Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA AlessioConvegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA FrancescoConvegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI MarcoConvegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
Servizi a rete
 
BIM obblighi e opportunità (nicolafurcolo.it) R.pdf
BIM obblighi e opportunità (nicolafurcolo.it) R.pdfBIM obblighi e opportunità (nicolafurcolo.it) R.pdf
BIM obblighi e opportunità (nicolafurcolo.it) R.pdf
Nicola Furcolo
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI AndreaConvegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA BiancaConvegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO YuriConvegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI AlfredoConvegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO TizianoConvegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
Servizi a rete
 
onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simoneonvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO LuigiaConvegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
Servizi a rete
 

Recently uploaded (11)

Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA AlessioConvegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA FrancescoConvegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI MarcoConvegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
 
BIM obblighi e opportunità (nicolafurcolo.it) R.pdf
BIM obblighi e opportunità (nicolafurcolo.it) R.pdfBIM obblighi e opportunità (nicolafurcolo.it) R.pdf
BIM obblighi e opportunità (nicolafurcolo.it) R.pdf
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI AndreaConvegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA BiancaConvegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO YuriConvegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI AlfredoConvegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO TizianoConvegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
 
onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simoneonvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO LuigiaConvegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
 

Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Presentazione

  • 1. Rilevamento di facce in flussi video per l’ausilio ai non vedenti Michele Vittori Universit`a degli Studi di Trieste 8 marzo 2016 1/24
  • 2. 2/24 Introduzione La tesi si inserisce in un progetto pi`u ampio. I punti principali del progetto sono: l’ausilio a interazioni sociali di soggetti non vedenti mediante computer vision implementata su di un dispositivo portatile
  • 3. 3/24 Problemi Si `e voluto implementare un dispositivo che permetta al non vedente di iniziare la conversazione, riconoscendo persone conosciute o volti amichevoli. Per rispondere a queste esigenze bisogna ricorrere a: riconoscimento facciale riconoscimento delle espressioni Entrambi necessitano di un accurato rilevamento facciale a priori.
  • 4. 4/24 Machine Learning Gli algoritmi di face detection rientrano nei problemi di classificazione affrontati nel machine learning. Con machine learning si indica il campo che si occupa di creare sistemi informatici che migliorino automaticamente fino a giungere alla risoluzione di un problema assegnato sfruttando l’esperienza. L’esperienza `e un insieme di input e output desiderati. Prende il nome di ground truth ed `e: Input = insieme di frame estratti da filmati Output = informazioni su presenza, quantit`a e posizione di facce in ciascun frame
  • 5. 5/24 Face Detection Nel corso di questa tesi sono stati presi in considerazione quattro algoritmi di face detection, ridotti subito a tre. Tali algoritmi sono: Viola-Jones (VJ) Zhu-Ramanan (escluso per lentezza computazionale) Normalized Pixel Difference (NPD) Pixel Intensity Comparison Organized in Decision Trees (PICO)
  • 6. 6/24 Contributo al progetto Il contributo della tesi al progetto `e stato: La creazione di un dataset che rispecchi le criticit`a dovute alle particolari condizioni di lavoro del dispositivo Il confronto di tre diversi algoritmi di face detection su questo dataset
  • 7. 7/24 Caratteristiche dei filmati Cause principali delle caratteristiche cercate e replicate: Criticit`a dovute al tipo di videocamera impiegato Inquadrature storte Motion blur causato da movimenti bruschi Ottiche grandangolari Il tipo di situazione sociale desiderato Ricerca di soggetti intenzionati ad interagire Le difficolt`a per gli algoritmi di face detection Condizioni di luce Scarsa luce Forte contrasto Occultamento parziale dei volti Orientamento dei volti
  • 8. 8/24 Acquisizione dei filmati In seguito si sono effettuate le riprese con la collaborazione di non vedenti: Si `e fatto indossare ai collaboratori non vedenti due videocamere Gx-9: Integrata nel ponte di un paio di occhiali Cube: Appesa al collo Si sono istruiti i non vedenti ed i collaboratori che hanno fatto da comparse su Posizione e percorsi Inizio di conversazione o meno, e da parte di chi Si sono filmate varie scene di incontro in vari luoghi L’uso delle comparse ha la duplice funzione di: Maggior controllo su situazioni che avvengono Presenza ripetuta di certi volti per successivi sviluppi di face recognition
  • 9. 9/24 Elaborazione dei filmati I filmati sono poi stati: Tagliati per estrarre sequenze Convertiti Silenziati Salvati e rinominati con una nomenclatura ed organizzazione chiara Ruotati di 180◦ (CUBE) Uniti (CUBE)
  • 10. 10/24 Scelta spezzoni Di 120 spezzoni estratti, da almeno 300 frames ciascuno, si sono scelti: Casualmente: 6 spezzoni per un totale di pi`u di 5000 frames e pi`u di 9000 volti Semi-casualmente: 3 frammenti di 300/360 frames ciascuno estratto da un insieme di spezzoni specifici per ovviare alla mancanza di alcuni luoghi di ripresa dalla prima estrazione Per un totale di 9 filmati di cui: 4 ripresi con Gx-9, 5 ripresi con CUBE 5 ripresi da una collaboratrice, 4 dall’altra 4 ripresi al chiuso, 5 all’aperto
  • 11. 11/24 Etichettatura Si `e usato il software Viper-GT: Interfaccia grafica per Definire le etichette Applicarle Converte le informazioni in un file .xgtf (xml ground truth file) In questo modo le informazioni sono memorizzate in stringhe facili da manipolare Figura: L’interfaccia principale del software e l’interfaccia per la definizione dello schema base
  • 12. 12/24 Test del dataset Per confrontare gli algoritmi sul nostro dataset si `e usato Matlab: Il filmato analizzato viene convertito in una serie di frame Il file .xgtf viene parsato in una matrice analoga ai risultati delle detection Viene fatta la detection frame per frame I risultati delle detection vengono confrontati con il ground truth I risultati vengono esposti in forma grafica e numerica Figura: Esempio di confronto grafico e di risultato numerico
  • 13. 13/24 Indici di giudizio Innanzitutto `e necessario definire come: True positive (TP): caso in cui vi `e riscontro tra una detection ed il ground truth False positive (FP): caso in cui un’avvenuta detection non corrisponde a nessun volto definito nel ground truth False negative (FN): caso in cui non avvenga una detection dove il ground truth definisce la presenza di un volto Definiamo inoltre: Precision (%): TP TP+FP · 100 Recall (%): TP TP+FN · 100
  • 14. 14/24 Analisi visiva dei risultati Dal confronto della posizione delle detection con i volti annotati nel ground truth emerge che: I true positive sono nella stessa area in frame successivi I false positive non hanno continuit`a in frame successivi Da questa considerazione si pu`o proporre un metodo per sfruttare la componente temporale per filtrare i false positive e quindi cercare nei nostri confronti il metodo con il migliore recall a scapito della precision.
  • 15. 15/24 Analisi numerica PICO ha ottenuto i migliori valori di recall. Una sua variante per ottenere pi`u detection, “PICO alt”, ancora migliori a scapito della precision. La precision di PICO non `e molto diversa dalla migliore di NPD. `E evidente la netta superiorita della videocamera CUBE sia in termini di recall che di precision. Recall medio (%) Precision media (%) NPD 33.2928 27.2676 VJ 28.9759 17.2501 PICO 43.6984 24.869 PICO alt 53.7653 12.6236 Tabella: Recall e precision medi per i metodi confrontati Recall medio (%) Precision media (%) CUBE 45.69401 20.0638 Gx-9 29.8495 13.9166 Tabella: Recall e precision medi per ciascuna videocamera
  • 16. 16/24 Caratteristiche dei filmati analizzati Videocamera Luogo Caratteristiche Frames A CUBE Esterno bar di farmacia Forte contrasto e controluce. Volti occlusi e laterali. Videocamera storta. 379 B CUBE Fermata dell’autobus Molti volti. Buona illuminazione, ma luce soffusa. 1138 C Gx-9 Biblioteca di giurisprudenza Motion blur dovuto alla GX9. Illuminazione abbastanza buona. 1380 D CUBE Esterno edificio centrale Occlusioni parziali. Videocamera storta. 697 E CUBE Interno del bar H3 Ambiente scuro. Movimenti bruschi. Molti volti occlusi o laterali 1200 F CUBE Interno della mensa C4 Contrasto e controluce. Illuminazione abbastanza buona. Movimenti lenti. 838 G Gx-9 Interno del bar C4 Contrasto e controluce. Illuminazione abbastanza buona. 360 H Gx-9 Interno del bar H3 Ambiente scuro. Movimenti bruschi. Abbondanza di volti laterali. 300 I Gx-9 Fermata dell’autobus Buona illuminazione, ma luce “dura”. 360
  • 17. 17/24 Considerazioni sui valori di Recall Oltre alle considerazioni sui migliori valori di PICO e PICO alt, si pu`o osservare che: I filmati che hanno dato peggiori risultati (A,D,E,H) presentano: Forti contrasti e controluce Inquadrature storte In questi casi VJ ha dato risultati migliori di NPD NPD VJ PICO PICO alt A 11.8881 14.6853 24.4755 31.8182 B 64.7938 52.2714 71.5182 77.3162 C 23.8527 16.1473 32.1813 50.8215 D 6.3624 11.4799 21.0235 35.1314 E 10.4646 17.3627 25.5748 36.6025 F 44.8276 40.9037 61.7122 67.1819 G 30.7787 28.9246 41.78 50.6799 H 5.96 8.99333 9.5302 19.0604 I 31.2572 18.6851 43.2526 53.5179 Tabella: Recall per i diversi metodi sui filmati testati
  • 18. Figura: Frames estratti dai filmati che hanno dato i peggiori risultati 18/24
  • 19. 19/24 Considerazioni sui valori di Precision NPD `e il migliore in condizioni ottimali (buona luce, immagine nitida) VJ `e il migliore sui filmati con buona luce ma immagine “rumorosa”(Gx-9) PICO `e il migliore nei filmati dalle condizioni pi`u difficili PICO alt `e sempre peggiore di PICO NPD VJ PICO PICO alt A 4.6512 2.0076 4.9088 2.2671 B 55.2497 40.1977 51.1434 27.3525 C 10.5805 17.0659 12.305 6.7724 D 8.4715 3.5838 14.4762 7.8226 E 12.3136 8.4302 13.0352 7.7604 F 35.3991 13.3852 29.1082 18.4279 G 22.6983 27.9236 22.4287 11.4685 H 13.213 8.7811 23.355 17.1913 I 47.2125 46.2857 54.8246 29.8777 Tabella: Precision per i diversi metodi sui filmati testati
  • 20. 20/24 Conclusioni In conclusione, si pu`o affermare che il dataset cos`ı creato `e un valido strumento per il confronto di metodi per la face detection per non vedenti poich´e: I risultati sono coerenti: Tutti gli algoritmi hanno performance in media peggiori sugli stessi filmati Le differenze di performance sono giustificate dalle caratteristiche degli algoritmi I risultati sono sufficientemente diversi da quelli ottenuti su dataset non specifici da giustificarne l’adozione
  • 21. 21/24 Conclusioni Inoltre: L’algoritmo PICO ha presentato i risultati migliori in termini di rapporto recall/precision L’algoritmo PICO alt ha presentato migliori valori di recall ma a costo di un maggiore costo computazionale ed una peggiore precision che a sua volta deve venire migliorata con metodi alternativi La scelta della videocamera `e importante Non si sono rilevate differenze tra i risultati ottenuti sui filmati acquisiti dalle due collaboratrici
  • 22. 22/24 Sviluppi futuri Miglioramento face detection Provare altri parametri Addestrare l’algoritmo sul nostro dataset Migliorare la precision provando ad implementare un filtraggio dei false positive basato sulla componente temporale Implementazione del dispositivo Implementazione di face recognition Implementazione del riconoscimento delle espressioni Scelta della piattaforma Studio del metodo di comunicazione dell’informazione al non vedente
  • 23. 23/24 Si segnala inoltre che dal lavoro di questa tesi `e stato tratto un articolo sottoposto alla conferenza MIPRO 2016 dal titolo: Computer Vision for the blind: a dataset for experiments on face detection and recognition