Sumary of Person Surveillance Using Visual and Infrared Imagery

Person Surveillance Using Visual
and Infrared Imagery
Author: Stephen J. Krotosky and
Mohan Manubhai Trivedi

Abstract I
• Metodologia per analizzare i sistemi multimodali e
multiprospettiva di sorveglianza di persone.
• Materiali:
– Due telecamera di colore
– Due telecamere a infrarossi
• Usando un algoritmo basato in HOG hanno creato un
sistema probabilistico per evaluare il riconoscimento de
persone all'interno di una scena.
HOG (Histogram of Oriented
Gradients - Istogramma di
gradienti orientati)

Abstract II
• Detector trifocale – Tensore trifocale
combinano le visione delle due telecamere di
infrarosso e le due telecamera di colore.
• Gli esperimenti fatti dagli autori certificano il
maggior rendimento della metodologia
multimodale del sensore trifocale invece di la
metodologia monomodale.
• Queste esperimenti sonno stati fatti nelle
sequenze di immagini di videosorveglianza.

Introduzione I
• Usando una combinazione di HOG nelle due
caratteristiche (color e infrarosso) hanno creato un
SVM per individuare persone all’interno de una scena.
• Hanno notato la differenza tra la grandezza della
persona nella immagine e la profondità nella
immagine
Essempio 2D di SVM (Support
Vector Machines - Macchine a
Vettori di Supporto)

Introduzione II
• Hanno assunto che le immagini delle telecamere possono
essere trattati indipendentemente e anche combinati
creando un solo output per analizzare.
• La sua valutazione finale ha dimostrato che il tensore
trifocale (con la combinazione tra colore e infrarosso) ha un
rendimento molto più soddisfacente per il riconoscimento
de persone all’interno di una scena.

Ricerche collegate I
• Il campo della visione trifocale è molto nuovo e, per
tanto, non ci sono molti articoli chi parlano di
queste tipo di analisi.
• Zhang: Comparativa tra immagini di telecamere di
colore e telecamere infrarossi di tipo monomodale
per creare un SVM.
• Ran: Progetti con telecamare termale e de colore.
Obiettivo, far vedere la possibilità di usare tecniche
di analisi di immagini di colore a immagini infrarossi.

Ricerche collegate II
• Altri studi hanno esaminato il riconoscimento di
persone come la fusione di immagine di colore e
immagini infrarossi.
• Davis and Sharma hanno fatto un insieme di dati di
video di colore e infrarosso. Questo insieme
permette la comparazione pixel a pixel di tutti le
immagine. Così, se può fare una omografia planare di
confronto con le due tipi.
• Questi dati hanno permesso il sviluppo di algoritmi di
combinazione tra colore e infrarossi.

Ricerche collegate III
• Tuttavia, la omografia planare per l'analisi delle immagini di
colore e infrarossi è un po limitata, perché in quella
supponiamo di potere allineare totalmente le due/tre
immagini registrare (colore + infrarossi), ma a volte non è
semplice.
• La migliore forma di registrare le immagini di colore e
termale per analisi generale è steroimmagine che da conto
della profondità e delle diversi prospettiva.
• Bertozzi: Ha disegnato una tetratelecamere per analizzare
persone in telecamere di colore e termale. I risultati sono
separati e dopo uniti secondo la sua posizione in 3D.

Ricerche collegate IV
• Gli autori dell’articolo hanno introdotto il fuoco
trifocale.
• A traverso le estimazione de la profondità in
modo monomodale se può registrare la seconda
modalità con precisione usando il fuoco trifocale.
• Questo articolo amplia il campo multispettrale
proposto in un altro studio, migliorando i metodi
per combinare le due tipi di caratteristiche e
facendo un detector di persone multispettrale.

Tensore trifocale vs Omografia
●
Omografia: E tutto basato in un solo plano, quindi, le
telecamere devono essere tutti in una posizione
determinata per entrare nel stesso plano oppure solo
possiamo analizzare un solo plano.
● Possiamo vedere come in omografia le persone sembrano
molto lontani delle telecamere e della stessa scala

● Tensore trifocale: Permette
analizzare la immagine con
diversi gradi di profondità e fa
vedere chiaramente le diversi
scali nelle persone.
● Se può registrare ogni singolo
pixel di una immagini planare
ed analizzarli.
● La variazione delle scale
possono arrivare a una
difficoltà maggiore per
individuare la persona perché
da più possibili candidati.

Sistema algoritmico
● Il obiettivo e studiare
come il tensore trifocale
affetta alle individuazione
delle persone e le
possibile falsi candidati.
● Per questo, si fa un
sistema chi registra in
modo multimodale e
estrae le caratteristiche
che servono per la
individuazione.

Registrazione delle immagini
● Approccio di 4 telecamere, par stereo unimodal
(colore o infrarossi) combinati con un secondo
par di la seconda modalità.
● Se usa la estimazione delle disparità per
registrare le pixel della terza immagine con il
tensore trifocale – insieme di matrici che
relazionano le corrispondenze tra le immagini.
● Il tensore trifocale può essere stimato
minimizzando il errore algebrico nelle
corrispondenze di punti.

● Per fare il tensore sono necessari 7 corrispondenze
di point-point-point.
● In pratica si usano molti di più corrispondenze per
ridurre gli errori delle estimazione puntuali.
● Il risultato è scritto come segue:
Τ=[T1+T2+T3]
Dove Ti è una matrice 3x3 della i-esima immaginne
● Qui, se possono determinare parametri della
geometria 2D come matrici P (proiezione) e
F(fondamentale) ed e.

● Sia dato un punto
x' ↔ x'' se può stimare
il punto del tensore
trifocale con a formula.
● Otteniamo punti della
terza immagini

Annotation
● Una volta fata la registrazione
dobbiamo fare la annotazione.
● Positivo e negativo. I mostri
positivi si fanno con le
sequenze di video. Le negativi
possono essere generati dal
posto dove non c'è la persona
● Si fa, tanto per il stero di colore
come di infrarossi.
● Lo hanno fatto solo per le
persone non occluse nella
immagine.

Caratterizzazione delle immagini
● Se debbi estrarre le caratteristiche delle immagini
per differenziare tra positive e negative.
● Hanno scelto estrarre le caratteristiche HOG simile a
Dalal e Triggs.
● Queste caratteristiche codificano la rilevanza di bordi
in termini di orientamento e la posizione spaziale.
● Informazione in termini di XxYxΘ, dimensione di
intervalli del istogramma de larghezza, altezza e
gradiente di orientazione.

● La combinazione di colori,
infrarossi, e la disparità
esegue l'alto nella valutazione.
● Questo è un risultato un po
falsato perché il ROC se fa sol
tanto con le parti delle
immagini già annotati
● Quando se ha provato in un
altra immagine nuova sono
stato un risultato non tanto
buono. In alcuni casi hanno
avuto più falsi positivi che
persone.

● Questi errori possono darsi
perché il HOG e ottimo per
individuare oggetti prossimi
ai bordi, quindi, in una
immagine con persone vicini
al fondo danno problemi.
● Lo che hanno fatto è
modellare una persona per
la sua dimensione media e
hanno modellato la
correlazione lineare tra la
dimensione de la cassa di
individuazione e la mediana
della disparità al interno

● La linea può essere parametrizatta come:
Ax + By + C = 0
– La x e la larghezza dela immagine.
– La y è la disparità media.
● Per fare una cassa di contorno ottima
calcoliamo la distanza ottima a questa linea:

Apprendimento e classificazione
● ΔL è un nuovo parametro che se bassa in un altra nuova
proprietà fisica che combina le caratteristiche del HOG e
le caratteristiche de disparità per fare una classifica
comune.
● Loro usano HOG per il colore e SVM per gli infrarossi e
poi fanno il croce tra queste per estimare la probabilità di
avere una persona nella cassa (in una regione).
Erfc: funzione di errore complementare
σ parametro di controllo deviazione standard del modellato gaussiano.

Apprendimento e classificazione
● La probabilità de classificazione finale è:
● Il fatto de avere la classificazione separata
in due può essere vantaggioso perché se
reduce il numero di cassa a studiare.
● Esempio: Se ho 100000 possibile casse,
avró 10000 ad analizzare

Campo esperimentale
Banco di prova sperimentale e Acquisizione Immagine
● Sono due pari, uno di colore
stereo e un altro di infrarossi
● Permette di avere Color
Stereo, Infrared Stereo, Trifocal
Color Stereo + Infrared (CSI),
Trifocal Infrared Stereo + Color
(ISC), and Tetravision
approaches
● Ha una quadruple entrata di
video e un allineatore di queste
quattro.
● La calibrazione la hanno fato
con il Matlab Camera
Calibration Toolbox

Campo esperimentale
Set di dati e formazione
● Se hanno registrato 21 video (immagini slide
15), 19 per le annotazione e 2 di prova (le più
complessi).
● L'analisi se ha fatto per un operatore umano.
● Per cada sequenza se hanno fato il colore
stereo, trifocal CSI, stereo a infrarossi, e
trifocale varianti della ISC dei dati originali
utilizzando la generazione de disparità.

Campo esperimentale
● Annotation of color stereo and trifocal CSI data:
– 1654 campioni positivi (6 to 46 pixels).
– Per cada positivo se cercano 10 negativi, finalmente
se sono stati notati 22520. Problemi con regione
dense e le scale più piccoli de persone.
● Annotation of infrared stereo and trifocal ISC data:
– 1425 campioni positivi (6 to 46 pixels)
– 19533 negativi

Campo esperimentale
● Per formazione, se hanno ridimensionato le parti
di colore e infrarossi a 24x60 pixels.
● Una dimensione di HOG di 6x15x8 è computata
per cada parte di colore e infrarossi e se usa SVM
con RBF (Radial Basis Function)
● Se usano sistema di croce per ottenere gli
stimatori probabilistici per tutte quattro
combinazione di colore e infrarossi.
● Hanno ottenuto una estimazione lineare per
colore e infrarossi de la altura della cassa.

Valutazione esperimentale
● Le false positive sono stati perché la cassa no
era su una persona oppure perché il
classificatore non ha riconosciuto a la persona
all'interno.
● Tutti esperimenti sono stati offline.
● Per fare un analisi a tempo reale era
necessario una SVM a tempo reale.
● Attualmente si se fa in tempo reale

Confronto
● Soglia di probabilità di rilevamento è stato fissato al 80%, 85%,
90%, e il 95%.

Confronto
● Probabilità di rilevamento è stato fissato al 90%

Confronto
● Chiaramente, i due classificatori trifocale superano
i classificatori singola modalità con un ampio
margine
● Per un tasso di falsi positivi di uno per fotogramma,
i classificatori multimodali aumentano il tasso di
rilevamento di oltre il 45%, da 0,65 a quasi 0,95.
● Questo approccio trifocale è più adatto a rilevare
pedoni rispetto alla classificazione indipendenti.
Per una percentuale di falsi positivi di uno per
frame, vediamo un aumento della rilevazione di
quasi il 20%

Confronto
● L'analisi in infrarossi hanno dato migliore risultati del di
colore, questo può sembrare strano in un primo analisi, ma si
spiega con il fatto de che a più densità, più difficoltà di
individuazione:
– Gli infrarossi hanno più densità nelle casse che c'è una persona, e
quindi e più facile avere casi positivi.
– A volte, nel colore il fondo ha un colore molto similare a le
persone, e quindi ci sono più falsi positivi.
● Tuttavia, il caso contrario e vero, nel analisi SVM funziona
meglio il colore.
● Ci aspettiamo che quando non se può registrare su infrarossi
(nella notte) i risultati se assimilano alle sue analisi
unimodali.

Analisi estesa di rivelatori trifocali

● Tasso complessivo di
rilevamento del
92.15% con 0,606 falsi
positivi per
fotogramma.
● Tale coerenza
enfatizza ulteriormente
i vantaggi di utilizzare
il quadro CSI trifocal.

● Il tasso di rilevamento risulta relativamente alto, abbiamo anche raggiunto
un apparentemente alto tasso di falsi positivi del 0,606 falsi positivi per
frame (FPP).
● I falsi positivi nelle immagini sono mostrate in giallo.
● I nostri analisi hanno dimostrato che la stragrande maggioranza dei falsi
positivi generati si trovano nelle aree indicate in questi esempi.
● Obiettivo: Riqualificare la SVM di raggiungere un tasso di falsi positivi
inferiore.

Test in ambienti differenti
● Il classificatore basato nella
disparità è stato riqualificato per
tenere conto del cambiamento in
funzione della disparità della
dimensione de la cassa nella
nuova prospettiva.
● Il trifocal CSI è in grado di rilevare
con successo ogni persona senza
falsi positivi, mentre il trifocal ISC
classificatore rileva tutti, meno un
solo pedonale, ancora una volta
senza alcun falso positivo.
● No hanno modellato le altre oggetti
della foto (arboli, erba..etc) sol
tanto se ha usato il stesso modello
di prima.

● Possiamo vedere una nota
diminuzione del tasso di
rilevazione.
● Può essere per la
classificazione de una
immagine che non ha aiuto
del classificatore allenato.
● Anche gli immagini hanno
il doppio di persone e
questo incrementa la
possibilità della occlusione.

Detezione di filtrato temporale e puntamento
● Credono che questi tassi di rilevamento per
fotogramma che otteno sono davvero il limite
inferiore e che l'aumento delle prestazioni può
venire dall'analisi temporale di rilevazioni del
per-frame.
● Tutti falsi positivi sono stati per una mala
elezione di marco o cassa che se corregge
nelle seguenti analisi.
● Tutti gli errori possono essere considerati un
errore di grandezza del marco.

Rilevazione di filtrato temporale e puntamento
● Qui si mostra una successione
de immagini propria dell'analisi
● In cerchio di colore (rosso, blue
verde e rosa) se evidenziano le
vere positivi nella traiettoria e
in cerchio gialli le falsi positivi.
● Se può vedere che con questo
analisi trifocale se può
ricostruire la sequenza de tutte
le persone a anche la
interazione tra oggetti
● Quindi, se guarda un sistema
di sorveglianza abbastanza
robusto e solido.

Conclusione I
● Hanno presentato una metodologia per analizzare in forma
multimodale e multiprospettiva la immagini di sorveglianza.
● Incorporando un sistema di 4 telecamere (due telecamere di
colore e due de infrarossi) mostrando un risultato più soddisfatto
e completo dalle analisi anteriori unimodali.
● Hanno presentato un sistema algoritmico che combina
probabilisticamente un SVM addestrato sulle caratteristiche HOG
estratte da colori e immagini a infrarossi con un sensore basato
sul rapporto tra dimensione delle persone e la profondità nella
scena per creare un rilevatore in base disparità.
● Hanno addestrato il rilevatore per le 4 possibilità di: color stereo,
infrared stereo, tetravision, and trifocal tensor configurations.

Conclusione II
● Dopo, hanno valutato il suo sistema e hanno visto che il
tensore trifocale che combina le immagini di colore e
infrarossi in una sola è molto più buono delle analisi
monomodale. La valutazione dimostra un
miglioramento molto considerabili delle prestazione è
un sistema robusto.
● La configurazione trifocale e le tetratelecamere
superano in rendimento a le sue caratteristiche
monomodale.
● Anche le sue valutazione dimostrano che il sistema da
buoni risultati su immagini di tipo generale e provvede
robusti input per analisi posteriori.

Sumary of Person Surveillance Using Visual and Infrared Imagery

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (13)

Similar to Sumary of Person Surveillance Using Visual and Infrared Imagery

Similar to Sumary of Person Surveillance Using Visual and Infrared Imagery (13)

More from Julián Fernández Ortiz

More from Julián Fernández Ortiz (13)

Sumary of Person Surveillance Using Visual and Infrared Imagery