Unconstrained Dataset Non-stationary Video Fire Detection
1. An Unconstrained Dataset for
Non-stationary Video Based Fire
Detection
Cristiano Rafael Steffens, Ricardo Nagel Rodrigues and Silvia Silva da Costa Botelho
Latin American Robotics Symposium (LARS)
Federal University of Rio Grande – FURG
Computational Sciences Center – C3
October 2015
5. A brief overview on the state-of-the-art
Phillips (2002)
Chen (2004)
Toreyin (2005)
Çelik (2007, 2008, 2010)
Li (2011, 2012)
Kolesov (2010)
Mueller (2013)
6. A brief overview on the state-of-the-art
Borges (2010)
Chenebert (2011)
7. Our contribution
• An algorithm to find correspondences between a fire
detector output and the annotated fire regions;
• Two separated rigorous and precise methods for evaluating
any algorithms performance on the proposed
dataset.
o Fire location;
o Frame-by-frame classification;
• C++ source code that implements these procedures.
8. About the Videos
• 24 videos
• 28k frames (51.37% contain fire)
• 17k annotated regions
• Creative Commons 3.0 license
9. About the Videos
• Variety of fire sources
• Uneven illumination
• Camera movement
• Different color accuracy settings
• Clutter
• Partial Occlusion
• Motion blur
• Scale and projection
• Reflection
10. About the Annotations
• Rectangle that embraces the whole fire region
• Very small fire sparkles left out
• A fire-frame may present one or more annotations
• XML files
(each video file has its corresponding annotation file)
• Average flame area is 61512px
(aprox. 250×250px square)
• Fire region size/frame size = 8,92%
17. Location Based Results
Metrics Çelik (2010) Zhou (2010) Chenebert (2011)
PPV 0.251 0.019 0.832
TPR 0.732 0.440 0.979
F1 Score 0.384 0.037 0.902
S 0.250 0.020 0.801
18. An Unconstrained Dataset for
Non-stationary Video Based Fire
Detection
Cristiano Rafael Steffens, Ricardo Nagel Rodrigues and Silvia Silva da Costa Botelho
Latin American Robotics Symposium (LARS)
Federal University of Rio Grande – FURG
Computational Sciences Center – C3
October 2015
Editor's Notes
First, let me talk a little about why this dataset was created.
At FURG we are working on a surveillance robot. It follows a predetermined path, reconizes and tracks people, car plates, reports diferente kinds of incidentes AND one of its features is the fire detection using color images.
It all started with frustration and anger!
When I started the bibliography review I came accross many publications that did not provide a source code neither the dataset that has been used to evaluate it.
In the same way, the evaluations were also nuclear, ignoring many importante metrics.
It becomes very hard to evaluate a detector using only the recall or precision information.
The majority of the previous video based fire detections systems is designed to work with stationary videos.
Doing a survey on the research topic, we can quickly identify a pattern among the proposed solutions.
They all combine, in a cascade/sequential mode a aquisition system, a color based pixel wise classification and the pulsation patterns.
Geralmente utilizam-se câmeras fixas em torres de vigilância a partir das quais é obtido um stream de vídeo.
A primeira parte do processo é a classificação individual, pixel-a-pixel da imagem definindo regiões com a coloração de fogo.
A segunda etapa do processo varia entre os trabalhos estudados, partindo de uma abordagem que avalia apenas a variância individual de cada pixel conforme proposto em PHILLIPS (2002) até modelos baseados em fluxo óptico conforme proposto por MUELLER (2013).
Dentre todas as publicações revisadas, as que mais se aproximam com os objetivos propostos no nosso trabalho são BORGES (2010) e CHENEBERT (2011).
BORGES cria um modelo de aproximação estatística. Para a classificação de cor, aplica-se inicialmente um filtro gaussiano cujo desvio padrão (tamanho do filtro) é obtido a partir da variância em cada canal. Os valores de pixel, já suavizados, são utilizados para aplicação de um threshold que dá maior probabilidade para os pixels no centro da imagem.
A classificação dos pixels pela cor permite definer regiões de interesse e extrair características. Borges propões o uso de informações da área, rugosidade do contorno, variância e inclinação no canal vermelho.
A Classificação utilizando estes atributos é dada através de um classificador Naive Bayes.
O trabalho foi publicado na IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY.
Já o trabalho de CHENEBERT, apresentado na ICIP 2011 também se aproxima do trabalho proposto, ao tentar utilizar informações da textura para a classificação de regiões como fogo ou não fogo.
A primeira etapa consiste na classificação dos pixels individualmente utilizando uma equação proposta por Chen(2004), que utiliza thresholds fixos.
Para a classificação das regiões utiliza-se a extração de histogramas de 10 bins para os canais “Matiz” e “Saturação” do colorspace HSV resultando em 20 atributos.
Ainda para a classificação das texturas os autores utilizam GLCM, também conhecidos como descritores de Haralick, extraindo energia, entropia, contraste, homoegeniedade e correlação dos valores de pixel em H e S.
Cada região é então classificada com base nestes 30 atributos que são testados em um classificador de árvore e em uma rede neural. Os resultados obtidos mostram que o algorítmo CART é o que fornece os melhores resultados.
Os autores tentaram ainda reduzir o números de atributos, de forma a encontrar os mais discriminantes, mas os rersultados mostraram que não houve uma melhora significativa.
Quando o detector é avaliado frame a frame, pode-se avalia-lo da mesma forma que se avalia um classificador binários.
Neste caso, os frames que contém fogo são considerados como 1’s e os frames sem fogo são considerados como 0’s.
O recall, ou revocação, é a fração dos frames de fogo que foram corretamente classificados pelo detector. TPR = TP/P
A especifidade é a medida análoga ao recall, mas aplicado aos frames que não apresentam fogo. SPC = TN/N
A precisão é a métrica que mostra qual o percentual dos frames classificados como fogo pelo detector são realmente fogo. PPV = TP/ (TP+FP)
Já o valor preditivo negativo, é o equivalente à precisão para aplicada às saídas negativas do detector. NPV = TN/(TN+FN)
Já a métrica fall-out dá a razão dos falsos positivos para o total de negativos. FPR = FP/N
Enquanto estas métricas nos permitem avaliar os resultados do detector individualmente, elas não oferecem medidas combinadas.
Neste sentido, a acurácia pode ser útil ao fornecer a proporção dos frames que foram corretamente classificados. No entanto, não é uma métrica balanceada, podendo induzir ao erro, ao desconsiderar a matriz de confusão.
A métrica F1 Score, proposta por Chinchor (1992), é a média harmônica entre a precisão e o recall. Por este motivo, a F1 Score tende a punir sistemas que que apresentem um desequilíbrio entre estas medidas.
Já o coeficiente de correlação de Matheus é a correlação linear entre os resultados esperados e os resultados fornecidos pelo detector. A escala varia de -1 até 1, onde -1 representa correlação negativa, 0 é o equivalente à uma predição aleatória e 1 representa que os resultados obtidos são exatamente iguais aos esperados.
Enquanto estas métricas nos permitem avaliar os resultados do detector individualmente, elas não oferecem medidas combinadas.
Neste sentido, a acurácia pode ser útil ao fornecer a proporção dos frames que foram corretamente classificados. No entanto, não é uma métrica balanceada, podendo induzir ao erro, ao desconsiderar a matriz de confusão.
A métrica F1 Score, proposta por Chinchor (1992), é a média harmônica entre a precisão e o recall. Por este motivo, a F1 Score tende a punir sistemas que que apresentem um desequilíbrio entre estas medidas.
Já o coeficiente de correlação de Matheus é a correlação linear entre os resultados esperados e os resultados fornecidos pelo detector. A escala varia de -1 até 1, onde -1 representa correlação negativa, 0 é o equivalente à uma predição aleatória e 1 representa que os resultados obtidos são exatamente iguais aos esperados.
As métricas frame a frame são, no entanto, incapazes de mensurar adequadamente se o detector encontrou corretamente as regiões que apresentam chama na imagem.
Por este motivo utilizaram-se também métricas de avaliação da localização das chamas detectadas.
Levou-se em consideração que pode existir uma relação 1 para N, onde várias saídas do detector podem ser associadas à uma única anotação de ground-truth.
Neste caso, é possível calcular somente as métricas que não dependem de valores negativos, o que inclui a precisão, recall e similaridade média.
Na avaliação, a função de similaridade é dada pela intersecção da área detectada com a anotação de groundtruth correspondente, dividido pela área da detecção. Neste caso, sempre que a região detectada não extrapolar a região anotada, a similaridade é igual a 1.
S = (Dt intersec Gt)/ Dt