Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Silvia Ramis
Francisco J. Perales,
Antoni Bibiloni
(DMI-UIB)
Introducción


Proyecto desarrollado dentro del proyecto
ITVnet.
◦ Trata de un recomendador de vídeos vía PC,
android o h...
Objetivos


Reconocer e identificar mediante VPO
◦ Sujetos  Algoritmo PCA
◦ Textos explicativos  Técnica OCR
Detección de Caras


Clasificadores cascada Haar de OpenCV.
◦ Devuelve 1 si es cara
◦ Devuelve 0 en caso
contrario



El...
Detección de Caras


Rango de Color de la piel
Representación HSI.
• H (Hue): tono del color
• S (Saturación): apagado o ...
Algoritmo PCA


Detección de caras:
◦ Conjunto de imágenes de
entrenamiento Im.

m: nº de imagen



Cada imagen detectad...
Algoritmo PCA


La cara promedio (vector ψ)

1
K

◦ K es el nº total de imágenes.


m
m 1

Normaliza: Resta cada imagen ...
Algoritmo PCA


Matriz de Covarianza
◦ Si m<N considera



(matriz mxm)

Extraer los vectores propios (eigenfaces) y val...
Identificación







Extraer un patrón para cada individuo y crear una
base de datos.
Realizar el mismo proceso para ...
Resultados
<?xml version="1.0"?>
<Faces>
<Segment>
<Person id = "programacion">
<MediaTime>
<MediaTimePoint>T00:00:13</Med...
Detección de texto


Librería OCR tesseract.
◦ Mejor detección si extraemos una subimagen ajustada del
texto.



Dificul...
Detección de texto


Solución
◦
◦
◦
◦



Estandarizar el tamaño del video.
Convertir a una imagen binaria.
Contar número...
Detección de texto
Detección de texto


Observaciones
Tipo de letra
Letra negra sobre fondo claro

≥ 16 (detección óptima)
< 16 (confunde le...
Detección de texto


Normalización del tamaño de texto
◦ Calcular el tamaño de letra.
 Si es menor a 16  agrandarla med...
Resultados de texto
<?xml version="1.0"?>

<Slides>
<Segment>
<Title>Punteros en lenguaje C </Title>
<MediaTime>
<MediaTim...
Resultados de texto
Video

Detección OCR

Programación 1
Programación 2
Programación_sistemas_1
Programación_sistemas_2
Pr...
Conclusiones y Trabajos Futuros


Se ha presentado un sistema óptimo.




Reconoce el 90.1% de individuos en caso de qu...
Agradecimientos




Financiación proyecto ConnectedTV
(IPT-2012-0871-430000)
Parcialmente financiado por el Govern Balea...
Gracias por su Atención. Preguntas?
Upcoming SlideShare
Loading in …5
×

Reconocimiento facial e identificación de textos en videos interactivos - Ramis - Perales - Bibiloni

1,764 views

Published on

Published in: Technology
  • I have done a couple of papers through ⇒⇒⇒WRITE-MY-PAPER.net ⇐⇐⇐ they have always been great! They are always in touch with you to let you know the status of paper and always meet the deadline!
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

Reconocimiento facial e identificación de textos en videos interactivos - Ramis - Perales - Bibiloni

  1. 1. Silvia Ramis Francisco J. Perales, Antoni Bibiloni (DMI-UIB)
  2. 2. Introducción  Proyecto desarrollado dentro del proyecto ITVnet. ◦ Trata de un recomendador de vídeos vía PC, android o hbbtv. ◦ Extrae las características del vídeo a partir de la detección y te recomienda los vídeos relacionados.  Han colaborado el grupo UGIVIA junto con el grupo LTIM de DMI de la UIB.
  3. 3. Objetivos  Reconocer e identificar mediante VPO ◦ Sujetos  Algoritmo PCA ◦ Textos explicativos  Técnica OCR
  4. 4. Detección de Caras  Clasificadores cascada Haar de OpenCV. ◦ Devuelve 1 si es cara ◦ Devuelve 0 en caso contrario  Eliminar falsos positivos. ◦ Rango de color de la piel.  Cara detectada. ◦ Limitar la zona de la persona.
  5. 5. Detección de Caras  Rango de Color de la piel Representación HSI. • H (Hue): tono del color • S (Saturación): apagado o vivo • I (Intensitat): claro u oscuro (prescindible) ◦ Aprendizaje de los colores con el algoritmo AdaBoost con 1000 cares y 1284 no cares.
  6. 6. Algoritmo PCA  Detección de caras: ◦ Conjunto de imágenes de entrenamiento Im. m: nº de imagen  Cada imagen detectada Im, representada como un vector Ƭm.
  7. 7. Algoritmo PCA  La cara promedio (vector ψ) 1 K ◦ K es el nº total de imágenes.  m m 1 Normaliza: Resta cada imagen del entrenamiento con la cara promedio. m  K m Matriz de Covarianza C T A A· A (matriz NxN) ¡No práctico! 1 2  m m Columnas = m imágenes N Filas: w*h
  8. 8. Algoritmo PCA  Matriz de Covarianza ◦ Si m<N considera  (matriz mxm) Extraer los vectores propios (eigenfaces) y valores propios de mayor peso de la matriz de covarianza. m Eigenfaces   AT · A C Se obtiene el patrón: (u1...um ) T w1 donde wm w2  wm T um m
  9. 9. Identificación     Extraer un patrón para cada individuo y crear una base de datos. Realizar el mismo proceso para la nueva imagen. Calcular la distancia entre la imagen a detectar y las imágenes de la base de datos. Seleccionar la imagen de la base de datos que más se aproxima a la nueva imagen. min  2 m Si la distancia ϵ es inferior a un umbral asignado se reconoce al individuo.
  10. 10. Resultados <?xml version="1.0"?> <Faces> <Segment> <Person id = "programacion"> <MediaTime> <MediaTimePoint>T00:00:13</MediaTimePoint> <MediaDuration>PT14S</MediaDuration> </MediaTime> <Segment/> <Segment> <Person id = "programacion"> <MediaTime> <MediaTimePoint>T00:01:07</MediaTimePoint> <MediaDuration>PT54S</MediaDuration> </MediaTime> <Segment/> <Segment> <Person id = "programacion"> <MediaTime> <MediaTimePoint>T00:02:28</MediaTimePoint> <MediaDuration>PT27S</MediaDuration> </MediaTime> <Segment/> <Faces/> Pruebas con 13 videos: Aciertos 10 Fallos 3 77% de aciertos. Causa de errores: • El individuo tiene la cara de perfil. Si el conjunto de caras esta bien alineado, con caras frontales  90.1% de aciertos
  11. 11. Detección de texto  Librería OCR tesseract. ◦ Mejor detección si extraemos una subimagen ajustada del texto.  Dificultad: no existe un modelo estándar de transparencias.
  12. 12. Detección de texto  Solución ◦ ◦ ◦ ◦  Estandarizar el tamaño del video. Convertir a una imagen binaria. Contar número de píxeles blancos. Hallar el umbral. Cada umbral representa un estilo de transparencia. Detección de títulos ◦ proyección horizontal para determinar la zona.  El título se localiza entre las primeras sumas.
  13. 13. Detección de texto
  14. 14. Detección de texto  Observaciones Tipo de letra Letra negra sobre fondo claro ≥ 16 (detección óptima) < 16 (confunde letras) Letra blanca sobre fondo oscuro ≥ 18 en mayúsculas (detección óptima) Letra muy grande  Tamaño de letra ≥ 18 en mayúsculas (detección óptima) Mejores detecciones: ◦ Letra negra sobre fondo claro.
  15. 15. Detección de texto  Normalización del tamaño de texto ◦ Calcular el tamaño de letra.  Si es menor a 16  agrandarla mediante una interpolación bicúbica. ◦ Normalizar todos los textos a letra negra sobre fondo blanco.     Convertir imagen a binaria. Sea Pb número total de píxeles blancos. Sea Pn número total de píxeles negros. Si Pn > Pb se invierte los colores de la imagen binaria.
  16. 16. Resultados de texto <?xml version="1.0"?> <Slides> <Segment> <Title>Punteros en lenguaje C </Title> <MediaTime> <MediaTimePoint>T00:00:00</MediaTimePoint> <MediaDuration>PT14S</MediaDuration> </MediaTime> </Segment> <Segment> <Title>Objetivos </Title> <MediaTime> <MediaTimePoint>T00:00:14</MediaTimePoint> <MediaDuration>PT36S</MediaDuration> </MediaTime> </Segment> <Segment> <Title>Punteros </Title> <MediaTime> <MediaTimePoint>T00:00:50</MediaTimePoint> <MediaDuration>PT199S</MediaDuration> </MediaTime> </Segment> </Slides>
  17. 17. Resultados de texto Video Detección OCR Programación 1 Programación 2 Programación_sistemas_1 Programación_sistemas_2 Programación_sistemas_3 Internet_aula_1 Internet_aula_3 Internet_aula_5 Mercado emisiones UE Mecanismo_mercado Cocina1 Conceptos_clave Consumo_Espana_crisis Mercado_deuda_publica Curso cocina gazpacho Curso cocina pescado con mayonesa Curso cocina puré de calabacín Competencia monopolística 100% 100% 95% 95% 100% 99% 93% 89% 93% 93% 90% 70% 100% 100% 95% 100% 99% 59% Media Detección 92.77%
  18. 18. Conclusiones y Trabajos Futuros  Se ha presentado un sistema óptimo.   Reconoce el 90.1% de individuos en caso de que todas las imágenes sean frontales y el 92.77% de texto. Se propone mejorar: ◦ El reconocimiento facial con nuevos sistema basados en RNA, LDA. ◦ Aplicar un analizador sintáctico en el OCR ◦ Comparar con otro OCR comercial ◦ Realizar nuevas pruebas
  19. 19. Agradecimientos   Financiación proyecto ConnectedTV (IPT-2012-0871-430000) Parcialmente financiado por el Govern Balear, Grupos Competitivos, 2011, Num. 28/2011/44
  20. 20. Gracias por su Atención. Preguntas?

×