Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

653 views
575 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
653
On SlideShare
0
From Embeds
0
Number of Embeds
278
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting

  1. 1. ANÁLISIS DE LAS PRESTACIONESDE DISTINTAS TÉCNICAS DE PREPROCESADO EN AUDIO FINGERPRINTING José Serradilla Arellano Mayo 2007
  2. 2. Índice• Audio Fingerprinting: Generalidades• Uso de Audio Fingerprinting para Identificación• El sistema de Philips• Mejoras propuestas en preprocesado: – Filtrado – Algoritmo DDA
  3. 3. Generalidades• Concepto: Firma compacta basada en el contenido que resume una grabación de audio.• La señal de audio en sí no es modificada, en particular no se le añade ninguna información adicional (al contrario que Audio Watermarking).• El factor decisivo para la implementación de un proceso de “Audio Fingerprinting” es la selección de las características a investigar.
  4. 4. Generalidades: Propiedades• La huella debería ser: – Un resumen perceptual de la grabación – Invariante a las distorsiones – Compacta – Fácilmente computable
  5. 5. Generalidades: Modos de Uso• Identificación (para lo que se usará en este proyecto)• Verificación de la integridad• Apoyo al “Watermarking”• Recuperación y procesamiento de audio basados en el contenido
  6. 6. Generalidades: Aplicaciones• Monitorización y Seguimiento del contenido de audio• Servicios de valor añadido• Sistemas de verificación de Integridad La mayoría de ellos son casos particulares del modo de uso de identificación
  7. 7. Generalidades: Watermarking• La idea básica consiste en añadir una señal, la marca de agua, a la señal original de audio.• Ambas metodologías tienen muchas aplicaciones en común y también muchas específicas de cada una: – “audio watermarking” aunque en un principio estaba pensado para protección de copyright, también es útil para otros muchos propósitos, particularmente para transporte de información de propósito general – “audio fingerprinting” se usa sobre todo para identificar señales de audio, no solo en aplicaciones de copyright, sino también en reconocimiento de anuncios, por ejemplo.
  8. 8. Identificación• 3 procesos principales – Extracción de Huellas – Algoritmo de búsqueda de coincidencias. – Comprobación de Hipótesis
  9. 9. Identificación: Extracción • Dos partes: – Front-End: Convierte una señal de audio en una secuencia de características relevantes. – Bloque de modelado de huellas: define la representación final de la huella
  10. 10. Id.: Extracción: Front-End• Distintos bloques, no todos obligatorios: – Preprocesado – Framing & Overlap ( y enventanado) – Tranformaciones lineales: Estimaciones espectrales – Extracción de características – Post-Procesado
  11. 11. Id.: Extracción: Modelado• Normalmente recibe una secuencia de vectores de características calculados teniendo en cuenta todas las tramas una por una y explota redundancias entre tramas vecinas• Varias opciones: – Huella como resumen de las secuencias de vectores multidimensionales de una canción completa (o de una parte de ella) en un vector simple. – Huella como secuencias de vectores binarios – Secuencia de vectores aproximada por un libro de código – Huella como secuencias de índices a un conjunto de clases de sonidos representativo de una colección de elementos de audio
  12. 12. Id.: Métodos de búsqueda• Fundamental saber cómo de eficientemente realiza las comparaciones entre el audio y millones de huellas• Fuerza bruta inviable, otras opciones: – Pre-computar distancias offline – Filtrado de candidatos improbables con una medida de similaridad simple – Indexado de archivos inverso – Reducción de candidatos – Otros enfoques
  13. 13. El Sistema de Philips• Se usarán características no semánticas• Huella como cadena de unos pocos miles de bits• Segmentación en tramas, cada trama ->sub-huella• Bloques de 256 sub-huellas
  14. 14. El Sistema de Philips: AlgoritmoTramas 0,37 sgOverlap 31/3232 bits en 11,6 ms256x32 en 3 sg.33 bandas no solapadas 1, E ( n, m ) − E (n, m + 1) − ( E ( n − 1, m ) − E ( n − 1, m + 1) ) > 0 F (n, m) = 300 y 2000 Hz 0, E ( n, m ) − E (n, m + 1) − ( E ( n − 1, m ) − E ( n − 1, m + 1) ) ≤ 0Log. espaciadas
  15. 15. El Sistema de Philips: Algoritmo Esta va a ser la medida de similaridad
  16. 16. Sist. de Philips: Análisis falso positivo• Falso positivo: BER entre dos trozos distintos < umbral T=0.35• Teóricamente FPR del orden de 10-20, habrá que estimarla estadísticamente• Distribución de la BER: N orm al P robability P lot 0.999 0.997 0.99 0.98 0.95 0.90 0.75 NORMAL P robability 0.50 0.25 0.10 0.05 0.02 0.01 0.003 0.001 0.44 0.46 0.48 0.5 0.52 0.54 0.56 D ata
  17. 17. Sist. de Philips: Análisis falso positivo• BER distribuida [0,∞) Usamos una lognormal FPR=3.82612e-30
  18. 18. Sist. de Philips: Análisis de robustez• BER entre un trozo de audio y su versión distorsionada deber ser < T=0.35• Las distorsiones las aplicamos con Adobe Audition
  19. 19. Sist. de Philips: Análisis de robustez• Se ha trabajado con 4 canciones y estos han sido los resultados:
  20. 20. Mejoras propuestas en preprocesado• En general lo que haremos es:• Vamos a trabajar con 3 esquemas distintos
  21. 21. Mejoras preprocesado: Filtrado• La señal pasa por el filtro: 1 0.9 0.8 0.7 −1 1− z H ( z ) = 0.99 0.6 1 − 0.98 z −1 0.5 0.4 0.3 0.2 0.1 0 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
  22. 22. Mejoras preprocesado: Filtrado• Respecto al falso positivo: FPR’= 3.80196e-30
  23. 23. Mejoras preprocesado: Filtrado• Respecto a la robustez:
  24. 24. Mejoras preprocesado: Filtrado Pictures Beatles0,6 0,5 0,450,5 0,40,4 0,35 0,3 Sin preproc Sin preproc0,3 0,25 Con preproc. 0,2 Con preproc.0,2 0,150,1 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Jimmy Vangelis0,6 0,60,5 0,50,4 0,4 Sin preproc Sin preproc0,3 0,3 Con preproc. Con preproc.0,2 0,20,1 0,1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14
  25. 25. Mejoras preprocesado: DDA• DDA: Sistema distinto al de Philips. Lo que haremos es mezclar su preprocesado con nuestro sistema.• Se submuestrea a 11025 Hz, se divide en tramas de 372 ms que se superponen por la mitad y se hace la MCLT de cada trama• Y ahora se aplican 2 pasos por separado
  26. 26. Mejoras preprocesado: DDA (1er paso)• Filtrado paso bajo del espectro logarítmico• A: espectro filtrado• Resultado x(i): spect (i ) − A(i ) si spect(i) - A(i) > 0 x(i ) =   0 e.o.c
  27. 27. Mejoras preprocesado: DDA (1er paso)• Respecto al falso positivo: FPR’= 8.1111e-27
  28. 28. Mejoras preprocesado: DDA (1er paso)• Respecto a la robustez:
  29. 29. Mejoras preprocesado: DDA (1er paso) Pictures Beatles0,6 0,5 0,450,5 0,40,4 0,35 0,3 Sin preproc Sin preproc0,3 0,25 Con preproc. 0,2 Con preproc.0,2 0,150,1 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Jimmy Vangelis0,6 0,60,5 0,50,4 0,4 Sin preproc Sin preproc0,3 0,3 Con preproc. Con preproc.0,2 0,20,1 0,1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14
  30. 30. Mejoras preprocesado: DDA (2º paso)• Se genera un umbral auditivo dependiente de la frecuencia• thr: umbral auditivo en dB• Resultado x(i): spect (i ) − thr (i ) si spect(i) - thr(i) > 0 x(i ) =   0 e.o.c
  31. 31. Mejoras preprocesado: DDA (2º paso)• Respecto al falso positivo: FPR’= 5.03071e-29
  32. 32. Mejoras preprocesado: DDA (1er paso)• Respecto a la robustez:
  33. 33. Mejoras preprocesado: DDA (1er paso) Pictures Beatles0,6 0,5 0,450,5 0,40,4 0,35 Sin preproc 0,3 Sin preproc0,3 Con preproc.1 0,25 Con preproc.1 Con preproc.2 0,2 Con preproc.20,2 0,150,1 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Jimmy Vangelis0,6 0,60,5 0,50,4 0,4 Sin preproc Sin preproc0,3 Con preproc.1 0,3 Con preproc.1 Con preproc.2 Con preproc.20,2 0,20,1 0,1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14
  34. 34. Conclusiones• Se puede decir que los resultados no han sido completamente satisfactorios• Hay mejoras para algunas distorsiones y tipos de archivos concretos, pero no generales• ¿Motivos?

×