2. 1 Tabla de contenido
2 MPEG-1 __________________________________________________________ 3
2.1 RESEÑA HISTÓRICA ___________________________________________________ 3
2.2 CODIFICACION DE AUDIO ______________________________________________ 4
2.2.1 Las capas de audio en MPEG __________________________________________________ 4
2.3 CODIFICACION DE VIDEO_______________________________________________ 7
2.4 PREDICCION BIDIRECCIONAL____________________________________________ 9
2.5 Tipos de Cuadros ____________________________________________________ 11
2.5.1 Cuadros I (Intra) ___________________________________________________________ 11
2.5.2 Cuadros P (Predicted) ______________________________________________________ 11
2.5.3 Cuadros B (Bidirectional o Interpolated) _______________________________________ 11
2.6 Parámetros ________________________________________________________ 12
2.7 Características ______________________________________________________ 13
2.8 Aplicaciones ________________________________________________________ 14
3 MPEG-2 _________________________________________________________ 16
3.1 Introducción ________________________________________________________ 16
3.2 Características ______________________________________________________ 17
3.3 Estándar MPEG-2 ____________________________________________________ 18
3.4 Sistema: Sincronización y multiplexado de video y audio. ___________________ 19
3.4.1 Sistema de multiplexado de Video y Audio _____________________________________ 19
3.4.2 Sincronización Audio Vídeo __________________________________________________ 21
3.5 Video: Códec Compresor para Señales de Video Entrelazado y No Entrelazado __ 24
3.5.1 Vídeo entrelazado (campos) / no-entrelazado ___________________________________ 24
3.5.2 Compresión ______________________________________________________________ 27
3.5.3 FPS (Frames per second) - cuadros por segundo _________________________________ 27
3.5.4 Flujo de datos (bitrate) _____________________________________________________ 28
3.5.5 Flujo de Datos Constante (CBR - Constant Bit Rate) ______________________________ 28
3.5.6 Flujo de Datos Variable (VBR - Variable Bit Rate) _________________________________ 29
3.5.7 Unidades de acceso codificación Mpeg-2_______________________________________ 29
3.5.8 Vídeo entrelazado _________________________________________________________ 30
3.6 CÓDEC COMPRESOR DE SEÑALES DE AUDIO ______________________________ 32
3.6.1 Layers y profiles ___________________________________________________________ 33
3.6.2 Sistema con 5 Canales. (15)__________________________________________________ 34
3.6.3 ADVANCED AUDIO CODING _________________________________________________ 34
4 ESTANDAR DE CODIFICACIÓN DE AUDIO Y VIDEO MPEG-4 ________________ 37
4.1 Concepto: __________________________________________________________ 37
4.2 Introducción. _______________________________________________________ 40
3. MPEG1, MPEG2 y MPEG4
2
4.3 Sistema: Sincronización y multiplexado de video y audio, Parte 1 (ISO/IEC 14496-1).
43
4.4 Video: Códec compresor para señales de video entrelazada y no entrelazada ___ 45
4.4.1 Concepto ________________________________________________________________ 45
4.5 Arquitectura decodificador mpeg-4 (ISO/IEC 14496-2, Video). ________________ 46
4.5.1 Procesamiento de Bitstream _________________________________________________ 47
4.5.2 Decodificación de texturas __________________________________________________ 48
4.5.3 Decodificador de Vectores de movimiento _____________________________________ 48
4.5.4 Decodificador de Compensación de Movimiento ________________________________ 49
4.5.5 Reconstrucción de Movimiento ______________________________________________ 50
4.5.6 Unidad de Control de Paralelismo ____________________________________________ 50
4.5.7 Post-procesamiento _______________________________________________________ 50
4.6 Audio: Códec compresor de señales de Audio, Parte 3 (ISO/IEC 14496-3). ______ 52
4.6.1 Descripción técnica detallada del audio en MPEG-4. ______________________________ 52
4.6.2 Cualidades adicionales del audio en MPEG-4 ____________________________________ 53
4.7 (MPEG-4) Transporte sobre redes IP, AVC, y formato de subtítulos. ___________ 55
4.7.1 Introducción______________________________________________________________ 55
4.7.2 (MPEG-4) Transporte sobre redes IP (ISO/IEC 14496-8) ___________________________ 55
4.7.3 REDES IP y EL TRANSPORTE DE MULTIMEDIA SOBRE ESTAS. _______________________ 58
4.8 (MPEG-4) Advanced Video Coding (AVC) (ISO/IEC 14496-10)_________________ 60
4.8.1 Codificación inter-frame.- ___________________________________________________ 60
4.8.2 Codificación por transformada en H.264.- ______________________________________ 61
4.8.3 Filtro de "deblocking".- _____________________________________________________ 62
4.9 (MPEG-4) Formato de subtítulos (ISO/IEC 14496-17) _______________________ 64
5 Trabajos citados __________________________________________________ 65
4. MPEG1, MPEG2 y MPEG4
3
2 MPEG-1
Luis Delgado / ledelgado@utpl.edu.ec
2.1 RESEÑA HISTÓRICA
MPEG o MPEG-1 - Motion Picture Experts Group (Unión de Expertos en Imágenes en
Movimiento). MPEG es un grupo de estándares de codificación de audio y vídeo.
El desarrollo del estándar MPEG-1 comenzó en mayo de 1988. 14 ofertas de video y 14 de
audio del codec fueron sometidas por las compañías y las instituciones individuales para la
evaluación.
El estándar MPEG-1 nació para permitir el almacenamiento de vídeo y sonido estéreo en CD-
ROM a velocidad máxima de 1'5 Mb/s (1,14 Mb/s para el vídeo y 350 kB/s para el audio
asociado). Está basado en el algoritmo de compresión de imagen fija JPEG pero se aprovecha
de la alta redundancia temporal entre cuadros consecutivos para mejorar la tasa de
compresión.
Después de 20 reuniones del grupo completo en varias ciudades alrededor del mundo, y de 4
años y medio de desarrollo y de prueba, el estándar final (para las piezas 1-3) fue aprobado en
noviembre de 1992 y fue público algunos meses más adelante. La fecha divulgada de la
terminación del estándar MPEG-1, varía grandemente… Un estándar de bosquejo en gran
parte completo fue producido en septiembre de 1990, y de ese punto encendido, sólo los
cambios de menor importancia fueron introducidos. El estándar fue acabado con la reunión
del 6 de noviembre de 1992. En julio de 1990, antes de que el primer bosquejo del estándar
MPEG-1 incluso hubiera sido escrito, el trabajo comenzó por un segundo estándar, MPEG-2, se
prepuso ampliar la tecnología MPEG-1 para proporcionar el vídeo completo de difundir-
calidad. (1)
Debido en parte a la semejanza entre los dos codecs, el estándar MPEG-2 incluye por completo
compatibilidad hacia atrás con el vídeo MPEG-1, así que cualquier decodificador MPEG-2
puede manejar los videos MPEG-1. (1)
5. MPEG1, MPEG2 y MPEG4
4
2.2 CODIFICACION DE AUDIO
El estándar de codificación de audio MPEG-1 se basa en la codificación de percepción, que es
un proceso de preservación de forma de onda; es decir, la forma de onda de amplitud-tiempo
de la señal de audio decodificada se aproxima mucho a la de la señal de audio original en
términos generales, el proceso de decodificación comprende cuatro operaciones distintas:
1. Mapeo de tiempo-frecuencia.- Por este medio la señal de audio se descompone en sub-
bandas múltiples.
2. Modelación psicoacústica.- Opera en forma simultanea sobre la señal de audio de
entrada para calcular ciertos umbrales utilizando reglas conocidas del comportamiento
psicoacústico del sistema auditivo humano.
3. Cuantización y codificación.- Junto con el modelo psicoacústico trabaja en la salida del
mapeador de tiempo-frecuencia a fin de mantener el ruido que resulta del proceso de
cuantización en un nivel inaudible.
4. Empaque de tramas.- Se utiliza para formatear las muestras de audio cuantizadas en
una corriente de bits decodificable.(2)
2.2.1 Las capas de audio en MPEG
Para el audio, están definidas tres capas, que definen tres niveles de compresión y
complejidad:
• MP1 o MPEG Layer I
• MP2 o MPEG Layer I
• MP3 o MPEG Layer I
La capa o layer I conforma el algoritmo más básico, mientras que las capas II y III son mejores
que usan algunos de los elementos de la capa 1. Cada capa, sucesivamente, va mejorando la
compresión, a costa de una mayor complejidad en la codificación.
El MPEG/Audio permite usar las capas en cuatro modos:
• Estéreo. Codificación independiente de cada canal.
• Estéreo Conjunto. Hace uso de la redundancia o información correlacionada entre
los canales izquierdo y derecho buscando reducir el flujo binario.
• Dual. Dos canales independientes tanto en codificación como en la propia
información.
• Mono. Un único canal de audio.
2.2.1.1 Layer I.
En un primer paso la señal de audio es dividida en 32 sub-bandas para las cuales se definen
distintos parámetros de cuantificación y curvas de enmascaramiento en función de la
sensibilidad relativa del oído humano al sonido procesado. Las contribuciones frecuenciales
donde el oído es más sensible son cuantificadas con mayor precisión que aquellas donde el
oído es menos sensible, pudiendo incluso llegarse a descartar bandas completas ya que
directamente no serían percibidas por el oído humano.
6. MPEG1, MPEG2 y MPEG4
5
La capa I emplea máscaras de cuantificación a marcos o frames de audio, que consisten en un
número de 12 grupos consecutivos de 384 muestras de audio. En la capa más básica se usan 6
bits para codificar el factor de escala (un multiplicador que indica el tamaño de las muestras
para rellenar toda la profundidad de bits del cuantificador) y de 0 a 15 bits para cada
subbanda. Está basado en el algoritmo PASC (Precision adaptative sub-band coding) de Philips,
y su gran ventaja es la sencillez de implementación.
2.2.1.2 Layer II.
Basado en el algoritmo MUSICAM requiere flujos binarios, un 30-50% menores que el layer I
para la misma calidad, empleando para ello dos principales mejoras para disminuir el flujo de
bits.
• Usa el mismo modelo psico-acústico que el anterior pero aplicado a frames de mayor
duración, de tres conjuntos de 1152 muestras de audio por cada 12 grupos en cada
marco.
• En lugar de usar 6 bits para la cuantificación de cada banda (factor de escala) usa un
modelo variable en función de la banda de frecuencia, con el fin de disminuir la
distorsión audible.
• Cuando codifica tres, cinco o niveles en cada subbanda de cuantización, la capa II
representa tres valores consecutivos cuantizados en una única y más compacta
palabra de código.
2.2.1.3 Layer III.
Deriva del ASPEC (Adaptive Spectral Perceptual Entropy Coding) y el OCF (Optimal Coding in
the Frecuency domain). Aunque está basado en los mismos bancos de filtros de MPEG Layer I y
Layer II, compensa las principales deficiencias procesando las salidas de los filtros en una DCT
(Transformada discreta del coseno) modificada, denominada MDCT.
Fundamentalmente, subdivide las salidas de cada subbanda en frecuencia para ofrecer una
mejor resolución espectral. Una vez hecho este proceso, el Layer III puede cancelar los
solapamientos causados por el banco de filtros. Esta operación tiene que ser invertible de tal
modo que la MDCT inversa pueda reconstruir cada subbanda en su solapamiento original, a
través del banco de filtros de reconstrucción. En resumen, el MPEG Layer III mejora a los
anteriores:
• Reducción del solapamiento, especificando un método de procesar los valores de la
MDCT para eliminar artefactos causados por las bandas superpuestas procedentes del
banco de filtros.
• Cuantificación no uniforme, disminuyendo a 3/4 la potencia antes del proceso de
cuantificación para ofrecer una relación señal/ruido más consistente sobre el rango de
valores cuantificados. El reecualizador del decodificador de MPEG/audio incrementará
los valores a la salida aumentando 4/3 la potencia.
7. MPEG1, MPEG2 y MPEG4
6
• Codificación de entropía en los valores de los datos. Para conseguir una mejor
compresión de datos, la capa III usa códigos variables Huffman para codificar las
muestras cuantificadas.
• Uso de un bit de reserva. El diseño de la capa III mejora la variación en el tiempo en el
codificador ofrecida por los bits de código. Como en la capa II, la capa III procesa los
datos de audio en marcos de 1152 muestras. Pero a diferencia de ella, no
necesariamente son marcos de longitud fija. Existe una especie de depósito donde se
almacenan bits al necesitarse un número menor para codificar un marco. Después, si
el codificador necesita un número mayor que la media de bits, puede extraerlos de ese
depósito. Sólo se puede hacer este proceso a partir de marcos pasados, no futuros.
Si bien el tercero sólo se emplea en Internet y dispositivos portátiles, el audio de algunos DVD
está comprimido usando una de las dos primeras capas.
El resultado final de utilizar el estándar MPEG-1 en los dos canales de audio de un programa
estereofónico es que cada señal de audio digitalizada, que se obtiene a razón de 768 kilobits
por segundo, se comprime a una velocidad tan baja como 16 Kb/s. (La velocidad de los datos
de entrada de 768 Kb/s corresponde a una velocidad de muestreo de 48 KHz, siendo cada
muestra representada por una palabra de 16 bits.)
• El estándar de codificación de audio MPEG-1 es adecuado para el almacenamiento de
señales de audio en medios económicos o su transmisión sobre canales con ancho de
banda limitados, mientras mantiene al mismo tiempo la calidad de percepción. (2)
8. MPEG1, MPEG2 y MPEG4
7
2.3 CODIFICACION DE VIDEO
El estándar de codificación de video MPEG-1 se diseñó fundamentalmente para comprimir
señales de video a 30 tramas por segundo (cps) en una corriente de bits que corre a razón de
un megabits por segundo (Mb/s); MPEG corresponde a las siglas en ingles del Grupo de
Expertos de Fotografía en Movimiento. (2)
El estándar MPEG-1 no es adecuado para aplicaciones de radiodifusión ya que no tiene en
cuenta el entrelazados de imágenes o la evolución prevista a TV de alta definición (HDTV), que
acabaría siendo el estándar MPEG-2 publicado en 1994.
Actualmente se emplea, por ejemplo, para comprimir la información de vídeo en los VCD con
resolución SIF (360x288 @ 25 fps en PAL y 360x240 @ 30 fps en NTSC), consiguiendo de ese
modo una calidad de imagen similar a la del VHS doméstico. (3)
El estándar de codificación de video MPEG-1 consigue esta meta de diseño explotando cuatro
formas básicas de redundancia presente inherentemente en los datos de video:
1. Redundancia de intertrama (temporal).
2. Redundancia de interpixel dentro de una trama.
3. Redundancia psicovisual.
4. Redundancia de codificación entrópica.
La explotación de la redundancia de intertrama es lo que distingue al MPEG-1 del JPEG. En
principio, las tramas vecinas en secuencia de video ordinarias están altamente
correlacionadas. El significado de esta alta correlación es que, en un sentido promedio, una
señal de video no cambia rápidamente de una trama a la siguiente, en consecuencia, la
diferencia entre tramas adyacentes tiene una varianza (es decir potencia promedio) que es
mucho más que la varianza de la propia señal de video. (2)
Estuvo basado inicialmente en el trabajo del grupo de expertos del ITU para videotelefonía y
en el estándar H.261. Para aumentar el factor de compresión, MPEG introdujo el concepto de
predicción bidireccional, que consiste en el almacenamiento de imágenes pasadas y futuras
para la predicción del cuadro (frame) presente.
El primer trabajo del grupo iniciado en 1988 se concentro en la compresión de video con
velocidades bajas y adecuadas a dispositivos de almacenamiento tales como CD-ROM y
transmisión a 1,554 y 2,048.
Para conseguir esto, los cuadros en el flujo de bits codificado deben estar en orden diferente al
orden de visionado. Esto fuerza la creación de la estructura llamada Grupo de cuadros (GOP).
El conjunto de objetivos establecido para MPEG 1 fue el siguiente:
• Acceso aleatorio
• Visionado inverso sincronización audio visual
9. MPEG1, MPEG2 y MPEG4
8
• Robustez frente a errores
• Retardo de codificación/ descodificación
• Estabilidad
• Compatibilidad de formatos
• Costos (4)
10. MPEG1, MPEG2 y MPEG4
9
2.4 PREDICCION BIDIRECCIONAL
La predicción bidireccional realiza el proceso de estimación de movimiento dos veces:
• Una en una imagen pasada
• Y otra en una imagen futura,
• De forma que obtiene dos vectores de movimiento y dospredicciones para cada
macrobloque.
El codificador puede obtener el residuo de movimiento compensado utilizando:
• Cualquiera de las dos predicciones (pasada o futura)
• Un promedio de ellas, eligiendo la estimación más eficiente de las tres.
En la terminología MPEG, este proceso es referido como codificación ínter cuadro bidireccional
o interpolada.
En la Figura 1.1se muestra más detalladamente como opera la predicción bidireccional.
1
Figura 1.1Predicción Bipolar
Cuando la compensación es hacia delante o hacia atrás, sólo se genera un vector de
movimiento.
Cuando la compensación es interpolada se generan dos vectores de movimiento, uno para
cada cuadro de referencia pasado y futuro.
1
(Imagen tomada de www.airfareoffice.com/multimedia/pdfs/10-mpeg-1)
11. MPEG1, MPEG2 y MPEG4
10
Tanto si se genera uno como si se generan dos, estos son codificados diferencialmente con
respecto a los vectores de movimiento del macrobloque anterior.
Posteriormente se les aplica una codificación Huffman para ser transmitidos o almacenados
junto al residuo, para este macrobloque.
12. MPEG1, MPEG2 y MPEG4
11
2.5 Tipos de Cuadros
2.5.1 Cuadros I (Intra)
Utilizan únicamente información contenida en el propio cuadro y no dependen de la
información de otros cuadros (codificación intracuadro).
Los cuadros I proporcionan un mecanismo para el acceso aleatorio al flujo de bits de vídeo
comprimido pero proporcionan solamente una moderada compresión.
2.5.2 Cuadros P (Predicted)
Utilizan para la codificación, la información contenida en el cuadro previo, I o P, más próximo
(codificación intercuadro).
A esta técnica se le conoce como predicción hacia delante y proporciona un mayor grado de
compresión.
2.5.3 Cuadros B (Bidirectional o Interpolated)
Utilizan la información contenida en los cuadros pasados y futuro, I o P, más próximos. A esta
técnica se le conoce como predicción bidireccional o interpolada y proporciona el mayor grado
de compresión.
Estos cuadros no propagan errores ya que nunca se utilizan como referencia, al contrario que
las imágenes I y P. (4)
13. MPEG1, MPEG2 y MPEG4
12
2.6 Parámetros
El conjunto de parámetros restringidos del flujo de bits que como mínimo debe soportar cada
descodificador compatible con MPEG 1 son los mostrados en laTabla 1.1: (4)
Tabla 1.1 Parámetros restringidos del flujo de bits
Parámetros Valor máximo
Tamaño horizontal 768 pixeles
Tamaño vertical 576 lineas
Numero de macrobloques 396
Caudal de pixeles 396x25 Mb/s
Caudal de cuadros 30 cuadros/s
Rango de los vectores de movimiento ± 64 pixeles
Tamaño del buffer de entrada 327.680 bits
Caudal de bits 1.865 kbits/s
14. MPEG1, MPEG2 y MPEG4
13
2.7 Características
Los requerimientos de capacidad de edición total y acceso aleatorio condujeron a la
introducción de cuadros codificados completamente como intra-cuadro, de forma periódica en
el flujo de bits codificado.
La codificación de estos cuadros con codificación intra-cuadro se basó en gran parte en
estándar JPEG. Para compensar la reducción del factor de comprensión, debido a la
introducción periódica de imágenes intracodificadas, se introdujo la predicción bidireccional.
El estándar fue finalmente diseñado para conseguir compresiones optimas en el rango entre 1
y 1.5 Mbps, para secuencias de video progresivo en color (MPEG 1 no soporta video
entrelazado), tanto para sistemas NTSC como PAL, con formato de muestreo 4:2:0 y un espacio
de colores YCbCr.
Para este formato de entrada, el factor de compresión alcanzado por el estándar MPEG 1 es de
26:1 aproximadamente.
15. MPEG1, MPEG2 y MPEG4
14
2.8 Aplicaciones
El más popular software para el dispositivo de lectura video incluye MPEG-1 que descifra,
además de cualquier otro los formatos apoyados. [5]
• El renombre MP3 de audio ha establecido una masiva base instalada del hardware de
audio del dispositivo de lectura MPEG-1 (las 3 capas).
• El formato DVD-video utiliza el vídeo MPEG-2 sobre todo, pero la ayuda MPEG-1 se
define explícitamente en el estándar.
• Antes de que MPEG-2 llegó a ser extenso, mucho los servicios digitales de la televisión
por el satélite/cable utilizaron MPEG-1 exclusivamente. (1)
• Vídeo de DVD estándar requirió originalmente MPEG-1 el audio de la capa II, pero fue
cambiado para permitir AC-3/Digital Dolby- solamente discos. MPEG-1 el audio de la
capa II todavía se permite en DVDs, aunque más nuevas extensiones al formato, como
MPEG de varios canales, se apoyan raramente. (1)
En la Tabla 1.2 se ven los formatos MPEG más populares con sus respectivas propiedades.
Existen otros formatos de menor popularidad que no se incluyen en la tabla. Para soporte en
CD, los formatos MPEG-1 más difundidos son VCD y CVCD; para MPEG-2, SVCD. (5)
2
Tabla 1.2 Formatos MPEG más populares
Formatos MPEG Estandarizados
Formatos VCD CVCD XVCD SVCD DVD
Nombre Video CD Compressed Extended Super Digital
Video CD Video CD Video CD Video Disc
Resolución PAL 352x288 352x288 480x576 480x576 704x576
720x576
NTSC 352x240 352x240 480x480 480x480 704x480
720x480
FPS PAL 25 25 25 25 25
NTSC 23.9 / 29.9 23.9 / 29.9 23.9 / 29.9 23.9 / 29.9 23.9 / 29.9
Formato video MPEG-1 MPEG-1 MPEG-1 MPEG-2 MPEG-2
audio MPEG MPEG Layer MPEG MPEG MP2/AC3/WAV
Layer 2 2 Layer 2 Layer 2
Modo de bitrate* CBR CBR / VBR CBR / VBR CBR / VBR CBR / VBR
Bitrate; video 1150 300...1150 Hasta 2350 Hasta 2550 Hasta 9000
Kbps
audio 224 96...224 32...384 32...384 Hasta 448
2
Formatos MPEG Estandarizados Tabla tomada de: www.divxland.org/esp/mpeg.php
16. MPEG1, MPEG2 y MPEG4
15
Frecuencia de 44.1 44.1 44.1 44.1 / 48 48
audio; KHz
Pistas de audio Única Única Única Múltiples Múltiples
Subtítulos Fijos Fijos Fijos Optativos Optativos
Compatible con SI SI NO NO SI
autoría de DVD
Minutos por disco 74 / 80 / 90 74...130 35...60 35...60 60...240
Los modos de bitrate (tasa de bits por segundo) pueden ser constante (CBR) o variable (VBR).
Dependiendo de la aplicación de video, se elegirá un formato u otro. Por ejemplo, si se está
buscando máxima compatibilidad con todos los dispositivos, se utilizará el VCD; si se pretende
colocar una película entera en un disco, el CVCD es el indicado; si solo nos preocupa la calidad,
el SVCD es la mejor opción; si queremos un medio de alta resolución, el DVD es el correcto,
etc.
17. MPEG1, MPEG2 y MPEG4
3 MPEG-2 16
Estefanía Loaiza / celoaiza@utpl.edu.ec
3.1 Introducción
MPEG (Moving Picture Experts Group) se inició en 1988 como un grupo de trabajo de ISO / IEC
con el fin de definir normas para la compresión digital de audio de las señales visuales.
El primer proyecto MPEG, MPEG-1, fue publicado en 1993 como ISO / IEC 11172. Se trata de
un estándar de tres partes, la definición de compresión de audio y métodos de codificación de
vídeo y un sistema de multiplexado para intercalado de datos de audio y vídeo para que
puedan ser escuchadas juntas. MPEG-1, principalmente apoya la codificación de vídeo de
hasta alrededor de 1,5 Mbit / s dando una calidad similar a la SHV y audio estéreo a 192 bits /
s. Se utiliza en el CD-i y Video-CD para sistemas de almacenamiento de vídeo y audio en CD-
ROM.(6)
Durante 1990, MPEG reconoció la necesidad de un segundo estándar, relacionadas con la
codificación de vídeo para los formatos de difusión a tasas más altas de datos. El estándar
MPEG-2 es capaz de codificación de televisión de definición estándar a velocidades de bits de
alrededor de 3.15 Mbit / s, y la televisión de alta definición a 15-30 Mbit / s. MPEG-2 amplía las
capacidades de audio estéreo de MPEG-1 a varios canales de sonido envolvente de
codificación de sonido.
MPEG-2 pretende ser un sistema de codificación de vídeo genérico de apoyo a una amplia
gama de aplicaciones.
MPEG-2 introduce y define Flujos de Transporte, los cuales son diseñados para transportar
vídeo y audio digital a través de medios impredecibles e inestables, y son utilizados en
transmisiones televisivas. Con algunas mejoras, MPEG-2 es también el estándar actual de las
transmisiones en HDTV. Un descodificador que cumple con el estándar MPEG-2 deberá ser
capaz de reproducir MPEG-1. MPEG-2 es por lo general usado para codificar audio y vídeo para
señales de transmisión, que incluyen televisión digital terrestre, por satélite o cable. MPEG-2.
Con algunas modificaciones, es también el formato de codificación usado por los discos SVCD y
DVD comerciales de películas(7)
18. MPEG1, MPEG2 y MPEG4
17
3.2 Características
• La sintaxis del MPEG-2 tiene dos categorías:
– Una sintaxis no escalable, la cual incluye a la sintaxis del MPEG-1, con
extensiones adicionales para soportar vídeo entrelazado.
– Una sintaxis escalable, la cual permite una codificación por capas de la señal
de vídeo, mediante la cual, el descodificador puede descodificar
• o sólo la capa básica para obtener una señal con calidad mínima,
• o utilizar capas adicionales para incrementar la calidad de la señal.
• Como el MPEG-1, el MPEG-2 es un estándar de compresión con pérdidas, basado en:
– Compensación de movimiento
– Estimación de movimiento hacia delante, hacia atrás o interpolada
– Transformada DCT
– Cuantificación
– Codificación RLE y Huffman
• En el modo de sintaxis escalable, la capa básica de una señal de vídeo codificada con el
MPEG-2, podría ser también descodificada por un descodificador MPEG-1, aunque
esto último no es requerido en el estándar.(6)
19. MPEG1, MPEG2 y MPEG4
18
3.3 Estándar MPEG-2
El estándar de compresión de vídeo MPEG-2, fue la segunda fase de trabajo realizado por el
grupo MPEG.
El conjunto de requerimientos fijados:
• Compatibilidad con MPEG-1
• Buena calidad de la imagen
• Flexibilidad del formato de entrada
• Capacidad de acceso aleatorio
• Rebobinados rápidos y lentos hacia delante y hacia detrás
• Escalabilidad en el flujo de bits
• Bajos retardos para comunicaciones en ambos sentidos
• Resistencia a errores
• El estándar MPEG-2 se realizó como una extensión del MPEG-1, el cual, se puede
considerar como un subconjunto del MPEG-2. (8)
Entre los Estándar MPEG-2 tenemos:
• ISO/IEC 13818-1 Sistema - describe sincronización y multiplexado de vídeo y audio.
• ISO/IEC 13818-2 Video - Códec(codificador/decodificador) compresor para señales de
vídeo entrelazado y no entrelazado.
• ISO/IEC 13818-3 Audio - Códec(codificador/decodificador) compresor de señales de
audio. Una extensión habilitada multicanal de MPEG-1 audio (MP3).
• ISO/IEC 13818-4 Describe maniobras de prueba de cumplimiento(del estándar).
• ISO/IEC 13818-5 Describe sistemas para simulación por Software.
• ISO/IEC 13818-6 Describe extensiones para DSM-CC (Comando Digital de herramientas
de almacenamiento y control)
• ISO/IEC 13818-7 codificación avanzada de audio. (AAC)
• ISO/IEC 13818-9 Extensión para interfaces en tiempo real.
• ISO/IEC 13818-10 conformidad con extensiones para DSM-CC.(9)
20. MPEG1, MPEG2 y MPEG4
19
3.4 Sistema: Sincronización y multiplexado de video y audio.
ISO/IEC 13818-1: Sistema - describe sincronización ymultiplexado de vídeo y audio. (10)
3.4.1 Sistema de multiplexado de Video y Audio
Los sistemas MPEG-2 (MPEG-2 systems) definen como se tiene que multiplexar el vídeo y el
audio comprimido, además de los posibles datos adicionales, para formar un único flujo de
datos que permita ser transmitido o almacenado.
Hay dos tipos de multiplexación especificados por los sistemas MPEG-2. El Tren de Programa
(program stream, PS) está formado por la multiplexación de un solo programa y es utilizado,
por ejemplo, por el DVD.
Por otro lado, el tren de transporte (transport stream, TS) define como se multiplexan varios
programas y es el que utiliza DVB, entre otros.
Estas dos multiplexaciones facilitan la inclusión de la PSI (Program Specific Information), que da
información de los datos que se multiplexan.
Además, los sistemas MPEG-2 aportan unas referencias temporales para que los datos se
representen en el momento adecuado puesto que, por ejemplo, el sonido y las imágenes no
viajan en paralelo, pero el usuario final las tiene que percibir en el mismo momento.
Además, los sistemas MPEG-2 dan flexibilidad para la inclusión de nuevas sintaxis, añadir
información de control de acceso condicional, datos. En la Figura 1.1tenemos un ejemplo
gráfico. (7)
3
Figura 2.1Ejemplo de Multiplexor MPEG-2
3
Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo
21. MPEG1, MPEG2 y MPEG4
20
La normativa MPEG-2 no especifica cómo se tiene que realizar esta multiplexación ni cómo
protegerla. A título orientativo, sólo mencionar que los dos tipos de multiplexación que se
están manejando actualmente son o bien TDM (Multiplexación por División de Tiempo), o bien
estadística.
La TDM es aquella que siempre asigna un espacio de tiempo concreto y constante a cada
componente del program stream.
La multiplexación estadística, a diferencia de la TDM, representa un cambio de mentalidad
respeto al conocido hasta ahora. En la actualidad ya no se asigna un espacio de tiempo
determinado y concreto, sino que los diferentes programas se van pasando información de
cuánto ancho de banda requieren para la transmisión.
Así pues, un programa que necesite mucho podrá beneficiarse de uno que tenga espacio libre
y que, de otra manera, se desaprovecharía utilizando bits de relleno (stuffing bits).
En realidad ambas multiplexaciones (TDM y estadística) son multiplexaciones en el dominio del
tiempo (en contraposición a las multiplexaciones en frecuencia). La diferencia entre ambas
radica en que la multiplexación estadística reserva las ranuras de tiempo de manera
dinámica.(11)
Multiplex: Un multiplex es un conjunto de servicios multiplexados en MPEG2. Cada multiplex
viaja en una frecuencia diferente, siendo su velocidad máxima de transmisión de 40 Mbps
(Megabits por segundo).
Llegados a este punto podemos entender laFigura1.2, en la que se nos muestran los diferentes
servicios y elementary streams de un multiplex, así como el PID en el que viajan y su velocidad
de transmisión:
22. MPEG1, MPEG2 y MPEG4
21
4
Figura 2.2 Diferentes servicios y elementary streams de un multiplex
Como podemos observar el ancho de banda (o la velocidad de transmisión) ocupado por los
diferentes elementary streams es muy diferente. De esta forma, un elementary stream de
video suele ocupar alrededor de los 3.5 Mbps, un ES de audio unos 0.2 Mbps, un ES de datos
unos 1 Mbps, etc.
En la figura también se observa como algunos servicios (en la figura se les llama program
siguiendo la terminología MPEG2) contienen varios ES, mientras que otros están compuestos
por un solo elementary stream.
Normalmente en cada multiplex suelen viajar alrededor de 6 o 7 canales de televisión más
alguno de datos y de radio. (12)
3.4.2 Sincronización Audio Vídeo
En la señal tradicional de televisión la información de sincronización de la señal se transmitía
directamente en la misma (pulsos de sincronismo, burst...). Sin embargo la sincronización de la
señal digital de televisión requiere de ciertos mecanismos más complejos.
4
Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo
23. MPEG1, MPEG2 y MPEG4
22
Lo primero que tenemos que comprender es que la señal de video que transmitimos, al estar
codificada en MPEG-2 no utiliza el mismo espacio para cada una de sus imágenes. Esto hace
que algunas sean decodificadas en menor tiempo que otras. Además, en una sola trama de
transporte podemos tener varios programas diferentes (y dentro de cada uno de ellos varios
ES diferentes), por lo que es imposible ajustar el tiempo de presentación de cada uno de los
paquetes en función de su tiempo de llegada. (Figura 1.3) (11)
Figura 2.3
Ese es el motivo de que dentro de las cabeceras de los PES de vídeo y audio introduzcamos los
campos PTS y DTS.
Los PTS (Presentation Time Stamps) nos darán información del instante en que un
determinado paquetes PES ha de ser presentado en el terminal de televisión.
Los DTS (Decoding Time Stamps) nos informan del instante en que el decodificador debe
decodificar el paquete PES para poder presentarlo a tiempo. Los DTSs solo se incluyen en los
PES de vídeo.
Mediante estos dos campos en las cabeceras PES resolvemos nuestro problema de transmitir
el momento de presentación y decodificación de los diferentes paquetes, pero todavía nos
falta tener la referencia del reloj mediante el cual fueron codificados.
Para resolver este último punto, el codificador MPEG-2 debe introducir referencias del reloj de
programa mediante el que está codificando el audio y el video.
Estas referencias se denominan Program Clock Refererences (PCR).
Los PCR son campos de 42 bits que el codificador MPEG-2 introduce en los paquetes de
transporte (dentro de los campos opcionales de la cabecera de adaptación).
MPEG-2 obliga a la introducción de PCRs al menos 10 veces por segundo, pero el estándar DVB
es todavía más estricto y reduce a 40 ms el tiempo máximo entre PCRs. (12)
24. MPEG1, MPEG2 y MPEG4
23
5
Figura 2.4 Esquema Codificador
Hay que resaltar, que el reloj de programa es único para cada programa de nuestra trama
MPEG-2, pero puede variar entre los diferentes programas.
Por lo tanto, el decodificar engancha su reloj de programa mediante los PCRs introducidos por
el codificador, de tal forma que luego es capaz de decodificar y presentar los diferentes
paquetes PES en el momento adecuado. Dicho momento lo obtiene a partir de los DTS y PTS.
(12)
6
Figura 2.5 Esquema decodificador
5
Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo
6
Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo
25. MPEG1, MPEG2 y MPEG4
24
3.5 Video: Códec Compresor para Señales de Video Entrelazado y No
Entrelazado
Moving Pictures Experts Group 2 (MPEG-2), es la designación para un grupo de estándares de
codificación de audio y vídeo acordado por MPEG (grupo de expertos en imágenes en
movimiento), y publicados como estándar ISO 13818. MPEG-2 es por lo general usado para
codificar audio y vídeo para señales de transmisión, que incluyen televisión digital terrestre,
por satélite o cable. MPEG-2. Con algunas modificaciones, es también el formato de
codificación usado por los discos SVCD y DVD comerciales de películas.
MPEG-2 es similar a MPEG-1, pero también proporciona soporte para vídeo entrelazado (el
formato utilizado por las televisiones.) MPEG-2 vídeo no está optimizado para bajas tasas de
bits (menores que 1 Mbit/s), pero supera en desempeño a MPEG-1 a 3 Mbit/s y superiores.
MPEG-2 introduce y define Flujos de Transporte, los cuales son diseñados para transportar
vídeo y audio digital a través de medios impredecibles e inestables, y son utilizados en
transmisiones televisivas. Con algunas mejoras, MPEG-2 es también el estándar actual de las
transmisiones en HDTV. Un descodificador que cumple con el estándar MPEG-2 deberá ser
capaz de reproducir MPEG-1.(7)
3.5.1 Vídeo entrelazado (campos) / no-entrelazado
El ojo humano es "tonto" y ante una sucesión rápida de imágenes tenemos la percepción de
un movimiento continuo. Una cámara de cine no es otra cosa que una cámara de fotos
que "echa fotos muy rápido". En el cine se usan 24 imágenes, o fotogramas, por
segundo. Es un formato "progresivo" Eso quiere decir que se pasa de una imagen a
otra rápidamente vemos una imagen COMPLETA y, casi de inmediato, vemos la
siguiente. Si tenemos en cuenta que vemos 24 imágenes por segundo, cada imagen se
reproduce durante 0,04167 segundos. Las diferencias, por tanto, entre una imagen y
otra son mínimas. Para ilustrar este concepto he elegido una sucesión de 4 fotogramas
de dibujos animados porque los dibujos son también un formato progresivo y porque
en animación se usa una velocidad de reproducción bastante inferior: 15 imágenes (o
fotogramas) por segundo (Figura 1.6). Aun así, como se puede apreciar, las diferencias
entre cuadro y cuadro son muy escasas.
Figura 2.6Formato Progresivo (secuencia de imágenes) (8)
El vídeo y la televisión tienen un funcionamiento totalmente distinto al cine. Para empezar hay
dos formatos diferentes. PAL, usado en Europa, y NTSC usado en América y Japón como zonas
más destacadas. En el formato PAL la velocidad de imágenes por segundo es de 25 y de 29,97
26. MPEG1, MPEG2 y MPEG4
25
en el formato NTSC. A esta velocidad de imágenes por segundo se le llama Cuadros Por
Segundo en español (CPS),o Frames Per Second en inglés (FPS )
Otra diferencia es que la pantalla de un televisor no funciona como un proyector de cine, que
muestra imágenes "de golpe". Un televisor está dividido en líneas horizontales, 625 en
televisores PAL y 525 en televisores NTSC. Estas líneas no muestran todas a la vez un mismo
fotograma, sino que la imagen comienza a aparecer en las líneas superiores y sucesivamente
se van rellenando el resto hasta llegar a las líneas más inferiores. Un único fotograma no es
mostrado "de golpe", sino de modo secuencial. Al igual que pasaba con el cine, este proceso
de actualización de líneas es tan rápido que, en principio, a nuestro ojo le pasa desapercibido y
lo percibimos todo como un continuo.(8)
Sin embargo, este proceso presenta, o mejor dicho, presentaba un problema. Las
características de los tubos de imagen de los primeros televisores hacían que cuando la imagen
actualizada llegaba a las últimas líneas (las inferiores) la imagen de las líneas superiores
comenzaba a desvanecerse. Fue entonces cuando surgió la idea de los "campos" y del vídeo
entrelazado. El "truco" está en dividir las líneas del televisor en pares e impares. A cada grupo
de líneas, par o impar, se le llama "campo". Así tendríamos el campo A o superior (Upper o Top
en inglés) formado por las líneas pares (Even en inglés) y el campo B, inferior o secundario
(Lower o Bottom en inglés) formado por las líneas impares (Odd en inglés)
Primero se actualiza un grupo de líneas (campo) y, acto seguido se actualiza el otro.
En la figura 2 que presento a continuación las líneas negras formarían el campo A o superior
(Upper o Top) y las líneas rojas formarían el campo B o inferior (Lower o Bottom)(8)
Figura 2.7(8)
Esa división de la imagen en campos tiene consecuencias TRASCENDENTALES para nosotros:
La primera consecuencia es que estamos dividiendo un único fotograma en dos campos. Ya no
vamos a tener 25 o 29,97 cps (cuadros por segundo) sino 50 o 59,94 semi-imágenes o, más
correctamente, campos por segundo. De ese modo, un único fotograma(fotografía, o dibujo en
este caso), que tiene un tamaño "completo" se dividiría en dos imágenes (Figura 3) con la
mitad de líneas (la mitad de resolución vertical) Eso, en principio, no representaría problema
27. MPEG1, MPEG2 y MPEG4
26
alguno si no fuera porque cada campo se corresponde a un momento distinto en el tiempo, de
modo que cada campo ofrece una imagen distinta (he marcado de rojo las zonas en las que
puedes fijarte para notar las diferencias)
Figura 2.8División de imágenes(8)
¿Qué ocurre si juntamos los dos campos en un mismo fotograma? Esto...
Figura 2.9Unión de imágenes(8)
Si comparas las dos imágenes grandes con sus correspondientes de arriba verás que, en
proporción, tienen el mismo ancho (resolución horizontal) pero el doble de resolución vertical
porque hemos entrelazado, esto es, MEZCLADO, los dos campos. Aunque los dos campos
muestran instantes en el tiempo muy próximos entre sí al sumarse las líneas de un campo con
las líneas del otro en un mismo fotograma se puede apreciar claramente la diferencia.(8)
La segunda consecuencia que todo esto tiene para nosotros es que trabajar con vídeo
entrelazado no supone problema alguno cuando el destino del vídeo sea un televisor, puesto
que un televisor NECESITA vídeo entrelazado. Sin embargo, el monitor de nuestro ordenador
funciona en modo progresivo, esto es, mostrando imágenes "de golpe", igual que en el cine.
28. MPEG1, MPEG2 y MPEG4
27
Siempre que reproduzcamos vídeo entrelazado en un monitor lo veremos "rayado", como en
la imagen de arriba, ya que se sumarán los dos campos para mostrar el vídeo con la resolución
completa. Cuando una escena es estática, no hay cambios, ambos campos coinciden, o varían
mínimamente, y la reproducción parece correcta a nuestros ojos (fíjate en el banco). Sin
embargo, en movimientos, sobretodo de izquierda-derecha (o viceversa) las diferencias entre
un campo y otro son muy notables, tal y como hemos podido comprobar en la imagen de
ejemplo. [1]
3.5.2 Compresión
Moving Pictures Experts Group Layer 2 (MPEG-2) es uno de los formatos de compresión más
utilizados gracias a sus códecs (codificadores-descodificadores) de bajas pérdidas.
La compresión se basa en la comparación tanto espacial (si un punto de la imagen es idéntico
al de a lado, basta con enviar cuántos puntos hay iguales y dónde están) como temporal (si un
frame o cuadro es muy similar al siguiente, basta con enviar la diferencia entre el actual y el
anterior). Así, para el segundo sistema de compresión el contenido de imagen se predice,
antes de la codificación, a partir de imágenes reconstruidas pasadas y se codifican solamente
las diferencias con estas imágenes reconstruidas y algún extra necesario para llevar a cabo la
predicción. Respecto al primer paso de compresión, las muestras tomadas de imagen y sonido
son divididas en celdas de 16x16 y transformadas en espacio-frecuencia y cuantificadas.
MPEG-2 realiza la codificación genérica de imágenes en movimiento y el audio asociado
enviado directamente sin compresión desde el centro de producción en “unidades de
presentación” que son sustituidas por “unidades de acceso”, que en el caso de la señal de
vídeo se dividen en tres: cuadros intra (I), cuadros posteriores predecibles (P) y cuadros
predecibles bidireccionales (B), arreglados en un orden específico llamado “La estructura GOP”
(GOP = Group Of Pictures o grupo de imágenes).
GOP es la mínima cadena MPEG completamente decodificable por sí sola. Por tanto debe
tener una frame I y sus referenciadas P o B. Los cuadros I serán los que contengan la
información completa del frame (aunque comprimida espacialmente) mientras que el resto se
crearán en el proceso de codificación.(7)
3.5.3 FPS (Frames per second) - cuadros por segundo
El vídeo, en realidad, no es un continuo de imágenes, sino "fotografía en movimiento" La
retina tiene la propiedad de retener durante unos instantes lo último que ha visto de modo
cuando vemos una secuencia de imágenes, pero que cambia rápidamente, las imágenes se
superponen en nuestra retina unas sobre otras dando la sensación de continuidad y
movimiento. Ahora bien, ¿cuántos cuadros por segundo (frames per second en inglés) son
necesarios para crear esa sensación de continuidad?
El estándar actual establece lo siguiente:
• Dibujos animados: 15 fps
• Cine: 24 fps
• Televisión PAL: 25 fps, que en realidad son 50 campos entrelazados, o semi-imágenes,
por segundo
29. MPEG1, MPEG2 y MPEG4
28
• Televisión NTSC: 29'97 fpsque en realidad son 60 campos entrelazados, o semi-
imágenes, por segundo
El resultado de la codificación MPEG de una secuencia de vídeo, es una sucesión de “Unidades
de Acceso de Vídeo y/o Audio”, que serán “empaquetados” para su futura multiplicación con
las diferentes señales provenientes de cada uno de los centros audiovisuales.
La tasa de bit de salida de un codificador MPEG-2 puede ser constante (CBR) o variable (VBR),
con un máximo determinado por el sistema en el que vaya a ser utilizado – por ejemplo, el
máximo posible en un DVD de película es de 10.4 Mbit/s. Para lograr una tasa de bits
constante el grado de cuantificación es alterado para lograr la tasa de bits requerida. (11)
3.5.4 Flujo de datos (bitrate)
Un factor determinante en la calidad final del vídeo es el flujo de datos. Se llama así a la
cantidad de información por segundo que se lee del archivo de vídeo para reproducirlo. Al
igual que con el tamaño de imagen, a mayor flujo de datos, mejor calidad de imagen, pero hay
que tener en cuenta que el flujo de datos es, en muchas ocasiones, más importante que el
tamaño y capturas de gran tamaño, pero poco flujo de datos pueden llegar a tener una calidad
realmente desastrosa. Aunque el tamaño de pantalla sea mayor, el escaso ancho de banda
para los datos hacen que para guardar la información de luminancia y color del vídeo sea
necesario agrupar muchos píxeles con la misma información degradando la imagen
rápidamente. El efecto resultante, es parecido al que conseguimos aumentando una imagen
de baja resolución.(11)
3.5.5 Flujo de Datos Constante (CBR - Constant Bit Rate)
¿Tiene un CD grabable a mano? Mírelo. Verá que dice 650MB - 74 Min. Es decir, tiene una
capacidad de 650 MB que equivalen a 74 minutos de audio. Hay un flujo constante de 150
KB/s, suficientes para suministrar toda la información necesaria de audio. Si tenemos en
cuenta que para poder registrar TODA la información de un vídeo PAL a pantalla completa
(720x576) necesitamos un CBR (Fujo de Datos Constante) de 32.768 KB/s entendemos pronto
el porqué de la compresión a la hora de trabajar con vídeo. Una hora de vídeo a pantalla
completa sin comprimir son 115.200 MB.[2]
El principal inconveniente del CBR se presenta a la hora de capturar con compresión. Uno de
los principales métodos de compresión (el MPEG) basa su compresión, además de comprimir
la imagen fija, en guardar los cambios entre un fotograma (o fotogramas) y el siguiente (o
siguientes). Aunque el flujo de datos sea escaso, no tendremos problemas de calidad en
escenas con poco movimiento y pocos cambios de imagen entre fotograma y fotograma. El
problema llega con escenas de acción en las que la cámara se mueve con rapidez y un
fotograma es muy, o totalmente diferente, del anterior o el siguiente. En ese caso, el ancho de
banda necesario para guardar los cambios entre fotograma y fotograma crece
considerablemente y queda menos espacio para comprimir la imagen, deteriorándola
notablemente, tanto más cuanto menor sea el flujo de datos.
Este es el principal problema del VCD y lo que nos lleva a todos de cabeza. El VCD usa CBR de
1150 Kbit/s para el vídeo y 224 para el audio, aunque se aconseja rebajar el audio a 128 Kbit/s
y ampliar el vídeo a 1246 Kbit/s puesto que este formato también es compatible en la mayoría
30. MPEG1, MPEG2 y MPEG4
29
de los casos con el formato VCD al no pasar de los 1347 Kbit/s de CBR que se especifican en su
estándar. Con un flujo de datos de vídeo tan bajo, cualquier incremento es realmente de
agradecer.(11)
3.5.6 Flujo de Datos Variable (VBR - Variable Bit Rate)
El único inconveniente del Flujo de Datos Variable (VBR) es que no podremos predecir cuál
será el tamaño final exacto de nuestros archivos (aunque sí podemos conocer el máximo o
mínimo), todo depende de la complejidad del vídeo puesto que, como su nombre sugiere, el
flujo de datos varía dependiendo de la complejidad de las imágenes a comprimir. Si el vídeo
tiene poco movimiento, conseguiremos bastante más compresión que con CBR pero, si por el
contrario el vídeo contiene muchas secuencias de acción, el tamaño final del vídeo puede ser
sensiblemente mayor que usando CBR, pero a cambio habremos preservado la calidad.
Cuando trabajamos con CBR basta con especificar el flujo de datos que queremos que tenga
nuestro vídeo, pero cuando trabajamos con VBR tenemos varias opciones:
1. Especificar un valor medio al que el programa con el que trabajemos tratará de ajustarse
en la medida de lo posible, proporcionando un flujo mayor para escenas complejas y
reduciéndolo en escenas más tranquilas.
NOTA: La mayoría de compresores no nos dejarán usar esta opción a no ser que elijamos
comprimir a doble pasada.
2. Determinar valores máximo y mínimo. En esta ocasión eliminamos el "criterio" del
ordenador para marcar los límites por encima y por debajo.
3. Establecer una opción de calidad de la imagen que se deberá de mantener sin importar el
flujo de datos. Si queremos calidad, esta será siempre la opción a utilizar, puesto que siempre
usará el flujo de datos mínimo necesario para preservar la calidad especificada. De este modo,
evitamos el efecto que se produce en vídeos de CBR en los que unas secuencias se ven
perfectas y otras muy pixeladas con la imagen bastante degradada. El tamaño final es
completamente desconocido, pero preservaremos una calidad constante en todo el vídeo.(11)
3.5.7 Unidades de acceso codificación Mpeg-2
Para la compresión, la imagen de video es separada en dos partes: luminancia (Y) y
crominancia (U y V) y tanto la compresión espacial como temporal se realizarán sobre cada
parte. A su vez éstos son divididos en “macro-bloques” los cuales son la unidad básica dentro
de una imagen. Cada macro-bloque es dividido en cuatro bloques de luminancia (divididos a su
vez en bloques de 8x8 píxeles). El número de bloques de croma dentro de un macro-bloque
depende del formato de color de la fuente. Por ejemplo en el formato común 4:2:0 hay un
bloque de croma por macro-bloque para el canal U y otro para el canal V haciendo un total de
seis señales por macro-bloque.
La codificación consiste en lo siguiente: los cuadros I (intra-codificado) son tratados de forma
que los cuadros P y B primero son sujetos a un proceso de “compensación de movimiento”, en
el cual son correlacionados con la imagen previa (y en el caso del cuadro B, la siguiente). Cada
macro-bloque en la imagen P o B es entonces asociado con un área en el frame previo o
siguiente que esté bien correlacionado con alguno de éstos (anterior o posterior). Se crea así
31. MPEG1, MPEG2 y MPEG4
30
un "vector de movimiento" que mapea el macro-bloque con su área correlacionada, es
codificado y entonces la diferencia entre las dos áreas es pasada a través del proceso de
codificación. Cada bloque es procesado con una transformada coseno discreta (DCT) 8x8. El
coeficiente DCT resultante es entonces cuantificado de acuerdo a un esquema predefinido,
reordenado a una máxima probabilidad de una larga hilera de ceros, y codificado. Finalmente,
se aplica un algoritmo de codificación Huffman de tabla fija. [3]
En el caso de la señal de vídeo, las “Unidades de Acceso” comprimidas, como hemos
comprobado, son de 3 tipos, correspondiendo a otros tantos tipos de imágenes MPEG:
• Imágenes tipo I (Intra): Se codifican sin ninguna referencia a otras imágenes, es decir:
contienen todos los elementos necesarios para su reconstrucción. Tamaño: 100 kbytes
• Imágenes tipo P (Previstas): Se codifican con respecto a la imagen de tipo I o de otra P
anterior, gracias a las técnicas de predicción con compensación de movimiento. Su
tasa de compresión es claramente mayor que la de las imágenes I: Tamaño 33 kbytes.
• Imágenes tipo B (Bidireccionales): Se codifican por interpolación entre las dos
imágenes de tipo I o P precedente y siguiente que las enmarcan. Ofrecen la tasa de
compresión más alta: Tamaño 12 kbytes.
El tamaño real depende del objetivo de velocidad binaria buscado y de la complejidad de la
imagen. Los valores citados corresponden a un flujo comprimido de 5 Mbps.
Hay muchas estructuras posibles pero una común es la de 15 marcos de largo, teniendo la
siguiente secuencia I_BB_P_BB_P_BB_P_BB_P_BB_. (7)
La relación de cuadros I, P y B en “la estructura GOP” es determinado por la naturaleza del
flujo de video y el ancho de banda que constriñe el flujo. Además el tiempo de codificación
puede ser un asunto importante. Esto es particularmente cierto en las transmisiones en
directo. Un flujo que contenga varios cuadros B puede tardar tres veces más tiempo para
codificar que un archivo que sólo contenga cuadros I (sin codificación temporal).
En el caso de la señal de audio, las “Unidades de Acceso” típicamente contienen unas pocas
decenas de milisegundos de audio comprimido.
3.5.8 Vídeo entrelazado
• El estándar MPEG-2 soporta ambos formatos,
– vídeo entrelazado
– y vídeo progresivo,
– por lo que se debe distinguir entre cuadro y campo.
• Los campos de un cuadro de vídeo entrelazado pueden ser
– codificados separadamente (imágenes-campo)
– o pueden ser juntados de nuevo para formar el cuadro original y ser
codificados como una única imagen (imágenes-cuadro), como en el estándar
MPEG-1.
• Como en MPEG-1, todas las imágenes de entrada (bien sean cuadros o campos)
pueden ser codificadas como imágenes I, P o B.
32. MPEG1, MPEG2 y MPEG4
31
– Si la primera imagen de un cuadro codificado es una imagen-campo de tipo I,
entonces la segunda imagen puede ser o una imagen de tipo I o una imagen-
campo de tipo P.
– Si la primera imagen es una imagen-campo de tipo P o B, entonces la segunda
imagen-campo tiene que ser del del mismo tipo.(11)
33. MPEG1, MPEG2 y MPEG4
32
3.6 CÓDEC COMPRESOR DE SEÑALES DE AUDIO
La codificación de audio MPEG proporciona un método de compresión de audio de alta
calidad.
El algoritmo se basa en un modelo de percepción del oído humano para determinar qué
señales están enmascaradas y, por tanto, pueden eliminarse sin que se produzca pérdida
apreciable en la calidad percibida por el oyente.(13)
Las características principales del algoritmo son:
• Frecuencias de muestreo de 32, 44.1 y 48 kHz con 16 bits por muestra.
• Uno o dos canales de audio con cuatro modos posibles de funcionamiento: mono,
dual, estéreo y joint estéreo.
• Velocidades binarias de salida desde 32 hasta 192 Kb/s por canal.
• Tres capas que van de menor a mayor calidad.
• La trama puede incluir datos auxiliares además de la información de audio.
El modelo del sistema de codificación de audio en MPEG:
Figura 2.10 Sistema de codificación de audio en MPEG (13)
La trama de audio MPEG-2 aporta nuevas funciones:
• Audio multicanal. Sonido envolvente (surround). Son 3 canales frontales, 2 canales
traseros y un canal de refuerzo de graves.
• Soporte para audio multilingüe.
• Nuevas frecuencias de muestreo (16, 22.05 y 24 kHz).
Para mantener la compatibilidad con la trama MPEG-1, la trama MPEG-2 se construye en torno
a dos canales principales mientras que el resto de la información necesaria para los canales
surround o multilingües se incluyen en la zona de datos auxiliares. (13)
MPEG-2 también introduce nuevos métodos de codificación audio ya que este estándar es la
segunda fase del proceso de estandarización MPEG y consta de tres elementos bien
diferenciados: (14)
34. MPEG1, MPEG2 y MPEG4
33
• Extensión de MPEG-1 para tasas de muestreo bajas: Incluye tasas a 16, 22.05 y 24
ksps, que originan tasas binarias por debajo de 64 kbps para cada canal. Es una
extensión muy fácilmente incorporable a los reproductores MPEG-1.
• Extensión a sonido multicanal compatible con MPEG-1: Permite la utilización de hasta
cinco canales con tasa binaria máxima más un sexto canal de mejora de las bajas
frecuencias. Esta extensión es compatible con MPEG-1 siendo posible la reproducción
de los bitstreams MPEG-2 BC mediante reproductores MPEG-1.
• Nuevo esquema de codificación: Este nuevo esquema se denomina Advanced Audio
Coding (AAC) y genera bitstreams que no pueden ser utilizados por los reproductores
MPEG-1. Mejora mucho la razón de compresión de los datos.
3.6.1 Layers y profiles
MPEG-1 y los dos primeros elementos de MPEG-2 contienen tres layers. Dada la
compatibilidad de los dos primeros elementos de MPEG-2 con la primera fase, la
especificación de los tres layers no varía. (14)
Sin embargo, cuando hablamos de MPEG-2 AAC, que ya no es compatible con las versiones
anteriores, se habla de tres perfiles (profiles). La diferencia radica en que los layers definen la
estructura de la información codificada (sus tasas de muestreo, tasa de bits, etc.) y también la
forma en que esta información debe ser transportada (bitstream formado por cuadros con una
estructura fija). MPEG-2 AAC estandariza la forma que toma la información codificada pero no
cómo debe ser transportada, lo que se deja a la aplicación. Por otro lado, MPEG-2 AAC,
estandariza dos ejemplos típicos que pueden emplearse para el transporte de los datos:
• ADIF (Audio Data Interchange Format). Esta especificación recoge toda la información
para poder decodificar los datos es una única cabecera al comienzo del bitstream. Está
indicado para el intercambio de ficheros de audio.
• ADTS (Audio Data Transport Stream). Esta especificación divide el bitstream en
cuadros, de forma similar a MPEG-1, que se encuentran entre dos marcas de
sincronización y permiten tasas de bits variables. Está más indicado para difusión de
audio en un entorno de red.(14)
Los perfiles estandarizados para MPEG-2 AAC son tres, denominados Perfil Principal (Main
Profile), de Complejidad Baja (Low Complexity Profile) y de Tasa de Muestreo Escalable
(Scalable Sampling Rate Profile). Cada uno está indicado para unos determinados usos:
• Perfil Principal: Es apropiado cuando la capacidad de procesamiento y el uso de la
memoria no sean parámetros críticos.
• Perfile de Complejidad Baja: Si alguno de los parámetros anteriores, capacidad de
procesamiento o uso de memoria, son críticos; este perfil es el más adecuado.
• Tasa de Muestreo Escalable: Para los casos en los que se requiera un decodificador
escalable. (14)
35. MPEG1, MPEG2 y MPEG4
34
MPEG define 3 capas de codificación de audio, cada una añade complejidad a la anterior. La
codificación se realiza dividiendo las secuencias de audio en tramas (de 384 muestras), que se
filtra para obtener las bandas críticas: (15)
• La capa 1 sólo considera en enmascaramiento frecuencial,
• La capa 2 considera además el enmascaramiento temporal estudiando 3 tramas a la
vez,
• La capa 3 utiliza filtros no lineales, elimina redundancias provocadas por el muestreo y
utiliza codificación de Huffman.
3.6.2 Sistema con 5 Canales. (15)
• MPEG-2 proporcionan este sistema de 5+1. El sistema MPEG-2 actualmente "sólo" se
utiliza para la difusión vía satélite, cable y para el formato DVD (junto con DOLBY AC-
3).
• El sistema MPEG-2 proporciona dos canales más pensando en locales de grandes
dimensiones (cines,...) para cubrir ángulos muertos.
• El sistema MPEG-2 está basado en la compatibilidad, ya que permite la reproducción
en sistemas que sólo soporten un número de canales limitado.
• Esta compatibilidad se consigue empleando técnicas de multiplexación matricial
durante la codificación y decodificación.
Pero dediquemos al formato más utilizado en la actualidad, ACC.
3.6.3 ADVANCED AUDIO CODING
AAC es un formato informático de señal digital audio basado en el Algoritmo de compresión
con pérdida, un proceso por el que se eliminan algunos de los datos de audio para poder
obtener el mayor grado de compresión posible, resultando en un archivo de salida que suena
lo más parecido posible al original.
El formato AAC corresponde al estándar internacional “ISO/IEC 13818-7” como una extensión
de MPEG-2. Debido a su excepcional rendimiento y la calidad, la codificación de audio
avanzada (AAC) se encuentra en el núcleo del MPEG-4, 3GPP y 3GPP2, y es el códec de audio
de elección para Internet, conexiones inalámbricas y de radio difusión digital. (16)
El AAC utiliza una frecuencia de bits variable (VBR), un método de codificación que adapta el
número de bits utilizados por segundo para codificar datos de audio, en función de la
complejidad de la transmisión de audio en un momento determinado.
AAC es un algoritmo de codificación de banda ancha de audio que tiene un rendimiento
superior al del MP3, que produce una mejor calidad en archivos pequeños y requiere menos
recursos del sistema para codificar y descodificar.(17)
36. MPEG1, MPEG2 y MPEG4
35
Este códec está orientado a usos de banda ancha y se basa en la eliminación de redundancias
de la señal acústica, así como en compresión mediante la transformada de coseno discreta
modificada (MDCT), muy parecido como en el MP3.(16)
CARACTERÍSTICAS:
• No compatible con MPEG-1.
• Frecuencia de muestreo: 24 kHz, 22.05 kHz, 16 kHz.
• Máxima calidad entre 320 y 384 kbps (5 canales)(17)
Tres opciones:
• Máxima calidad (resolución a 23.43 Hz y 2.6 ms)
• No predicción
• Frecuencias de muestreo escalables (17)
3.6.3.1 Diagrama de bloques de un MPEG-2 AAC codificador
Figura 2.11Diagrama de bloques de un MPEG-2 AAC codificador(18)
Nombramos las partes del diagrama de bloques:
• Control de Ganancia
• Modelo perceptivo del sistema de codificación perceptivo.
• Bancos de filtros: Basado en MDCT. Se utiliza para descomponer la señal en
componentes de espectro (tiempo/frecuencia).
• TNS (Temporal noise shaping)
• Intensidad/Acoplamiento
• Predicción: predicción lineal por señales estacionarias. Logra una mejor eficiencia de
codificación.
• M/S coding
• Cuantificación: Las componentes espectrales están cuantificadas con el objetivo de
mantener el ruido.
• Control de flujo/distorsión
37. MPEG1, MPEG2 y MPEG4
36
• Codificación sin ruido
• Multiplexador de trama de bits(18)
3.6.3.2 Ventajas de AAC con respecto a MP3
El AAC permite sonidos polifónicos con un máximo de 48 canales independientes, así que se
convierte en un códec apropiado para sonido envolvente (Surround) avanzado, sin embargo en
MP3 sólo tenemos dos canales (estéreo).(19)
Por otra parte también ofrece frecuencias de muestreo que varían de 8 KHz a 96 Khz., MP3
sólo soporta desde 16 KHz hasta los 48 khz, por lo cual proporciona una mejor resolución de
sonido.
También tenemos una mejora de la eficiencia de decodificación, que requieren menos
potencia de procesamiento para decodificar.
Pero también tiene una desventaja la cual es que este formato es más pesado con respecto al
MP3 por ejemplo el solo "Sweet Dreams" de Roy Buchanan de 3:37 de duración en MP3 pesa
3.4 MB y en AAC pesa 6.9 MB pero como se ha mencionado anteriormente la calidad del AAC
es mucho mejor y se puede notar la diferencia ya que esta es una canción de 1971 y en MP3 se
pueden escuchar algunos defectos como zumbidos cuando hay silencio los cuales se eliminan
en formato AAC.(19)
38. MPEG1, MPEG2 y MPEG4
4 ESTANDAR DE CODIFICACIÓN DE AUDIO Y VIDEO MPEG-4 37
Nixon David Villavicencio Sarango / ndvillavicencio@utpl.edu.ec
4.1 Concepto:
MPEG-4, cuyo nombre formal es ISO/IEC 14496 fue introducido a finales de 1998, es el
nombre de un grupo de estándares de codificación de audio y video así como su tecnología
relacionada normalizada por el grupo MPEG (Moving Picture Experts Group) de ISO/IEC.
MPEG-4 toma muchas de las características de MPEG-1 y MPEG-2 así como de otros
estándares relacionados, tales como soporte de VRML (Virtual Reality Modeling Language)
extendido para Visualización 3D, archivos compuestos en orientación a objetos (incluyendo
objetos audio, vídeo y VRML), soporte para la gestión de Derechos Digitales externos y
variados tipos de interactividad. (20)
El principal objetivo de este nuevo formato es ofrecer al usuario final un mayor grado de
interactividad y control de los contenidos multimedia, por lo que en vez de basarse en el
conjunto de la secuencia, el MPEG-4 se basa en el contenido. Así, mientras los estándares
MPEG-1 y MPEG-2 codifican secuencias, el MPEG-4 es capaz de crear representaciones
codificadas de los datos de audio y vídeo que la forman. Un ejemplo simple lo podemos ver en
la Figura 3.1 La Figura 3.1 (a) representa el original sin codificar, mientras que la Figura 3.1 (b)
representa una de las muchas posibles presentaciones de la imagen original tras ser codificada
en MPEG-4, decodificada y manipulada por el usuario. El MPEG-4 ha dividido la imagen original
en diferentes capas: el tipo de fondo, los diferentes objetos y una capa de texto. Luego ha
codificado estos objetos junto con algunos datos asociados de tal manera que permite al
usuario decodificar por separado cada uno de ellos, reconstruir la secuencia con sus valores
originales o, si lo desea, manipular el resultado, tal y como vemos en laFigura 3.1 (b).
(a) (b)
Figura 3.1
MPEG-4 está formado por varios estándares, llamados "partes", que incluyen:
39. MPEG1, MPEG2 y MPEG4
38
• Parte 1 (ISO/IEC 14496-1): Sistemas: Describe la sincronización y la transmisión
simultánea de audio y vídeo.
• Parte 2 (ISO/IEC 14496-2): Visual: Un códec 7 de compresión para elementos visuales
(video, texturas, imágenes sintéticas, etc.). Uno de los muchos perfiles definidos en la
Parte 2 es el Advanced Simple Profile (ASP).
• Parte 3 (ISO/IEC 14496-3): Audio: Un conjunto de códecs de compresión para la
codificación de flujos de audio; incluyen variantes de Advanced Audio Coding (AAC) así
como herramientas de codificación de audio y habla.
• Parte 4 (ISO/IEC 14496-4): Conformidad: Describe procedimientos para verificar la
conformidad de otras partes del estándar.
• Parte 5 (ISO/IEC 14496-5): Software de referencia: Formado por elementos de
software que demuestran y clarifican las otras partes del estándar.
• Parte 6 (ISO/IEC 14496-6): Delivery Multimedia Integration Framework (DMIF).
• Parte 7 (ISO/IEC 14496-7): Software optimizado de referencia: Contiene ejemplos
sobre cómo realizar implementaciones optimizadas (por ejemplo, en relación con la
Parte 5).
• Parte 8 (ISO/IEC 14496-8): Transporte sobre redes IP: Especifica un método para
transportar contenido MPEG-4 sobre redes IP.
• Parte 9 (ISO/IEC 14496-9): Hardware de referencia: Provee diseños de hardware que
demuestran implementaciones de otras partes del estándar.
• Parte 10 (ISO/IEC 14496-10): Advanced Video Coding (AVC): Un códec de señales de
vídeo técnicamente idéntico al estándar ITU-T H.264.
• Parte 12 (ISO/IEC 14496-12): Formato para medios audiovisuales basado en ISO: Un
formato de archivos para almacenar contenido multimedia.
• Parte 13 (ISO/IEC 14496-13): Extensiones para el manejo y protección de Propiedad
Intelectual (IPMP).
• Parte 14 (ISO/IEC 14496-14): Formato de archivo MPEG-4: El formato de archivo de
contenedor designado para contenidos MPEG-4; basado en la Parte 12.
• Parte 15 (ISO/IEC 14496-15): Formato de archivo AVC: Para el almacenamiento de
vídeo Parte 10, basado en la Parte 12.
• Parte 16 (ISO/IEC 14496-16): Animation Framework eXtension (AFX).
7
Códec: en el contexto de las telecomunicaciones (coder/decoder) es un dispositivo encargado de convertir señales
digitales a analógicas y analógicas a digitales, dentro de la computación (compressor/decompressor) es la tecnología
utilizada para comprimir y descomprimir datos (como ser sonidos o archivos de video).
40. MPEG1, MPEG2 y MPEG4
39
• Parte 17 (ISO/IEC 14496-17): Formato de subtítulos (en elaboración - el último avance
en su revisión data de enero de 2005).
• Parte 18 (ISO/IEC 14496-18): Compresión y transmisión como flujo de fuentes
tipográficas (para fuentes OpenType).
• Parte 19 (ISO/IEC 14496-19): Flujos de texturas sintetizadas.
• Parte 20 (ISO/IEC 14496-20): Representación liviana de escenas (LASeR).
• Parte 21 (ISO/IEC 14496-21): Extensión de MPEG-J para rendering (en elaboración - el
último avance en su revisión data de enero de 2005).
Las partes del estándar que se encuentran subrayadas se consideran las partes más
importantes del mismo dentro de nuestro campo de aplicación que es la TDT (Transmisión
Digital Terrestre), siendo más específicos dentro de lo que es IPTV (Protocolo de Televisión a
través de Internet) por consiguiente serán analizados en profundidad a lo largo de esta
investigación.
41. MPEG1, MPEG2 y MPEG4
40
4.2 Introducción.
MPEG-4, es el estándar usado para proporcionar a los usuarios un nuevo nivel de interacción
con información de tipo visual, basándose en tecnología para visualizar, acceder y manipular
objetos en lugar de píxeles 8, además de presentar una gran robustez frente a errores en un
amplio rango de anchos de banda. El estándar proporciona herramientas para codificación de
formas, estimación y compensación de movimiento, codificación de texturas, recuperación
frente a errores, codificación de “sprites” y escalabilidad 9. La base para la interoperabilidad
viene dada por diversos puntos de conformidad definidos en el estándar en forma de tipos de
objetos, perfiles y niveles.
MPEG-4 es uno de los tantos sistemas de compresión de video digital que compite
actualmente en el mercado para satisfacer las necesidades de los usuarios en esta área. Entre
los protagonistas más importantes se encuentran RealPlayer de RealNetworks, Windows
Media Player de Microsoft y QuickTime de Apple. La ventaja que MPEG-4 posee, además de
que sus versiones previas 1 y 2 ya están establecidas, es que fue creado y diseñado de forma
de poder trabajar con diversos dispositivos electrónicos de bajo costo y bajo poder de
procesamiento contra los otros tres que requieren hacer uso de la potencia de procesamiento
de los PC.
Otra ventaja del formato MPEG-4 es que contiene una gran y robusta caja de herramientas, lo
cual permite a un usuario adaptar uno o más de sus 23 perfiles matemáticos para cualquier
número de dispositivos, desde PDAs hasta STBs.
Teniendo en cuenta todo lo mencionado, se puede decir que MPEG-4 tiene una considerable
ventaja frente a sus competidores.
El nuevo paradigma de MPEG-4 sostiene que el estándar permite dar un paso al costado de lo
que se denomina “paradigma de la televisión”. Básicamente una vista en dos dimensiones del
mundo, una contra otra, en la cual el usuario puede no sólo observar lo que está aconteciendo
sino también interactuar. En otras palabras, MPEG-4 ayuda a que se junten los mundos de las
comunicaciones, informática y televisión/cine/entretenimientos.
Los estándares MPEG-1 y -2 fueron creados con alcances claramente definidos y tecnologías
conocidas. Por el contrario, los trabajos en el estándar MPEG-4 comenzaron en un período de
grandes y rápidos cambios, por lo que surgieron dificultades en definir el alcance del mismo.
MPEG-4 es el primer estándar de representación de imágenes en movimiento que pasa de
simplemente “mirar” a “interactuar”.
El ser humano no desea interactuar con entidades abstractas, sino con entidades que posean
un significado. El concepto de escena es central en MPEG-4. Otro aspecto es la integración.
MPEG-4 busca de forma armoniosa integrar objetos audiovisuales tanto naturales como
sintéticos. La flexibilidad y extensibilidad son aspectos fundamentales en el entorno
8
Píxel: Elemento de la imagen. El área más pequeña con resolución en una pantalla de presentación de video.
9
Escalabilidad: es la propiedad deseable de un sistema, una red o un proceso, que indica su habilidad para extender
el margen de operaciones sin perder calidad, o bien manejar el crecimiento continuo de trabajo de manera fluida, o bien
para estar preparado para hacerse más grande sin perder calidad en los servicios ofrecidos.
42. MPEG1, MPEG2 y MPEG4
41
tecnológico que vivimos. MPEG-4 brinda esos aspectos mediante un lenguaje denominado SDL
(syntactic description language). MPEG-4 se centra en tres industrias que crecen rápidamente
y cuyas interdependencias aumentan de forma constante.
En el área de las telecomunicaciones, se experimenta un gran avance en las comunicaciones
inalámbricas. El audio y video se hace rápidamente su espacio en el mundo de la informática
(TV/Cine). La interactividad se introduce dentro de los servicios y aplicaciones audiovisuales.
A diferencia de MPEG-2 el cual opera a altas tasas de bits, MPEG-4 ofrece:
• Todo tipo de representación de datos. Desde video (altas y bajas tasas de bits) y
música a objetos en tres dimensiones y texto;
• La posibilidad de manipular varios objetos dentro de una escena;
• La posibilidad de interactuar;
• Proveer un sistema de entrega independiente del formato de representación y de esa
manera permitir que sea usado sobre una amplia variedad de entornos para la entrega
de los datos.
El enfoque de este nuevo sistema de codificación y decodificación se basa en objetos, en lugar
de simplemente series de imágenes. Esto quiere decir que la escena es creada mediante el uso
de objetos individuales y relaciones en el espacio y el tiempo en lugar de imágenes completas.
Entre las ventajas de este enfoque se pueden destacar:
• La posibilidad de representar diferentes objetos de manera distinta a la hora de
comprimirlos.
• La posibilidad de integrar varios tipos de datos en una única escena (por ejemplo
dibujos animados y acción de la vida real).
• La posibilidad de interactuar con los objetos.
El estándar MPEG-4 está compuesto básicamente por seis partes:
• Sistemas: Descripción de la escena, multiplexación10 y sincronización.
• Visual: Representación codificada tanto de objetos naturales como sintéticos.
• Audio: Representación codificada de objetos naturales y sintéticos de audio.
• Prueba de conformidad.
• Software de Referencia.
• DMIF (Delivery Multimedia Integration Framework): Para su corriente sobre sistemas
genéricos.
Herramientas MPEG-4: Aparte de las herramientas heredadas de MPEG-1 y MPEG-2 (systems
target, decoder y paquetizacion de corrientes), MPEG-4 posee un nuevo conjunto de
herramientas:
10
Multiplexación:Técnica que permite compartir un medio o un canal entre variascomunicaciones. Su objetivo es
minimizar la cantidad de líneas físicasrequeridas y maximizar el uso del ancho de banda de los medios.
43. MPEG1, MPEG2 y MPEG4
42
• Systems Decoder Model: Dado que las corrientes de MPEG-4 pueden diferir de las
anteriores fue necesario asegurar que la forma en la cual el contenido se transporta, no se
encuentre integrado dentro de su arquitectura;
• Sync Layer: Codifica la información sobre la sincronización que se necesita para asegurar
que MPEG-4 pueda direccionar desde pocos Kbps hasta varios Mbps;
• FlexMux (Flexible Multiplex): Su función es mejorar el transporte de contenido MPEG-4
en ambientes donde dichas corrientes pueden comportarse de forma impredecible en el
transcurso del tiempo y ese comportamiento impredecible puede ocurrir reiteradamente.
44. MPEG1, MPEG2 y MPEG4
43
4.3 Sistema: Sincronización y multiplexado de video y audio, Parte 1
(ISO/IEC 14496-1).
Como se explicó anteriormente, MPEG-4 define una caja de herramientas de algoritmos de
compresión avanzada para la información de audio y video. Los flujos de datos (Elementary
Streams, ES) que resulten del proceso de codificación pueden ser transmitidos o almacenados
por separado, y deben estar compuestos a manera de crear la presentación real de multimedia
en el lado receptor.
La parte de los sistemas MPEG-4 se refiere a la descripción de la relación entre los
componentes audio-visuales que constituyen una escena. La relación se describe en dos
niveles principales
El formato binario para las escenas (BIFS) describe el espacio-temporal de los acuerdos de los
objetos en la escena. Los lectores pueden tener la posibilidad de interactuar con los objetos,
por ejemplo, reordenando ellos en la escena o cambiar su propio punto de vista en un entorno
virtual en 3D. La descripción de la escena proporciona un rico conjunto de nodos de 2-D y 3-D y
los operadores de la composición de gráficos primitivos.
En un nivel inferior, de Objetos Descriptores (OD) se define la relación entre los flujos
elementales pertinentes a cada objeto (por ejemplo, el audio y la secuencia de vídeo de un
participante en una videoconferencia). Los OD también proporcionan información adicional
como la dirección necesaria para acceder al ES, las características de los descodificadores
necesarios para el análisis, la propiedad intelectual y otros. [2]
Dentro a la que concierne al sistema de mpeg-4 podemos recalcar las siguientes
características con las que cuenta el estándar:
• BIFS (Binary Format for Scenes).
• ODs (Object Descriptors).
• Interactividad.
• Herramienta FlexMux.
• Interfaces para terminales y redes. (MPEG-J).
• Capa de transporte independiente.
• Representación de texto.
• Control de los buffers de recepción.
• Identificación temporal, sincronización y mecanismos de recuperación.
• Encubrimiento de los datos de los Derechos de la Propiedad Intelectual.
A continuación se muestra un esquema que explica el modelo de multiplexación y
demultiplexación en forma básica, también muestra el modelo de codificación y
decodificación.
45. MPEG1, MPEG2 y MPEG4
44
Figura 3.2 Esquema de multiplexación- demultiplexación, codificación-decodificación
Codificació Decodificaci
n de VOo ón de VOo
Formació
M D
n de VO’s Codificació Decodificaci Composició
n de VO1 U M ón de VO1 n de VO’s
X U
Codificació
X
Decodificaci
n de VOn ón de VOn
Salida de
Información Interacción del Interacción del
video
de video usuario usuario
46. MPEG1, MPEG2 y MPEG4
45
4.4 Video: Códec compresor para señales de video entrelazada y no
entrelazada
4.4.1 Concepto
MPEG-4 Visual cuyo nombre formal es ISO/IEC 14496-2 (Video): Es un códec de compresión
para elementos visuales (video, texturas, imágenes sintéticas, etc.).
Este códec llamado MPEG-4 Visual que se encuentra dentro de las partes que conforman el
estándar MPEG-4 fue especialmente desarrollado para tecnologías multimedia; MPEG-4
introduce un nuevo concepto en codificación de información visual: codificación basada en
objetos en lugar de codificación basada en frames 11. De esta forma MPEG-4 Visual permite la
codificación individual de los diferentes objetos que conforman la escena.
MPEG-4 Visual no fue concebido concretamente para aplicaciones de streaming, pero se ha
logrado una adecuación extremadamente buena a este tipo de aplicaciones. Otra
característica del estándar es que no dice nada sobre cómo deben llegar los streams al usuario
final, así que estos pueden llegar a través de diferentes maneras, redes y tecnologías.
Los principios básicos de codificación de MPEG-4 y el soporte de herramientas de resiliencia 12
al error y escalabilidad, muestran que el estándar puede ser muy flexible para adaptarse a las
diferentes condiciones de transmisión y codificación, tales como diferencia en las tasas de bits
y condiciones de error diferentes.
1.1. Características y ventajas de MPEG-4 Visual (ISO/IEC 14496-2, Video)
En los últimos años MPEG-4 ha sido el más adecuado para comunicaciones a través de redes
informáticas básicamente por las siguientes razones:
• Puede proveer un alto desempeño en la codificación. Alcanzando tasas de bits de hasta
5 kbps con algunos de los perfiles.
• Las técnicas de codificación de video escalable (temporal y espacial), hacen parte de
MPEG-4 para ofrecer una codificación de tasa de bits variable para el constante cambio
en la capacidad de los canales, esto en el caso de aplicaciones sobre redes inalámbricas.
• Tiene la más amplia variedad de herramientas de resiliencia al error, las cuales aunque
no garantizan la corrección de los datos corruptos, sí disminuyen el efecto negativo de
estos en la calidad visual.
• Las funcionalidades de la codificación basada en objetos, permite la interacción con los
objetos audio-visuales y permite nuevas aplicaciones interactivas en un ambiente
inalámbrico.
• No restringe los objetos visuales a frames rectangulares, sino que lo amplia a objetos
animados en tres dimensiones, objetos de forma arbitraria.
11
Frame: Se denomina frame a un fotograma o cuadro, una imagen particular dentro de una sucesión de imágenes que
componen una animación. La continua sucesión de estos fotogramas producen a la vista la sensación de movimiento,
fenómeno dado por las pequeñas diferencias que hay entre cada uno de ellos.
12
Resiliencia: es la capacidad de recuperación de un error de datos o de una pérdida de información.
47. MPEG1, MPEG2 y MPEG4
46
4.5 Arquitectura decodificador mpeg-4 (ISO/IEC 14496-2, Video).
El decodificador de MPEG-4 perfil simple está conformado por los siguientes bloques
funcionales:
• Unidad de procesamiento de bits.
• Decodificador de texturas.
• Decodificador de vectores de movimiento.
• Compensación de movimiento.
• Reconstrucción de movimiento.
• Etapa de post-procesamiento.
• Unidad de control de paralelismo.
Estos 7 bloques funcionales constituyen entre sí una arquitectura paralela, la cual es
sincronizada por la unidad de control y cuyas variantes en el proceso de decodificación son
determinadas por la información lateral obtenida del bitstream 13 . Todos los bloques
funcionales y sus respectivos sub-bloques cuentan con sus propios búferes de memoria, esto
les permite intercambiar datos con otros subsistemas sin dejar de procesar nuevos datos. Solo
la memoria en la que se almacenan los VOPs 14 de referencia y la utilizada para la presentación
en el LCD son memorias externas a la FPGA. La Figura 3.3muestra la arquitectura de hardware
para MPEG-4 Perfil simple.
13
Bitstream:se utiliza para definir un servicio mayorista de acceso de datos en banda ancha que un operador
(generalmente obligado a ello por tener PSM) ofrece a otros operadores más pequeños, para que estos a su vez
puedan proporcionar servicios minoristas a los usuarios finales.
14
VOP: (Video Object Plane), planos de objetos de video, es una muestra temporal de un VO, que a su vez se define
como un objeto particular en la escena.
48. MPEG1, MPEG2 y MPEG4
47
Figura 3.3 Arquitectura decodificador MPEG-4 Visual(21)
4.5.1 Procesamiento de Bitstream
El Procesamiento de bitstream es una de las tareas más importantes en la codificación de
video. Además de obtener la información de textura y movimiento necesaria para reconstruir
la imagen al lado del decodificador, la unidad de procesamiento de bitstream debe soportar las
herramientas de resiliencia al error soportadas por MPEG-4 Visual. Una unidad de
Procesamiento de bitstream está conformada básicamente por una memoria o búfer de
bitstream, el intérprete del bitstream (también conocido como parser), las tablas de códigos
de longitud variable y registros de configuración relacionados con alternativas en la forma de
decodificador el video. La Figura 3.4 muestra el diagrama de bloques para una unidad de
procesamiento de bloques.
49. MPEG1, MPEG2 y MPEG4
48
Figura 3.4 Unidad de procesamiento Bitstream.(21)
4.5.2 Decodificación de texturas
MPEG-4 denomina textura a la información espacial contenido en los bloques intra e inter-
codificados. El proceso de decodificación de texturas está compuesto por cinco bloques:
decodificador de tripletas last-run-level o EVENTs como los denomina el estándar;
seguidamente se realiza el escaneo inverso para reconstruir el arreglo bidimensional; el paso
siguiente se realiza solo para bloques intra-codificados y se denomina Predicción AC y DC
inversa; finalmente se llevan a cabo los procesos de cuantización inversa y la transformada
inversa del coseno. La Figura 3.5muestra el diagrama de bloques del decodificador de texturas.
Figura 3.5 Decodificador información textura.(21)
4.5.3 Decodificador de Vectores de movimiento
Los vectores de movimiento en MPEG-4 Visual después de ser decodificados en entropía
(Unidad de Procesamiento de Bitstream), deben ser reconstruidos ya que en el codificador se
codifican en un formato diferencial. El algoritmo consiste básicamente en hacer un