SlideShare a Scribd company logo
1 of 67
Download to read offline
MPEG1,
MPEG2 y
MPEG4
Estudio de los
Formatos de Audio
y Video.

Luis Delgado
Estefanía Loaiza
Nixon Villavicencio
1 Tabla de contenido
2     MPEG-1 __________________________________________________________ 3
    2.1       RESEÑA HISTÓRICA ___________________________________________________ 3
    2.2       CODIFICACION DE AUDIO ______________________________________________ 4
      2.2.1     Las capas de audio en MPEG __________________________________________________ 4

    2.3       CODIFICACION DE VIDEO_______________________________________________ 7
    2.4       PREDICCION BIDIRECCIONAL____________________________________________ 9
    2.5       Tipos de Cuadros ____________________________________________________ 11
      2.5.1     Cuadros I (Intra) ___________________________________________________________ 11
      2.5.2     Cuadros P (Predicted) ______________________________________________________ 11
      2.5.3     Cuadros B (Bidirectional o Interpolated) _______________________________________ 11

    2.6       Parámetros ________________________________________________________ 12
    2.7       Características ______________________________________________________ 13
    2.8       Aplicaciones ________________________________________________________ 14

3     MPEG-2 _________________________________________________________ 16
    3.1       Introducción ________________________________________________________ 16
    3.2       Características ______________________________________________________ 17
    3.3       Estándar MPEG-2 ____________________________________________________ 18
    3.4       Sistema: Sincronización y multiplexado de video y audio. ___________________ 19
      3.4.1     Sistema de multiplexado de Video y Audio _____________________________________ 19
      3.4.2     Sincronización Audio Vídeo __________________________________________________ 21

    3.5       Video: Códec Compresor para Señales de Video Entrelazado y No Entrelazado __ 24
      3.5.1     Vídeo entrelazado (campos) / no-entrelazado ___________________________________ 24
      3.5.2     Compresión ______________________________________________________________ 27
      3.5.3     FPS (Frames per second) - cuadros por segundo _________________________________ 27
      3.5.4     Flujo de datos (bitrate) _____________________________________________________ 28
      3.5.5     Flujo de Datos Constante (CBR - Constant Bit Rate) ______________________________ 28
      3.5.6     Flujo de Datos Variable (VBR - Variable Bit Rate) _________________________________ 29
      3.5.7     Unidades de acceso codificación Mpeg-2_______________________________________ 29
      3.5.8     Vídeo entrelazado _________________________________________________________ 30

    3.6       CÓDEC COMPRESOR DE SEÑALES DE AUDIO ______________________________ 32
      3.6.1     Layers y profiles ___________________________________________________________ 33
      3.6.2     Sistema con 5 Canales. (15)__________________________________________________ 34
      3.6.3     ADVANCED AUDIO CODING _________________________________________________ 34

4     ESTANDAR DE CODIFICACIÓN DE AUDIO Y VIDEO MPEG-4 ________________ 37
    4.1       Concepto: __________________________________________________________ 37
    4.2       Introducción. _______________________________________________________ 40
MPEG1, MPEG2 y MPEG4


                                                                                                       2
    4.3       Sistema: Sincronización y multiplexado de video y audio, Parte 1 (ISO/IEC 14496-1).
              43
    4.4       Video: Códec compresor para señales de video entrelazada y no entrelazada ___ 45
      4.4.1     Concepto ________________________________________________________________ 45

    4.5       Arquitectura decodificador mpeg-4 (ISO/IEC 14496-2, Video). ________________ 46
      4.5.1     Procesamiento de Bitstream _________________________________________________ 47
      4.5.2     Decodificación de texturas __________________________________________________ 48
      4.5.3     Decodificador de Vectores de movimiento _____________________________________ 48
      4.5.4     Decodificador de Compensación de Movimiento ________________________________ 49
      4.5.5     Reconstrucción de Movimiento ______________________________________________ 50
      4.5.6     Unidad de Control de Paralelismo ____________________________________________ 50
      4.5.7     Post-procesamiento _______________________________________________________ 50

    4.6       Audio: Códec compresor de señales de Audio, Parte 3 (ISO/IEC 14496-3). ______ 52
      4.6.1     Descripción técnica detallada del audio en MPEG-4. ______________________________ 52
      4.6.2     Cualidades adicionales del audio en MPEG-4 ____________________________________ 53

    4.7       (MPEG-4) Transporte sobre redes IP, AVC, y formato de subtítulos. ___________ 55
      4.7.1     Introducción______________________________________________________________ 55
      4.7.2     (MPEG-4) Transporte sobre redes IP (ISO/IEC 14496-8) ___________________________ 55
      4.7.3     REDES IP y EL TRANSPORTE DE MULTIMEDIA SOBRE ESTAS. _______________________ 58

    4.8       (MPEG-4) Advanced Video Coding (AVC) (ISO/IEC 14496-10)_________________ 60
      4.8.1     Codificación inter-frame.- ___________________________________________________ 60
      4.8.2     Codificación por transformada en H.264.- ______________________________________ 61
      4.8.3     Filtro de "deblocking".- _____________________________________________________ 62

    4.9       (MPEG-4) Formato de subtítulos (ISO/IEC 14496-17) _______________________ 64

5     Trabajos citados __________________________________________________ 65
MPEG1, MPEG2 y MPEG4


                                                                                                  3
2 MPEG-1

                                                         Luis Delgado / ledelgado@utpl.edu.ec



2.1 RESEÑA HISTÓRICA
MPEG o MPEG-1 - Motion Picture Experts Group (Unión de Expertos en Imágenes en
Movimiento). MPEG es un grupo de estándares de codificación de audio y vídeo.

El desarrollo del estándar MPEG-1 comenzó en mayo de 1988. 14 ofertas de video y 14 de
audio del codec fueron sometidas por las compañías y las instituciones individuales para la
evaluación.

El estándar MPEG-1 nació para permitir el almacenamiento de vídeo y sonido estéreo en CD-
ROM a velocidad máxima de 1'5 Mb/s (1,14 Mb/s para el vídeo y 350 kB/s para el audio
asociado). Está basado en el algoritmo de compresión de imagen fija JPEG pero se aprovecha
de la alta redundancia temporal entre cuadros consecutivos para mejorar la tasa de
compresión.

Después de 20 reuniones del grupo completo en varias ciudades alrededor del mundo, y de 4
años y medio de desarrollo y de prueba, el estándar final (para las piezas 1-3) fue aprobado en
noviembre de 1992 y fue público algunos meses más adelante. La fecha divulgada de la
terminación del estándar MPEG-1, varía grandemente… Un estándar de bosquejo en gran
parte completo fue producido en septiembre de 1990, y de ese punto encendido, sólo los
cambios de menor importancia fueron introducidos. El estándar fue acabado con la reunión
del 6 de noviembre de 1992. En julio de 1990, antes de que el primer bosquejo del estándar
MPEG-1 incluso hubiera sido escrito, el trabajo comenzó por un segundo estándar, MPEG-2, se
prepuso ampliar la tecnología MPEG-1 para proporcionar el vídeo completo de difundir-
calidad. (1)

Debido en parte a la semejanza entre los dos codecs, el estándar MPEG-2 incluye por completo
compatibilidad hacia atrás con el vídeo MPEG-1, así que cualquier decodificador MPEG-2
puede manejar los videos MPEG-1. (1)
MPEG1, MPEG2 y MPEG4


                                                                                                  4
2.2 CODIFICACION DE AUDIO
El estándar de codificación de audio MPEG-1 se basa en la codificación de percepción, que es
un proceso de preservación de forma de onda; es decir, la forma de onda de amplitud-tiempo
de la señal de audio decodificada se aproxima mucho a la de la señal de audio original en
términos generales, el proceso de decodificación comprende cuatro operaciones distintas:

   1. Mapeo de tiempo-frecuencia.- Por este medio la señal de audio se descompone en sub-
      bandas múltiples.

   2. Modelación psicoacústica.- Opera en forma simultanea sobre la señal de audio de
      entrada para calcular ciertos umbrales utilizando reglas conocidas del comportamiento
      psicoacústico del sistema auditivo humano.

   3. Cuantización y codificación.- Junto con el modelo psicoacústico trabaja en la salida del
      mapeador de tiempo-frecuencia a fin de mantener el ruido que resulta del proceso de
      cuantización en un nivel inaudible.

   4. Empaque de tramas.- Se utiliza para formatear las muestras de audio cuantizadas en
      una corriente de bits decodificable.(2)

2.2.1 Las capas de audio en MPEG
Para el audio, están definidas tres capas, que definen tres niveles de compresión y
complejidad:

            •   MP1 o MPEG Layer I
            •   MP2 o MPEG Layer I
            •   MP3 o MPEG Layer I

La capa o layer I conforma el algoritmo más básico, mientras que las capas II y III son mejores
que usan algunos de los elementos de la capa 1. Cada capa, sucesivamente, va mejorando la
compresión, a costa de una mayor complejidad en la codificación.

El MPEG/Audio permite usar las capas en cuatro modos:

        •   Estéreo. Codificación independiente de cada canal.
        •   Estéreo Conjunto. Hace uso de la redundancia o información correlacionada entre
            los canales izquierdo y derecho buscando reducir el flujo binario.
        •   Dual. Dos canales independientes tanto en codificación como en la propia
            información.
        •   Mono. Un único canal de audio.

2.2.1.1 Layer I.
En un primer paso la señal de audio es dividida en 32 sub-bandas para las cuales se definen
distintos parámetros de cuantificación y curvas de enmascaramiento en función de la
sensibilidad relativa del oído humano al sonido procesado. Las contribuciones frecuenciales
donde el oído es más sensible son cuantificadas con mayor precisión que aquellas donde el
oído es menos sensible, pudiendo incluso llegarse a descartar bandas completas ya que
directamente no serían percibidas por el oído humano.
MPEG1, MPEG2 y MPEG4


                                                                                                   5
La capa I emplea máscaras de cuantificación a marcos o frames de audio, que consisten en un
número de 12 grupos consecutivos de 384 muestras de audio. En la capa más básica se usan 6
bits para codificar el factor de escala (un multiplicador que indica el tamaño de las muestras
para rellenar toda la profundidad de bits del cuantificador) y de 0 a 15 bits para cada
subbanda. Está basado en el algoritmo PASC (Precision adaptative sub-band coding) de Philips,
y su gran ventaja es la sencillez de implementación.

2.2.1.2 Layer II.
Basado en el algoritmo MUSICAM requiere flujos binarios, un 30-50% menores que el layer I
para la misma calidad, empleando para ello dos principales mejoras para disminuir el flujo de
bits.

    •   Usa el mismo modelo psico-acústico que el anterior pero aplicado a frames de mayor
        duración, de tres conjuntos de 1152 muestras de audio por cada 12 grupos en cada
        marco.

    •   En lugar de usar 6 bits para la cuantificación de cada banda (factor de escala) usa un
        modelo variable en función de la banda de frecuencia, con el fin de disminuir la
        distorsión audible.

    •   Cuando codifica tres, cinco o niveles en cada subbanda de cuantización, la capa II
        representa tres valores consecutivos cuantizados en una única y más compacta
        palabra de código.

2.2.1.3 Layer III.
Deriva del ASPEC (Adaptive Spectral Perceptual Entropy Coding) y el OCF (Optimal Coding in
the Frecuency domain). Aunque está basado en los mismos bancos de filtros de MPEG Layer I y
Layer II, compensa las principales deficiencias procesando las salidas de los filtros en una DCT
(Transformada discreta del coseno) modificada, denominada MDCT.

Fundamentalmente, subdivide las salidas de cada subbanda en frecuencia para ofrecer una
mejor resolución espectral. Una vez hecho este proceso, el Layer III puede cancelar los
solapamientos causados por el banco de filtros. Esta operación tiene que ser invertible de tal
modo que la MDCT inversa pueda reconstruir cada subbanda en su solapamiento original, a
través del banco de filtros de reconstrucción. En resumen, el MPEG Layer III mejora a los
anteriores:

    •   Reducción del solapamiento, especificando un método de procesar los valores de la
        MDCT para eliminar artefactos causados por las bandas superpuestas procedentes del
        banco de filtros.

    •   Cuantificación no uniforme, disminuyendo a 3/4 la potencia antes del proceso de
        cuantificación para ofrecer una relación señal/ruido más consistente sobre el rango de
        valores cuantificados. El reecualizador del decodificador de MPEG/audio incrementará
        los valores a la salida aumentando 4/3 la potencia.
MPEG1, MPEG2 y MPEG4


                                                                                                    6
    •   Codificación de entropía en los valores de los datos. Para conseguir una mejor
        compresión de datos, la capa III usa códigos variables Huffman para codificar las
        muestras cuantificadas.

    •   Uso de un bit de reserva. El diseño de la capa III mejora la variación en el tiempo en el
        codificador ofrecida por los bits de código. Como en la capa II, la capa III procesa los
        datos de audio en marcos de 1152 muestras. Pero a diferencia de ella, no
        necesariamente son marcos de longitud fija. Existe una especie de depósito donde se
        almacenan bits al necesitarse un número menor para codificar un marco. Después, si
        el codificador necesita un número mayor que la media de bits, puede extraerlos de ese
        depósito. Sólo se puede hacer este proceso a partir de marcos pasados, no futuros.

Si bien el tercero sólo se emplea en Internet y dispositivos portátiles, el audio de algunos DVD
está comprimido usando una de las dos primeras capas.

El resultado final de utilizar el estándar MPEG-1 en los dos canales de audio de un programa
estereofónico es que cada señal de audio digitalizada, que se obtiene a razón de 768 kilobits
por segundo, se comprime a una velocidad tan baja como 16 Kb/s. (La velocidad de los datos
de entrada de 768 Kb/s corresponde a una velocidad de muestreo de 48 KHz, siendo cada
muestra representada por una palabra de 16 bits.)

    •   El estándar de codificación de audio MPEG-1 es adecuado para el almacenamiento de
        señales de audio en medios económicos o su transmisión sobre canales con ancho de
        banda limitados, mientras mantiene al mismo tiempo la calidad de percepción. (2)
MPEG1, MPEG2 y MPEG4


                                                                                                    7
2.3 CODIFICACION DE VIDEO


El estándar de codificación de video MPEG-1 se diseñó fundamentalmente para comprimir
señales de video a 30 tramas por segundo (cps) en una corriente de bits que corre a razón de
un megabits por segundo (Mb/s); MPEG corresponde a las siglas en ingles del Grupo de
Expertos de Fotografía en Movimiento. (2)

El estándar MPEG-1 no es adecuado para aplicaciones de radiodifusión ya que no tiene en
cuenta el entrelazados de imágenes o la evolución prevista a TV de alta definición (HDTV), que
acabaría siendo el estándar MPEG-2 publicado en 1994.

Actualmente se emplea, por ejemplo, para comprimir la información de vídeo en los VCD con
resolución SIF (360x288 @ 25 fps en PAL y 360x240 @ 30 fps en NTSC), consiguiendo de ese
modo una calidad de imagen similar a la del VHS doméstico. (3)

El estándar de codificación de video MPEG-1 consigue esta meta de diseño explotando cuatro
formas básicas de redundancia presente inherentemente en los datos de video:

    1. Redundancia de intertrama (temporal).

    2. Redundancia de interpixel dentro de una trama.

    3. Redundancia psicovisual.

    4. Redundancia de codificación entrópica.

La explotación de la redundancia de intertrama es lo que distingue al MPEG-1 del JPEG. En
principio, las tramas vecinas en secuencia de video ordinarias están altamente
correlacionadas. El significado de esta alta correlación es que, en un sentido promedio, una
señal de video no cambia rápidamente de una trama a la siguiente, en consecuencia, la
diferencia entre tramas adyacentes tiene una varianza (es decir potencia promedio) que es
mucho más que la varianza de la propia señal de video. (2)

Estuvo basado inicialmente en el trabajo del grupo de expertos del ITU para videotelefonía y
en el estándar H.261. Para aumentar el factor de compresión, MPEG introdujo el concepto de
predicción bidireccional, que consiste en el almacenamiento de imágenes pasadas y futuras
para la predicción del cuadro (frame) presente.

El primer trabajo del grupo iniciado en 1988 se concentro en la compresión de video con
velocidades bajas y adecuadas a dispositivos de almacenamiento tales como CD-ROM y
transmisión a 1,554 y 2,048.

Para conseguir esto, los cuadros en el flujo de bits codificado deben estar en orden diferente al
orden de visionado. Esto fuerza la creación de la estructura llamada Grupo de cuadros (GOP).

El conjunto de objetivos establecido para MPEG 1 fue el siguiente:

        •   Acceso aleatorio
        •   Visionado inverso sincronización audio visual
MPEG1, MPEG2 y MPEG4


                                                                 8
•   Robustez frente a errores
•   Retardo de codificación/ descodificación
•   Estabilidad
•   Compatibilidad de formatos
•   Costos (4)
MPEG1, MPEG2 y MPEG4


                                                                                                 9
2.4 PREDICCION BIDIRECCIONAL
La predicción bidireccional realiza el proceso de estimación de movimiento dos veces:

       •   Una en una imagen pasada
       •   Y otra en una imagen futura,
       •   De forma que obtiene dos vectores de movimiento y dospredicciones para cada
           macrobloque.

El codificador puede obtener el residuo de movimiento compensado utilizando:

           •   Cualquiera de las dos predicciones (pasada o futura)
           •   Un promedio de ellas, eligiendo la estimación más eficiente de las tres.

En la terminología MPEG, este proceso es referido como codificación ínter cuadro bidireccional
o interpolada.

En la Figura 1.1se muestra más detalladamente como opera la predicción bidireccional.




                                                                 1
                                  Figura 1.1Predicción Bipolar

Cuando la compensación es hacia delante o hacia atrás, sólo se genera un vector de
movimiento.

Cuando la compensación es interpolada se generan dos vectores de movimiento, uno para
cada cuadro de referencia pasado y futuro.




1
(Imagen tomada de www.airfareoffice.com/multimedia/pdfs/10-mpeg-1)
MPEG1, MPEG2 y MPEG4


                                                                                            10
Tanto si se genera uno como si se generan dos, estos son codificados diferencialmente con
respecto a los vectores de movimiento del macrobloque anterior.

Posteriormente se les aplica una codificación Huffman para ser transmitidos o almacenados
junto al residuo, para este macrobloque.
MPEG1, MPEG2 y MPEG4


                                                                                                  11
2.5 Tipos de Cuadros


2.5.1 Cuadros I (Intra)
Utilizan únicamente información contenida en el propio cuadro y no dependen de la
información de otros cuadros (codificación intracuadro).

Los cuadros I proporcionan un mecanismo para el acceso aleatorio al flujo de bits de vídeo
comprimido pero proporcionan solamente una moderada compresión.



2.5.2 Cuadros P (Predicted)
Utilizan para la codificación, la información contenida en el cuadro previo, I o P, más próximo
(codificación intercuadro).

A esta técnica se le conoce como predicción hacia delante y proporciona un mayor grado de
compresión.



2.5.3 Cuadros B (Bidirectional o Interpolated)
Utilizan la información contenida en los cuadros pasados y futuro, I o P, más próximos. A esta
técnica se le conoce como predicción bidireccional o interpolada y proporciona el mayor grado
de compresión.

Estos cuadros no propagan errores ya que nunca se utilizan como referencia, al contrario que
las imágenes I y P. (4)
MPEG1, MPEG2 y MPEG4


                                                                                              12
2.6 Parámetros


El conjunto de parámetros restringidos del flujo de bits que como mínimo debe soportar cada
descodificador compatible con MPEG 1 son los mostrados en laTabla 1.1: (4)

                         Tabla 1.1 Parámetros restringidos del flujo de bits

Parámetros                                                             Valor máximo
Tamaño horizontal                                                       768 pixeles
Tamaño vertical                                                          576 lineas
Numero de macrobloques                                                      396
Caudal de pixeles                                                      396x25 Mb/s
Caudal de cuadros                                                      30 cuadros/s
Rango de los vectores de movimiento                                     ± 64 pixeles
Tamaño del buffer de entrada                                            327.680 bits
Caudal de bits                                                         1.865 kbits/s
MPEG1, MPEG2 y MPEG4


                                                                                                 13
2.7 Características


Los requerimientos de capacidad de edición total y acceso aleatorio condujeron a la
introducción de cuadros codificados completamente como intra-cuadro, de forma periódica en
el flujo de bits codificado.

La codificación de estos cuadros con codificación intra-cuadro se basó en gran parte en
estándar JPEG. Para compensar la reducción del factor de comprensión, debido a la
introducción periódica de imágenes intracodificadas, se introdujo la predicción bidireccional.

El estándar fue finalmente diseñado para conseguir compresiones optimas en el rango entre 1
y 1.5 Mbps, para secuencias de video progresivo en color (MPEG 1 no soporta video
entrelazado), tanto para sistemas NTSC como PAL, con formato de muestreo 4:2:0 y un espacio
de colores YCbCr.

Para este formato de entrada, el factor de compresión alcanzado por el estándar MPEG 1 es de
26:1 aproximadamente.
MPEG1, MPEG2 y MPEG4


                                                                                                         14
2.8 Aplicaciones


El más popular software para el dispositivo de lectura video incluye MPEG-1 que descifra,
además de cualquier otro los formatos apoyados. [5]

      •    El renombre MP3 de audio ha establecido una masiva base instalada del hardware de
           audio del dispositivo de lectura MPEG-1 (las 3 capas).

      •    El formato DVD-video utiliza el vídeo MPEG-2 sobre todo, pero la ayuda MPEG-1 se
           define explícitamente en el estándar.

      •    Antes de que MPEG-2 llegó a ser extenso, mucho los servicios digitales de la televisión
           por el satélite/cable utilizaron MPEG-1 exclusivamente. (1)

      •    Vídeo de DVD estándar requirió originalmente MPEG-1 el audio de la capa II, pero fue
           cambiado para permitir AC-3/Digital Dolby- solamente discos. MPEG-1 el audio de la
           capa II todavía se permite en DVDs, aunque más nuevas extensiones al formato, como
           MPEG de varios canales, se apoyan raramente. (1)

En la Tabla 1.2 se ven los formatos MPEG más populares con sus respectivas propiedades.
Existen otros formatos de menor popularidad que no se incluyen en la tabla. Para soporte en
CD, los formatos MPEG-1 más difundidos son VCD y CVCD; para MPEG-2, SVCD. (5)
                                                                         2
                                 Tabla 1.2 Formatos MPEG más populares

Formatos MPEG Estandarizados

Formatos                VCD            CVCD            XVCD                  SVCD          DVD

Nombre                  Video CD       Compressed Extended                   Super         Digital
                                       Video CD   Video CD                   Video CD      Video Disc
Resolución PAL          352x288        352x288    480x576                    480x576       704x576
                                                                                           720x576
                NTSC    352x240        352x240         480x480               480x480       704x480
                                                                                           720x480
FPS             PAL     25             25              25                    25            25
                NTSC    23.9 / 29.9    23.9 / 29.9     23.9 / 29.9           23.9 / 29.9   23.9 / 29.9
Formato         video   MPEG-1         MPEG-1          MPEG-1                MPEG-2        MPEG-2
            audio MPEG                 MPEG Layer MPEG                       MPEG          MP2/AC3/WAV
                  Layer 2              2          Layer 2                    Layer 2
Modo de bitrate*  CBR                  CBR / VBR  CBR / VBR                  CBR / VBR     CBR / VBR
Bitrate;        video   1150           300...1150      Hasta 2350            Hasta 2550    Hasta 9000
Kbps
                audio 224              96...224        32...384              32...384      Hasta 448




2
Formatos MPEG Estandarizados Tabla tomada de: www.divxland.org/esp/mpeg.php
MPEG1, MPEG2 y MPEG4


                                                                                                    15
Frecuencia      de 44.1             44.1            44.1          44.1 / 48      48
audio; KHz
Pistas de audio    Única            Única           Única         Múltiples      Múltiples
Subtítulos            Fijos         Fijos           Fijos         Optativos      Optativos
Compatible     con SI               SI              NO            NO             SI
autoría de DVD
Minutos por disco 74 / 80 / 90      74...130        35...60       35...60        60...240



Los modos de bitrate (tasa de bits por segundo) pueden ser constante (CBR) o variable (VBR).

Dependiendo de la aplicación de video, se elegirá un formato u otro. Por ejemplo, si se está
buscando máxima compatibilidad con todos los dispositivos, se utilizará el VCD; si se pretende
colocar una película entera en un disco, el CVCD es el indicado; si solo nos preocupa la calidad,
el SVCD es la mejor opción; si queremos un medio de alta resolución, el DVD es el correcto,
etc.
MPEG1, MPEG2 y MPEG4


3 MPEG-2                                                                                             16


                                                         Estefanía Loaiza / celoaiza@utpl.edu.ec



3.1 Introducción
MPEG (Moving Picture Experts Group) se inició en 1988 como un grupo de trabajo de ISO / IEC
con el fin de definir normas para la compresión digital de audio de las señales visuales.

El primer proyecto MPEG, MPEG-1, fue publicado en 1993 como ISO / IEC 11172. Se trata de
un estándar de tres partes, la definición de compresión de audio y métodos de codificación de
vídeo y un sistema de multiplexado para intercalado de datos de audio y vídeo para que
puedan ser escuchadas juntas. MPEG-1, principalmente apoya la codificación de vídeo de
hasta alrededor de 1,5 Mbit / s dando una calidad similar a la SHV y audio estéreo a 192 bits /
s. Se utiliza en el CD-i y Video-CD para sistemas de almacenamiento de vídeo y audio en CD-
ROM.(6)

Durante 1990, MPEG reconoció la necesidad de un segundo estándar, relacionadas con la
codificación de vídeo para los formatos de difusión a tasas más altas de datos. El estándar
MPEG-2 es capaz de codificación de televisión de definición estándar a velocidades de bits de
alrededor de 3.15 Mbit / s, y la televisión de alta definición a 15-30 Mbit / s. MPEG-2 amplía las
capacidades de audio estéreo de MPEG-1 a varios canales de sonido envolvente de
codificación de sonido.

MPEG-2 pretende ser un sistema de codificación de vídeo genérico de apoyo a una amplia
gama de aplicaciones.

MPEG-2 introduce y define Flujos de Transporte, los cuales son diseñados para transportar
vídeo y audio digital a través de medios impredecibles e inestables, y son utilizados en
transmisiones televisivas. Con algunas mejoras, MPEG-2 es también el estándar actual de las
transmisiones en HDTV. Un descodificador que cumple con el estándar MPEG-2 deberá ser
capaz de reproducir MPEG-1. MPEG-2 es por lo general usado para codificar audio y vídeo para
señales de transmisión, que incluyen televisión digital terrestre, por satélite o cable. MPEG-2.
Con algunas modificaciones, es también el formato de codificación usado por los discos SVCD y
DVD comerciales de películas(7)
MPEG1, MPEG2 y MPEG4


                                                                                                 17
3.2 Características


  •   La sintaxis del MPEG-2 tiene dos categorías:
          – Una sintaxis no escalable, la cual incluye a la sintaxis del MPEG-1, con
               extensiones adicionales para soportar vídeo entrelazado.
          – Una sintaxis escalable, la cual permite una codificación por capas de la señal
               de vídeo, mediante la cual, el descodificador puede descodificar
                   • o sólo la capa básica para obtener una señal con calidad mínima,
                   • o utilizar capas adicionales para incrementar la calidad de la señal.
  •   Como el MPEG-1, el MPEG-2 es un estándar de compresión con pérdidas, basado en:
          – Compensación de movimiento
          – Estimación de movimiento hacia delante, hacia atrás o interpolada
          – Transformada DCT
          – Cuantificación
          – Codificación RLE y Huffman
  •   En el modo de sintaxis escalable, la capa básica de una señal de vídeo codificada con el
      MPEG-2, podría ser también descodificada por un descodificador MPEG-1, aunque
      esto último no es requerido en el estándar.(6)
MPEG1, MPEG2 y MPEG4


                                                                                             18
3.3 Estándar MPEG-2
El estándar de compresión de vídeo MPEG-2, fue la segunda fase de trabajo realizado por el
grupo MPEG.

El conjunto de requerimientos fijados:

    •   Compatibilidad con MPEG-1
    •   Buena calidad de la imagen
    •   Flexibilidad del formato de entrada
    •   Capacidad de acceso aleatorio
    •   Rebobinados rápidos y lentos hacia delante y hacia detrás
    •   Escalabilidad en el flujo de bits
    •   Bajos retardos para comunicaciones en ambos sentidos
    •   Resistencia a errores
    •   El estándar MPEG-2 se realizó como una extensión del MPEG-1, el cual, se puede
        considerar como un subconjunto del MPEG-2. (8)



Entre los Estándar MPEG-2 tenemos:

    •   ISO/IEC 13818-1 Sistema - describe sincronización y multiplexado de vídeo y audio.
    •   ISO/IEC 13818-2 Video - Códec(codificador/decodificador) compresor para señales de
        vídeo entrelazado y no entrelazado.
    •   ISO/IEC 13818-3 Audio - Códec(codificador/decodificador) compresor de señales de
        audio. Una extensión habilitada multicanal de MPEG-1 audio (MP3).
    •   ISO/IEC 13818-4 Describe maniobras de prueba de cumplimiento(del estándar).
    •   ISO/IEC 13818-5 Describe sistemas para simulación por Software.
    •   ISO/IEC 13818-6 Describe extensiones para DSM-CC (Comando Digital de herramientas
        de almacenamiento y control)
    •   ISO/IEC 13818-7 codificación avanzada de audio. (AAC)
    •   ISO/IEC 13818-9 Extensión para interfaces en tiempo real.
    •   ISO/IEC 13818-10 conformidad con extensiones para DSM-CC.(9)
MPEG1, MPEG2 y MPEG4


                                                                                                     19
3.4 Sistema: Sincronización y multiplexado de video y audio.
ISO/IEC 13818-1: Sistema - describe sincronización ymultiplexado de vídeo y audio. (10)



3.4.1 Sistema de multiplexado de Video y Audio
Los sistemas MPEG-2 (MPEG-2 systems) definen como se tiene que multiplexar el vídeo y el
audio comprimido, además de los posibles datos adicionales, para formar un único flujo de
datos que permita ser transmitido o almacenado.

Hay dos tipos de multiplexación especificados por los sistemas MPEG-2. El Tren de Programa
(program stream, PS) está formado por la multiplexación de un solo programa y es utilizado,
por ejemplo, por el DVD.

Por otro lado, el tren de transporte (transport stream, TS) define como se multiplexan varios
programas y es el que utiliza DVB, entre otros.

Estas dos multiplexaciones facilitan la inclusión de la PSI (Program Specific Information), que da
información de los datos que se multiplexan.

Además, los sistemas MPEG-2 aportan unas referencias temporales para que los datos se
representen en el momento adecuado puesto que, por ejemplo, el sonido y las imágenes no
viajan en paralelo, pero el usuario final las tiene que percibir en el mismo momento.

Además, los sistemas MPEG-2 dan flexibilidad para la inclusión de nuevas sintaxis, añadir
información de control de acceso condicional, datos. En la Figura 1.1tenemos un ejemplo
gráfico. (7)




                                                                         3
                               Figura 2.1Ejemplo de Multiplexor MPEG-2




3
Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo
MPEG1, MPEG2 y MPEG4


                                                                                                  20
La normativa MPEG-2 no especifica cómo se tiene que realizar esta multiplexación ni cómo
protegerla. A título orientativo, sólo mencionar que los dos tipos de multiplexación que se
están manejando actualmente son o bien TDM (Multiplexación por División de Tiempo), o bien
estadística.

La TDM es aquella que siempre asigna un espacio de tiempo concreto y constante a cada
componente del program stream.

La multiplexación estadística, a diferencia de la TDM, representa un cambio de mentalidad
respeto al conocido hasta ahora. En la actualidad ya no se asigna un espacio de tiempo
determinado y concreto, sino que los diferentes programas se van pasando información de
cuánto ancho de banda requieren para la transmisión.

Así pues, un programa que necesite mucho podrá beneficiarse de uno que tenga espacio libre
y que, de otra manera, se desaprovecharía utilizando bits de relleno (stuffing bits).

En realidad ambas multiplexaciones (TDM y estadística) son multiplexaciones en el dominio del
tiempo (en contraposición a las multiplexaciones en frecuencia). La diferencia entre ambas
radica en que la multiplexación estadística reserva las ranuras de tiempo de manera
dinámica.(11)

Multiplex: Un multiplex es un conjunto de servicios multiplexados en MPEG2. Cada multiplex
viaja en una frecuencia diferente, siendo su velocidad máxima de transmisión de 40 Mbps
(Megabits por segundo).

Llegados a este punto podemos entender laFigura1.2, en la que se nos muestran los diferentes
servicios y elementary streams de un multiplex, así como el PID en el que viajan y su velocidad
de transmisión:
MPEG1, MPEG2 y MPEG4


                                                                                                   21




                                                                                          4
                   Figura 2.2 Diferentes servicios y elementary streams de un multiplex




Como podemos observar el ancho de banda (o la velocidad de transmisión) ocupado por los
diferentes elementary streams es muy diferente. De esta forma, un elementary stream de
video suele ocupar alrededor de los 3.5 Mbps, un ES de audio unos 0.2 Mbps, un ES de datos
unos 1 Mbps, etc.

En la figura también se observa como algunos servicios (en la figura se les llama program
siguiendo la terminología MPEG2) contienen varios ES, mientras que otros están compuestos
por un solo elementary stream.

Normalmente en cada multiplex suelen viajar alrededor de 6 o 7 canales de televisión más
alguno de datos y de radio. (12)

3.4.2   Sincronización Audio Vídeo


En la señal tradicional de televisión la información de sincronización de la señal se transmitía
directamente en la misma (pulsos de sincronismo, burst...). Sin embargo la sincronización de la
señal digital de televisión requiere de ciertos mecanismos más complejos.


4
Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo
MPEG1, MPEG2 y MPEG4


                                                                                                  22
Lo primero que tenemos que comprender es que la señal de video que transmitimos, al estar
codificada en MPEG-2 no utiliza el mismo espacio para cada una de sus imágenes. Esto hace
que algunas sean decodificadas en menor tiempo que otras. Además, en una sola trama de
transporte podemos tener varios programas diferentes (y dentro de cada uno de ellos varios
ES diferentes), por lo que es imposible ajustar el tiempo de presentación de cada uno de los
paquetes en función de su tiempo de llegada. (Figura 1.3) (11)




                                           Figura 2.3




Ese es el motivo de que dentro de las cabeceras de los PES de vídeo y audio introduzcamos los
campos PTS y DTS.

Los PTS (Presentation Time Stamps) nos darán información del instante en que un
determinado paquetes PES ha de ser presentado en el terminal de televisión.

Los DTS (Decoding Time Stamps) nos informan del instante en que el decodificador debe
decodificar el paquete PES para poder presentarlo a tiempo. Los DTSs solo se incluyen en los
PES de vídeo.

Mediante estos dos campos en las cabeceras PES resolvemos nuestro problema de transmitir
el momento de presentación y decodificación de los diferentes paquetes, pero todavía nos
falta tener la referencia del reloj mediante el cual fueron codificados.

Para resolver este último punto, el codificador MPEG-2 debe introducir referencias del reloj de
programa mediante el que está codificando el audio y el video.

Estas referencias se denominan Program Clock Refererences (PCR).

Los PCR son campos de 42 bits que el codificador MPEG-2 introduce en los paquetes de
transporte (dentro de los campos opcionales de la cabecera de adaptación).

MPEG-2 obliga a la introducción de PCRs al menos 10 veces por segundo, pero el estándar DVB
es todavía más estricto y reduce a 40 ms el tiempo máximo entre PCRs. (12)
MPEG1, MPEG2 y MPEG4


                                                                                                23




                                                                     5
                                    Figura 2.4 Esquema Codificador

Hay que resaltar, que el reloj de programa es único para cada programa de nuestra trama
MPEG-2, pero puede variar entre los diferentes programas.

Por lo tanto, el decodificar engancha su reloj de programa mediante los PCRs introducidos por
el codificador, de tal forma que luego es capaz de decodificar y presentar los diferentes
paquetes PES en el momento adecuado. Dicho momento lo obtiene a partir de los DTS y PTS.
(12)




                                                                         6
                                   Figura 2.5 Esquema decodificador




5
Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo
6
Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo
MPEG1, MPEG2 y MPEG4


                                                                  24
3.5 Video: Códec Compresor para Señales de Video Entrelazado y No
    Entrelazado
Moving Pictures Experts Group 2 (MPEG-2), es la designación para un grupo de estándares de
codificación de audio y vídeo acordado por MPEG (grupo de expertos en imágenes en
movimiento), y publicados como estándar ISO 13818. MPEG-2 es por lo general usado para
codificar audio y vídeo para señales de transmisión, que incluyen televisión digital terrestre,
por satélite o cable. MPEG-2. Con algunas modificaciones, es también el formato de
codificación usado por los discos SVCD y DVD comerciales de películas.

MPEG-2 es similar a MPEG-1, pero también proporciona soporte para vídeo entrelazado (el
formato utilizado por las televisiones.) MPEG-2 vídeo no está optimizado para bajas tasas de
bits (menores que 1 Mbit/s), pero supera en desempeño a MPEG-1 a 3 Mbit/s y superiores.

MPEG-2 introduce y define Flujos de Transporte, los cuales son diseñados para transportar
vídeo y audio digital a través de medios impredecibles e inestables, y son utilizados en
transmisiones televisivas. Con algunas mejoras, MPEG-2 es también el estándar actual de las
transmisiones en HDTV. Un descodificador que cumple con el estándar MPEG-2 deberá ser
capaz de reproducir MPEG-1.(7)

3.5.1 Vídeo entrelazado (campos) / no-entrelazado
El ojo humano es "tonto" y ante una sucesión rápida de imágenes tenemos la percepción de
        un movimiento continuo. Una cámara de cine no es otra cosa que una cámara de fotos
        que "echa fotos muy rápido". En el cine se usan 24 imágenes, o fotogramas, por
        segundo. Es un formato "progresivo" Eso quiere decir que se pasa de una imagen a
        otra rápidamente vemos una imagen COMPLETA y, casi de inmediato, vemos la
        siguiente. Si tenemos en cuenta que vemos 24 imágenes por segundo, cada imagen se
        reproduce durante 0,04167 segundos. Las diferencias, por tanto, entre una imagen y
        otra son mínimas. Para ilustrar este concepto he elegido una sucesión de 4 fotogramas
        de dibujos animados porque los dibujos son también un formato progresivo y porque
        en animación se usa una velocidad de reproducción bastante inferior: 15 imágenes (o
        fotogramas) por segundo (Figura 1.6). Aun así, como se puede apreciar, las diferencias
        entre cuadro y cuadro son muy escasas.




                       Figura 2.6Formato Progresivo (secuencia de imágenes) (8)

El vídeo y la televisión tienen un funcionamiento totalmente distinto al cine. Para empezar hay
dos formatos diferentes. PAL, usado en Europa, y NTSC usado en América y Japón como zonas
más destacadas. En el formato PAL la velocidad de imágenes por segundo es de 25 y de 29,97
MPEG1, MPEG2 y MPEG4


                                                                                                    25
en el formato NTSC. A esta velocidad de imágenes por segundo se le llama Cuadros Por
Segundo en español (CPS),o Frames Per Second en inglés (FPS )

Otra diferencia es que la pantalla de un televisor no funciona como un proyector de cine, que
muestra imágenes "de golpe". Un televisor está dividido en líneas horizontales, 625 en
televisores PAL y 525 en televisores NTSC. Estas líneas no muestran todas a la vez un mismo
fotograma, sino que la imagen comienza a aparecer en las líneas superiores y sucesivamente
se van rellenando el resto hasta llegar a las líneas más inferiores. Un único fotograma no es
mostrado "de golpe", sino de modo secuencial. Al igual que pasaba con el cine, este proceso
de actualización de líneas es tan rápido que, en principio, a nuestro ojo le pasa desapercibido y
lo percibimos todo como un continuo.(8)

   Sin embargo, este proceso presenta, o mejor dicho, presentaba un problema. Las
características de los tubos de imagen de los primeros televisores hacían que cuando la imagen
actualizada llegaba a las últimas líneas (las inferiores) la imagen de las líneas superiores
comenzaba a desvanecerse. Fue entonces cuando surgió la idea de los "campos" y del vídeo
entrelazado. El "truco" está en dividir las líneas del televisor en pares e impares. A cada grupo
de líneas, par o impar, se le llama "campo". Así tendríamos el campo A o superior (Upper o Top
en inglés) formado por las líneas pares (Even en inglés) y el campo B, inferior o secundario
(Lower o Bottom en inglés) formado por las líneas impares (Odd en inglés)

Primero se actualiza un grupo de líneas (campo) y, acto seguido se actualiza el otro.

En la figura 2 que presento a continuación las líneas negras formarían el campo A o superior
(Upper o Top) y las líneas rojas formarían el campo B o inferior (Lower o Bottom)(8)




                                          Figura 2.7(8)


Esa división de la imagen en campos tiene consecuencias TRASCENDENTALES para nosotros:

La primera consecuencia es que estamos dividiendo un único fotograma en dos campos. Ya no
vamos a tener 25 o 29,97 cps (cuadros por segundo) sino 50 o 59,94 semi-imágenes o, más
correctamente, campos por segundo. De ese modo, un único fotograma(fotografía, o dibujo en
este caso), que tiene un tamaño "completo" se dividiría en dos imágenes (Figura 3) con la
mitad de líneas (la mitad de resolución vertical) Eso, en principio, no representaría problema
MPEG1, MPEG2 y MPEG4


                                                                                                 26
alguno si no fuera porque cada campo se corresponde a un momento distinto en el tiempo, de
modo que cada campo ofrece una imagen distinta (he marcado de rojo las zonas en las que
puedes fijarte para notar las diferencias)




                                       Figura 2.8División de imágenes(8)

¿Qué ocurre si juntamos los dos campos en un mismo fotograma? Esto...




                                Figura 2.9Unión de imágenes(8)

Si comparas las dos imágenes grandes con sus correspondientes de arriba verás que, en
proporción, tienen el mismo ancho (resolución horizontal) pero el doble de resolución vertical
porque hemos entrelazado, esto es, MEZCLADO, los dos campos. Aunque los dos campos
muestran instantes en el tiempo muy próximos entre sí al sumarse las líneas de un campo con
las líneas del otro en un mismo fotograma se puede apreciar claramente la diferencia.(8)

La segunda consecuencia que todo esto tiene para nosotros es que trabajar con vídeo
entrelazado no supone problema alguno cuando el destino del vídeo sea un televisor, puesto
que un televisor NECESITA vídeo entrelazado. Sin embargo, el monitor de nuestro ordenador
funciona en modo progresivo, esto es, mostrando imágenes "de golpe", igual que en el cine.
MPEG1, MPEG2 y MPEG4


                                                                                                  27
Siempre que reproduzcamos vídeo entrelazado en un monitor lo veremos "rayado", como en
la imagen de arriba, ya que se sumarán los dos campos para mostrar el vídeo con la resolución
completa. Cuando una escena es estática, no hay cambios, ambos campos coinciden, o varían
mínimamente, y la reproducción parece correcta a nuestros ojos (fíjate en el banco). Sin
embargo, en movimientos, sobretodo de izquierda-derecha (o viceversa) las diferencias entre
un campo y otro son muy notables, tal y como hemos podido comprobar en la imagen de
ejemplo. [1]

3.5.2 Compresión
Moving Pictures Experts Group Layer 2 (MPEG-2) es uno de los formatos de compresión más
utilizados gracias a sus códecs (codificadores-descodificadores) de bajas pérdidas.

La compresión se basa en la comparación tanto espacial (si un punto de la imagen es idéntico
al de a lado, basta con enviar cuántos puntos hay iguales y dónde están) como temporal (si un
frame o cuadro es muy similar al siguiente, basta con enviar la diferencia entre el actual y el
anterior). Así, para el segundo sistema de compresión el contenido de imagen se predice,
antes de la codificación, a partir de imágenes reconstruidas pasadas y se codifican solamente
las diferencias con estas imágenes reconstruidas y algún extra necesario para llevar a cabo la
predicción. Respecto al primer paso de compresión, las muestras tomadas de imagen y sonido
son divididas en celdas de 16x16 y transformadas en espacio-frecuencia y cuantificadas.

MPEG-2 realiza la codificación genérica de imágenes en movimiento y el audio asociado
enviado directamente sin compresión desde el centro de producción en “unidades de
presentación” que son sustituidas por “unidades de acceso”, que en el caso de la señal de
vídeo se dividen en tres: cuadros intra (I), cuadros posteriores predecibles (P) y cuadros
predecibles bidireccionales (B), arreglados en un orden específico llamado “La estructura GOP”
(GOP = Group Of Pictures o grupo de imágenes).

GOP es la mínima cadena MPEG completamente decodificable por sí sola. Por tanto debe
tener una frame I y sus referenciadas P o B. Los cuadros I serán los que contengan la
información completa del frame (aunque comprimida espacialmente) mientras que el resto se
crearán en el proceso de codificación.(7)

3.5.3 FPS (Frames per second) - cuadros por segundo
El vídeo, en realidad, no es un continuo de imágenes, sino "fotografía en movimiento" La
retina tiene la propiedad de retener durante unos instantes lo último que ha visto de modo
cuando vemos una secuencia de imágenes, pero que cambia rápidamente, las imágenes se
superponen en nuestra retina unas sobre otras dando la sensación de continuidad y
movimiento. Ahora bien, ¿cuántos cuadros por segundo (frames per second en inglés) son
necesarios para crear esa sensación de continuidad?

El estándar actual establece lo siguiente:

    •   Dibujos animados: 15 fps
    •   Cine: 24 fps
    •   Televisión PAL: 25 fps, que en realidad son 50 campos entrelazados, o semi-imágenes,
        por segundo
MPEG1, MPEG2 y MPEG4


                                                                                                  28
    •   Televisión NTSC: 29'97 fpsque en realidad son 60 campos entrelazados, o semi-
        imágenes, por segundo

El resultado de la codificación MPEG de una secuencia de vídeo, es una sucesión de “Unidades
de Acceso de Vídeo y/o Audio”, que serán “empaquetados” para su futura multiplicación con
las diferentes señales provenientes de cada uno de los centros audiovisuales.

La tasa de bit de salida de un codificador MPEG-2 puede ser constante (CBR) o variable (VBR),
con un máximo determinado por el sistema en el que vaya a ser utilizado – por ejemplo, el
máximo posible en un DVD de película es de 10.4 Mbit/s. Para lograr una tasa de bits
constante el grado de cuantificación es alterado para lograr la tasa de bits requerida. (11)

3.5.4 Flujo de datos (bitrate)
Un factor determinante en la calidad final del vídeo es el flujo de datos. Se llama así a la
cantidad de información por segundo que se lee del archivo de vídeo para reproducirlo. Al
igual que con el tamaño de imagen, a mayor flujo de datos, mejor calidad de imagen, pero hay
que tener en cuenta que el flujo de datos es, en muchas ocasiones, más importante que el
tamaño y capturas de gran tamaño, pero poco flujo de datos pueden llegar a tener una calidad
realmente desastrosa. Aunque el tamaño de pantalla sea mayor, el escaso ancho de banda
para los datos hacen que para guardar la información de luminancia y color del vídeo sea
necesario agrupar muchos píxeles con la misma información degradando la imagen
rápidamente. El efecto resultante, es parecido al que conseguimos aumentando una imagen
de baja resolución.(11)

3.5.5 Flujo de Datos Constante (CBR - Constant Bit Rate)
¿Tiene un CD grabable a mano? Mírelo. Verá que dice 650MB - 74 Min. Es decir, tiene una
capacidad de 650 MB que equivalen a 74 minutos de audio. Hay un flujo constante de 150
KB/s, suficientes para suministrar toda la información necesaria de audio. Si tenemos en
cuenta que para poder registrar TODA la información de un vídeo PAL a pantalla completa
(720x576) necesitamos un CBR (Fujo de Datos Constante) de 32.768 KB/s entendemos pronto
el porqué de la compresión a la hora de trabajar con vídeo. Una hora de vídeo a pantalla
completa sin comprimir son 115.200 MB.[2]

El principal inconveniente del CBR se presenta a la hora de capturar con compresión. Uno de
los principales métodos de compresión (el MPEG) basa su compresión, además de comprimir
la imagen fija, en guardar los cambios entre un fotograma (o fotogramas) y el siguiente (o
siguientes). Aunque el flujo de datos sea escaso, no tendremos problemas de calidad en
escenas con poco movimiento y pocos cambios de imagen entre fotograma y fotograma. El
problema llega con escenas de acción en las que la cámara se mueve con rapidez y un
fotograma es muy, o totalmente diferente, del anterior o el siguiente. En ese caso, el ancho de
banda necesario para guardar los cambios entre fotograma y fotograma crece
considerablemente y queda menos espacio para comprimir la imagen, deteriorándola
notablemente, tanto más cuanto menor sea el flujo de datos.

Este es el principal problema del VCD y lo que nos lleva a todos de cabeza. El VCD usa CBR de
1150 Kbit/s para el vídeo y 224 para el audio, aunque se aconseja rebajar el audio a 128 Kbit/s
y ampliar el vídeo a 1246 Kbit/s puesto que este formato también es compatible en la mayoría
MPEG1, MPEG2 y MPEG4


                                                                                                   29
de los casos con el formato VCD al no pasar de los 1347 Kbit/s de CBR que se especifican en su
estándar. Con un flujo de datos de vídeo tan bajo, cualquier incremento es realmente de
agradecer.(11)

3.5.6 Flujo de Datos Variable (VBR - Variable Bit Rate)
El único inconveniente del Flujo de Datos Variable (VBR) es que no podremos predecir cuál
será el tamaño final exacto de nuestros archivos (aunque sí podemos conocer el máximo o
mínimo), todo depende de la complejidad del vídeo puesto que, como su nombre sugiere, el
flujo de datos varía dependiendo de la complejidad de las imágenes a comprimir. Si el vídeo
tiene poco movimiento, conseguiremos bastante más compresión que con CBR pero, si por el
contrario el vídeo contiene muchas secuencias de acción, el tamaño final del vídeo puede ser
sensiblemente mayor que usando CBR, pero a cambio habremos preservado la calidad.

Cuando trabajamos con CBR basta con especificar el flujo de datos que queremos que tenga
nuestro vídeo, pero cuando trabajamos con VBR tenemos varias opciones:

  1. Especificar un valor medio al que el programa con el que trabajemos tratará de ajustarse
en la medida de lo posible, proporcionando un flujo mayor para escenas complejas y
reduciéndolo en escenas más tranquilas.

NOTA: La mayoría de compresores no nos dejarán usar esta opción a no ser que elijamos
comprimir a doble pasada.

   2. Determinar valores máximo y mínimo. En esta ocasión eliminamos el "criterio" del
ordenador para marcar los límites por encima y por debajo.

   3. Establecer una opción de calidad de la imagen que se deberá de mantener sin importar el
flujo de datos. Si queremos calidad, esta será siempre la opción a utilizar, puesto que siempre
usará el flujo de datos mínimo necesario para preservar la calidad especificada. De este modo,
evitamos el efecto que se produce en vídeos de CBR en los que unas secuencias se ven
perfectas y otras muy pixeladas con la imagen bastante degradada. El tamaño final es
completamente desconocido, pero preservaremos una calidad constante en todo el vídeo.(11)

3.5.7 Unidades de acceso codificación Mpeg-2
Para la compresión, la imagen de video es separada en dos partes: luminancia (Y) y
crominancia (U y V) y tanto la compresión espacial como temporal se realizarán sobre cada
parte. A su vez éstos son divididos en “macro-bloques” los cuales son la unidad básica dentro
de una imagen. Cada macro-bloque es dividido en cuatro bloques de luminancia (divididos a su
vez en bloques de 8x8 píxeles). El número de bloques de croma dentro de un macro-bloque
depende del formato de color de la fuente. Por ejemplo en el formato común 4:2:0 hay un
bloque de croma por macro-bloque para el canal U y otro para el canal V haciendo un total de
seis señales por macro-bloque.

La codificación consiste en lo siguiente: los cuadros I (intra-codificado) son tratados de forma
que los cuadros P y B primero son sujetos a un proceso de “compensación de movimiento”, en
el cual son correlacionados con la imagen previa (y en el caso del cuadro B, la siguiente). Cada
macro-bloque en la imagen P o B es entonces asociado con un área en el frame previo o
siguiente que esté bien correlacionado con alguno de éstos (anterior o posterior). Se crea así
MPEG1, MPEG2 y MPEG4


                                                                                                   30
un "vector de movimiento" que mapea el macro-bloque con su área correlacionada, es
codificado y entonces la diferencia entre las dos áreas es pasada a través del proceso de
codificación. Cada bloque es procesado con una transformada coseno discreta (DCT) 8x8. El
coeficiente DCT resultante es entonces cuantificado de acuerdo a un esquema predefinido,
reordenado a una máxima probabilidad de una larga hilera de ceros, y codificado. Finalmente,
se aplica un algoritmo de codificación Huffman de tabla fija. [3]

En el caso de la señal de vídeo, las “Unidades de Acceso” comprimidas, como hemos
comprobado, son de 3 tipos, correspondiendo a otros tantos tipos de imágenes MPEG:

   •    Imágenes tipo I (Intra): Se codifican sin ninguna referencia a otras imágenes, es decir:
        contienen todos los elementos necesarios para su reconstrucción. Tamaño: 100 kbytes
   •    Imágenes tipo P (Previstas): Se codifican con respecto a la imagen de tipo I o de otra P
        anterior, gracias a las técnicas de predicción con compensación de movimiento. Su
        tasa de compresión es claramente mayor que la de las imágenes I: Tamaño 33 kbytes.
   •    Imágenes tipo B (Bidireccionales): Se codifican por interpolación entre las dos
        imágenes de tipo I o P precedente y siguiente que las enmarcan. Ofrecen la tasa de
        compresión más alta: Tamaño 12 kbytes.

El tamaño real depende del objetivo de velocidad binaria buscado y de la complejidad de la
imagen. Los valores citados corresponden a un flujo comprimido de 5 Mbps.

Hay muchas estructuras posibles pero una común es la de 15 marcos de largo, teniendo la
siguiente secuencia I_BB_P_BB_P_BB_P_BB_P_BB_. (7)

La relación de cuadros I, P y B en “la estructura GOP” es determinado por la naturaleza del
flujo de video y el ancho de banda que constriñe el flujo. Además el tiempo de codificación
puede ser un asunto importante. Esto es particularmente cierto en las transmisiones en
directo. Un flujo que contenga varios cuadros B puede tardar tres veces más tiempo para
codificar que un archivo que sólo contenga cuadros I (sin codificación temporal).

En el caso de la señal de audio, las “Unidades de Acceso” típicamente contienen unas pocas
decenas de milisegundos de audio comprimido.

3.5.8   Vídeo entrelazado


   •    El estándar MPEG-2 soporta ambos formatos,
            – vídeo entrelazado
            – y vídeo progresivo,
            – por lo que se debe distinguir entre cuadro y campo.
   •    Los campos de un cuadro de vídeo entrelazado pueden ser
            – codificados separadamente (imágenes-campo)
            – o pueden ser juntados de nuevo para formar el cuadro original y ser
                codificados como una única imagen (imágenes-cuadro), como en el estándar
                MPEG-1.
   •    Como en MPEG-1, todas las imágenes de entrada (bien sean cuadros o campos)
        pueden ser codificadas como imágenes I, P o B.
MPEG1, MPEG2 y MPEG4


                                                                                  31
–   Si la primera imagen de un cuadro codificado es una imagen-campo de tipo I,
    entonces la segunda imagen puede ser o una imagen de tipo I o una imagen-
    campo de tipo P.
–   Si la primera imagen es una imagen-campo de tipo P o B, entonces la segunda
    imagen-campo tiene que ser del del mismo tipo.(11)
MPEG1, MPEG2 y MPEG4


                                                                                               32
3.6 CÓDEC COMPRESOR DE SEÑALES DE AUDIO
La codificación de audio MPEG proporciona un método de compresión de audio de alta
calidad.

El algoritmo se basa en un modelo de percepción del oído humano para determinar qué
señales están enmascaradas y, por tanto, pueden eliminarse sin que se produzca pérdida
apreciable en la calidad percibida por el oyente.(13)

Las características principales del algoritmo son:

    •   Frecuencias de muestreo de 32, 44.1 y 48 kHz con 16 bits por muestra.
    •   Uno o dos canales de audio con cuatro modos posibles de funcionamiento: mono,
        dual, estéreo y joint estéreo.
    •   Velocidades binarias de salida desde 32 hasta 192 Kb/s por canal.
    •   Tres capas que van de menor a mayor calidad.
    •   La trama puede incluir datos auxiliares además de la información de audio.

El modelo del sistema de codificación de audio en MPEG:




                        Figura 2.10 Sistema de codificación de audio en MPEG (13)

La trama de audio MPEG-2 aporta nuevas funciones:

    •   Audio multicanal. Sonido envolvente (surround). Son 3 canales frontales, 2 canales
        traseros y un canal de refuerzo de graves.
    •   Soporte para audio multilingüe.
    •   Nuevas frecuencias de muestreo (16, 22.05 y 24 kHz).

Para mantener la compatibilidad con la trama MPEG-1, la trama MPEG-2 se construye en torno
a dos canales principales mientras que el resto de la información necesaria para los canales
surround o multilingües se incluyen en la zona de datos auxiliares. (13)

MPEG-2 también introduce nuevos métodos de codificación audio ya que este estándar es la
segunda fase del proceso de estandarización MPEG y consta de tres elementos bien
diferenciados: (14)
MPEG1, MPEG2 y MPEG4


                                                                                                      33
    •   Extensión de MPEG-1 para tasas de muestreo bajas: Incluye tasas a 16, 22.05 y 24
        ksps, que originan tasas binarias por debajo de 64 kbps para cada canal. Es una
        extensión muy fácilmente incorporable a los reproductores MPEG-1.
    •   Extensión a sonido multicanal compatible con MPEG-1: Permite la utilización de hasta
        cinco canales con tasa binaria máxima más un sexto canal de mejora de las bajas
        frecuencias. Esta extensión es compatible con MPEG-1 siendo posible la reproducción
        de los bitstreams MPEG-2 BC mediante reproductores MPEG-1.
    •   Nuevo esquema de codificación: Este nuevo esquema se denomina Advanced Audio
        Coding (AAC) y genera bitstreams que no pueden ser utilizados por los reproductores
        MPEG-1. Mejora mucho la razón de compresión de los datos.



3.6.1   Layers y profiles


MPEG-1 y los dos primeros elementos de MPEG-2 contienen tres layers. Dada la
compatibilidad de los dos primeros elementos de MPEG-2 con la primera fase, la
especificación de los tres layers no varía. (14)


Sin embargo, cuando hablamos de MPEG-2 AAC, que ya no es compatible con las versiones
anteriores, se habla de tres perfiles (profiles). La diferencia radica en que los layers definen la
estructura de la información codificada (sus tasas de muestreo, tasa de bits, etc.) y también la
forma en que esta información debe ser transportada (bitstream formado por cuadros con una
estructura fija). MPEG-2 AAC estandariza la forma que toma la información codificada pero no
cómo debe ser transportada, lo que se deja a la aplicación. Por otro lado, MPEG-2 AAC,
estandariza dos ejemplos típicos que pueden emplearse para el transporte de los datos:

    •   ADIF (Audio Data Interchange Format). Esta especificación recoge toda la información
        para poder decodificar los datos es una única cabecera al comienzo del bitstream. Está
        indicado para el intercambio de ficheros de audio.
    •   ADTS (Audio Data Transport Stream). Esta especificación divide el bitstream en
        cuadros, de forma similar a MPEG-1, que se encuentran entre dos marcas de
        sincronización y permiten tasas de bits variables. Está más indicado para difusión de
        audio en un entorno de red.(14)

Los perfiles estandarizados para MPEG-2 AAC son tres, denominados Perfil Principal (Main
Profile), de Complejidad Baja (Low Complexity Profile) y de Tasa de Muestreo Escalable
(Scalable Sampling Rate Profile). Cada uno está indicado para unos determinados usos:

    •   Perfil Principal: Es apropiado cuando la capacidad de procesamiento y el uso de la
        memoria no sean parámetros críticos.
    •   Perfile de Complejidad Baja: Si alguno de los parámetros anteriores, capacidad de
        procesamiento o uso de memoria, son críticos; este perfil es el más adecuado.
    •   Tasa de Muestreo Escalable: Para los casos en los que se requiera un decodificador
        escalable. (14)
MPEG1, MPEG2 y MPEG4


                                                                                                   34
MPEG define 3 capas de codificación de audio, cada una añade complejidad a la anterior. La
codificación se realiza dividiendo las secuencias de audio en tramas (de 384 muestras), que se
filtra para obtener las bandas críticas: (15)

   •    La capa 1 sólo considera en enmascaramiento frecuencial,
   •    La capa 2 considera además el enmascaramiento temporal estudiando 3 tramas a la
        vez,
   •    La capa 3 utiliza filtros no lineales, elimina redundancias provocadas por el muestreo y
        utiliza codificación de Huffman.

3.6.2   Sistema con 5 Canales. (15)


   •    MPEG-2 proporcionan este sistema de 5+1. El sistema MPEG-2 actualmente "sólo" se
        utiliza para la difusión vía satélite, cable y para el formato DVD (junto con DOLBY AC-
        3).
   •    El sistema MPEG-2 proporciona dos canales más pensando en locales de grandes
        dimensiones (cines,...) para cubrir ángulos muertos.
   •    El sistema MPEG-2 está basado en la compatibilidad, ya que permite la reproducción
        en sistemas que sólo soporten un número de canales limitado.
   •    Esta compatibilidad se consigue empleando técnicas de multiplexación matricial
        durante la codificación y decodificación.

Pero dediquemos al formato más utilizado en la actualidad, ACC.

3.6.3   ADVANCED AUDIO CODING


AAC es un formato informático de señal digital audio basado en el Algoritmo de compresión
con pérdida, un proceso por el que se eliminan algunos de los datos de audio para poder
obtener el mayor grado de compresión posible, resultando en un archivo de salida que suena
lo más parecido posible al original.

El formato AAC corresponde al estándar internacional “ISO/IEC 13818-7” como una extensión
de MPEG-2. Debido a su excepcional rendimiento y la calidad, la codificación de audio
avanzada (AAC) se encuentra en el núcleo del MPEG-4, 3GPP y 3GPP2, y es el códec de audio
de elección para Internet, conexiones inalámbricas y de radio difusión digital. (16)

El AAC utiliza una frecuencia de bits variable (VBR), un método de codificación que adapta el
número de bits utilizados por segundo para codificar datos de audio, en función de la
complejidad de la transmisión de audio en un momento determinado.

AAC es un algoritmo de codificación de banda ancha de audio que tiene un rendimiento
superior al del MP3, que produce una mejor calidad en archivos pequeños y requiere menos
recursos del sistema para codificar y descodificar.(17)
MPEG1, MPEG2 y MPEG4


                                                                                                35
Este códec está orientado a usos de banda ancha y se basa en la eliminación de redundancias
de la señal acústica, así como en compresión mediante la transformada de coseno discreta
modificada (MDCT), muy parecido como en el MP3.(16)

CARACTERÍSTICAS:

   •   No compatible con MPEG-1.
   •   Frecuencia de muestreo: 24 kHz, 22.05 kHz, 16 kHz.
   •   Máxima calidad entre 320 y 384 kbps (5 canales)(17)

Tres opciones:

   •   Máxima calidad (resolución a 23.43 Hz y 2.6 ms)
   •   No predicción
   •   Frecuencias de muestreo escalables (17)

                 3.6.3.1   Diagrama de bloques de un MPEG-2 AAC codificador




                    Figura 2.11Diagrama de bloques de un MPEG-2 AAC codificador(18)

Nombramos las partes del diagrama de bloques:

   •   Control de Ganancia
   •   Modelo perceptivo del sistema de codificación perceptivo.
   •   Bancos de filtros: Basado en MDCT. Se utiliza para descomponer la señal en
       componentes de espectro (tiempo/frecuencia).
   •   TNS (Temporal noise shaping)
   •   Intensidad/Acoplamiento
   •   Predicción: predicción lineal por señales estacionarias. Logra una mejor eficiencia de
       codificación.
   •   M/S coding
   •   Cuantificación: Las componentes espectrales están cuantificadas con el objetivo de
       mantener el ruido.
   •   Control de flujo/distorsión
MPEG1, MPEG2 y MPEG4


                                                                                               36
   •   Codificación sin ruido
   •   Multiplexador de trama de bits(18)

3.6.3.2 Ventajas de AAC con respecto a MP3
El AAC permite sonidos polifónicos con un máximo de 48 canales independientes, así que se
convierte en un códec apropiado para sonido envolvente (Surround) avanzado, sin embargo en
MP3 sólo tenemos dos canales (estéreo).(19)

Por otra parte también ofrece frecuencias de muestreo que varían de 8 KHz a 96 Khz., MP3
sólo soporta desde 16 KHz hasta los 48 khz, por lo cual proporciona una mejor resolución de
sonido.

También tenemos una mejora de la eficiencia de decodificación, que requieren menos
potencia de procesamiento para decodificar.

Pero también tiene una desventaja la cual es que este formato es más pesado con respecto al
MP3 por ejemplo el solo "Sweet Dreams" de Roy Buchanan de 3:37 de duración en MP3 pesa
3.4 MB y en AAC pesa 6.9 MB pero como se ha mencionado anteriormente la calidad del AAC
es mucho mejor y se puede notar la diferencia ya que esta es una canción de 1971 y en MP3 se
pueden escuchar algunos defectos como zumbidos cuando hay silencio los cuales se eliminan
en formato AAC.(19)
MPEG1, MPEG2 y MPEG4


4 ESTANDAR DE CODIFICACIÓN DE AUDIO Y VIDEO MPEG-4                                                     37


                                 Nixon David Villavicencio Sarango / ndvillavicencio@utpl.edu.ec



4.1 Concepto:
MPEG-4, cuyo nombre formal es ISO/IEC 14496 fue introducido a finales de 1998, es el
nombre de un grupo de estándares de codificación de audio y video así como su tecnología
relacionada normalizada por el grupo MPEG (Moving Picture Experts Group) de ISO/IEC.

MPEG-4 toma muchas de las características de MPEG-1 y MPEG-2 así como de otros
estándares relacionados, tales como soporte de VRML (Virtual Reality Modeling Language)
extendido para Visualización 3D, archivos compuestos en orientación a objetos (incluyendo
objetos audio, vídeo y VRML), soporte para la gestión de Derechos Digitales externos y
variados tipos de interactividad. (20)

El principal objetivo de este nuevo formato es ofrecer al usuario final un mayor grado de
interactividad y control de los contenidos multimedia, por lo que en vez de basarse en el
conjunto de la secuencia, el MPEG-4 se basa en el contenido. Así, mientras los estándares
MPEG-1 y MPEG-2 codifican secuencias, el MPEG-4 es capaz de crear representaciones
codificadas de los datos de audio y vídeo que la forman. Un ejemplo simple lo podemos ver en
la Figura 3.1 La Figura 3.1 (a) representa el original sin codificar, mientras que la Figura 3.1 (b)
representa una de las muchas posibles presentaciones de la imagen original tras ser codificada
en MPEG-4, decodificada y manipulada por el usuario. El MPEG-4 ha dividido la imagen original
en diferentes capas: el tipo de fondo, los diferentes objetos y una capa de texto. Luego ha
codificado estos objetos junto con algunos datos asociados de tal manera que permite al
usuario decodificar por separado cada uno de ellos, reconstruir la secuencia con sus valores
originales o, si lo desea, manipular el resultado, tal y como vemos en laFigura 3.1 (b).




                                    (a)                      (b)

                                             Figura 3.1

MPEG-4 está formado por varios estándares, llamados "partes", que incluyen:
MPEG1, MPEG2 y MPEG4


                                                                                                                       38
    •    Parte 1 (ISO/IEC 14496-1): Sistemas: Describe la sincronización y la transmisión
         simultánea de audio y vídeo.

    •    Parte 2 (ISO/IEC 14496-2): Visual: Un códec 7 de compresión para elementos visuales
         (video, texturas, imágenes sintéticas, etc.). Uno de los muchos perfiles definidos en la
         Parte 2 es el Advanced Simple Profile (ASP).

    •    Parte 3 (ISO/IEC 14496-3): Audio: Un conjunto de códecs de compresión para la
         codificación de flujos de audio; incluyen variantes de Advanced Audio Coding (AAC) así
         como herramientas de codificación de audio y habla.

    •    Parte 4 (ISO/IEC 14496-4): Conformidad: Describe procedimientos para verificar la
         conformidad de otras partes del estándar.

    •    Parte 5 (ISO/IEC 14496-5): Software de referencia: Formado por elementos de
         software que demuestran y clarifican las otras partes del estándar.

    •    Parte 6 (ISO/IEC 14496-6): Delivery Multimedia Integration Framework (DMIF).

    •    Parte 7 (ISO/IEC 14496-7): Software optimizado de referencia: Contiene ejemplos
         sobre cómo realizar implementaciones optimizadas (por ejemplo, en relación con la
         Parte 5).

    •    Parte 8 (ISO/IEC 14496-8): Transporte sobre redes IP: Especifica un método para
         transportar contenido MPEG-4 sobre redes IP.

    •    Parte 9 (ISO/IEC 14496-9): Hardware de referencia: Provee diseños de hardware que
         demuestran implementaciones de otras partes del estándar.

    •    Parte 10 (ISO/IEC 14496-10): Advanced Video Coding (AVC): Un códec de señales de
         vídeo técnicamente idéntico al estándar ITU-T H.264.

    •    Parte 12 (ISO/IEC 14496-12): Formato para medios audiovisuales basado en ISO: Un
         formato de archivos para almacenar contenido multimedia.

    •    Parte 13 (ISO/IEC 14496-13): Extensiones para el manejo y protección de Propiedad
         Intelectual (IPMP).

    •    Parte 14 (ISO/IEC 14496-14): Formato de archivo MPEG-4: El formato de archivo de
         contenedor designado para contenidos MPEG-4; basado en la Parte 12.

    •    Parte 15 (ISO/IEC 14496-15): Formato de archivo AVC: Para el almacenamiento de
         vídeo Parte 10, basado en la Parte 12.

    •    Parte 16 (ISO/IEC 14496-16): Animation Framework eXtension (AFX).




7
 Códec: en el contexto de las telecomunicaciones (coder/decoder) es un dispositivo encargado de convertir señales
digitales a analógicas y analógicas a digitales, dentro de la computación (compressor/decompressor) es la tecnología
utilizada para comprimir y descomprimir datos (como ser sonidos o archivos de video).
MPEG1, MPEG2 y MPEG4


                                                                                                 39
   •   Parte 17 (ISO/IEC 14496-17): Formato de subtítulos (en elaboración - el último avance
       en su revisión data de enero de 2005).

   •   Parte 18 (ISO/IEC 14496-18): Compresión y transmisión como flujo de fuentes
       tipográficas (para fuentes OpenType).

   •   Parte 19 (ISO/IEC 14496-19): Flujos de texturas sintetizadas.

   •   Parte 20 (ISO/IEC 14496-20): Representación liviana de escenas (LASeR).

   •   Parte 21 (ISO/IEC 14496-21): Extensión de MPEG-J para rendering (en elaboración - el
       último avance en su revisión data de enero de 2005).

Las partes del estándar que se encuentran subrayadas se consideran las partes más
importantes del mismo dentro de nuestro campo de aplicación que es la TDT (Transmisión
Digital Terrestre), siendo más específicos dentro de lo que es IPTV (Protocolo de Televisión a
través de Internet) por consiguiente serán analizados en profundidad a lo largo de esta
investigación.
MPEG1, MPEG2 y MPEG4


                                                                                                                          40
4.2 Introducción.
MPEG-4, es el estándar usado para proporcionar a los usuarios un nuevo nivel de interacción
con información de tipo visual, basándose en tecnología para visualizar, acceder y manipular
objetos en lugar de píxeles 8, además de presentar una gran robustez frente a errores en un
amplio rango de anchos de banda. El estándar proporciona herramientas para codificación de
formas, estimación y compensación de movimiento, codificación de texturas, recuperación
frente a errores, codificación de “sprites” y escalabilidad 9. La base para la interoperabilidad
viene dada por diversos puntos de conformidad definidos en el estándar en forma de tipos de
objetos, perfiles y niveles.

MPEG-4 es uno de los tantos sistemas de compresión de video digital que compite
actualmente en el mercado para satisfacer las necesidades de los usuarios en esta área. Entre
los protagonistas más importantes se encuentran RealPlayer de RealNetworks, Windows
Media Player de Microsoft y QuickTime de Apple. La ventaja que MPEG-4 posee, además de
que sus versiones previas 1 y 2 ya están establecidas, es que fue creado y diseñado de forma
de poder trabajar con diversos dispositivos electrónicos de bajo costo y bajo poder de
procesamiento contra los otros tres que requieren hacer uso de la potencia de procesamiento
de los PC.

Otra ventaja del formato MPEG-4 es que contiene una gran y robusta caja de herramientas, lo
cual permite a un usuario adaptar uno o más de sus 23 perfiles matemáticos para cualquier
número de dispositivos, desde PDAs hasta STBs.

Teniendo en cuenta todo lo mencionado, se puede decir que MPEG-4 tiene una considerable
ventaja frente a sus competidores.

El nuevo paradigma de MPEG-4 sostiene que el estándar permite dar un paso al costado de lo
que se denomina “paradigma de la televisión”. Básicamente una vista en dos dimensiones del
mundo, una contra otra, en la cual el usuario puede no sólo observar lo que está aconteciendo
sino también interactuar. En otras palabras, MPEG-4 ayuda a que se junten los mundos de las
comunicaciones, informática y televisión/cine/entretenimientos.

Los estándares MPEG-1 y -2 fueron creados con alcances claramente definidos y tecnologías
conocidas. Por el contrario, los trabajos en el estándar MPEG-4 comenzaron en un período de
grandes y rápidos cambios, por lo que surgieron dificultades en definir el alcance del mismo.
MPEG-4 es el primer estándar de representación de imágenes en movimiento que pasa de
simplemente “mirar” a “interactuar”.

El ser humano no desea interactuar con entidades abstractas, sino con entidades que posean
un significado. El concepto de escena es central en MPEG-4. Otro aspecto es la integración.

MPEG-4 busca de forma armoniosa integrar objetos audiovisuales tanto naturales como
sintéticos. La flexibilidad y extensibilidad son aspectos fundamentales en el entorno


8
Píxel: Elemento de la imagen. El área más pequeña con resolución en una pantalla de presentación de video.
9
 Escalabilidad: es la propiedad deseable de un sistema, una red o un proceso, que indica su habilidad para extender
el margen de operaciones sin perder calidad, o bien manejar el crecimiento continuo de trabajo de manera fluida, o bien
para estar preparado para hacerse más grande sin perder calidad en los servicios ofrecidos.
MPEG1, MPEG2 y MPEG4


                                                                                                               41
tecnológico que vivimos. MPEG-4 brinda esos aspectos mediante un lenguaje denominado SDL
(syntactic description language). MPEG-4 se centra en tres industrias que crecen rápidamente
y cuyas interdependencias aumentan de forma constante.

En el área de las telecomunicaciones, se experimenta un gran avance en las comunicaciones
inalámbricas. El audio y video se hace rápidamente su espacio en el mundo de la informática
(TV/Cine). La interactividad se introduce dentro de los servicios y aplicaciones audiovisuales.

A diferencia de MPEG-2 el cual opera a altas tasas de bits, MPEG-4 ofrece:

     •   Todo tipo de representación de datos. Desde video (altas y bajas tasas de bits) y
         música a objetos en tres dimensiones y texto;
     •   La posibilidad de manipular varios objetos dentro de una escena;
     •   La posibilidad de interactuar;
     •   Proveer un sistema de entrega independiente del formato de representación y de esa
         manera permitir que sea usado sobre una amplia variedad de entornos para la entrega
         de los datos.

El enfoque de este nuevo sistema de codificación y decodificación se basa en objetos, en lugar
de simplemente series de imágenes. Esto quiere decir que la escena es creada mediante el uso
de objetos individuales y relaciones en el espacio y el tiempo en lugar de imágenes completas.
Entre las ventajas de este enfoque se pueden destacar:

     •   La posibilidad de representar diferentes objetos de manera distinta a la hora de
         comprimirlos.
     •   La posibilidad de integrar varios tipos de datos en una única escena (por ejemplo
         dibujos animados y acción de la vida real).
     •   La posibilidad de interactuar con los objetos.

El estándar MPEG-4 está compuesto básicamente por seis partes:

     •   Sistemas: Descripción de la escena, multiplexación10 y sincronización.
     •   Visual: Representación codificada tanto de objetos naturales como sintéticos.
     •   Audio: Representación codificada de objetos naturales y sintéticos de audio.
     •   Prueba de conformidad.
     •   Software de Referencia.
     •   DMIF (Delivery Multimedia Integration Framework): Para su corriente sobre sistemas
         genéricos.

Herramientas MPEG-4: Aparte de las herramientas heredadas de MPEG-1 y MPEG-2 (systems
target, decoder y paquetizacion de corrientes), MPEG-4 posee un nuevo conjunto de
herramientas:




10
 Multiplexación:Técnica que permite compartir un medio o un canal entre variascomunicaciones. Su objetivo es
minimizar la cantidad de líneas físicasrequeridas y maximizar el uso del ancho de banda de los medios.
MPEG1, MPEG2 y MPEG4


                                                                                                  42
•   Systems Decoder Model: Dado que las corrientes de MPEG-4 pueden diferir de las
    anteriores fue necesario asegurar que la forma en la cual el contenido se transporta, no se
    encuentre integrado dentro de su arquitectura;

•   Sync Layer: Codifica la información sobre la sincronización que se necesita para asegurar
    que MPEG-4 pueda direccionar desde pocos Kbps hasta varios Mbps;

•   FlexMux (Flexible Multiplex): Su función es mejorar el transporte de contenido MPEG-4
    en ambientes donde dichas corrientes pueden comportarse de forma impredecible en el
    transcurso del tiempo y ese comportamiento impredecible puede ocurrir reiteradamente.
MPEG1, MPEG2 y MPEG4


                                                                     43
4.3 Sistema: Sincronización y multiplexado de video y audio, Parte 1
    (ISO/IEC 14496-1).
Como se explicó anteriormente, MPEG-4 define una caja de herramientas de algoritmos de
compresión avanzada para la información de audio y video. Los flujos de datos (Elementary
Streams, ES) que resulten del proceso de codificación pueden ser transmitidos o almacenados
por separado, y deben estar compuestos a manera de crear la presentación real de multimedia
en el lado receptor.

La parte de los sistemas MPEG-4 se refiere a la descripción de la relación entre los
componentes audio-visuales que constituyen una escena. La relación se describe en dos
niveles principales

El formato binario para las escenas (BIFS) describe el espacio-temporal de los acuerdos de los
objetos en la escena. Los lectores pueden tener la posibilidad de interactuar con los objetos,
por ejemplo, reordenando ellos en la escena o cambiar su propio punto de vista en un entorno
virtual en 3D. La descripción de la escena proporciona un rico conjunto de nodos de 2-D y 3-D y
los operadores de la composición de gráficos primitivos.

En un nivel inferior, de Objetos Descriptores (OD) se define la relación entre los flujos
elementales pertinentes a cada objeto (por ejemplo, el audio y la secuencia de vídeo de un
participante en una videoconferencia). Los OD también proporcionan información adicional
como la dirección necesaria para acceder al ES, las características de los descodificadores
necesarios para el análisis, la propiedad intelectual y otros. [2]

Dentro a la que concierne al sistema de mpeg-4 podemos recalcar las siguientes
características con las que cuenta el estándar:

        •   BIFS (Binary Format for Scenes).
        •   ODs (Object Descriptors).
        •   Interactividad.
        •   Herramienta FlexMux.
        •   Interfaces para terminales y redes. (MPEG-J).
        •   Capa de transporte independiente.
        •   Representación de texto.
        •   Control de los buffers de recepción.
        •   Identificación temporal, sincronización y mecanismos de recuperación.
        •   Encubrimiento de los datos de los Derechos de la Propiedad Intelectual.

A continuación se muestra un esquema que explica el modelo de multiplexación y
demultiplexación en forma básica, también muestra el modelo de codificación y
decodificación.
MPEG1, MPEG2 y MPEG4


                                                                                                                44




              Figura 3.2 Esquema de multiplexación- demultiplexación, codificación-decodificación



                     Codificació                                  Decodificaci
                     n de VOo                                     ón de VOo

Formació
                                            M          D
n de VO’s           Codificació                                   Decodificaci                 Composició
                    n de VO1                U          M          ón de VO1                     n de VO’s

                                            X          U

                     Codificació
                                                       X
                                                                  Decodificaci
                     n de VOn                                     ón de VOn



                                                                                                    Salida de
Información         Interacción del                           Interacción del
                                                                                                      video
  de video              usuario                                   usuario
MPEG1, MPEG2 y MPEG4


                                                                  45
4.4 Video: Códec compresor para señales de video entrelazada y no
    entrelazada


4.4.1 Concepto
MPEG-4 Visual cuyo nombre formal es ISO/IEC 14496-2 (Video): Es un códec de compresión
para elementos visuales (video, texturas, imágenes sintéticas, etc.).

Este códec llamado MPEG-4 Visual que se encuentra dentro de las partes que conforman el
estándar MPEG-4 fue especialmente desarrollado para tecnologías multimedia; MPEG-4
introduce un nuevo concepto en codificación de información visual: codificación basada en
objetos en lugar de codificación basada en frames 11. De esta forma MPEG-4 Visual permite la
codificación individual de los diferentes objetos que conforman la escena.

MPEG-4 Visual no fue concebido concretamente para aplicaciones de streaming, pero se ha
logrado una adecuación extremadamente buena a este tipo de aplicaciones. Otra
característica del estándar es que no dice nada sobre cómo deben llegar los streams al usuario
final, así que estos pueden llegar a través de diferentes maneras, redes y tecnologías.

Los principios básicos de codificación de MPEG-4 y el soporte de herramientas de resiliencia 12
al error y escalabilidad, muestran que el estándar puede ser muy flexible para adaptarse a las
diferentes condiciones de transmisión y codificación, tales como diferencia en las tasas de bits
y condiciones de error diferentes.

     1.1. Características y ventajas de MPEG-4 Visual (ISO/IEC 14496-2, Video)

En los últimos años MPEG-4 ha sido el más adecuado para comunicaciones a través de redes
informáticas básicamente por las siguientes razones:

     •   Puede proveer un alto desempeño en la codificación. Alcanzando tasas de bits de hasta
         5 kbps con algunos de los perfiles.
     •   Las técnicas de codificación de video escalable (temporal y espacial), hacen parte de
         MPEG-4 para ofrecer una codificación de tasa de bits variable para el constante cambio
         en la capacidad de los canales, esto en el caso de aplicaciones sobre redes inalámbricas.
     •   Tiene la más amplia variedad de herramientas de resiliencia al error, las cuales aunque
         no garantizan la corrección de los datos corruptos, sí disminuyen el efecto negativo de
         estos en la calidad visual.
     •   Las funcionalidades de la codificación basada en objetos, permite la interacción con los
         objetos audio-visuales y permite nuevas aplicaciones interactivas en un ambiente
         inalámbrico.
     •   No restringe los objetos visuales a frames rectangulares, sino que lo amplia a objetos
         animados en tres dimensiones, objetos de forma arbitraria.


11
  Frame: Se denomina frame a un fotograma o cuadro, una imagen particular dentro de una sucesión de imágenes que
componen una animación. La continua sucesión de estos fotogramas producen a la vista la sensación de movimiento,
fenómeno dado por las pequeñas diferencias que hay entre cada uno de ellos.
12
  Resiliencia: es la capacidad de recuperación de un error de datos o de una pérdida de información.
MPEG1, MPEG2 y MPEG4


                                                                                                                     46
4.5 Arquitectura decodificador mpeg-4 (ISO/IEC 14496-2, Video).


El decodificador de MPEG-4 perfil simple está conformado por los siguientes bloques
funcionales:

     •   Unidad de procesamiento de bits.
     •   Decodificador de texturas.
     •   Decodificador de vectores de movimiento.
     •   Compensación de movimiento.
     •   Reconstrucción de movimiento.
     •   Etapa de post-procesamiento.
     •   Unidad de control de paralelismo.

Estos 7 bloques funcionales constituyen entre sí una arquitectura paralela, la cual es
sincronizada por la unidad de control y cuyas variantes en el proceso de decodificación son
determinadas por la información lateral obtenida del bitstream 13 . Todos los bloques
funcionales y sus respectivos sub-bloques cuentan con sus propios búferes de memoria, esto
les permite intercambiar datos con otros subsistemas sin dejar de procesar nuevos datos. Solo
la memoria en la que se almacenan los VOPs 14 de referencia y la utilizada para la presentación
en el LCD son memorias externas a la FPGA. La Figura 3.3muestra la arquitectura de hardware
para MPEG-4 Perfil simple.




13
   Bitstream:se utiliza para definir un servicio mayorista de acceso de datos en banda ancha que un operador
(generalmente obligado a ello por tener PSM) ofrece a otros operadores más pequeños, para que estos a su vez
puedan proporcionar servicios minoristas a los usuarios finales.
14
   VOP: (Video Object Plane), planos de objetos de video, es una muestra temporal de un VO, que a su vez se define
como un objeto particular en la escena.
MPEG1, MPEG2 y MPEG4


                                                                                                 47




                       Figura 3.3 Arquitectura decodificador MPEG-4 Visual(21)




4.5.1 Procesamiento de Bitstream
El Procesamiento de bitstream es una de las tareas más importantes en la codificación de
video. Además de obtener la información de textura y movimiento necesaria para reconstruir
la imagen al lado del decodificador, la unidad de procesamiento de bitstream debe soportar las
herramientas de resiliencia al error soportadas por MPEG-4 Visual. Una unidad de
Procesamiento de bitstream está conformada básicamente por una memoria o búfer de
bitstream, el intérprete del bitstream (también conocido como parser), las tablas de códigos
de longitud variable y registros de configuración relacionados con alternativas en la forma de
decodificador el video. La Figura 3.4 muestra el diagrama de bloques para una unidad de
procesamiento de bloques.
MPEG1, MPEG2 y MPEG4


                                                                                                 48




                         Figura 3.4 Unidad de procesamiento Bitstream.(21)




4.5.2 Decodificación de texturas
MPEG-4 denomina textura a la información espacial contenido en los bloques intra e inter-
codificados. El proceso de decodificación de texturas está compuesto por cinco bloques:
decodificador de tripletas last-run-level o EVENTs como los denomina el estándar;
seguidamente se realiza el escaneo inverso para reconstruir el arreglo bidimensional; el paso
siguiente se realiza solo para bloques intra-codificados y se denomina Predicción AC y DC
inversa; finalmente se llevan a cabo los procesos de cuantización inversa y la transformada
inversa del coseno. La Figura 3.5muestra el diagrama de bloques del decodificador de texturas.




                          Figura 3.5 Decodificador información textura.(21)




4.5.3 Decodificador de Vectores de movimiento
Los vectores de movimiento en MPEG-4 Visual después de ser decodificados en entropía
(Unidad de Procesamiento de Bitstream), deben ser reconstruidos ya que en el codificador se
codifican en un formato diferencial. El algoritmo consiste básicamente en hacer un
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg
4 mpeg

More Related Content

What's hot

Acceso multiple de division FDMA, TDMA,CDMA Y PDMA
Acceso multiple de division FDMA, TDMA,CDMA Y PDMAAcceso multiple de division FDMA, TDMA,CDMA Y PDMA
Acceso multiple de division FDMA, TDMA,CDMA Y PDMAfrancisco1707
 
Redes hfc y dth
Redes hfc y dthRedes hfc y dth
Redes hfc y dthGioZ12
 
Grupo 4 metodos de multiplexacion
Grupo 4   metodos de multiplexacionGrupo 4   metodos de multiplexacion
Grupo 4 metodos de multiplexacionCarlos Ventura Luyo
 
Caracteristicas de los diferentes tipos de cables existentes
Caracteristicas de los diferentes tipos de cables existentesCaracteristicas de los diferentes tipos de cables existentes
Caracteristicas de los diferentes tipos de cables existentesmarcorubiomca
 
Sistemas de Tv
Sistemas de TvSistemas de Tv
Sistemas de Tvgilishvd
 
Fdma, tdma, cdma
Fdma, tdma, cdmaFdma, tdma, cdma
Fdma, tdma, cdmaanderssonpe
 
CAPACIDAD DE CANAL DE COMUNICACIÓN DE DATOS
CAPACIDAD DE CANAL DE COMUNICACIÓN DE DATOSCAPACIDAD DE CANAL DE COMUNICACIÓN DE DATOS
CAPACIDAD DE CANAL DE COMUNICACIÓN DE DATOSStudent A
 
8.2 Transmision de datos por fibra óptica
8.2 Transmision de datos por fibra óptica8.2 Transmision de datos por fibra óptica
8.2 Transmision de datos por fibra ópticaEdison Coimbra G.
 
Códigos de línea
Códigos de líneaCódigos de línea
Códigos de líneaOscar Llanos
 
6 Codificación de fuente.ppsx
6 Codificación de fuente.ppsx6 Codificación de fuente.ppsx
6 Codificación de fuente.ppsxJoseBiafore1
 

What's hot (20)

Acceso multiple de division FDMA, TDMA,CDMA Y PDMA
Acceso multiple de division FDMA, TDMA,CDMA Y PDMAAcceso multiple de division FDMA, TDMA,CDMA Y PDMA
Acceso multiple de division FDMA, TDMA,CDMA Y PDMA
 
Modulacion qam
Modulacion qamModulacion qam
Modulacion qam
 
Redes hfc y dth
Redes hfc y dthRedes hfc y dth
Redes hfc y dth
 
Grupo 4 metodos de multiplexacion
Grupo 4   metodos de multiplexacionGrupo 4   metodos de multiplexacion
Grupo 4 metodos de multiplexacion
 
Caracteristicas de los diferentes tipos de cables existentes
Caracteristicas de los diferentes tipos de cables existentesCaracteristicas de los diferentes tipos de cables existentes
Caracteristicas de los diferentes tipos de cables existentes
 
Modulación fm y pm
Modulación fm y pmModulación fm y pm
Modulación fm y pm
 
Ieee 802.16 Wman Wimax
Ieee 802.16 Wman   WimaxIeee 802.16 Wman   Wimax
Ieee 802.16 Wman Wimax
 
Sistemas de Tv
Sistemas de TvSistemas de Tv
Sistemas de Tv
 
Mpls y Atm
Mpls y AtmMpls y Atm
Mpls y Atm
 
Fdma, tdma, cdma
Fdma, tdma, cdmaFdma, tdma, cdma
Fdma, tdma, cdma
 
Tecnología GPON
Tecnología GPONTecnología GPON
Tecnología GPON
 
CAPACIDAD DE CANAL DE COMUNICACIÓN DE DATOS
CAPACIDAD DE CANAL DE COMUNICACIÓN DE DATOSCAPACIDAD DE CANAL DE COMUNICACIÓN DE DATOS
CAPACIDAD DE CANAL DE COMUNICACIÓN DE DATOS
 
8.2 Transmision de datos por fibra óptica
8.2 Transmision de datos por fibra óptica8.2 Transmision de datos por fibra óptica
8.2 Transmision de datos por fibra óptica
 
Comunicaciones analogicas
Comunicaciones analogicasComunicaciones analogicas
Comunicaciones analogicas
 
Final1 tomasi
Final1 tomasiFinal1 tomasi
Final1 tomasi
 
Tema 2: Large-scale path loss
Tema 2: Large-scale path lossTema 2: Large-scale path loss
Tema 2: Large-scale path loss
 
6.3 Parametros de antenas
6.3 Parametros de antenas6.3 Parametros de antenas
6.3 Parametros de antenas
 
Códigos de línea
Códigos de líneaCódigos de línea
Códigos de línea
 
6 Codificación de fuente.ppsx
6 Codificación de fuente.ppsx6 Codificación de fuente.ppsx
6 Codificación de fuente.ppsx
 
Modulación pcm
Modulación pcmModulación pcm
Modulación pcm
 

Similar to 4 mpeg (20)

Formato de vídeo
Formato de vídeoFormato de vídeo
Formato de vídeo
 
Los formatos de vídeo
Los formatos de vídeoLos formatos de vídeo
Los formatos de vídeo
 
Presentación TIC Francisco Illanes (formatos de video)
Presentación TIC Francisco Illanes (formatos de video)Presentación TIC Francisco Illanes (formatos de video)
Presentación TIC Francisco Illanes (formatos de video)
 
H.264 Codec Multimedia
H.264 Codec MultimediaH.264 Codec Multimedia
H.264 Codec Multimedia
 
Mpeg2-mpeg4 canales-retorno
Mpeg2-mpeg4 canales-retornoMpeg2-mpeg4 canales-retorno
Mpeg2-mpeg4 canales-retorno
 
Formatos de video
Formatos de videoFormatos de video
Formatos de video
 
Formatos de video
Formatos de videoFormatos de video
Formatos de video
 
Formatos de video
Formatos de videoFormatos de video
Formatos de video
 
Unidad didactica 3
Unidad didactica 3Unidad didactica 3
Unidad didactica 3
 
Video
VideoVideo
Video
 
Formatos de video
Formatos de videoFormatos de video
Formatos de video
 
H.264/MPEG-4 AVC
H.264/MPEG-4 AVCH.264/MPEG-4 AVC
H.264/MPEG-4 AVC
 
Expo mpeg
Expo mpegExpo mpeg
Expo mpeg
 
MPEG
MPEGMPEG
MPEG
 
Presentacion
Presentacion Presentacion
Presentacion
 
Video digital
Video digitalVideo digital
Video digital
 
Seguridad Integral sobre Vídeo IP
Seguridad Integral sobre Vídeo IPSeguridad Integral sobre Vídeo IP
Seguridad Integral sobre Vídeo IP
 
Mpeg2
Mpeg2Mpeg2
Mpeg2
 
05 Multimedia. Introduccion. Video. Anexo
05 Multimedia. Introduccion. Video. Anexo05 Multimedia. Introduccion. Video. Anexo
05 Multimedia. Introduccion. Video. Anexo
 
Video alexander jonatan
Video alexander jonatanVideo alexander jonatan
Video alexander jonatan
 

More from Francisco Sandoval

Probabilidad y Procesos Estocásticos, Conocimientos previos
Probabilidad y Procesos Estocásticos, Conocimientos previosProbabilidad y Procesos Estocásticos, Conocimientos previos
Probabilidad y Procesos Estocásticos, Conocimientos previosFrancisco Sandoval
 
6 fuerza materiales_magneticos
6 fuerza materiales_magneticos6 fuerza materiales_magneticos
6 fuerza materiales_magneticosFrancisco Sandoval
 
4 problemas electrostatica_valor_en_frontera
4 problemas electrostatica_valor_en_frontera4 problemas electrostatica_valor_en_frontera
4 problemas electrostatica_valor_en_fronteraFrancisco Sandoval
 
3 campos electricos_espacio_material
3 campos electricos_espacio_material3 campos electricos_espacio_material
3 campos electricos_espacio_materialFrancisco Sandoval
 
Introducción comunicaciones satelitales
Introducción   comunicaciones satelitalesIntroducción   comunicaciones satelitales
Introducción comunicaciones satelitalesFrancisco Sandoval
 
Modelos de propagación interiores
Modelos de propagación interioresModelos de propagación interiores
Modelos de propagación interioresFrancisco Sandoval
 
Metodología para el diseño de enlaces satelitales
Metodología para el diseño de enlaces satelitalesMetodología para el diseño de enlaces satelitales
Metodología para el diseño de enlaces satelitalesFrancisco Sandoval
 
2 fundamentos enlaces_radioelectricos
2 fundamentos enlaces_radioelectricos2 fundamentos enlaces_radioelectricos
2 fundamentos enlaces_radioelectricosFrancisco Sandoval
 
1 introducción- Propagación de Ondas
1 introducción- Propagación de Ondas1 introducción- Propagación de Ondas
1 introducción- Propagación de OndasFrancisco Sandoval
 
Práctica 1: Campos Electromagnéticos
Práctica 1: Campos ElectromagnéticosPráctica 1: Campos Electromagnéticos
Práctica 1: Campos ElectromagnéticosFrancisco Sandoval
 
1_introduccion_Campos_Electromagneticos
1_introduccion_Campos_Electromagneticos1_introduccion_Campos_Electromagneticos
1_introduccion_Campos_ElectromagneticosFrancisco Sandoval
 

More from Francisco Sandoval (20)

Ofdm
OfdmOfdm
Ofdm
 
Probabilidad y Procesos Estocásticos, Conocimientos previos
Probabilidad y Procesos Estocásticos, Conocimientos previosProbabilidad y Procesos Estocásticos, Conocimientos previos
Probabilidad y Procesos Estocásticos, Conocimientos previos
 
7 ecuaciones de_ maxwell
7 ecuaciones de_ maxwell7 ecuaciones de_ maxwell
7 ecuaciones de_ maxwell
 
6 fuerza materiales_magneticos
6 fuerza materiales_magneticos6 fuerza materiales_magneticos
6 fuerza materiales_magneticos
 
4 problemas electrostatica_valor_en_frontera
4 problemas electrostatica_valor_en_frontera4 problemas electrostatica_valor_en_frontera
4 problemas electrostatica_valor_en_frontera
 
5 campos magnetostaticos
5 campos magnetostaticos5 campos magnetostaticos
5 campos magnetostaticos
 
3 campos electricos_espacio_material
3 campos electricos_espacio_material3 campos electricos_espacio_material
3 campos electricos_espacio_material
 
2 campos electrostaticos
2 campos electrostaticos2 campos electrostaticos
2 campos electrostaticos
 
7 procesos estocásticos
7 procesos estocásticos7 procesos estocásticos
7 procesos estocásticos
 
Segmento espacial
Segmento espacialSegmento espacial
Segmento espacial
 
Estaciones terrenas
Estaciones terrenasEstaciones terrenas
Estaciones terrenas
 
Introducción comunicaciones satelitales
Introducción   comunicaciones satelitalesIntroducción   comunicaciones satelitales
Introducción comunicaciones satelitales
 
Modelos de propagación interiores
Modelos de propagación interioresModelos de propagación interiores
Modelos de propagación interiores
 
Metodología para el diseño de enlaces satelitales
Metodología para el diseño de enlaces satelitalesMetodología para el diseño de enlaces satelitales
Metodología para el diseño de enlaces satelitales
 
2 fundamentos enlaces_radioelectricos
2 fundamentos enlaces_radioelectricos2 fundamentos enlaces_radioelectricos
2 fundamentos enlaces_radioelectricos
 
1 introducción- Propagación de Ondas
1 introducción- Propagación de Ondas1 introducción- Propagación de Ondas
1 introducción- Propagación de Ondas
 
Práctica 1: Campos Electromagnéticos
Práctica 1: Campos ElectromagnéticosPráctica 1: Campos Electromagnéticos
Práctica 1: Campos Electromagnéticos
 
1_introduccion_Campos_Electromagneticos
1_introduccion_Campos_Electromagneticos1_introduccion_Campos_Electromagneticos
1_introduccion_Campos_Electromagneticos
 
6 vectores gaussianos
6 vectores gaussianos6 vectores gaussianos
6 vectores gaussianos
 
5 valor esperado
5 valor esperado5 valor esperado
5 valor esperado
 

4 mpeg

  • 1. MPEG1, MPEG2 y MPEG4 Estudio de los Formatos de Audio y Video. Luis Delgado Estefanía Loaiza Nixon Villavicencio
  • 2. 1 Tabla de contenido 2 MPEG-1 __________________________________________________________ 3 2.1 RESEÑA HISTÓRICA ___________________________________________________ 3 2.2 CODIFICACION DE AUDIO ______________________________________________ 4 2.2.1 Las capas de audio en MPEG __________________________________________________ 4 2.3 CODIFICACION DE VIDEO_______________________________________________ 7 2.4 PREDICCION BIDIRECCIONAL____________________________________________ 9 2.5 Tipos de Cuadros ____________________________________________________ 11 2.5.1 Cuadros I (Intra) ___________________________________________________________ 11 2.5.2 Cuadros P (Predicted) ______________________________________________________ 11 2.5.3 Cuadros B (Bidirectional o Interpolated) _______________________________________ 11 2.6 Parámetros ________________________________________________________ 12 2.7 Características ______________________________________________________ 13 2.8 Aplicaciones ________________________________________________________ 14 3 MPEG-2 _________________________________________________________ 16 3.1 Introducción ________________________________________________________ 16 3.2 Características ______________________________________________________ 17 3.3 Estándar MPEG-2 ____________________________________________________ 18 3.4 Sistema: Sincronización y multiplexado de video y audio. ___________________ 19 3.4.1 Sistema de multiplexado de Video y Audio _____________________________________ 19 3.4.2 Sincronización Audio Vídeo __________________________________________________ 21 3.5 Video: Códec Compresor para Señales de Video Entrelazado y No Entrelazado __ 24 3.5.1 Vídeo entrelazado (campos) / no-entrelazado ___________________________________ 24 3.5.2 Compresión ______________________________________________________________ 27 3.5.3 FPS (Frames per second) - cuadros por segundo _________________________________ 27 3.5.4 Flujo de datos (bitrate) _____________________________________________________ 28 3.5.5 Flujo de Datos Constante (CBR - Constant Bit Rate) ______________________________ 28 3.5.6 Flujo de Datos Variable (VBR - Variable Bit Rate) _________________________________ 29 3.5.7 Unidades de acceso codificación Mpeg-2_______________________________________ 29 3.5.8 Vídeo entrelazado _________________________________________________________ 30 3.6 CÓDEC COMPRESOR DE SEÑALES DE AUDIO ______________________________ 32 3.6.1 Layers y profiles ___________________________________________________________ 33 3.6.2 Sistema con 5 Canales. (15)__________________________________________________ 34 3.6.3 ADVANCED AUDIO CODING _________________________________________________ 34 4 ESTANDAR DE CODIFICACIÓN DE AUDIO Y VIDEO MPEG-4 ________________ 37 4.1 Concepto: __________________________________________________________ 37 4.2 Introducción. _______________________________________________________ 40
  • 3. MPEG1, MPEG2 y MPEG4 2 4.3 Sistema: Sincronización y multiplexado de video y audio, Parte 1 (ISO/IEC 14496-1). 43 4.4 Video: Códec compresor para señales de video entrelazada y no entrelazada ___ 45 4.4.1 Concepto ________________________________________________________________ 45 4.5 Arquitectura decodificador mpeg-4 (ISO/IEC 14496-2, Video). ________________ 46 4.5.1 Procesamiento de Bitstream _________________________________________________ 47 4.5.2 Decodificación de texturas __________________________________________________ 48 4.5.3 Decodificador de Vectores de movimiento _____________________________________ 48 4.5.4 Decodificador de Compensación de Movimiento ________________________________ 49 4.5.5 Reconstrucción de Movimiento ______________________________________________ 50 4.5.6 Unidad de Control de Paralelismo ____________________________________________ 50 4.5.7 Post-procesamiento _______________________________________________________ 50 4.6 Audio: Códec compresor de señales de Audio, Parte 3 (ISO/IEC 14496-3). ______ 52 4.6.1 Descripción técnica detallada del audio en MPEG-4. ______________________________ 52 4.6.2 Cualidades adicionales del audio en MPEG-4 ____________________________________ 53 4.7 (MPEG-4) Transporte sobre redes IP, AVC, y formato de subtítulos. ___________ 55 4.7.1 Introducción______________________________________________________________ 55 4.7.2 (MPEG-4) Transporte sobre redes IP (ISO/IEC 14496-8) ___________________________ 55 4.7.3 REDES IP y EL TRANSPORTE DE MULTIMEDIA SOBRE ESTAS. _______________________ 58 4.8 (MPEG-4) Advanced Video Coding (AVC) (ISO/IEC 14496-10)_________________ 60 4.8.1 Codificación inter-frame.- ___________________________________________________ 60 4.8.2 Codificación por transformada en H.264.- ______________________________________ 61 4.8.3 Filtro de "deblocking".- _____________________________________________________ 62 4.9 (MPEG-4) Formato de subtítulos (ISO/IEC 14496-17) _______________________ 64 5 Trabajos citados __________________________________________________ 65
  • 4. MPEG1, MPEG2 y MPEG4 3 2 MPEG-1 Luis Delgado / ledelgado@utpl.edu.ec 2.1 RESEÑA HISTÓRICA MPEG o MPEG-1 - Motion Picture Experts Group (Unión de Expertos en Imágenes en Movimiento). MPEG es un grupo de estándares de codificación de audio y vídeo. El desarrollo del estándar MPEG-1 comenzó en mayo de 1988. 14 ofertas de video y 14 de audio del codec fueron sometidas por las compañías y las instituciones individuales para la evaluación. El estándar MPEG-1 nació para permitir el almacenamiento de vídeo y sonido estéreo en CD- ROM a velocidad máxima de 1'5 Mb/s (1,14 Mb/s para el vídeo y 350 kB/s para el audio asociado). Está basado en el algoritmo de compresión de imagen fija JPEG pero se aprovecha de la alta redundancia temporal entre cuadros consecutivos para mejorar la tasa de compresión. Después de 20 reuniones del grupo completo en varias ciudades alrededor del mundo, y de 4 años y medio de desarrollo y de prueba, el estándar final (para las piezas 1-3) fue aprobado en noviembre de 1992 y fue público algunos meses más adelante. La fecha divulgada de la terminación del estándar MPEG-1, varía grandemente… Un estándar de bosquejo en gran parte completo fue producido en septiembre de 1990, y de ese punto encendido, sólo los cambios de menor importancia fueron introducidos. El estándar fue acabado con la reunión del 6 de noviembre de 1992. En julio de 1990, antes de que el primer bosquejo del estándar MPEG-1 incluso hubiera sido escrito, el trabajo comenzó por un segundo estándar, MPEG-2, se prepuso ampliar la tecnología MPEG-1 para proporcionar el vídeo completo de difundir- calidad. (1) Debido en parte a la semejanza entre los dos codecs, el estándar MPEG-2 incluye por completo compatibilidad hacia atrás con el vídeo MPEG-1, así que cualquier decodificador MPEG-2 puede manejar los videos MPEG-1. (1)
  • 5. MPEG1, MPEG2 y MPEG4 4 2.2 CODIFICACION DE AUDIO El estándar de codificación de audio MPEG-1 se basa en la codificación de percepción, que es un proceso de preservación de forma de onda; es decir, la forma de onda de amplitud-tiempo de la señal de audio decodificada se aproxima mucho a la de la señal de audio original en términos generales, el proceso de decodificación comprende cuatro operaciones distintas: 1. Mapeo de tiempo-frecuencia.- Por este medio la señal de audio se descompone en sub- bandas múltiples. 2. Modelación psicoacústica.- Opera en forma simultanea sobre la señal de audio de entrada para calcular ciertos umbrales utilizando reglas conocidas del comportamiento psicoacústico del sistema auditivo humano. 3. Cuantización y codificación.- Junto con el modelo psicoacústico trabaja en la salida del mapeador de tiempo-frecuencia a fin de mantener el ruido que resulta del proceso de cuantización en un nivel inaudible. 4. Empaque de tramas.- Se utiliza para formatear las muestras de audio cuantizadas en una corriente de bits decodificable.(2) 2.2.1 Las capas de audio en MPEG Para el audio, están definidas tres capas, que definen tres niveles de compresión y complejidad: • MP1 o MPEG Layer I • MP2 o MPEG Layer I • MP3 o MPEG Layer I La capa o layer I conforma el algoritmo más básico, mientras que las capas II y III son mejores que usan algunos de los elementos de la capa 1. Cada capa, sucesivamente, va mejorando la compresión, a costa de una mayor complejidad en la codificación. El MPEG/Audio permite usar las capas en cuatro modos: • Estéreo. Codificación independiente de cada canal. • Estéreo Conjunto. Hace uso de la redundancia o información correlacionada entre los canales izquierdo y derecho buscando reducir el flujo binario. • Dual. Dos canales independientes tanto en codificación como en la propia información. • Mono. Un único canal de audio. 2.2.1.1 Layer I. En un primer paso la señal de audio es dividida en 32 sub-bandas para las cuales se definen distintos parámetros de cuantificación y curvas de enmascaramiento en función de la sensibilidad relativa del oído humano al sonido procesado. Las contribuciones frecuenciales donde el oído es más sensible son cuantificadas con mayor precisión que aquellas donde el oído es menos sensible, pudiendo incluso llegarse a descartar bandas completas ya que directamente no serían percibidas por el oído humano.
  • 6. MPEG1, MPEG2 y MPEG4 5 La capa I emplea máscaras de cuantificación a marcos o frames de audio, que consisten en un número de 12 grupos consecutivos de 384 muestras de audio. En la capa más básica se usan 6 bits para codificar el factor de escala (un multiplicador que indica el tamaño de las muestras para rellenar toda la profundidad de bits del cuantificador) y de 0 a 15 bits para cada subbanda. Está basado en el algoritmo PASC (Precision adaptative sub-band coding) de Philips, y su gran ventaja es la sencillez de implementación. 2.2.1.2 Layer II. Basado en el algoritmo MUSICAM requiere flujos binarios, un 30-50% menores que el layer I para la misma calidad, empleando para ello dos principales mejoras para disminuir el flujo de bits. • Usa el mismo modelo psico-acústico que el anterior pero aplicado a frames de mayor duración, de tres conjuntos de 1152 muestras de audio por cada 12 grupos en cada marco. • En lugar de usar 6 bits para la cuantificación de cada banda (factor de escala) usa un modelo variable en función de la banda de frecuencia, con el fin de disminuir la distorsión audible. • Cuando codifica tres, cinco o niveles en cada subbanda de cuantización, la capa II representa tres valores consecutivos cuantizados en una única y más compacta palabra de código. 2.2.1.3 Layer III. Deriva del ASPEC (Adaptive Spectral Perceptual Entropy Coding) y el OCF (Optimal Coding in the Frecuency domain). Aunque está basado en los mismos bancos de filtros de MPEG Layer I y Layer II, compensa las principales deficiencias procesando las salidas de los filtros en una DCT (Transformada discreta del coseno) modificada, denominada MDCT. Fundamentalmente, subdivide las salidas de cada subbanda en frecuencia para ofrecer una mejor resolución espectral. Una vez hecho este proceso, el Layer III puede cancelar los solapamientos causados por el banco de filtros. Esta operación tiene que ser invertible de tal modo que la MDCT inversa pueda reconstruir cada subbanda en su solapamiento original, a través del banco de filtros de reconstrucción. En resumen, el MPEG Layer III mejora a los anteriores: • Reducción del solapamiento, especificando un método de procesar los valores de la MDCT para eliminar artefactos causados por las bandas superpuestas procedentes del banco de filtros. • Cuantificación no uniforme, disminuyendo a 3/4 la potencia antes del proceso de cuantificación para ofrecer una relación señal/ruido más consistente sobre el rango de valores cuantificados. El reecualizador del decodificador de MPEG/audio incrementará los valores a la salida aumentando 4/3 la potencia.
  • 7. MPEG1, MPEG2 y MPEG4 6 • Codificación de entropía en los valores de los datos. Para conseguir una mejor compresión de datos, la capa III usa códigos variables Huffman para codificar las muestras cuantificadas. • Uso de un bit de reserva. El diseño de la capa III mejora la variación en el tiempo en el codificador ofrecida por los bits de código. Como en la capa II, la capa III procesa los datos de audio en marcos de 1152 muestras. Pero a diferencia de ella, no necesariamente son marcos de longitud fija. Existe una especie de depósito donde se almacenan bits al necesitarse un número menor para codificar un marco. Después, si el codificador necesita un número mayor que la media de bits, puede extraerlos de ese depósito. Sólo se puede hacer este proceso a partir de marcos pasados, no futuros. Si bien el tercero sólo se emplea en Internet y dispositivos portátiles, el audio de algunos DVD está comprimido usando una de las dos primeras capas. El resultado final de utilizar el estándar MPEG-1 en los dos canales de audio de un programa estereofónico es que cada señal de audio digitalizada, que se obtiene a razón de 768 kilobits por segundo, se comprime a una velocidad tan baja como 16 Kb/s. (La velocidad de los datos de entrada de 768 Kb/s corresponde a una velocidad de muestreo de 48 KHz, siendo cada muestra representada por una palabra de 16 bits.) • El estándar de codificación de audio MPEG-1 es adecuado para el almacenamiento de señales de audio en medios económicos o su transmisión sobre canales con ancho de banda limitados, mientras mantiene al mismo tiempo la calidad de percepción. (2)
  • 8. MPEG1, MPEG2 y MPEG4 7 2.3 CODIFICACION DE VIDEO El estándar de codificación de video MPEG-1 se diseñó fundamentalmente para comprimir señales de video a 30 tramas por segundo (cps) en una corriente de bits que corre a razón de un megabits por segundo (Mb/s); MPEG corresponde a las siglas en ingles del Grupo de Expertos de Fotografía en Movimiento. (2) El estándar MPEG-1 no es adecuado para aplicaciones de radiodifusión ya que no tiene en cuenta el entrelazados de imágenes o la evolución prevista a TV de alta definición (HDTV), que acabaría siendo el estándar MPEG-2 publicado en 1994. Actualmente se emplea, por ejemplo, para comprimir la información de vídeo en los VCD con resolución SIF (360x288 @ 25 fps en PAL y 360x240 @ 30 fps en NTSC), consiguiendo de ese modo una calidad de imagen similar a la del VHS doméstico. (3) El estándar de codificación de video MPEG-1 consigue esta meta de diseño explotando cuatro formas básicas de redundancia presente inherentemente en los datos de video: 1. Redundancia de intertrama (temporal). 2. Redundancia de interpixel dentro de una trama. 3. Redundancia psicovisual. 4. Redundancia de codificación entrópica. La explotación de la redundancia de intertrama es lo que distingue al MPEG-1 del JPEG. En principio, las tramas vecinas en secuencia de video ordinarias están altamente correlacionadas. El significado de esta alta correlación es que, en un sentido promedio, una señal de video no cambia rápidamente de una trama a la siguiente, en consecuencia, la diferencia entre tramas adyacentes tiene una varianza (es decir potencia promedio) que es mucho más que la varianza de la propia señal de video. (2) Estuvo basado inicialmente en el trabajo del grupo de expertos del ITU para videotelefonía y en el estándar H.261. Para aumentar el factor de compresión, MPEG introdujo el concepto de predicción bidireccional, que consiste en el almacenamiento de imágenes pasadas y futuras para la predicción del cuadro (frame) presente. El primer trabajo del grupo iniciado en 1988 se concentro en la compresión de video con velocidades bajas y adecuadas a dispositivos de almacenamiento tales como CD-ROM y transmisión a 1,554 y 2,048. Para conseguir esto, los cuadros en el flujo de bits codificado deben estar en orden diferente al orden de visionado. Esto fuerza la creación de la estructura llamada Grupo de cuadros (GOP). El conjunto de objetivos establecido para MPEG 1 fue el siguiente: • Acceso aleatorio • Visionado inverso sincronización audio visual
  • 9. MPEG1, MPEG2 y MPEG4 8 • Robustez frente a errores • Retardo de codificación/ descodificación • Estabilidad • Compatibilidad de formatos • Costos (4)
  • 10. MPEG1, MPEG2 y MPEG4 9 2.4 PREDICCION BIDIRECCIONAL La predicción bidireccional realiza el proceso de estimación de movimiento dos veces: • Una en una imagen pasada • Y otra en una imagen futura, • De forma que obtiene dos vectores de movimiento y dospredicciones para cada macrobloque. El codificador puede obtener el residuo de movimiento compensado utilizando: • Cualquiera de las dos predicciones (pasada o futura) • Un promedio de ellas, eligiendo la estimación más eficiente de las tres. En la terminología MPEG, este proceso es referido como codificación ínter cuadro bidireccional o interpolada. En la Figura 1.1se muestra más detalladamente como opera la predicción bidireccional. 1 Figura 1.1Predicción Bipolar Cuando la compensación es hacia delante o hacia atrás, sólo se genera un vector de movimiento. Cuando la compensación es interpolada se generan dos vectores de movimiento, uno para cada cuadro de referencia pasado y futuro. 1 (Imagen tomada de www.airfareoffice.com/multimedia/pdfs/10-mpeg-1)
  • 11. MPEG1, MPEG2 y MPEG4 10 Tanto si se genera uno como si se generan dos, estos son codificados diferencialmente con respecto a los vectores de movimiento del macrobloque anterior. Posteriormente se les aplica una codificación Huffman para ser transmitidos o almacenados junto al residuo, para este macrobloque.
  • 12. MPEG1, MPEG2 y MPEG4 11 2.5 Tipos de Cuadros 2.5.1 Cuadros I (Intra) Utilizan únicamente información contenida en el propio cuadro y no dependen de la información de otros cuadros (codificación intracuadro). Los cuadros I proporcionan un mecanismo para el acceso aleatorio al flujo de bits de vídeo comprimido pero proporcionan solamente una moderada compresión. 2.5.2 Cuadros P (Predicted) Utilizan para la codificación, la información contenida en el cuadro previo, I o P, más próximo (codificación intercuadro). A esta técnica se le conoce como predicción hacia delante y proporciona un mayor grado de compresión. 2.5.3 Cuadros B (Bidirectional o Interpolated) Utilizan la información contenida en los cuadros pasados y futuro, I o P, más próximos. A esta técnica se le conoce como predicción bidireccional o interpolada y proporciona el mayor grado de compresión. Estos cuadros no propagan errores ya que nunca se utilizan como referencia, al contrario que las imágenes I y P. (4)
  • 13. MPEG1, MPEG2 y MPEG4 12 2.6 Parámetros El conjunto de parámetros restringidos del flujo de bits que como mínimo debe soportar cada descodificador compatible con MPEG 1 son los mostrados en laTabla 1.1: (4) Tabla 1.1 Parámetros restringidos del flujo de bits Parámetros Valor máximo Tamaño horizontal 768 pixeles Tamaño vertical 576 lineas Numero de macrobloques 396 Caudal de pixeles 396x25 Mb/s Caudal de cuadros 30 cuadros/s Rango de los vectores de movimiento ± 64 pixeles Tamaño del buffer de entrada 327.680 bits Caudal de bits 1.865 kbits/s
  • 14. MPEG1, MPEG2 y MPEG4 13 2.7 Características Los requerimientos de capacidad de edición total y acceso aleatorio condujeron a la introducción de cuadros codificados completamente como intra-cuadro, de forma periódica en el flujo de bits codificado. La codificación de estos cuadros con codificación intra-cuadro se basó en gran parte en estándar JPEG. Para compensar la reducción del factor de comprensión, debido a la introducción periódica de imágenes intracodificadas, se introdujo la predicción bidireccional. El estándar fue finalmente diseñado para conseguir compresiones optimas en el rango entre 1 y 1.5 Mbps, para secuencias de video progresivo en color (MPEG 1 no soporta video entrelazado), tanto para sistemas NTSC como PAL, con formato de muestreo 4:2:0 y un espacio de colores YCbCr. Para este formato de entrada, el factor de compresión alcanzado por el estándar MPEG 1 es de 26:1 aproximadamente.
  • 15. MPEG1, MPEG2 y MPEG4 14 2.8 Aplicaciones El más popular software para el dispositivo de lectura video incluye MPEG-1 que descifra, además de cualquier otro los formatos apoyados. [5] • El renombre MP3 de audio ha establecido una masiva base instalada del hardware de audio del dispositivo de lectura MPEG-1 (las 3 capas). • El formato DVD-video utiliza el vídeo MPEG-2 sobre todo, pero la ayuda MPEG-1 se define explícitamente en el estándar. • Antes de que MPEG-2 llegó a ser extenso, mucho los servicios digitales de la televisión por el satélite/cable utilizaron MPEG-1 exclusivamente. (1) • Vídeo de DVD estándar requirió originalmente MPEG-1 el audio de la capa II, pero fue cambiado para permitir AC-3/Digital Dolby- solamente discos. MPEG-1 el audio de la capa II todavía se permite en DVDs, aunque más nuevas extensiones al formato, como MPEG de varios canales, se apoyan raramente. (1) En la Tabla 1.2 se ven los formatos MPEG más populares con sus respectivas propiedades. Existen otros formatos de menor popularidad que no se incluyen en la tabla. Para soporte en CD, los formatos MPEG-1 más difundidos son VCD y CVCD; para MPEG-2, SVCD. (5) 2 Tabla 1.2 Formatos MPEG más populares Formatos MPEG Estandarizados Formatos VCD CVCD XVCD SVCD DVD Nombre Video CD Compressed Extended Super Digital Video CD Video CD Video CD Video Disc Resolución PAL 352x288 352x288 480x576 480x576 704x576 720x576 NTSC 352x240 352x240 480x480 480x480 704x480 720x480 FPS PAL 25 25 25 25 25 NTSC 23.9 / 29.9 23.9 / 29.9 23.9 / 29.9 23.9 / 29.9 23.9 / 29.9 Formato video MPEG-1 MPEG-1 MPEG-1 MPEG-2 MPEG-2 audio MPEG MPEG Layer MPEG MPEG MP2/AC3/WAV Layer 2 2 Layer 2 Layer 2 Modo de bitrate* CBR CBR / VBR CBR / VBR CBR / VBR CBR / VBR Bitrate; video 1150 300...1150 Hasta 2350 Hasta 2550 Hasta 9000 Kbps audio 224 96...224 32...384 32...384 Hasta 448 2 Formatos MPEG Estandarizados Tabla tomada de: www.divxland.org/esp/mpeg.php
  • 16. MPEG1, MPEG2 y MPEG4 15 Frecuencia de 44.1 44.1 44.1 44.1 / 48 48 audio; KHz Pistas de audio Única Única Única Múltiples Múltiples Subtítulos Fijos Fijos Fijos Optativos Optativos Compatible con SI SI NO NO SI autoría de DVD Minutos por disco 74 / 80 / 90 74...130 35...60 35...60 60...240 Los modos de bitrate (tasa de bits por segundo) pueden ser constante (CBR) o variable (VBR). Dependiendo de la aplicación de video, se elegirá un formato u otro. Por ejemplo, si se está buscando máxima compatibilidad con todos los dispositivos, se utilizará el VCD; si se pretende colocar una película entera en un disco, el CVCD es el indicado; si solo nos preocupa la calidad, el SVCD es la mejor opción; si queremos un medio de alta resolución, el DVD es el correcto, etc.
  • 17. MPEG1, MPEG2 y MPEG4 3 MPEG-2 16 Estefanía Loaiza / celoaiza@utpl.edu.ec 3.1 Introducción MPEG (Moving Picture Experts Group) se inició en 1988 como un grupo de trabajo de ISO / IEC con el fin de definir normas para la compresión digital de audio de las señales visuales. El primer proyecto MPEG, MPEG-1, fue publicado en 1993 como ISO / IEC 11172. Se trata de un estándar de tres partes, la definición de compresión de audio y métodos de codificación de vídeo y un sistema de multiplexado para intercalado de datos de audio y vídeo para que puedan ser escuchadas juntas. MPEG-1, principalmente apoya la codificación de vídeo de hasta alrededor de 1,5 Mbit / s dando una calidad similar a la SHV y audio estéreo a 192 bits / s. Se utiliza en el CD-i y Video-CD para sistemas de almacenamiento de vídeo y audio en CD- ROM.(6) Durante 1990, MPEG reconoció la necesidad de un segundo estándar, relacionadas con la codificación de vídeo para los formatos de difusión a tasas más altas de datos. El estándar MPEG-2 es capaz de codificación de televisión de definición estándar a velocidades de bits de alrededor de 3.15 Mbit / s, y la televisión de alta definición a 15-30 Mbit / s. MPEG-2 amplía las capacidades de audio estéreo de MPEG-1 a varios canales de sonido envolvente de codificación de sonido. MPEG-2 pretende ser un sistema de codificación de vídeo genérico de apoyo a una amplia gama de aplicaciones. MPEG-2 introduce y define Flujos de Transporte, los cuales son diseñados para transportar vídeo y audio digital a través de medios impredecibles e inestables, y son utilizados en transmisiones televisivas. Con algunas mejoras, MPEG-2 es también el estándar actual de las transmisiones en HDTV. Un descodificador que cumple con el estándar MPEG-2 deberá ser capaz de reproducir MPEG-1. MPEG-2 es por lo general usado para codificar audio y vídeo para señales de transmisión, que incluyen televisión digital terrestre, por satélite o cable. MPEG-2. Con algunas modificaciones, es también el formato de codificación usado por los discos SVCD y DVD comerciales de películas(7)
  • 18. MPEG1, MPEG2 y MPEG4 17 3.2 Características • La sintaxis del MPEG-2 tiene dos categorías: – Una sintaxis no escalable, la cual incluye a la sintaxis del MPEG-1, con extensiones adicionales para soportar vídeo entrelazado. – Una sintaxis escalable, la cual permite una codificación por capas de la señal de vídeo, mediante la cual, el descodificador puede descodificar • o sólo la capa básica para obtener una señal con calidad mínima, • o utilizar capas adicionales para incrementar la calidad de la señal. • Como el MPEG-1, el MPEG-2 es un estándar de compresión con pérdidas, basado en: – Compensación de movimiento – Estimación de movimiento hacia delante, hacia atrás o interpolada – Transformada DCT – Cuantificación – Codificación RLE y Huffman • En el modo de sintaxis escalable, la capa básica de una señal de vídeo codificada con el MPEG-2, podría ser también descodificada por un descodificador MPEG-1, aunque esto último no es requerido en el estándar.(6)
  • 19. MPEG1, MPEG2 y MPEG4 18 3.3 Estándar MPEG-2 El estándar de compresión de vídeo MPEG-2, fue la segunda fase de trabajo realizado por el grupo MPEG. El conjunto de requerimientos fijados: • Compatibilidad con MPEG-1 • Buena calidad de la imagen • Flexibilidad del formato de entrada • Capacidad de acceso aleatorio • Rebobinados rápidos y lentos hacia delante y hacia detrás • Escalabilidad en el flujo de bits • Bajos retardos para comunicaciones en ambos sentidos • Resistencia a errores • El estándar MPEG-2 se realizó como una extensión del MPEG-1, el cual, se puede considerar como un subconjunto del MPEG-2. (8) Entre los Estándar MPEG-2 tenemos: • ISO/IEC 13818-1 Sistema - describe sincronización y multiplexado de vídeo y audio. • ISO/IEC 13818-2 Video - Códec(codificador/decodificador) compresor para señales de vídeo entrelazado y no entrelazado. • ISO/IEC 13818-3 Audio - Códec(codificador/decodificador) compresor de señales de audio. Una extensión habilitada multicanal de MPEG-1 audio (MP3). • ISO/IEC 13818-4 Describe maniobras de prueba de cumplimiento(del estándar). • ISO/IEC 13818-5 Describe sistemas para simulación por Software. • ISO/IEC 13818-6 Describe extensiones para DSM-CC (Comando Digital de herramientas de almacenamiento y control) • ISO/IEC 13818-7 codificación avanzada de audio. (AAC) • ISO/IEC 13818-9 Extensión para interfaces en tiempo real. • ISO/IEC 13818-10 conformidad con extensiones para DSM-CC.(9)
  • 20. MPEG1, MPEG2 y MPEG4 19 3.4 Sistema: Sincronización y multiplexado de video y audio. ISO/IEC 13818-1: Sistema - describe sincronización ymultiplexado de vídeo y audio. (10) 3.4.1 Sistema de multiplexado de Video y Audio Los sistemas MPEG-2 (MPEG-2 systems) definen como se tiene que multiplexar el vídeo y el audio comprimido, además de los posibles datos adicionales, para formar un único flujo de datos que permita ser transmitido o almacenado. Hay dos tipos de multiplexación especificados por los sistemas MPEG-2. El Tren de Programa (program stream, PS) está formado por la multiplexación de un solo programa y es utilizado, por ejemplo, por el DVD. Por otro lado, el tren de transporte (transport stream, TS) define como se multiplexan varios programas y es el que utiliza DVB, entre otros. Estas dos multiplexaciones facilitan la inclusión de la PSI (Program Specific Information), que da información de los datos que se multiplexan. Además, los sistemas MPEG-2 aportan unas referencias temporales para que los datos se representen en el momento adecuado puesto que, por ejemplo, el sonido y las imágenes no viajan en paralelo, pero el usuario final las tiene que percibir en el mismo momento. Además, los sistemas MPEG-2 dan flexibilidad para la inclusión de nuevas sintaxis, añadir información de control de acceso condicional, datos. En la Figura 1.1tenemos un ejemplo gráfico. (7) 3 Figura 2.1Ejemplo de Multiplexor MPEG-2 3 Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo
  • 21. MPEG1, MPEG2 y MPEG4 20 La normativa MPEG-2 no especifica cómo se tiene que realizar esta multiplexación ni cómo protegerla. A título orientativo, sólo mencionar que los dos tipos de multiplexación que se están manejando actualmente son o bien TDM (Multiplexación por División de Tiempo), o bien estadística. La TDM es aquella que siempre asigna un espacio de tiempo concreto y constante a cada componente del program stream. La multiplexación estadística, a diferencia de la TDM, representa un cambio de mentalidad respeto al conocido hasta ahora. En la actualidad ya no se asigna un espacio de tiempo determinado y concreto, sino que los diferentes programas se van pasando información de cuánto ancho de banda requieren para la transmisión. Así pues, un programa que necesite mucho podrá beneficiarse de uno que tenga espacio libre y que, de otra manera, se desaprovecharía utilizando bits de relleno (stuffing bits). En realidad ambas multiplexaciones (TDM y estadística) son multiplexaciones en el dominio del tiempo (en contraposición a las multiplexaciones en frecuencia). La diferencia entre ambas radica en que la multiplexación estadística reserva las ranuras de tiempo de manera dinámica.(11) Multiplex: Un multiplex es un conjunto de servicios multiplexados en MPEG2. Cada multiplex viaja en una frecuencia diferente, siendo su velocidad máxima de transmisión de 40 Mbps (Megabits por segundo). Llegados a este punto podemos entender laFigura1.2, en la que se nos muestran los diferentes servicios y elementary streams de un multiplex, así como el PID en el que viajan y su velocidad de transmisión:
  • 22. MPEG1, MPEG2 y MPEG4 21 4 Figura 2.2 Diferentes servicios y elementary streams de un multiplex Como podemos observar el ancho de banda (o la velocidad de transmisión) ocupado por los diferentes elementary streams es muy diferente. De esta forma, un elementary stream de video suele ocupar alrededor de los 3.5 Mbps, un ES de audio unos 0.2 Mbps, un ES de datos unos 1 Mbps, etc. En la figura también se observa como algunos servicios (en la figura se les llama program siguiendo la terminología MPEG2) contienen varios ES, mientras que otros están compuestos por un solo elementary stream. Normalmente en cada multiplex suelen viajar alrededor de 6 o 7 canales de televisión más alguno de datos y de radio. (12) 3.4.2 Sincronización Audio Vídeo En la señal tradicional de televisión la información de sincronización de la señal se transmitía directamente en la misma (pulsos de sincronismo, burst...). Sin embargo la sincronización de la señal digital de televisión requiere de ciertos mecanismos más complejos. 4 Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo
  • 23. MPEG1, MPEG2 y MPEG4 22 Lo primero que tenemos que comprender es que la señal de video que transmitimos, al estar codificada en MPEG-2 no utiliza el mismo espacio para cada una de sus imágenes. Esto hace que algunas sean decodificadas en menor tiempo que otras. Además, en una sola trama de transporte podemos tener varios programas diferentes (y dentro de cada uno de ellos varios ES diferentes), por lo que es imposible ajustar el tiempo de presentación de cada uno de los paquetes en función de su tiempo de llegada. (Figura 1.3) (11) Figura 2.3 Ese es el motivo de que dentro de las cabeceras de los PES de vídeo y audio introduzcamos los campos PTS y DTS. Los PTS (Presentation Time Stamps) nos darán información del instante en que un determinado paquetes PES ha de ser presentado en el terminal de televisión. Los DTS (Decoding Time Stamps) nos informan del instante en que el decodificador debe decodificar el paquete PES para poder presentarlo a tiempo. Los DTSs solo se incluyen en los PES de vídeo. Mediante estos dos campos en las cabeceras PES resolvemos nuestro problema de transmitir el momento de presentación y decodificación de los diferentes paquetes, pero todavía nos falta tener la referencia del reloj mediante el cual fueron codificados. Para resolver este último punto, el codificador MPEG-2 debe introducir referencias del reloj de programa mediante el que está codificando el audio y el video. Estas referencias se denominan Program Clock Refererences (PCR). Los PCR son campos de 42 bits que el codificador MPEG-2 introduce en los paquetes de transporte (dentro de los campos opcionales de la cabecera de adaptación). MPEG-2 obliga a la introducción de PCRs al menos 10 veces por segundo, pero el estándar DVB es todavía más estricto y reduce a 40 ms el tiempo máximo entre PCRs. (12)
  • 24. MPEG1, MPEG2 y MPEG4 23 5 Figura 2.4 Esquema Codificador Hay que resaltar, que el reloj de programa es único para cada programa de nuestra trama MPEG-2, pero puede variar entre los diferentes programas. Por lo tanto, el decodificar engancha su reloj de programa mediante los PCRs introducidos por el codificador, de tal forma que luego es capaz de decodificar y presentar los diferentes paquetes PES en el momento adecuado. Dicho momento lo obtiene a partir de los DTS y PTS. (12) 6 Figura 2.5 Esquema decodificador 5 Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo 6 Tomado de “La Televisión Digital” Herve Benoit. Editorial Paraninfo
  • 25. MPEG1, MPEG2 y MPEG4 24 3.5 Video: Códec Compresor para Señales de Video Entrelazado y No Entrelazado Moving Pictures Experts Group 2 (MPEG-2), es la designación para un grupo de estándares de codificación de audio y vídeo acordado por MPEG (grupo de expertos en imágenes en movimiento), y publicados como estándar ISO 13818. MPEG-2 es por lo general usado para codificar audio y vídeo para señales de transmisión, que incluyen televisión digital terrestre, por satélite o cable. MPEG-2. Con algunas modificaciones, es también el formato de codificación usado por los discos SVCD y DVD comerciales de películas. MPEG-2 es similar a MPEG-1, pero también proporciona soporte para vídeo entrelazado (el formato utilizado por las televisiones.) MPEG-2 vídeo no está optimizado para bajas tasas de bits (menores que 1 Mbit/s), pero supera en desempeño a MPEG-1 a 3 Mbit/s y superiores. MPEG-2 introduce y define Flujos de Transporte, los cuales son diseñados para transportar vídeo y audio digital a través de medios impredecibles e inestables, y son utilizados en transmisiones televisivas. Con algunas mejoras, MPEG-2 es también el estándar actual de las transmisiones en HDTV. Un descodificador que cumple con el estándar MPEG-2 deberá ser capaz de reproducir MPEG-1.(7) 3.5.1 Vídeo entrelazado (campos) / no-entrelazado El ojo humano es "tonto" y ante una sucesión rápida de imágenes tenemos la percepción de un movimiento continuo. Una cámara de cine no es otra cosa que una cámara de fotos que "echa fotos muy rápido". En el cine se usan 24 imágenes, o fotogramas, por segundo. Es un formato "progresivo" Eso quiere decir que se pasa de una imagen a otra rápidamente vemos una imagen COMPLETA y, casi de inmediato, vemos la siguiente. Si tenemos en cuenta que vemos 24 imágenes por segundo, cada imagen se reproduce durante 0,04167 segundos. Las diferencias, por tanto, entre una imagen y otra son mínimas. Para ilustrar este concepto he elegido una sucesión de 4 fotogramas de dibujos animados porque los dibujos son también un formato progresivo y porque en animación se usa una velocidad de reproducción bastante inferior: 15 imágenes (o fotogramas) por segundo (Figura 1.6). Aun así, como se puede apreciar, las diferencias entre cuadro y cuadro son muy escasas. Figura 2.6Formato Progresivo (secuencia de imágenes) (8) El vídeo y la televisión tienen un funcionamiento totalmente distinto al cine. Para empezar hay dos formatos diferentes. PAL, usado en Europa, y NTSC usado en América y Japón como zonas más destacadas. En el formato PAL la velocidad de imágenes por segundo es de 25 y de 29,97
  • 26. MPEG1, MPEG2 y MPEG4 25 en el formato NTSC. A esta velocidad de imágenes por segundo se le llama Cuadros Por Segundo en español (CPS),o Frames Per Second en inglés (FPS ) Otra diferencia es que la pantalla de un televisor no funciona como un proyector de cine, que muestra imágenes "de golpe". Un televisor está dividido en líneas horizontales, 625 en televisores PAL y 525 en televisores NTSC. Estas líneas no muestran todas a la vez un mismo fotograma, sino que la imagen comienza a aparecer en las líneas superiores y sucesivamente se van rellenando el resto hasta llegar a las líneas más inferiores. Un único fotograma no es mostrado "de golpe", sino de modo secuencial. Al igual que pasaba con el cine, este proceso de actualización de líneas es tan rápido que, en principio, a nuestro ojo le pasa desapercibido y lo percibimos todo como un continuo.(8) Sin embargo, este proceso presenta, o mejor dicho, presentaba un problema. Las características de los tubos de imagen de los primeros televisores hacían que cuando la imagen actualizada llegaba a las últimas líneas (las inferiores) la imagen de las líneas superiores comenzaba a desvanecerse. Fue entonces cuando surgió la idea de los "campos" y del vídeo entrelazado. El "truco" está en dividir las líneas del televisor en pares e impares. A cada grupo de líneas, par o impar, se le llama "campo". Así tendríamos el campo A o superior (Upper o Top en inglés) formado por las líneas pares (Even en inglés) y el campo B, inferior o secundario (Lower o Bottom en inglés) formado por las líneas impares (Odd en inglés) Primero se actualiza un grupo de líneas (campo) y, acto seguido se actualiza el otro. En la figura 2 que presento a continuación las líneas negras formarían el campo A o superior (Upper o Top) y las líneas rojas formarían el campo B o inferior (Lower o Bottom)(8) Figura 2.7(8) Esa división de la imagen en campos tiene consecuencias TRASCENDENTALES para nosotros: La primera consecuencia es que estamos dividiendo un único fotograma en dos campos. Ya no vamos a tener 25 o 29,97 cps (cuadros por segundo) sino 50 o 59,94 semi-imágenes o, más correctamente, campos por segundo. De ese modo, un único fotograma(fotografía, o dibujo en este caso), que tiene un tamaño "completo" se dividiría en dos imágenes (Figura 3) con la mitad de líneas (la mitad de resolución vertical) Eso, en principio, no representaría problema
  • 27. MPEG1, MPEG2 y MPEG4 26 alguno si no fuera porque cada campo se corresponde a un momento distinto en el tiempo, de modo que cada campo ofrece una imagen distinta (he marcado de rojo las zonas en las que puedes fijarte para notar las diferencias) Figura 2.8División de imágenes(8) ¿Qué ocurre si juntamos los dos campos en un mismo fotograma? Esto... Figura 2.9Unión de imágenes(8) Si comparas las dos imágenes grandes con sus correspondientes de arriba verás que, en proporción, tienen el mismo ancho (resolución horizontal) pero el doble de resolución vertical porque hemos entrelazado, esto es, MEZCLADO, los dos campos. Aunque los dos campos muestran instantes en el tiempo muy próximos entre sí al sumarse las líneas de un campo con las líneas del otro en un mismo fotograma se puede apreciar claramente la diferencia.(8) La segunda consecuencia que todo esto tiene para nosotros es que trabajar con vídeo entrelazado no supone problema alguno cuando el destino del vídeo sea un televisor, puesto que un televisor NECESITA vídeo entrelazado. Sin embargo, el monitor de nuestro ordenador funciona en modo progresivo, esto es, mostrando imágenes "de golpe", igual que en el cine.
  • 28. MPEG1, MPEG2 y MPEG4 27 Siempre que reproduzcamos vídeo entrelazado en un monitor lo veremos "rayado", como en la imagen de arriba, ya que se sumarán los dos campos para mostrar el vídeo con la resolución completa. Cuando una escena es estática, no hay cambios, ambos campos coinciden, o varían mínimamente, y la reproducción parece correcta a nuestros ojos (fíjate en el banco). Sin embargo, en movimientos, sobretodo de izquierda-derecha (o viceversa) las diferencias entre un campo y otro son muy notables, tal y como hemos podido comprobar en la imagen de ejemplo. [1] 3.5.2 Compresión Moving Pictures Experts Group Layer 2 (MPEG-2) es uno de los formatos de compresión más utilizados gracias a sus códecs (codificadores-descodificadores) de bajas pérdidas. La compresión se basa en la comparación tanto espacial (si un punto de la imagen es idéntico al de a lado, basta con enviar cuántos puntos hay iguales y dónde están) como temporal (si un frame o cuadro es muy similar al siguiente, basta con enviar la diferencia entre el actual y el anterior). Así, para el segundo sistema de compresión el contenido de imagen se predice, antes de la codificación, a partir de imágenes reconstruidas pasadas y se codifican solamente las diferencias con estas imágenes reconstruidas y algún extra necesario para llevar a cabo la predicción. Respecto al primer paso de compresión, las muestras tomadas de imagen y sonido son divididas en celdas de 16x16 y transformadas en espacio-frecuencia y cuantificadas. MPEG-2 realiza la codificación genérica de imágenes en movimiento y el audio asociado enviado directamente sin compresión desde el centro de producción en “unidades de presentación” que son sustituidas por “unidades de acceso”, que en el caso de la señal de vídeo se dividen en tres: cuadros intra (I), cuadros posteriores predecibles (P) y cuadros predecibles bidireccionales (B), arreglados en un orden específico llamado “La estructura GOP” (GOP = Group Of Pictures o grupo de imágenes). GOP es la mínima cadena MPEG completamente decodificable por sí sola. Por tanto debe tener una frame I y sus referenciadas P o B. Los cuadros I serán los que contengan la información completa del frame (aunque comprimida espacialmente) mientras que el resto se crearán en el proceso de codificación.(7) 3.5.3 FPS (Frames per second) - cuadros por segundo El vídeo, en realidad, no es un continuo de imágenes, sino "fotografía en movimiento" La retina tiene la propiedad de retener durante unos instantes lo último que ha visto de modo cuando vemos una secuencia de imágenes, pero que cambia rápidamente, las imágenes se superponen en nuestra retina unas sobre otras dando la sensación de continuidad y movimiento. Ahora bien, ¿cuántos cuadros por segundo (frames per second en inglés) son necesarios para crear esa sensación de continuidad? El estándar actual establece lo siguiente: • Dibujos animados: 15 fps • Cine: 24 fps • Televisión PAL: 25 fps, que en realidad son 50 campos entrelazados, o semi-imágenes, por segundo
  • 29. MPEG1, MPEG2 y MPEG4 28 • Televisión NTSC: 29'97 fpsque en realidad son 60 campos entrelazados, o semi- imágenes, por segundo El resultado de la codificación MPEG de una secuencia de vídeo, es una sucesión de “Unidades de Acceso de Vídeo y/o Audio”, que serán “empaquetados” para su futura multiplicación con las diferentes señales provenientes de cada uno de los centros audiovisuales. La tasa de bit de salida de un codificador MPEG-2 puede ser constante (CBR) o variable (VBR), con un máximo determinado por el sistema en el que vaya a ser utilizado – por ejemplo, el máximo posible en un DVD de película es de 10.4 Mbit/s. Para lograr una tasa de bits constante el grado de cuantificación es alterado para lograr la tasa de bits requerida. (11) 3.5.4 Flujo de datos (bitrate) Un factor determinante en la calidad final del vídeo es el flujo de datos. Se llama así a la cantidad de información por segundo que se lee del archivo de vídeo para reproducirlo. Al igual que con el tamaño de imagen, a mayor flujo de datos, mejor calidad de imagen, pero hay que tener en cuenta que el flujo de datos es, en muchas ocasiones, más importante que el tamaño y capturas de gran tamaño, pero poco flujo de datos pueden llegar a tener una calidad realmente desastrosa. Aunque el tamaño de pantalla sea mayor, el escaso ancho de banda para los datos hacen que para guardar la información de luminancia y color del vídeo sea necesario agrupar muchos píxeles con la misma información degradando la imagen rápidamente. El efecto resultante, es parecido al que conseguimos aumentando una imagen de baja resolución.(11) 3.5.5 Flujo de Datos Constante (CBR - Constant Bit Rate) ¿Tiene un CD grabable a mano? Mírelo. Verá que dice 650MB - 74 Min. Es decir, tiene una capacidad de 650 MB que equivalen a 74 minutos de audio. Hay un flujo constante de 150 KB/s, suficientes para suministrar toda la información necesaria de audio. Si tenemos en cuenta que para poder registrar TODA la información de un vídeo PAL a pantalla completa (720x576) necesitamos un CBR (Fujo de Datos Constante) de 32.768 KB/s entendemos pronto el porqué de la compresión a la hora de trabajar con vídeo. Una hora de vídeo a pantalla completa sin comprimir son 115.200 MB.[2] El principal inconveniente del CBR se presenta a la hora de capturar con compresión. Uno de los principales métodos de compresión (el MPEG) basa su compresión, además de comprimir la imagen fija, en guardar los cambios entre un fotograma (o fotogramas) y el siguiente (o siguientes). Aunque el flujo de datos sea escaso, no tendremos problemas de calidad en escenas con poco movimiento y pocos cambios de imagen entre fotograma y fotograma. El problema llega con escenas de acción en las que la cámara se mueve con rapidez y un fotograma es muy, o totalmente diferente, del anterior o el siguiente. En ese caso, el ancho de banda necesario para guardar los cambios entre fotograma y fotograma crece considerablemente y queda menos espacio para comprimir la imagen, deteriorándola notablemente, tanto más cuanto menor sea el flujo de datos. Este es el principal problema del VCD y lo que nos lleva a todos de cabeza. El VCD usa CBR de 1150 Kbit/s para el vídeo y 224 para el audio, aunque se aconseja rebajar el audio a 128 Kbit/s y ampliar el vídeo a 1246 Kbit/s puesto que este formato también es compatible en la mayoría
  • 30. MPEG1, MPEG2 y MPEG4 29 de los casos con el formato VCD al no pasar de los 1347 Kbit/s de CBR que se especifican en su estándar. Con un flujo de datos de vídeo tan bajo, cualquier incremento es realmente de agradecer.(11) 3.5.6 Flujo de Datos Variable (VBR - Variable Bit Rate) El único inconveniente del Flujo de Datos Variable (VBR) es que no podremos predecir cuál será el tamaño final exacto de nuestros archivos (aunque sí podemos conocer el máximo o mínimo), todo depende de la complejidad del vídeo puesto que, como su nombre sugiere, el flujo de datos varía dependiendo de la complejidad de las imágenes a comprimir. Si el vídeo tiene poco movimiento, conseguiremos bastante más compresión que con CBR pero, si por el contrario el vídeo contiene muchas secuencias de acción, el tamaño final del vídeo puede ser sensiblemente mayor que usando CBR, pero a cambio habremos preservado la calidad. Cuando trabajamos con CBR basta con especificar el flujo de datos que queremos que tenga nuestro vídeo, pero cuando trabajamos con VBR tenemos varias opciones: 1. Especificar un valor medio al que el programa con el que trabajemos tratará de ajustarse en la medida de lo posible, proporcionando un flujo mayor para escenas complejas y reduciéndolo en escenas más tranquilas. NOTA: La mayoría de compresores no nos dejarán usar esta opción a no ser que elijamos comprimir a doble pasada. 2. Determinar valores máximo y mínimo. En esta ocasión eliminamos el "criterio" del ordenador para marcar los límites por encima y por debajo. 3. Establecer una opción de calidad de la imagen que se deberá de mantener sin importar el flujo de datos. Si queremos calidad, esta será siempre la opción a utilizar, puesto que siempre usará el flujo de datos mínimo necesario para preservar la calidad especificada. De este modo, evitamos el efecto que se produce en vídeos de CBR en los que unas secuencias se ven perfectas y otras muy pixeladas con la imagen bastante degradada. El tamaño final es completamente desconocido, pero preservaremos una calidad constante en todo el vídeo.(11) 3.5.7 Unidades de acceso codificación Mpeg-2 Para la compresión, la imagen de video es separada en dos partes: luminancia (Y) y crominancia (U y V) y tanto la compresión espacial como temporal se realizarán sobre cada parte. A su vez éstos son divididos en “macro-bloques” los cuales son la unidad básica dentro de una imagen. Cada macro-bloque es dividido en cuatro bloques de luminancia (divididos a su vez en bloques de 8x8 píxeles). El número de bloques de croma dentro de un macro-bloque depende del formato de color de la fuente. Por ejemplo en el formato común 4:2:0 hay un bloque de croma por macro-bloque para el canal U y otro para el canal V haciendo un total de seis señales por macro-bloque. La codificación consiste en lo siguiente: los cuadros I (intra-codificado) son tratados de forma que los cuadros P y B primero son sujetos a un proceso de “compensación de movimiento”, en el cual son correlacionados con la imagen previa (y en el caso del cuadro B, la siguiente). Cada macro-bloque en la imagen P o B es entonces asociado con un área en el frame previo o siguiente que esté bien correlacionado con alguno de éstos (anterior o posterior). Se crea así
  • 31. MPEG1, MPEG2 y MPEG4 30 un "vector de movimiento" que mapea el macro-bloque con su área correlacionada, es codificado y entonces la diferencia entre las dos áreas es pasada a través del proceso de codificación. Cada bloque es procesado con una transformada coseno discreta (DCT) 8x8. El coeficiente DCT resultante es entonces cuantificado de acuerdo a un esquema predefinido, reordenado a una máxima probabilidad de una larga hilera de ceros, y codificado. Finalmente, se aplica un algoritmo de codificación Huffman de tabla fija. [3] En el caso de la señal de vídeo, las “Unidades de Acceso” comprimidas, como hemos comprobado, son de 3 tipos, correspondiendo a otros tantos tipos de imágenes MPEG: • Imágenes tipo I (Intra): Se codifican sin ninguna referencia a otras imágenes, es decir: contienen todos los elementos necesarios para su reconstrucción. Tamaño: 100 kbytes • Imágenes tipo P (Previstas): Se codifican con respecto a la imagen de tipo I o de otra P anterior, gracias a las técnicas de predicción con compensación de movimiento. Su tasa de compresión es claramente mayor que la de las imágenes I: Tamaño 33 kbytes. • Imágenes tipo B (Bidireccionales): Se codifican por interpolación entre las dos imágenes de tipo I o P precedente y siguiente que las enmarcan. Ofrecen la tasa de compresión más alta: Tamaño 12 kbytes. El tamaño real depende del objetivo de velocidad binaria buscado y de la complejidad de la imagen. Los valores citados corresponden a un flujo comprimido de 5 Mbps. Hay muchas estructuras posibles pero una común es la de 15 marcos de largo, teniendo la siguiente secuencia I_BB_P_BB_P_BB_P_BB_P_BB_. (7) La relación de cuadros I, P y B en “la estructura GOP” es determinado por la naturaleza del flujo de video y el ancho de banda que constriñe el flujo. Además el tiempo de codificación puede ser un asunto importante. Esto es particularmente cierto en las transmisiones en directo. Un flujo que contenga varios cuadros B puede tardar tres veces más tiempo para codificar que un archivo que sólo contenga cuadros I (sin codificación temporal). En el caso de la señal de audio, las “Unidades de Acceso” típicamente contienen unas pocas decenas de milisegundos de audio comprimido. 3.5.8 Vídeo entrelazado • El estándar MPEG-2 soporta ambos formatos, – vídeo entrelazado – y vídeo progresivo, – por lo que se debe distinguir entre cuadro y campo. • Los campos de un cuadro de vídeo entrelazado pueden ser – codificados separadamente (imágenes-campo) – o pueden ser juntados de nuevo para formar el cuadro original y ser codificados como una única imagen (imágenes-cuadro), como en el estándar MPEG-1. • Como en MPEG-1, todas las imágenes de entrada (bien sean cuadros o campos) pueden ser codificadas como imágenes I, P o B.
  • 32. MPEG1, MPEG2 y MPEG4 31 – Si la primera imagen de un cuadro codificado es una imagen-campo de tipo I, entonces la segunda imagen puede ser o una imagen de tipo I o una imagen- campo de tipo P. – Si la primera imagen es una imagen-campo de tipo P o B, entonces la segunda imagen-campo tiene que ser del del mismo tipo.(11)
  • 33. MPEG1, MPEG2 y MPEG4 32 3.6 CÓDEC COMPRESOR DE SEÑALES DE AUDIO La codificación de audio MPEG proporciona un método de compresión de audio de alta calidad. El algoritmo se basa en un modelo de percepción del oído humano para determinar qué señales están enmascaradas y, por tanto, pueden eliminarse sin que se produzca pérdida apreciable en la calidad percibida por el oyente.(13) Las características principales del algoritmo son: • Frecuencias de muestreo de 32, 44.1 y 48 kHz con 16 bits por muestra. • Uno o dos canales de audio con cuatro modos posibles de funcionamiento: mono, dual, estéreo y joint estéreo. • Velocidades binarias de salida desde 32 hasta 192 Kb/s por canal. • Tres capas que van de menor a mayor calidad. • La trama puede incluir datos auxiliares además de la información de audio. El modelo del sistema de codificación de audio en MPEG: Figura 2.10 Sistema de codificación de audio en MPEG (13) La trama de audio MPEG-2 aporta nuevas funciones: • Audio multicanal. Sonido envolvente (surround). Son 3 canales frontales, 2 canales traseros y un canal de refuerzo de graves. • Soporte para audio multilingüe. • Nuevas frecuencias de muestreo (16, 22.05 y 24 kHz). Para mantener la compatibilidad con la trama MPEG-1, la trama MPEG-2 se construye en torno a dos canales principales mientras que el resto de la información necesaria para los canales surround o multilingües se incluyen en la zona de datos auxiliares. (13) MPEG-2 también introduce nuevos métodos de codificación audio ya que este estándar es la segunda fase del proceso de estandarización MPEG y consta de tres elementos bien diferenciados: (14)
  • 34. MPEG1, MPEG2 y MPEG4 33 • Extensión de MPEG-1 para tasas de muestreo bajas: Incluye tasas a 16, 22.05 y 24 ksps, que originan tasas binarias por debajo de 64 kbps para cada canal. Es una extensión muy fácilmente incorporable a los reproductores MPEG-1. • Extensión a sonido multicanal compatible con MPEG-1: Permite la utilización de hasta cinco canales con tasa binaria máxima más un sexto canal de mejora de las bajas frecuencias. Esta extensión es compatible con MPEG-1 siendo posible la reproducción de los bitstreams MPEG-2 BC mediante reproductores MPEG-1. • Nuevo esquema de codificación: Este nuevo esquema se denomina Advanced Audio Coding (AAC) y genera bitstreams que no pueden ser utilizados por los reproductores MPEG-1. Mejora mucho la razón de compresión de los datos. 3.6.1 Layers y profiles MPEG-1 y los dos primeros elementos de MPEG-2 contienen tres layers. Dada la compatibilidad de los dos primeros elementos de MPEG-2 con la primera fase, la especificación de los tres layers no varía. (14) Sin embargo, cuando hablamos de MPEG-2 AAC, que ya no es compatible con las versiones anteriores, se habla de tres perfiles (profiles). La diferencia radica en que los layers definen la estructura de la información codificada (sus tasas de muestreo, tasa de bits, etc.) y también la forma en que esta información debe ser transportada (bitstream formado por cuadros con una estructura fija). MPEG-2 AAC estandariza la forma que toma la información codificada pero no cómo debe ser transportada, lo que se deja a la aplicación. Por otro lado, MPEG-2 AAC, estandariza dos ejemplos típicos que pueden emplearse para el transporte de los datos: • ADIF (Audio Data Interchange Format). Esta especificación recoge toda la información para poder decodificar los datos es una única cabecera al comienzo del bitstream. Está indicado para el intercambio de ficheros de audio. • ADTS (Audio Data Transport Stream). Esta especificación divide el bitstream en cuadros, de forma similar a MPEG-1, que se encuentran entre dos marcas de sincronización y permiten tasas de bits variables. Está más indicado para difusión de audio en un entorno de red.(14) Los perfiles estandarizados para MPEG-2 AAC son tres, denominados Perfil Principal (Main Profile), de Complejidad Baja (Low Complexity Profile) y de Tasa de Muestreo Escalable (Scalable Sampling Rate Profile). Cada uno está indicado para unos determinados usos: • Perfil Principal: Es apropiado cuando la capacidad de procesamiento y el uso de la memoria no sean parámetros críticos. • Perfile de Complejidad Baja: Si alguno de los parámetros anteriores, capacidad de procesamiento o uso de memoria, son críticos; este perfil es el más adecuado. • Tasa de Muestreo Escalable: Para los casos en los que se requiera un decodificador escalable. (14)
  • 35. MPEG1, MPEG2 y MPEG4 34 MPEG define 3 capas de codificación de audio, cada una añade complejidad a la anterior. La codificación se realiza dividiendo las secuencias de audio en tramas (de 384 muestras), que se filtra para obtener las bandas críticas: (15) • La capa 1 sólo considera en enmascaramiento frecuencial, • La capa 2 considera además el enmascaramiento temporal estudiando 3 tramas a la vez, • La capa 3 utiliza filtros no lineales, elimina redundancias provocadas por el muestreo y utiliza codificación de Huffman. 3.6.2 Sistema con 5 Canales. (15) • MPEG-2 proporcionan este sistema de 5+1. El sistema MPEG-2 actualmente "sólo" se utiliza para la difusión vía satélite, cable y para el formato DVD (junto con DOLBY AC- 3). • El sistema MPEG-2 proporciona dos canales más pensando en locales de grandes dimensiones (cines,...) para cubrir ángulos muertos. • El sistema MPEG-2 está basado en la compatibilidad, ya que permite la reproducción en sistemas que sólo soporten un número de canales limitado. • Esta compatibilidad se consigue empleando técnicas de multiplexación matricial durante la codificación y decodificación. Pero dediquemos al formato más utilizado en la actualidad, ACC. 3.6.3 ADVANCED AUDIO CODING AAC es un formato informático de señal digital audio basado en el Algoritmo de compresión con pérdida, un proceso por el que se eliminan algunos de los datos de audio para poder obtener el mayor grado de compresión posible, resultando en un archivo de salida que suena lo más parecido posible al original. El formato AAC corresponde al estándar internacional “ISO/IEC 13818-7” como una extensión de MPEG-2. Debido a su excepcional rendimiento y la calidad, la codificación de audio avanzada (AAC) se encuentra en el núcleo del MPEG-4, 3GPP y 3GPP2, y es el códec de audio de elección para Internet, conexiones inalámbricas y de radio difusión digital. (16) El AAC utiliza una frecuencia de bits variable (VBR), un método de codificación que adapta el número de bits utilizados por segundo para codificar datos de audio, en función de la complejidad de la transmisión de audio en un momento determinado. AAC es un algoritmo de codificación de banda ancha de audio que tiene un rendimiento superior al del MP3, que produce una mejor calidad en archivos pequeños y requiere menos recursos del sistema para codificar y descodificar.(17)
  • 36. MPEG1, MPEG2 y MPEG4 35 Este códec está orientado a usos de banda ancha y se basa en la eliminación de redundancias de la señal acústica, así como en compresión mediante la transformada de coseno discreta modificada (MDCT), muy parecido como en el MP3.(16) CARACTERÍSTICAS: • No compatible con MPEG-1. • Frecuencia de muestreo: 24 kHz, 22.05 kHz, 16 kHz. • Máxima calidad entre 320 y 384 kbps (5 canales)(17) Tres opciones: • Máxima calidad (resolución a 23.43 Hz y 2.6 ms) • No predicción • Frecuencias de muestreo escalables (17) 3.6.3.1 Diagrama de bloques de un MPEG-2 AAC codificador Figura 2.11Diagrama de bloques de un MPEG-2 AAC codificador(18) Nombramos las partes del diagrama de bloques: • Control de Ganancia • Modelo perceptivo del sistema de codificación perceptivo. • Bancos de filtros: Basado en MDCT. Se utiliza para descomponer la señal en componentes de espectro (tiempo/frecuencia). • TNS (Temporal noise shaping) • Intensidad/Acoplamiento • Predicción: predicción lineal por señales estacionarias. Logra una mejor eficiencia de codificación. • M/S coding • Cuantificación: Las componentes espectrales están cuantificadas con el objetivo de mantener el ruido. • Control de flujo/distorsión
  • 37. MPEG1, MPEG2 y MPEG4 36 • Codificación sin ruido • Multiplexador de trama de bits(18) 3.6.3.2 Ventajas de AAC con respecto a MP3 El AAC permite sonidos polifónicos con un máximo de 48 canales independientes, así que se convierte en un códec apropiado para sonido envolvente (Surround) avanzado, sin embargo en MP3 sólo tenemos dos canales (estéreo).(19) Por otra parte también ofrece frecuencias de muestreo que varían de 8 KHz a 96 Khz., MP3 sólo soporta desde 16 KHz hasta los 48 khz, por lo cual proporciona una mejor resolución de sonido. También tenemos una mejora de la eficiencia de decodificación, que requieren menos potencia de procesamiento para decodificar. Pero también tiene una desventaja la cual es que este formato es más pesado con respecto al MP3 por ejemplo el solo "Sweet Dreams" de Roy Buchanan de 3:37 de duración en MP3 pesa 3.4 MB y en AAC pesa 6.9 MB pero como se ha mencionado anteriormente la calidad del AAC es mucho mejor y se puede notar la diferencia ya que esta es una canción de 1971 y en MP3 se pueden escuchar algunos defectos como zumbidos cuando hay silencio los cuales se eliminan en formato AAC.(19)
  • 38. MPEG1, MPEG2 y MPEG4 4 ESTANDAR DE CODIFICACIÓN DE AUDIO Y VIDEO MPEG-4 37 Nixon David Villavicencio Sarango / ndvillavicencio@utpl.edu.ec 4.1 Concepto: MPEG-4, cuyo nombre formal es ISO/IEC 14496 fue introducido a finales de 1998, es el nombre de un grupo de estándares de codificación de audio y video así como su tecnología relacionada normalizada por el grupo MPEG (Moving Picture Experts Group) de ISO/IEC. MPEG-4 toma muchas de las características de MPEG-1 y MPEG-2 así como de otros estándares relacionados, tales como soporte de VRML (Virtual Reality Modeling Language) extendido para Visualización 3D, archivos compuestos en orientación a objetos (incluyendo objetos audio, vídeo y VRML), soporte para la gestión de Derechos Digitales externos y variados tipos de interactividad. (20) El principal objetivo de este nuevo formato es ofrecer al usuario final un mayor grado de interactividad y control de los contenidos multimedia, por lo que en vez de basarse en el conjunto de la secuencia, el MPEG-4 se basa en el contenido. Así, mientras los estándares MPEG-1 y MPEG-2 codifican secuencias, el MPEG-4 es capaz de crear representaciones codificadas de los datos de audio y vídeo que la forman. Un ejemplo simple lo podemos ver en la Figura 3.1 La Figura 3.1 (a) representa el original sin codificar, mientras que la Figura 3.1 (b) representa una de las muchas posibles presentaciones de la imagen original tras ser codificada en MPEG-4, decodificada y manipulada por el usuario. El MPEG-4 ha dividido la imagen original en diferentes capas: el tipo de fondo, los diferentes objetos y una capa de texto. Luego ha codificado estos objetos junto con algunos datos asociados de tal manera que permite al usuario decodificar por separado cada uno de ellos, reconstruir la secuencia con sus valores originales o, si lo desea, manipular el resultado, tal y como vemos en laFigura 3.1 (b). (a) (b) Figura 3.1 MPEG-4 está formado por varios estándares, llamados "partes", que incluyen:
  • 39. MPEG1, MPEG2 y MPEG4 38 • Parte 1 (ISO/IEC 14496-1): Sistemas: Describe la sincronización y la transmisión simultánea de audio y vídeo. • Parte 2 (ISO/IEC 14496-2): Visual: Un códec 7 de compresión para elementos visuales (video, texturas, imágenes sintéticas, etc.). Uno de los muchos perfiles definidos en la Parte 2 es el Advanced Simple Profile (ASP). • Parte 3 (ISO/IEC 14496-3): Audio: Un conjunto de códecs de compresión para la codificación de flujos de audio; incluyen variantes de Advanced Audio Coding (AAC) así como herramientas de codificación de audio y habla. • Parte 4 (ISO/IEC 14496-4): Conformidad: Describe procedimientos para verificar la conformidad de otras partes del estándar. • Parte 5 (ISO/IEC 14496-5): Software de referencia: Formado por elementos de software que demuestran y clarifican las otras partes del estándar. • Parte 6 (ISO/IEC 14496-6): Delivery Multimedia Integration Framework (DMIF). • Parte 7 (ISO/IEC 14496-7): Software optimizado de referencia: Contiene ejemplos sobre cómo realizar implementaciones optimizadas (por ejemplo, en relación con la Parte 5). • Parte 8 (ISO/IEC 14496-8): Transporte sobre redes IP: Especifica un método para transportar contenido MPEG-4 sobre redes IP. • Parte 9 (ISO/IEC 14496-9): Hardware de referencia: Provee diseños de hardware que demuestran implementaciones de otras partes del estándar. • Parte 10 (ISO/IEC 14496-10): Advanced Video Coding (AVC): Un códec de señales de vídeo técnicamente idéntico al estándar ITU-T H.264. • Parte 12 (ISO/IEC 14496-12): Formato para medios audiovisuales basado en ISO: Un formato de archivos para almacenar contenido multimedia. • Parte 13 (ISO/IEC 14496-13): Extensiones para el manejo y protección de Propiedad Intelectual (IPMP). • Parte 14 (ISO/IEC 14496-14): Formato de archivo MPEG-4: El formato de archivo de contenedor designado para contenidos MPEG-4; basado en la Parte 12. • Parte 15 (ISO/IEC 14496-15): Formato de archivo AVC: Para el almacenamiento de vídeo Parte 10, basado en la Parte 12. • Parte 16 (ISO/IEC 14496-16): Animation Framework eXtension (AFX). 7 Códec: en el contexto de las telecomunicaciones (coder/decoder) es un dispositivo encargado de convertir señales digitales a analógicas y analógicas a digitales, dentro de la computación (compressor/decompressor) es la tecnología utilizada para comprimir y descomprimir datos (como ser sonidos o archivos de video).
  • 40. MPEG1, MPEG2 y MPEG4 39 • Parte 17 (ISO/IEC 14496-17): Formato de subtítulos (en elaboración - el último avance en su revisión data de enero de 2005). • Parte 18 (ISO/IEC 14496-18): Compresión y transmisión como flujo de fuentes tipográficas (para fuentes OpenType). • Parte 19 (ISO/IEC 14496-19): Flujos de texturas sintetizadas. • Parte 20 (ISO/IEC 14496-20): Representación liviana de escenas (LASeR). • Parte 21 (ISO/IEC 14496-21): Extensión de MPEG-J para rendering (en elaboración - el último avance en su revisión data de enero de 2005). Las partes del estándar que se encuentran subrayadas se consideran las partes más importantes del mismo dentro de nuestro campo de aplicación que es la TDT (Transmisión Digital Terrestre), siendo más específicos dentro de lo que es IPTV (Protocolo de Televisión a través de Internet) por consiguiente serán analizados en profundidad a lo largo de esta investigación.
  • 41. MPEG1, MPEG2 y MPEG4 40 4.2 Introducción. MPEG-4, es el estándar usado para proporcionar a los usuarios un nuevo nivel de interacción con información de tipo visual, basándose en tecnología para visualizar, acceder y manipular objetos en lugar de píxeles 8, además de presentar una gran robustez frente a errores en un amplio rango de anchos de banda. El estándar proporciona herramientas para codificación de formas, estimación y compensación de movimiento, codificación de texturas, recuperación frente a errores, codificación de “sprites” y escalabilidad 9. La base para la interoperabilidad viene dada por diversos puntos de conformidad definidos en el estándar en forma de tipos de objetos, perfiles y niveles. MPEG-4 es uno de los tantos sistemas de compresión de video digital que compite actualmente en el mercado para satisfacer las necesidades de los usuarios en esta área. Entre los protagonistas más importantes se encuentran RealPlayer de RealNetworks, Windows Media Player de Microsoft y QuickTime de Apple. La ventaja que MPEG-4 posee, además de que sus versiones previas 1 y 2 ya están establecidas, es que fue creado y diseñado de forma de poder trabajar con diversos dispositivos electrónicos de bajo costo y bajo poder de procesamiento contra los otros tres que requieren hacer uso de la potencia de procesamiento de los PC. Otra ventaja del formato MPEG-4 es que contiene una gran y robusta caja de herramientas, lo cual permite a un usuario adaptar uno o más de sus 23 perfiles matemáticos para cualquier número de dispositivos, desde PDAs hasta STBs. Teniendo en cuenta todo lo mencionado, se puede decir que MPEG-4 tiene una considerable ventaja frente a sus competidores. El nuevo paradigma de MPEG-4 sostiene que el estándar permite dar un paso al costado de lo que se denomina “paradigma de la televisión”. Básicamente una vista en dos dimensiones del mundo, una contra otra, en la cual el usuario puede no sólo observar lo que está aconteciendo sino también interactuar. En otras palabras, MPEG-4 ayuda a que se junten los mundos de las comunicaciones, informática y televisión/cine/entretenimientos. Los estándares MPEG-1 y -2 fueron creados con alcances claramente definidos y tecnologías conocidas. Por el contrario, los trabajos en el estándar MPEG-4 comenzaron en un período de grandes y rápidos cambios, por lo que surgieron dificultades en definir el alcance del mismo. MPEG-4 es el primer estándar de representación de imágenes en movimiento que pasa de simplemente “mirar” a “interactuar”. El ser humano no desea interactuar con entidades abstractas, sino con entidades que posean un significado. El concepto de escena es central en MPEG-4. Otro aspecto es la integración. MPEG-4 busca de forma armoniosa integrar objetos audiovisuales tanto naturales como sintéticos. La flexibilidad y extensibilidad son aspectos fundamentales en el entorno 8 Píxel: Elemento de la imagen. El área más pequeña con resolución en una pantalla de presentación de video. 9 Escalabilidad: es la propiedad deseable de un sistema, una red o un proceso, que indica su habilidad para extender el margen de operaciones sin perder calidad, o bien manejar el crecimiento continuo de trabajo de manera fluida, o bien para estar preparado para hacerse más grande sin perder calidad en los servicios ofrecidos.
  • 42. MPEG1, MPEG2 y MPEG4 41 tecnológico que vivimos. MPEG-4 brinda esos aspectos mediante un lenguaje denominado SDL (syntactic description language). MPEG-4 se centra en tres industrias que crecen rápidamente y cuyas interdependencias aumentan de forma constante. En el área de las telecomunicaciones, se experimenta un gran avance en las comunicaciones inalámbricas. El audio y video se hace rápidamente su espacio en el mundo de la informática (TV/Cine). La interactividad se introduce dentro de los servicios y aplicaciones audiovisuales. A diferencia de MPEG-2 el cual opera a altas tasas de bits, MPEG-4 ofrece: • Todo tipo de representación de datos. Desde video (altas y bajas tasas de bits) y música a objetos en tres dimensiones y texto; • La posibilidad de manipular varios objetos dentro de una escena; • La posibilidad de interactuar; • Proveer un sistema de entrega independiente del formato de representación y de esa manera permitir que sea usado sobre una amplia variedad de entornos para la entrega de los datos. El enfoque de este nuevo sistema de codificación y decodificación se basa en objetos, en lugar de simplemente series de imágenes. Esto quiere decir que la escena es creada mediante el uso de objetos individuales y relaciones en el espacio y el tiempo en lugar de imágenes completas. Entre las ventajas de este enfoque se pueden destacar: • La posibilidad de representar diferentes objetos de manera distinta a la hora de comprimirlos. • La posibilidad de integrar varios tipos de datos en una única escena (por ejemplo dibujos animados y acción de la vida real). • La posibilidad de interactuar con los objetos. El estándar MPEG-4 está compuesto básicamente por seis partes: • Sistemas: Descripción de la escena, multiplexación10 y sincronización. • Visual: Representación codificada tanto de objetos naturales como sintéticos. • Audio: Representación codificada de objetos naturales y sintéticos de audio. • Prueba de conformidad. • Software de Referencia. • DMIF (Delivery Multimedia Integration Framework): Para su corriente sobre sistemas genéricos. Herramientas MPEG-4: Aparte de las herramientas heredadas de MPEG-1 y MPEG-2 (systems target, decoder y paquetizacion de corrientes), MPEG-4 posee un nuevo conjunto de herramientas: 10 Multiplexación:Técnica que permite compartir un medio o un canal entre variascomunicaciones. Su objetivo es minimizar la cantidad de líneas físicasrequeridas y maximizar el uso del ancho de banda de los medios.
  • 43. MPEG1, MPEG2 y MPEG4 42 • Systems Decoder Model: Dado que las corrientes de MPEG-4 pueden diferir de las anteriores fue necesario asegurar que la forma en la cual el contenido se transporta, no se encuentre integrado dentro de su arquitectura; • Sync Layer: Codifica la información sobre la sincronización que se necesita para asegurar que MPEG-4 pueda direccionar desde pocos Kbps hasta varios Mbps; • FlexMux (Flexible Multiplex): Su función es mejorar el transporte de contenido MPEG-4 en ambientes donde dichas corrientes pueden comportarse de forma impredecible en el transcurso del tiempo y ese comportamiento impredecible puede ocurrir reiteradamente.
  • 44. MPEG1, MPEG2 y MPEG4 43 4.3 Sistema: Sincronización y multiplexado de video y audio, Parte 1 (ISO/IEC 14496-1). Como se explicó anteriormente, MPEG-4 define una caja de herramientas de algoritmos de compresión avanzada para la información de audio y video. Los flujos de datos (Elementary Streams, ES) que resulten del proceso de codificación pueden ser transmitidos o almacenados por separado, y deben estar compuestos a manera de crear la presentación real de multimedia en el lado receptor. La parte de los sistemas MPEG-4 se refiere a la descripción de la relación entre los componentes audio-visuales que constituyen una escena. La relación se describe en dos niveles principales El formato binario para las escenas (BIFS) describe el espacio-temporal de los acuerdos de los objetos en la escena. Los lectores pueden tener la posibilidad de interactuar con los objetos, por ejemplo, reordenando ellos en la escena o cambiar su propio punto de vista en un entorno virtual en 3D. La descripción de la escena proporciona un rico conjunto de nodos de 2-D y 3-D y los operadores de la composición de gráficos primitivos. En un nivel inferior, de Objetos Descriptores (OD) se define la relación entre los flujos elementales pertinentes a cada objeto (por ejemplo, el audio y la secuencia de vídeo de un participante en una videoconferencia). Los OD también proporcionan información adicional como la dirección necesaria para acceder al ES, las características de los descodificadores necesarios para el análisis, la propiedad intelectual y otros. [2] Dentro a la que concierne al sistema de mpeg-4 podemos recalcar las siguientes características con las que cuenta el estándar: • BIFS (Binary Format for Scenes). • ODs (Object Descriptors). • Interactividad. • Herramienta FlexMux. • Interfaces para terminales y redes. (MPEG-J). • Capa de transporte independiente. • Representación de texto. • Control de los buffers de recepción. • Identificación temporal, sincronización y mecanismos de recuperación. • Encubrimiento de los datos de los Derechos de la Propiedad Intelectual. A continuación se muestra un esquema que explica el modelo de multiplexación y demultiplexación en forma básica, también muestra el modelo de codificación y decodificación.
  • 45. MPEG1, MPEG2 y MPEG4 44 Figura 3.2 Esquema de multiplexación- demultiplexación, codificación-decodificación Codificació Decodificaci n de VOo ón de VOo Formació M D n de VO’s Codificació Decodificaci Composició n de VO1 U M ón de VO1 n de VO’s X U Codificació X Decodificaci n de VOn ón de VOn Salida de Información Interacción del Interacción del video de video usuario usuario
  • 46. MPEG1, MPEG2 y MPEG4 45 4.4 Video: Códec compresor para señales de video entrelazada y no entrelazada 4.4.1 Concepto MPEG-4 Visual cuyo nombre formal es ISO/IEC 14496-2 (Video): Es un códec de compresión para elementos visuales (video, texturas, imágenes sintéticas, etc.). Este códec llamado MPEG-4 Visual que se encuentra dentro de las partes que conforman el estándar MPEG-4 fue especialmente desarrollado para tecnologías multimedia; MPEG-4 introduce un nuevo concepto en codificación de información visual: codificación basada en objetos en lugar de codificación basada en frames 11. De esta forma MPEG-4 Visual permite la codificación individual de los diferentes objetos que conforman la escena. MPEG-4 Visual no fue concebido concretamente para aplicaciones de streaming, pero se ha logrado una adecuación extremadamente buena a este tipo de aplicaciones. Otra característica del estándar es que no dice nada sobre cómo deben llegar los streams al usuario final, así que estos pueden llegar a través de diferentes maneras, redes y tecnologías. Los principios básicos de codificación de MPEG-4 y el soporte de herramientas de resiliencia 12 al error y escalabilidad, muestran que el estándar puede ser muy flexible para adaptarse a las diferentes condiciones de transmisión y codificación, tales como diferencia en las tasas de bits y condiciones de error diferentes. 1.1. Características y ventajas de MPEG-4 Visual (ISO/IEC 14496-2, Video) En los últimos años MPEG-4 ha sido el más adecuado para comunicaciones a través de redes informáticas básicamente por las siguientes razones: • Puede proveer un alto desempeño en la codificación. Alcanzando tasas de bits de hasta 5 kbps con algunos de los perfiles. • Las técnicas de codificación de video escalable (temporal y espacial), hacen parte de MPEG-4 para ofrecer una codificación de tasa de bits variable para el constante cambio en la capacidad de los canales, esto en el caso de aplicaciones sobre redes inalámbricas. • Tiene la más amplia variedad de herramientas de resiliencia al error, las cuales aunque no garantizan la corrección de los datos corruptos, sí disminuyen el efecto negativo de estos en la calidad visual. • Las funcionalidades de la codificación basada en objetos, permite la interacción con los objetos audio-visuales y permite nuevas aplicaciones interactivas en un ambiente inalámbrico. • No restringe los objetos visuales a frames rectangulares, sino que lo amplia a objetos animados en tres dimensiones, objetos de forma arbitraria. 11 Frame: Se denomina frame a un fotograma o cuadro, una imagen particular dentro de una sucesión de imágenes que componen una animación. La continua sucesión de estos fotogramas producen a la vista la sensación de movimiento, fenómeno dado por las pequeñas diferencias que hay entre cada uno de ellos. 12 Resiliencia: es la capacidad de recuperación de un error de datos o de una pérdida de información.
  • 47. MPEG1, MPEG2 y MPEG4 46 4.5 Arquitectura decodificador mpeg-4 (ISO/IEC 14496-2, Video). El decodificador de MPEG-4 perfil simple está conformado por los siguientes bloques funcionales: • Unidad de procesamiento de bits. • Decodificador de texturas. • Decodificador de vectores de movimiento. • Compensación de movimiento. • Reconstrucción de movimiento. • Etapa de post-procesamiento. • Unidad de control de paralelismo. Estos 7 bloques funcionales constituyen entre sí una arquitectura paralela, la cual es sincronizada por la unidad de control y cuyas variantes en el proceso de decodificación son determinadas por la información lateral obtenida del bitstream 13 . Todos los bloques funcionales y sus respectivos sub-bloques cuentan con sus propios búferes de memoria, esto les permite intercambiar datos con otros subsistemas sin dejar de procesar nuevos datos. Solo la memoria en la que se almacenan los VOPs 14 de referencia y la utilizada para la presentación en el LCD son memorias externas a la FPGA. La Figura 3.3muestra la arquitectura de hardware para MPEG-4 Perfil simple. 13 Bitstream:se utiliza para definir un servicio mayorista de acceso de datos en banda ancha que un operador (generalmente obligado a ello por tener PSM) ofrece a otros operadores más pequeños, para que estos a su vez puedan proporcionar servicios minoristas a los usuarios finales. 14 VOP: (Video Object Plane), planos de objetos de video, es una muestra temporal de un VO, que a su vez se define como un objeto particular en la escena.
  • 48. MPEG1, MPEG2 y MPEG4 47 Figura 3.3 Arquitectura decodificador MPEG-4 Visual(21) 4.5.1 Procesamiento de Bitstream El Procesamiento de bitstream es una de las tareas más importantes en la codificación de video. Además de obtener la información de textura y movimiento necesaria para reconstruir la imagen al lado del decodificador, la unidad de procesamiento de bitstream debe soportar las herramientas de resiliencia al error soportadas por MPEG-4 Visual. Una unidad de Procesamiento de bitstream está conformada básicamente por una memoria o búfer de bitstream, el intérprete del bitstream (también conocido como parser), las tablas de códigos de longitud variable y registros de configuración relacionados con alternativas en la forma de decodificador el video. La Figura 3.4 muestra el diagrama de bloques para una unidad de procesamiento de bloques.
  • 49. MPEG1, MPEG2 y MPEG4 48 Figura 3.4 Unidad de procesamiento Bitstream.(21) 4.5.2 Decodificación de texturas MPEG-4 denomina textura a la información espacial contenido en los bloques intra e inter- codificados. El proceso de decodificación de texturas está compuesto por cinco bloques: decodificador de tripletas last-run-level o EVENTs como los denomina el estándar; seguidamente se realiza el escaneo inverso para reconstruir el arreglo bidimensional; el paso siguiente se realiza solo para bloques intra-codificados y se denomina Predicción AC y DC inversa; finalmente se llevan a cabo los procesos de cuantización inversa y la transformada inversa del coseno. La Figura 3.5muestra el diagrama de bloques del decodificador de texturas. Figura 3.5 Decodificador información textura.(21) 4.5.3 Decodificador de Vectores de movimiento Los vectores de movimiento en MPEG-4 Visual después de ser decodificados en entropía (Unidad de Procesamiento de Bitstream), deben ser reconstruidos ya que en el codificador se codifican en un formato diferencial. El algoritmo consiste básicamente en hacer un