Compresión de video: Una segunda aproximación

La señal digital de video está libre de ruido y es muy robusta, pero ocupa mucha amplitud de banda de modo que su grabación en cinta, en disco, o emisión al aire, resulta poco económica. Afortunadamente, en muchas de las imágenes de televisión existen algunos detalles repetitivos que simplemente se pueden descartar sin que el ojo humano se percate de que ha sido engañado. Este proceso se llama compresión digital de video.

Si las señales digitales de video se pudieran procesar de tal manera que fueran grabadas en discos duros de computador, económicamente, sin ninguna pérdida aparente de calidad, entonces la posibilidades en edición, gráficas y animación, serían infinitas. Además, si el video digital se pudiera introducir en la misma amplitud de banda que ocupan las señales análogas convencionales, los televidentes podrían recibir imágenes con calidad de estudio en sus hogares.

El MPEG-2

Las técnicas de Motion JPEG (Joint Photographics Experts Group) y MPEG (Moving Pictures Experts Groups) se usan ahora extensamente para la creación de imágenes por computador que son grabadas en discos o CD-Roms, aunque ninguna ofrece resultados óptimos para la transmisión. Sin embargo, el MPEG-2, un estándar ISO/IEC ratificado, que la industria adoptó a una velocidad increíble, motivada casi en su totalidad por el fuerte deseo de proveer a los televidentes de una inmensa variedad de programas directo-al-hogar (DTH) vía satélite o por cable, usando decodificadores, sí arrojó resultados muy positivos.

El único propósito del MPEG-2 es convertir los rangos de bits transmitidos en algo más manejable. Su éxito se basa en la compresión de información primaria en dos áreas del motion picture. La primera es la información contenida en cada cuadro, llamada espacial (se relaciona con el espacio como el azul y el cielo); la segunda es de detalle o temporal (relacionada con el tiempo), que no cambia de cuadro a cuadro.

- Publicidad -

MPEG-2 es en verdad un estándar mundial. El sistema acompasa todo, desde rangos de información comprimida de computador de menos de 4 Mbits/seg, hasta televisión convencional de 10 15 Mbits/seg, y televisión de alta definición operando hasta 8 Mbits/seg (conocido como niveles). El MPEG-2 provee flexibilidad en el tipo de compresión usado para cada nivel. Estos tipos se conocen como profiles y varían según el uso, desde la señal completa 4:2:2, hasta la eliminación de cuadros completos.

Los codificadores pueden cambiar considerablemente dependiendo de la aplicación, así que los detalles del esquema de codificación deben ser transmitidos al mismo tiempo que la información, para habilitar al decodificador de modo que reconstruya la señal. De esta manera, los codificadores se pueden diseñar para manejar varios niveles usando diferentes profiles al mismo tiempo. Muchas de la transmisiones de 525 y 625 líneas usan un profile principal a un nivel principal (MP@ML).

Compresión temporal

La compresión temporal está diseñada para minimizar la duplicación de información contenida en imágenes sucesivas. Esto se consigue al transmitir datos del vector en movimiento y otras informaciones diferentes, en vez de repetir toda la imagen otra vez. Para facilitar la predicción de movimiento, MPEG-2 separa el video en tres tipos de imágenes:

- Imágenes I (Intracoded)

- Imágenes P (Predictive Coded)

- Imágenes B (Bidirectional Interpolated)

- Publicidad -

Las imágenes I son la referencia clave para los otros dos tipos de imágenes. Se derivan seleccionando la información de un solo cuadro o campo escogido (compresión espacial). Las imágenes inmóviles se conservan mejor usando cuadros completos, pero como el rango de campo es dos veces el rango de cuadro, el movimiento resultará mejor usando imágenes basadas en campos. Algunos de los codificadores MPEG-2 son capaces de analizar la señal de video que les entra para determinar los cambios entre los campos sucesivos. Si no existen cambios entre los campos pares e impares, el codificador presume que los dos son parte del mismo cuadro y los codifica como tal.

Los cambios entre campos son notados y convertidos en vectores de movimiento que se codifican en información para luego ser interpretada por el decodificador. De esta manera se consigue una reducción substancial en los rangos de bits. Los cambios son transmitidos como imágenes P e imágenes B. Las imágenes P se predicen directamente de las anteriores imágenes I. Las imágenes B se derivan usando información de imágenes I o imágenes P y estas fuentes de referencia pueden estar adelante o atrás de las imágenes B que están siendo creadas. De ahí el término interpolación bidireccional. Ambas imágenes tipo P y B también se comprimen espacialmente antes de ser transmitidas. La técnica de compensación de movimiento usando el método anterior se conoce como compresión temporal.

Los tres tipos de imágenes se transmiten secuencialmente en un grupo (GOP), donde la primera imagen siempre es de tipo I. Generalmente hay 12 imágenes en un GOP, pero algunos decodificadores pueden detectar cambios entre campos sucesivos, y si el cambio es substancial, el codificador asume que ha habido una modificación de escena, así que forzará una nueva imagen I. Esto causa que la secuencia vuelva a comenzar. Los GOP son enviados en una secuencia de video tiene información que define el tamaño de la imagen, sus rangos y sus matices de cuantización. La secuencia de video y todos sus pequeños elementos provee códigos de comienzo únicos que facilitan la detección del decodificador.

La única falla en generar estas imágenes virtuales, es que los ingenieros todavía tienen que encontrar una forma fácil de editar imágenes B y P. Los rangos de compresión en el orden de 25:1 se consiguen por medio de MPEG-2 y se considera como un formato de compresión por distribución.

Compresión espacial

El objetivo de la compresión espacial es minimizar la duplicación de información en cada imagen. La reducción de bits se consigue primero modificando la información de video del espacio y tiempo en la frecuencia principal usando el método de transformación discreta del coseno (DCT) y después aplicando la cuantización y las técnicas de codificación de longitud variable para reducir el rango de bits.

- Publicidad -

El DCT (que usa una fórmula trigonométrica derivada del análisis teórico de Fourier) se usa para transformar la información en cada bloque de 8 x 8 pixeles a bloques de coeficientes de frecuencia de 8 x 8. En el rango de frecuencia, la alta energía (y más notable) de los elementos de la imagen es representada por bajas frecuencias en la esquina superior izquierda del bloque, y los detalles de menor importancia son revelados como altas frecuencias hacia la parte inferior derecha.

Después de codificar el DCT, la información está sujeta a un proceso de cuantificación, para reducir información en el área de altas frecuencias, donde el ojo humano es menos sensitivo. Los componentes DC son normalmente cuantificados a 10 bits, ya que si se emplea una cuantificación más exacta en las frecuencias bajas, los mismos bloques pueden empezar a volverse visibles en las imágenes.

Para crear una corriente de bits de compresión de video, los coeficientes de frecuencia de 8 x 8 son escaneados a modo de zigzag desde la parte superior izquierda a la parte inferior derecha y las áreas de altas frecuencias son representadas por corrientes de ceros. Se puede conseguir la reducción de información transmitiendo el número de ceros en vez de los usuales valores de los coeficientes. La última etapa en el proceso de compresión espacial emplea codificación de longitud variable (VLC). La VLC asigna palabras codificadas más cortas para eventos que ocurren frecuentemente y palabras codificadas más largas para eventos menos frecuentes. Los sistemas MPEG usan estos métodos de compresión espacial para reducción de bits.

¿Ahora qué? Antes de poder almacenar o transmitir esta información, tenemos que mezclar el audio, video, y sistemas de información juntos. Existen normalmente dos multiplexers de audio/video. Uno toma las corrientes elementales de audio y video y produce una corriente de programa, y el otro usa la misma información para generar el transporte de corriente. Las corrientes de programas se reservan normalmente para vías de transmisión robustas donde es poco probable que ocurran errores. Los paquetes de información de corrientes de programas pueden ser de diferentes longitudes y contienen un número relativamente grande de bits. Una corriente de transporte siempre es de 188 bits de longitud, y está diseñada para ser usada en ambientes donde los errores son una probabilidad.

El MPEG-2 se ha vuelto el estándar internacional para la compresión de video aplicado a cualquier señal que vaya a ser simplemente almacenada, distribuida y visualizada. Los CD-Rom, por ejemplo, están siendo desarrollados con métodos de compresión MPEG-2. Lo mejor de todo es que el MPEG-2 ha sido adoptado mundialmente como la compresión estándar para televisión satelital DTH y en un futuro, para cable y televisión terrestre digital (DTTV), incluida la televisión de alta definición (HDTV).

Nota sobre el autor:

David Strachan, director de mercadeo de Leitch Technology International, ha trabajado desde hace varios años en la industria de la televisión, primero con EMI y Rank en el Reino Unido y luego para varios transmisores y proveedores de servicios satelitales en Canadá.