Audio para UHD TV

Hoy en día la calidad del audio es muy importante. Los oídos de los seres humanos tienen gran capacidad de discernimiento, pero también se puede ver que la audibilidad y la claridad del diálogo es todo un reto.

PhD Carlos Pantsios Markhauser*

En los últimos años una nueva tecnología en televisión ha entrado en el mercado mundial conocida como Ultra High Definition Television (UHDTV), que cuenta con 4 veces más cantidad de pixels por imagen en la pantalla (8.3 Mpix) que la televisión HDTV, de 1080p (2Mpix). La tecnología de televisión UHDTV también posee otras características muy destacadas, como son:

1) un rango dinámico sensiblemente mayor,
2) una mejor reproducción temporal de las imágenes (por medio de una frecuencia temporal más alta),
3) una reproducción cromática substancialmente mayor (gracias a un espacio de color expandido) y,
4) más detalles (resolución) en las imágenes reproducidas.

- Publicidad -

A pesar de las grandes ventajas mencionadas en él video, casi no se está consciente del hecho de que también se está produciendo un importante cambio en el sistema de sonido que acompaña al video del UHDTV.

Una nueva experiencia en el sonido está presente en el UHDTV
En primer lugar, es importante destacar aquí la diferencia con la que el ser humano percibe el audio y el video, es decir, la diferencia entre la experiencia que produce el audio y el video. Por ejemplo, es posible, en la práctica, observar perfectamente dos o más imágenes en una misma pantalla de televisión en forma simultánea. Las imágenes de televisión son de naturaleza limitada y normalmente bidimensional.

La presencia de intervalos con pérdida de información, debido a errores de transmisión o de procesamiento del video, no dificulta completamente el entendimiento de las imágenes distorsionadas por parte del usuario. Sin embargo estas pérdidas son, sin duda, molestas para él televidente. En comparación con lo anterior, es realmente complicado entender varios audios que aparecen en forma simultánea al usuario.

El audio en estéreo es una experiencia ilimitada (si el usuario se encuentra sentado en el sitio correcto) y la presencia de intervalos con pérdida de información en el audio rápidamente reduce la habilidad del usuario para comprender lo que sucede.

Más aún, si el audio se encuentra distorsionado, puede ocasionar dolor físico en la persona.

Factores que mejoran la experiencia del audio
Las diferencias de percepción mencionadas muestran que un número importante de factores deben ser considerados para mejorar significativamente la experiencia de audio. Seguidamente se discuten tres áreas que se deben considerar aquí:

Área 1: Se sabe que la capacidad de interacción es ampliamente valorada positivamente por la audiencia, pero el audio equivalente a una segunda pantalla no funciona. Luego, ¿Cómo se hace para crear interacción más completa, además del control de volumen convencional del audio?

- Publicidad -

Área 2: El audio es hoy en día de tipo “inmersivo”, pero ¿Sería interesante saber si esta experiencia se puede mejorar?, ¿Será posible que una experiencia verdadera en el audio en 3D pueda funcionar satisfactoriamente aun cuando imágenes estereoscópias en 3D no pueden hacerlo?

Igualmente importante es preguntarse, ¿Será posible entregar esta experiencia más inmersiva sin sobrecargar la labor de producción y el proceso de distribución de los programas terminados con mucha complejidad añadida y más costo? Finalmente, ¿Será posible hacer lo anteriormente mencionado en una forma en la que también sea accesible a aquellos usuarios que escuchen programas en mono, estéreo o con auriculares?

Área 3: Hoy en día la calidad del audio es muy importante. Los oídos de los seres humanos tienen gran capacidad de discernimiento, pero también se puede ver que la audibilidad y la claridad del diálogo es todo un reto. Una importante pregunta aquí es ¿Cómo se puede adaptar y personalizarla la experiencia del audio para lograr que funcione bien para diferentes preferencias, para un rango de tecnologías y para una variedad de ambientes donde se escucha.

Actualmente se hacen grandes esfuerzos para encontrar diferentes técnicas que permitan cumplir satisfactoriamente con las siguientes tres importantes áreas:
1) interactividad,
2) inmersión y
3) adaptación (también conocido como personalización).

La tecnología que mejores resultados ha mostrado hasta ahora, ofreciendo compatibilidad hacía atrás con tecnologías actuales basadas en canales, es la de audio basado en objetos (audio- objetos).

En el mundo convencional, el contenido de audio de un programa es representado utilizando el formato basado en canales. Aquí, un número de señales almacenadas en un archivo son distribuidas en corrientes, y cada una corresponde a un programa. La tecnología conocida como Broadcasting Wave Format (BWF) no define actualmente lo que representa cada corriente en el archivo, ni tampoco lo hace la tecnología Wave Format de Microsoft, en la cual se basa.

- Publicidad -

El arreglo de parlantes se supone a partir del número de canales disponibles, y las posiciones de los parlantes se basa, igualmente, en el número del canal. Por ejemplo, un programa con dos canales de audio implica un formato estéreo; las señales corresponden a los parlantes izquierdo y derecho, que deben ser colocados a 60 grados de separación. Con este sistema se producen problemas rápidamente cuando existen más de dos canales.

Para contenido en formato 5.1 existen diferentes métodos que permiten ordenar los canales y no existe forma confiable para saber, a partir del archivo solamente, que convención se ha utilizado. El F64 es un formato BWF multicanal compatible, que utiliza una máscara de canal para mapear canales a arreglos de parlantes empleando una etiqueta descriptiva, por ej. SPEAKER-FRONT-LEFT. Lo anterior permite que las posiciones de los parlantes se puedan determinar, pero los identificadores de orden de los canales y la metadata almacenada en un archivo XML son los utilizados para describir los canales. Un conjunto de metadatos denominado EBUCore permite una mayor exactitud en la definición del contenido dentro de un archivo determinado.

Por muchos años, los investigadores estuvieron trabajando en formatos de audio independientes de la configuración de los altavoces. Uno de ellos es el formato Object-Based Format, que describe componentes en una escena con metadata variable en el tiempo, brindando máxima flexibilidad. Para el broadcaster esta solución es muy atractiva, ya que los programas pueden ser producidos una sola vez, y distribuidos en diferentes formatos, los cuales son generados en forma automática. Este nuevo BWF permite la representación de la escena y los audio-objetos, que hace posible que los broadcasters transporten e intercambien programas generados en estos formatos.

Esta tecnología de audio ha estado evolucionando rápidamente en tiempo reciente, dando lugar a nuevos estándares. El audio basado en audio-objetos describe una presentación general del audio, estructurado en valores individuales (u objetos), cada uno con su metadata, que describe sus relaciones, comportamiento y asociaciones. La metadata le dice a un “ensamblador”, en el sistema de AV, como armar en la mejor forma posible los audio-objetos en la presentación deseada, con el arreglo de parlantes disponible.

Conceptualmente, esta aproximación tecnológica es muy poderosa y flexible, pero para lograr una implementación práctica es necesario conocer que problemas se quieren enfocar primero para su solución correspondiente.

Proponiendo conceptos y soluciones
Uno de los conceptos más importantes de la tecnología basada en audio-objetos es el de “renderer”. Éste se define en el llamado Forum for Advanced Media en Europe (FAME), organización que se ocupa de la investigación y desarrollo en Ultra Alta Definición (UHD), Realidad Virtual (VR) y otras nuevas tecnologías.

Lo más probable es que en la vida real sea necesario transcodificar entre diferentes presentaciones basadas en objetos. Lo anterior es debe a que producciones dramáticas de alto nivel requerirán trabajar con un número muy grande de objetos (posiblemente cientos de ellos o más). Los flujos de trabajo reales operan, por lo general, con subconjuntos de menos objetos, y las limitaciones de ancho de banda obligarán al uso de menos objetos para la entrega adecuada y económica de producciones hacía los hogares.

Asimismo, también es necesario poder evaluar la calidad de los diferentes renderings de audio correspondientes a las distintas implementaciones. Hasta ahora no existe una técnica de evaluación de la calidad de los diferentes renderings correspondientes a las implementaciones realizadas. Técnicas ya conocidas como la denominada Multiple Stimuli with Hidden Reference and Anchor (MUSHRA) no sirven aquí, ya que ahora se está interesado en evaluar el “inmersiveness” del material de producción, más que en los errores que puedan aparecer en él.

La definición anterior también deja claro que para que el renderer pueda efectuar el rendering, se requiere tanto del audio como de la metadata.

La verdadera naturaleza de una aproximación de tal flexibilidad reside en el hecho de que los renderers puedan ser desarrolados para escoger una simple versión publicada, e implementarla en la mejor forma posible para un grupo de plataformas, dispositivos y situaciones. Si este es el caso, entonces existe un nuevo reto ya que, como resultado, el grupo de trabajo creativo tendrá una idea muy remota sobre la forma en que sonará el programa de audio en la casa.

Esto hace surgir la pregunta de si se requiere renderers de benchmark y arreglos de monitoreo para permitir una evaluación representativa, que se aplique a la producción en cuestión. Para coronar la reproducción del audio basada en objetos en parlantes de configuración profesional, también se le ha añadido, por parte del diseñador del renderer, el reto aún más difícil de cómo producir un sonido grandioso cuando éste se presenta en el arreglo asimétrico comunmente usado en el hogar.

Actualmente se pueden ver implementaciones en el mercado de consumo de la nueva generación de televisores en 4k (UHDTV) que continúan equipados con tecnología de audio convencional para broadcasting. Sin embargo, las soluciones para audio más novedosas no se encuentran asociadas con la tecnología UHDTV y pueden ser aplicables a receptores de TV corrientes, así como a discos ópticos estándar.

Como consecuencia, están apareciendo tecnologías basadas en audio-objetos emergiendo en muchos sitios. Por ejemplo, Dolby posee objetos en el corazón de su solución ATMOS para el cine (incluyendo el cine del hogar) y está introduciendo su tecnología basada en objetos como parte del estándar AC4. DTS ha lanzado su formato Multi-Dimensional Audio (MDA). Farelight ha implementado las herramientas ATMOS y MDA en sus herramientas de audio 3DAW.

La BBC demostró hace poco varios ejemplos de desarrollos de inmersivas, personalización e interacción, basados en audio-objetos en la exhibición de la IBC del 2014, y el MPEG-H se ha construido para ser “object ready” para la entrega no solo del audio en 3D para broadcasting, sino también para el gaming y las video conferencias.

Grandes cambios nos esperan en la parte del audio en el futuro próximo y, para ello, debemos prepararnos adecuadamente.

*Carlos Pantsios Markhauser es Ingeniero en Telecomunicaciones y Magister en Comunicaciones de la Universidad Simón Bolivar, con Especialización en Telecomunicaciones en satélite y redes The George Washington University - School of Engineering & Applied Science, Especialización en Telecomunicaciones Digitales University of Colorado Boulder. Se desempeña como profesor titular de postgrado en las escuelas de telecomunicaciones en la Universidades Simón Bolivar y Universidad Católica Andrés Bello. Además de consultor profesional en proyectos de TV basado en Argentina.

Author: Richard Santa, RAVT

Editor

Periodista de la Universidad de Antioquia (2010), con experiencia en temas sobre tecnología y economía. Editor de las revistas TVyVideo+Radio y AVI Latinoamérica. Coordinador académico de TecnoTelevisión&Radio.