TVyVideo + Radio

El futuro del video con IA (II)

El futuro del video con IA (II)

En esta segunda parte se explican los nuevos hitos para la industria con la Inteligencia Artificial, IA.

Por: PhD. Luis Fernando Gutiérrez Cano y Mag. Luis Jorge Orcasitas Pacheco*PhD.

Segundo hito para el sector audiovisual: Este desarrollo representa una novedad para el sector audiovisual al proporcionar beneficios al predecir parches limpios a partir de parches ruidosos, demostrando una escalabilidad notable en la generación de video. A pesar de enfrentar desafíos en la interpretación y calidad del contenido, su capacidad para mejorar la calidad de las muestras con el aumento del entrenamiento lo convierte en una herramienta poderosa para producir contenido visual de alta calidad.

Duraciones, resoluciones y relaciones de aspecto variables
Enfoques previos para la generación de imágenes y videos suelen redimensionar, recortar o recortar los videos a un tamaño estándar. Sin embargo, encontramos que entrenar con datos en su tamaño nativo ofrece varios beneficios.

- Publicidad -

Flexibilidad en el muestreo
Sora puede mostrar videos de diferentes aspectos, permitiendo la creación de contenido para diferentes dispositivos en sus relaciones de aspecto nativas.

Mejora en la composición y encuadre
El entrenamiento con videos en sus relaciones de aspecto nativas mejora la composición y el encuadre en comparación con modelos que recortan todos los videos de entrenamiento para que sean cuadrados.

Tercer hito para el sector audiovisual: Este procedimiento representa un adelanto para el sector audiovisual, con una serie de beneficios, desafíos y oportunidades. La consideración de duraciones, resoluciones y relaciones de aspecto variables en el entrenamiento de modelos como Sora beneficia al permitir la creación de contenido diverso y adaptable a diferentes dispositivos y necesidades de visualización. Esta flexibilidad en el muestreo potencia la capacidad de Sora para generar contenido visual de alta calidad en una variedad de formatos. Sin embargo, los enfoques previos que redimensionan o recortan los videos pueden haber perjudicado la calidad y la composición del contenido generado.

Comprensión del lenguaje
Se requiere una gran cantidad de videos con sus correspondientes subtítulos de texto para entrenar sistemas de generación de texto a video utilizando la técnica de re-subtitulado, tal como se introdujo en DALL-E 3. Este método implica primero entrenar un modelo de subtítulos altamente descriptivos y utilizarlo para generar subtítulos de texto para todos los videos en nuestro conjunto de entrenamiento. Del mismo modo, al entrenar con subtítulos de video descriptivos, se mejora la fidelidad del texto como la calidad general de los videos. Siguiendo el enfoque de DALL-E 3, aprovechamos GPT para convertir indicaciones de usuario breves en subtítulos detallados, los cuales se envían al modelo de video. Esto permite que Sora genere videos de alta calidad que sigan con precisión las indicaciones del usuario (Figura 6).

Cuarto hito para el sector audiovisual: Este enfoque representa un punto de referencia para el sector audiovisual, con una serie de beneficios, desafíos y oportunidades. La técnica de re-subtitulado introducida en DALL-E 3 beneficia al sector al permitir el entrenamiento de sistemas de generación de texto a video con una gran cantidad de videos y sus correspondientes subtítulos. Esto resulta en una mejora en la fidelidad del texto como en la calidad general de los videos al proporcionar subtítulos descriptivos. Sin embargo, la necesidad de una gran cantidad de datos y el entrenamiento con subtítulos detallados pueden representar desafíos en términos de recursos y tiempo. A pesar de esto, el aprovechamiento de GPT para convertir indicaciones de usuario en subtítulos detallados potencia la capacidad de Sora para generar videos de alta calidad que sigan con precisión las indicaciones del usuario, lo que aumenta su versatilidad y utilidad en la producción de contenido audiovisual.

La versatilidad de Sora
La versatilidad de Sora va más allá de los comandos de texto, incluyendo también imágenes y videos, lo que permite una amplia variedad de tareas de edición como la creación de videos en bucle, la animación de imágenes estáticas y la extensión de videos hacia delante o hacia atrás en el tiempo. Sora puede generar videos basados en imágenes de DALL-E, extender videos existentes, editar videos según indicaciones de texto e interpolar entre dos videos de entrada de manera fluida. A continuación, mostramos ejemplos de estas capacidades, que incluyen la animación de imágenes de DALL-E, la extensión de videos, la edición de video a video y la conexión de videos.

Quinto hito para el sector audiovisual: Este logro representa un avance esencial para el sector audiovisual, con una serie de beneficios, desafíos y oportunidades. La adaptabilidad de Sora beneficia al sector al ofrecer una amplia gama de capacidades de edición, como la creación de videos en bucle, la animación de imágenes estáticas y la extensión de videos en el tiempo. Sin embargo, la complejidad y la cantidad de recursos necesarios para utilizar estas funciones podrían representar un desafío para algunos usuarios. No obstante, la capacidad de Sora para generar videos basados en imágenes de DALL-E, extender videos existentes, editar videos según indicaciones de texto e interpolar entre dos videos de entrada de manera fluida, potencia su utilidad y versatilidad en la producción de contenido audiovisual, lo que podría impulsar la creatividad y la eficiencia en la industria.

- Publicidad -

Capacidades de generación de imágenes
Las capacidades de generación de imágenes de Sora permiten crear imágenes mediante la organización de parches de ruido gaussiano (pequeñas variaciones en la imagen) en una cuadrícula espacial con una extensión temporal de un fotograma. Esta herramienta tiene la capacidad de generar imágenes de diversos tamaños, incluso alcanzando una resolución de 2048x2048. Al entrenar modelos de video a gran escala, Sora exhibe diversas capacidades emergentes de simulación, como consistencia en 3D, coherencia a largo plazo, permanencia de objetos, interacción con el entorno y simulación de mundos digitales. Estas habilidades sugieren que la escalabilidad continua de los modelos de video es un camino prometedor hacia el desarrollo de simuladores capaces del mundo físico y digital, así como de los objetos, animales y personas que los habitan.

Sexto hito para el sector audiovisual: Este avance beneficia al sector audiovisual al proporcionar una herramienta versátil para crear imágenes de alta calidad con diferentes tamaños y resoluciones. Sin embargo, la complejidad y los recursos necesarios para utilizar estas capacidades pueden representar un desafío para algunos usuarios. A pesar de ello, al entrenar modelos de video a gran escala, Sora demuestra capacidades emergentes de simulación que potencian su potencial para el desarrollo de simuladores del mundo físico y digital, incluyendo objetos, animales y personas, lo que podría impulsar la innovación y la creatividad en la industria audiovisual.

Conclusiones y recomendaciones
Sora no está disponible para el público general por cuanto se encuentra en una fase evaluativa donde es esencial asegurar que su uso no sea desviado para propósitos indebidos, garantizando la seguridad de los futuros usuarios. Aún no se ha confirmado si Sora tendrá una política de precios o una versión gratuita.

El avance de la inteligencia artificial, especialmente en el ámbito de la generación de video, ha generado nuevas oportunidades y desafíos en el sector audiovisual. Sora, el modelo desarrollado por OpenAI, representa un paso significativo hacia la creación de simulaciones del mundo físico, ofreciendo una amplia gama de capacidades para la producción de contenido visual de alta calidad.

En definitiva, el futuro del video con inteligencia artificial es prometedor, y modelos como Sora están liderando el camino hacia la creación de simuladores del mundo físico. Con un enfoque cuidadoso y una implementación responsable, esta tecnología tiene el potencial de transformar la industria audiovisual y abrir nuevas posibilidades creativas y comerciales.

Referencias
OpenIA (2024) Video generation models as world simulators. Link: https://openai.com/research/video-generation-models-as-world-simulators

- Publicidad -

*Luis Fernando Gutiérrez Cano y Luis Jorge Orcasitas Pacheco, son docentes e investigadores de la Universidad Pontificia Bolivariana sede Medellín, en el pregrado y posgrado de la Facultad de Comunicación Social-Periodismo. En esta edición se cuenta con el apoyo de las estudiantes Laura Sofía Arboleda Ortega y Mariana Giraldo Correa.

Richard Santa, RAVTEmail: [email protected]

No hay comentarios

• Si ya estás registrado, favor ingresar primero al sistema.

Cinemotion Labs y Filminutos impulsan el talento audiovisual

Cinemotion Labs y Filminutos impulsan el talento audiovisual

Colombia. Cinemotion Labs, el encuentro especializado en tecnología, innovación y producción audiovisual, anunció la realización del Concurso de Filminutos Cinemotion Labs & Festival Cine Corto...

ATSC moderniza la guía de Audio Loudness

ATSC moderniza la guía de Audio Loudness

Latinoamérica. ATSC ha completado una importante revisión de su práctica recomendada A/85, galardonada con el premio Emmy®: Técnicas para establecer y mantener el loudness de audio en la televisión...

Blackmagic Week debatirá el futuro de la TV brasileña

Blackmagic Week debatirá el futuro de la TV brasileña

Brasil. La televisión brasileña está viviendo uno de los momentos más importantes de su historia. Tras la implementación de la televisión digital, el sector se prepara para una nueva revolución...

LineUp y AEQ conectaron a SBT para cobertura del Mundial

LineUp y AEQ conectaron a SBT para cobertura del Mundial

Brasil. LineUp, socio de AEQ en Brasil, implementó una infraestructura de intercom basada en la tecnología Xpeak de AEQ para la cobertura de la Copa Mundial de la FIFA 2026 realizada por SBT (Sistema...

IA redefine el negocio de los operadores

IA redefine el negocio de los operadores

Colombia. La inteligencia artificial dejó de ser una herramienta exclusiva para asistentes virtuales o automatización de tareas administrativas. Hoy, uno de los mayores desafíos para los operadores...

Caper Show prepara su 34ª edición con marcas confirmadas

Caper Show prepara su 34ª edición con marcas confirmadas

Argentina. El pasado 25 de junio se llevó a cabo el Acto de Adjudicación de Stands y Patrocinios para la 34ª edición de Caper Show. La exposición ya cuenta con la participación confirmada de las...

Lentes Zeiss estarán presentes en Cinemotion Labs 2026

Lentes Zeiss estarán presentes en Cinemotion Labs 2026

Colombia. La industria cinematográfica en Latinoamérica se ha ido consolidando en torno a los contenidos de la región, aumentando la cantidad de proyectos con historias locales que hoy se consumen...

Medellín dará incentivos a 94 proyectos audiovisuales y de cine

Medellín dará incentivos a 94 proyectos audiovisuales y de cine

Colombia. La Alcaldía de Medellín, a través de la Comisión Fílmica, anunció los resultados de la primera convocatoria 2026 del Incentivo Cinematográfico y Audiovisual de Medellín.

MMT realizará el Blackmagic Week Chile 2026

MMT realizará el Blackmagic Week Chile 2026

Chile. MMT, en colaboración con Blackmagic Design, anunció la realización de Blackmagic Week Chile 2026, un evento dirigido a profesionales de la industria audiovisual que reunirá en Chile a dos...

Industria se une en pro de afectados por terremoto en Venezuela

Industria se une en pro de afectados por terremoto en Venezuela

Latinoamérica. Diego Yhamá y Ernie Schaefer, junto con la comunidad de DaVinci Resolve Latino, se unen para realizar un evento solidario online que reunirá a la comunidad audiovisual hispanoamericana...

Suscribase Gratis

SUSCRÍBASE AL INFO-BOLETIN

• Gane 25 Puntos de Lealtad •

¿REQUIERE UNA COTIZACIÓN?

ENTREVISTAS DESTACADAS

PATROCINADORES

ULTIMO BOLETIN

Ultimo Info-Boletin