En esta segunda parte se explican los nuevos hitos para la industria con la Inteligencia Artificial, IA.
Por: PhD. Luis Fernando Gutiérrez Cano y Mag. Luis Jorge Orcasitas Pacheco*PhD.
Segundo hito para el sector audiovisual: Este desarrollo representa una novedad para el sector audiovisual al proporcionar beneficios al predecir parches limpios a partir de parches ruidosos, demostrando una escalabilidad notable en la generación de video. A pesar de enfrentar desafíos en la interpretación y calidad del contenido, su capacidad para mejorar la calidad de las muestras con el aumento del entrenamiento lo convierte en una herramienta poderosa para producir contenido visual de alta calidad.
Duraciones, resoluciones y relaciones de aspecto variables
Enfoques previos para la generación de imágenes y videos suelen redimensionar, recortar o recortar los videos a un tamaño estándar. Sin embargo, encontramos que entrenar con datos en su tamaño nativo ofrece varios beneficios.
Flexibilidad en el muestreo
Sora puede mostrar videos de diferentes aspectos, permitiendo la creación de contenido para diferentes dispositivos en sus relaciones de aspecto nativas.
Mejora en la composición y encuadre
El entrenamiento con videos en sus relaciones de aspecto nativas mejora la composición y el encuadre en comparación con modelos que recortan todos los videos de entrenamiento para que sean cuadrados.
Tercer hito para el sector audiovisual: Este procedimiento representa un adelanto para el sector audiovisual, con una serie de beneficios, desafíos y oportunidades. La consideración de duraciones, resoluciones y relaciones de aspecto variables en el entrenamiento de modelos como Sora beneficia al permitir la creación de contenido diverso y adaptable a diferentes dispositivos y necesidades de visualización. Esta flexibilidad en el muestreo potencia la capacidad de Sora para generar contenido visual de alta calidad en una variedad de formatos. Sin embargo, los enfoques previos que redimensionan o recortan los videos pueden haber perjudicado la calidad y la composición del contenido generado.
Comprensión del lenguaje
Se requiere una gran cantidad de videos con sus correspondientes subtítulos de texto para entrenar sistemas de generación de texto a video utilizando la técnica de re-subtitulado, tal como se introdujo en DALL-E 3. Este método implica primero entrenar un modelo de subtítulos altamente descriptivos y utilizarlo para generar subtítulos de texto para todos los videos en nuestro conjunto de entrenamiento. Del mismo modo, al entrenar con subtítulos de video descriptivos, se mejora la fidelidad del texto como la calidad general de los videos. Siguiendo el enfoque de DALL-E 3, aprovechamos GPT para convertir indicaciones de usuario breves en subtítulos detallados, los cuales se envían al modelo de video. Esto permite que Sora genere videos de alta calidad que sigan con precisión las indicaciones del usuario (Figura 6).
Cuarto hito para el sector audiovisual: Este enfoque representa un punto de referencia para el sector audiovisual, con una serie de beneficios, desafíos y oportunidades. La técnica de re-subtitulado introducida en DALL-E 3 beneficia al sector al permitir el entrenamiento de sistemas de generación de texto a video con una gran cantidad de videos y sus correspondientes subtítulos. Esto resulta en una mejora en la fidelidad del texto como en la calidad general de los videos al proporcionar subtítulos descriptivos. Sin embargo, la necesidad de una gran cantidad de datos y el entrenamiento con subtítulos detallados pueden representar desafíos en términos de recursos y tiempo. A pesar de esto, el aprovechamiento de GPT para convertir indicaciones de usuario en subtítulos detallados potencia la capacidad de Sora para generar videos de alta calidad que sigan con precisión las indicaciones del usuario, lo que aumenta su versatilidad y utilidad en la producción de contenido audiovisual.
La versatilidad de Sora
La versatilidad de Sora va más allá de los comandos de texto, incluyendo también imágenes y videos, lo que permite una amplia variedad de tareas de edición como la creación de videos en bucle, la animación de imágenes estáticas y la extensión de videos hacia delante o hacia atrás en el tiempo. Sora puede generar videos basados en imágenes de DALL-E, extender videos existentes, editar videos según indicaciones de texto e interpolar entre dos videos de entrada de manera fluida. A continuación, mostramos ejemplos de estas capacidades, que incluyen la animación de imágenes de DALL-E, la extensión de videos, la edición de video a video y la conexión de videos.
Quinto hito para el sector audiovisual: Este logro representa un avance esencial para el sector audiovisual, con una serie de beneficios, desafíos y oportunidades. La adaptabilidad de Sora beneficia al sector al ofrecer una amplia gama de capacidades de edición, como la creación de videos en bucle, la animación de imágenes estáticas y la extensión de videos en el tiempo. Sin embargo, la complejidad y la cantidad de recursos necesarios para utilizar estas funciones podrían representar un desafío para algunos usuarios. No obstante, la capacidad de Sora para generar videos basados en imágenes de DALL-E, extender videos existentes, editar videos según indicaciones de texto e interpolar entre dos videos de entrada de manera fluida, potencia su utilidad y versatilidad en la producción de contenido audiovisual, lo que podría impulsar la creatividad y la eficiencia en la industria.
Capacidades de generación de imágenes
Las capacidades de generación de imágenes de Sora permiten crear imágenes mediante la organización de parches de ruido gaussiano (pequeñas variaciones en la imagen) en una cuadrícula espacial con una extensión temporal de un fotograma. Esta herramienta tiene la capacidad de generar imágenes de diversos tamaños, incluso alcanzando una resolución de 2048x2048. Al entrenar modelos de video a gran escala, Sora exhibe diversas capacidades emergentes de simulación, como consistencia en 3D, coherencia a largo plazo, permanencia de objetos, interacción con el entorno y simulación de mundos digitales. Estas habilidades sugieren que la escalabilidad continua de los modelos de video es un camino prometedor hacia el desarrollo de simuladores capaces del mundo físico y digital, así como de los objetos, animales y personas que los habitan.
Sexto hito para el sector audiovisual: Este avance beneficia al sector audiovisual al proporcionar una herramienta versátil para crear imágenes de alta calidad con diferentes tamaños y resoluciones. Sin embargo, la complejidad y los recursos necesarios para utilizar estas capacidades pueden representar un desafío para algunos usuarios. A pesar de ello, al entrenar modelos de video a gran escala, Sora demuestra capacidades emergentes de simulación que potencian su potencial para el desarrollo de simuladores del mundo físico y digital, incluyendo objetos, animales y personas, lo que podría impulsar la innovación y la creatividad en la industria audiovisual.
Conclusiones y recomendaciones
Sora no está disponible para el público general por cuanto se encuentra en una fase evaluativa donde es esencial asegurar que su uso no sea desviado para propósitos indebidos, garantizando la seguridad de los futuros usuarios. Aún no se ha confirmado si Sora tendrá una política de precios o una versión gratuita.
El avance de la inteligencia artificial, especialmente en el ámbito de la generación de video, ha generado nuevas oportunidades y desafíos en el sector audiovisual. Sora, el modelo desarrollado por OpenAI, representa un paso significativo hacia la creación de simulaciones del mundo físico, ofreciendo una amplia gama de capacidades para la producción de contenido visual de alta calidad.
En definitiva, el futuro del video con inteligencia artificial es prometedor, y modelos como Sora están liderando el camino hacia la creación de simuladores del mundo físico. Con un enfoque cuidadoso y una implementación responsable, esta tecnología tiene el potencial de transformar la industria audiovisual y abrir nuevas posibilidades creativas y comerciales.
Referencias
OpenIA (2024) Video generation models as world simulators. Link: https://openai.com/research/video-generation-models-as-world-simulators
*Luis Fernando Gutiérrez Cano y Luis Jorge Orcasitas Pacheco, son docentes e investigadores de la Universidad Pontificia Bolivariana sede Medellín, en el pregrado y posgrado de la Facultad de Comunicación Social-Periodismo. En esta edición se cuenta con el apoyo de las estudiantes Laura Sofía Arboleda Ortega y Mariana Giraldo Correa.

