Latinoamérica. La compañía OpenAI, creadora de Chat GPT, anunció la creación de la una nueva inteligencia artificial destinada a crear videos a partir de textos denominada Sora.
Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico.
El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que persisten con precisión los personajes y el estilo visual.
Además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención al pequeño detalle. El modelo también puede tomar un vídeo existente y ampliarlo o completar los fotogramas faltantes. Obtenga más información en nuestro informe técnico.
Destacó que es un desarrollo que está en proceso, por lo cual están otorgando acceso a una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos.
“Estamos compartiendo el progreso de nuestra investigación desde el principio para comenzar a trabajar y recibir comentarios de personas ajenas a OpenAI y para brindarle al público una idea de las capacidades de IA que hay en el horizonte”, señaló.
Versión de prueba
OpenAI informó que el modelo actual tiene debilidades. Entre ellas, dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco.
El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica.
Foco en seguridad
La compañía anunció que tomará varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI. Buscan evitar desinformación, contenido de odio y prejuicios.
También están creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video. Planean incluir metadatos de C2PA en el futuro si implementan el modelo en un producto OpenAI.
“Nuestro clasificador de texto verificará y rechazará las solicitudes de ingreso de texto que infrinjan nuestras políticas de uso, como aquellas que solicitan violencia extrema, contenido sexual, imágenes de odio, imágenes de celebridades o la IP de otros. También hemos desarrollado clasificadores de imágenes sólidos que se utilizan para revisar los fotogramas de cada video generado para ayudar a garantizar que cumpla con nuestras políticas de uso, antes de mostrarlo al usuario”, resaltó la compañía.