Inteligencia artificial

CameraCtrl: Habilitación del control de la cámara para la generación de texto a video

Publicado

Hace 3 semanas

Mayo 23 del 2024

Los marcos recientes que intentan generar texto a video o T2V aprovechan los modelos de difusión para agregar estabilidad en su proceso de entrenamiento, y el modelo de difusión de video, uno de los pioneros en los marcos de generación de texto a video, expande una arquitectura de difusión de imágenes 2D en un intento de acomodar datos de video y entrenar el modelo en video e imagen conjuntamente desde cero. Sobre la base de lo mismo, y para implementar un potente generador de imágenes previamente entrenado como Stable Diffusion, trabajos recientes inflan su arquitectura 2D al entrelazar capas temporales entre las capas 2D previamente entrenadas y ajustan el nuevo modelo en grandes conjuntos de datos invisibles. A pesar de su enfoque, los modelos de difusión de texto a video enfrentan un desafío importante ya que la ambigüedad de las descripciones de texto utilizadas únicamente para generar la muestra de video a menudo resulta en que el modelo de texto a video tenga un control más débil sobre la generación. Para abordar esta limitación, algunos modelos proporcionan una guía mejorada, mientras que otros trabajan con señales precisas para controlar con precisión la escena o los movimientos humanos en los videos sintetizados. Por otro lado, existen algunos marcos de texto a video que adoptan imágenes como señal de control para el generador de video, lo que da como resultado un modelado preciso de la relación temporal o una alta calidad de video.

Sería seguro decir que la controlabilidad juega un papel crucial en las tareas de generación de imágenes y videos, ya que permite a los usuarios crear el contenido que desean. Sin embargo, los marcos existentes a menudo pasan por alto el control preciso de la pose de la cámara que sirve como lenguaje cinematográfico para expresar mejor los matices narrativos más profundos del modelo. Para abordar las limitaciones actuales de control, en este artículo hablaremos sobre CameraCtrl, una idea novedosa que intenta permitir un control preciso de la pose de la cámara para modelos de texto a video. Después de parametrizar con precisión la trayectoria de la cámara, el modelo entrena un módulo de cámara plug and play en un modelo de texto a video y deja los demás componentes intactos. Además, el modelo CameraCtrl también realiza un estudio exhaustivo sobre el efecto de varios conjuntos de datos y sugiere que los vídeos con apariencias similares y distribución de cámaras diversa pueden mejorar la controlabilidad general y las capacidades de generalización del modelo. Los experimentos realizados para analizar el rendimiento del modelo CameraCtrl en tareas del mundo real indican la eficiencia del marco para lograr un control de cámara preciso y adaptable al dominio, abriendo un camino a seguir para la búsqueda de una generación de video dinámica y personalizada a partir de la pose de la cámara y las entradas de texto.

Este artículo tiene como objetivo cubrir el marco CameraCtrl en profundidad y exploramos el mecanismo, la metodología, la arquitectura del marco junto con su comparación con los marcos más modernos. Entonces empecemos.

CameraCtrl: Control de cámara para la generación T2V

El reciente desarrollo y avance de los modelos de difusión han avanzado significativamente la generación de videos guiados por texto en los últimos años y revolucionaron los flujos de trabajo de diseño de contenido. La controlabilidad juega un papel importante en las aplicaciones prácticas de generación de videos, ya que permite a los usuarios personalizar los resultados generados según sus necesidades y requisitos. Con una alta controlabilidad, el modelo es capaz de mejorar el realismo, la calidad y la usabilidad de los videos que generó, y aunque los modelos usan comúnmente entradas de texto e imágenes para mejorar la controlabilidad general, a menudo carecen de un control preciso sobre el movimiento y el contenido. . Para abordar esta limitación, algunos marcos han propuesto aprovechar señales de control como el esqueleto de pose, el flujo óptico y otras señales multimodales para permitir un control más preciso para guiar la generación de video. Otra limitación que enfrentan los marcos existentes es que carecen de un control preciso sobre la estimulación o el ajuste de los puntos de la cámara en la generación de video, ya que la capacidad de controlar la cámara es crucial ya que no solo mejora el realismo de los videos generados, sino que al permitir puntos de vista personalizados, también mejora la participación del usuario, una característica esencial en el desarrollo de juegos, la realidad aumentada y la realidad virtual. Además, gestionar hábilmente los movimientos de la cámara permite a los creadores resaltar las relaciones de los personajes, enfatizar las emociones y guiar el enfoque del público objetivo, algo de gran importancia en las industrias del cine y la publicidad.

Para abordar y superar estas limitaciones, se creó el marco CameraCtrl, un módulo de cámara plug and play preciso y fácil de aprender con la capacidad de controlar los puntos de vista de la cámara para la generación de video. Sin embargo, integrar una cámara personalizada en un canal de modelo de texto a video existente es una tarea más fácil de decir que de hacer, lo que obliga al marco CameraCtrl a buscar formas de representar e inyectar la cámara en la arquitectura del modelo de manera efectiva. En la misma nota, el marco CameraCtrl adopta incrustaciones de plucker como forma principal de parámetros de la cámara, y la razón para optar por incrustaciones de plucker puede atribuirse a su capacidad para codificar descripciones geométricas de la información de pose de la cámara. Además, para garantizar la generalización y aplicabilidad del modelo CameraCtrl después del entrenamiento, el modelo introduce un modelo de control de cámara que solo acepta incrustaciones de plucker como entrada. Para garantizar que el modelo de control de la cámara se entrene de manera efectiva, el marco y sus desarrolladores llevan a cabo un estudio integral para investigar cómo los diferentes datos de entrenamiento afectan el marco, desde datos sintéticos hasta datos realistas. Los resultados experimentales indican que la implementación de datos con una distribución de poses de cámara diversa y una apariencia similar al modelo base original logra el mejor equilibrio entre controlabilidad y generalización. Los desarrolladores del marco CameraCtrl han implementado el modelo sobre el marco AnimateDiff, permitiendo así un control preciso en la generación de videos a través de diferentes personalizados, demostrando su versatilidad y utilidad en una amplia gama de contextos de creación de videos.

El marco AnimateDiff adopta la eficiente lora Enfoque de ajuste para obtener los pesos del modelo para diferentes tipos de disparos. El marco Direct-a-video propone implementar un integrador de cámara para controlar la pose de las cámaras durante el proceso de generación de video, pero condiciona solo tres parámetros de la cámara, lo que limita la capacidad de control de la cámara a los tipos más básicos. Por otro lado, los marcos que incluyen MotionCtrl diseñan un controlador de movimiento que acepta más de tres parámetros de entrada y es capaz de producir videos con poses de cámara más complejas. Sin embargo, la necesidad de ajustar partes de los vídeos generados dificulta la generalización del modelo. Además, algunos marcos incorporan señales de control estructural adicionales, como mapas de profundidad, en el proceso para mejorar la controlabilidad de la generación de imágenes y texto. Normalmente, el modelo envía estas señales de control a un codificador adicional y luego inyecta las señales en un generador mediante varias operaciones.

CameraCtrl: Arquitectura del modelo

Antes de que podamos echar un vistazo a la arquitectura y el paradigma de entrenamiento del codificador de cámara, es vital que comprendamos las diferentes representaciones de la cámara. Por lo general, una pose de cámara se refiere a parámetros intrínsecos y extrínsecos, y una de las opciones sencillas para permitir que un generador de video se condicione en la pose de la cámara es introducir valores sin procesar relacionados con los parámetros de la cámara en el generador. Sin embargo, es posible que la implementación de este enfoque no mejore el control preciso de la cámara por varias razones. Primero, mientras que la matriz de rotación está limitada por la ortogonalidad, el vector de traslación generalmente no tiene magnitud y conduce a un desajuste en el proceso de aprendizaje que puede afectar la consistencia del control. En segundo lugar, el uso directo de parámetros sin procesar de la cámara puede dificultar que el modelo correlacione estos valores con los píxeles de la imagen, lo que resulta en un menor control sobre los detalles visuales. Para evitar estas limitaciones, el marco CameraCtrl elige incrustaciones de plucker como representación de la pose de la cámara, ya que las incrustaciones de plucker tienen representaciones geométricas de cada píxel del cuadro de video y pueden proporcionar una descripción más elaborada de la información de la pose de la cámara.

Controlabilidad de la cámara en generadores de vídeo

A medida que el modelo parametriza la trayectoria de la cámara en una secuencia de incrustación de plucker, es decir, mapas espaciales, el modelo tiene la opción de utilizar un modelo codificador para extraer las características de la cámara y luego fusionar las características de la cámara en generadores de video. Similar a texto a imagen adaptador, el modelo CameraCtrl presenta un codificador de cámara diseñado específicamente para videos. El codificador de cámara incluye un modelo de atención temporal después de cada bloque convolucional, lo que le permite capturar las relaciones temporales de las poses de la cámara a lo largo del videoclip. Como se muestra en la siguiente imagen, el codificador de la cámara acepta solo entrada de inserción de desplumador y ofrece funciones de múltiples escalas. Después de obtener las características de la cámara de múltiples escalas, el modelo CameraCtrl tiene como objetivo integrar estas características en la arquitectura U-net del modelo de texto a video sin problemas y determina las capas que deben usarse para incorporar la información de la cámara de manera efectiva. Además, dado que la mayoría de los marcos existentes adoptan una arquitectura similar a U-Net que contiene las capas de atención temporal y espacial, el modelo CameraCtrl inyecta las representaciones de la cámara en el bloque de atención temporal, una decisión respaldada por la capacidad de la atención temporal. capas para capturar relaciones temporales, alineándose con la naturaleza casual y secuencial inherente de la trayectoria de una cámara con las capas de atención espacial que representan los fotogramas individuales.

Distribuciones de cámaras de aprendizaje

Entrenar el componente codificador de cámara dentro del marco CameraCtrl en un generador de video requiere una gran cantidad de videos bien etiquetados y anotados, siendo el modelo capaz de obtener la trayectoria de la cámara usando estructura a partir de movimiento o enfoque SfM. El marco CameraCtrl intenta seleccionar el conjunto de datos con apariencias que coincidan estrechamente con los datos de entrenamiento del texto base con el modelo de video, y tener una distribución de pose de cámara lo más amplia posible. Las muestras del conjunto de datos generado mediante motores virtuales exhiben una distribución de cámaras diversa, ya que los desarrolladores tienen la flexibilidad de controlar los parámetros de la cámara durante la fase de renderizado, aunque sufre una brecha de distribución en comparación con los conjuntos de datos que contienen muestras del mundo real. Cuando se trabaja con conjuntos de datos que contienen muestras del mundo real, la distribución de la cámara suele ser estrecha y, en tales casos, el marco necesita encontrar un equilibrio entre la diversidad entre las diferentes trayectorias de la cámara y la complejidad de la trayectoria de la cámara individual. La complejidad de la trayectoria de la cámara individual garantiza que el modelo aprenda a controlar trayectorias complejas durante el proceso de entrenamiento, mientras que la diversidad entre las diferentes trayectorias de la cámara garantiza que el modelo no se ajuste excesivamente a ciertos patrones fijos. Además, para monitorear el proceso de entrenamiento del codificador de la cámara, el marco CameraCtrl propone la métrica de alineación de la cámara para medir la calidad del control de la cámara cuantificando el error entre la trayectoria de la cámara de las muestras generadas y las condiciones de la cámara de entrada.

CameraCtrl: experimentos y resultados

El marco CameraCtrl implementa el modelo AnimateDiff como su modelo base de texto a video y una razón importante detrás de esto es que la estrategia de entrenamiento del modelo AnimateDiff permite que su módulo de movimiento se integre con modelos base de texto a imagen o texto a imagen LoRA para acomodar video. generación en diferentes géneros y dominios. El modelo utiliza el optimizador Adam para entrenar el modelo con una tasa de aprendizaje constante de 1e-4. Además, para garantizar que el modelo no afecte las capacidades de generación de video del original modelo de texto a video Negativamente, el marco CameraCtrl utiliza la métrica FID o Frechet Inception Distance para evaluar la calidad de la apariencia del video y compara la calidad del video generado antes y después de incluir el módulo de la cámara.

Para evaluar su rendimiento, el marco CameraCtrl se evalúa frente a dos marcos de control de cámara existentes: MotionCtrl y AnimateDiff. Sin embargo, dado que el marco AnimateDiff solo admite ocho trayectorias de cámara básicas, la comparación entre CameraCtrl y AnimateDiff se limita a tres trayectorias básicas. Por otro lado, para compararlo con MotionCtrl, el marco selecciona más de mil trayectorias de cámara aleatorias del conjunto de datos existente además de las trayectorias de cámara base, genera videos usando estas trayectorias y los evalúa usando las métricas TransErr y RotErr.

Como se puede observar, el marco CameraCtrl supera al marco AnimateDiff en la trayectoria básica y ofrece mejores resultados en comparación con el marco MotionCtrl en la métrica de trayectoria compleja.

Además, la siguiente figura demuestra el efecto de la arquitectura del codificador de la cámara en la calidad general de las muestras generadas. Las filas a a d representan los resultados generados con el codificador de cámara implementado en la arquitectura: ControlNet, ControlNet con atención temporal, Adaptador T2I y adaptador T2I con atención temporal respectivamente.

En la siguiente figura, los dos primeros desplazan el vídeo generado usando una combinación del codificador RGB del marco SparseCtrl y el método utilizado en el marco CameraCtrl.

Consideraciones Finales:

En este artículo, hemos hablado sobre CameraCtrl, una idea novedosa que intenta permitir un control preciso de la pose de la cámara para modelos de texto a video. Después de parametrizar con precisión la trayectoria de la cámara, el modelo entrena un módulo de cámara plug and play en un modelo de texto a video y deja los demás componentes intactos. Además, el modelo CameraCtrl también realiza un estudio exhaustivo sobre el efecto de varios conjuntos de datos y sugiere que los vídeos con apariencias similares y distribución de cámaras diversa pueden mejorar la controlabilidad general y las capacidades de generalización del modelo. Los experimentos realizados para analizar el rendimiento del modelo CameraCtrl en tareas del mundo real indican la eficiencia del marco para lograr un control de cámara preciso y adaptable al dominio, abriendo un camino a seguir para la búsqueda de una generación de video dinámica y personalizada a partir de la pose de la cámara y las entradas de texto.

Temas relacionados:Control de cámara modelos t2v texto a imagen modelos de texto a video generador de texto a video difusión de vídeo

Hasta la próxima

MambaOut: ¿Realmente necesitamos a Mamba para la visión?

No Te Lo

¿Qué salió mal con el pin de IA humana?

Kunal Kejriwal

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.