talón Edición consistente de contenido de video con IA con entrada guiada por texto - Unite.AI
Contáctanos

Inteligencia artificial

Edición consistente de contenido de video con IA con entrada guiada por texto

mm
Actualizado on

Si bien la comunidad profesional de efectos visuales está intrigada y ocasionalmente se siente un poco amenazado – debido a las nuevas innovaciones en la síntesis de imágenes y videos, la falta de continuidad temporal en la mayoría de los proyectos de edición de videos basados ​​en IA relega muchos de estos esfuerzos a la esfera 'psicodélica', con brillando y cambiando rápidamente texturas y estructuras, efectos inconsistentes y el tipo de disputa tecnológica cruda que recuerda el era fotoquímica de efectos visuales.

Si desea cambiar algo muy específico en un vídeo que no cae en el ámbito de los deepfakes (es decir, imponer una nueva identidad a las imágenes existentes de una persona), la mayoría de las soluciones actuales funcionan con limitaciones bastante severas, en términos de la precisión necesaria para efectos visuales de calidad de producción.

Una excepción es el trabajo en curso de una asociación flexible de académicos del Instituto de Ciencias Weizmann. En 2021, tres de sus investigadores, en asociación con Adobe, anunció un método novedoso para descomponer video y superponer un mapeo interno consistente: un atlas neural en capas – en una salida compuesta, completa con canales alfa y salida temporalmente cohesiva.

Del documento de 2021: una estimación del recorrido completo de la carretera en el clip de origen se edita a través de una red neuronal de una manera que tradicionalmente requeriría una rotoscopia extensa y movimiento de coincidencias. Dado que los elementos de fondo y de primer plano son manejados por diferentes redes, las máscaras son verdaderamente 'automáticas'. Fuente: https://layered-neural-atlases.github.io/

Del documento de 2021: una estimación del recorrido completo de la carretera en el clip de origen se edita a través de una red neuronal de una manera que tradicionalmente requeriría una rotoscopia extensa y movimiento de coincidencias. Dado que los elementos de fondo y de primer plano son manejados por diferentes redes, las máscaras son verdaderamente 'automáticas'. Fuente: https://layered-neural-atlases.github.io/

Aunque cae en algún lugar del reino cubierto por flujo óptico En las canalizaciones de VFX, el atlas en capas no tiene un equivalente directo en los flujos de trabajo CGI tradicionales, ya que esencialmente constituye un "mapa de textura temporal" que se puede producir y editar a través de métodos de software tradicionales. En la segunda imagen de la ilustración anterior, el fondo de la superficie de la carretera se representa (en sentido figurado) durante todo el tiempo de ejecución del video. La alteración de esa imagen base (tercera imagen desde la izquierda en la ilustración de arriba) produce un cambio consistente en el fondo.

Las imágenes del atlas 'desplegado' anterior solo representan fotogramas interpretados individuales; los cambios consistentes en cualquier cuadro de video de destino se mapean de nuevo al cuadro original, conservando las oclusiones necesarias y otros efectos de escena necesarios, como sombras o reflejos.

La arquitectura central utiliza un perceptrón multicapa (MLP) para representar los atlas desplegados, los canales alfa y las asignaciones, todos los cuales están optimizados en conjunto y completamente en un espacio 2D, obviando el conocimiento previo al estilo NeRF de puntos de geometría 3D, mapas de profundidad, y adornos de estilo CGI similares.

El atlas de referencia de objetos individuales también se puede modificar de forma fiable:

Cambio consistente a un objeto en movimiento bajo el marco 2021. Fuente: https://www.youtube.com/watch?v=aQhakPFC4oQ

Cambio consistente a un objeto en movimiento bajo el marco 2021. Fuente: https://www.youtube.com/watch?v=aQhakPFC4oQ

Esencialmente, el sistema 2021 combina alineación de geometría, emparejamiento, mapeo, retexturización y rotoscopia en un proceso neuronal discreto.

Texto2Live

Los tres investigadores originales del artículo de 2021, junto con la investigación de NVIDIA, se encuentran entre los contribuyentes a una nueva innovación en la técnica que combina el poder de los atlas en capas con el tipo de tecnología CLIP guiada por texto que ha vuelto a destacar esta semana con OpenAI , del marco DALL-E 2.

La nueva arquitectura, titulada Texto2Live, permite a un usuario final crear ediciones localizadas en el contenido de video real en función de las indicaciones de texto:

Dos ejemplos de edición en primer plano. Para obtener una mejor resolución y definición, consulte los videos originales en https://text2live.github.io/sm/pages/video_results_atlases.html

Dos ejemplos de edición en primer plano. Para obtener una mejor resolución y definición, consulte los videos originales en https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live ofrece edición semántica y altamente localizada sin el uso de un generador previamente entrenado, al hacer uso de una base de datos interna que es específica para el videoclip afectado.

Transformaciones de fondo y primer plano (objeto) en Text2Live. Fuente: https://text2live.github.io/sm/pages/video_results_atlases.html

Transformaciones de fondo y primer plano (objeto) en Text2Live. Fuente: https://text2live.github.io/sm/pages/video_results_atlases.html

La técnica no requiere máscaras proporcionadas por el usuario, como un flujo de trabajo típico de rotoscopia o pantalla verde, sino estimaciones mapas de relevancia a través de una técnica de bootstrapping basada en Investigación 2021 de la Escuela de Ciencias de la Computación de la Universidad de Tel Aviv y Facebook AI Research (FAIR).

Mapas de salida generados a través de un modelo de atención genérico basado en transformadores.

Mapas de salida generados a través de un modelo de atención genérico basado en transformadores.

El nuevo se titula Text2LIVE: Edición de video e imágenes en capas basadas en texto. Al equipo original de 2021 se unen Omer Bar-Tal de Weizmann y Yoni Kasten de NVIDIA Research.

Arquitectura

Text2Live comprende un generador entrenado en una sola imagen de entrada y mensajes de texto de destino. Un modelo de Preentrenamiento de Imagen-Lenguaje Contrastivo (CLIP) entrenado previamente en 400 millones de pares de texto/imagen proporciona material visual asociado a partir del cual se pueden interpretar las transformaciones de entrada del usuario.

El generador acepta una imagen de entrada (fotograma) y genera una capa RGBA de destino que contiene información de color y opacidad. Luego, esta capa se compone en el metraje original con aumentos adicionales.

El canal alfa en la capa RGBA generada proporciona una función de composición interna sin recurrir a las canalizaciones tradicionales que involucran software basado en píxeles como After Effects.

El canal alfa en la capa RGBA generada proporciona una función de composición interna sin recurrir a las canalizaciones tradicionales que involucran software basado en píxeles como After Effects.

Al entrenar en imágenes internas relevantes para el video o la imagen de destino, Text2Live evita el requisito de invertir la imagen de entrada en el espacio latente de una Red Adversaria Generativa (GAN), una práctica que actualmente es lejos de ser lo suficientemente exacto para los requisitos de edición de video de producción, o bien use un modelo de Difusión que es más preciso y configurable, pero no puede mantener la fidelidad al vídeo de destino.

Diversas ediciones de transformación basadas en indicaciones de Text2Live.

Diversas ediciones de transformación basadas en indicaciones de Text2Live.

Los enfoques anteriores han utilizado métodos basados ​​en la propagación or basado en flujo óptico enfoques. Dado que estas técnicas se basan en cierta medida en fotogramas, ninguna es capaz de crear una apariencia temporal coherente de los cambios en el vídeo de salida. En cambio, un atlas de capas neuronales proporciona un espacio único en el que abordar los cambios, que luego pueden permanecer fieles al cambio comprometido a medida que avanza el video.

Sin alucinaciones 'chisporroteantes' o aleatorias: Text2Live obtiene una interpretación del mensaje de texto 'rusty jeep' y lo aplica una vez al atlas de capas neuronales del automóvil en el video, en lugar de reiniciar la transformación para cada cuadro interpretado.

Sin alucinaciones 'chisporroteantes' o aleatorias: Text2Live obtiene una interpretación del mensaje de texto 'rusty jeep' y lo aplica una vez al atlas de capas neuronales del automóvil en el video, en lugar de reiniciar la transformación para cada cuadro interpretado.

Flujo de trabajo de la transformación consistente de Text2Live de un Jeep en una reliquia oxidada.

Flujo de trabajo de la transformación consistente de Text2Live de un Jeep en una reliquia oxidada.

Text2Live está más cerca de un gran avance en la composición basada en IA, en lugar del fértil espacio de texto a imagen que ha atraído tanta atención esta semana con el lanzamiento del segunda generación del marco DALL-E de OpenAI (que puede incorporar imágenes de destino como parte del proceso de transformación, pero sigue siendo limitada en su capacidad para intervenir directamente en una foto, además de la censura de datos de entrenamiento de origen e imposición de filtros, diseñado para evitar el abuso de los usuarios).

Más bien, Text2Live permite al usuario final extraer un atlas y luego editarlo en una sola pasada en entornos basados ​​en píxeles de alto control, como Photoshop (y posiblemente marcos de síntesis de imágenes aún más abstractos, como NERF), antes de devolverlo a un entorno correctamente orientado que, sin embargo, no se basa en la estimación 3D o enfoques retrospectivos basados ​​en CGI.

Además, Text2Live, afirman los autores, es el primer marco comparable que logra enmascarar y componer de forma completamente automática.

 

Publicado por primera vez el 7 de abril de 2022.