Inteligencia artificial
Edición consistente de contenido de video con IA con entrada guiada por texto
Si bien la comunidad profesional de efectos visuales está intrigada y ocasionalmente se siente un poco amenazado – debido a las nuevas innovaciones en la síntesis de imágenes y videos, la falta de continuidad temporal en la mayoría de los proyectos de edición de videos basados en IA relega muchos de estos esfuerzos a la esfera 'psicodélica', con brillando y cambiando rápidamente texturas y estructuras, efectos inconsistentes y el tipo de disputa tecnológica cruda que recuerda el era fotoquímica de efectos visuales.
Si desea cambiar algo muy específico en un vídeo que no cae en el ámbito de los deepfakes (es decir, imponer una nueva identidad a las imágenes existentes de una persona), la mayoría de las soluciones actuales funcionan con limitaciones bastante severas, en términos de la precisión necesaria para efectos visuales de calidad de producción.
Una excepción es el trabajo en curso de una asociación flexible de académicos del Instituto de Ciencias Weizmann. En 2021, tres de sus investigadores, en asociación con Adobe, anunció un método novedoso para descomponer video y superponer un mapeo interno consistente: un atlas neural en capas – en una salida compuesta, completa con canales alfa y salida temporalmente cohesiva.
Aunque cae en algún lugar del reino cubierto por flujo óptico En las canalizaciones de VFX, el atlas en capas no tiene un equivalente directo en los flujos de trabajo CGI tradicionales, ya que esencialmente constituye un "mapa de textura temporal" que se puede producir y editar a través de métodos de software tradicionales. En la segunda imagen de la ilustración anterior, el fondo de la superficie de la carretera se representa (en sentido figurado) durante todo el tiempo de ejecución del video. La alteración de esa imagen base (tercera imagen desde la izquierda en la ilustración de arriba) produce un cambio consistente en el fondo.
Las imágenes del atlas 'desplegado' anterior solo representan fotogramas interpretados individuales; los cambios consistentes en cualquier cuadro de video de destino se mapean de nuevo al cuadro original, conservando las oclusiones necesarias y otros efectos de escena necesarios, como sombras o reflejos.
La arquitectura central utiliza un perceptrón multicapa (MLP) para representar los atlas desplegados, los canales alfa y las asignaciones, todos los cuales están optimizados en conjunto y completamente en un espacio 2D, obviando el conocimiento previo al estilo NeRF de puntos de geometría 3D, mapas de profundidad, y adornos de estilo CGI similares.
El atlas de referencia de objetos individuales también se puede modificar de forma fiable:
Esencialmente, el sistema 2021 combina alineación de geometría, emparejamiento, mapeo, retexturización y rotoscopia en un proceso neuronal discreto.
Texto2Live
Los tres investigadores originales del artículo de 2021, junto con la investigación de NVIDIA, se encuentran entre los contribuyentes a una nueva innovación en la técnica que combina el poder de los atlas en capas con el tipo de tecnología CLIP guiada por texto que ha vuelto a destacar esta semana con OpenAI , del marco DALL-E 2.
La nueva arquitectura, titulada Texto2Live, permite a un usuario final crear ediciones localizadas en el contenido de video real en función de las indicaciones de texto:
Text2Live ofrece edición semántica y altamente localizada sin el uso de un generador previamente entrenado, al hacer uso de una base de datos interna que es específica para el videoclip afectado.
La técnica no requiere máscaras proporcionadas por el usuario, como un flujo de trabajo típico de rotoscopia o pantalla verde, sino estimaciones mapas de relevancia a través de una técnica de bootstrapping basada en Investigación 2021 de la Escuela de Ciencias de la Computación de la Universidad de Tel Aviv y Facebook AI Research (FAIR).
El nuevo se titula Text2LIVE: Edición de video e imágenes en capas basadas en texto. Al equipo original de 2021 se unen Omer Bar-Tal de Weizmann y Yoni Kasten de NVIDIA Research.
Arquitectura
Text2Live comprende un generador entrenado en una sola imagen de entrada y mensajes de texto de destino. Un modelo de Preentrenamiento de Imagen-Lenguaje Contrastivo (CLIP) entrenado previamente en 400 millones de pares de texto/imagen proporciona material visual asociado a partir del cual se pueden interpretar las transformaciones de entrada del usuario.
El generador acepta una imagen de entrada (fotograma) y genera una capa RGBA de destino que contiene información de color y opacidad. Luego, esta capa se compone en el metraje original con aumentos adicionales.
Al entrenar en imágenes internas relevantes para el video o la imagen de destino, Text2Live evita el requisito de invertir la imagen de entrada en el espacio latente de una Red Adversaria Generativa (GAN), una práctica que actualmente es lejos de ser lo suficientemente exacto para los requisitos de edición de video de producción, o bien use un modelo de Difusión que es más preciso y configurable, pero no puede mantener la fidelidad al vídeo de destino.
Los enfoques anteriores han utilizado métodos basados en la propagación or basado en flujo óptico enfoques. Dado que estas técnicas se basan en cierta medida en fotogramas, ninguna es capaz de crear una apariencia temporal coherente de los cambios en el vídeo de salida. En cambio, un atlas de capas neuronales proporciona un espacio único en el que abordar los cambios, que luego pueden permanecer fieles al cambio comprometido a medida que avanza el video.
Text2Live está más cerca de un gran avance en la composición basada en IA, en lugar del fértil espacio de texto a imagen que ha atraído tanta atención esta semana con el lanzamiento del segunda generación del marco DALL-E de OpenAI (que puede incorporar imágenes de destino como parte del proceso de transformación, pero sigue siendo limitada en su capacidad para intervenir directamente en una foto, además de la censura de datos de entrenamiento de origen e imposición de filtros, diseñado para evitar el abuso de los usuarios).
Más bien, Text2Live permite al usuario final extraer un atlas y luego editarlo en una sola pasada en entornos basados en píxeles de alto control, como Photoshop (y posiblemente marcos de síntesis de imágenes aún más abstractos, como NERF), antes de devolverlo a un entorno correctamente orientado que, sin embargo, no se basa en la estimación 3D o enfoques retrospectivos basados en CGI.
Además, Text2Live, afirman los autores, es el primer marco comparable que logra enmascarar y componer de forma completamente automática.
Publicado por primera vez el 7 de abril de 2022.