Ángulo de Anderson

Eliminación de objetos y personas de videos con IA

Published March 21, 2026

Updated May 16, 2026

Martin Anderson

AI-generated stylized image depicting a magician robot showing an empty cabinet with a lady's tiara at the bottom. GPT-1.5

No, el niño no permanece en la imagen, si la IA tiene algo que ver con ello.

La eliminación de personas y objetos de imágenes y videos es una rama de investigación popular en la literatura de IA centrada en VFX, con un número creciente de conjuntos de datos y marcos dedicados que abordan el desafío. El último de estos, del Instituto de Big Data de la Universidad Fudan de China, es EffectErase, un sistema de eliminación de objetos de video “consciente de los efectos” que, según los autores, mejora notablemente el estado del arte en las pruebas:

Compilado a partir de material del sitio web del proyecto, ejemplos del método EffectErase (tenga en cuenta que, aunque proporcionamos un enlace, el sitio web de origen contiene muchos videos de alta resolución y no optimizados que se reproducen automáticamente, lo que puede afectar la estabilidad de su navegador web. El video de YouTube adjunto es una referencia más fácil y completa, y se ha incrustado al final de este artículo). Fuente

El nuevo trabajo involucró la creación/curación de un conjunto de datos seminovela que comprende casi 350 escenas reales y sintetizadas (que utilizan repositorios públicos*), capturadas con equipo dedicado o obtenidas y reutilizadas en un flujo de trabajo construido alrededor del marco de trabajo de código abierto Blender 3D.

El conjunto de datos híbrido de eliminación de objetos de video (VOR) es la base para la aplicación EffectErase en sí, que se construye sobre el sistema de generación de video Wan2.1. El sistema también define dos nuevos benchmarks relacionados: VOR Eval y VOR Wild – respectivamente, para muestras con y sin verdad fundamental.

(Aunque el artículo tiene un sitio web de proyecto adjunto, está bastante sobrecargado con múltiples videos de alta resolución, y es difícil de cargar; así que, por favor, consulte los extractos que he recopilado en el video incrustado anterior, si encuentra que el sitio web del proyecto es difícil de usar)

Una comparación de cantidades en conjuntos de datos comparables anteriores, con respecto a la nueva oferta. Fuente

Los investigadores afirman que su enfoque produce un rendimiento de estado del arte, tanto en métricas cuantitativas como en resultados cualitativos, según un estudio humano.

Señalan que los trabajos anteriores no siempre han logrado eliminar los efectos secundarios de un objeto, como sombras y reflejos, y que su conjunto de datos ha sido creado cuidadosamente para subsanar esta deficiencia:

Ejemplos de la incapacidad de los enfoques anteriores para ir más allá del objeto que se busca eliminar, para indicaciones secundarias, como reflejos y sombras.

El nuevo artículo se titula EffectErase: Eliminación y inserción conjunta de objetos de video para la eliminación de efectos de alta calidad, y proviene de cuatro investigadores de la Facultad de Ciencias de la Computación y la Inteligencia Artificial de la Universidad Fudan.

Método

El conjunto de datos híbrido VOR se diseñó para abarcar un rango lo suficientemente amplio de escenarios como para cubrir todas las implicaciones de intentar eliminar a una persona u objeto de un video:

Pares de fotogramas del conjunto de datos VOR ilustran cómo la eliminación de objetos debe extenderse más allá del sujeto visible para incluir sus efectos inducidos, con ejemplos que muestran oclusión, sombra, cambios de iluminación, reflejos y deformación física, cada uno presentado como entrada (objeto presente) junto con el fondo limpio correspondiente después de la eliminación. Para más ejemplos, consulte el video de YouTube adjunto al final de este artículo.

Los cinco tipos representativos de “interferencia” que se deben abordar se definen como oclusión, incluyendo varios tipos de oclusión por humo y vidrio; sombra; iluminación (por ejemplo, cuando un objeto que se va a eliminar crea o altera el camino de la luz); reflejo; y deformación (por ejemplo, la huella de un usuario en un cojín, que no debería sobrevivir a la eliminación de la persona).

Tubería de construcción de datos para VOR, que combina escenas sintéticas generadas con Blender con capturas del mundo real, donde los datos sintéticos se construyen a partir de entornos 3D curados, objetos y trayectorias de cámara, y la filmación real se graba en diversas escenas, aumentada con el efecto Ken Burns. La segmentación SAM2 y el refinamiento manual producen tríos de video de primer plano y fondo alineados con máscaras correspondientes.

Para los datos originales del mundo real, los investigadores utilizaron cámaras fijas para grabar escenas “con” y “sin” que cubrieran una amplia gama de entornos, el momento del día y las condiciones climáticas.

Para los datos sintéticos, se renderizaron múltiples puntos de vista y se crearon escenarios de múltiples objetos, con movimientos de cámara deliberadamente complejos y desafiantes, como podrían ocurrir en filmaciones del mundo real; y los investigadores observan que este enfoque es más sofisticado y esforzado que el utilizado para el conjunto de datos Remove Objects with Side Effects in Videos (ROSE) similar.

Para aumentar la diversidad de movimiento, se aplicó el efecto Ken Burns a pares de cámaras, agregando pans controlados, zooms y movimientos ligeramente manuales bajo catorce reglas predefinidas, con cinco patrones de movimiento muestreados por par mientras se mantenía el recorte dentro del marco original.

La escala y la diversidad se expandieron aún más combinando objetos sintéticos con múltiples configuraciones de cámara, las máscaras se generaron colocando instrucciones de punto manual en fotogramas clave, propagando la segmentación con Segment Anything 2 (SAM2), limpiando y refinando los resultados, y ensamblando tríos de video de primer plano, fondo y máscara validados para el entrenamiento.

La colección final consta de 145 horas de video en 60.000 pares de videos, reales y sintéticos, que cubren 366 clases de objetos en 443 escenas.

La red EffectErase en sí ingiere material a través de un codificador automático variacional (VAE^†), con el ruido de desenoización manejado por Wan2.1. Sobre este esqueleto, EffectErase opera Aprendizaje conjunto de eliminación e inserción, que entrena ambas tareas juntas en las mismas regiones; Orientación de región consciente de la tarea (TARG), que utiliza tokens de objeto y tarea con atención cruzada para modelar enlaces espaciotemporales entre objetos y sus efectos y permitir el cambio de tarea; y Pérdida de coherencia de efecto, que alinea las regiones de efecto alineadas en tareas de eliminación e inserción:

Esquema del marco de trabajo EffectErase. Durante el entrenamiento, los videos emparejados se codifican en un espacio latente compartido, se fusionan con ruido y se procesan con un transformador de difusión guiado por la atención consciente de la tarea, mientras que una pérdida de coherencia de efecto alinea las regiones de eliminación e inserción para que ambas tareas se centren en la misma área.

En sí mismas, las tareas de eliminación e inserción se entrenan juntas, utilizando un esqueleto de difusión compartido, para que el modelo aprenda a centrarse en las mismas regiones afectadas y pistas estructurales.

Los videos con objetos, los videos de fondo solo y las máscaras se codifican primero en un espacio latente; luego se agrega ruido para el entrenamiento de difusión, y el modelo aprende a recuperar representaciones limpias bajo la orientación de la tarea específica. Un adaptador ligero luego fusiona las características ruidosas con las condiciones de eliminación o inserción, lo que permite que ambas tareas compartan la supervisión, mientras siguen siendo controlables.

Orientación de región consciente de la tarea crea una señal de tarea específica combinando tokens de lenguaje con características visuales extraídas del objeto de primer plano, utilizando CLIP, reemplazando un token de objeto genérico con una incrustación derivada del contenido real de la imagen. Esta representación fusionada se inyecta en el esqueleto a través de la atención cruzada, lo que permite al modelo rastrear cómo un objeto y sus efectos visuales evolucionan en el espacio y el tiempo, mientras permite un cambio de tarea flexible.

Pérdida de coherencia de efecto fuerza a las tareas de eliminación e inserción a centrarse en las mismas áreas cambiadas, ya que ambas tareas tratan con el mismo objeto y sus efectos visuales. Los mapas de atención de cada rama se combinan en mapas de región suaves, y se alinean con un mapa de diferencia calculado a partir de los videos del objeto y el fondo, para que se conserven los cambios sutiles como la iluminación y las sombras. Esta pérdida adicional ayuda a la inserción a guiar la eliminación y mantiene ambas tareas coherentes.

Datos y pruebas

Los investigadores probaron su enfoque contra varios métodos de inpintura, inpintura de video y eliminación de objetos: OmniPaint; ObjectClear; VACE; DiffuEraser; ProPainter; ROSE; y MiniMax-Remover.

Wan2.1 se ajustó con LoRA^†† utilizando el conjunto de datos VOR a una resolución de 832x480px. Se muestrearon aleatoriamente 81 fotogramas consecutivos (el límite efectivo para WAN, más allá del cual tienden a ocurrir errores) para el entrenamiento, que se llevó a cabo durante 129.000 iteraciones con un tamaño de lote de 8, en ocho GPU H100, cada una con 80 GB de VRAM. La tasa de aprendizaje se estableció en 1×10², y el rango de LoRA en 256.

La colección sintética de pruebas ROSE fue el único conjunto de datos externo probado; los otros dos fueron VOR-Eval, la división de prueba del conjunto de datos VOR; y VOR-Wild, un conjunto de prueba que consta de 195 videos reales extraídos de Internet, que presentan “objetos dinámicos”.

Las métricas utilizadas fueron Relación de señal a ruido pico (PSNR); Índice de similitud estructural (SSIM); Similitud de parches de imagen perceptual aprendida (LPIPS); y Distancia de video de Fréchet (FVD). También se consideró un estudio de usuario de 195 videos generados de VOR-Wild, con calificaciones promediadas de 20 voluntarios.

Además, los autores idearon Puntuación Q, una métrica que aprovecha el modelo multimodal Qwen-VL para evaluar la calidad de la salida de video con objetos eliminados, en términos de artefactos remanentes o eliminaciones ambientales perdidas, como sombras y efectos de iluminación:

Comparación cuantitativa en las pruebas ROSE y VOR, con los mejores y segundos mejores resultados mostrados en negrita y subrayados, respectivamente.

En cuanto a estos resultados, los autores observan:

‘[Los métodos actuales de inpintura de imagen] operan en fotogramas individuales utilizando modelos 2D sin modelado temporal, y por lo tanto no logran mantener la coherencia temporal en los videos.

Los métodos recientes de inpintura de video no modelan explícitamente los efectos secundarios del objeto, lo que da como resultado resultados de eliminación no naturales. Los métodos actuales de eliminación de objetos de video carecen de modelado de correlación espaciotemporal entre el objeto y sus efectos, y por lo tanto a menudo producen artefactos y rastros residuales de los objetos eliminados.

‘En general, EffectErase logra un rendimiento de estado del arte en todos los conjuntos de datos y métricas de evaluación. Obtiene las mejores puntuaciones en la métrica de calidad de video FVD, lo que demuestra una suavidad y coherencia temporales superiores de los videos generados.

‘Nuestro método también logra la puntuación Q más alta y las calificaciones de retroalimentación de usuario más altas, lo que demuestra aún más su eficacia para producir resultados de eliminación visualmente convincentes.’

Para la evaluación cualitativa, se ofrecen resultados estáticos en el artículo (mostrados) directamente a continuación, así como resultados en movimiento disponibles en el sitio web del proyecto y en el video de YouTube adjunto:

Comparación cualitativa en VOR-Eval en casos de oclusión, sombra, iluminación, reflejo y deformación. Los métodos de inpintura luchan por eliminar los efectos fuera de la máscara, mientras que los modelos de eliminación a menudo dejan artefactos visibles. EffectErase elimina tanto el objeto objetivo como sus efectos asociados de manera más limpia. Por favor, consulte el artículo de origen para una mejor resolución, y el sitio web del proyecto para ejemplos de video.

Nos referimos al lector a ejemplos relacionados diversos en el sitio web del proyecto, que se muestran a continuación, así como al video oficial de YouTube incrustado al final de este artículo:

Haga clic para reproducir. Una comparación de ejemplo del sitio web del proyecto EffectErase. Por favor, consulte el sitio web para una mejor resolución (con las limitaciones mencionadas) y para más ejemplos.

Los autores comentan:

‘Los métodos de inpintura de video a menudo producen artefactos en regiones enmascaradas y no logran eliminar completamente los efectos secundarios causados por los objetos eliminados. Los enfoques de eliminación de objetos anteriores, como [ROSE] y [MinMax-Remover], funcionan bien para eliminar los objetos objetivo pero todavía luchan con los efectos secundarios, especialmente en escenarios de oclusión, sombra, iluminación, reflejo y deformación.

‘En cambio, EffectErase elimina efectivamente tanto el objeto objetivo como sus efectos asociados, lo que da como resultado resultados coherentes, limpios y de alta calidad.’

Al concluir, los investigadores observan que su método también se puede adaptar para tareas de inserción en lugar de eliminación, sin necesidad de entrenamiento adicional:

Resultados de inserción de objetos de video. EffectErase inserta objetos mientras conserva el contenido de fondo y genera efectos inducidos por el objeto consistentes, como sombras y reflejos, en todos los fotogramas.

Los resultados de video para la tarea de inserción se pueden ver en el (video de YouTube con marca de tiempo) (también incrustado sin marca de tiempo al final del artículo).

Conclusión

Una mirada a proyectos similares en la literatura revela que muchos todavía esperan que los modelos de VFX de propósito general eventualmente puedan incorporar esta funcionalidad en un modelo de “kit de herramientas” diseñado para una variedad de efectos, en lugar de solo esta tarea específica.

Sin embargo, según el principio de “herramienta para todo”, parece razonable asumir que los sistemas dedicados como EffectErase seguirán manteniendo una ventaja sobre los enfoques más generales; con la salvedad de que la brecha puede eventualmente contraerse lo suficiente como para que la diferencia no valga la pena el esfuerzo adicional de entrenar un modelo discreto.

* Uno esperaría, con las crecientes preocupaciones sobre la cuestión de la procedencia de la propiedad intelectual, que todas estas fuentes se citaran; pero si los materiales disponibles del nuevo trabajo enumeran la fuente de los modelos 3D, no pude localizar esta referencia.

^†La referencia proporcionada parece ser un texto explicativo genérico de 2013, con el VAE específico no detallado.

^†† Tomado del artículo, esta es una descripción semánticamente poco clara, ya que el ajuste fino y LoRA son procesos diferentes con demandas muy diferentes.

Publicado por primera vez el sábado 21 de marzo de 2026