Angle d’Anderson

Effacer des objets et des personnes de vidéos avec l’IA

Published March 21, 2026

Updated April 25, 2026

Martin Anderson

AI-generated stylized image depicting a magician robot showing an empty cabinet with a lady's tiara at the bottom. GPT-1.5

Non, l’enfant ne reste pas sur la photo, si l’IA a quelque chose à voir avec cela.

L’élimination de personnes et d’objets d’images et de vidéos est un sous-domaine de recherche populaire dans la littérature de l’IA axée sur les effets visuels, avec un nombre croissant de jeux de données et de cadres dédiés pour relever le défi. Le dernier d’entre eux, de l’Institut des grandes données de l’Université Fudan de Chine, est EffectErase, un système d’élimination d’objets de vidéo « aware » qui, selon les auteurs, améliore de manière notable l’état de l’art dans les tests :

Assemblé à partir de matériaux du site du projet, des exemples de la méthode EffectErase (veuillez noter que même si nous fournissons un lien, le site source contient de nombreuses vidéos à haute résolution et non optimisées qui peuvent affecter la stabilité de votre navigateur. La vidéo YouTube accompagnant est une référence plus facile et plus complète, et est intégrée à la fin de cet article). Source

Le nouveau travail a impliqué la création / la curation d’un jeu de données semi-novel comprenant près de 350 scènes réelles et synthétisées (en utilisant des référentiels publics *), capturées avec un équipement dédié ou extraites et réutilisées dans un flux de travail construit autour du cadre Blender 3D open source.

Le jeu de données hybride Video Object Removal (VOR) forme la base de l’application EffectErase elle-même, qui est construite sur le système de génération de vidéos Wan2.1. Le système définit également deux nouvelles références liées : VOR Eval et VOR Wild – respectivement, pour les échantillons avec et sans vérité terrain.

(Bien que le document ait un site de projet accompagnant, il est plutôt surchargé de multiples vidéos à haute résolution, et difficile à charger ; donc, veuillez vous référer aux extraits que j’ai sélectionnés dans la vidéo intégrée ci-dessus, si vous trouvez le site du projet difficile à utiliser)

Une comparaison des quantités à travers des jeux de données comparables, par rapport à la nouvelle offre. Source

Les chercheurs affirment que leur approche donne des résultats à l’état de l’art, à la fois en termes de métriques quantitatives et de résultats qualitatifs, tels que jugés par une étude humaine.

Ils notent que les travaux antérieurs n’ont pas toujours réussi à éliminer les effets adjacents d’un objet, tels que les ombres et les reflets, et que leur jeu de données a été soigneusement créé pour remédier à cette lacune :

Exemples de l’échec des approches antérieures pour regarder au-delà de l’objet recherché pour l’élimination, à des indications secondaires, telles que les reflets et les ombres.

Le nouvel article est intitulé EffectErase : Joint Video Object Removal and Insertion for High-Quality Effect Erasing, et provient de quatre chercheurs de la Faculté des sciences de l’informatique et de l’intelligence artificielle de l’Université Fudan.

Méthode

Le jeu de données hybride VOR a été conçu pour englober un large éventail de scénarios afin de couvrir toutes les implications de la tentative d’élimination d’une personne ou d’un objet d’une vidéo :

Des cadres appariés du jeu de données VOR illustrent comment l’élimination d’objets doit aller au-delà du sujet visible pour ses effets induits, avec des exemples montrant l’occlusion, l’ombre, les déplacements de lumière, les reflets et la déformation physique, chaque présenté comme entrée (objet présent) aux côtés de l’arrière-plan propre correspondant après élimination. Pour d’autres exemples, veuillez vous référer à la vidéo YouTube intégrée à la fin de cet article.

Les cinq types représentatifs d’« interférences » à traiter sont définis par les auteurs comme occlusion, y compris divers types d’occlusion par le verre et la fumée ; ombres ; éclairage (par exemple, lorsque l’objet à éliminer crée ou modifie le chemin de la lumière) ; reflet ; et déformation (par exemple, l’empreinte d’un utilisateur sur un coussin, qui ne devrait pas survivre à l’élimination de la personne).

Pipeline de construction de données pour VOR, combinant des scènes synthétiques générées par Blender avec des captures du monde réel, où les données synthétiques sont construites à partir d’environnements 3D, d’objets et de trajectoires de caméra ciblés, et des séquences réelles enregistrées dans divers scènes, augmentées du mouvement Ken Burns. La segmentation SAM2 et l’affinement manuel produisent ensuite des triplets de vidéos de premier plan et d’arrière-plan alignés avec des masques correspondants.

Pour les données réelles, les chercheurs ont utilisé des caméras fixes pour enregistrer des scènes « avec » et « sans » couvrant un large éventail d’environnements, de moments de la journée et de conditions météorologiques.

Pour les données synthétiques, de multiples points de vue ont été rendus, et des scénarios multi-objets ont été créés, présentant des mouvements de caméra complexes et difficiles, tels que ceux qui pourraient survenir dans des séquences réelles ; et les chercheurs observent que cette approche est plus sophistiquée et plus difficile que celle utilisée pour le jeu de données similaire Remove Objects with Side Effects in Videos (ROSE).

Pour augmenter la diversité du mouvement, l’effet Ken Burns a été appliqué aux paires de caméras, ajoutant des panoramiques, des zooms et des mouvements de caméra légèrement tenus en main sous quatorze règles prédéfinies, avec cinq modèles de mouvement échantillonnés par paire tout en gardant la récolte à l’intérieur du cadre d’origine.

L’échelle et la diversité ont été encore élargies en combinant des objets synthétiques avec de multiples configurations de caméra, des masques ont été générés en plaçant des invites de points manuels sur des images clés, en propageant la segmentation avec Segment Anything 2 (SAM2), en nettoyant et en affinant les résultats, et en assemblant des triplets de vidéos de premier plan, d’arrière-plan et de masque validés pour la formation.

La collection finale s’étend sur 145 heures de vidéo sur 60 000 vidéos appariées, réelles et synthétiques, couvrant 366 classes d’objets dans 443 scènes.

Le réseau EffectErase lui-même ingère du matériel via un Variational Auto-Encoder (VAE^†), avec le bruit de décodage géré par Wan2.1. Sur cette colonne vertébrale, EffectErase fonctionne Removal-Insertion Joint Learning, qui forme les deux tâches ensemble sur les mêmes régions ; Task-Aware Region Guidance (TARG), qui utilise des jetons d’objets et de tâches avec cross-attention pour modéliser les liens spatiotemporels entre les objets et leurs effets et permettre le commutation de tâches ; et Effect Consistency Loss, qui aligne les régions d’effet alignées sur les tâches d’élimination et d’insertion :

Schéma du cadre EffectErase. Lors de la formation, des vidéos appariées sont codées dans un espace latent partagé, fusionnées avec du bruit, et traitées par un transformateur de diffusion guidé par une attention croisée sensible à la tâche, tandis qu’une perte de cohérence d’effet aligne les régions d’élimination et d’insertion afin que les deux tâches se concentrent sur la même zone.

En elles-mêmes, les processus d’élimination et d’insertion sont formés ensemble, en utilisant une colonne vertébrale de diffusion partagée, de sorte que le modèle apprend à se concentrer sur les mêmes régions affectées et les indices structurels.

Des vidéos avec des objets, des vidéos d’arrière-plan uniquement et des masques sont d’abord codés dans un espace latent ; le bruit est ensuite ajouté pour la formation de diffusion, et le modèle apprend à récupérer des représentations propres sous la direction spécifique à la tâche. Un adaptateur léger fusionne ensuite les fonctionnalités bruyantes avec des conditions d’élimination ou d’insertion, permettant aux deux tâches de partager la supervision, tout en restant contrôlables.

Task-Aware Region Guidance crée un signal spécifique à la tâche en combinant des jetons de langage avec des fonctionnalités visuelles extraites de l’objet de premier plan, en utilisant CLIP, en remplaçant un jeton d’objet générique par une embedding dérivée du contenu réel de l’image. Cette représentation fusionnée est injectée dans la colonne vertébrale via l’attention croisée, permettant au modèle de suivre la manière dont un objet et ses effets visuels évoluent dans l’espace et le temps, tout en permettant un commutation de tâche flexible.

Effect Consistency Loss force les processus d’élimination et d’insertion à se concentrer sur les mêmes zones modifiées, puisque les deux tâches traitent du même objet et de ses effets visuels. Des cartes d’attention à partir de chaque branche sont ensuite combinées en cartes de région douces, et alignées avec une carte de différence calculée à partir des vidéos d’objets et d’arrière-plan, de sorte que des changements subtils comme l’éclairage et les ombres soient préservés. Cette perte supplémentaire aide l’insertion à guider l’élimination et maintient les deux tâches cohérentes.

Données et tests

Les chercheurs ont testé leur approche contre diverses méthodes d’inpainting, d’inpainting de vidéos et d’élimination d’objets : OmniPaint ; ObjectClear ; VACE ; DiffuEraser ; ProPainter ; ROSE ; et MiniMax-Remover.

Wan2.1 a été affiné avec LoRA^†† en utilisant le jeu de données VOR à une résolution de 832x480px. 81 cadres consécutifs (la limite effective pour WAN, au-delà de laquelle les erreurs tendent à se produire) ont été échantillonnés aléatoirement pour la formation, qui a eu lieu pendant 129 000 itérations à un taille de lot de 8, sur huit H100 GPUs, chacun avec 80 Go de VRAM. Le taux d’apprentissage a été défini à 1×10², et le rang LoRA à 256.

La collection de référence ROSE synthétique a été le seul jeu de données externe testé ; les deux autres étaient VOR-Eval, la VOR division de test du jeu de données ; et VOR-Wild, un jeu de test composé de 195 vidéos réelles extraites d’Internet, présentant des « objets dynamiques ».

Les métriques utilisées étaient Peak Signal-to-Noise Ratio (PSNR) ; Structural Similarity Index (SSIM) ; Learned Perceptual Image Patch Similarity (LPIPS) ; et Fréchet Video Distance (FVD). Une étude d’utilisateurs de 195 vidéos générées à partir de VOR-Wild a également été prise en compte.

En outre, les auteurs ont conçu QScore, une métrique qui utilise le modèle multimodal Qwen-VL pour évaluer la qualité de la sortie de vidéo avec objet éliminé, en termes d’artefacts résiduels ou de suppressions d’environnement manquées, telles que les ombres et les effets d’éclairage :

Comparaison quantitative sur les références ROSE et VOR, avec les meilleurs et les deuxièmes meilleurs résultats affichés en gras et soulignés, respectivement.

En ce qui concerne ces résultats, les auteurs notent :

‘Les méthodes d’inpainting d’images opèrent sur des cadres individuels en utilisant des modèles 2D sans modélisation temporelle, et échouent donc à maintenir la cohérence temporelle dans les vidéos.

Les méthodes d’inpainting de vidéos récentes ne modélisent pas explicitement les effets secondaires des objets, ce qui entraîne des résultats d’élimination non naturels. Les approches d’élimination d’objets de vidéos existantes manquent de modélisation de corrélation spatiotemporelle entre l’objet et ses effets secondaires, et produisent souvent des artefacts et des traces résiduelles des objets éliminés.

‘Dans l’ensemble, EffectErase atteint des performances à l’état de l’art sur tous les jeux de données et les métriques d’évaluation. Il obtient les meilleurs scores sur la métrique de qualité de vidéo FVD, démontrant une supériorité de lissage temporel et de cohérence des vidéos générées.

‘Notre méthode obtient également le QScore et les notes d’utilisateurs les plus élevés, démontrant ainsi son efficacité pour produire des résultats d’élimination visuellement convaincants.’

Pour l’évaluation qualitative, des résultats statiques sont proposés dans le document (affichés) directement ci-dessous, ainsi que des résultats mobiles disponibles sur le site du projet et la présentation vidéo YouTube :

Comparaison qualitative sur VOR-Eval à travers des cas d’occlusion, d’ombre, d’éclairage, de reflet et de déformation. Les méthodes d’inpainting ont du mal à éliminer les effets en dehors du masque, tandis que les modèles d’élimination laissent souvent des artefacts visibles. EffectErase élimine à la fois les objets cibles et leurs effets associés de manière plus propre. Veuillez vous référer au document source pour une meilleure résolution, et au site du projet pour des exemples de vidéos.

Nous renvoyons également le lecteur à des exemples diversifiés sur le site du projet, présentés ci-dessous, ainsi qu’à la vidéo YouTube officielle intégrée à la fin de cet article :

Cliquez pour jouer. Un exemple de comparaison du site du projet EffectErase. Veuillez vous référer au site pour une meilleure résolution (avec les avertissements mentionnés) et pour d’autres exemples.

Les auteurs commentent :

‘Les méthodes d’inpainting de vidéos produisent souvent des artefacts dans les régions masquées et échouent à éliminer complètement les effets secondaires causés par les objets éliminés. Les approches d’élimination d’objets antérieures, telles que [ROSE] et [MinMax-Remover], fonctionnent bien pour éliminer les objets cibles mais ont encore du mal avec les effets secondaires, en particulier dans les scénarios d’occlusion, d’ombre, d’éclairage, de reflet et de déformation.

‘En revanche, EffectErase élimine efficacement à la fois les objets cibles et leurs effets associés, ce qui donne lieu à des résultats propres, cohérents et de haute qualité.’

En conclusion, les chercheurs observent que leur méthode peut également être adaptée pour des tâches d’insertion plutôt que d’élimination, sans nécessiter de formation supplémentaire :

Résultats d’insertion d’objets de vidéos. EffectErase insère des objets tout en préservant le contenu d’arrière-plan et en générant des effets d’objets induits cohérents, tels que des ombres et des reflets, à travers les cadres.

Les résultats de la vidéo pour la tâche d’insertion peuvent être vus dans la (vidéo YouTube spécifique au temps) (également intégrée sans horodatage à la fin de l’article).

Conclusion

Un regard sur des projets similaires dans la littérature révèle que beaucoup espèrent encore que des modèles VFX polyvalents pourront éventuellement intégrer ce type de fonctionnalité dans un modèle d’outils général conçu pour une gamme d’effets, plutôt que pour cette tâche spécifique.

Cependant, sur le principe du « jack-of-all-trades », il semble raisonnable de supposer que des systèmes dédiés comme EffectErase conserveront un avantage sur les approches plus générales ; avec la réserve que l’écart pourrait éventuellement se contracter suffisamment pour que la différence ne vaille pas la peine de l’effort supplémentaire de formation d’un modèle distinct.

* On espérerait, avec des préoccupations croissantes autour des problèmes de provenance de PI, que toutes ces sources soient citées ; mais si les matériaux disponibles du nouveau travail listent la source des modèles 3D, je n’ai pas pu localiser cette référence.

^†La référence fournie semble être un texte explicatif générique de 2013, avec le VAE spécifique non détaillé.

^†† Extrait du document, c’est une description sémantiquement peu claire, puisque l’affinement et LoRA sont des processus différents avec des exigences très différentes.

Publié pour la première fois samedi 21 mars 2026

Related Topics:AI research AI video ai video tools ai-powered video production

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.

Unite.AI

Effacer des objets et des personnes de vidéos avec l’IA

Méthode

Données et tests

Conclusion

You may like