Intelligence Artificielle
Supprimer plus efficacement des objets d'une vidéo grâce à l'apprentissage automatique

De nouvelles recherches en Chine rapportent des résultats de pointe - ainsi qu'une amélioration impressionnante de l'efficacité - pour un nouveau système de peinture vidéo capable de supprimer adroitement des objets des images.

Le harnais d'un deltaplane est recouvert de peinture grâce à ce nouveau procédé. Consultez la vidéo source pour une meilleure résolution et d'autres exemples. Source : https://www.youtube.com/watch?v=N–qC3T2wc4
La technique, appelée End-to-End framework for Flow-Guided video Inpainting (E2FGVI), est également capable de supprimer les filigranes et divers autres types d'occlusion du contenu vidéo.

E2FGVI calcule des prédictions pour le contenu qui se cache derrière les occlusions, permettant la suppression des filigranes même notables et autrement insolubles. Source : https://github.com/MCG-NKU/E2FGVI
(Pour voir plus d'exemples en meilleure résolution, consultez la vidéo)
Bien que le modèle présenté dans l'article publié ait été formé sur des vidéos de 432 px x 240 px (généralement de faibles tailles d'entrée, limitées par l'espace GPU disponible par rapport aux tailles de lot optimales et à d'autres facteurs), les auteurs ont depuis publié E2FGVI-QG, qui peut gérer des vidéos à une résolution arbitraire.
Le code de la version actuelle est disponibles sur GitHub, tandis que la version HQ, sortie dimanche dernier, peut être téléchargée sur Google Drive que le béton ey Disque Baidu.

L'enfant reste dans l'image.
E2FGVI peut traiter une vidéo 432 × 240 à 0.12 seconde par image sur un GPU Titan XP (12 Go de VRAM), et les auteurs rapportent que le système fonctionne quinze fois plus rapidement que les méthodes de pointe précédentes basées sur flux optique.

Un joueur de tennis fait une sortie inattendue.
Testée sur des ensembles de données standard pour ce sous-secteur de la recherche sur la synthèse d'images, la nouvelle méthode a été en mesure de surpasser ses concurrents dans les cycles d'évaluation qualitatifs et quantitatifs.

Tests par rapport aux approches antérieures. Source : https://arxiv.org/pdf/2204.02663.pdf
Construction papier est intitulé Vers un cadre de bout en bout pour l'inpainting vidéo guidé par flux, et est une collaboration entre quatre chercheurs de l'Université de Nankai, ainsi qu'un chercheur de Hisilicon Technologies.
Ce qui manque dans cette image
Outre ses applications évidentes pour les effets visuels, l'inpainting vidéo de haute qualité est en passe de devenir une caractéristique essentielle des nouvelles technologies de synthèse d'images et de modification d'images basées sur l'IA.
C'est particulièrement le cas pour les applications de mode qui modifient le corps et d'autres cadres qui chercher à « mincir » ou modifier des scènes dans les images et les vidéos. Dans ce cas, il est nécessaire de « compléter » de manière convaincante l'arrière-plan supplémentaire révélé par la synthèse.

D'après une étude récente, un algorithme de « remodelage » corporel est chargé de retoucher l'arrière-plan nouvellement révélé lors du redimensionnement d'un sujet. Ici, ce manque est représenté par le contour rouge qu'occupait auparavant la personne (dans la vraie vie, voir image de gauche) aux formes plus généreuses. Basé sur le matériel source de https://arxiv.org/pdf/2203.10496.pdf
Flux optique cohérent
Le flux optique (OF) est devenu une technologie de base dans le développement de la suppression d'objets vidéo. Comme un atlas, OF fournit une cartographie ponctuelle d'une séquence temporelle. Souvent utilisé pour mesurer la vélocité dans les projets de vision par ordinateur, OF permet également une in-painting temporellement cohérente, où la somme globale de la tâche peut être considérée en une seule passe, au lieu d'une attention « image par image » de type Disney, qui conduit inévitablement à une discontinuité temporelle.
À ce jour, les méthodes d'inpainting vidéo se sont concentrées sur un processus en trois étapes : achèvement du flux, où la vidéo est essentiellement cartographiée en une entité discrète et explorable ; propagation de pixels, où les trous dans les vidéos « corrompues » sont comblés par des pixels se propageant de manière bidirectionnelle ; et hallucination de contenu (une « invention » de pixel que la plupart d'entre nous connaissent grâce aux deepfakes et aux frameworks de conversion de texte en image tels que la série DALL-E) où le contenu « manquant » estimé est inventé et inséré dans la séquence.
L'innovation centrale de E2FGVI consiste à combiner ces trois étapes dans un système de bout en bout, évitant d'avoir à effectuer des opérations manuelles sur le contenu ou le processus.

L'article observe que le besoin d'intervention manuelle nécessite que les processus plus anciens ne tirent pas parti d'un GPU, ce qui les rend assez chronophages. Extrait du journal* :
'Prise DFVI par exemple, terminer une vidéo avec la taille de 432 × 240 à partir de DAVIS, qui contient environ 70 images, nécessite environ 4 minutes, ce qui est inacceptable dans la plupart des applications réelles. De plus, hormis les inconvénients mentionnés ci-dessus, l'utilisation exclusive d'un réseau d'inpainting d'images pré-entraîné lors de l'hallucination du contenu ignore les relations de contenu entre voisins temporels, ce qui conduit à un contenu généré incohérent dans les vidéos.
En réunissant les trois étapes de l'inpainting vidéo, E2FGVI est capable de remplacer la deuxième étape, la propagation des pixels, par la propagation des caractéristiques. Dans les processus plus segmentés des travaux antérieurs, les fonctionnalités ne sont pas aussi largement disponibles, car chaque étape est relativement hermétique et le flux de travail seulement semi-automatisé.
De plus, les chercheurs ont mis au point un transformateur focal temporel pour l'étape d'hallucination de contenu, qui considère non seulement les voisins directs des pixels dans l'image actuelle (c'est-à -dire ce qui se passe dans cette partie de l'image de l'image précédente ou suivante), mais aussi les voisins éloignés qui sont à plusieurs images de distance, et mais influencera l'effet de cohésion de toutes les opérations effectuées sur la vidéo dans son ensemble.
La nouvelle section centrale du flux de travail basée sur les fonctionnalités est capable de tirer parti de processus au niveau des fonctionnalités et de décalages d'échantillonnage apprenables, tandis que le nouveau transformateur focal du projet, selon les auteurs, étend la taille des fenêtres focales « de 2D à 3D ».
Essais et données
Pour tester E2FGVI, les chercheurs ont évalué le système par rapport à deux ensembles de données populaires de segmentation d'objets vidéo : YouTube-VOSbauen DAVIS. YouTube-VOS propose 3741 clips vidéo de formation, 474 clips de validation et 508 clips de test, tandis que DAVIS propose 60 clips vidéo de formation et 90 clips de test.
E2FGVI a été entraîné sur YouTube-VOS et évalué sur les deux ensembles de données. Lors de l'entraînement, les masques d'objets (les zones vertes dans les images ci-dessus, et les vidéo YouTube d'accompagnement) ont été générées pour simuler la complétion vidéo.
Pour les métriques, les chercheurs ont adopté le rapport signal/bruit maximal (PSNR), la similarité structurelle (SSIM), la distance d'inception de Fréchet basée sur la vidéo (VFID) et l'erreur de déformation de flux - cette dernière pour mesurer la stabilité temporelle de la vidéo affectée.
Les architectures antérieures sur lesquelles le système a été testé ont été Vinet, DFVI, LGTSM, Code postal, FGVC, STTNbauen FusibleAncien.

De la section des résultats quantitatifs de l'article. Les flèches vers le haut et vers le bas indiquent que les nombres supérieurs ou inférieurs sont meilleurs, respectivement. E2FGVI obtient les meilleurs scores dans tous les domaines. Les méthodes sont évaluées selon FuseFormer, bien que DFVI, VINet et FGVC ne soient pas des systèmes de bout en bout, ce qui rend impossible l'estimation de leurs FLOP.
En plus d'obtenir les meilleurs scores par rapport à tous les systèmes concurrents, les chercheurs ont mené une étude utilisateur qualitative, dans laquelle des vidéos transformées avec cinq méthodes représentatives ont été montrées individuellement à vingt volontaires, qui ont été invités à les évaluer en termes de qualité visuelle.

L'axe vertical représente le pourcentage de participants qui ont préféré le E2Sortie FGVI en termes de qualité visuelle.
Les auteurs notent que malgré la préférence unanime pour leur méthode, l'un des résultats, FGVC, ne reflète pas les résultats quantitatifs, et ils suggèrent que cela indique que E2Le FGVI pourrait, de manière spécieuse, générer des « résultats visuellement plus agréables ».
En termes d'efficacité, les auteurs notent que leur système réduit considérablement les opérations en virgule flottante par seconde (FLOP) et le temps d'inférence sur un seul GPU Titan sur l'ensemble de données DAVIS, et observent que les résultats montrent E2FGVI exécutant x15 plus rapidement que les méthodes basées sur les flux.
Ils commentent :
'[E2[FGVI] présente le plus faible taux de FLOP par rapport à toutes les autres méthodes. Cela indique que la méthode proposée est très efficace pour l'inpainting vidéo.
*Ma conversion des citations en ligne des auteurs en hyperliens.
Première publication le 19 mai 2022.
Modifié le mardi 28 octobre 2025 afin de supprimer l'intégration vidéo défectueuse et de corriger les références à la vidéo intégrée dans le corps de l'article.













