Suivez nous sur

Supprimer plus efficacement des objets d'une vidéo grâce à l'apprentissage automatique

Intelligence Artificielle

Supprimer plus efficacement des objets d'une vidéo grâce à l'apprentissage automatique

mm

De nouvelles recherches en Chine rapportent des résultats de pointe - ainsi qu'une amélioration impressionnante de l'efficacité - pour un nouveau système de peinture vidéo capable de supprimer adroitement des objets des images.

Le harnais d'un deltaplane est peint selon la nouvelle procédure. Voir la vidéo source (intégrée au bas de cet article) pour une meilleure résolution et plus d'exemples. Source : https://www.youtube.com/watch?v=N--qC3T2wc4

Le harnais d'un deltaplane est recouvert de peinture grâce à ce nouveau procédé. Consultez la vidéo source pour une meilleure résolution et d'autres exemples. Source : https://www.youtube.com/watch?v=N–qC3T2wc4

La technique, appelée End-to-End framework for Flow-Guided video Inpainting (E2FGVI), est également capable de supprimer les filigranes et divers autres types d'occlusion du contenu vidéo.

E2FGVI calcule des prédictions pour le contenu qui se cache derrière les occlusions, permettant la suppression des filigranes même notables et insolubles. Source : https://github.com/MCG-NKU/E2FGVI

E2FGVI calcule des prédictions pour le contenu qui se cache derrière les occlusions, permettant la suppression des filigranes même notables et autrement insolubles. Source : https://github.com/MCG-NKU/E2FGVI

(Pour voir plus d'exemples en meilleure résolution, consultez la vidéo)

Bien que le modèle présenté dans l'article publié ait été formé sur des vidéos de 432 px x 240 px (généralement de faibles tailles d'entrée, limitées par l'espace GPU disponible par rapport aux tailles de lot optimales et à d'autres facteurs), les auteurs ont depuis publié E2FGVI-QG, qui peut gérer des vidéos à une résolution arbitraire.

Le code de la version actuelle est disponibles sur GitHub, tandis que la version HQ, sortie dimanche dernier, peut être téléchargée sur Google Drive que le béton ey Disque Baidu.

L'enfant reste dans l'image.

L'enfant reste dans l'image.

E2FGVI peut traiter une vidéo 432 × 240 à 0.12 seconde par image sur un GPU Titan XP (12 Go de VRAM), et les auteurs rapportent que le système fonctionne quinze fois plus rapidement que les méthodes de pointe précédentes basées sur flux optique.

Un joueur de tennis fait une sortie inattendue.

Un joueur de tennis fait une sortie inattendue.

Testée sur des ensembles de données standard pour ce sous-secteur de la recherche sur la synthèse d'images, la nouvelle méthode a été en mesure de surpasser ses concurrents dans les cycles d'évaluation qualitatifs et quantitatifs.

Tests par rapport aux approches antérieures. Source : https://arxiv.org/pdf/2204.02663.pdf

Tests par rapport aux approches antérieures. Source : https://arxiv.org/pdf/2204.02663.pdf

Construction papier est intitulé Vers un cadre de bout en bout pour l'inpainting vidéo guidé par flux, et est une collaboration entre quatre chercheurs de l'Université de Nankai, ainsi qu'un chercheur de Hisilicon Technologies.

Ce qui manque dans cette image

Outre ses applications évidentes pour les effets visuels, l'inpainting vidéo de haute qualité est en passe de devenir une caractéristique essentielle des nouvelles technologies de synthèse d'images et de modification d'images basées sur l'IA.

C'est particulièrement le cas pour les applications de mode qui modifient le corps et d'autres cadres qui chercher Ă  « mincir » ou modifier des scènes dans les images et les vidĂ©os. Dans ce cas, il est nĂ©cessaire de « complĂ©ter Â» de manière convaincante l'arrière-plan supplĂ©mentaire rĂ©vĂ©lĂ© par la synthèse.

D'après un article récent, un algorithme de "remodelage" du corps est chargé de peindre l'arrière-plan nouvellement révélé lorsqu'un sujet est redimensionné. Ici, ce manque à gagner est représenté par le contour rouge que la personne (dans la vraie vie, voir l'image de gauche) plus figurée avait l'habitude d'occuper. Basé sur le matériel source de https://arxiv.org/pdf/2203.10496.pdf

D'après une Ă©tude rĂ©cente, un algorithme de « remodelage Â» corporel est chargĂ© de retoucher l'arrière-plan nouvellement rĂ©vĂ©lĂ© lors du redimensionnement d'un sujet. Ici, ce manque est reprĂ©sentĂ© par le contour rouge qu'occupait auparavant la personne (dans la vraie vie, voir image de gauche) aux formes plus gĂ©nĂ©reuses. BasĂ© sur le matĂ©riel source de https://arxiv.org/pdf/2203.10496.pdf

Flux optique cohérent

Le flux optique (OF) est devenu une technologie de base dans le dĂ©veloppement de la suppression d'objets vidĂ©o. Comme un atlas, OF fournit une cartographie ponctuelle d'une sĂ©quence temporelle. Souvent utilisĂ© pour mesurer la vĂ©locitĂ© dans les projets de vision par ordinateur, OF permet Ă©galement une in-painting temporellement cohĂ©rente, oĂą la somme globale de la tâche peut ĂŞtre considĂ©rĂ©e en une seule passe, au lieu d'une attention « image par image Â» de type Disney, qui conduit inĂ©vitablement Ă  une discontinuitĂ© temporelle.

Ă€ ce jour, les mĂ©thodes d'inpainting vidĂ©o se sont concentrĂ©es sur un processus en trois Ă©tapes : achèvement du flux, oĂą la vidĂ©o est essentiellement cartographiĂ©e en une entitĂ© discrète et explorable ; propagation de pixels, oĂą les trous dans les vidĂ©os « corrompues » sont comblĂ©s par des pixels se propageant de manière bidirectionnelle ; et hallucination de contenu (une « invention » de pixel que la plupart d'entre nous connaissent grâce aux deepfakes et aux frameworks de conversion de texte en image tels que la sĂ©rie DALL-E) oĂą le contenu « manquant » estimĂ© est inventĂ© et insĂ©rĂ© dans la sĂ©quence.

L'innovation centrale de E2FGVI consiste à combiner ces trois étapes dans un système de bout en bout, évitant d'avoir à effectuer des opérations manuelles sur le contenu ou le processus.

L'article observe que le besoin d'intervention manuelle nĂ©cessite que les processus plus anciens ne tirent pas parti d'un GPU, ce qui les rend assez chronophages. Extrait du journal* :

'Prise DFVI par exemple, terminer une vidéo avec la taille de 432 × 240 à partir de DAVIS, qui contient environ 70 images, nécessite environ 4 minutes, ce qui est inacceptable dans la plupart des applications réelles. De plus, hormis les inconvénients mentionnés ci-dessus, l'utilisation exclusive d'un réseau d'inpainting d'images pré-entraîné lors de l'hallucination du contenu ignore les relations de contenu entre voisins temporels, ce qui conduit à un contenu généré incohérent dans les vidéos.

En réunissant les trois étapes de l'inpainting vidéo, E2FGVI est capable de remplacer la deuxième étape, la propagation des pixels, par la propagation des caractéristiques. Dans les processus plus segmentés des travaux antérieurs, les fonctionnalités ne sont pas aussi largement disponibles, car chaque étape est relativement hermétique et le flux de travail seulement semi-automatisé.

De plus, les chercheurs ont mis au point un transformateur focal temporel pour l'étape d'hallucination de contenu, qui considère non seulement les voisins directs des pixels dans l'image actuelle (c'est-à-dire ce qui se passe dans cette partie de l'image de l'image précédente ou suivante), mais aussi les voisins éloignés qui sont à plusieurs images de distance, et mais influencera l'effet de cohésion de toutes les opérations effectuées sur la vidéo dans son ensemble.

Architecture de E2FGVI.

Architecture de E2FGVI.

La nouvelle section centrale du flux de travail basée sur les fonctionnalités est capable de tirer parti de processus au niveau des fonctionnalités et de décalages d'échantillonnage apprenables, tandis que le nouveau transformateur focal du projet, selon les auteurs, étend la taille des fenêtres focales « de 2D à 3D ».

Essais et données

Pour tester E2FGVI, les chercheurs ont Ă©valuĂ© le système par rapport Ă  deux ensembles de donnĂ©es populaires de segmentation d'objets vidĂ©o : YouTube-VOSbauen DAVIS. YouTube-VOS propose 3741 clips vidĂ©o de formation, 474 clips de validation et 508 clips de test, tandis que DAVIS propose 60 clips vidĂ©o de formation et 90 clips de test.

E2FGVI a été entraîné sur YouTube-VOS et évalué sur les deux ensembles de données. Lors de l'entraînement, les masques d'objets (les zones vertes dans les images ci-dessus, et les vidéo YouTube d'accompagnement) ont été générées pour simuler la complétion vidéo.

Pour les métriques, les chercheurs ont adopté le rapport signal/bruit maximal (PSNR), la similarité structurelle (SSIM), la distance d'inception de Fréchet basée sur la vidéo (VFID) et l'erreur de déformation de flux - cette dernière pour mesurer la stabilité temporelle de la vidéo affectée.

Les architectures antérieures sur lesquelles le système a été testé ont été Vinet, DFVI, LGTSM, Code postal, FGVC, STTNbauen FusibleAncien.

De la section des résultats quantitatifs de l'article. Les flèches vers le haut et vers le bas indiquent que les nombres supérieurs ou inférieurs sont meilleurs, respectivement. E2FGVI obtient les meilleurs scores dans tous les domaines. Les méthodes sont évaluées selon FuseFormer, bien que DFVI, VINet et FGVC ne soient pas des systèmes de bout en bout, ce qui rend impossible l'estimation de leurs FLOP.

De la section des résultats quantitatifs de l'article. Les flèches vers le haut et vers le bas indiquent que les nombres supérieurs ou inférieurs sont meilleurs, respectivement. E2FGVI obtient les meilleurs scores dans tous les domaines. Les méthodes sont évaluées selon FuseFormer, bien que DFVI, VINet et FGVC ne soient pas des systèmes de bout en bout, ce qui rend impossible l'estimation de leurs FLOP.

En plus d'obtenir les meilleurs scores par rapport à tous les systèmes concurrents, les chercheurs ont mené une étude utilisateur qualitative, dans laquelle des vidéos transformées avec cinq méthodes représentatives ont été montrées individuellement à vingt volontaires, qui ont été invités à les évaluer en termes de qualité visuelle.

L'axe vertical représente le pourcentage de participants qui ont préféré la sortie E2FGVI en termes de qualité visuelle.

L'axe vertical représente le pourcentage de participants qui ont préféré le E2Sortie FGVI en termes de qualité visuelle.

Les auteurs notent que malgré la préférence unanime pour leur méthode, l'un des résultats, FGVC, ne reflète pas les résultats quantitatifs, et ils suggèrent que cela indique que E2Le FGVI pourrait, de manière spécieuse, générer des « résultats visuellement plus agréables ».

En termes d'efficacité, les auteurs notent que leur système réduit considérablement les opérations en virgule flottante par seconde (FLOP) et le temps d'inférence sur un seul GPU Titan sur l'ensemble de données DAVIS, et observent que les résultats montrent E2FGVI exécutant x15 plus rapidement que les méthodes basées sur les flux.

Ils commentent :

'[E2[FGVI] présente le plus faible taux de FLOP par rapport à toutes les autres méthodes. Cela indique que la méthode proposée est très efficace pour l'inpainting vidéo.

*Ma conversion des citations en ligne des auteurs en hyperliens.

 

Première publication le 19 mai 2022.

Modifié le mardi 28 octobre 2025 afin de supprimer l'intégration vidéo défectueuse et de corriger les références à la vidéo intégrée dans le corps de l'article.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai