Intelligence artificielle

Édition de contenu vidéo cohérent avec une entrée guidée par texte

Published April 7, 2022

Updated April 28, 2026

Martin Anderson

Alors que la communauté professionnelle des effets visuels est intriguée – et occasionnellement se sent un peu menacée – par les nouvelles innovations dans la synthèse d’images et de vidéos, le manque de continuité temporelle dans la plupart des projets d’édition de vidéos basés sur l’IA relègue beaucoup de ces efforts dans la sphère « psychédélique », avec des textures et des structures scintillantes et changeant rapidement, des effets incohérents et une sorte de technologie grossière qui rappelle l’ ère photochimique des effets visuels.

Si vous voulez changer quelque chose de très spécifique dans une vidéo qui ne relève pas du domaine des deepfakes (c’est-à-dire imposer une nouvelle identité sur des images existantes d’une personne), la plupart des solutions actuelles fonctionnent sous des limitations bastante sévères, en termes de précision requise pour les effets visuels de production de qualité.

Une exception est le travail en cours d’une association lâche d’universitaires de l’Institut de science Weizmann. En 2021, trois de ses chercheurs, en association avec Adobe, ont annoncé une méthode novatrice pour décomposer la vidéo et superposer une carte interne cohérente – un atlas neural couché – dans une sortie composée, complète avec des canaux alpha et une sortie temporellement cohérente.

À partir du document de 2021 : une estimation de la traversée complète de la route dans la vignette source est éditée via un réseau de neurones d’une manière qui traditionnellement nécessiterait un rotoscopie et un match-moving extensifs. Puisque les éléments d’arrière-plan et de premier plan sont gérés par différents réseaux, les masques sont vraiment ‘automatiques’. Source: https://layered-neural-atlases.github.io/

Bien que cela relève quelque part du domaine couvert par le flux optique dans les pipelines VFX, l’atlas couché n’a pas d’équivalent direct dans les flux de travail CGI traditionnels, puisqu’il constitue essentiellement une ‘carte de texture temporelle’ qui peut être produite et éditée via des méthodes logicielles traditionnelles. Dans la deuxième image de l’illustration ci-dessus, l’arrière-plan de la surface de la route est représenté (figurativement) sur toute la durée de la vidéo. La modification de cette image de base (troisième image de gauche dans l’illustration ci-dessus) produit un changement cohérent dans l’arrière-plan.

Les images de l’atlas « déplié » ci-dessus ne représentent que des cadres individuels interprétés ; les changements cohérents dans n’importe quel cadre de vidéo cible sont mappés vers le cadre d’origine, en conservant toute occultation et tout autre effet de scène nécessaire, tel que des ombres ou des reflets.

L’architecture principale utilise un perceptron multicouche (MLP) pour représenter les atlas dépliés, les canaux alpha et les mappages, tous lesquels sont optimisés en concert, et entièrement dans un espace 2D, ce qui obvient la nécessité de connaissances a priori sur la géométrie 3D, les cartes de profondeur et les accessoires CGI similaires.

La référence de l’atlas des objets individuels peut également être modifiée de manière fiable :

Changement cohérent d’un objet en mouvement sous le cadre de 2021. Source: https://www.youtube.com/watch?v=aQhakPFC4oQ

Essentiellement, le système de 2021 combine l’alignement de la géométrie, le match-moving, le mappage, la ré-texturisation et le rotoscopie en un processus neural discret.

Text2Live

Les trois chercheurs originaux du document de 2021, ainsi que la recherche NVIDIA, sont parmi les contributeurs à une nouvelle innovation sur la technique qui combine la puissance des atlas couchés avec le type de technologie CLIP guidée par le texte qui est revenue à la une cette semaine avec la sortie du cadre DALL-E 2.

La nouvelle architecture, intitulée Text2Live, permet à un utilisateur final de créer des éditions localisées de contenu vidéo réel en fonction de invites de texte :

Deux exemples d’édition de premier plan. Pour une meilleure résolution et définition, consultez les vidéos originales à https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live offre une édition hautement localisée et sémantique sans l’utilisation d’un générateur pré-entraîné, en utilisant une base de données interne spécifique à la vignette vidéo affectée.

Transformations d’arrière-plan et de premier plan (objet) sous Text2Live. Source: https://text2live.github.io/sm/pages/video_results_atlases.html

La technique ne nécessite pas de masques fournis par l’utilisateur, tels que ceux utilisés dans un flux de travail de rotoscopie ou de fond vert, mais plutôt estime des cartes de pertinence via une technique de démarrage basée sur la recherche de 2021 de l’École des sciences de l’informatique de l’Université de Tel-Aviv et de Facebook AI Research (FAIR).

Cartes de sortie générées via un modèle d’attention générique basé sur un transformateur.

Le nouveau document est intitulé Text2LIVE : édition d’images et de vidéos guidée par du texte. L’équipe originale de 2021 est rejointe par Omer Bar-Tal de Weizmann et Yoni Kasten de la recherche NVIDIA.

Architecture

Text2Live se compose d’un générateur entraîné sur une seule image d’entrée et des invites de texte cibles. Un modèle CLIP pré-entraîné sur 400 millions de paires d’images et de texte fournit du matériel visuel associé à partir duquel les transformations d’entrée de l’utilisateur peuvent être interprétées.

Le générateur accepte une image d’entrée (cadre) et produit une couche RGBA cible contenant des informations de couleur et d’opacité. Cette couche est ensuite composée dans les images d’origine avec des augmentations supplémentaires.

Le canal alpha de la couche RGBA générée fournit une fonction de composition interne sans recours aux pipelines traditionnels impliquant des logiciels basés sur des pixels tels qu’After Effects.

En s’entraînant sur des images internes pertinentes pour la vidéo ou l’image cible, Text2Live évite l’exigence soit d’inverser l’image d’entrée dans l’espace latent d’un réseau antagoniste génératif (GAN), une pratique qui est actuellement loin d’être suffisamment exacte pour les exigences d’édition de vidéos de production, ou d’utiliser un modèle de diffusion qui est plus précis et configurable, mais ne peut pas maintenir la fidélité à la vidéo cible.

Édits de transformation basés sur des invites de Text2Live.

Les approches antérieures ont utilisé des méthodes basées sur la propagation ou des approches basées sur le flux optique. Puisque ces techniques sont, dans une certaine mesure, basées sur les cadres, aucune n’est capable de créer une apparence temporelle cohérente des changements dans la vidéo de sortie. Un atlas neural couché, en revanche, fournit un seul espace pour aborder les changements, qui peuvent alors rester fidèles au changement engagé à mesure que la vidéo progresse.

Pas de ‘grésillement’ ou d’hallucinations aléatoires : Text2Live obtient une interprétation de l’invite de texte ‘jeep rouillé’, et l’applique une seule fois à l’atlas neural couché de la voiture dans la vidéo, au lieu de redémarrer la transformation pour chaque cadre interprété.

Flux de travail de la transformation cohérente de Text2Live d’un Jeep en une relique rouillée.

Text2Live est plus proche d’une avancée dans le domaine de la composition basée sur l’IA, plutôt que dans l’espace fertile de l’image vers le texte qui a attiré tant d’attention cette semaine avec la sortie de la deuxième génération du cadre DALL-E (qui peut incorporer des images cibles dans le processus de transformation, mais reste limité dans sa capacité à intervenir directement dans une photo, en plus de la censure des données de formation source et de l’imposition de filtres, conçus pour empêcher les abus des utilisateurs).

Plutôt, Text2Live permet à l’utilisateur final d’extraire un atlas, puis de l’éditer en une seule passe dans des environnements à haute maîtrise basés sur des pixels tels que Photoshop (et même plus abstraits, tels que NeRF), avant de le réintégrer dans un environnement correctement orienté qui ne repose pas sur l’estimation 3D ou les approches basées sur l’IA.

De plus, Text2Live, selon les auteurs, est le premier cadre comparable à réaliser le masquage et la composition de manière entièrement automatique.

Publié pour la première fois le 7 avril 2022.

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.

Unite.AI

Édition de contenu vidéo cohérent avec une entrée guidée par texte

Text2Live

Architecture

You may like