Angle d’Anderson

Pourquoi les systÚmes de vidéo générative ne peuvent-ils pas créer des films complets ?

mm
'a gorgeous illustration of a robot operating a professional movie camera' - ChatGPT Plus, Sept 2024

L’avènement et le progrès de la vidéo générative ont incité de nombreux observateurs occasionnels à prévoir que l’apprentissage automatique entraînera la mort de l’industrie cinématographique telle que nous la connaissons – au lieu de cela, les créateurs individuels pourront créer des blockbusters hollywoodiens à la maison, soit sur des systèmes GPU locaux, soit sur des systèmes basés sur le cloud.

Est-ce possible ? Même si c’est possible, est-ce imminent, comme le croient beaucoup de gens ?

Il est tout à fait possible que les individus puissent finalement créer des films, sous la forme que nous leur connaissons, avec des personnages cohérents, une continuité narrative et une photoréalisme totale, et cela est peut-être même inévitable.

Cependant, il existe plusieurs raisons fondamentales pour lesquelles cela ne devrait pas se produire avec des systèmes de vidéo basés sur les modèles de diffusion latente.

Ceci est important car, actuellement, cette catégorie comprend tous les systèmes de texte-vidéo (T2) et d’image-vidéo (I2V) populaires disponibles, y compris Minimax, Kling, Sora, Imagen, Luma, Amazon Video Generator, Runway ML, Kaiber (et, autant que nous puissions le discerner, la fonctionnalité vidéo à venir d’Adobe Firefly) ; parmi de nombreux autres.

Ici, nous considérons la perspective de véritables productions de films complets en intelligence artificielle, créées par des individus, avec des personnages cohérents, une cinématographie et des effets visuels d’au moins au niveau de l’état actuel de l’art à Hollywood.

Examinons quelques-uns des plus grands obstacles pratiques aux défis impliqués.

1: Vous ne pouvez pas obtenir un plan de suivi précis

L’incohérence narrative est le plus important de ces obstacles. Le fait est que aucun système de génération de vidéo actuellement disponible ne peut créer un véritable plan de suivi précis*.

Ceci est dû au fait que le modèle de diffusion de débruitage au cœur de ces systèmes repose sur le bruit aléatoire, et que ce principe fondamental n’est pas adaptable à la réinterprétation exacte du même contenu deux fois (c’est-à-dire, à partir de différents angles, ou en développant le plan précédent en un plan de suivi qui maintient la cohérence avec le plan précédent).

Lorsque des invites de texte sont utilisées, seules ou avec des images de graines téléchargées (entrée multimodale), les jetons dérivés de l’invite éliciteront un contenu sémantiquement approprié à partir de l’espace latent formé du modèle.

Cependant, davantage entravé par le facteur de « bruit aléatoire », il ne le fera jamais de la même manière deux fois.

Cela signifie que les identités des personnes dans la vidéo ont tendance à changer, et les objets et les environnements ne correspondent pas au plan initial.

C’est pourquoi les extraits vidéo présentant des visuels extraordinaires et un niveau hollywoodien tendent à être soit des plans uniques, soit un « montage de démonstration » des capacités du système, où chaque plan présente des personnages et des environnements différents.

Extrait d’un montage de génération d’intelligence artificielle de Marco van Hylckama Vlieg – source: https://www.linkedin.com/posts/marcovhv_thanks-to-generative-ai-we-are-all-filmmakers-activity-7240024800906076160-nEXZ/

L’implication dans ces collections de générations de vidéo ad hoc (qui peuvent être trompeuses dans le cas de systèmes commerciaux) est que le système sous-jacent peut créer des récits contigus et cohérents.

L’analogie utilisée ici est un trailer de film, qui présente seulement une minute ou deux de footage du film, mais donne au public une raison de croire que le film entier existe.

Les seuls systèmes qui offrent actuellement une cohérence narrative dans un modèle de diffusion sont ceux qui produisent des images fixes. Cela inclut le ConsiStory de NVIDIA, et divers projets dans la littérature scientifique, tels que TheaterGen, DreamStory, et StoryDiffusion.

Deux exemples de continuité narrative « statique », à partir de modÚles récents:: Sources: https://research.nvidia.com/labs/par/consistory/ et https://arxiv.org/pdf/2405.01434

Deux exemples de continuité narrative « statique », à partir de modèles récents:: Sources: https://research.nvidia.com/labs/par/consistory/ et https://arxiv.org/pdf/2405.01434

En théorie, on pourrait utiliser une version améliorée de tels systèmes (aucun des précédents n’est vraiment cohérent) pour créer une série de plans d’image à vidéo, qui pourraient être assemblés en une séquence.

À l’état actuel de l’art, cette approche ne produit pas de plans de suivi plausibles ; et, dans tous les cas, nous avons déjà dévié du rêve auteur en ajoutant une couche de complexité.

Nous pouvons, en outre, utiliser des modèles d’adaptation de rang faible (LoRA) spécifiquement formés sur des personnages, des choses ou des environnements, pour maintenir une meilleure cohérence entre les plans.

Cependant, si un personnage souhaite apparaître dans une nouvelle tenue, un LoRA entièrement nouveau devra généralement être formé pour incorporer le personnage vêtu de cette façon (bien que des sous-concepts tels que « robe rouge » puissent être formés dans des LoRAs individuels, ainsi que des images appropriées, ils ne sont pas toujours faciles à utiliser).

Cela ajoute une complexité considérable, même pour une scène d’ouverture dans un film, où une personne se lève du lit, met une robe de chambre, bâille, regarde par la fenêtre de la chambre et va à la salle de bain pour se brosser les dents.

Une telle scène, contenant environ 4-8 plans, peut être filmée en une matinée par des procédures de tournage classiques ; à l’état actuel de l’art de l’intelligence artificielle générative, cela représente potentiellement des semaines de travail, de multiples LoRAs formés (ou d’autres systèmes auxiliaires), et une quantité considérable de post-production

Alternativement, la vidéo-vidéo peut être utilisée, où des images banales ou des images CGI sont transformées par des invites de texte en interprétations alternatives. Runway offre un tel système, par exemple.

Un exemple de transfert d’interprétation (vidéo de conduite en bas à gauche) imposé sur une vidéo cible avec un experiment de vidéo à vidéo de Mathieu Visnjevec – Source: https://www.linkedin.com/posts/genz-tunisia_digitalcreation-liveportrait-aianimation-activity-7240776811737972736-uxiB/?

Il y a deux problèmes ici: vous devez déjà créer les images de base, vous faites donc déjà le film deux fois, même si vous utilisez un système synthétique tel que MetaHuman d’UnReal.

Si vous créez des modèles CGI (comme dans la vidéo ci-dessus) et les utilisez dans une transformation d’image à vidéo, leur cohérence entre les plans ne peut pas être garantie.

C’est parce que les modèles de diffusion de vidéo ne voient pas le « grand tableau » – ils créent plutôt un nouveau cadre basé sur le cadre précédent, et, dans certains cas, prennent en compte un cadre futur proche ; mais, pour comparer le processus à une partie d’échecs, ils ne peuvent pas « réfléchir à dix coups d’avance » et ne peuvent pas se souvenir de dix coups précédents.

Deuxièmement, un modèle de diffusion aura toujours du mal à maintenir une apparence cohérente entre les plans, même si vous incluez plusieurs LoRAs pour les personnages, les environnements et le style d’éclairage, pour les raisons mentionnées au début de cette section.

2: Vous ne pouvez pas éditer un plan facilement

Si vous dépeignez un personnage marchant dans la rue à l’aide de méthodes CGI classiques, et que vous décidez de modifier un aspect du plan, vous pouvez ajuster le modèle et le rendre à nouveau.

Si c’est un tournage en réalité, vous réinitialisez simplement et vous le tournez à nouveau, avec les modifications appropriées.

Cependant, si vous produisez un plan de vidéo générative que vous aimez, mais que vous souhaitez modifier un aspect de celui-ci, vous ne pouvez le faire qu’en utilisant des méthodes de post-production fastidieuses développées au cours des 30-40 dernières années: CGI, rotoscopie, modelage et masquage – toutes des procédures laborieuses et coûteuses, chronophages procedures.

La façon dont les modèles de diffusion fonctionnent, simplement en changeant un aspect d’une invite de texte (même dans une invite multimodale, où vous fournissez une image de graines source complète) changera plusieurs aspects de la sortie générée, conduisant à un jeu de « whack-a-mole » d’invite.

3: Vous ne pouvez pas vous fier aux lois de la physique

Les méthodes CGI traditionnelles offrent une variété de modèles algorithmiques basés sur la physique qui peuvent simuler des choses telles que la dynamique des fluides, le mouvement gazeux, la cinématique inverse (la modélisation précise du mouvement humain), la dynamique des tissus, les explosions et divers autres phénomènes du monde réel.

Cependant, les méthodes basées sur la diffusion, comme nous l’avons vu, ont une mémoire courte et une gamme limitée de prédictions de mouvement (exemples de tels mouvements, inclus dans le jeu de données d’entraînement) à utiliser.

Dans une version antérieure de la page d’accueil d’OpenAI pour le système génératif Sora, la société a reconnu que Sora a des limitations à cet égard (bien que ce texte ait depuis été supprimé):

‘[Sora] peut avoir du mal à simuler la physique d’une scène complexe, et peut ne pas comprendre des instances spécifiques de cause et d’effet (par exemple: un biscuit peut ne pas montrer une marque après qu’un personnage l’a mordu).

‘Le modèle peut également confondre les détails spatiaux inclus dans une invite, tels que discerner la gauche de la droite, ou lutter avec des descriptions précises d’événements qui se déroulent dans le temps, comme des trajectoires de caméra spécifiques.’

L’utilisation pratique de divers systèmes de vidéo générative basés sur API révèle des limitations similaires dans la représentation de la physique précise. Cependant, certains phénomènes physiques courants, comme les explosions, semblent être mieux représentés dans leurs jeux de données d’entraînement.

Certaines embeddings de mouvement, formées dans le modèle génératif ou alimentées à partir d’une vidéo source, prennent du temps à compléter (comme une personne effectuant une séquence de danse complexe et non répétitive dans un costume élaboré) et, une fois de plus, la fenêtre d’attention myope du modèle de diffusion est susceptible de transformer le contenu (identification faciale, détails de costume, etc.) au moment où le mouvement se termine. Cependant, les LoRAs peuvent atténuer cela, dans une certaine mesure.

Corriger en post-production

Il existe d’autres lacunes dans la génération de vidéo pure « utilisateur unique » d’IA, telles que la difficulté qu’ils ont à dépeindre des mouvements rapides, et le problème général et bien plus pressant d’ obtenir une cohérence temporelle dans la vidéo de sortie.

En outre, la création de performances faciales spécifiques est pratiquement une question de chance dans la vidéo générative, tout comme la synchronisation labiale pour le dialogue.

Dans les deux cas, l’utilisation de systèmes auxiliaires tels que LivePortrait et AnimateDiff devient très populaire dans la communauté VFX, car cela permet d’imposer au moins des expressions faciales et des synchronisations labiales sur les sorties générées existantes.

Un exemple de transfert d’expression (vidéo de conduite en bas à gauche) imposé sur une vidéo cible avec LivePortrait. La vidéo est de Generative Z TunisiaGenerative. Voir la version complète en meilleure qualité à https://www.linkedin.com/posts/genz-tunisia_digitalcreation-liveportrait-aianimation-activity-7240776811737972736-uxiB/?

De plus, une myriade de solutions complexes, incorporant des outils tels que l’interface utilisateur ComfyUI de Stable Diffusion ComfyUI et l’application de composition et de manipulation professionnelle Nuke, ainsi que la manipulation de l’espace latent, permettent aux praticiens de VFX d’IA d’avoir un contrôle plus grand sur l’expression faciale et la disposition.

Bien qu’il décrit le processus d’animation faciale dans ComfyUI comme « torture », le professionnel VFX Francisco Contreras a développé une telle procédure, qui permet d’imposer des phonèmes labiaux et d’autres aspects de la représentation de la tête et du visage.

Stable Diffusion, aidé par un flux de travail ComfyUI alimenté par Nuke, a permis au professionnel VFX Francisco Contreras d’avoir un contrôle inhabituel sur les aspects faciaux. Pour la vidéo complète, à une résolution meilleure, allez à https://www.linkedin.com/feed/update/urn:li:activity:7243056650012495872/

Conclusion

Aucun de ces éléments n’est prometteur pour la perspective d’un utilisateur unique générant des films complets et photoréalistes de style blockbuster, avec des dialogues réalistes, une synchronisation labiale, des performances, des environnements et une continuité réalistes.

De plus, les obstacles décrits ici, du moins en ce qui concerne les modèles de vidéo générative basés sur la diffusion, ne sont pas nécessairement résolus « d’ici peu », malgré les commentaires de forum et l’attention des médias qui font ce cas. Les contraintes décrites semblent être intrinsèques à l’architecture.

Dans la recherche en synthèse d’IA, comme dans toutes les recherches scientifiques, des idées brillantes nous éblouissent périodiquement avec leur potentiel, pour que des recherches ultérieures découvrent leurs limitations fondamentales.

Dans l’espace de génération/synthèse, cela s’est déjà produit avec les réseaux antagonistes génératifs (GAN) et les champs de radiance neuronaux (NeRF), qui se sont finalement avérés très difficiles à instrumentaliser en systèmes commerciaux performants, malgré des années de recherche universitaire dans ce but. Ces technologies apparaissent maintenant le plus souvent comme des composants auxiliaires dans des architectures alternatives.

Alors que les studios de cinéma pourraient espérer que la formation sur des catalogues de films légalement autorisés pourrait éliminer les artistes de storyboard et les équipes de VFX, l’IA ajoute en fait des rôles à la main-d’œuvre actuelle.

Que les systèmes de vidéo basés sur la diffusion puissent vraiment être transformés en générateurs de films narrativement cohérents et photoréalistes, ou que toute l’affaire soit simplement une quête alchimique, devrait devenir apparent au cours des 12 prochains mois.

Il se peut qu’il faille une approche entièrement nouvelle ; ou il se peut que le Gaussian Splatting (GSplat), qui a été développé dans les années 90 et a récemment gagné en popularité dans l’espace de synthèse d’images, représente une alternative potentielle à la génération de vidéo basée sur la diffusion.

Puisque GSplat a mis 34 ans à émerger, il est possible que les anciens prétendants tels que NeRF et GAN – et même les modèles de diffusion latente – n’aient pas encore eu leur jour.

 

* Bien que la fonctionnalité Storyboard d’IA de Kaiber offre cette fonctionnalité, les résultats que j’ai vus ne sont pas de qualité de production.

Martin Anderson est l’ancien responsable du contenu de recherche scientifique chez metaphysic.ai. Publié pour la première fois lundi 23 septembre 2024.

Écrivain sur l'apprentissage automatique, spĂ©cialiste de domaine en synthĂšse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.