Connect with us

Pourquoi l’entrelacement de concepts signifie que vous ne pouvez pas avoir de vidéos « à votre manière » en IA

Angle d’Anderson

Pourquoi l’entrelacement de concepts signifie que vous ne pouvez pas avoir de vidéos « à votre manière » en IA

mm
AI-generated image (GPT-1.5) depicting a man trying to fit disparate Legos together.

Les outils de vidéo IA promettent un contrôle total, mais l’« entrelacement de concepts » caché colle les identités, les expressions et les comportements ensemble, forçant des hacks et des astuces de modèles qui brisent le mythe de la magie GenAI sans effort.

 

Opinion Depuis que j’ai abordé ce sujet en profondeur il y a cinq ans, le problème de l’entrelacement de concepts dans les systèmes d’IA entraînés s’est étendu à un plus grand nombre d’utilisateurs, sans être vraiment mieux compris en soi.

À l’époque, les systèmes de auto-encodeurs de deepfakes (c’est-à-dire les systèmes DeepFaceLab et FaceSwap maintenant obsolètes, tous deux dérivés du code Reddit de 2017 désormais disgracié et interdit) étaient les seuls jeux en ville pour créer des deepfakes de personnes relativement photoréalistes.

Ces systèmes reposaient sur des ensembles de données de formation de visages étendus destinés à fournir au modèle d’IA des informations sur A) à quoi ressemblait la personne au repos (une emplacement de référence canonique) et B) à quoi ressemblait la personne dans diverses situations que peut refléter un visage, de le sommeil à le rire, l’horreur, l’ennui, le cynisme, la tristesse, etc.

L'identité ne vient pas seule, mais avec les expressions faciales. De plus, certaines émotions n'ont peut-être que des données de visage disponibles à partir d'angles extrêmes particuliers, ce qui tendra à associer l'angle à l'émotion et vice versa.

L’identité ne vient pas seule, mais avec les expressions faciales. De plus, certaines émotions n’ont peut-être que des données de visage disponibles à partir d’angles extrêmes particuliers, ce qui tendra à associer l’angle à l’émotion et vice versa.

Le problème était que l’identité canonique devait généralement être déduite de captures de visage qui n’étaient pas en soi « neutres », de sorte que la prépondérance des sourires et des rires obtenus lors du scraping de jeux de données stock serait décalée vers un « sourire par défaut ».

C’était parce que le système d’auto-encodeur devait essayer d’extraire un concept d’identité « neutre » à partir de milliers d’images où les caractéristiques faciales étaient contorsionnées par des expressions faciales normales.

Regarder vers l’avant

Alors que les approches basées sur la diffusion ont pris le relais de la scène de l’image (et plus tard de la vidéo) de l’IA générative à partir de 2022, les systèmes génératifs sont devenus beaucoup meilleurs pour extrapoler des expressions faciales précises lorsqu’ils sont alimentés par des données de visage limitées.

Même le défi épineux de la création de vues de profil convaincantes a été pratiquement surmonté, à l’état actuel de l’art, tandis que les données d’expression ont été assez efficacement dissociées de l’identité – dans la mesure où le type de marionnettage de deepfake en temps réel initié par le système de diffusion en temps réel DeepFaceLive a de nombreuses applications hors ligne efficaces, avec une mise en scène en temps réel probablement en développement.

Cliquez pour jouer. À partir du projet FlashPortrait, divers exemples de conduite d’avatars à travers des vidéos sources. Dans ce cas, cela n’a pas d’importance de quel côté se trouve le « domaine réaliste », si tel est le cas. Source 

Cependant, à mesure que la toile de l’IA générative s’élargit et que la sortie devient plus sophistiquée, le problème d’entrelacement s’est simplement étendu à d’autres domaines – et est actuellement « corrigé » par des astuces assez bon marché et anciennes. Si vous ne savez pas ce que sont ces astuces, vous pourriez avoir une opinion plus positive sur la façon dont l’IA vidéo et l’image évoluent rapidement et surmontent leurs anciens problèmes.

Chats bavards

J’espère qu’il est clair pourquoi l’identité et l’émotion se sont avérées difficiles à séparer pour les anciens systèmes d’auto-encodeurs de 2017. C’était parce que a) Il y avait trop de données d’un type, OU une version trop spécifique d’un type de données importantes, ce qui causerait un biais de distribution ; et/ou B) l’architecture du modèle n’était pas à la hauteur de la tâche de séparer ces qualités, et tendait à « les coller ensemble » au moment de l’inférence, à moins que l’utilisateur ne prenne un soin extraordinaire pour assurer l’équilibre de son ensemble de données.

Pour exactement la même raison, des problèmes similaires ont émergé dans un certain nombre de modèles de vidéo open source et propriétaires au cours des dernières années, bien qu’ils aient été éclipsés par des niveaux plus élevés de critique autour de la hallucination, du manque de censure et de divers autres sujets.

Par exemple, dans le système Wan2.+, de nombreux utilisateurs ont constaté qu’il est très difficile d’empêcher leurs personnages générés de parler sans cesse, et souvent également difficile d’empêcher qu’ils ne regardent la caméra.

Le problème de « regarder la caméra » (ou de briser le quatrième mur) précède l’avènement des systèmes de synthèse de vidéo, puisqu’il est apparu dans divers systèmes de diffusion d’images uniquement, en raison de la prévalence de photos « regardant la caméra » dans les ensembles de données web-scrapés tels que LAION.

Le problème des personnages « bavards » vient de l’abondance facile de vidéos « d’influenceurs » sur YouTube, qui offrent naturellement des milliers d’heures de discours face à l’objectif, souvent curatés dans des ensembles de données où les scientifiques de recherche peuvent laver le web-scraping en fournissant un contexte académique.

Mais à moins que les curateurs originaux ou ultérieurs ne prennent soin de limiter le nombre de vidéos de ce type et de les équilibrer avec d’autres types de séquences, un biais grave se développe dans le modèle de vidéo, qui nécessitera des remèdes basés sur des invites et des systèmes d’adjonction tiers divers.

Faced with Wan’s ‘chattiness’ issue, Reddit user u/Several-Estimate-681 came up with a workaround that leverages a setting in the Wan 2.1 Infinite Talk V2V system – a framework designed to encourage influencer-style loquaciousness – that allows the user to silence the rendered character:

Click to play: Just listen – a workaround to achieve character attentiveness in Wan2.+. Source 

Il est clair que des raccourcis de ce type ne représentent pas des solutions architecturales de bas niveau et, en l’absence de véritables solutions trouvées et mises en œuvre par les créateurs de modèles de base (car les amateurs occasionnels n’ont généralement pas des millions de dollars pour recréer ou mettre à jour un tel travail), cela signifie que le jeu de l’entrelacement « whack a mole » est susceptible d’être réinitialisé à zéro à la prochaine version.

Pas cher et fragile

Il n’y a rien dans l’architecture de la diffusion elle-même qui rend ces problèmes inévitables ; en effet, s’il y avait un moyen d’appliquer une véritable curation, une triage et une annotation de haute qualité à des ensembles de données hyperscale avec des points de données comptant des millions, la plupart de ces problèmes disparaîtraient probablement.

Cependant, ce niveau d’attention aux détails serait comparable au projet Manhattan en termes de logistique, de portée, de ressources nécessaires et d’effort à long terme. Dans un climat où une nouvelle architecture, ou même une nouvelle version d’architecture, pourrait annuler l’ampleur d’un tel effort, il n’y a pas de volonté actuelle de s’engager dans ce type de engagement.

Par conséquent, dans la mesure où cela est concordant avec l’obtention de modèles utilisables, les approches les moins coûteuses restent préférées. Un exemple de « radinerie » est l’augmentation de données, qui, lorsqu’elle est appliquée de manière illibérale et à des types incorrects de clips vidéo de l’ensemble de données, peut avoir des résultats hilarants:

Parce que l’augmentation de données inverse souvent la direction des vidéos sources dans l’ensemble de données, le modèle d’IA peut parfois apprendre certains « mouvements impossibles ». Source

Cependant, dans l’ensemble, les rochers qui roulent vers le haut et les gens qui cassent les personnages en activant le « mode influenceur » tendent à être considérés comme des dommages collatéraux dans les systèmes génératifs qui, malgré ces erreurs et ces talons d’Achille persistants, peuvent être amenés à produire des résultats impressionnants et des titres suffisamment impressionnants.

Solutions de texte standard

Dans la période actuelle, des centaines de domaines de vidéo générative, presque tous lesquels enfreignent d’une manière ou d’une autre la nouvelle série de lois et de réactions contre l’IA générative, profitent de leur temps à la corne avant que l’application de la loi, les listes de blocage ou d’autres types de déplatformisation n’éliminent ces services commerciaux.

Les sites plus importants et mieux connus de ce type, tels que Kling et Grok, ont tendance à adhérer à une forme d’autocensure (éventuellement), ou à répondre aux critiques en changeant les types de contenu que leurs plateformes facilitent pour les utilisateurs.

Mais derrière ces grands noms se trouvent des centaines d’autres opérations de vol, qui répondent constamment à la demande de nouveaux (et souvent plus extrêmes) types de contenu.

Ce type de fourniture à faible coût interdit le coût et l’effort extrêmement élevés de la formation de modèles de base à partir de zéro. Même la mise à jour, qui coûte beaucoup moins cher, est souvent interdite.

Par conséquent, ces sites offrent des « modèles », qui se comportent à 100 % de la même manière en pratique que les LoRAs personnalisés, qui ont été utilisés par les amateurs d’IA depuis plus de quatre ans maintenant, pour former toute identité, style, objet et (dans le cas des LoRAs vidéo) mouvement ou action dans un adjoint LoRA dédié.

Avec le LoRA interposé entre l’utilisateur et le modèle de base, les résultats obtenus seront très spécifiques à ce sur quoi le LoRA a été formé, et, en général, les performances plus larges du modèle sont compromises par l’influence de flexion de poids du LoRA, qui reproduira son propre sujet très bien, mais interposera également ce matériel dans toute demande quelconque (si les sites de vidéo d’IA à faible coût permettaient ce niveau de contrôle – ils ne le font pas ; ils offrent simplement un [ACTION DE VOTRE CHOIX] modèle et interprètent votre texte/image/vidéo d’entrée de la manière la plus susceptible de résulter en une application réussie du modèle).

Les utilisateurs se plaignent souvent qu’il faut faire plusieurs tentatives qui brûlent des jetons pour obtenir un bon résultat, et nous ne devrions peut-être pas attribuer à l’avarice du fournisseur ou aux pratiques déloyales ce qui est plus probablement la faute des cadres d’IA générative « hit-and-miss » de type DiT.

Le grand public, on pourrait le soutenir, a l’impression des capacités de l’IA générative à partir d’exemples soigneusement sélectionnés qui ne sont pas représentatifs de ce qu’un utilisateur occasionnel serait susceptible d’obtenir.  Si un utilisateur brûle six tentatives sur un modèle (c’est-à-dire un LoRA fourni par le site Web d’IA), il tendra à publier et à louer le meilleur de ceux-ci, en donnant l’impression qu’il pourrait obtenir de tels résultats en interrogeant le modèle de base – et en donnant l’impression que les modèles de base génératifs sont beaucoup plus désentrelacés qu’ils ne le sont réellement.

Conclusion

La littérature continue d’examiner le problème de l’entrelacement, qui est apparu sérieusement vers 2020, dans la collaboration Un regard sobre sur l’apprentissage non supervisé de représentations désentrelacées et leur évaluation de Max Planck/Google.

De plus, divers successeurs de Disentanglement via Contrast (DisCo) apparaissent périodiquement, et la scène reste animée avec une conscience du problème qui dépasse largement la conscience publique de ce que l’IA ne peut pas faire, à cet égard.

Une étude chinoise de 2024 suggère qu’une résolution de l’entrelacement n’est peut-être pas nécessaire pour résoudre les problèmes qu’il pose. Historiquement, cela sonne vrai, puisque de nombreux problèmes inextricables en vision par ordinateur ont été surmontés non en les résolvant, mais en les dépassant par de nouvelles techniques et approches entièrement nouvelles.

Until such a discrete contender emerges, it seems we will continue to need to apply hot-fixes and band-aids to GenAI’s shortcomings and limitations, and endure public over-estimation of the flexibility and ductility of foundation models.

 

Publié pour la première fois lundi 23 mars 2026

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.