Suivez nous sur

AniPortrait : synthèse audio d'animation de portrait photorĂ©aliste

Intelligence Artificielle

AniPortrait : synthèse audio d'animation de portrait photorĂ©aliste

mm

Au fil des annĂ©es, la crĂ©ation de portraits animĂ©s rĂ©alistes et expressifs Ă  partir d'images statiques et d'audio a trouvĂ© une gamme d'applications, notamment les jeux, les mĂ©dias numĂ©riques, la rĂ©alitĂ© virtuelle et bien plus encore. MalgrĂ© son application potentielle, il est encore difficile pour les dĂ©veloppeurs de crĂ©er des frameworks capables de gĂ©nĂ©rer des animations de haute qualitĂ© qui maintiennent une cohĂ©rence temporelle et sont visuellement captivantes. Une cause majeure de cette complexitĂ© est la nĂ©cessitĂ© d’une coordination complexe des mouvements des lèvres, des positions de la tĂŞte et des expressions faciales pour crĂ©er un effet visuellement convaincant. 

Dans cet article, nous parlerons d'AniPortrait, un nouveau framework conçu pour gĂ©nĂ©rer des animations de haute qualitĂ© pilotĂ©es par une image de portrait de rĂ©fĂ©rence et un Ă©chantillon audio. Le fonctionnement du framework AniPortrait est divisĂ© en deux Ă©tapes. Premièrement, le framework AniPortrait extrait les reprĂ©sentations 3D intermĂ©diaires des Ă©chantillons audio et les projette dans une sĂ©quence de repères faciaux 2D. Suite Ă  cela, le cadre utilise un modèle de diffusion robuste couplĂ© Ă  un module de mouvement pour convertir les sĂ©quences de points de repère en animations photorĂ©alistes et cohĂ©rentes dans le temps. Les rĂ©sultats expĂ©rimentaux dĂ©montrent la supĂ©rioritĂ© et la capacitĂ© du framework AniPortrait Ă  gĂ©nĂ©rer des animations de haute qualitĂ© avec une qualitĂ© visuelle, une diversitĂ© de poses et un naturel du visage exceptionnels, offrant ainsi une expĂ©rience perceptuelle amĂ©liorĂ©e et enrichie. De plus, le framework AniPortrait prĂ©sente un potentiel remarquable en termes de contrĂ´labilitĂ© et de flexibilitĂ©, et peut ĂŞtre appliquĂ© efficacement dans des domaines tels que la reconstitution faciale, l'Ă©dition de mouvements du visage, etc. Cet article vise Ă  couvrir le framework AniPortrait en profondeur, et nous explorons le mĂ©canisme, la mĂ©thodologie, l'architecture du framework ainsi que sa comparaison avec les frameworks de pointe. Alors, commençons. 

AniPortrait : animation de portraits photorĂ©alistes

La crĂ©ation d'animations de portraits rĂ©alistes et expressives est au centre des prĂ©occupations des chercheurs depuis un certain temps dĂ©jĂ  en raison de son incroyable potentiel et de ses applications allant des mĂ©dias numĂ©riques et de la rĂ©alitĂ© virtuelle aux jeux et bien plus encore. MalgrĂ© des annĂ©es de recherche et de dĂ©veloppement, produire des animations de haute qualitĂ© qui maintiennent une cohĂ©rence temporelle et sont visuellement captivantes prĂ©sente toujours un dĂ©fi de taille. Un obstacle majeur pour les dĂ©veloppeurs est la nĂ©cessitĂ© d'une coordination complexe entre les positions de la tĂŞte, les expressions visuelles et les mouvements des lèvres pour crĂ©er un effet visuellement convaincant. Les mĂ©thodes existantes n'ont pas rĂ©ussi Ă  relever ces dĂ©fis, principalement parce que la majoritĂ© d'entre elles s'appuient sur des gĂ©nĂ©rateurs de capacitĂ© limitĂ©e comme le NeRF, les dĂ©codeurs basĂ©s sur le mouvement et le GAN pour la crĂ©ation de contenu visuel. Ces rĂ©seaux prĂ©sentent des capacitĂ©s de gĂ©nĂ©ralisation limitĂ©es et sont instables dans la gĂ©nĂ©ration de contenu de haute qualitĂ©. Cependant, l'Ă©mergence rĂ©cente de modèles de diffusion a facilitĂ© la gĂ©nĂ©ration d'images de haute qualitĂ©, et certains cadres construits sur des modèles de diffusion ainsi que des modules temporels ont facilitĂ© la crĂ©ation de vidĂ©os convaincantes, permettant aux modèles de diffusion d'exceller. 

S'appuyant sur les progrès des modèles de diffusion, le framework AniPortrait vise Ă  gĂ©nĂ©rer des portraits animĂ©s de haute qualitĂ© Ă  l'aide d'une image de rĂ©fĂ©rence et d'un Ă©chantillon audio. Le fonctionnement du framework AniPortrait est divisĂ© en deux Ă©tapes. Dans un premier temps, le framework AniPortrait utilise des modèles basĂ©s sur des transformateurs pour extraire une sĂ©quence de maillage facial 3D et de poses de tĂŞte Ă  partir de l'entrĂ©e audio, et les projette ensuite dans une sĂ©quence de repères faciaux 2D. La première Ă©tape permet au cadre AniPortrait de capturer les mouvements des lèvres et les expressions subtiles de l'audio en plus des mouvements de la tĂŞte qui se synchronisent avec le rythme de l'Ă©chantillon audio. La deuxième Ă©tape, le framework AniPortrait utilise un modèle de diffusion robuste et l'intègre Ă  un module de mouvement pour transformer la sĂ©quence de points de repère du visage en un portrait animĂ© photorĂ©aliste et temporellement cohĂ©rent. Pour ĂŞtre plus prĂ©cis, le framework AniPortrait s'appuie sur l'architecture rĂ©seau du modèle AnimateAnyone existant qui utilise Stable Diffusion 1.5, un puissant modèle de diffusion pour gĂ©nĂ©rer des images rĂ©alistes et fluides Ă  partir d'une image de rĂ©fĂ©rence et d'une sĂ©quence de mouvements corporels. Ce qui convient de noter est que le framework AniPortrait n'utilise pas le module de guidage de pose au sein de ce rĂ©seau tel qu'il est implĂ©mentĂ© dans le framework AnimateAnyone, mais il le redessine, permettant au framework AniPortrait non seulement de conserver une conception lĂ©gère, mais aussi de prĂ©senter une prĂ©cision accrue dans la gĂ©nĂ©ration des lèvres. mouvements. 

Les rĂ©sultats expĂ©rimentaux dĂ©montrent la supĂ©rioritĂ© du framework AniPortrait dans la crĂ©ation d'animations avec un naturel facial impressionnant, une excellente qualitĂ© visuelle et des poses variĂ©es. En utilisant des reprĂ©sentations faciales 3D comme fonctionnalitĂ©s intermĂ©diaires, le framework AniPortrait gagne en flexibilitĂ© pour modifier ces reprĂ©sentations selon ses besoins. L'adaptabilitĂ© amĂ©liore considĂ©rablement l'applicabilitĂ© du cadre AniPortrait dans des domaines tels que la reconstitution faciale et l'Ă©dition de mouvements du visage. 

AniPortrait : travail et méthodologie

Le framework AniPortrait proposĂ© comprend deux modules, Ă  savoir Lmk2Video et Audio2Lmk. Le module Audio2Lmk tente d'extraire une sĂ©quence de points de repère qui capture les mouvements complexes des lèvres et les expressions faciales Ă  partir de l'entrĂ©e audio, tandis que le module Lmk2Video utilise cette sĂ©quence de points de repère pour gĂ©nĂ©rer des vidĂ©os de portraits de haute qualitĂ© avec une stabilitĂ© temporelle. La figure suivante prĂ©sente un aperçu du fonctionnement du framework AniPortrait. Comme on peut l'observer, le framework AniPortrait extrait d'abord le maillage du visage 3D et la pose de la tĂŞte de l'audio, puis projette ces deux Ă©lĂ©ments en points clĂ©s 2D. Dans la deuxième Ă©tape, le cadre utilise un modèle de diffusion pour transformer les points clĂ©s 2D en une vidĂ©o portrait avec deux Ă©tapes entraĂ®nĂ©es simultanĂ©ment au sein du rĂ©seau. 

Audio2Lmk

Pour une sĂ©quence donnĂ©e d'extraits de parole, l'objectif principal du framework AniPortrait est de prĂ©dire la sĂ©quence de maillage facial 3D correspondante avec des reprĂ©sentations vectorielles de translation et de rotation. Le framework AniPortrait utilise la mĂ©thode wav2vec prĂ©-entraĂ®nĂ©e pour extraire les caractĂ©ristiques audio, et le modèle prĂ©sente un haut degrĂ© de gĂ©nĂ©ralisation et est capable de reconnaĂ®tre avec prĂ©cision l'intonation et la prononciation de l'audio, ce qui joue un rĂ´le crucial dans la gĂ©nĂ©ration. animations faciales rĂ©alistes. En tirant parti des fonctionnalitĂ©s vocales robustes acquises, le framework AniPortrait est capable d'utiliser efficacement une architecture simple composĂ©e de deux couches FC pour convertir ces fonctionnalitĂ©s en maillages faciaux 3D. Le framework AniPortrait observe que cette conception simple mise en Ĺ“uvre par le modèle amĂ©liore non seulement l'efficacitĂ© du processus d'infĂ©rence, mais garantit Ă©galement l'exactitude. Lors de la conversion de l'audio en pose, le framework AniPortrait utilise le mĂŞme rĂ©seau wav2vec que l'Ă©pine dorsale, bien que le modèle ne partage pas les poids avec le module audio vers maillage. Cela est principalement dĂ» au fait que la pose est davantage associĂ©e au ton et au rythme prĂ©sents dans l'audio, qui ont une importance diffĂ©rente par rapport aux tâches audio Ă  maillage. Pour tenir compte de l'impact des Ă©tats prĂ©cĂ©dents, le framework AniPortrait utilise un dĂ©codeur de transformateur pour dĂ©coder la sĂ©quence de poses. Au cours de ce processus, le framework intègre les fonctionnalitĂ©s audio dans le dĂ©codeur Ă  l'aide de mĂ©canismes d'attention croisĂ©e, et pour les deux modules, le framework les entraĂ®ne en utilisant la perte L1. Une fois que le modèle a obtenu la sĂ©quence de poses et de maillage, il utilise la projection en perspective pour transformer ces sĂ©quences en une sĂ©quence 2D de repères faciaux qui sont ensuite utilisĂ©s comme signaux d'entrĂ©e pour l'Ă©tape suivante. 

Lmk2Vidéo

Pour une image de portrait de rĂ©fĂ©rence donnĂ©e et une sĂ©quence de repères faciaux, le module Lmk2Video proposĂ© crĂ©e une animation de portrait temporellement cohĂ©rente, et cette animation aligne le mouvement avec la sĂ©quence de repères, et maintient une apparence cohĂ©rente avec l'image de rĂ©fĂ©rence, et enfin , le cadre reprĂ©sente l'animation du portrait sous la forme d'une sĂ©quence d'images de portrait. La conception de la structure du rĂ©seau Lmk2Video s'inspire du framework AnimateAnyone dĂ©jĂ  existant. Le framework AniPortrait utilise un Diffusion stable 1.5, un modèle de diffusion extrĂŞmement puissant comme Ă©pine dorsale, et intègre un module de mouvement temporel qui convertit efficacement les entrĂ©es de bruit multi-images en une sĂ©quence d'images vidĂ©o. Dans le mĂŞme temps, un composant rĂ©seau ReferencenNet reflète la structure de Stable Diffusion 1.5 et l'utilise pour extraire les informations d'apparence de l'image de rĂ©fĂ©rence et les intègre dans le squelette. La conception stratĂ©gique garantit que l’identification faciale reste cohĂ©rente tout au long de la vidĂ©o de sortie. Se diffĂ©renciant du framework AnimateAnyone, le framework AniPortrait amĂ©liore la complexitĂ© de la conception de PoseGuider. La version originale du framework AnimateAnyone ne comprend que quelques couches de convolution après lesquelles les caractĂ©ristiques des points de repère fusionnent avec les latents de la couche d'entrĂ©e du squelette. Le framework AniPortrait dĂ©couvre que la conception ne parvient pas Ă  capturer les mouvements complexes des lèvres, et pour rĂ©soudre ce problème, le framework adopte la stratĂ©gie multi-Ă©chelles de l'architecture ConvNet et intègre les caractĂ©ristiques marquantes des Ă©chelles correspondantes dans diffĂ©rents blocs de la structure. De plus, le framework AniPortrait introduit une amĂ©lioration supplĂ©mentaire en incluant les repères de l'image de rĂ©fĂ©rence comme entrĂ©e supplĂ©mentaire. Le module d'attention croisĂ©e du composant PoseGuider facilite l'interaction entre les repères cibles de chaque image et les repères de rĂ©fĂ©rence. Ce processus fournit au rĂ©seau des indices supplĂ©mentaires pour comprendre la corrĂ©lation entre l'apparence et les repères du visage, aidant ainsi Ă  la gĂ©nĂ©ration d'animations de portraits avec des mouvements plus prĂ©cis. 

AniPortrait : mise en Ĺ“uvre et rĂ©sultat

Pour l'Ă©tape Audio2Lmk, le framework AniPortrait adopte le composant wav2vec2.0 comme Ă©pine dorsale et exploite l'architecture MediaPipe pour extraire des maillages 3D et des poses 6D pour les annotations. Le modèle obtient les donnĂ©es de formation pour le composant Audio2Mesh Ă  partir de son ensemble de donnĂ©es interne qui comprend près de 60 minutes de donnĂ©es vocales de haute qualitĂ© provenant d'un seul locuteur. Pour garantir la stabilitĂ© du maillage 3D extrait par le composant MediaPipe, l'acteur vocal doit faire face Ă  la camĂ©ra et maintenir une position de tĂŞte stable pendant tout le processus d'enregistrement. Pour le module Lmk2Video, le framework AniPortrait met en Ĺ“uvre une approche de formation en deux Ă©tapes. Dans la première Ă©tape, le framework se concentre sur la formation de ReferenceNet et de PoseGuider, le composant 2D du backbone, et laisse de cĂ´tĂ© le module de mouvement. Dans la deuxième Ă©tape, le framework AniPortrait gèle tous les autres composants et se concentre sur la formation du module de mouvement. Pour cette Ă©tape, le framework utilise deux ensembles de donnĂ©es vidĂ©o faciales Ă  grande Ă©chelle et de haute qualitĂ© pour entraĂ®ner le modèle et traite toutes les donnĂ©es Ă  l'aide du composant MediaPipe pour extraire des repères faciaux 2D. De plus, pour amĂ©liorer la sensibilitĂ© du rĂ©seau aux mouvements des lèvres, le modèle AniPortrait diffĂ©rencie les lèvres supĂ©rieures et infĂ©rieures avec des couleurs distinctes lors du rendu de l'image de pose Ă  partir de repères 2D. 

Comme le démontre l'image suivante, le framework AniPortrait génère une série d'animations qui démontrent une qualité supérieure ainsi qu'un réalisme.

Le framework utilise ensuite une reprĂ©sentation 3D intermĂ©diaire qui peut ĂŞtre modifiĂ©e pour manipuler la sortie selon les exigences. Par exemple, les utilisateurs peuvent extraire des points de repère d'une certaine source et modifier son identifiant, permettant ainsi au framework AniPortrait de crĂ©er un effet de reconstitution faciale. 

Réflexions finales

Dans cet article, nous avons parlé d'AniPortrait, un nouveau framework conçu pour générer des animations de haute qualité pilotées par une image de portrait de référence et un échantillon audio. En saisissant simplement une image de référence et un clip audio, le cadre AniPortrait est capable de générer une vidéo de portrait présentant un mouvement naturel des têtes et un mouvement fluide des lèvres. En tirant parti des solides capacités de généralisation du modèle de diffusion, le framework AniPortrait génère des animations qui affichent une qualité d'image réaliste impressionnante et un mouvement réaliste. Le fonctionnement du framework AniPortrait est divisé en deux étapes. Premièrement, le framework AniPortrait extrait les représentations 3D intermédiaires des échantillons audio et les projette dans une séquence de repères faciaux 2D. Suite à cela, le cadre utilise un modèle de diffusion robuste couplé à un module de mouvement pour convertir les séquences de points de repère en animations photoréalistes et cohérentes dans le temps. Les résultats expérimentaux démontrent la supériorité et la capacité du framework AniPortrait à générer des animations de haute qualité avec une qualité visuelle, une diversité de poses et un naturel du visage exceptionnels, offrant ainsi une expérience perceptuelle améliorée et enrichie. De plus, le framework AniPortrait présente un potentiel remarquable en termes de contrôlabilité et de flexibilité, et peut être appliqué efficacement dans des domaines tels que la reconstitution faciale, l'édition de mouvements du visage, etc.

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.