talon AniPortrait : synthèse audio d'animation de portrait photoréaliste - Unite.AI
Suivez nous sur

Intelligence artificielle

AniPortrait : synthèse audio d'animation de portrait photoréaliste

mm

Publié le

 on

Au fil des années, la création de portraits animés réalistes et expressifs à partir d'images statiques et d'audio a trouvé une gamme d'applications, notamment les jeux, les médias numériques, la réalité virtuelle et bien plus encore. Malgré son application potentielle, il est encore difficile pour les développeurs de créer des frameworks capables de générer des animations de haute qualité qui maintiennent une cohérence temporelle et sont visuellement captivantes. Une cause majeure de cette complexité est la nécessité d’une coordination complexe des mouvements des lèvres, des positions de la tête et des expressions faciales pour créer un effet visuellement convaincant. 

Dans cet article, nous parlerons d'AniPortrait, un nouveau framework conçu pour générer des animations de haute qualité pilotées par une image de portrait de référence et un échantillon audio. Le fonctionnement du framework AniPortrait est divisé en deux étapes. Premièrement, le framework AniPortrait extrait les représentations 3D intermédiaires des échantillons audio et les projette dans une séquence de repères faciaux 2D. Suite à cela, le cadre utilise un modèle de diffusion robuste couplé à un module de mouvement pour convertir les séquences de points de repère en animations photoréalistes et cohérentes dans le temps. Les résultats expérimentaux démontrent la supériorité et la capacité du framework AniPortrait à générer des animations de haute qualité avec une qualité visuelle, une diversité de poses et un naturel du visage exceptionnels, offrant ainsi une expérience perceptuelle améliorée et enrichie. De plus, le framework AniPortrait présente un potentiel remarquable en termes de contrôlabilité et de flexibilité, et peut être appliqué efficacement dans des domaines tels que la reconstitution faciale, l'édition de mouvements du visage, etc. Cet article vise à couvrir le framework AniPortrait en profondeur, et nous explorons le mécanisme, la méthodologie, l'architecture du framework ainsi que sa comparaison avec les frameworks de pointe. Alors, commençons. 

AniPortrait : animation de portraits photoréalistes

La création d'animations de portraits réalistes et expressives est au centre des préoccupations des chercheurs depuis un certain temps déjà en raison de son incroyable potentiel et de ses applications allant des médias numériques et de la réalité virtuelle aux jeux et bien plus encore. Malgré des années de recherche et de développement, produire des animations de haute qualité qui maintiennent une cohérence temporelle et sont visuellement captivantes présente toujours un défi de taille. Un obstacle majeur pour les développeurs est la nécessité d'une coordination complexe entre les positions de la tête, les expressions visuelles et les mouvements des lèvres pour créer un effet visuellement convaincant. Les méthodes existantes n'ont pas réussi à relever ces défis, principalement parce que la majorité d'entre elles s'appuient sur des générateurs de capacité limitée comme le NeRF, les décodeurs basés sur le mouvement et le GAN pour la création de contenu visuel. Ces réseaux présentent des capacités de généralisation limitées et sont instables dans la génération de contenu de haute qualité. Cependant, l'émergence récente de modèles de diffusion a facilité la génération d'images de haute qualité, et certains cadres construits sur des modèles de diffusion ainsi que des modules temporels ont facilité la création de vidéos convaincantes, permettant aux modèles de diffusion d'exceller. 

S'appuyant sur les progrès des modèles de diffusion, le framework AniPortrait vise à générer des portraits animés de haute qualité à l'aide d'une image de référence et d'un échantillon audio. Le fonctionnement du framework AniPortrait est divisé en deux étapes. Dans un premier temps, le framework AniPortrait utilise des modèles basés sur des transformateurs pour extraire une séquence de maillage facial 3D et de poses de tête à partir de l'entrée audio, et les projette ensuite dans une séquence de repères faciaux 2D. La première étape permet au cadre AniPortrait de capturer les mouvements des lèvres et les expressions subtiles de l'audio en plus des mouvements de la tête qui se synchronisent avec le rythme de l'échantillon audio. La deuxième étape, le framework AniPortrait utilise un modèle de diffusion robuste et l'intègre à un module de mouvement pour transformer la séquence de points de repère du visage en un portrait animé photoréaliste et temporellement cohérent. Pour être plus précis, le framework AniPortrait s'appuie sur l'architecture réseau du modèle AnimateAnyone existant qui utilise Stable Diffusion 1.5, un puissant modèle de diffusion pour générer des images réalistes et fluides à partir d'une image de référence et d'une séquence de mouvements corporels. Ce qui convient de noter est que le framework AniPortrait n'utilise pas le module de guidage de pose au sein de ce réseau tel qu'il est implémenté dans le framework AnimateAnyone, mais il le redessine, permettant au framework AniPortrait non seulement de conserver une conception légère, mais aussi de présenter une précision accrue dans la génération des lèvres. mouvements. 

Les résultats expérimentaux démontrent la supériorité du framework AniPortrait dans la création d'animations avec un naturel facial impressionnant, une excellente qualité visuelle et des poses variées. En utilisant des représentations faciales 3D comme fonctionnalités intermédiaires, le framework AniPortrait gagne en flexibilité pour modifier ces représentations selon ses besoins. L'adaptabilité améliore considérablement l'applicabilité du cadre AniPortrait dans des domaines tels que la reconstitution faciale et l'édition de mouvements du visage. 

AniPortrait : travail et méthodologie

Le framework AniPortrait proposé comprend deux modules, à savoir Lmk2Video et Audio2Lmk. Le module Audio2Lmk tente d'extraire une séquence de points de repère qui capture les mouvements complexes des lèvres et les expressions faciales à partir de l'entrée audio, tandis que le module Lmk2Video utilise cette séquence de points de repère pour générer des vidéos de portraits de haute qualité avec une stabilité temporelle. La figure suivante présente un aperçu du fonctionnement du framework AniPortrait. Comme on peut l'observer, le framework AniPortrait extrait d'abord le maillage du visage 3D et la pose de la tête de l'audio, puis projette ces deux éléments en points clés 2D. Dans la deuxième étape, le cadre utilise un modèle de diffusion pour transformer les points clés 2D en une vidéo portrait avec deux étapes entraînées simultanément au sein du réseau. 

Audio2Lmk

Pour une séquence donnée d'extraits de parole, l'objectif principal du framework AniPortrait est de prédire la séquence de maillage facial 3D correspondante avec des représentations vectorielles de translation et de rotation. Le framework AniPortrait utilise la méthode wav2vec pré-entraînée pour extraire les caractéristiques audio, et le modèle présente un haut degré de généralisation et est capable de reconnaître avec précision l'intonation et la prononciation de l'audio, ce qui joue un rôle crucial dans la génération. animations faciales réalistes. En tirant parti des fonctionnalités vocales robustes acquises, le framework AniPortrait est capable d'utiliser efficacement une architecture simple composée de deux couches FC pour convertir ces fonctionnalités en maillages faciaux 3D. Le framework AniPortrait observe que cette conception simple mise en œuvre par le modèle améliore non seulement l'efficacité du processus d'inférence, mais garantit également l'exactitude. Lors de la conversion de l'audio en pose, le framework AniPortrait utilise le même réseau wav2vec que l'épine dorsale, bien que le modèle ne partage pas les poids avec le module audio vers maillage. Cela est principalement dû au fait que la pose est davantage associée au ton et au rythme présents dans l'audio, qui ont une importance différente par rapport aux tâches audio à maillage. Pour tenir compte de l'impact des états précédents, le framework AniPortrait utilise un décodeur de transformateur pour décoder la séquence de poses. Au cours de ce processus, le framework intègre les fonctionnalités audio dans le décodeur à l'aide de mécanismes d'attention croisée, et pour les deux modules, le framework les entraîne en utilisant la perte L1. Une fois que le modèle a obtenu la séquence de poses et de maillage, il utilise la projection en perspective pour transformer ces séquences en une séquence 2D de repères faciaux qui sont ensuite utilisés comme signaux d'entrée pour l'étape suivante. 

Lmk2Vidéo

Pour une image de portrait de référence donnée et une séquence de repères faciaux, le module Lmk2Video proposé crée une animation de portrait temporellement cohérente, et cette animation aligne le mouvement avec la séquence de repères, et maintient une apparence cohérente avec l'image de référence, et enfin , le cadre représente l'animation du portrait sous la forme d'une séquence d'images de portrait. La conception de la structure du réseau Lmk2Video s'inspire du framework AnimateAnyone déjà existant. Le framework AniPortrait utilise un Diffusion stable 1.5, un modèle de diffusion extrêmement puissant comme épine dorsale, et intègre un module de mouvement temporel qui convertit efficacement les entrées de bruit multi-images en une séquence d'images vidéo. Dans le même temps, un composant réseau ReferencenNet reflète la structure de Stable Diffusion 1.5 et l'utilise pour extraire les informations d'apparence de l'image de référence et les intègre dans le squelette. La conception stratégique garantit que l’identification faciale reste cohérente tout au long de la vidéo de sortie. Se différenciant du framework AnimateAnyone, le framework AniPortrait améliore la complexité de la conception de PoseGuider. La version originale du framework AnimateAnyone ne comprend que quelques couches de convolution après lesquelles les caractéristiques des points de repère fusionnent avec les latents de la couche d'entrée du squelette. Le framework AniPortrait découvre que la conception ne parvient pas à capturer les mouvements complexes des lèvres, et pour résoudre ce problème, le framework adopte la stratégie multi-échelles de l'architecture ConvNet et intègre les caractéristiques marquantes des échelles correspondantes dans différents blocs de la structure. De plus, le framework AniPortrait introduit une amélioration supplémentaire en incluant les repères de l'image de référence comme entrée supplémentaire. Le module d'attention croisée du composant PoseGuider facilite l'interaction entre les repères cibles de chaque image et les repères de référence. Ce processus fournit au réseau des indices supplémentaires pour comprendre la corrélation entre l'apparence et les repères du visage, aidant ainsi à la génération d'animations de portraits avec des mouvements plus précis. 

AniPortrait : mise en œuvre et résultat

Pour l'étape Audio2Lmk, le framework AniPortrait adopte le composant wav2vec2.0 comme épine dorsale et exploite l'architecture MediaPipe pour extraire des maillages 3D et des poses 6D pour les annotations. Le modèle obtient les données de formation pour le composant Audio2Mesh à partir de son ensemble de données interne qui comprend près de 60 minutes de données vocales de haute qualité provenant d'un seul locuteur. Pour garantir la stabilité du maillage 3D extrait par le composant MediaPipe, l'acteur vocal doit faire face à la caméra et maintenir une position de tête stable pendant tout le processus d'enregistrement. Pour le module Lmk2Video, le framework AniPortrait met en œuvre une approche de formation en deux étapes. Dans la première étape, le framework se concentre sur la formation de ReferenceNet et de PoseGuider, le composant 2D du backbone, et laisse de côté le module de mouvement. Dans la deuxième étape, le framework AniPortrait gèle tous les autres composants et se concentre sur la formation du module de mouvement. Pour cette étape, le framework utilise deux ensembles de données vidéo faciales à grande échelle et de haute qualité pour entraîner le modèle et traite toutes les données à l'aide du composant MediaPipe pour extraire des repères faciaux 2D. De plus, pour améliorer la sensibilité du réseau aux mouvements des lèvres, le modèle AniPortrait différencie les lèvres supérieures et inférieures avec des couleurs distinctes lors du rendu de l'image de pose à partir de repères 2D. 

Comme le démontre l'image suivante, le framework AniPortrait génère une série d'animations qui démontrent une qualité supérieure ainsi qu'un réalisme.

Le framework utilise ensuite une représentation 3D intermédiaire qui peut être modifiée pour manipuler la sortie selon les exigences. Par exemple, les utilisateurs peuvent extraire des points de repère d'une certaine source et modifier son identifiant, permettant ainsi au framework AniPortrait de créer un effet de reconstitution faciale. 

Réflexions finales

Dans cet article, nous avons parlé d'AniPortrait, un nouveau framework conçu pour générer des animations de haute qualité pilotées par une image de portrait de référence et un échantillon audio. En saisissant simplement une image de référence et un clip audio, le cadre AniPortrait est capable de générer une vidéo de portrait présentant un mouvement naturel des têtes et un mouvement fluide des lèvres. En tirant parti des solides capacités de généralisation du modèle de diffusion, le framework AniPortrait génère des animations qui affichent une qualité d'image réaliste impressionnante et un mouvement réaliste. Le fonctionnement du framework AniPortrait est divisé en deux étapes. Premièrement, le framework AniPortrait extrait les représentations 3D intermédiaires des échantillons audio et les projette dans une séquence de repères faciaux 2D. Suite à cela, le cadre utilise un modèle de diffusion robuste couplé à un module de mouvement pour convertir les séquences de points de repère en animations photoréalistes et cohérentes dans le temps. Les résultats expérimentaux démontrent la supériorité et la capacité du framework AniPortrait à générer des animations de haute qualité avec une qualité visuelle, une diversité de poses et un naturel du visage exceptionnels, offrant ainsi une expérience perceptuelle améliorée et enrichie. De plus, le framework AniPortrait présente un potentiel remarquable en termes de contrôlabilité et de flexibilité, et peut être appliqué efficacement dans des domaines tels que la reconstitution faciale, l'édition de mouvements du visage, etc.

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.