Intelligence artificielle
AniPortrait: Synthèse audio-guidée d’animation de portrait photoréaliste
Au fil des ans, la création d’animations de portraits réalistes et expressifs à partir d’images statiques et d’audio a trouvé une gamme d’applications, notamment dans les jeux, les médias numériques, la réalité virtuelle, et bien plus encore. Malgré son application potentielle, il est toujours difficile pour les développeurs de créer des cadres capables de générer des animations de haute qualité qui maintiennent la cohérence temporelle et sont visuellement captivantes. Une cause majeure de la complexité est le besoin de coordination intriquée des mouvements des lèvres, des positions de la tête et des expressions faciales pour créer un effet visuellement convaincant.
Dans cet article, nous allons parler d’AniPortrait, un cadre novateur conçu pour générer des animations de haute qualité guidées par une image de portrait de référence et un échantillon audio. Le fonctionnement du cadre AniPortrait est divisé en deux étapes. Premièrement, le cadre AniPortrait extrait les représentations 3D intermédiaires à partir des échantillons audio, et les projette dans une séquence de repères faciaux 2D. Ensuite, le cadre utilise un modèle de diffusion robuste couplé avec un module de mouvement pour convertir les séquences de repères en animations photoréalistes et temporellement cohérentes. Les résultats expérimentaux démontrent la supériorité et la capacité du cadre AniPortrait à générer des animations de haute qualité avec une qualité visuelle exceptionnelle, une diversité de poses et une naturalité faciale, offrant ainsi une expérience perceptive améliorée et enrichie. De plus, le cadre AniPortrait présente un potentiel remarquable en termes de contrôlabilité et de flexibilité, et peut être appliqué efficacement dans des domaines tels que la réenactment faciale, l’édition de mouvement facial, et plus encore. Cet article vise à couvrir le cadre AniPortrait en profondeur, et nous explorons le mécanisme, la méthodologie, l’architecture du cadre ainsi que sa comparaison avec les cadres d’état de l’art. Alors, commençons.
AniPortrait: Animation de portrait photoréaliste
La création d’animations de portraits réalistes et expressifs a été l’objet de recherche des chercheurs depuis un certain temps déjà, en raison de son potentiel incroyable et de ses applications allant des médias numériques et de la réalité virtuelle aux jeux et plus encore. Malgré des années de recherche et de développement, produire des animations de haute qualité qui maintiennent la cohérence temporelle et sont visuellement captivantes présente toujours un défi important. Un obstacle majeur pour les développeurs est le besoin de coordination intriquée entre les positions de la tête, les expressions visuelles et les mouvements des lèvres pour créer un effet visuellement convaincant. Les méthodes existantes n’ont pas réussi à relever ces défis, principalement parce que la plupart d’entre elles reposent sur des générateurs à capacité limitée comme NeRF, des décodeurs basés sur le mouvement et GAN pour la création de contenu visuel. Ces réseaux présentent des capacités de généralisation limitées et sont instables dans la génération de contenu de haute qualité. Cependant, l’émergence récente de modèles de diffusion a facilité la génération d’images de haute qualité, et certains cadres construits sur ces modèles de diffusion, ainsi que des modules temporels, ont facilité la création de vidéos convaincantes, permettant ainsi aux modèles de diffusion d’exceller.
En s’appuyant sur les progrès des modèles de diffusion, le cadre AniPortrait vise à générer des portraits animés de haute qualité à l’aide d’une image de référence et d’un échantillon audio. Le fonctionnement du cadre AniPortrait est divisé en deux étapes. Dans la première étape, le cadre AniPortrait utilise des modèles basés sur des transformateurs pour extraire une séquence de maillage facial 3D et de pose de la tête à partir de l’entrée audio, et les projette ensuite dans une séquence de repères faciaux 2D. La première étape permet au cadre AniPortrait de capturer les mouvements des lèvres et les expressions subtiles à partir de l’audio, en plus des mouvements de la tête qui synchronisent avec le rythme de l’échantillon audio. La deuxième étape, le cadre AniPortrait utilise un modèle de diffusion robuste et l’intègre avec un module de mouvement pour transformer la séquence de repères en une animation de portrait photoréaliste et temporellement cohérente. Plus précisément, le cadre AniPortrait s’inspire de l’architecture du réseau du modèle AnimateAnyone qui utilise la diffusion stable 1.5, un modèle de diffusion puissant pour générer des animations fluides et réalistes à partir d’une image de référence et d’une séquence de mouvement corporel. Ce qui est important à noter est que le cadre AniPortrait n’utilise pas le module de guidage de pose dans ce réseau, mais le réaménage, ce qui permet au cadre AniPortrait non seulement de maintenir une conception légère, mais également d’exhiber une précision améliorée dans la génération de mouvements des lèvres.
Les résultats expérimentaux démontrent la supériorité du cadre AniPortrait dans la création d’animations avec une naturalité faciale impressionnante, une excellente qualité visuelle et des poses variées. En utilisant des représentations faciales 3D comme fonctionnalités intermédiaires, le cadre AniPortrait gagne la flexibilité pour modifier ces représentations selon ses besoins. L’adaptabilité améliore considérablement l’applicabilité du cadre AniPortrait dans des domaines tels que la réenactment faciale et l’édition de mouvement facial.
AniPortrait: Fonctionnement et méthodologie
Le cadre AniPortrait proposé se compose de deux modules, à savoir Lmk2Video et Audio2Lmk. Le module Audio2Lmk tente d’extraire une séquence de repères qui capture les mouvements intriqués des lèvres et les expressions faciales à partir de l’entrée audio, tandis que le module Lmk2Video utilise cette séquence de repères pour générer des vidéos de portrait de haute qualité avec stabilité temporelle. La figure suivante présente une vue d’ensemble du fonctionnement du cadre AniPortrait. Comme on peut l’observer, le cadre AniPortrait extrait d’abord le maillage facial 3D et la pose de la tête à partir de l’audio, et projette ces deux éléments en points clés 2D. Dans la deuxième étape, le cadre utilise un modèle de diffusion pour transformer les points clés 2D en une vidéo de portrait avec deux étapes formées en parallèle dans le réseau.

Audio2Lmk
Pour une séquence donnée d’échantillons de parole, l’objectif principal du cadre AniPortrait est de prédire la séquence correspondante de maillage facial 3D avec des représentations vectorielles de translation et de rotation. Le cadre AniPortrait utilise la méthode wav2vec pré-entraînée pour extraire les fonctionnalités audio, et le modèle présente un degré élevé de généralisation, et est capable de reconnaître l’intonation et la prononciation à partir de l’audio avec précision, ce qui joue un rôle crucial dans la génération d’animations faciales réalistes. En exploitant les fonctionnalités audio robustes acquises, le cadre AniPortrait est en mesure d’utiliser efficacement une architecture simple composée de deux couches fc pour convertir ces fonctionnalités en maillages faciaux 3D. Le cadre AniPortrait observe que cette conception directe mise en œuvre par le modèle non seulement améliore l’efficacité du processus d’inférence, mais assure également la précision. Lors de la conversion de l’audio en pose, le cadre AniPortrait utilise le même réseau wav2vec comme colonne vertébrale, bien que le modèle ne partage pas les poids avec le module audio vers maillage. C’est principalement dû au fait que la pose est associée davantage au ton et au rythme présents dans l’audio, qui présente un accent différent par rapport aux tâches audio vers maillage. Pour tenir compte de l’impact des états précédents, le cadre AniPortrait utilise un décodeur de transformateur pour décoder la séquence de pose. Au cours de ce processus, le cadre intègre les fonctionnalités audio dans le décodeur à l’aide de mécanismes d’attention croisée, et pour les deux modules, le cadre les forme en utilisant la perte L1. Une fois que le modèle obtient la séquence de pose et de maillage, il utilise la projection de perspective pour transformer ces séquences en une séquence 2D de repères faciaux qui sont ensuite utilisés comme signaux d’entrée pour l’étape suivante.
Lmk2Video
Pour une image de portrait de référence donnée et une séquence de repères faciaux, le module Lmk2Video propose de créer une animation de portrait temporellement cohérente, et cette animation aligne le mouvement avec la séquence de repères, et maintient une apparence qui est en cohérence avec l’image de référence, et enfin, le cadre représente l’animation de portrait comme une séquence de cadres de portrait. La conception de la structure de réseau de Lmk2Video s’inspire du cadre AnimateAnyone existant. Le cadre AniPortrait utilise un modèle de diffusion stable 1.5, un modèle de diffusion extrêmement puissant comme colonne vertébrale, et intègre un module de mouvement temporel qui convertit efficacement les entrées de bruit multi-cadres en une séquence de cadres de vidéo. En même temps, un composant de réseau ReferenceNet reflète la structure de la diffusion stable 1.5, et utilise l’information d’apparence de l’image de référence, et l’intègre dans la colonne vertébrale. La conception stratégique assure que l’identité faciale reste cohérente tout au long de la vidéo de sortie. Différent de l’architecture du cadre AnimateAnyone, le cadre AniPortrait améliore la complexité de la conception de PoseGuider. La version originale du cadre AnimateAnyone comprend uniquement quelques couches de convolution après lesquelles les fonctionnalités de repères fusionnent avec les latents à la couche d’entrée de la colonne vertébrale. Le cadre AniPortrait découvre que la conception est en défaut pour capturer les mouvements intriqués des lèvres, et pour résoudre ce problème, le cadre adopte la stratégie multi-échelle de l’architecture ConvNet, et intègre les fonctionnalités de repères d’échelles correspondantes dans différents blocs de la colonne vertébrale. De plus, le cadre AniPortrait introduit une amélioration supplémentaire en incluant les repères de l’image de référence comme entrée supplémentaire. Le module d’attention croisée du composant PoseGuider permet l’interaction entre les repères cibles de chaque cadre et les repères de référence. Ce processus fournit au réseau des indices supplémentaires pour comprendre la corrélation entre l’apparence et les repères faciaux, aidant ainsi à la génération d’animations de portrait avec un mouvement plus précis.
AniPortrait: Mise en œuvre et résultat
Pour l’étape Audio2Lmk, le cadre AniPortrait adopte le composant wav2vec2.0 comme colonne vertébrale, et utilise l’architecture MediaPipe pour extraire des maillages 3D et des poses 6D pour les annotations. Le modèle tire les données de formation pour le composant Audio2Mesh de son ensemble de données interne qui comprend près de 60 minutes de données audio de haute qualité provenant d’un seul locuteur. Pour assurer que le maillage 3D extrait par le composant MediaPipe est stable, l’acteur vocal est invité à faire face à la caméra et à maintenir une position de tête stable pendant toute la durée du processus d’enregistrement. Pour le module Lmk2Video, le cadre AniPortrait met en œuvre une approche de formation en deux étapes. Dans la première étape, le cadre se concentre sur la formation de ReferenceNet et de PoseGuider, le composant 2D de la colonne vertébrale, et laisse de côté le module de mouvement. Dans la deuxième étape, le cadre AniPortrait gèle tous les autres composants et se concentre sur la formation du module de mouvement. Pour cette étape, le cadre utilise deux grands ensembles de données de vidéos faciales de haute qualité pour former le modèle, et traite toutes les données à l’aide du composant MediaPipe pour extraire les repères faciaux 2D. De plus, pour améliorer la sensibilité du réseau aux mouvements des lèvres, le modèle AniPortrait différencie les lèvres supérieures et inférieures avec des couleurs distinctes lors de la représentation de l’image de pose à partir des repères 2D.
Comme le démontre l’image suivante, le cadre AniPortrait génère une série d’animations qui présentent une qualité et un réalisme supérieurs.

Le cadre utilise ensuite une représentation 3D intermédiaire qui peut être éditée pour manipuler la sortie selon les besoins. Par exemple, les utilisateurs peuvent extraire des repères d’une source particulière et modifier son ID, permettant ainsi au cadre AniPortrait de créer un effet de réenactment facial.
Pensées finales
Dans cet article, nous avons parlé d’AniPortrait, un cadre novateur conçu pour générer des animations de haute qualité guidées par une image de portrait de référence et un échantillon audio. En insérant simplement une image de référence et un clip audio, le cadre AniPortrait est capable de générer une vidéo de portrait qui présente des mouvements de tête naturels et des mouvements de lèvres fluides. En exploitant les capacités de généralisation robustes du modèle de diffusion, le cadre AniPortrait génère des animations qui présentent une qualité d’image réaliste impressionnante et un mouvement réel. Le fonctionnement du cadre AniPortrait est divisé en deux étapes. Premièrement, le cadre AniPortrait extrait les représentations 3D intermédiaires à partir des échantillons audio, et les projette dans une séquence de repères faciaux 2D. Ensuite, le cadre utilise un modèle de diffusion robuste couplé avec un module de mouvement pour convertir les séquences de repères en animations photoréalistes et temporellement cohérentes. Les résultats expérimentaux démontrent la supériorité et la capacité du cadre AniPortrait à générer des animations de haute qualité avec une qualité visuelle exceptionnelle, une diversité de poses et une naturalité faciale, offrant ainsi une expérience perceptive améliorée et enrichie. De plus, le cadre AniPortrait présente un potentiel remarquable en termes de contrôlabilité et de flexibilité, et peut être appliqué efficacement dans des domaines tels que la réenactment faciale, l’édition de mouvement facial, et plus encore.












