Intelligence artificielle

AniPortrait : Synthèse audio de portraits animés photoréalistes

Publié le 3 mai 2024

Mis à jour le 21 mai 2026

Par

Kunal Kejriwal

Au fil des ans, la création de portraits animés réalistes et expressifs à partir d’images statiques et d’audio a trouvé un large éventail d’applications, notamment dans les jeux, les médias numériques, la réalité virtuelle et bien plus encore. Malgré son potentiel d’application, il est encore difficile pour les développeurs de créer des cadres capables de générer des animations de haute qualité qui maintiennent une cohérence temporelle et sont visuellement captivantes. Une cause majeure de la complexité est le besoin d’une coordination intriquée des mouvements des lèvres, des positions de la tête et des expressions faciales pour créer un effet visuellement convaincant.

Dans cet article, nous allons parler d’AniPortrait, un cadre novateur conçu pour générer des animations de haute qualité à partir d’une image de portrait de référence et d’un échantillon audio. Le fonctionnement du cadre AniPortrait est divisé en deux étapes. Tout d’abord, le cadre AniPortrait extrait les représentations intermédiaires 3D à partir des échantillons audio et les projette dans une séquence de repères faciaux 2D. Ensuite, le cadre utilise un modèle de diffusion robuste couplé avec un module de mouvement pour convertir la séquence de repères en animations temporellement cohérentes et photoréalistes. Les résultats expérimentaux démontrent la supériorité et la capacité du cadre AniPortrait à générer des animations de haute qualité avec une qualité visuelle exceptionnelle, une diversité de poses et une naturalité faciale, offrant ainsi une expérience perceptive enrichie et améliorée. De plus, le cadre AniPortrait présente un potentiel remarquable en termes de contrôlabilité et de flexibilité, et peut être appliqué efficacement dans des domaines tels que la réenactment faciale, l’édition de mouvement facial et bien plus encore. Cet article vise à couvrir en profondeur le cadre AniPortrait, et nous explorons le mécanisme, la méthodologie, l’architecture du cadre ainsi que sa comparaison avec les cadres d’état de l’art. Alors, commençons.

AniPortrait : Animation de portrait photoréaliste

La création de portraits animés réalistes et expressifs a été l’objet de recherche des chercheurs depuis un certain temps en raison de son potentiel incroyable et de ses applications qui s’étendent des médias numériques et de la réalité virtuelle aux jeux et bien plus encore. Malgré des années de recherche et de développement, produire des animations de haute qualité qui maintiennent une cohérence temporelle et sont visuellement captivantes présente encore un défi important. Un obstacle majeur pour les développeurs est le besoin de coordination intriquée entre les positions de la tête, les expressions visuelles et les mouvements des lèvres pour créer un effet visuellement convaincant. Les méthodes existantes n’ont pas réussi à relever ces défis, principalement parce que la plupart d’entre elles reposent sur des générateurs à capacité limitée comme NeRF, des décodeurs basés sur le mouvement et des GAN pour la création de contenu visuel. Ces réseaux présentent des capacités de généralisation limitées et sont instables dans la génération de contenu de haute qualité. Cependant, l’émergence récente de modèles de diffusion a facilité la génération d’images de haute qualité, et certains cadres basés sur des modèles de diffusion ainsi que des modules temporels ont facilité la création de vidéos convaincantes, permettant ainsi aux modèles de diffusion d’exceller.

En s’appuyant sur les progrès des modèles de diffusion, le cadre AniPortrait vise à générer des portraits animés de haute qualité à partir d’une image de référence et d’un échantillon audio. Le fonctionnement du cadre AniPortrait est divisé en deux étapes. Dans la première étape, le cadre AniPortrait utilise des modèles basés sur des transformateurs pour extraire une séquence de maillage facial 3D et de pose de la tête à partir de l’entrée audio, et les projette ensuite dans une séquence de repères faciaux 2D. La première étape permet au cadre AniPortrait de capturer les mouvements des lèvres et les expressions subtiles à partir de l’audio, ainsi que les mouvements de la tête qui synchronisent avec le rythme de l’échantillon audio. La deuxième étape, le cadre AniPortrait utilise un modèle de diffusion robuste et l’intègre avec un module de mouvement pour convertir la séquence de repères en une animation de portrait photoréaliste et temporellement cohérente. Plus précisément, le cadre AniPortrait s’inspire de l’architecture du modèle AnimateAnyone qui utilise le modèle de diffusion Stable Diffusion 1.5, un modèle de diffusion puissant pour générer des animations réalistes et fluides à partir d’une image de référence et d’une séquence de mouvement de corps. Ce qui est important à noter est que le cadre AniPortrait n’utilise pas le module de guidage de pose dans ce réseau, mais le réconçoit, ce qui permet au cadre AniPortrait non seulement de maintenir une conception légère, mais également d’exhiber une précision améliorée dans la génération de mouvements des lèvres.

Les résultats expérimentaux démontrent la supériorité du cadre AniPortrait dans la création d’animations avec une naturalité faciale impressionnante, une qualité visuelle exceptionnelle et des poses variées. En utilisant des représentations 3D faciales comme fonctionnalités intermédiaires, le cadre AniPortrait gagne en flexibilité pour modifier ces représentations selon ses besoins. Cette adaptabilité améliore considérablement l’applicabilité du cadre AniPortrait dans des domaines tels que la réenactment faciale et l’édition de mouvement facial.

AniPortrait : Fonctionnement et méthodologie

Le cadre AniPortrait proposé se compose de deux modules, à savoir Lmk2Video et Audio2Lmk. Le module Audio2Lmk tente d’extraire une séquence de repères qui capture les mouvements des lèvres et les expressions faciales à partir de l’entrée audio, tandis que le module Lmk2Video utilise cette séquence de repères pour générer des vidéos de portrait de haute qualité avec une stabilité temporelle. La figure suivante présente une vue d’ensemble du fonctionnement du cadre AniPortrait. Comme on peut l’observer, le cadre AniPortrait extrait d’abord le maillage facial 3D et la pose de la tête à partir de l’audio, puis les projette dans des points clés 2D. Dans la deuxième étape, le cadre utilise un modèle de diffusion pour convertir les points clés 2D en une vidéo de portrait avec deux étapes formées en parallèle dans le réseau.

Audio2Lmk

Pour une séquence donnée d’échantillons de parole, l’objectif principal du cadre AniPortrait est de prédire la séquence correspondante de maillage facial 3D avec des représentations vectorielles de translation et de rotation. Le cadre AniPortrait utilise la méthode wav2vec pré-entraînée pour extraire les fonctionnalités audio, et le modèle présente une grande capacité de généralisation, ainsi que la capacité de reconnaître l’intonation et la prononciation à partir de l’audio avec précision, ce qui joue un rôle crucial dans la génération d’animations faciales réalistes. En exploitant les fonctionnalités audio robustes acquises, le cadre AniPortrait est capable d’utiliser une architecture simple composée de deux couches fc pour convertir ces fonctionnalités en maillages faciaux 3D. Le cadre AniPortrait observe que cette conception directe mise en œuvre par le modèle non seulement améliore l’efficacité du processus d’inférence, mais assure également la précision. Lors de la conversion de l’audio en pose, le cadre AniPortrait utilise le même réseau wav2vec comme arrière-plan, bien que le modèle ne partage pas les poids avec le module audio-maillage. Cela est principalement dû au fait que la pose est associée davantage au ton et au rythme présents dans l’audio, qui présente une emphase différente par rapport aux tâches audio-maillage. Pour tenir compte de l’impact des états précédents, le cadre AniPortrait utilise un décodeur de transformateur pour décoder la séquence de pose. Au cours de ce processus, le cadre intègre les fonctionnalités audio dans le décodeur à l’aide de mécanismes d’attention croisée, et pour les deux modules, le cadre les forme en utilisant la perte L1. Une fois que le modèle obtient la pose et la séquence de maillage, il utilise une projection de perspective pour transformer ces séquences en une séquence 2D de repères faciaux qui sont ensuite utilisés comme signaux d’entrée pour l’étape suivante.

Lmk2Video

Pour une image de portrait de référence donnée et une séquence de repères faciaux, le module Lmk2Video propose de créer une animation de portrait temporellement cohérente, et cette animation aligne le mouvement sur la séquence de repères, maintient une apparence qui est cohérente avec l’image de référence, et représente enfin l’animation de portrait comme une séquence de cadres de portrait. La conception de la structure de réseau de Lmk2Video s’inspire du cadre AnimateAnyone existant. Le cadre AniPortrait utilise un modèle de diffusion Stable Diffusion 1.5, un modèle de diffusion extrêmement puissant, comme arrière-plan, et intègre un module de mouvement temporel qui convertit efficacement les entrées de bruit multi-cadres en une séquence de cadres de vidéo. En même temps, un composant de réseau ReferencenNet présente une structure qui mime celle de Stable Diffusion 1.5, et l’utilise pour extraire les informations d’apparence à partir de l’image de référence, et les intègre dans l’arrière-plan. La conception stratégique assure que l’identité faciale reste cohérente tout au long de la vidéo de sortie. Différant du cadre AnimateAnyone, le cadre AniPortrait améliore la complexité de la conception de PoseGuider. La version originale du cadre AnimateAnyone comprend seulement quelques couches de convolution après lesquelles les fonctionnalités de repères fusionnent avec les latents à la couche d’entrée de l’arrière-plan. Le cadre AniPortrait découvre que la conception est en défaut pour capturer les mouvements intriqués des lèvres, et pour relever ce défi, le cadre adopte la stratégie multi-échelle de l’architecture ConvNet, et intègre les fonctionnalités de repères de scales correspondants dans différents blocs de l’arrière-plan. De plus, le cadre AniPortrait introduit une amélioration supplémentaire en incluant les repères de l’image de référence comme entrée supplémentaire. Le module d’attention croisée du composant PoseGuider facilite l’interaction entre les repères cibles de chaque cadre et les repères de référence. Ce processus fournit au réseau des indices supplémentaires pour comprendre la corrélation entre l’apparence et les repères faciaux, aidant ainsi à la génération d’animations de portrait avec des mouvements plus précis.

AniPortrait : Mise en œuvre et résultat

Pour l’étape Audio2Lmk, le cadre AniPortrait adopte le composant wav2vec2.0 comme arrière-plan, et utilise l’architecture MediaPipe pour extraire les maillages 3D et les poses 6D pour les annotations. Le modèle tire les données d’entraînement pour le composant Audio2Mesh de son ensemble de données interne qui comprend près de 60 minutes de données audio de haute qualité provenant d’un seul locuteur. Pour assurer que le maillage 3D extrait par le composant MediaPipe est stable, l’acteur de voix est invité à faire face à la caméra et à maintenir une position de tête stable tout au long du processus d’enregistrement. Pour le module Lmk2Video, le cadre AniPortrait met en œuvre une approche d’entraînement en deux étapes. Dans la première étape, le cadre se concentre sur l’entraînement de ReferenceNet et de PoseGuider, la composante 2D de l’arrière-plan, et laisse de côté le module de mouvement. Dans la deuxième étape, le cadre AniPortrait gèle tous les autres composants et se concentre sur l’entraînement du module de mouvement. Pour cette étape, le cadre utilise deux grands ensembles de données de vidéos faciales de haute qualité pour former le modèle, et traite toutes les données à l’aide du composant MediaPipe pour extraire les repères faciaux 2D. De plus, pour améliorer la sensibilité du réseau aux mouvements des lèvres, le modèle AniPortrait différencie les lèvres supérieures et inférieures avec des couleurs distinctes lors de la représentation de l’image de pose à partir des repères 2D.

Comme le montre l’image suivante, le cadre AniPortrait génère une série d’animations qui démontrent une qualité et un réalisme supérieurs.

Le cadre utilise ensuite une représentation 3D intermédiaire qui peut être éditée pour manipuler la sortie selon les besoins. Par exemple, les utilisateurs peuvent extraire des repères d’une source particulière et modifier leur identité, permettant ainsi au cadre AniPortrait de créer un effet de réenactment facial.

Pensées finales

Dans cet article, nous avons parlé d’AniPortrait, un cadre novateur conçu pour générer des animations de haute qualité à partir d’une image de portrait de référence et d’un échantillon audio. En insérant simplement une image de référence et un extrait audio, le cadre AniPortrait est capable de générer une vidéo de portrait qui présente des mouvements de tête naturels et des mouvements de lèvres fluides. En exploitant les capacités de généralisation robustes du modèle de diffusion, le cadre AniPortrait génère des animations qui présentent une qualité d’image réaliste impressionnante et des mouvements réalistes. Le fonctionnement du cadre AniPortrait est divisé en deux étapes. Tout d’abord, le cadre AniPortrait extrait les représentations intermédiaires 3D à partir des échantillons audio et les projette dans une séquence de repères faciaux 2D. Ensuite, le cadre utilise un modèle de diffusion robuste couplé avec un module de mouvement pour convertir la séquence de repères en animations temporellement cohérentes et photoréalistes. Les résultats expérimentaux démontrent la supériorité et la capacité du cadre AniPortrait à générer des animations de haute qualité avec une qualité visuelle exceptionnelle, une diversité de poses et une naturalité faciale, offrant ainsi une expérience perceptive enrichie et améliorée. De plus, le cadre AniPortrait présente un potentiel remarquable en termes de contrôlabilité et de flexibilité, et peut être appliqué efficacement dans des domaines tels que la réenactment faciale, l’édition de mouvement facial et bien plus encore.