talon Les développeurs de TikTok effacent les visages pour les applications de réalité augmentée - Unite.AI
Suivez nous sur

Réalité Augmentée

Les développeurs de TikTok effacent les visages pour les applications de réalité augmentée

mm

Publié le

 on

ByteDance, la société Internet multinationale chinoise derrière TikTok, a développé une nouvelle méthode pour effacer les visages dans la vidéo afin que la distorsion d'identité et d'autres effets bizarres puissent être imposés aux personnes dans les applications de réalité augmentée. La société affirme que la technique a déjà été intégrée dans des produits mobiles commerciaux, bien qu'elle ne précise pas quels produits.

Une fois que les visages de la vidéo ont été "mis à zéro", il y a suffisamment de "toile de visage" pour produire des distorsions époustouflantes, ainsi que pour superposer potentiellement d'autres identités. Des exemples fournis dans un nouvel article de chercheurs de ByteDance illustrent les possibilités, y compris la restauration des fonctionnalités « effacées » dans diverses configurations comiques (et certainement grotesques) :

Certaines des possibilités de reconfiguration faciale incluses dans l'article ByteDance. Source : https://arxiv.org/pdf/2109.10760.pdf

Certaines des possibilités de reconfiguration faciale incluses dans l'article ByteDance. Source : https://arxiv.org/pdf/2109.10760.pdf

Vers la fin du mois d'août, il venu à la lumière que TikTok, la première application non-Facebook à atteindre trois milliards d'installations, avait lancé TikTok Effect Studio (actuellement en bêta fermée), une plate-forme permettant aux développeurs de réalité augmentée (AR) de créer des effets AR pour les flux de contenu TikTok.

En effet, l'entreprise rattrape des communautés de développeurs similaires à Le studio AR de Facebook ainsi que le Snap AR, avec le vénérable Apple Communauté R&D AR également sur le point d'être galvanisé de manière imminente par nouveau matériel l'année prochaine.

Expressions vides

Les papier, Intitulé FaceEraser : supprimer des parties du visage pour la réalité augmentée, note que les algorithmes de peinture/remplissage existants, tels que SPADE de NVIDIA, sont plus orientés vers la réalisation d'images tronquées ou autrement semi-obscurcies que vers l'exécution de cette procédure inhabituelle de « suppression », et que le matériel de l'ensemble de données existant est donc, comme on pouvait s'y attendre, rare.

Puisqu'il n'y a pas d'ensembles de données de vérité terrain disponibles pour les personnes qui ont une solide étendue de chair là où leur visage devrait être, les chercheurs ont créé une nouvelle architecture de réseau appelée clone de pixel, qui peuvent être superposés aux modèles de peinture neuronale existants, et qui résolvent les problèmes liés aux incohérences de texture et de couleur présentées (l'article en atteste) par des méthodes plus anciennes telles que StructureFlux ainsi que le EdgeConnect.

Workflow général du pixel-clone dans le nouveau pipeline.

Workflow général du pixel-clone dans le nouveau pipeline.

Afin de former un modèle sur des visages "vierges", les chercheurs ont exclu les images avec des lunettes, ou où les cheveux obscurcissent le front, car la zone entre la racine des cheveux et les sourcils est généralement le plus grand groupe de pixels pouvant fournir un "collage". matière pour les traits centraux du visage.

Préparation des images de formation. La zone du front est rognée, en fonction des points clés de la reconnaissance de l'alignement du visage, inversée verticalement et cousue.

Préparation des images de formation. La zone du front est rognée, en fonction des points clés de la reconnaissance de l'alignement du visage, inversée verticalement et cousue.

Une image de 256 × 256 pixels est obtenue, une taille suffisamment petite pour alimenter l'espace latent d'un réseau de neurones par lots suffisamment grands pour atteindre généralisation. Une mise à l'échelle algorithmique ultérieure restaurera les résolutions nécessaires pour travailler dans l'espace AR.

Architecture

Le réseau est composé de trois réseaux internes, comprenant Edge Completion, Pixel-Clone et un réseau de raffinement. Le réseau de complétion de périphérie utilise le même type d'architecture d'encodeur-décodeur utilisé dans EdgeConnect (voir ci-dessus), ainsi que dans les deux applications deepfake les plus populaires. Les encodeurs sous-échantillonnent le contenu de l'image deux fois et les décodeurs restaurent les dimensions d'origine de l'image.

Pixel-Clone utilise une méthodologie d'encodeur-décodeur modifiée, tandis que la couche de raffinement utilise l'architecture U-Net, une technique développée à l'origine pour l'imagerie biomédicale, qui figure souvent dans les projets de recherche en synthèse d'images.

Au cours du workflow de formation, il est nécessaire d'évaluer la précision des transformations et, si nécessaire, de répéter les tentatives de manière itérative jusqu'à convergence. Pour cela, deux discriminateurs basés sur PatchGAN sont utilisés, dont chacun évalue le réalisme localisé de patchs de 70 × 70 pixels, en actualisant la valeur de réalisme de l'image entière.

Formation et données

Le réseau de complétion de bord est initialement formé indépendamment, tandis que les deux autres réseaux sont formés ensemble, sur la base des pondérations résultant de la formation de complétion de bord, qui sont fixées et gelées au cours de cette procédure.

Bien que l'article n'indique pas explicitement que ses exemples de distorsion des caractéristiques finales sont l'objectif central du modèle, il implémente divers effets comiques pour tester la résilience du système, notamment l'élimination des sourcils, des bouches agrandies, des sous-visages rétrécis et des "toonized". effets (comme indiqué dans l'image précédente, ci-dessus).

Le document affirme que "les visages effacés permettent diverses applications de réalité augmentée qui nécessitent le placement de tout élément personnalisé par l'utilisateur", indiquant la possibilité de personnaliser les visages avec des éléments tiers fournis par l'utilisateur.

Le modèle est formé sur des masques de la création NVIDIA Jeu de données FFHQ, qui contient une variété adéquate d'âges, d'ethnies, d'éclairages et de poses et de styles faciaux pour parvenir à une généralisation utile. L'ensemble de données contient 35,000 10,000 images et 4000 1000 masques d'entraînement pour délimiter les zones de transformation, avec XNUMX XNUMX images et XNUMX XNUMX masques réservés à des fins de validation.

Échantillons de données de formation.

Échantillons de données de formation.

Le modèle formé peut effectuer des inférences sur les données de 2017 CelebA-QG ainsi que le VoxCélébrité, les visages invisibles de la FFHQ, et tous les autres visages non vus et non contraints qui lui sont présentés. Les images 256 × 256 ont été entraînées sur le réseau par lots de 8 sur un optimiseur Adam, implémenté dans PyTorch et exécutés sur un GPU Tesla V100 pendant '2000,000 XNUMX époques'.

Résultats d'inférence obtenus sur un visage réel.

Résultats d'inférence obtenus sur un visage réel.

Comme il est courant dans la recherche sur la synthèse d'images basée sur le visage, le système doit faire face à des défaillances occasionnelles provoquées par des obstructions ou des occlusions telles que les cheveux, les périphériques, les lunettes et les poils du visage.

Le rapport conclut:

"Notre approche a été commercialisée et fonctionne bien dans les produits pour les entrées utilisateur sans contrainte."