stub TikTok-udviklere sletter ansigter til Augmented Reality-applikationer - Unite.AI
Følg os

Augmented Reality

TikTok-udviklere sletter ansigter til Augmented Reality-applikationer

mm

Udgivet

 on

ByteDance, den kinesiske multinationale internetvirksomhed bag TikTok, har udviklet en ny metode til at slette ansigter i video, så identitetsforvrængning og andre bizarre effekter kan påtvinges mennesker i augmented reality-applikationer. Virksomheden hævder, at teknikken allerede er blevet integreret i kommercielle mobilprodukter, selvom det ikke fremgår hvilke produkter.

Når først ansigter i video er blevet 'nulstillet', er der nok 'ansigtslærred' til at producere iøjnefaldende forvrængninger, såvel som potentielt overlejring af andre identiteter. Eksempler leveret i et nyt papir fra ByteDance-forskere illustrerer mulighederne, herunder gendannelse af de 'slettede' funktioner i forskellige komiske (og bestemt nogle groteske) konfigurationer:

Nogle af mulighederne for ansigtsre-konfiguration inkluderet i ByteDance-papiret. Kilde: https://arxiv.org/pdf/2109.10760.pdf

Nogle af mulighederne for ansigtsre-konfiguration inkluderet i ByteDance-papiret. Kilde: https://arxiv.org/pdf/2109.10760.pdf

Mod slutningen af ​​august blev det kom til lys at TikTok, den første ikke-Facebook-app til nå tre milliarder installationer, havde lanceret TikTok Effect Studio (p.t i lukket beta), en platform for udviklere af augmented reality (AR) til at skabe AR-effekter til TikTok-indholdsstrømme.

Faktisk er virksomheden ved at indhente lignende udviklerfællesskaber på Facebooks AR Studio , Snap AR, med Apples ærværdige AR R&D-fællesskab også indstillet til forestående at blive galvaniseret af ny hardware i løbet af det næste år.

Blanke udtryk

papir, med titlen FaceEraser: Fjernelse af ansigtsdele for Augmented Reality, bemærker, at eksisterende in-painting/infill-algoritmer, som f.eks NVIDIAs SPADE, er mere orienteret mod at færdiggøre trunkerede eller på anden måde semi-tilslørede billeder end at udføre denne usædvanlige 'blanking'-procedure, og at eksisterende datasætmateriale derfor forudsigeligt er sparsomt.

Da der ikke er nogen tilgængelige jordsandhedsdatasæt for mennesker, der har en solid flade af kød, hvor deres ansigt skal være, har forskerne skabt en ny netværksarkitektur kaldet pixel-klon, der kan overlejres i eksisterende neurale inpainting-modeller, og som løser problemer relateret til tekstur- og farveuoverensstemmelser udstillet (papiret attesterer) af ældre metoder som f.eks. StructureFlow , EdgeConnect.

Generel arbejdsgang for pixel-klon i den nye pipeline.

Generel arbejdsgang for pixel-klon i den nye pipeline.

For at træne en model på 'blanke' ansigter udelukkede forskerne billeder med briller, eller hvor hår skjuler panden, da området mellem hårgrænsen og øjenbryn normalt er den største enkeltgruppe af pixels, der kan levere 'paste-over' materiale til de centrale træk i ansigtet.

Udarbejdelse af træningsbilleder. Pandeområdet er skåret ud, baseret på nøglepunkter i ansigtsjusteringsgenkendelse, vendt lodret og syet.

Udarbejdelse af træningsbilleder. Pandeområdet er skåret ud, baseret på nøglepunkter i ansigtsjusteringsgenkendelse, vendt lodret og syet.

Et 256×256 pixel billede opnås, en lille nok størrelse til at føres ind i det latente rum i et neuralt netværk i batches, der er store nok til at opnå generalisering. Senere algoritmisk opskalering vil gendanne de opløsninger, der er nødvendige for at arbejde i AR-rummet.

arkitektur

Netværket består af tre indre netværk, der omfatter Edge Completion, Pixel-Clone og et forfiningsnetværk. Edgecompletion-netværket bruger den samme slags encoder-decoder-arkitektur, der er anvendt i EdgeConnect (se ovenfor), såvel som i de to mest populære deepfake-applikationer. Indkoderne nedsamler billedindhold to gange, og dekoderne gendanner de originale billeddimensioner.

Pixel-Clone bruger en modificeret encoder-decoder-metode, mens raffinementslaget bruger U-Net-arkitektur, en teknik, der oprindeligt er udviklet til biomedicinsk billeddannelse, som ofte optræder i billedsynteseforskningsprojekter.

Under træningens workflow er det nødvendigt at evaluere nøjagtigheden af ​​transformationerne, og om nødvendigt gentage forsøgene iterativt op til konvergens. Til dette formål, to diskriminatorer baseret på PatchGAN bruges, som hver især evaluerer den lokaliserede realisme af 70×70 pixel patches, hvorved realismeværdien af ​​hele billedet udelukkes.

Træning og data

Kantafslutningsnetværket trænes i første omgang selvstændigt, mens de to andre netværk trænes sammen, ud fra de vægte, der er resultatet af kantafslutningstræningen, som er fastgjort og fastfrosset under denne procedure.

Skønt papiret ikke udtrykkeligt angiver, at dets eksempler på endelig funktionsforvrængning er det centrale mål med modellen, implementerer det forskellige komiske effekter for at teste systemets modstandsdygtighed, herunder fjernelse af øjenbryn, forstørrede mund, krympede underflader og "tooniseret" effekter (som vist i det tidligere billede ovenfor).

Avisen hævder, at "de slettede ansigter muliggør forskellige augmented-reality-applikationer, der kræver placering af brugertilpassede elementer", hvilket indikerer muligheden for at tilpasse ansigter med tredjeparts, brugerbidragede elementer.

Modellen er trænet på masker fra det NVIDIA-skabte FFHQ datasæt, som indeholder et passende udvalg af aldre, etniciteter, belysning og ansigtsstillinger og stilarter for at opnå en nyttig generalisering. Datasættet indeholder 35,000 billeder og 10,000 træningsmasker til at afgrænse områderne for transformation, med 4000 billeder og 1000 masker afsat til valideringsformål.

Træningsdataprøver.

Træningsdataprøver.

Den trænede model kan udføre slutninger om data fra 2017'erne CelebA-HQ , VoxCeleb, usete ansigter fra FFHQ, og alle andre ubegrænsede, usete ansigter, der præsenteres for det. 256×256 billederne blev trænet på netværket i batches af 8 over en Adam optimizer, implementeret i PyTorch og kørt på en Tesla V100 GPU for '2000,000 epoker'.

Konklusioner opnået på et rigtigt ansigt.

Konklusioner opnået på et rigtigt ansigt.

Som det er almindeligt i ansigtsbaseret billedsynteseforskning, skal systemet kæmpe med lejlighedsvise fejl fremkaldt af forhindringer eller okklusioner såsom hår, perifere enheder, briller og ansigtshår.

Rapporten konkluderer:

"Vores tilgang er blevet kommercialiseret, og den fungerer godt i produkter til ubegrænsede brugerinput."