Entre em contato

Desenvolvedores do TikTok apagando rostos para aplicativos de realidade aumentada

Realidade Aumentada

Desenvolvedores do TikTok apagando rostos para aplicativos de realidade aumentada

mm

Publicado

 on

ByteDance, empresa multinacional chinesa de internet por trás do TikTok, desenvolveu um novo método para apagar rostos em vídeo para que a distorção de identidade e outros efeitos bizarros possam ser impostos às pessoas em aplicativos de realidade aumentada. A empresa afirma que a técnica já foi integrada a produtos móveis comerciais, embora não especifique quais produtos.

Uma vez que os rostos no vídeo tenham sido 'zerados', há 'tela de rosto' suficiente para produzir distorções impressionantes, bem como potencialmente sobrepor outras identidades. Exemplos fornecidos em um novo artigo de pesquisadores da ByteDance ilustram as possibilidades, incluindo a restauração dos recursos 'apagados' em várias configurações cômicas (e certamente algumas grotescas):

Algumas das possibilidades de reconfiguração facial incluídas no artigo da ByteDance. Fonte: https://arxiv.org/pdf/2109.10760.pdf

Algumas das possibilidades de reconfiguração facial incluídas no artigo da ByteDance. Fonte: https://arxiv.org/pdf/2109.10760.pdf

No final de agosto, veio à luz que o TikTok, o primeiro aplicativo não pertencente ao Facebook a atingir três bilhões de instalações, lançou o TikTok Effect Studio (atualmente em beta fechado), uma plataforma para desenvolvedores de realidade aumentada (AR) criarem efeitos AR para fluxos de conteúdo do TikTok.

Efetivamente, a empresa está alcançando comunidades de desenvolvedores semelhantes em Estúdio AR do Facebook e Snap AR, com o venerável da Apple Comunidade de P&D de AR também definido para tornar-se iminentemente galvanizado por novo hardware ao longo do próximo ano.

Expressões em branco

A papel, Com o título FaceEraser: removendo partes faciais para realidade aumentada, observa que os algoritmos de pintura/preenchimento existentes, como SPADE da NVIDIA, são mais orientados para a conclusão de imagens truncadas ou semi-obscuras do que para realizar esse procedimento incomum de 'blanking' e, portanto, o material existente do conjunto de dados é previsivelmente escasso.

Como não há conjuntos de dados de verdade disponíveis para pessoas que têm uma extensão sólida de carne onde seu rosto deveria estar, os pesquisadores criaram uma nova arquitetura de rede chamada clone de pixel, que pode ser sobreposto em modelos de pintura neural existentes e que resolve problemas relacionados a inconsistências de textura e cor exibidas (o artigo atesta) por métodos mais antigos, como EstruturaFluxo e EdgeConnect.

Fluxo de trabalho geral de clone de pixel no novo pipeline.

Fluxo de trabalho geral de clone de pixel no novo pipeline.

Para treinar um modelo em rostos 'em branco', os pesquisadores excluíram imagens com óculos, ou onde o cabelo obscurece a testa, uma vez que a área entre a linha do cabelo e as sobrancelhas é geralmente o maior grupo único de pixels que pode fornecer 'colar' material para as características centrais do rosto.

Preparando imagens de treinamento. A área da testa é recortada, com base em pontos-chave no reconhecimento do alinhamento facial, invertida verticalmente e costurada.

Preparando imagens de treinamento. A área da testa é recortada, com base em pontos-chave no reconhecimento do alinhamento facial, invertida verticalmente e costurada.

É obtida uma imagem de 256×256 pixels, um tamanho pequeno o suficiente para alimentar o espaço latente de uma rede neural em lotes grandes o suficiente para obter generalização. O upscaling algorítmico posterior restaurará as resoluções necessárias para trabalhar no espaço AR.

Arquitetura

A rede é composta por três redes internas, compreendendo Edge Completion, Pixel-Clone e uma rede de refinamento. A rede de conclusão de borda usa o mesmo tipo de arquitetura de codificador-decodificador empregada no EdgeConnect (veja acima), bem como nos dois aplicativos deepfake mais populares. Os codificadores reduzem a resolução do conteúdo da imagem duas vezes e os decodificadores restauram as dimensões originais da imagem.

O Pixel-Clone usa uma metodologia codificadora-decodificadora modificada, enquanto a camada de refinamento usa a arquitetura U-Net, uma técnica originalmente desenvolvida para imagiologia biomédica, que frequentemente aparece em projetos de pesquisa de síntese de imagens.

Durante o fluxo de treinamento, é necessário avaliar a precisão das transformações e, conforme necessário, repetir as tentativas iterativamente até convergência. Para isso, dois discriminadores baseados em Patch GAN são usados, cada um dos quais avalia o realismo localizado de patches de 70 × 70 pixels, descontando o valor de realismo da imagem inteira.

Treinamento e dados

A rede de completude de arestas é inicialmente treinada de forma independente, enquanto as outras duas redes são treinadas em conjunto, com base nos pesos resultantes do treinamento de completude de arestas, que são fixados e congelados durante este procedimento.

Embora o artigo não afirme explicitamente que seus exemplos de distorção de recursos finais são o objetivo central do modelo, ele implementa vários efeitos cômicos para testar a resiliência do sistema, incluindo remoção de sobrancelhas, bocas aumentadas, sub-faces encolhidas e 'toonized' efeitos (como mostrado na imagem anterior, acima).

O artigo afirma que 'os rostos apagados permitem vários aplicativos de realidade aumentada que exigem a colocação de quaisquer elementos personalizados pelo usuário', indicando a possibilidade de personalizar os rostos com elementos de terceiros fornecidos pelo usuário.

O modelo é treinado em máscaras do programa criado pela NVIDIA conjunto de dados FFHQ, que contém uma variedade adequada de idades, etnias, iluminação e poses e estilos faciais para obter uma generalização útil. O conjunto de dados contém 35,000 imagens e 10,000 máscaras de treinamento para delinear as áreas de transformação, com 4000 imagens e 1000 máscaras reservadas para fins de validação.

Amostras de dados de treinamento.

Amostras de dados de treinamento.

O modelo treinado pode realizar inferência em dados de 2017 CelebA-HQ e VoxCelebGenericName, rostos não vistos do FFHQ e quaisquer outros rostos irrestritos e não vistos que são apresentados a ele. As imagens de 256 × 256 foram treinadas na rede em lotes de 8 em um otimizador Adam, implementado em PyTorch e executado em uma GPU Tesla V100 por '2000,000 épocas'.

Resultados de inferência obtidos em uma face real.

Resultados de inferência obtidos em uma face real.

Como é comum na pesquisa de síntese de imagem baseada em face, o sistema tem que lidar com falhas ocasionais provocadas por obstruções ou oclusões, como cabelo, periféricos, óculos e pelos faciais.

O relatório conclui:

'Nossa abordagem foi comercializada e funciona bem em produtos para entradas irrestritas do usuário.'