Connect with us

Inteligência artificial

Removendo Objetos de Vídeo de Forma Mais Eficiente Com Aprendizado de Máquina

mm

Nova pesquisa da China relata resultados de ponta e uma impressionante melhoria na eficiência para um novo sistema de inpainting de vídeo que pode habilmente remover objetos de filmagens.

A arnes de um planador é pintada pelo novo procedimento. Veja o vídeo de origem (inserido no final deste artigo) para melhor resolução e mais exemplos. Fonte: https://www.youtube.com/watch?v=N--qC3T2wc4

A arnes de um planador é pintada pelo novo procedimento. Veja o vídeo de origem para melhor resolução e mais exemplos. Fonte: https://www.youtube.com/watch?v=N–qC3T2wc4

A técnica, chamada de Estrutura de Ponta a Ponta para Inpainting de Vídeo Guiado por Fluxo (E2FGVI), também é capaz de remover marcas d’água e vários outros tipos de oclusão de conteúdo de vídeo.

E2FGVI calcula previsões para conteúdo que está por trás de oclusões, permitindo a remoção de marcas d'água notáveis e intransponíveis. Fonte: https://github.com/MCG-NKU/E2FGVI

E2FGVI calcula previsões para conteúdo que está por trás de oclusões, permitindo a remoção de marcas d’água notáveis e intransponíveis. Fonte: https://github.com/MCG-NKU/E2FGVI

(Para ver mais exemplos em melhor resolução, verifique o vídeo)

Embora o modelo apresentado no artigo publicado tenha sido treinado em vídeos de 432px x 240px (tamanhos de entrada comuns, limitados pelo espaço de GPU disponível versus tamanhos de lote ótimos e outros fatores), os autores lançaram desde então E2FGVI-HQ, que pode lidar com vídeos em qualquer resolução.

O código para a versão atual está disponível no GitHub, enquanto a versão HQ, lançada no último domingo, pode ser baixada do Google Drive e Baidu Disk.

A criança permanece na foto.

A criança permanece na foto.

E2FGVI pode processar vídeo de 432×240 em 0,12 segundos por quadro em um GPU Titan XP (12GB VRAM), e os autores relatam que o sistema opera quinze vezes mais rápido do que os métodos anteriores baseados em fluxo óptico.

Um jogador de tênis faz uma saída inesperada.

Um jogador de tênis faz uma saída inesperada.

Testado em conjuntos de dados padrão para essa sub-área de pesquisa de síntese de imagens, o novo método foi capaz de superar os rivais em ambas as avaliações qualitativa e quantitativa.

Testes contra abordagens anteriores. Fonte: https://arxiv.org/pdf/2204.02663.pdf

Testes contra abordagens anteriores. Fonte: https://arxiv.org/pdf/2204.02663.pdf

O artigo é intitulado Rumo a uma Estrutura de Ponta a Ponta para Inpainting de Vídeo Guiado por Fluxo, e é uma colaboração entre quatro pesquisadores da Universidade Nankai, juntamente com um pesquisador da Hisilicon Technologies.

O que Está Faltando Nessa Imagem

Além de suas aplicações óbvias para efeitos visuais, a inpainting de vídeo de alta qualidade está prestes a se tornar uma característica definidora de novas tecnologias de síntese de imagens e alteração de imagens baseadas em IA.

Isso é particularmente o caso para aplicações de moda que alteram o corpo, e outros quadros que buscam ’emagrecer’ ou alterar cenas em imagens e vídeos. Nesses casos, é necessário preencher convincentemente o fundo extra que é exposto pela síntese.

De um artigo recente, um algoritmo de 'reformatação' do corpo é encarregado de preencher o fundo recém-revelado quando um assunto é redimensionado. Aqui, essa falta é representada pelo contorno vermelho que a pessoa (de figura mais cheia, veja a imagem à esquerda) costumava ocupar. Com base em material de fonte https://arxiv.org/pdf/2203.10496.pdf

De um artigo recente, um algoritmo de ‘reformatação’ do corpo é encarregado de preencher o fundo recém-revelado quando um assunto é redimensionado. Aqui, essa falta é representada pelo contorno vermelho que a pessoa (de figura mais cheia, veja a imagem à esquerda) costumava ocupar. Com base em material de fonte https://arxiv.org/pdf/2203.10496.pdf

Fluxo Óptico Coerente

O fluxo óptico (OF) se tornou uma tecnologia fundamental no desenvolvimento da remoção de objetos de vídeo. Como um atlas, o OF fornece um mapa de uma sequência temporal de uma vez. Muitas vezes usado para medir a velocidade em iniciativas de visão computacional, o OF também pode permitir a pintura coerente no tempo, onde a soma agregada da tarefa pode ser considerada em uma única passagem, em vez da atenção ‘por quadro’ no estilo da Disney, que inevitavelmente leva à descontinuidade temporal.

Os métodos de inpainting de vídeo até o momento se concentraram em um processo de três etapas: conclusão de fluxo, onde o vídeo é essencialmente mapeado em uma entidade discreta e explorável; propagação de pixels, onde os buracos em vídeos ‘corrompidos’ são preenchidos propagando pixels bidirecionalmente; e halação de conteúdo (invenção de pixels que é familiar para a maioria de nós a partir de deepfakes e quadros de texto-para-imagem, como a série DALL-E) onde o conteúdo ‘faltante’ estimado é inventado e inserido no vídeo.

A inovação central do E2FGVI é combinar essas três etapas em um sistema de ponta a ponta, eliminando a necessidade de realizar operações manuais no conteúdo ou no processo.

O artigo observa que a necessidade de intervenção manual exige que os processos antigos não aproveitem um GPU, tornando-os bastante demorados. Do artigo*:

‘Tomando DFVI como exemplo, concluir um vídeo com o tamanho de 432 × 240 a partir de DAVIS, que contém cerca de 70 quadros, precisa de cerca de 4 minutos, o que é inaceitável na maioria das aplicações do mundo real. Além disso, além das desvantagens mencionadas acima, apenas usar uma rede de inpainting de imagem pré-treinada na etapa de halação de conteúdo ignora as relações de conteúdo entre vizinhos temporais, levando a conteúdo gerado inconsistente em vídeos.’

Ao unir as três etapas do inpainting de vídeo, o E2FGVI é capaz de substituir a segunda etapa, propagação de pixels, por propagação de recursos. Nos processos mais segmentados de trabalhos anteriores, os recursos não estão tão amplamente disponíveis, porque cada etapa é relativamente hermética, e o fluxo de trabalho é apenas semi-automatizado.

Além disso, os pesquisadores desenvolveram um transformador focal temporal para a etapa de halação de conteúdo, que considera não apenas os vizinhos diretos de pixels no quadro atual (ou seja, o que está acontecendo nessa parte do quadro na imagem anterior ou posterior), mas também os vizinhos distantes que estão muitos quadros afastados, e que influenciarão o efeito coeso de qualquer operação realizada no vídeo como um todo.

Arquitetura do E2FGVI.

Arquitetura do E2FGVI.

A nova seção central baseada em recursos do fluxo de trabalho é capaz de aproveitar mais processos de nível de recurso e amostragem de offset aprendível, enquanto o transformador focal do projeto, de acordo com os autores, estende o tamanho das janelas focais ‘de 2D para 3D’.

Testes e Dados

Para testar o E2FGVI, os pesquisadores avaliaram o sistema contra dois conjuntos de dados populares de segmentação de objetos de vídeo: YouTube-VOS, e DAVIS. O YouTube-VOS apresenta 3741 cliques de vídeo de treinamento, 474 cliques de validação e 508 cliques de teste, enquanto o DAVIS apresenta 60 cliques de vídeo de treinamento e 90 cliques de teste.

O E2FGVI foi treinado no YouTube-VOS e avaliado em ambos os conjuntos de dados. Durante o treinamento, máscaras de objetos (as áreas verdes nas imagens acima e o vídeo acompanhante) foram geradas para simular a conclusão do vídeo.

Para métricas, os pesquisadores adotaram a Taxa de Sinal-Ruído de Pico (PSNR), a Semelhança Estrutural (SSIM), a Distância de Inception de Fréchet baseada em Vídeo (VFID) e o Erro de Deformação de Fluxo – o último para medir a estabilidade temporal no vídeo afetado.

As arquiteturas anteriores contra as quais o sistema foi testado foram VINet, DFVI, LGTSM, CAP, FGVC, STTN, e FuseFormer.

Da seção de resultados quantitativos do artigo. As setas para cima e para baixo indicam que números mais altos ou mais baixos são melhores, respectivamente. O E2FGVI alcança as melhores pontuações em todos os aspectos. Os métodos são avaliados de acordo com o FuseFormer, embora o DFVI, o VINet e o FGVC não sejam sistemas de ponta a ponta, tornando impossível estimar seus FLOPs.

Da seção de resultados quantitativos do artigo. As setas para cima e para baixo indicam que números mais altos ou mais baixos são melhores, respectivamente. O E2FGVI alcança as melhores pontuações em todos os aspectos. Os métodos são avaliados de acordo com o FuseFormer, embora o DFVI, o VINet e o FGVC não sejam sistemas de ponta a ponta, tornando impossível estimar seus FLOPs.

Além de alcançar as melhores pontuações contra todos os sistemas concorrentes, os pesquisadores realizaram um estudo de usuário qualitativo, no qual vídeos transformados com cinco métodos representativos foram mostrados individualmente a vinte voluntários, que foram solicitados a avaliá-los em termos de qualidade visual.

O eixo vertical representa a porcentagem de participantes que preferiram a saída do E2FGVI em termos de qualidade visual.

O eixo vertical representa a porcentagem de participantes que preferiram a saída do E2FGVI em termos de qualidade visual.

Os autores observam que, apesar da preferência unânime por seu método, um dos resultados, o FGVC, não reflete os resultados quantitativos, e sugerem que isso indica que o E2FGVI pode, especiosamente, estar gerando ‘resultados visualmente mais agradáveis’.

Em termos de eficiência, os autores observam que seu sistema reduz significativamente as operações de ponto flutuante por segundo (FLOPs) e o tempo de inferência em um único GPU Titan no conjunto de dados DAVIS, e observam que os resultados mostram o E2FGVI executando 15 vezes mais rápido do que os métodos baseados em fluxo.

‘[E2FGVI] possui os FLOPs mais baixos em contraste com todos os outros métodos. Isso indica que o método proposto é altamente eficiente para o inpainting de vídeo.’

*Minha conversão das citações em linha dos autores para links.

 

Publicado pela primeira vez em 19 de maio de 2022.

Alterado na terça-feira, 28 de outubro de 2025, para remover o embed de vídeo defeituoso e alterar as referências ao vídeo incorporado no corpo do artigo.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.