Inteligência artificial

Removendo objetos do vídeo com mais eficiência com aprendizado de máquina

Atualização do on 9 de dezembro de 2022

Uma nova pesquisa da China relata resultados de ponta – bem como uma melhoria impressionante na eficiência – para um novo sistema de pintura interna de vídeo que pode remover habilmente objetos da filmagem.

O arnês de uma asa-delta é pintado pelo novo procedimento. Veja o vídeo de origem (incorporado na parte inferior deste artigo) para melhor resolução e mais exemplos. Fonte: https://www.youtube.com/watch?v=N–qC3T2wc4

A técnica, chamada de estrutura de ponta a ponta para pintura interna de vídeo guiada por fluxo (E²FGVI), também é capaz de remover marcas d'água e vários outros tipos de oclusão de conteúdo de vídeo.

O E2FGVI calcula previsões para conteúdo que está por trás de oclusões, permitindo a remoção até mesmo de marcas d'água notáveis e intratáveis. Fonte: https://github.com/MCG-NKU/E2FGVI

Para ver mais exemplos em melhor resolução, confira o vídeo incorporado no final do artigo.

Embora o modelo apresentado no artigo publicado tenha sido treinado em vídeos de 432px x 240px (normalmente tamanhos de entrada baixos, limitados pelo espaço de GPU disponível versus tamanhos de lote ideais e outros fatores), os autores lançaram desde então E²FGVI-QG, que pode lidar com vídeos em uma resolução arbitrária.

O código da versão atual é disponível no GitHub, enquanto a versão HQ, lançada no último domingo, pode ser baixada em Google drive e Disco Baidu.

A criança fica na foto.

E²O FGVI pode processar vídeo 432 × 240 a 0.12 segundos por quadro em uma GPU Titan XP (12 GB VRAM), e os autores relatam que o sistema opera quinze vezes mais rápido do que os métodos de última geração baseados em Fluxo optico.

Um tenista faz uma saída inesperada.

Testado em conjuntos de dados padrão para este subsetor de pesquisa de síntese de imagens, o novo método foi capaz de superar os rivais em rodadas de avaliação qualitativa e quantitativa.

Testes contra abordagens anteriores. Fonte: https://arxiv.org/pdf/2204.02663.pdf

A papel é intitulado Rumo a uma estrutura de ponta a ponta para pintura interna de vídeo guiada por fluxo, e é uma colaboração entre quatro pesquisadores da Nankai University, juntamente com um pesquisador da Hisilicon Technologies.

O que está faltando nesta imagem

Além de suas aplicações óbvias para efeitos visuais, a pintura interna de vídeo de alta qualidade está definida para se tornar um recurso definidor central das novas tecnologias de síntese e alteração de imagem baseadas em IA.

Esse é particularmente o caso de aplicativos de moda que alteram o corpo e outras estruturas que procurar 'emagrecer' ou alterar cenas em imagens e vídeos. Nesses casos, é necessário 'preencher' de forma convincente o fundo extra que é exposto pela síntese.

De um artigo recente, um algoritmo de 'remodelação' do corpo é encarregado de pintar o fundo recém-revelado quando um assunto é redimensionado. Aqui, esse déficit é representado pelo contorno vermelho que a pessoa de figura mais cheia (na vida real, veja a imagem à esquerda) costumava ocupar. Baseado no material original de https://arxiv.org/pdf/2203.10496.pdf

Fluxo óptico coerente

O fluxo óptico (OF) tornou-se uma tecnologia central no desenvolvimento da remoção de objetos de vídeo. Como um atlas, OF fornece um mapa único de uma sequência temporal. Frequentemente usado para medir a velocidade em iniciativas de visão computacional, o OF também pode permitir uma pintura interna consistente no tempo, onde a soma agregada da tarefa pode ser considerada em uma única passagem, em vez da atenção "por quadro" ao estilo Disney, que inevitavelmente leva à descontinuidade temporal.

Até o momento, os métodos de pintura interna de vídeo se concentram em um processo de três estágios: conclusão do fluxo, onde o vídeo é essencialmente mapeado em uma entidade discreta e explorável; propagação de pixels, onde os buracos em vídeos 'corrompidos' são preenchidos por pixels de propagação bidirecional; e alucinação de conteúdo ('invenção' de pixel que é familiar para a maioria de nós em deepfakes e estruturas de texto para imagem, como a série DALL-E) onde o conteúdo estimado 'ausente' é inventado e inserido na filmagem.

A inovação central do E²O FGVI deve combinar essas três etapas em um sistema de ponta a ponta, eliminando a necessidade de realizar operações manuais no conteúdo ou no processo.

O artigo observa que a necessidade de intervenção manual exige que os processos mais antigos não tirem proveito de uma GPU, tornando-os bastante demorados. Do papel*:

'Tirando DFVI como exemplo, completando um vídeo com o tamanho de 432 × 240 de DAVIS, que contém cerca de 70 quadros, precisa de cerca de 4 minutos, o que é inaceitável na maioria dos aplicativos do mundo real. Além disso, exceto pelas desvantagens mencionadas acima, usar apenas uma rede de pintura de imagem pré-treinada no estágio de alucinação de conteúdo ignora as relações de conteúdo entre vizinhos temporais, levando a conteúdo gerado inconsistente em vídeos.'

Ao unir as três etapas da pintura em vídeo, E²O FGVI é capaz de substituir o segundo estágio, propagação de pixel, por propagação de características. Nos processos mais segmentados de trabalhos anteriores, os recursos não estão tão amplamente disponíveis, porque cada etapa é relativamente hermética e o fluxo de trabalho apenas semi-automatizado.

Além disso, os pesquisadores desenvolveram um transformador focal temporal para o estágio de alucinação de conteúdo, que considera não apenas os vizinhos diretos dos pixels no quadro atual (ou seja, o que está acontecendo naquela parte do quadro na imagem anterior ou seguinte), mas também os vizinhos distantes que estão a muitos quadros de distância e ainda influenciará o efeito coesivo de quaisquer operações executadas no vídeo como um todo.

Arquitetura do E2FGVI.

A nova seção central baseada em recursos do fluxo de trabalho é capaz de tirar proveito de mais processos de nível de recursos e compensações de amostragem apreensíveis, enquanto o novo transformador focal do projeto, de acordo com os autores, estende o tamanho das janelas focais 'de 2D para 3D' .

Testes e dados

Para testar E²FGVI, os pesquisadores avaliaram o sistema em relação a dois conjuntos de dados populares de segmentação de objetos de vídeo: YouTube-VOS e DAVIS. O YouTube-VOS apresenta 3741 videoclipes de treinamento, 474 videoclipes de validação e 508 videoclipes de teste, enquanto o DAVIS apresenta 60 videoclipes de treinamento e 90 videoclipes de teste.

E²O FGVI foi treinado no YouTube-VOS e avaliado em ambos os conjuntos de dados. Durante o treinamento, máscaras de objetos (as áreas verdes nas imagens acima e o vídeo incorporado abaixo) foram geradas para simular a conclusão do vídeo.

Para as métricas, os pesquisadores adotaram a relação sinal-ruído de pico (PSNR), similaridade estrutural (SSIM), distância de início de Fréchet baseada em vídeo (VFID) e erro de distorção de fluxo - o último para medir a estabilidade temporal no vídeo afetado.

As arquiteturas anteriores contra as quais o sistema foi testado foram VINet, DFVI, LGTSM, PAC, FGVC, STTN e FusívelFormador.

Da seção de resultados quantitativos do artigo. As setas para cima e para baixo indicam que números maiores ou menores são melhores, respectivamente. E2FGVI alcança as melhores pontuações em todos os aspectos. Os métodos são avaliados de acordo com o FuseFormer, porém DFVI, VINet e FGVC não são sistemas fim-a-fim, impossibilitando a estimativa de seus FLOPs.

Além de obter as melhores pontuações em relação a todos os sistemas concorrentes, os pesquisadores realizaram um estudo qualitativo do usuário, no qual vídeos transformados com cinco métodos representativos foram exibidos individualmente a vinte voluntários, que foram solicitados a avaliá-los em termos de qualidade visual.

O eixo vertical representa a porcentagem de participantes que preferiram a saída E2FGVI em termos de qualidade visual.

O eixo vertical representa a porcentagem de participantes que preferiram o E²Saída FGVI em termos de qualidade visual.

Os autores observam que, apesar da preferência unânime por seu método, um dos resultados, FGVC, não reflete os resultados quantitativos e sugerem que isso indica que E²O FGVI pode, intencionalmente, estar gerando 'resultados visualmente mais agradáveis'.

Em termos de eficiência, os autores observam que seu sistema reduz bastante as operações de ponto flutuante por segundo (FLOPs) e o tempo de inferência em uma única GPU Titan no conjunto de dados DAVIS e observam que os resultados mostram E²FGVI rodando x15 mais rápido do que métodos baseados em fluxo.

Eles comentam:

'[E²FGVI] mantém os FLOPs mais baixos em contraste com todos os outros métodos. Isso indica que o método proposto é altamente eficiente para pintura interna de vídeo.'

http://www.youtube.com/watch?v=N–qC3T2wc4

*Minha conversão de citações inline dos autores em hiperlinks.

Publicado pela primeira vez em 19 de maio de 2022.

Tópicos relacionados:síntese de imagem pesquisa transformador vídeo

A seguir

Detecção de avaliações on-line maliciosas "profissionais" com aprendizado de máquina

Não Perca

Tecnologia de hardware AI imita mudanças na topologia da rede neural

Martin Anderson

Escritor sobre aprendizado de máquina, inteligência artificial e big data.
Site pessoal: martinanderson.ai
Contato: [email protegido]
Twitter: @manders_ai

Unir-se.AI

Removendo objetos do vídeo com mais eficiência com aprendizado de máquina

Inteligência artificial