Ângulo de Anderson
O caminho para uma melhor edição de vídeo baseada em IA

O setor de pesquisa de síntese de vídeo/imagem produz regularmente arquiteturas de edição de vídeo* e, nos últimos nove meses, saídas dessa natureza se tornaram ainda mais frequentes. Dito isso, a maioria delas representa apenas avanços incrementais no estado da arte, já que os principais desafios são substanciais.
No entanto, uma nova colaboração entre a China e o Japão nesta semana produziu alguns exemplos que merecem um exame mais detalhado da abordagem, mesmo que não seja necessariamente um trabalho marcante.
No videoclipe abaixo (do site do projeto associado ao artigo, que – esteja avisado – pode sobrecarregar seu navegador) vemos que, embora os recursos de deepfaking do sistema sejam inexistentes na configuração atual, o sistema faz um bom trabalho ao alterar de forma plausível e significativa a identidade da jovem na foto, com base em uma máscara de vídeo (canto inferior esquerdo):
Clique para jogar. Com base na máscara de segmentação semântica visualizada no canto inferior esquerdo, a mulher original (canto superior esquerdo) é transformada em uma identidade notavelmente diferente, mesmo que esse processo não alcance a troca de identidade indicada no prompt. Fonte: https://yxbian23.github.io/project/video-painter/ (Observe que, no momento da escrita, este site de reprodução automática e repleto de vídeos estava propenso a travar meu navegador). Consulte os vídeos de origem, se puder acessá-los, para melhor resolução e detalhes, ou confira os exemplos no vídeo de visão geral do projeto em https://www.youtube.com/watch?v=HYzNfsD3A0s
A edição baseada em máscaras deste tipo está bem estabelecida em estática modelos de difusão latente, usando ferramentas como ControlNet. No entanto, manter a consistência do plano de fundo no vídeo é muito mais desafiador, mesmo quando áreas mascaradas fornecem ao modelo flexibilidade criativa, conforme mostrado abaixo:
Clique para jogar. Uma mudança de espécie, com o novo método VideoPainter. Consulte os vídeos de origem, se puder acessá-los, para melhor resolução e detalhes, ou confira os exemplos no vídeo de visão geral do projeto em https://www.youtube.com/watch?v=HYzNfsD3A0s
Os autores do novo trabalho consideram seu método em relação tanto ao próprio Tencent BrushNet arquitetura (que nós cobrimos ano passado) e ao ControlNet, ambos tratando de uma arquitetura de ramificação dupla capaz de isolar a geração de primeiro e segundo plano.
No entanto, a aplicação deste método diretamente à abordagem muito produtiva dos Transformadores de Difusão (DiT) proposto por Sora da OpenAI, traz desafios particulares, como observam os autores”
'[Aplicar] [diretamente] [a arquitetura do BrushNet e ControlNet] aos DiTs de vídeo apresenta vários desafios: [Primeiramente, dada] a sólida base generativa e o tamanho pesado do modelo do DiT de vídeo, replicar o backbone completo/meio gigante do DiT de vídeo como codificador de contexto seria desnecessário e computacionalmente proibitivo.
'[Em segundo lugar, diferentemente] do ramo de controle convolucional puro do BrushNet, os tokens do DiT em regiões mascaradas contêm inerentemente informações de fundo devido à atenção global, complicando a distinção entre regiões mascaradas e não mascaradas nos backbones do DiT.
'[Finalmente,] o ControlNet não possui injeção de recursos em todas as camadas, dificultando o controle denso do fundo para tarefas de pintura.'
Portanto, os pesquisadores desenvolveram uma abordagem plug-and-play na forma de uma estrutura de ramificação dupla intitulada Pintor de vídeo.
O VideoPainter oferece uma estrutura de pintura de vídeo de ramificação dupla que aprimora DiTs pré-treinados com um codificador de contexto leve. Esse codificador representa apenas 6% dos parâmetros do backbone, o que, segundo os autores, torna a abordagem mais eficiente do que os métodos convencionais.
O modelo propõe três inovações principais: um codificador de contexto de duas camadas simplificado para orientação de fundo eficiente; um sistema de integração de recursos seletivos de máscara que separa tokens mascarados e não mascarados; e uma técnica de reamostragem de ID de região de pintura interna que mantém a consistência de identidade em longas sequências de vídeo.
By congelação tanto o DiT pré-treinado quanto o codificador de contexto, ao mesmo tempo em que introduz um adaptador de ID, o VideoPainter garante que os tokens de região de pintura interna de clipes anteriores persistam ao longo do vídeo, reduzindo oscilações e inconsistências.
A estrutura também foi projetada para compatibilidade plug-and-play, permitindo que os usuários a integrem perfeitamente aos fluxos de trabalho de geração e edição de vídeo existentes.
Para dar suporte ao trabalho, que utiliza CogVídeo-5B-I2V como seu motor generativo, os autores selecionaram o que eles afirmam ser o maior conjunto de dados de pintura em vídeo até o momento. Intitulado Dados VP, a coleção consiste em mais de 390,000 clipes, para uma duração total de vídeo de mais de 886 horas. Eles também desenvolveram uma estrutura de benchmarking relacionada intitulada Banco de VP.
Clique para jogar. Nos exemplos do site do projeto, vemos os recursos de segmentação fornecidos pela coleção VPData e pelo conjunto de testes VPBench. Consulte os vídeos de origem, se possível, para obter melhor resolução e detalhes, ou confira os exemplos no vídeo de visão geral do projeto em https://www.youtube.com/watch?v=HYzNfsD3A0s
A novo trabalho é intitulado VideoPainter: Pintura e edição de vídeos de qualquer duração com controle de contexto plug-and-play, e vem de sete autores do Tencent ARC Lab, da Universidade Chinesa de Hong Kong, da Universidade de Tóquio e da Universidade de Macau.
Além do site do projeto acima mencionado, os autores também lançaram um site mais acessível Visão geral do YouTube, assim como Abraçando a página do Face.
Forma
O pipeline de coleta de dados para VPData consiste em coleta, anotação, divisão, seleção e legendagem:

Esquema para o pipeline de construção do conjunto de dados. Fonte: https://arxiv.org/pdf/2503.05639
As coleções de fontes usadas para esta compilação vieram de Videvo e Pexels, com uma coleta inicial de cerca de 450,000 vídeos obtidos.
Várias bibliotecas e métodos contribuintes compuseram o estágio de pré-processamento: o Reconhecer qualquer coisa a estrutura foi usada para fornecer marcação de vídeo de conjunto aberto, encarregada de identificar objetos primários; Aterramento Dino foi usado para a detecção de caixas delimitadoras ao redor dos objetos identificados; e o Segmentar qualquer coisa Modelo 2 A estrutura (SAM 2) foi usada para refinar essas seleções grosseiras em segmentações de máscara de alta qualidade.
Para gerenciar transições de cena e garantir consistência na pintura de vídeo, o VideoPainter usa PySceneDetectName para identificar e segmentar clipes em pontos de interrupção naturais, evitando as mudanças disruptivas frequentemente causadas pelo rastreamento do mesmo objeto de vários ângulos. Os clipes foram divididos em intervalos de 10 segundos, com qualquer coisa menor que seis segundos descartada.
Para a seleção dos dados foram aplicados três critérios de filtragem: qualidade estética, avaliado com o Preditor de pontuação estética Laion; força de movimento, medido através de Fluxo optico utilização JANGADA; e segurança de conteúdo, verificado através da Stable Diffusion Verificador de segurança.
Uma grande limitação nos conjuntos de dados de segmentação de vídeo existentes é a falta de anotações textuais detalhadas, que são cruciais para orientar modelos generativos:

Os pesquisadores enfatizam a falta de legendas de vídeo em coleções comparáveis.
Portanto, o processo de curadoria de dados do VideoPainter incorpora diversos modelos de visão e linguagem líderes, incluindo CogVLM2 e Bate-papo GPT-4o para gerar legendas baseadas em quadros-chave e descrições detalhadas de regiões mascaradas.
O VideoPainter aprimora DiTs pré-treinados introduzindo um codificador de contexto leve e personalizado que separa a extração de contexto de fundo da geração de primeiro plano, visto no canto superior direito do esquema ilustrativo abaixo:

Esquema conceitual para o VideoPainter. O codificador de contexto do VideoPainter processa latentes com ruído, máscaras subamostradas e latentes de vídeo mascarados via VAE, integrando apenas tokens de fundo ao DiT pré-treinado para evitar ambiguidade. O Adaptador de Reamostragem de ID garante a consistência da identidade concatenando tokens de região mascarados durante o treinamento e reamostrando-os de clipes anteriores durante a inferência.
Em vez de sobrecarregar o backbone com processamento redundante, este codificador opera em uma entrada simplificada: uma combinação de latente ruidoso, latente de vídeo mascarado (extraído por meio de um codificador automático variacional, ou VAE) e máscaras de subamostragem.
O latente ruidoso fornece contexto de geração, e o latente de vídeo mascarado se alinha com a distribuição existente do DiT, visando melhorar a compatibilidade.
Em vez de duplicar grandes seções do modelo, o que os autores afirmam ter ocorrido em trabalhos anteriores, o VideoPainter integra apenas as duas primeiras camadas do DiT. Esses recursos extraídos são reintroduzidos no DiT congelado de forma estruturada e agrupada – os recursos da camada inicial informam a metade inicial do modelo, enquanto os recursos posteriores refinam a segunda metade.
Além disso, um mecanismo seletivo de token garante que apenas recursos relevantes para o plano de fundo sejam reintegrados, evitando confusão entre regiões mascaradas e não mascaradas. Essa abordagem, afirmam os autores, permite que o VideoPainter mantenha alta fidelidade na preservação do plano de fundo, ao mesmo tempo em que melhora a eficiência da pintura interna do primeiro plano.
Os autores observam que o método que propõem suporta diversos métodos de estilização, incluindo os mais populares, Adaptação de classificação baixa (LoRA).
Dados e testes
O VideoPainter foi treinado usando o modelo CogVideo-5B-I2V, junto com seu equivalente de texto para vídeo. O corpus VPData curado foi usado em 480x720px, em um taxa de Aprendizagem de 1 × 10-5.
O ID Resample Adapter foi treinado para 2,000 etapas e o codificador de contexto para 80,000 etapas, ambos usando o Adam W otimizador. O treinamento ocorreu em dois estágios usando formidáveis 64 GPUs NVIDIA V100 (embora o artigo não especifique se elas tinham 16 GB ou 32 GB de VRAM).
Para avaliação comparativa, Davis foi usado para máscaras aleatórias, e o próprio VPBench dos autores para máscaras baseadas em segmentação.
O conjunto de dados VPBench apresenta objetos, animais, humanos, paisagens e tarefas diversas e abrange quatro ações: adicionar, remover, alterar e trocar. A coleção apresenta 45 vídeos de 6 segundos e nove vídeos com duração média de 30 segundos.
Oito métricas foram utilizadas para o processo. Para a preservação da região mascarada, os autores usaram Relação sinal-ruído de pico (PSNR); Métricas de similaridade perceptual aprendidas (LPIPS); Índice de similaridade estrutural (SSIM); e Erro absoluto médio (MAE).
Para o alinhamento do texto, os pesquisadores usaram Semelhança do CLIP tanto para avaliar a distância semântica entre a legenda do clipe e seu conteúdo real percebido, quanto para avaliar a precisão das regiões mascaradas.
Para avaliar a qualidade geral dos vídeos de saída, Distância do vídeo Fréchet (FVD) foi usado.
Para uma rodada de comparação quantitativa para pintura de vídeo, os autores definiram seu sistema em relação a abordagens anteriores ProPainter, CÓCOCO e Cog-Inp (CogVideoX). O teste consistiu em pintar o primeiro quadro de um clipe usando modelos de pintura de imagem e, em seguida, usar um backbone de imagem para vídeo (I2V) para propagar os resultados em uma operação de mesclagem latente, de acordo com um método proposto por um papel 2023 De israel.
Como o site do projeto não está totalmente funcional no momento da redação deste texto e o vídeo do YouTube associado ao projeto pode não apresentar todos os exemplos disponíveis no site do projeto, é bastante difícil encontrar exemplos em vídeo que sejam muito específicos para os resultados descritos no artigo. Portanto, mostraremos resultados estáticos parciais apresentados no artigo e encerraremos o artigo com alguns exemplos em vídeo adicionais que conseguimos extrair do site do projeto.

Comparação quantitativa de VideoPainter vs. ProPainter, COCOCO e Cog-Inp no VPBench (máscaras de segmentação) e Davis (máscaras aleatórias). As métricas cobrem preservação de região mascarada, alinhamento de texto e qualidade de vídeo. Vermelho = melhor, Azul = segundo melhor.
Destes resultados qualitativos, os autores comentam:
'No VPBench baseado em segmentação, ProPainter e COCOCO apresentam o pior desempenho na maioria das métricas, principalmente devido à incapacidade de pintar objetos totalmente mascarados e à dificuldade da arquitetura de backbone único em equilibrar a preservação de fundo e a geração de primeiro plano concorrentes, respectivamente.
No benchmark de máscara aleatória Davis, o ProPainter demonstra melhorias ao aproveitar informações parciais de fundo. No entanto, o VideoPainter atinge desempenho ideal em segmentação (comprimento padrão e longo) e máscaras aleatórias por meio de sua arquitetura de ramificação dupla, que desacopla efetivamente a preservação de fundo e a geração de primeiro plano.
Os autores então apresentam exemplos estáticos de testes qualitativos, dos quais apresentamos uma seleção abaixo. Em todos os casos, encaminhamos o leitor ao site do projeto e ao vídeo do YouTube para melhor resolução.

Uma comparação com métodos de pintura interna em estruturas anteriores.
Clique para jogar. Exemplos concatenados por nós dos vídeos de "resultados" no site do projeto.
Em relação a esta rodada qualitativa para pintura em vídeo, os autores comentam:
'O VideoPainter mostra consistentemente resultados excepcionais na coerência, qualidade e alinhamento do vídeo com a legenda do texto. Notavelmente, o ProPainter falha em gerar objetos totalmente mascarados porque depende apenas da propagação de pixels de fundo em vez de gerar.
'Embora o COCOCO demonstre funcionalidade básica, ele falha em manter uma identificação consistente em regiões pintadas (aparências inconsistentes de embarcações e mudanças bruscas de terreno) devido à sua arquitetura de estrutura única que tenta equilibrar a preservação do fundo e a geração do primeiro plano.
O Cog-Inp obtém resultados básicos de pintura interna; no entanto, a incapacidade de sua operação de mesclagem de detectar limites de máscara leva a artefatos significativos.
'Além disso, o VideoPainter pode gerar vídeos coerentes com mais de um minuto, mantendo a consistência de ID por meio de nossa reamostragem de ID.'
Os pesquisadores também testaram a capacidade do VideoPainter de aumentar as legendas e obter resultados aprimorados por esse método, colocando o sistema contra UniEdit, DiTCtrl e ReVídeo.

Resultados da edição de vídeo em comparação com três abordagens anteriores.
Os autores comentam:
"Tanto para vídeos padrão quanto longos no VPBench, o VideoPainter alcança desempenho superior, superando até mesmo o ReVideo de ponta a ponta. Esse sucesso pode ser atribuído à sua arquitetura de ramificação dupla, que garante excelentes recursos de preservação de fundo e geração de primeiro plano, mantendo alta fidelidade em regiões não editadas e garantindo que as regiões editadas se alinhem perfeitamente às instruções de edição, complementadas pela reamostragem de ID de região de pintura interna que mantém a consistência de ID em vídeos longos."
Embora o artigo apresente exemplos qualitativos estáticos para essa métrica, eles não são esclarecedores, e remetemos o leitor aos diversos exemplos espalhados nos vários vídeos publicados para este projeto.
Por fim, um estudo humano foi conduzido, onde trinta usuários foram solicitados a avaliar 50 gerações selecionadas aleatoriamente do VPBench e subconjuntos de edição. Os exemplos destacaram preservação de fundo, alinhamento ao prompt e qualidade geral do vídeo.

Resultados do estudo de usuário para VideoPainter.
Os autores declaram:
'O VideoPainter superou significativamente as linhas de base existentes, alcançando taxas de preferência mais altas em todos os critérios de avaliação em ambas as tarefas.'
Eles admitem, no entanto, que a qualidade das gerações do VideoPainter depende do modelo base, que pode ter dificuldades com movimentos e física complexos; e observam que ele também tem um desempenho ruim com máscaras de baixa qualidade ou legendas desalinhadas.
Conclusão
O VideoPainter parece ser uma adição valiosa à literatura. Típico de soluções recentes, no entanto, ele tem demandas de computação consideráveis. Além disso, muitos dos exemplos escolhidos para apresentação no site do projeto ficam muito aquém dos melhores exemplos; portanto, seria interessante ver esta estrutura comparada a entradas futuras e a uma gama mais ampla de abordagens anteriores.
* Vale ressaltar que 'edição de vídeo' neste sentido não significa 'montar diversos clipes em uma sequência', que é o significado tradicional deste termo; mas sim alterar diretamente ou modificar de alguma forma o conteúdo interno de clipes de vídeo existentes, usando técnicas de aprendizado de máquina.
Primeira publicação segunda-feira, 10 de março de 2025