Ângulo de Anderson

Microsoft Propõe GODIVA, um Quadro de Aprendizado de Máquina de Texto para Vídeo

Publicado em 4 de maio de 2021

Atualizado em 25 de maio de 2026

Por

Martin Anderson

Uma colaboração entre a Microsoft Research Asia e a Universidade Duke produziu um sistema de aprendizado de máquina capaz de gerar vídeo apenas a partir de um prompt de texto, sem o uso de Redes Adversárias Generativas (GANs).

O projeto é intitulado GODIVA (Gerando Vídeos de Domínio Aberto a Partir de Descrições Naturais), e se baseia em algumas das abordagens utilizadas pelo sistema de síntese de imagens DALL-E da OpenAI, revelado no início deste ano.

Resultados iniciais do GODIVA, com quadros de vídeos criados a partir de dois prompts. Os dois primeiros exemplos foram gerados a partir do prompt ‘Jogar golfe na grama’, e o terceiro a partir do prompt ‘Um jogo de beisebol é jogado’. Fonte: https://arxiv.org/pdf/2104.14806.pdf

O GODIVA utiliza o modelo Vector Quantised-Variational AutoEncoder (VQ-VAE) introduzido por pesquisadores do projeto DeepMind do Google em 2018, e também é um componente essencial nas capacidades transformacionais do DALL-E.

Arquitetura do modelo VQ-VAE, com espaço de incorporação à direita e codificador/decodificador compartilhando espaço dimensional para reduzir perdas durante a reconstrução. Fonte: https://arxiv.org/pdf/1711.00937.pdf

O VQ-VAE foi utilizado em vários projetos para gerar vídeo previsto, onde o usuário fornece um número inicial de quadros e solicita que o sistema gere quadros adicionais:

Trabalho anterior: VQ-VAE infere quadros a partir de material de origem muito limitado. Fonte: Materiais suplementares em https://openreview.net/forum?id=bBDlTR5eDIX

No entanto, os autores do novo artigo afirmam que o GODIVA representa a primeira implementação pura de texto para vídeo (T2V) que utiliza VQ-VAE, em vez dos resultados mais erráticos resultados que projetos anteriores obtiveram com GANs.

Pontos de Semente em Texto para Vídeo

Embora a submissão seja curta em detalhes sobre os critérios pelos quais os quadros de origem são criados, o GODIVA parece invocar imagens de semente a partir do nada antes de extrapolá-las em quadros de vídeo de baixa resolução.

Representação columnar do sistema de atenção esparsa tridimensional que alimenta o GODIVA para tarefas de texto para imagem. A auto-regressão é prevista por meio de quatro fatores: texto de entrada, posicionamento relativo com o quadro anterior (semelhante ao SPADE da NVIDIA e outros métodos que se baseiam ou evoluem além das abordagens de Fluxo Óptico), mesmas linhas no mesmo quadro e mesmas colunas na mesma coluna.

Na verdade, a origem vem das etiquetas nos dados utilizados: o GODIVA foi pré-treinado no conjunto de dados Howto100M, composto por 136 milhões de cliques de vídeo legendados extraídos do YouTube ao longo de 15 anos, e apresentando 23.000 atividades rotuladas. No entanto, cada atividade possível está presente em números muito altos de cliques, aumentando com a generalização (ou seja, ‘Pets e animais’ tem 3,5 milhões de cliques, enquanto ‘cães’ tem 762.000 clipes), e assim há ainda uma grande escolha de pontos de partida possíveis.

O modelo foi avaliado no conjunto de dados MSR Video para Texto (MSR-VTT) da Microsoft. Como testes adicionais da arquitetura, o GODIVA foi treinado do zero no conjunto de dados Moving Mnist e no conjunto de dados Double Moving Mnist, ambos derivados do banco de dados original MNIST, uma colaboração entre a Microsoft, o Google e o Instituto Courant de Ciências Matemáticas da NYU.

Avaliação de Quadros em Síntese de Vídeo Contínua

Em linha com o IRC-GAN da Universidade de Pequim, o GODIVA adiciona quatro verificações columnares adicionais ao método original do MNIST, que avaliava quadros anteriores e posteriores movendo-se para cima e para baixo e, em seguida, para a esquerda e para a direita. O IRC-GAN e o GODIVA também consideram quadros movendo a atenção para a esquerda e para a direita, para a direita e para a esquerda, para cima e para baixo e para baixo e para cima.

Quadros adicionais gerados pelo GODIVA.

Avaliando a Qualidade do Vídeo e a Fidelidade ao Prompt

Para entender como bem a geração de imagens foi bem-sucedida, os pesquisadores utilizaram duas métricas: uma baseada na similaridade do CLIP e uma métrica de Correspondência Relativa (RM) nova.

O quadro de trabalho CLIP da OpenAI é capaz de realizar a correspondência de imagens a texto sem treinamento, bem como facilitar a síntese de imagens invertendo esse modelo. Os pesquisadores dividiram a pontuação derivada do CLIP pela similaridade calculada entre o prompt de texto e o vídeo de verdade para chegar a uma pontuação RM. Em uma rodada de pontuação separada, a saída foi avaliada por 200 pessoas e os resultados comparados às pontuações programáticas.

Finalmente, o GODIVA foi testado contra dois quadros anteriores, TFGAN e a colaboração de 2017 entre a Duke e a NEC, T2V.

O TFGAN pode produzir 128 pixels quadrados em comparação com a saída de 64×64 que restringe o GODIVA e o T2V nos exemplos acima, mas os pesquisadores observam que o GODIVA produz movimentos mais ousados e mais comprometidos, e gerará mudanças de cena sem qualquer prompt específico, e não se esquiva de gerar close-ups.

Nas execuções posteriores, o GODIVA também gera saída de 128x128px, com mudanças na POV:

No próprio métrico RM do projeto, o GODIVA é capaz de alcançar pontuações próximas a 100% em termos de autenticidade (qualidade do vídeo) e fidelidade (quão de perto o conteúdo gerado corresponde ao prompt de entrada).

Os pesquisadores admitem, no entanto, que o desenvolvimento de métricas de CLIP baseadas em vídeo seria uma adição bem-vinda a essa área de síntese de imagens, pois forneceria um campo de jogo nivelado para avaliar a qualidade dos resultados sem recorrer ao sobre-ajuste e à falta de generalização que tem sido cada vez mais criticada em relação aos desafios de visão computacional padrão nos últimos dez anos.

Eles também observam que gerar vídeos mais longos será uma consideração logística no desenvolvimento posterior do sistema, pois apenas 10 quadros de saída de 64x64px exigem 2560 tokens visuais, um inchaço de pipeline que provavelmente se tornará caro e incontrolável rapidamente.

Martin Anderson

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.

Unite.AI

Microsoft Propõe GODIVA, um Quadro de Aprendizado de Máquina de Texto para Vídeo

Pontos de Semente em Texto para Vídeo

Avaliação de Quadros em Síntese de Vídeo Contínua

Avaliando a Qualidade do Vídeo e a Fidelidade ao Prompt

Descubra mais