Connect with us

O Desafio de Legendagem de Vídeo a Mais de 1fps

Ângulo de Anderson

O Desafio de Legendagem de Vídeo a Mais de 1fps

mm
Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

A capacidade dos sistemas de aprendizado de máquina de reconhecer os eventos que ocorrem dentro de um vídeo é crucial para o futuro da geração de vídeo baseada em IA – não menos porque os conjuntos de dados de vídeo exigem legendas precisas para produzir modelos que adiram a uma solicitação do usuário e que não exagerem alucinações.

Um exemplo de esquema de legendagem do projeto VidReCap da Google. Fonte: https://sites.google.com/view/vidrecap

Um exemplo de esquema de legendagem do projeto VidReCap da Google. Fonte: https://sites.google.com/view/vidrecap

Legendagem manual da escala de vídeos necessários para conjuntos de dados de treinamento eficazes é uma perspectiva inconsciente. Embora seja possível treinar sistemas de IA para legendagem automática de vídeos, ainda são necessários muitos exemplos gerados por humanos como verdade de base, para variedade e cobertura.

Mais importante, quase todos os atuais modelos de legendagem de vídeo baseados em IA operam a 1fps, o que não é uma taxa de captura densa o suficiente para discernir variações em muitos cenários: mudanças micro-expressionais súbitas para sistemas de reconhecimento de emoções; eventos rápidos em esportes de alta velocidade, como basquete; movimentos violentos; cortes rápidos em filmes dramáticos, onde sistemas como PySceneDetect podem falhar em identificá-los (ou não estão sendo usados); e muitos outros cenários onde a janela de atenção claramente precisa ser mais intensa.

Clique para reproduzir. Ação rápida, mas mudança de vida, em um dos esportes mais lentos do mundo, quando Alex Higgins conquista o campeonato mundial contra Ray Reardon em 1982. Fonte: https://www.youtube.com/watch?v=_1PuqKno_Ok

Mova-se Rápido e Quebre a Lógica

Essa baixa taxa é o padrão por várias razões logísticas. Por um lado, a legendagem de vídeo é uma atividade intensiva em recursos, seja o sistema estudando um quadro sequencial de cada vez, ou usando vários métodos para coherir semanticamente uma sequência de quadros em uma sequência de legendas interpretáveis. Em qualquer caso, a janela de contexto é inevitavelmente limitada por restrições de hardware.

Outra razão pela qual 1fps é o padrão atual é que os vídeos não estão geralmente cheios de eventos rápidos; portanto, é redundante dar 300 quadros de uma mesa de sinuca estática a mesma atenção que o split-second em que uma bola preta é encaçapada e ganha o campeonato (veja exemplo acima).

É possível usar pistas secundárias mais amplas para identificar momentos cruciais em um vídeo esportivo, como a reação sustentada da multidão a um enterrada rápido em um jogo de basquete. No entanto, essas dicas podem ocorrer por outras razões (como lesões inesperadas de jogadores), e não podem ser confiáveis. Isso é um exemplo de como um conjunto de dados de vídeo mal rotulado pode levar a um modelo de vídeo gerativo que alucina ou interpreta mal as instruções, ou seja, porque o modelo pode mostrar uma lesão de jogador quando foi solicitado para gerar um enterrada (porque a ‘pista secundária’ de agitação da multidão não era exclusiva de um tipo específico de evento).

Isso é, de muitas maneiras, um problema “orçamentário”, e de outras maneiras, um problema procedural. As estruturas até o momento operaram no princípio de que quadros-chave esparsos podem capturar efetivamente as informações essenciais, mas isso é mais eficaz no estabelecimento de gênero e outros aspectos do assunto de um vídeo, desde que as evidências, nesse caso, persistam por vários quadros.

F-16

Um novo artigo da China está oferecendo uma solução, na forma do primeiro modelo de linguagem multimodal grande (MLLM, ou simplesmente LLM) que pode analisar vídeo a 16fps em vez do padrão 1fps, enquanto evita as principais armadilhas de aumentar a taxa de análise.

Nos testes, os autores afirmam que o novo sistema, intitulado F-16, supera modelos proprietários de ponta, como GPT-4o e Gemini-1.5 pro. Embora outros modelos atuais tenham conseguido igualar ou superar os resultados do F-16 nos testes, os modelos concorrentes eram muito maiores e mais difíceis de manusear.

Embora o F-16 tenha sido treinado em alguns hardwares sérios (como examinaremos em breve), a inferência é geralmente muito menos exigente do que o treinamento. Portanto, podemos esperar que o código (prometido para uma liberação em um futuro próximo) será capaz de executar em GPUs de nível médio ou alto.

O que é necessário para a vitalidade da cena de hobby (e isso inclui a cena profissional de VFX, a maior parte do tempo) é um modelo de legendagem de vídeo desse tipo que possa operar, talvez quantizado, em sistemas de consumidor, para que toda a cena de vídeo gerativo não migre para sistemas comerciais baseados em API, ou force os consumidores a conectar estruturas locais a serviços de GPU online comerciais.

Além do Dimensionamento

Os autores observam que esse tipo de abordagem é uma alternativa prática ao dimensionamento dos conjuntos de dados. Também se pode inferir que, se você fosse jogar mais dados no problema, essa ainda é a abordagem que poderia ser preferível, porque o novo sistema distingue eventos de uma maneira mais granular.

Eles afirmam:

‘A amostragem de baixa taxa de quadros pode resultar em perda de informações visuais críticas, particularmente em vídeos com cenas que mudam rapidamente, detalhes intricados ou movimento rápido. Além disso, se os quadros-chave forem perdidos, mas o modelo for treinado em rótulos que dependem de informações de quadros-chave, ele pode ter dificuldade em alinhar suas previsões com o conteúdo esperado, potencialmente levando a alucinações e desempenho degradado…

‘… F-16 alcança o desempenho SOTA em QA de vídeo geral entre modelos de tamanho semelhante e demonstra uma vantagem clara na compreensão de vídeo de alta taxa de quadros, superando modelos comerciais como GPT-4o. Este trabalho abre novas direções para avançar na compreensão de vídeo de alta taxa de quadros em pesquisas de LLM multimodal.’

O novo artigo é intitulado Melhorando a Compreensão de Vídeo LLM com 16 Quadros Por Segundo, e vem de oito autores da Universidade de Tsinghua e ByteDance.

Método

Como os quadros consecutivos muitas vezes contêm informações redundantes, o F-16 aplica um alinhador de alta taxa de quadros para comprimir e codificar detalhes de movimento-chave, enquanto retém a semântica visual. Cada quadro é processado primeiro por um codificador de imagem pré-treinado, extrair representações de recursos antes de ser passado para um alinhador baseado em Unidades Lineares de Erro Gaussiano (GELUs).

A arquitetura do F-16 processa vídeo a 16 FPS, capturando mais quadros do que os modelos de baixa taxa de quadros tradicionais, e seu alinhador de alta taxa de quadros preserva a semântica visual, enquanto codifica eficientemente a dinâmica do movimento sem adicionar tokens visuais extras. Fonte: https://arxiv.org/pdf/2503.13956

A arquitetura do F-16 processa vídeo a 16 FPS, capturando mais quadros do que os modelos de baixa taxa de quadros tradicionais, e seu alinhador de alta taxa de quadros preserva a semântica visual, enquanto codifica eficientemente a dinâmica do movimento sem adicionar tokens visuais extras. Fonte: https://arxiv.org/pdf/2503.13956

Para lidar com o aumento da contagem de quadros de forma eficiente, o F-16 agrupa os quadros em janelas de processamento pequenas, mesclando recursos visuais usando uma MLP de três camadas, ajudando a reter apenas os detalhes de movimento mais relevantes e reduzir a duplicação desnecessária, enquanto preserva o fluxo temporal das ações. Uma camada de max-pooling espacial comprime ainda mais a contagem de tokens, mantendo os custos computacionais dentro dos limites.

Os tokens de vídeo processados são então alimentados no Qwen2-7B LLM, que gera respostas textuais com base nos recursos visuais extraídos e um prompt de usuário dado.

Ao estruturar a entrada de vídeo dessa forma, o F-16 permite, segundo os autores, um reconhecimento de eventos mais preciso em cenas dinâmicas, enquanto ainda mantém a eficiência.

A Versão Curta

O F-16 estende um LLM de imagem pré-treinado, LLaVA-OneVision, para processar vídeo, transformando seu pipeline de entrada visual. Enquanto os LLMs de imagem padrão lidam com quadros isolados, o alinhador de alta taxa de quadros do F-16 reformata vários quadros em uma forma que o modelo pode processar de forma mais eficiente; isso evita sobrecarregar o sistema com informações redundantes, enquanto preserva as dicas de movimento-chave necessárias para a compreensão de vídeo precisa.

Para garantir a compatibilidade com sua base de imagem, o F-16 reutiliza parâmetros pré-treinados, reestruturando seu alinhador em sub-matrices. Essa abordagem permite que ele integre conhecimento de modelos de quadro único, enquanto se adapta à entrada de vídeo sequencial.

O alinhador primeiro comprime as sequências de quadros em um formato otimizado para o LLM, preservando os recursos mais informativos, enquanto descarta detalhes desnecessários. A arquitetura do design permite que o sistema processe vídeo de alta taxa de quadros, mantendo os custos computacionais sob controle, o que os autores consideram como evidência de que o dimensionamento não é a única (ou a melhor) maneira de avançar na legendagem de vídeo.

Variando o Ritmo

Como o processamento de vídeo a 16 FPS melhora a compreensão do movimento, mas aumenta os requisitos computacionais, particularmente durante a inferência, o F-16 introduz um método de decodificação de taxa de quadros variável, permitindo que ele ajuste a taxa de quadros dinamicamente sem retreinar.

Os alinhadores de quadro único e de alta taxa de quadros disponíveis para o F-16.

Os alinhadores de quadro único e de alta taxa de quadros disponíveis para o F-16.

Essa flexibilidade permite que o modelo opere de forma eficiente em taxas de quadros mais baixas, quando a precisão alta não é necessária, e reduz a sobrecarga computacional.

No tempo de teste, quando uma taxa de quadros mais baixa é selecionada, o F-16 reutiliza parâmetros de alinhamento pré-treinados, repetindo os quadros de entrada para corresponder às dimensões esperadas. Isso garante que o modelo ainda possa processar vídeo de forma eficaz, sem modificar sua arquitetura.

Ao contrário da amostragem ingênua (ou seja, simplesmente removendo quadros), que arrisca perder detalhes de movimento críticos, essa abordagem preserva as representações de movimento aprendidas pelo alinhador, mantendo a precisão, mesmo em taxas de quadros reduzidas. Para a compreensão geral de vídeo, uma configuração de FPS mais baixa pode acelerar a inferência sem perda de desempenho significativa, enquanto a análise de movimento de alta velocidade ainda pode aproveitar a capacidade total de 16 FPS.

Dados e Testes

Construído sobre o Qwen2-7B, o FP-16 estende o LLaVA-OneVision usando SigLIP como codificador de imagem. Com os quadros de vídeo amostrados a 16 FPS, até 1.760 quadros podem ser obtidos de cada vídeo. Para vídeos mais longos, os quadros foram amostrados uniformemente (ou seja, de forma mais esparsa).

Para o treinamento, o F-16 usou os mesmos conjuntos de dados de vídeo gerais que o LLaVA-Video, incluindo LLaVA-Video-178K, NExT-QA, ActivityNet-QA e PerceptionTest.

O F-16 também foi ajustado finamente nos conjuntos de dados esportivos de alta velocidade FineGym, Diving48 e SoccerNet. Os autores também curaram uma coleção de 276 jogos da NBA jogados entre 13 e 25 de novembro de 2024, focando em saber se um arremesso foi bem-sucedido (uma tarefa que exige processamento de alta taxa de quadros).

O modelo foi avaliado usando o conjunto de testes NSVA, com o desempenho medido pela pontuação F1.

Os modelos de ginástica e natação foram avaliados com base na precisão de reconhecimento de eventos, enquanto os modelos de futebol e basquete acompanharam passes e resultados de arremessos.

O modelo foi treinado por 1 época usando 128 NVIDIA H100 GPUs (e com 80GB de VRAM por GPU, isso envolveu o uso de 10,24 terabytes de memória de GPU; mesmo pelos padrões atuais, isso é o cluster de GPU mais potente que eu pessoalmente encontrei ao manter-me atualizado com a literatura de pesquisa de visão computacional). Uma taxa de aprendizado de 2×10⁻⁵ foi usada durante o treinamento.

Além disso, um LoRA foi ajustado finamente nos dados esportivos usados LoRA adapters com 64 GPUs por 5 épocas. Aqui, apenas o LLM foi treinado, deixando o codificador de imagem congelado.

Os frameworks oponentes testados na primeira rodada para ‘compreensão de vídeo geral’ foram GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; e NVILA-7B;

Os modelos foram avaliados em Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; e LongVideoBench.

Comparação dos resultados de QA de vídeo entre os modelos, mostrando limites de FPS e desempenho em vários benchmarks. O F-16 alcança o SOTA entre os modelos de 7B no Video-MME, NQA, TPB e MB, rivalizando modelos proprietários como GPT-4o e Gemini-1.5-Pro.

Comparação dos resultados de QA de vídeo entre os modelos, mostrando limites de FPS e desempenho em vários benchmarks. O F-16 alcança o SOTA entre os modelos de 7B no Video-MME, NQA, TPB e MB, rivalizando modelos proprietários como GPT-4o e Gemini-1.5-Pro.

Desses resultados, os autores afirmam:

‘No conjunto de dados Video-MME Short, Medium e NeXT-QA—cada um projetado para a compreensão de vídeo curto—nosso modelo supera o modelo SOTA anterior de 7B em 3,2%, 1,0% e 0,9% de precisão, destacando seu forte desempenho em vídeos curtos.

‘Para benchmarks que avaliam a compreensão de vídeo longo, como Video-MME Long, LongVideoBench e MLVU, o desafio é maior devido à amostragem de quadros mais esparsa, causando quadros dentro da janela de processamento para exibir variações mais significativas.

‘Isso aumenta a dificuldade para o alinhador de modalidade para codificar efetivamente as mudanças temporais dentro da representação de token limitada. Como resultado, o F-16 experimenta uma ligeira perda de desempenho em comparação com [LLaVA-Video-7B], que é treinado no mesmo conjunto de dados de vídeo.’

O processamento de alta taxa de quadros do F-16 também resultou em uma melhoria de 13,5% no TemporalBench e um ganho de 2,5% no MotionBench, em comparação com os modelos existentes de 7B, e desempenhou em um nível semelhante ao dos modelos comerciais, como GPT-4o e Gemini-1.5-Pro.

Compreensão de Vídeo Esportivo de Alta Velocidade

O F-16 foi testado nos conjuntos de dados FineGym, Diving48, SoccerNet e NBA para avaliar sua capacidade de entender ações esportivas de alta velocidade.

Usando os 10.000 cliques da NBA anotados manualmente, o treinamento se concentrou no movimento da bola e ações de jogadores, e se os modelos poderiam determinar corretamente se um arremesso foi bem-sucedido, usando o conjunto de testes NSVA avaliado com a pontuação F1.

Resultados da análise de vídeo esportivo de alta velocidade. O F-16 com o alinhador de alta taxa de quadros performou melhor do que seu homólogo de baixa taxa de quadros em todas as tarefas esportivas. O GPT-4o e o Gemini-1.5-Pro também foram avaliados no NBA e SoccerNet QA, onde o conhecimento de treinamento em domínio não era necessário.

Resultados da análise de vídeo esportivo de alta velocidade. O F-16 com o alinhador de alta taxa de quadros performou melhor do que seu homólogo de baixa taxa de quadros em todas as tarefas esportivas. O GPT-4o e o Gemini-1.5-Pro também foram avaliados no NBA e SoccerNet QA, onde o conhecimento de treinamento em domínio não era necessário.

No FineGym, que mede o reconhecimento de ações de ginástica, o F-16 performou 13,8% melhor do que o modelo SOTA anterior de 7B, demonstrando uma compreensão de movimento mais granular.

O Diving48 exigia a identificação de sequências de movimento complexas, como decolagem, somersault, twist e flight fases, e o F-16 mostrou maior precisão no reconhecimento dessas transições.

Para o SoccerNet, o modelo analisou cliques de 10 segundos, identificando passes de bola, e os resultados mostraram uma melhoria em relação aos modelos existentes de 7B, indicando que a taxa de quadros mais alta contribui para o rastreamento de movimentos rápidos e pequenos.

No conjunto de dados da NBA, a capacidade do F-16 de determinar os resultados dos arremessos se aproximou da precisão dos modelos proprietários maiores, como GPT-4o e Gemini-1.5-Pro, sugerindo ainda que a taxa de quadros mais alta melhora sua capacidade de processar movimento dinâmico.

Taxas de Quadros Variáveis

O F-16 foi testado em diferentes taxas de quadros para medir sua adaptabilidade. Em vez de retreinar, ele lidou com taxas de quadros mais baixas repetindo os quadros para corresponder à estrutura de entrada do alinhador. Essa abordagem reteve mais desempenho do que a simples remoção de quadros (que pode causar perda de precisão).

Os resultados indicam que, embora a redução da taxa de quadros tenha algum impacto no reconhecimento de movimento, o F-16 ainda superou os modelos de baixa taxa de quadros e manteve resultados fortes, mesmo abaixo de 16 FPS.

À esquerda, o tempo de consumo dos diferentes módulos do F-16 durante a inferência, medido em 300 vídeos do conjunto de dados Video-MME Long em diferentes taxas de quadros de teste e comprimentos de sequência. À direita, uma comparação entre o desempenho do Video-MME para modelos treinados e testados em diferentes taxas de quadros. A linha sólida representa os modelos treinados e testados na mesma taxa de quadros, enquanto a linha tracejada mostra o desempenho quando um modelo treinado a 16 FPS é testado em uma taxa de quadros mais baixa.

À esquerda, o tempo de consumo dos diferentes módulos do F-16 durante a inferência, medido em 300 vídeos do conjunto de dados Video-MME Long em diferentes taxas de quadros de teste e comprimentos de sequência. À direita, uma comparação entre o desempenho do Video-MME para modelos treinados e testados em diferentes taxas de quadros. A linha sólida representa os modelos treinados e testados na mesma taxa de quadros, enquanto a linha tracejada mostra o desempenho quando um modelo treinado a 16 FPS é testado em uma taxa de quadros mais baixa.

O processamento de alta taxa de quadros do F-16 aumentou os requisitos computacionais, embora seu alinhador tenha ajudado a gerenciar esses custos, comprimindo tokens visuais redundantes.

O modelo exigiu mais FLOPs por vídeo do que os modelos de baixa taxa de quadros, mas também alcançou melhor precisão por token, sugerindo que suas estratégias de seleção de quadros e compressão de tokens ajudaram a compensar o aumento da computação.

Conclusão

É difícil superestimar a importância ou os desafios dessa particular linha de pesquisa – especialmente este ano, que deve ser o ano de quebra para o vídeo gerativo, jogando as deficiências da curação de conjunto de dados de vídeo e da qualidade da legendagem em relevo agudo.

Também deve ser enfatizado que os desafios envolvidos em obter descrições precisas de detalhes internos de vídeo não podem ser resolvidos exclusivamente jogando VRAM, tempo ou espaço em disco no problema. O método pelo qual os eventos são isolados/extraídos de tratos de vídeootherwise longos e tediosos (como clips de golfe ou sinuca, por exemplo) se beneficiará de uma reavaliação das abordagens semânticas e mecanismos atuais que dominam as soluções SOTA – porque algumas dessas limitações foram estabelecidas em tempos mais pobres em recursos.

(incidentalmente, mesmo que 16fps pareça uma taxa de quadros muito baixa para 2025, é interessante notar que essa também é a velocidade de treinamento nativa de clips de vídeo usados no modelo de vídeo gerativo muito popular Wan 2.1, e a velocidade com que ele, portanto, opera com menos problemas. Esperamos que a cena de pesquisa mantenha um olho nos possíveis ‘entropias de padrão’ aqui; às vezes, restrições obsoletas podem perpetuar padrões futuros)

 

Publicado pela primeira vez na quarta-feira, 19 de março de 2025

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.