Ângulo de Anderson
Ensinar AI a Dar Melhores Críticas de Vídeo

Embora os Grandes Modelos de Visão-Linguagem (LVLMs) possam ser úteis auxiliares na interpretação de algumas das submissões mais arcânicas ou desafiadoras na literatura de visão computacional, há uma área onde eles são limitados: determinar os méritos e a qualidade subjetiva de qualquer exemplo de vídeo que acompanha os novos artigos*.
Isso é um aspecto crítico de uma submissão, desde que os artigos científicos muitas vezes visam gerar entusiasmo através de textos ou visuais convincentes – ou ambos.
Mas no caso de projetos que envolvem síntese de vídeo, os autores devem mostrar a saída de vídeo real ou arriscar ter seu trabalho rejeitado; e é nesses demonstrações que a lacuna entre as afirmações ousadas e o desempenho no mundo real mais frequentemente se torna aparente.
Eu Li o Livro, Não Vi o Filme
Atualmente, a maioria dos modelos de linguagem grande baseados em API (LLMs) e Grandes Modelos de Visão-Linguagem (LVLMs) não se envolverá na análise direta do conteúdo de vídeo de nenhuma forma, qualitativa ou de outra forma. Em vez disso, eles só podem analisar transcrições relacionadas – e, talvez, threads de comentários e outros materiais auxiliares estritamente textuais.

As diversas objeções do GPT-4o, Google Gemini e Perplexity, quando solicitados a analisar diretamente o vídeo, sem recurso a transcrições ou outras fontes textuais.
No entanto, um LLM pode ocultar ou negar sua incapacidade de realmente assistir a vídeos, a menos que você os chame a atenção para isso:

Tendo sido solicitado a fornecer uma avaliação subjetiva dos vídeos associados a um novo artigo de pesquisa, e tendo fingido uma opinião real, o ChatGPT-4o eventualmente confessa que não pode realmente visualizar o vídeo diretamente.
Embora modelos como o ChatGPT-4o sejam multimodais e possam analisar fotos individuais (como um quadro extraído de um vídeo, veja a imagem acima), há alguns problemas mesmo com isso: primeiro, há pouca base para dar credibilidade à opinião qualitativa de um LLM, não menos porque os LLMs são propensos a “agradar as pessoas” em vez de discurso sincero.
Em segundo lugar, muitos, se não a maioria dos problemas de um vídeo gerado provavelmente terão um aspecto temporal que é completamente perdido em uma captura de tela – e assim a análise de quadros individuais não serve a nenhum propósito.
Finalmente, o LLM só pode dar um julgamento de valor suposto com base (mais uma vez) no conhecimento textual absorvido, por exemplo, em relação a imagens de deepfake ou história da arte. Nesse caso, o conhecimento de domínio treinado permite que o LLM correlacione as qualidades visuais de uma imagem com embeddings aprendidos com base em insights humanos:

O projeto FakeVLM oferece detecção de deepfake direcionada por meio de um modelo de visão-linguagem multimodal especializado. Fonte: https://arxiv.org/pdf/2503.14905
Isso não significa que um LLM não possa obter informações diretamente de um vídeo; por exemplo, com o uso de sistemas de IA auxiliares, como YOLO, um LLM poderia identificar objetos em um vídeo – ou poderia fazer isso diretamente, se treinado para um número acima da média de funcionalidades multimodais.
Mas a única maneira pela qual um LLM poderia possivelmente avaliar um vídeo subjetivamente (ou seja, ‘Isso não parece real para mim’) é aplicando uma métrica baseada em função de perda que seja conhecida por refletir a opinião humana bem, ou que seja diretamente informada pela opinião humana.
As funções de perda são ferramentas matemáticas usadas durante o treinamento para medir quão longe as previsões de um modelo estão das respostas corretas. Elas fornecem feedback que orienta o aprendizado do modelo: quanto maior o erro, maior a perda. À medida que o treinamento avança, o modelo ajusta seus parâmetros para reduzir essa perda, melhorando gradualmente sua capacidade de fazer previsões precisas.
As funções de perda são usadas tanto para regular o treinamento de modelos quanto para calibrar algoritmos projetados para avaliar a saída de modelos de IA (como a avaliação de conteúdo fotorealista simulado de um modelo de vídeo gerador).
Visão Condicional
Uma das métricas/funções de perda mais populares é a Distância de Fréchet (FID), que avalia a qualidade de imagens geradas medindo a semelhança entre sua distribuição (que aqui significa ‘como as imagens são distribuídas ou agrupadas por recursos visuais’) e a de imagens reais.
Especificamente, a FID calcula a diferença estatística, usando médias e covariâncias, entre recursos extraídos de ambos os conjuntos de imagens usando a (freqüentemente criticada) rede de classificação Inception v3. Uma pontuação FID mais baixa indica que as imagens geradas são mais semelhantes às imagens reais, implicando melhor qualidade visual e diversidade.
No entanto, a FID é essencialmente comparativa e, possivelmente, auto-referencial por natureza. Para remediar isso, a abordagem Distância de Fréchet Condicional (CFD, 2021) difere da FID comparando imagens geradas com imagens reais e avaliando uma pontuação com base em quão bem ambos os conjuntos atendem a uma condição adicional, como uma etiqueta de classe (inevitavelmente subjetiva) ou imagem de entrada.
Dessa forma, a CFID leva em conta como as imagens atendem às condições pretendidas, e não apenas sua realismo ou diversidade entre si.

Exemplos do lançamento da CFD em 2021. Fonte: https://github.com/Michael-Soloveitchik/CFID/
A CFD segue uma tendência recente em direção a incorporar a interpretação humana qualitativa em funções de perda e algoritmos de métrica. Embora essa abordagem centrada no ser humano garanta que o algoritmo resultante não seja “sem alma” ou meramente mecânico, ela apresenta, ao mesmo tempo, uma série de problemas: a possibilidade de viés; a carga de atualizar o algoritmo em conformidade com novas práticas; e o fato de que isso removerá a possibilidade de padrões comparativos consistentes ao longo de um período de anos entre projetos; e limitações orçamentárias (menos contribuintes humanos tornarão as determinações mais questionáveis, enquanto um número maior poderia impedir atualizações úteis devido ao custo).
cFreD
Isso nos leva a um novo artigo dos EUA que aparentemente oferece Distância de Fréchet Condicional (cFreD), uma nova abordagem da CFD projetada para refletir melhor as preferências humanas, avaliando tanto a qualidade visual quanto a alinhamento texto-imagem

Resultados parciais do novo artigo: classificações de imagem (1–9) por diferentes métricas para o prompt “Uma sala de estar com um sofá e um laptop em cima do sofá.” Destaques em verde destacam o modelo melhor avaliado pelos humanos (FLUX.1-dev), em roxo o pior (SDv1.5). Somente o cFreD corresponde às classificações humanas. Por favor, consulte o artigo original para resultados completos, que não temos espaço para reproduzir aqui. Fonte: https://arxiv.org/pdf/2503.21721
Os autores argumentam que os métodos de avaliação existentes para síntese de texto-para-imagem, como Inception Score (IS) e FID, não se alinham bem com o julgamento humano porque medem apenas a qualidade da imagem sem considerar como as imagens correspondem aos prompts:
‘Por exemplo, considere um conjunto de dados com duas imagens: uma de um cachorro e uma de um gato, cada uma emparelhada com seu prompt correspondente. Um modelo de texto-para-imagem perfeito que troca esses emparelhamentos (ou seja, gerando um gato para o prompt do cachorro e vice-versa) alcançaria uma FID próxima de zero, desde que a distribuição geral de cachorros e gatos seja mantida, apesar do desalinhamento com os prompts pretendidos.
‘Mostramos que o cFreD captura melhor a avaliação da qualidade da imagem e o condicionamento no texto de entrada e resulta em uma melhor correlação com as preferências humanas.’

Os testes do artigo indicam que a métrica proposta pelos autores, cFreD, consistentemente alcança uma correlação mais alta com as preferências humanas do que a FID, FDDINOv2, CLIPScore e CMMD em três conjuntos de dados de referência (PartiPrompts, HPDv2 e COCO).
Conceito e Método
Os autores observam que o padrão atual para avaliar modelos de texto-para-imagem envolve coletar dados de preferência humana por meio de comparações em crowdsourcing, semelhantes aos métodos usados para grandes modelos de linguagem (como o LMSys Arena).
Por exemplo, o PartiPrompts Arena usa 1.600 prompts em inglês, apresentando aos participantes pares de imagens de diferentes modelos e solicitando que eles escolham sua imagem preferida.
Da mesma forma, o Text-to-Image Arena Leaderboard emprega comparações de usuário de saídas de modelo para gerar classificações por meio de pontuações ELO. No entanto, coletar esse tipo de dados de avaliação humana é caro e lento, levando algumas plataformas – como o PartiPrompts Arena – a interromper as atualizações por completo.

O Artificial Analysis Image Arena Leaderboard, que classifica os atuais líderes estimados em IA visual geradora. Fonte: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Embora existam métodos alternativos treinados em dados de preferência humana, sua eficácia para avaliar futuros modelos permanece incerta, pois as preferências humanas continuam evoluindo. Consequentemente, métricas automatizadas, como a FID, CLIPScore e a métrica cFreD proposta pelos autores, parecem prováveis de permanecer ferramentas de avaliação cruciais.
Os autores supõem que tanto as imagens reais quanto as geradas condicionadas a um prompt seguem distribuições gaussianas, cada uma definida por médias condicionais e covariâncias. O cFreD mede a distância de Fréchet esperada entre essas distribuições condicionais. Isso pode ser formulado diretamente em termos de estatísticas condicionais ou combinando estatísticas incondicionais com covariâncias cruzadas que envolvem o prompt.
Ao incorporar o prompt dessa forma, o cFreD pode avaliar tanto a realismo das imagens quanto sua consistência com o texto dado.
Dados e Testes
Para avaliar como bem o cFreD se correlaciona com as preferências humanas, os autores usaram classificações de imagem de vários modelos solicitados com o mesmo texto. Sua avaliação foi baseada em duas fontes: o conjunto de teste Human Preference Score v2 (HPDv2), que inclui nove imagens geradas e uma imagem de referência COCO por prompt; e o mencionado PartiPrompts Arena, que contém saídas de quatro modelos em 1.600 prompts.
Os autores coletaram os pontos de dados do Arena em um conjunto de dados único; nos casos em que a imagem real não foi classificada como a mais alta nas avaliações humanas, eles usaram a imagem mais bem classificada como referência.
Para testar modelos mais novos, eles amostraram 1.000 prompts dos conjuntos de treinamento e validação do COCO, garantindo não haver sobreposição com o HPDv2, e geraram imagens usando nove modelos do Leaderboard do Arena. As imagens originais do COCO serviram como referências nessa parte da avaliação.
A abordagem cFreD foi avaliada por meio de quatro métricas estatísticas: FID; FDDINOv2; CLIPScore; e CMMD. Ela também foi avaliada contra quatro métricas aprendidas treinadas em dados de preferência humana: Aesthetic Score; ImageReward; HPSv2; e MPS.
Os autores avaliaram a correlação com o julgamento humano tanto de uma perspectiva de classificação quanto de pontuação: para cada métrica, as pontuações do modelo foram relatadas e as classificações calculadas para seu alinhamento com os resultados da avaliação humana, com o cFreD usando DINOv2-G/14 para embeddings de imagem e o OpenCLIP ConvNext-B Text Encoder para embeddings de texto†.
Trabalhos anteriores sobre aprendizado de preferências humanas mediram o desempenho usando a precisão de classificação por item, que calcula a precisão de classificação para cada par de imagem-texto antes de calcular a média dos resultados.
Os autores avaliaram o cFreD usando uma precisão de classificação global, que avalia o desempenho de classificação geral em todo o conjunto de dados; para métricas estatísticas, eles derivaram classificações diretamente a partir de pontuações brutos; e para métricas treinadas em preferências humanas, eles primeiro calcularam a média das classificações atribuídas a cada modelo em todas as amostras e, em seguida, determinaram a classificação final a partir dessas médias.
Os testes iniciais usaram dez estruturas: GLIDE; COCO; FuseDream; DALLE 2; VQGAN+CLIP; CogView2; Stable Diffusion V1.4; VQ-Diffusion; Stable Diffusion V2.0; e LAFITE.

Classificações e pontuações do modelo no conjunto de teste HPDv2 usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas em preferências humanas (Aesthetic Score, ImageReward, HPSv2 e MPS). Os melhores resultados estão em negrito, o segundo melhor está sublinhado.
Sobre esses resultados, os autores comentam:
‘O cFreD alcança o alinhamento mais alto com as preferências humanas, atingindo uma correlação de 0,97. Entre as métricas estatísticas, o cFreD atinge a correlação mais alta e é comparável ao HPSv2 (0,94), um modelo treinado explicitamente em preferências humanas. Dado que o HPSv2 foi treinado no conjunto de treinamento HPSv2, que inclui quatro modelos do conjunto de teste, e empregou os mesmos annotadores, ele inherentemente codifica vieses de preferência humana específicos do mesmo cenário.
‘Em contraste, o cFreD alcança uma correlação comparável ou superior com a avaliação humana sem nenhum treinamento de preferência humana.
‘Esses resultados demonstram que o cFreD fornece classificações mais confiáveis em uma variedade de modelos em comparação com métricas automatizadas padrão e métricas treinadas explicitamente em dados de preferência humana.’
Entre todas as métricas avaliadas, o cFreD alcançou a precisão de classificação mais alta (91,1%), demonstrando – os autores argumentam – um alinhamento forte com os julgamentos humanos.
O HPSv2 seguiu com 88,9%, enquanto a FID e a FDDINOv2 produziram pontuações competitivas de 86,7%. Embora as métricas treinadas em preferências humanas geralmente se alinhassem bem com as avaliações humanas, o cFreD provou ser o mais robusto e confiável no geral.
Abaixo, vemos os resultados da segunda rodada de testes, desta vez no PartiPrompts Arena, usando SDXL; Kandinsky 2; Würstchen; e Karlo V1.0.

Classificações e pontuações do modelo no PartiPrompt usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas em preferências humanas (Aesthetic Score, ImageReward e MPS). Os melhores resultados estão em negrito, o segundo melhor está sublinhado.
Aqui o artigo afirma:
‘Entre as métricas estatísticas, o cFreD alcança a correlação mais alta com as avaliações humanas (0,73), com a FID e a FDDINOv2 atingindo uma correlação de 0,70. Em contraste, a pontuação CLIP mostra uma correlação muito baixa (0,12) com os julgamentos humanos.
‘Na categoria treinada em preferências humanas, o HPSv2 tem o alinhamento mais forte, alcançando a correlação mais alta (0,83), seguido pelo ImageReward (0,81) e pelo MPS (0,65). Esses resultados destacam que, embora o cFreD seja uma métrica automática robusta, o HPSv2 se destaca como o mais eficaz em capturar tendências de avaliação humana no PartiPrompts Arena.’
Finalmente, os autores conduziram uma avaliação no conjunto de dados COCO usando nove modelos de texto-para-imagem modernos: FLUX.1[dev]; Playgroundv2.5; Janus Pro; e variantes de Stable Diffusion SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 e 1.5.
As classificações de preferência humana foram obtidas do Text-to-Image Leaderboard e fornecidas como pontuações ELO:

Classificações do modelo em prompts COCO aleatórios usando métricas automatizadas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas em preferências humanas (Aesthetic Score, ImageReward, HPSv2 e MPS). Uma precisão de classificação abaixo de 0,5 indica mais pares discordantes do que concordantes, e os melhores resultados estão em negrito, o segundo melhor está sublinhado.
Sobre essa rodada, os pesquisadores afirmam:
‘Entre as métricas estatísticas (FID, FDDINOv2, CLIP, CMMD e nossa métrica proposta cFreD), apenas o cFreD exibe uma correlação forte com as preferências humanas, alcançando uma correlação de 0,33 e uma precisão de classificação não trivial de 66,67%. ‘Esse resultado coloca o cFreD como a terceira métrica mais alinhada no geral, superado apenas pelas métricas treinadas em preferências humanas ImageReward, HPSv2 e MPS.
‘Notavelmente, todas as outras métricas estatísticas mostram um alinhamento consideravelmente mais fraco com as classificações ELO e, como resultado, inverteram as classificações, resultando em uma Precisão de Classificação abaixo de 0,5.
‘Esses achados destacam que o cFreD é sensível tanto à fidelidade visual quanto à consistência do prompt, reforçando seu valor como uma alternativa prática e sem treinamento para benchmarking a geração de texto-para-imagem.’
Os autores também testaram a Inception V3 como backbone, destacando sua ubiquidade na literatura, e descobriram que a InceptionV3 se saiu razoavelmente, mas foi superada por backbones baseados em transformadores, como DINOv2-L/14 e ViT-L/16, que se alinharam mais consistentemente com as classificações humanas – e eles argumentam que isso apoia a substituição da InceptionV3 em configurações de avaliação modernas.

Taxas de vitória mostrando com que frequência as classificações de cada backbone de imagem correspondiam às classificações humanas derivadas reais no conjunto de dados COCO.
Conclusão
É claro que, embora as soluções com humanos no loop sejam a abordagem ideal para o desenvolvimento de métricas e funções de perda, a escala e a frequência das atualizações necessárias a esses esquemas continuarão a torná-los impraticáveis – talvez até que a participação pública generalizada em avaliações seja geralmente incentivada; ou, como foi o caso com CAPTCHAs, forçada.
A credibilidade do novo sistema dos autores ainda depende de seu alinhamento com o julgamento humano, embora em um nível mais distante do que muitas abordagens recentes que envolvem humanos; e a legitimidade do cFreD permanece, portanto, ainda nos dados de preferência humana (obviamente, pois sem esse benchmark, a afirmação de que o cFreD reflete a avaliação humana seria improva).
Argumenta-se que enraizar nossos critérios atuais para ‘realismo’ na saída geradora em uma função de métrica pode ser um erro a longo prazo, desde que nossa definição para esse conceito está atualmente sob ataque da nova onda de sistemas de IA geradora, e está sujeita a revisões frequentes e significativas.
* Neste ponto, eu normalmente incluiria um exemplo ilustrativo de vídeo, talvez de uma submissão acadêmica recente; mas isso seria mal-intencionado – qualquer pessoa que tenha passado mais de 10-15 minutos navegando pela saída de IA geradora do Arxiv já terá encontrado vídeos suplementares cuja qualidade subjetivamente ruim indica que a submissão relacionada não será saudada como um artigo seminal.
† Um total de 46 modelos de backbone de imagem foram usados nos experimentos, nem todos os quais são considerados nos resultados grafados. Por favor, consulte o apêndice do artigo para uma lista completa; os modelos apresentados nas tabelas e figuras foram listados.
Publicado pela primeira vez na terça-feira, 1 de abril de 2025


