Entre em contato

Ensinando IA para dar melhores críticas de vídeo

Ângulo de Anderson

Ensinando IA para dar melhores críticas de vídeo

mm
Imagem de um robô com pipoca em um cinema, ChatGPt-4+ e Adobe Firefly.

Embora os Modelos de Linguagem de Visão Ampla (LVLMs) possam ser auxiliares úteis na interpretação de algumas das submissões mais obscuras ou desafiadoras na literatura de visão computacional, há uma área em que eles são prejudicados: determinar os méritos e a qualidade subjetiva de qualquer exemplos de vídeo que acompanham novos artigos*.

Este é um aspecto crítico de uma submissão, já que artigos científicos geralmente visam gerar entusiasmo por meio de textos ou recursos visuais atraentes – ou ambos.

Mas no caso de projetos que envolvem síntese de vídeo, os autores devem mostrar a saída de vídeo real ou correm o risco de ter seu trabalho rejeitado; e é nessas demonstrações que a lacuna entre afirmações ousadas e desempenho no mundo real geralmente se torna mais aparente.

Eu li o livro, não vi o filme

Atualmente, a maioria dos modelos populares de linguagem de grande porte (LLMs) e modelos de linguagem de grande visão (LVLMs) baseados em API não se envolverão na análise direta de conteúdo de vídeo. de qualquer maneira, qualitativa ou não. Em vez disso, eles podem apenas analisar transcrições relacionadas – e, talvez, tópicos de comentários e outros estritamente texto-material adjunto baseado em.

As diversas objeções do GPT-4o, Google Gemini e Perplexity, quando solicitados a analisar vídeos diretamente, sem recorrer a transcrições ou outras fontes baseadas em texto.

As diversas objeções do GPT-4o, Google Gemini e Perplexity, quando solicitados a analisar vídeos diretamente, sem recorrer a transcrições ou outras fontes baseadas em texto.

No entanto, um LLM pode esconder ou negar sua incapacidade de assistir a vídeos, a menos que você o denuncie:

Após ser solicitado a fornecer uma avaliação subjetiva dos vídeos associados a um novo artigo de pesquisa, e tendo falsificado uma opinião real, o ChatGPT-4o finalmente confessa que não consegue visualizar o vídeo diretamente.

Ao ser solicitado a fornecer uma avaliação subjetiva dos vídeos associados a um novo artigo de pesquisa, e tendo fingido uma opinião real, o ChatGPT-4o finalmente confessa que não consegue visualizar o vídeo diretamente.

Embora modelos como o ChatGPT-4o sejam multimodais e possam pelo menos analisar Individual fotos (como um quadro extraído de um vídeo, veja a imagem acima), existem alguns problemas, mesmo com isso: em primeiro lugar, há pouca base para dar credibilidade à opinião qualitativa de um LLM, principalmente porque os LLMs são propenso para "agradar as pessoas" em vez de um discurso sincero.

Em segundo lugar, muitos, se não a maioria dos problemas de um vídeo gerado são provavelmente ter um temporal aspecto que é totalmente perdido em uma captura de quadro – e assim o exame de quadros individuais não serve para nada.

Por fim, o LLM só pode emitir um suposto "julgamento de valor" baseado (mais uma vez) na absorção de conhecimento textual, por exemplo, em relação a imagens deepfake ou história da arte. Nesse caso, o conhecimento de domínio treinado permite que o LLM correlacione as qualidades visuais analisadas de uma imagem com os embeddings aprendidos com base em humano entendimento:

O projeto FakeVLM oferece detecção de deepfake direcionada por meio de um modelo de visão-linguagem multimodal especializado. Fonte: https://arxiv.org/pdf/2503.14905

O projeto FakeVLM oferece detecção direcionada de deepfakes por meio de um modelo de visão e linguagem multimodal especializado. Fonte: https://arxiv.org/pdf/2503.14905

Isso não quer dizer que um LLM não possa obter informações diretamente de um vídeo; por exemplo, com o uso de sistemas de IA auxiliares, como YOLO, um LLM poderia identificar objetos em um vídeo – ou poderia fazer isso diretamente, se treinado para um número acima da média de funcionalidades multimodais.

Mas a única maneira pela qual um LLM poderia avaliar um vídeo subjetivamente (ou seja, "Isso não parece real para mim") é através da aplicação de uma função de perdamétrica baseada em dados que reflete bem a opinião humana ou é diretamente informada pela opinião humana.

As funções de perda são ferramentas matemáticas usadas durante o treinamento para medir o quão longe as previsões de um modelo estão das respostas corretas. Elas fornecem feedback que orienta o aprendizado do modelo: quanto maior o erro, maior a perda. À medida que o treinamento avança, o modelo ajusta seus parâmetros para reduzir essa perda, melhorando gradualmente sua capacidade de fazer previsões precisas.

Funções de perda são usadas para regular o treinamento de modelos e também para calibrar algoritmos projetados para avaliar a saída de modelos de IA (como a avaliação de conteúdo fotorrealista simulado de um modelo de vídeo generativo).

Visão Condicional

Uma das métricas/funções de perda mais populares é Distância inicial de Fréchet (FID), que avalia a qualidade das imagens geradas medindo a similaridade entre sua distribuição (que aqui significa 'como as imagens são distribuídas ou agrupadas por características visuais) e de imagens reais.

Especificamente, o FID calcula a diferença estatística, usando médias e covariâncias, entre características extraídas de ambos os conjuntos de imagens usando o (frequentemente criticado) Iniciação v3 rede de classificação. Uma pontuação FID mais baixa indica que as imagens geradas são mais semelhantes às imagens reais, o que implica melhor qualidade visual e diversidade.

No entanto, o FID é essencialmente comparativo e, sem dúvida, auto-referencial por natureza. Para remediar isso, o último Distância condicional de Fréchet (CFD, 2021) a abordagem difere da FID ao comparar imagens geradas com imagens reais e avaliar uma pontuação com base em quão bem ambos os conjuntos correspondem a um condição adicional, como um rótulo de classe (inevitavelmente subjetivo) ou uma imagem de entrada.

Dessa forma, o CFID leva em conta a precisão com que as imagens atendem às condições pretendidas, não apenas seu realismo geral ou a diversidade entre si.

Exemplos do CFD outing de 2021. Fonte: https://github.com/Michael-Soloveitchik/CFID/

Exemplos do CFD outing de 2021. Sfonte: https://github.com/Michael-Soloveitchik/CFID/

O CFD segue uma tendência recente de incorporar a interpretação humana qualitativa em funções de perda e algoritmos métricos. Embora essa abordagem centrada no ser humano garanta que o algoritmo resultante não seja "sem alma" ou meramente mecânico, ela apresenta, ao mesmo tempo, uma série de problemas: a possibilidade de viés; o ônus de atualizar o algoritmo de acordo com novas práticas e o fato de que isso eliminará a possibilidade de padrões comparativos consistentes ao longo de vários anos entre os projetos; e limitações orçamentárias (um número menor de colaboradores humanos tornará as determinações mais especiosas, enquanto um número maior pode impedir atualizações úteis devido ao custo).

cFreD

Isso nos leva a uma novo papel dos EUA que aparentemente oferece Distância condicional de Fréchet (cFreD), uma nova abordagem ao CFD projetada para refletir melhor as preferências humanas, avaliando a qualidade visual e o alinhamento entre texto e imagem

Resultados parciais do novo artigo: classificações de imagens (1–9) por diferentes métricas para o prompt

Resultados parciais do novo artigo: classificações de imagens (1–9) por diferentes métricas para o prompt “Uma sala de estar com um sofá e um laptop descansando no sofá”. Verde destaca o modelo com classificação humana superior (FLUX.1-dev), roxo o mais baixo (SDv1.5). Apenas cFreD corresponde às classificações humanas. Consulte o artigo de origem para obter os resultados completos, que não temos espaço para reproduzir aqui. Fonte: https://arxiv.org/pdf/2503.21721

Os autores argumentam que os métodos de avaliação existentes para a síntese de texto em imagem, como Pontuação Inicial (IS) e FID, não se alinham bem com o julgamento humano porque medem apenas a qualidade da imagem sem considerar como as imagens correspondem aos seus prompts:

'Por exemplo, considere um conjunto de dados com duas imagens: uma de um cachorro e uma de um gato, cada uma pareada com seu prompt correspondente. Um modelo perfeito de texto para imagem que troca erroneamente esses mapeamentos (por exemplo, gerando um prompt de gato para cachorro e vice-versa) atingiria um FID próximo de zero, já que a distribuição geral de gatos e cachorros é mantida, apesar do desalinhamento com os prompts pretendidos.

'Mostramos que o cFreD captura melhor avaliação e condicionamento da qualidade da imagem no texto de entrada e resulta em melhor correlação com as preferências humanas.'

Os testes do artigo indicam que a métrica proposta pelos autores, cFreD, alcança consistentemente maior correlação com as preferências humanas do que FID, FDDINOv2, CLIPScore e CMMD em três conjuntos de dados de referência (PartiPrompts, HPDv2 e COCO).

Os testes do artigo indicam que a métrica proposta pelos autores, cFreD, atinge consistentemente maior correlação com as preferências humanas do que FID, FDDINOv2, CLIPScore e CMMD em três conjuntos de dados de referência (PartiPrompts, HPDv2 e COCO).

Conceito e Método

Os autores observam que o padrão ouro atual para avaliar modelos de texto para imagem envolve a coleta de dados de preferência humana por meio de comparações de crowdsourcing, semelhantes aos métodos usados ​​para grandes modelos de linguagem (como o Arena LMSys).

Por exemplo, a Arena PartiPrompts usa 1,600 instruções em inglês, apresentando aos participantes pares de imagens de diferentes modelos e pedindo que eles selecionem sua imagem preferida.

Da mesma forma, o Classificação da Arena de Texto para Imagem emprega comparações de usuários de saídas de modelos para gerar classificações por meio de pontuações ELO. No entanto, coletar esse tipo de dados de avaliação humana é custoso e lento, levando algumas plataformas – como a PartiPrompts Arena – a cessar as atualizações completamente.

O Artificial Analysis Image Arena Leaderboard, que classifica os líderes atualmente estimados em IA visual generativa. Fonte: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

O Artificial Analysis Image Arena Leaderboard, que classifica os líderes atualmente estimados em IA visual generativa. Fonte: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Embora existam métodos alternativos treinados em dados históricos de preferência humana, sua eficácia para avaliar modelos futuros permanece incerta, porque as preferências humanas evoluem continuamente. Consequentemente, métricas automatizadas como FID, Pontuação do CLIPS, e o cFreD proposto pelos autores parece provável que continuem sendo ferramentas de avaliação cruciais.

Os autores assumem que tanto as imagens reais como as geradas condicionadas a um seguimento rápido distribuições gaussianas, cada um definido por meios condicionais e covariâncias. cFreD mede a distância de Fréchet esperada entre prompts entre essas distribuições condicionais. Isso pode ser formulado diretamente em termos de estatísticas condicionais ou combinando estatísticas incondicionais com covariâncias cruzadas envolvendo o prompt.

Ao incorporar o prompt dessa maneira, o cFreD é capaz de avaliar tanto o realismo das imagens quanto sua consistência com o texto fornecido.

Dados e testes

Para avaliar o quão bem o cFreD se correlaciona com as preferências humanas, os autores usaram classificações de imagens de vários modelos solicitados com o mesmo texto. Sua avaliação baseou-se em duas fontes: a Pontuação de Preferência Humana v2 (HPDv2) conjunto de teste, que inclui nove imagens geradas e uma COCO imagem da verdade básica por prompt; e o já mencionado PartiPrompts Arena, que contém saídas de quatro modelos em 1,600 prompts.

Os autores coletaram os pontos de dados dispersos da Arena em um único conjunto de dados; nos casos em que a imagem real não obteve a classificação mais alta nas avaliações humanas, eles usaram a imagem com melhor classificação como referência.

Para testar modelos mais novos, eles coletaram amostras de 1,000 prompts do trem do COCO e validação conjuntos, garantindo que não haja sobreposição com HPDv2, e imagens geradas usando nove modelos do Arena Leaderboard. As imagens originais do COCO serviram como referências nesta parte da avaliação.

A abordagem cFreD foi avaliada por meio de quatro métricas estatísticas: FID; FDDINOv2; CLIPScore; e CMMD. Também foi avaliado em relação a quatro métricas aprendidas treinadas em dados de preferência humana: Pontuação Estética; Recompensa de Imagem; HPSv2; e MPS.

Os autores avaliaram a correlação com o julgamento humano tanto de uma perspectiva de classificação quanto de pontuação: para cada métrica, as pontuações do modelo foram relatadas e as classificações calculadas para seu alinhamento com os resultados da avaliação humana, com cFreD usando DINOv2-G/14 para incorporação de imagens e o OpenCLIP Codificador de texto ConvNext-B para incorporação de texto†.

Trabalhos anteriores sobre o aprendizado de preferências humanas mediram o desempenho usando a precisão da classificação por item, que calcula a precisão da classificação para cada par de imagem-texto antes de calcular a média dos resultados.

Em vez disso, os autores avaliaram o cFreD usando um global precisão da classificação, que avalia o desempenho geral da classificação em todo o conjunto de dados; para métricas estatísticas, eles derivaram classificações diretamente de pontuações brutas; e para métricas treinadas em preferências humanas, eles primeiro calcularam a média das classificações atribuídas a cada modelo em todas as amostras e, então, determinaram a classificação final a partir dessas médias.

Os testes iniciais usaram dez estruturas: DESLIZAR; COCO; FuseDream; DALE 2; VQGAN + CLIP; CogView2; Difusão Estável V1.4; VQ-Difusão; Difusão Estável V2.0; e Lafita.

Classificações e pontuações de modelos no conjunto de testes HPDv2 usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas por preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Os melhores resultados são mostrados em negrito, os segundos melhores são sublinhados.

Classificações e pontuações de modelos no conjunto de testes HPDv2 usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas por preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Os melhores resultados são mostrados em negrito, os segundos melhores são sublinhados.

Dos resultados iniciais, os autores comentam:

'cFreD atinge o maior alinhamento com as preferências humanas, atingindo uma correlação de 0.97. Entre as métricas estatísticas, cFreD atinge a maior correlação e é comparável ao HPSv2 (0.94), um modelo explicitamente treinado em preferências humanas. Dado que o HPSv2 foi treinado no conjunto de treinamento HPSv2, que inclui quatro modelos do conjunto de teste, e empregou os mesmos anotadores, ele codifica inerentemente vieses de preferência humana específicos da mesma configuração.

'Em contraste, o cFreD alcança correlação comparável ou superior com a avaliação humana sem qualquer treinamento de preferência humana.

'Esses resultados demonstram que o cFreD fornece classificações mais confiáveis ​​em diversos modelos em comparação com métricas automáticas padrão e métricas treinadas explicitamente em dados de preferência humana.'

Entre todas as métricas avaliadas, o cFreD alcançou a maior precisão de classificação (91.1%), demonstrando – afirmam os autores – forte alinhamento com os julgamentos humanos.

HPSv2 seguiu com 88.9%, enquanto FID e FDDINOv2 produziram pontuações competitivas de 86.7%. Embora as métricas treinadas em dados de preferência humana geralmente se alinhassem bem com avaliações humanas, cFreD provou ser o mais robusto e confiável no geral.

Abaixo vemos os resultados da segunda rodada de testes, desta vez no PartiPrompts Arena, usando SDXL; Kandinsky 2; cachorro-quente; e Karlo V1.0.

Classificações e pontuações de modelos no PartiPrompt usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas por preferência humana (Aesthetic Score, ImageReward e MPS). Os melhores resultados estão em negrito, os segundos melhores estão sublinhados.

Classificações e pontuações de modelos no PartiPrompt usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas por preferência humana (Aesthetic Score, ImageReward e MPS). Os melhores resultados estão em negrito, os segundos melhores estão sublinhados.

Aqui o artigo afirma:

'Entre as métricas estatísticas, cFreD alcança a maior correlação com avaliações humanas (0.73), com FID e FDDINOv2 ambos alcançando uma correlação de 0.70. Em contraste, a pontuação CLIP mostra uma correlação muito baixa (0.12) com julgamentos humanos.

Na categoria de preferência humana treinada, o HPSv2 apresenta o alinhamento mais forte, alcançando a maior correlação (0.83), seguido pelo ImageReward (0.81) e pelo MPS (0.65). Esses resultados destacam que, embora o cFreD seja uma métrica automática robusta, o HPSv2 se destaca como o mais eficaz na captura de tendências de avaliação humana na PartiPrompts Arena.

Por fim, os autores conduziram uma avaliação do conjunto de dados COCO usando nove modelos modernos de conversão de texto em imagem: FLUXO.1[dev]; Parque infantil v2.5; Janus Pro; e variantes de difusão estável SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 e 1.5.

As classificações de preferência humana foram obtidas do Text-to-Image Leaderboard e fornecidas como pontuações ELO:

Classificações de modelos em prompts COCO amostrados aleatoriamente usando métricas automáticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas por preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Uma precisão de classificação abaixo de 0.5 indica pares mais discordantes do que concordantes, e os melhores resultados estão em negrito, os segundos melhores estão sublinhados.

Classificações de modelos em prompts COCO amostrados aleatoriamente usando métricas automáticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas por preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Uma precisão de classificação abaixo de 0.5 indica pares mais discordantes do que concordantes, e os melhores resultados estão em negrito, os segundos melhores estão sublinhados.

Sobre esta rodada, os pesquisadores afirmam:

'Entre as métricas estatísticas (FID, FDDINOv2, CLIP, CMMD e nossa proposta cFreD), apenas cFreD exibe uma forte correlação com as preferências humanas, alcançando uma correlação de 0.33 e uma precisão de classificação não trivial de 66.67%. 'Este resultado coloca cFreD como a terceira métrica mais alinhada no geral, superada apenas pelas métricas treinadas em preferência humana ImageReward, HPSv2 e MPS.

'Notavelmente, todas as outras métricas estatísticas mostram um alinhamento consideravelmente mais fraco com as classificações ELO e, como resultado, inverteram as classificações, resultando em uma Classificação Acc. Abaixo de 0.5.

'Essas descobertas destacam que o cFreD é sensível tanto à fidelidade visual quanto à consistência do prompt, reforçando seu valor como uma alternativa prática e sem treinamento para avaliação comparativa da geração de texto para imagem.'

Os autores também testaram o Inception V3 como um backbone, chamando a atenção para sua ubiquidade na literatura, e descobriram que o InceptionV3 teve um desempenho razoável, mas foi superado por backbones baseados em transformadores, como DINOv2-L/14 e ViT-L/16, que se alinharam de forma mais consistente com as classificações humanas – e eles afirmam que isso dá suporte à substituição do InceptionV3 em configurações de avaliação modernas.

Taxas de vitória mostrando com que frequência as classificações de cada backbone de imagem corresponderam às verdadeiras classificações derivadas de humanos no conjunto de dados COCO.

Taxas de vitória mostrando com que frequência as classificações de cada estrutura de imagem corresponderam às verdadeiras classificações derivadas de humanos no conjunto de dados COCO.

Conclusão

É claro que, embora as soluções que envolvam o ser humano sejam a abordagem ideal para o desenvolvimento de funções métricas e de perdas, a escala e a frequência das atualizações necessárias a tais esquemas continuarão a torná-los impraticáveis ​​– talvez até que a participação pública generalizada nas avaliações seja geralmente incentivada; ou, como aconteceu foi o caso com CAPTCHAs, aplicada.

A credibilidade do novo sistema dos autores ainda depende de seu alinhamento com o julgamento humano, embora um pouco mais distante do que muitas abordagens recentes de participação humana; e a legitimidade do cFreD, portanto, ainda permanece nos dados de preferência humana (obviamente, já que sem tal referência, a alegação de que o cFreD reflete uma avaliação semelhante à humana seria improvável).

Pode-se argumentar que consagrar nossos critérios atuais de "realismo" na produção generativa em uma função métrica pode ser um erro a longo prazo, já que nossa definição para esse conceito está atualmente sob ataque da nova onda de sistemas de IA generativa e sujeita a revisões frequentes e significativas.

 

* Neste ponto, eu normalmente incluiria um exemplo de vídeo ilustrativo, talvez de uma submissão acadêmica recente; mas isso seria maldoso — qualquer um que tenha passado mais de 10 a 15 minutos analisando a produção de IA generativa do Arxiv já deve ter se deparado com vídeos complementares cuja qualidade subjetivamente baixa indica que a submissão relacionada não será considerada um artigo de referência.

Um total de 46 modelos de backbone de imagem foram utilizados nos experimentos, mas nem todos são considerados nos resultados gráficos. Consulte o apêndice do artigo para obter uma lista completa; aqueles apresentados nas tabelas e figuras foram listados.

 

Primeira publicação terça-feira, 1 de abril de 2025

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai