Ângulo de Anderson

Como Parar a IA de Representar iPhones em Eras Passadas

Published May 26, 2025

Updated April 26, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

Como os geradores de imagens de IA representam o passado? Nova pesquisa indica que eles inserem smartphones no século XVIII, laptops em cenas dos anos 1930 e aspiradores de pó em lares do século XIX, levantando questões sobre como esses modelos imaginam a história – e se eles são capazes de precisão histórica contextual em geral.

No início de 2024, as capacidades de geração de imagens do modelo de IA multimodal Gemini da Google foram criticadas por impor demografia justa em contextos inadequados, como gerar soldados alemães da Segunda Guerra Mundial com provência improvável:

Pessoal militar alemão demograficamente improvável, como imaginado pelo modelo multimodal Gemini da Google em 2024. Fonte: Gemini AI/Google via The Guardian

Isso foi um exemplo de como esforços para corrigir viés em modelos de IA falharam em considerar um contexto histórico. Nesse caso, a questão foi abordada logo após. No entanto, modelos baseados em difusão permanecem propensos a gerar versões da história que confundem aspectos e artefatos modernos e históricos.

Isso ocorre em parte devido à entrelaçamento, onde qualidades que frequentemente aparecem juntas nos dados de treinamento se fundem na saída do modelo. Por exemplo, se objetos modernos como smartphones frequentemente co-ocorrem com o ato de falar ou ouvir no conjunto de dados, o modelo pode aprender a associar essas atividades com dispositivos modernos, mesmo quando o prompt especifica um cenário histórico. Uma vez que essas associações são incorporadas nas representações internas do modelo, torna-se difícil separar a atividade de seu contexto contemporâneo, levando a resultados historicamente imprecisos.

Um novo artigo da Suíça, examinando o fenômeno de gerações históricas entrelaçadas em modelos de difusão latente, observa que estruturas de IA que são bastante capazes de criar pessoas fotorealistas no entanto preferem representar figuras históricas de maneira histórica:

Do novo artigo, representações diversas via LDM do prompt ‘Uma imagem fotorealista de uma pessoa rindo com um amigo no [período histórico]’, com cada período indicado em cada saída. Como podemos ver, o meio da era se tornou associado ao conteúdo. Fonte: https://arxiv.org/pdf/2505.17064

Para o prompt ‘Uma imagem fotorealista de uma pessoa rindo com um amigo no [período histórico]’, um dos três modelos testados frequentemente ignora o prompt negativo ‘monocromático’ e, em vez disso, usa tratamentos de cor que refletem a mídia visual da era especificada, por exemplo, imitando os tons suaves do filme de celulose dos anos 1950 e 1970.

Ao testar os três modelos para sua capacidade de criar anacronismos (coisas que não são do período-alvo, ou ‘fora do tempo’ – que podem ser do futuro do período-alvo, bem como do seu passado), eles encontraram uma disposição geral para confundir atividades atemporais (como ‘cantar’ ou ‘cozinhar’) com contextos e equipamentos modernos:

Atividades diversas que são perfeitamente válidas para séculos anteriores são representadas com tecnologia e parafernália atuais ou mais recentes, contra o espírito da imagem solicitada.

É notável que smartphones são particularmente difíceis de separar do idioma da fotografia e de muitos outros contextos históricos, desde que sua proliferação e representação são bem-representadas em conjuntos de dados influentes como Common Crawl:

No modelo de imagem de texto gerador Flux, comunicações e smartphones são conceitos estreitamente associados – mesmo quando o contexto histórico não o permite.

Para determinar a extensão do problema e dar aos esforços de pesquisa futuros uma forma de avançar com esse problema específico, os autores do novo artigo desenvolveram um conjunto de dados personalizado para testar sistemas gerativos. Neste momento, vamos dar uma olhada nesse novo trabalho, que é intitulado História Sintética: Avaliando Representações Visuais do Passado em Modelos de Difusão, e vem de dois pesquisadores da Universidade de Zurique. O conjunto de dados e o código estão disponíveis publicamente.

Uma ‘Verdade’ Frágil

Alguns dos temas do artigo tocam em questões culturalmente sensíveis, como a sub-representação de raças e gênero em representações históricas. Enquanto a imposição da igualdade racial pela Gemini no grossamente inequível Terceiro Reich é uma revisão histórica absurda e insultuosa, restaurar ‘representações tradicionais’ (onde os modelos de difusão ‘atualizaram’ essas) frequentemente efetivamente ‘re-branquearia’ a história.

Muitos shows históricos recentes, como Bridgerton, borram a precisão demográfica histórica de maneiras prováveis de influenciar futuros conjuntos de dados de treinamento, complicando esforços para alinhar imagens de período geradas por LLM com padrões tradicionais. No entanto, isso é um tópico complexo, dado a tendência histórica da (ocidental) história de favorecer riqueza e brancura, e deixar muitas ‘histórias menores’ não contadas.

Levando em mente esses parâmetros culturais complicados e sempre mutáveis, vamos dar uma olhada na abordagem dos pesquisadores.

Método e Testes

Para testar como os modelos gerativos interpretam o contexto histórico, os autores criaram HistVis, um conjunto de dados de 30.000 imagens produzidas a partir de cem prompts que representam atividades humanas comuns, cada uma renderizada em dez períodos de tempo distintos:

Uma amostra do conjunto de dados HistVis, que os autores tornaram disponível no Hugging Face. Fonte: https://huggingface.co/datasets/latentcanon/HistVis

As atividades, como cozinhar, orar ou ouvir música, foram escolhidas por sua universalidade e formuladas em um formato neutro para evitar ancorar o modelo em qualquer estética particular. Os períodos de tempo para o conjunto de dados variam do século XVII até o presente, com foco adicional em cinco décadas individuais do século XX.

30.000 imagens foram geradas usando três modelos de difusão de código aberto amplamente utilizados: Stable Diffusion XL; Stable Diffusion 3; e FLUX.1. Ao isolar o período de tempo como a única variável, os pesquisadores criaram uma base estruturada para avaliar como os sinais históricos são codificados visualmente ou ignorados por esses sistemas.

Domínio do Estilo Visual

O autor inicialmente examinou se os modelos gerativos defaultam para estilos visuais específicos ao representar períodos históricos; porque parecia que mesmo quando os prompts incluíam nenhuma menção à mídia ou estética, os modelos frequentemente associavam séculos particulares a estilos característicos:

Estilos visuais previstos para imagens geradas a partir do prompt ‘Uma pessoa dançando com outra no [período histórico]’ (esquerda) e a partir do prompt modificado ‘Uma imagem fotorealista de uma pessoa dançando com outra no [período histórico]’ com ‘imagem em preto e branco’ definida como um prompt negativo (direita).

Para medir essa tendência, os autores treinaram uma rede neural convolucional (CNN) para classificar cada imagem no conjunto de dados HistVis em uma das cinco categorias: desenho; gravura; ilustração; pintura; ou fotografia. Essas categorias foram destinadas a refletir padrões comuns que surgem ao longo dos períodos de tempo e que suportam comparação estruturada.

A classificador foi baseada em um modelo VGG16 pré-treinado no ImageNet e afinado com 1.500 exemplos por classe de um conjunto de dados derivado do WikiArt. Como o WikiArt não distingue imagens em preto e branco de imagens em cores, um pontuação de colorido foi usada para rotular imagens de baixa saturação como monocromáticas.

O classificador treinado foi então aplicado ao conjunto de dados completo, com os resultados mostrando que todos os três modelos impõem padrões estilísticos consistentes por período: SDXL associa os séculos XVII e XVIII a gravuras, enquanto SD3 e FLUX.1 tendem a pinturas. Nos décadas do século XX, SD3 favorece a fotografia em preto e branco, enquanto SDXL frequentemente retorna ilustrações modernas.

Essas preferências foram encontradas para persistir apesar de ajustes nos prompts, sugerindo que os modelos codificam vínculos entranhados entre estilo e contexto histórico.

Estilos visuais previstos de imagens geradas ao longo de períodos históricos para cada modelo de difusão, com base em 1.000 amostras por período por modelo.

Para quantificar o quão fortemente um modelo liga um período histórico a um estilo visual particular, os autores desenvolveram uma métrica que intitulam Domínio do Estilo Visual (VSD). Para cada modelo e período de tempo, VSD é definido como a proporção de saídas previstas para compartilhar o estilo mais comum:

Exemplos de vieses estilísticos nos modelos.

Uma pontuação mais alta indica que um único estilo domina as saídas para esse período, enquanto uma pontuação mais baixa aponta para uma variação maior. Isso torna possível comparar como cada modelo adere a convenções estilísticas específicas ao longo do tempo.

Aplicado ao conjunto de dados HistVis completo, a métrica VSD revela níveis de convergência diferentes, ajudando a esclarecer como fortemente cada modelo restringe sua interpretação visual do passado:

A tabela de resultados acima mostra as pontuações VSD ao longo dos períodos históricos para cada modelo. Nos séculos XVII e XVIII, SDXL tende a produzir gravuras com alta consistência, enquanto SD3 e FLUX.1 favorecem pinturas. No século XX e XXI, SD3 e FLUX.1 mudam para fotografia, enquanto SDXL mostra mais variação, mas frequentemente defaulta para ilustração.

Todos os três modelos demonstram uma forte preferência por imagens em preto e branco nas primeiras décadas do século XX, particularmente nos anos 1910, 1930 e 1950.

Para testar se esses padrões pudessem ser mitigados, os autores usaram engenharia de prompt, solicitando explicitamente fotorealismo e desencorajando saídas em preto e branco usando um prompt negativo. Em alguns casos, as pontuações de domínio diminuíram, e o estilo líder mudou, por exemplo, de preto e branco para pintura, nos séculos XVII e XVIII.

No entanto, essas intervenções raramente produziram imagens genuinamente fotorealistas, indicando que os padrões estilísticos dos modelos estão profundamente enraizados.

Consistência Histórica

A próxima linha de análise examinou a consistência histórica: se as imagens geradas incluíam objetos que não se encaixavam no período de tempo. Em vez de usar uma lista fixa de itens proibidos, os autores desenvolveram um método flexível que aproveitou modelos de linguagem grande (LLMs) e modelos de visão-linguagem (VLMs) para detectar elementos que pareciam fora de lugar com base no contexto histórico.

O método de detecção seguiu o mesmo formato do conjunto de dados HistVis, onde cada prompt combinou um período histórico com uma atividade humana. Para cada prompt, GPT-4o gerou uma lista de objetos que estariam fora de lugar no período de tempo especificado; e para cada objeto proposto, GPT-4o produziu uma pergunta sim-não projetada para verificar se esse objeto aparecia na imagem gerada.

Por exemplo, dado o prompt ‘Uma pessoa ouvindo música no século XVIII’, GPT-4o poderia identificar dispositivos de áudio modernos como historicamente imprecisos e produzir a pergunta A pessoa está usando fones de ouvido ou um smartphone que não existia no século XVIII?.

Essas perguntas foram repassadas para GPT-4o em um setup de resposta a perguntas visuais, onde o modelo revisou a imagem e retornou uma resposta sim ou não para cada pergunta.

Exemplos de imagens geradas sinalizadas pelo método de detecção de dois estágios, mostrando elementos anacrônicos: fones de ouvido no século XVIII; um aspirador de pó no século XIX; um laptop nos anos 1930; e um smartphone nos anos 1950.

Para medir com que frequência anacronismos apareciam nas imagens geradas, os autores introduziram um método simples para pontuar frequência e gravidade. Primeiro, eles contabilizaram diferenças menores de redação em como GPT-4o descrevia o mesmo objeto.

Por exemplo, dispositivo de áudio moderno e dispositivo de áudio digital foram tratados como equivalentes. Para evitar contagem dupla, um sistema de correspondência difusa foi usado para agrupar essas variações de superfície sem afetar conceitos genuinamente distintos.

Uma vez que todos os anacronismos propostos foram normalizados, duas métricas foram computadas: frequência mediu com que frequência um determinado objeto aparecia em imagens para um período de tempo específico e modelo; e gravidade mediu quão confiavelmente esse objeto aparecia uma vez que foi sugerido pelo modelo.

Se um telefone moderno foi sinalizado dez vezes e apareceu em dez imagens geradas, recebeu uma pontuação de gravidade de 1,0. Se apareceu em apenas cinco, a pontuação de gravidade foi 0,5. Essas pontuações ajudaram a identificar não apenas se anacronismos ocorriam, mas como firmemente eles estavam incorporados na saída do modelo para cada período:

Os quinze elementos anacrônicos mais comuns para cada modelo, plotados pela frequência no eixo x e pela gravidade no eixo y. Círculos marcam elementos classificados nos quinze primeiros por frequência, triângulos por gravidade e diamantes por ambos.

Acima, vemos os quinze anacronismos mais comuns para cada modelo, classificados por frequência e gravidade.

Roupas foram frequentes, mas dispersas, enquanto itens como dispositivos de áudio e equipamentos de engomar apareceram menos frequentemente, mas com alta consistência – padrões que sugerem que os modelos frequentemente respondem à atividade no prompt mais do que ao período de tempo.

SD3 mostrou a taxa mais alta de anacronismos, especialmente em imagens dos séculos XIX e 1930, seguido por FLUX.1 e SDXL.

Para testar como bem o método de detecção se alinhava com o julgamento humano, os autores realizaram um estudo de avaliação do usuário com 1.800 imagens amostradas aleatoriamente de SD3 (o modelo com a taxa mais alta de anacronismos), com cada imagem avaliada por três trabalhadores da multidão. Após filtrar respostas confiáveis, 2.040 julgamentos de 234 usuários foram incluídos, e o método concordou com o voto majoritário em 72 por cento dos casos.

GUI para o estudo de avaliação humana, mostrando instruções de tarefa, exemplos de imagens precisas e anacrônicas, e perguntas sim-não para identificar inconsistências temporais em saídas geradas.

Demografia

A última análise examinou como os modelos retratam raça e gênero ao longo do tempo. Usando o conjunto de dados HistVis, os autores compararam as saídas do modelo com estimativas de base geradas por um modelo de linguagem. Essas estimativas não eram precisas, mas ofereciam um sentido aproximado de plausibilidade histórica, ajudando a revelar se os modelos adaptavam as representações ao período pretendido.

Para avaliar essas representações em escala, os autores construíram um pipeline comparando as saídas do modelo com expectativas históricas. Eles usaram primeiro o classificador FairFace, uma ferramenta baseada em ResNet34 treinada em mais de cem mil imagens, para detectar gênero e raça nas saídas geradas, permitindo a medição de quão frequentemente faces em cada cena eram classificadas como masculinas ou femininas e para o rastreamento de categorias raciais ao longo dos períodos.

Exemplos de imagens geradas mostrando super-representação demográfica em diferentes modelos, períodos de tempo e atividades.

Resultados de baixa confiança foram filtrados para reduzir ruído, e previsões foram averageadas sobre todas as imagens ligadas a um período e atividade específicos. Para verificar a confiabilidade das leituras do FairFace, um segundo sistema baseado em DeepFace foi usado em uma amostra de 5.000 imagens. Os dois classificadores mostraram forte concordância, apoiando a consistência das leituras demográficas usadas no estudo.

Para comparar as saídas do modelo com a plausibilidade histórica, os autores pediram a GPT-4o que estimasse a distribuição de gênero e raça esperada para cada atividade e período de tempo. Essas estimativas serviram como linhas de base aproximadas, em vez de verdade absoluta. Duas métricas foram então usadas: sub-representação e super-representação, medindo o quanto as saídas do modelo se desviavam das expectativas do LLM.

Os resultados mostraram padrões claros: FLUX.1 frequentemente super-representou homens, mesmo em cenários como cozinhar, onde as mulheres eram esperadas; SD3 e SDXL mostraram tendências semelhantes em categorias como trabalho, educação e religião; faces brancas apareceram mais do que o esperado em geral, embora esse viés diminuísse em períodos mais recentes; e algumas categorias mostraram picos inesperados de representação não-branca, sugerindo que o comportamento do modelo pode refletir correlações no conjunto de dados em vez de contexto histórico:

Super-representação e sub-representação de gênero e raça nas saídas de FLUX.1 ao longo dos séculos e atividades, mostradas como diferenças absolutas das estimativas demográficas de GPT-4o.

Os autores concluem:

‘Nossa análise revela que [Text-to-image/TTI] modelos confiam em codificações estilísticas limitadas em vez de compreensões matizadas de períodos históricos. Cada era é fortemente ligada a um estilo visual específico, resultando em retratos unidimensionais da história.

‘Notavelmente, representações fotorealistas de pessoas aparecem apenas a partir do século XX, com apenas raras exceções em FLUX.1 e SD3, sugerindo que os modelos reforçam associações aprendidas em vez de se adaptar flexivelmente a contextos históricos, perpetuando a noção de que o realismo é um traço moderno.

‘Além disso, anacronismos frequentes sugerem que períodos históricos não são separados limpidamente nos espaços latentes desses modelos, já que artefatos modernos frequentemente emergem em configurações pré-modernas, comprometendo a confiabilidade de sistemas TTI em contextos de educação e patrimônio cultural.’

Conclusão

Durante o treinamento de um modelo de difusão, novos conceitos não se estabelecem neatamente em slots predefinidos dentro do espaço latente. Em vez disso, eles formam clusters moldados por quão frequentemente aparecem e por sua proximidade com ideias relacionadas. O resultado é uma estrutura mal organizada onde conceitos existem em relação à sua frequência e contexto típico, em vez de qualquer separação limpa ou empírica.

Isso torna difícil isolar o que conta como ‘histórico’ dentro de um grande conjunto de dados geral. Como as descobertas no novo artigo sugerem, muitos períodos de tempo são representados mais pelo look da mídia usada para representá-los do que por qualquer detalhe histórico mais profundo.

Isso é uma razão pela qual ainda é difícil gerar uma imagem fotorealista de alta qualidade de um personagem do século XIX; na maioria dos casos, o modelo confiará em tropos visuais tirados do cinema e da televisão. Quando esses falham em corresponder ao pedido, há pouco mais no conjunto de dados para compensar. Transpor essa lacuna provavelmente dependerá de melhorias futuras na desconexão de conceitos sobrepostos.

Publicado pela primeira vez na segunda-feira, 26 de maio de 2025