Connect with us

Cómo evitar que la IA represente iPhones en épocas pasadas

Ángulo de Anderson

Cómo evitar que la IA represente iPhones en épocas pasadas

mm
A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

¿Cómo representan los generadores de imágenes de IA el pasado? Una nueva investigación indica que colocan teléfonos inteligentes en el siglo XVIII, insertan portátiles en escenas de la década de 1930 y colocan aspiradoras en hogares del siglo XIX, planteando dudas sobre cómo estos modelos imaginan la historia y si son capaces de precisión histórica contextual en absoluto.

 

A principios de 2024, las capacidades de generación de imágenes del modelo de IA multimodal Gemini de Google fueron criticadas por imponer demografía justa en contextos inapropiados, como generar soldados alemanes de la Segunda Guerra Mundial con procedencia poco probable:

Personal militar alemán con una probabilidad demográfica improbable, tal como lo concibió el modelo multimodal Gemini de Google en 2024. Fuente: Gemini AI/Google a través de The Guardian

Personal militar alemán con una probabilidad demográfica improbable, tal como lo concibió el modelo multimodal Gemini de Google en 2024. Fuente: Gemini AI/Google a través de The Guardian

Este fue un ejemplo en el que los esfuerzos para corregir sesgos en los modelos de IA fallaron al no tener en cuenta el contexto histórico. En este caso, el problema se resolvió poco después. Sin embargo, los modelos basados en difusión siguen siendo propensos a generar versiones de la historia que confunden aspectos y artefactos modernos e históricos.

Esto se debe en parte a la entrelazamiento, donde las cualidades que aparecen con frecuencia juntas en los datos de entrenamiento se fusionan en la salida del modelo. Por ejemplo, si los objetos modernos como los teléfonos inteligentes a menudo coocurren con el acto de hablar o escuchar en el conjunto de datos, el modelo puede aprender a asociar esas actividades con dispositivos modernos, incluso cuando la solicitud especifica un entorno histórico. Una vez que estas asociaciones están incrustadas en las representaciones internas del modelo, se vuelve difícil separar la actividad de su contexto contemporáneo, lo que lleva a resultados históricamente inexactos.

Un nuevo documento de Suiza, que examina el fenómeno de las generaciones históricas entrelazadas en los modelos de difusión latente, observa que los marcos de IA que son perfectamente capaces de crear personas fotorealistas sin embargo, prefieren representar figuras históricas de manera histórica:

Del nuevo documento, representaciones diversas a través de LDM de la solicitud 'Una imagen fotorealista de una persona riendo con un amigo en [el período histórico]', con cada período indicado en cada salida. Como podemos ver, el medio de la era se ha asociado con el contenido. Fuente: https://arxiv.org/pdf/2505.17064

Del nuevo documento, representaciones diversas a través de LDM de la solicitud ‘Una imagen fotorealista de una persona riendo con un amigo en [el período histórico]’, con cada período indicado en cada salida. Como podemos ver, el medio de la era se ha asociado con el contenido. Fuente: https://arxiv.org/pdf/2505.17064

Para la solicitud ‘Una imagen fotorealista de una persona riendo con un amigo en [el período histórico]’, uno de los tres modelos probados a menudo ignora la solicitud negativa ‘monocromo’ y en su lugar utiliza tratamientos de color que reflejan los medios visuales de la era especificada, por ejemplo, imitando los tonos apagados del cine de celuloide de las décadas de 1950 y 1970.

Al probar los tres modelos para su capacidad de crear anacronismos (cosas que no son del período objetivo, o ‘fuera de tiempo’ – que pueden ser del futuro del período objetivo, así como de su pasado), encontraron una disposición general para confundir actividades intemporales (como ‘cantar’ o ‘cocinar’) con contextos y equipos modernos:

Actividades diversas que son perfectamente válidas para siglos anteriores se representan con tecnología y parafernalia actuales o más recientes, en contra del espíritu de la imagen solicitada.

Actividades diversas que son perfectamente válidas para siglos anteriores se representan con tecnología y parafernalia actuales o más recientes, en contra del espíritu de la imagen solicitada.

Es notable que los teléfonos inteligentes sean particularmente difíciles de separar del lenguaje de la fotografía y de muchos otros contextos históricos, ya que su proliferación y representación están bien representadas en conjuntos de datos influyentes como Common Crawl:

En el modelo de imagen generativa de texto a texto Flux, las comunicaciones y los teléfonos inteligentes son conceptos estrechamente asociados – incluso cuando el contexto histórico no lo permite.

En el modelo de imagen generativa de texto a texto Flux, las comunicaciones y los teléfonos inteligentes son conceptos estrechamente asociados – incluso cuando el contexto histórico no lo permite.

Para determinar la extensión del problema y dar a los esfuerzos de investigación futuros una forma de avanzar con este problema en particular, los autores del nuevo documento desarrollaron un conjunto de datos personalizado para probar los sistemas generativos. En un momento, examinaremos este nuevo trabajo, que se titula Historia sintética: Evaluación de las representaciones visuales del pasado en los modelos de difusión, y proviene de dos investigadores de la Universidad de Zúrich. El conjunto de datos y el código están disponibles públicamente.

Una ‘verdad’ frágil

Algunos de los temas del documento tocan cuestiones culturalmente sensibles, como la subrepresentación de razas y género en las representaciones históricas. Mientras que la imposición de la igualdad racial en el Tercer Reich por parte de Gemini es una revisión histórica absurda e insultante, restaurar las representaciones ‘tradicionales’ raciales (donde los modelos de difusión han ‘actualizado’ estas) a menudo efectivamente ‘reblanquearía’ la historia.

Muchos programas históricos recientes, como Bridgerton, borran la precisión demográfica histórica de maneras que probablemente influirán en los conjuntos de datos de entrenamiento futuros, complicando los esfuerzos para alinear la imagen de período generada por LLM con los estándares tradicionales. Sin embargo, este es un tema complejo, dado el sesgo histórico de (la historia occidental) para favorecer la riqueza y la blancura, y para dejar muchas ‘historias menores’ sin contar.

Teniendo en cuenta estos parámetros culturales complicados y cambiantes, veamos el enfoque de los investigadores.

Método y pruebas

Para probar cómo los modelos generativos interpretan el contexto histórico, los autores crearon HistVis, un conjunto de datos de 30,000 imágenes producidas a partir de cien solicitudes que representan actividades humanas comunes, cada una representada en diez períodos de tiempo distintos:

Una muestra del conjunto de datos HistVis, que los autores han puesto a disposición en Hugging Face. Fuente: https://huggingface.co/datasets/latentcanon/HistVis

Una muestra del conjunto de datos HistVis, que los autores han puesto a disposición en Hugging Face. Fuente: https://huggingface.co/datasets/latentcanon/HistVis

Las actividades, como cocinar, rezar o escuchar música, se eligieron por su universalidad y se formularon en un formato neutral para evitar anclar el modelo en cualquier estética particular. Los períodos de tiempo para el conjunto de datos van desde el siglo XVII hasta el presente, con un enfoque adicional en cinco décadas individuales del siglo XX.

30,000 imágenes se generaron utilizando tres modelos de difusión de código abierto ampliamente utilizados: Stable Diffusion XL; Stable Diffusion 3; y FLUX.1. Al aislar el período de tiempo como la única variable, los investigadores crearon una base estructurada para evaluar cómo se codifican o ignoran las pistas históricas visualmente por estos sistemas.

Domino del estilo visual

El autor examinó inicialmente si los modelos generativos se defaulan a estilos visuales específicos al representar períodos históricos; porque parecía que incluso cuando las solicitudes no incluían mención de medio o estética, los modelos a menudo asociaban siglos particulares con estilos característicos:

Estilos visuales predichos para imágenes generadas a partir de la solicitud “Una persona bailando con otra en [el período histórico]” (izquierda) y de la solicitud modificada “Una imagen fotorealista de una persona bailando con otra en [el período histórico]” con “imagen en monochrome” establecida como una solicitud negativa (derecha).

Estilos visuales predichos para imágenes generadas a partir de la solicitud ‘Una persona bailando con otra en [el período histórico]’ (izquierda) y de la solicitud modificada ‘Una imagen fotorealista de una persona bailando con otra en [el período histórico]’ con ‘imagen en monochrome’ establecida como una solicitud negativa (derecha).

Para medir esta tendencia, los autores entrenaron una red neuronal convolucional (CNN) para clasificar cada imagen en el conjunto de datos HistVis en una de cinco categorías: dibujo; grabado; ilustración; pintura; o fotografía. Estas categorías se pretendían reflejar patrones comunes que surgen en los períodos de tiempo y que apoyan la comparación estructurada.

La clasificadora se basó en un modelo VGG16 preentrenado en ImageNet y ajustado con 1,500 ejemplos por clase de un conjunto de datos derivado de WikiArt. Dado que WikiArt no distingue entre fotografía en monochrome y en color, se utilizó una puntuación de colorido para etiquetar imágenes de baja saturación como monocromas.

La clasificadora entrenada se aplicó luego al conjunto de datos completo, con los resultados que muestran que los tres modelos imponen estilos visuales consistentes por período: SDXL asocia los siglos XVII y XVIII con grabados, mientras que SD3 y FLUX.1 tienden hacia pinturas. En las décadas del siglo XX, SD3 favorece la fotografía en monochrome, mientras que SDXL a menudo regresa a ilustraciones modernas.

Estas preferencias se encontraron que persisten a pesar de los ajustes de la solicitud, lo que sugiere que los modelos codifican enlaces arraigados entre estilo y contexto histórico.

Estilos visuales predichos de las imágenes generadas en los períodos históricos para cada modelo de difusión, en función de 1,000 muestras por período por modelo.

Estilos visuales predichos de las imágenes generadas en los períodos históricos para cada modelo de difusión, en función de 1,000 muestras por período por modelo.

Para cuantificar cuán fuertemente un modelo vincula un período histórico a un estilo visual particular, los autores desarrollaron una métrica que titularon dominio del estilo visual (VSD). Para cada modelo y período de tiempo, VSD se define como la proporción de salidas predichas que comparten el estilo más común:

Ejemplos de sesgos estilísticos en los modelos.

Ejemplos de sesgos estilísticos en los modelos.

Una puntuación más alta indica que un solo estilo domina las salidas para ese período, mientras que una puntuación más baja indica una mayor variación. Esto permite comparar cuán estrechamente cada modelo se adhiere a convenciones estilísticas específicas en el tiempo.

Aplicado al conjunto de datos HistVis completo, la métrica VSD revela diferentes niveles de convergencia, lo que ayuda a aclarar cuán fuertemente cada modelo reduce su interpretación visual del pasado:

La tabla de resultados anterior muestra las puntuaciones VSD en los períodos históricos para cada modelo. En los siglos XVII y XVIII, SDXL tiende a producir grabados con una alta consistencia, mientras que SD3 y FLUX.1 favorecen la pintura. En los siglos XX y XXI, SD3 y FLUX.1 se desplazan hacia la fotografía, mientras que SDXL muestra más variación, pero a menudo se defaula a la ilustración.

Todos los modelos demuestran una fuerte preferencia por la imagen en monochrome en las primeras décadas del siglo XX, particularmente en las décadas de 1910, 1930 y 1950.

Para probar si estos patrones podrían mitigarse, los autores utilizaron ingeniería de solicitud, solicitando explícitamente fotorealismo y desalentando la salida en monochrome utilizando una solicitud negativa. En algunos casos, las puntuaciones de dominio disminuyeron, y el estilo principal cambió, por ejemplo, de monochrome a pintura, en los siglos XVII y XVIII.

Sin embargo, estas intervenciones rara vez produjeron imágenes genuinamente fotorealistas, lo que indica que los estilos visuales predeterminados de los modelos están profundamente arraigados.

Coherencia histórica

El siguiente análisis examinó la coherencia histórica: si las imágenes generadas incluían objetos que no encajaban en el período de tiempo. En lugar de utilizar una lista fija de elementos prohibidos, los autores desarrollaron un método flexible que aprovechó los modelos de lenguaje grande (LLM) y los modelos de visión-lenguaje (VLM) para detectar elementos que parecían fuera de lugar, en función del contexto histórico.

El método de detección siguió el mismo formato que el conjunto de datos HistVis, donde cada solicitud combinaba un período histórico con una actividad humana. Para cada solicitud, GPT-4o generó una lista de objetos que estarían fuera de lugar en el período de tiempo especificado; y para cada objeto propuesto, GPT-4o produjo una pregunta de sí o no diseñada para verificar si ese objeto aparecía en la imagen generada.

Por ejemplo, dada la solicitud ‘Una persona escuchando música en el siglo XVIII’, GPT-4o podría identificar dispositivos de audio modernos como históricamente inexactos, y producir la pregunta ¿La persona está utilizando auriculares o un teléfono inteligente que no existía en el siglo XVIII?.

Estas preguntas se pasaron de regreso a GPT-4o en una configuración de respuesta a preguntas visuales, donde el modelo revisó la imagen y regresó una respuesta o no para cada pregunta.

Ejemplos de imágenes generadas marcadas por el método de detección de dos etapas, que muestran elementos anacrónicos: auriculares en el siglo XVIII; una aspiradora en el siglo XIX; una laptop en la década de 1930; y un teléfono inteligente en la década de 1950.

Ejemplos de imágenes generadas marcadas por el método de detección de dos etapas, que muestran elementos anacrónicos: auriculares en el siglo XVIII; una aspiradora en el siglo XIX; una laptop en la década de 1930; y un teléfono inteligente en la década de 1950.

Para medir con qué frecuencia aparecen anacronismos en las imágenes generadas, los autores introdujeron un método simple para puntuar la frecuencia y la gravedad. Primero, tuvieron en cuenta las diferencias menores en la forma en que GPT-4o describía el mismo objeto.

Por ejemplo, dispositivo de audio moderno y dispositivo de audio digital se trataron como equivalentes. Para evitar contar dos veces, se utilizó un sistema de coincidencia difusa para agrupar estas variaciones de superficie sin afectar conceptos genuinamente distintos.

Una vez que se normalizaron todos los anacronismos propuestos, se calcularon dos métricas: frecuencia midió con qué frecuencia aparecía un objeto determinado en las imágenes de un período de tiempo y modelo específicos; y gravedad midió con qué fiabilidad ese objeto aparecía una vez que había sido sugerido por el modelo.

Si un teléfono moderno se marcó diez veces y apareció en diez imágenes generadas, recibió una puntuación de gravedad de 1,0. Si apareció en solo cinco, la puntuación de gravedad fue de 0,5. Estas puntuaciones ayudaron a identificar no solo si aparecían anacronismos, sino también con qué firmeza estaban incrustados en la salida del modelo para cada período:

Los quince elementos anacrónicos más comunes para cada modelo, trazados por frecuencia en el eje x y gravedad en el eje y. Los círculos marcan elementos clasificados en los quince primeros por frecuencia, los triángulos por gravedad y los diamantes por ambos.

Los quince elementos anacrónicos más comunes para cada modelo, trazados por frecuencia en el eje x y gravedad en el eje y. Los círculos marcan elementos clasificados en los quince primeros por frecuencia, los triángulos por gravedad y los diamantes por ambos.

Arriba vemos los quince anacronismos más comunes para cada modelo, clasificados por su frecuencia de aparición y su consistencia.

La ropa fue frecuente pero dispersa, mientras que artículos como dispositivos de audio y equipos de planchado aparecieron con menos frecuencia, pero con una alta consistencia – patrones que sugieren que los modelos a menudo responden a la actividad en la solicitud más que al período de tiempo.

SD3 mostró la tasa más alta de anacronismos, especialmente en imágenes de los siglos XIX y la década de 1930, seguido de FLUX.1 y SDXL.

Para probar cómo bien el método de detección coincidía con el juicio humano, los autores realizaron un estudio de usuario que presentó 1,800 imágenes generadas al azar de SD3 (el modelo con la tasa de anacronismo más alta), con cada imagen calificada por tres trabajadores de la multitud. Después de filtrar las respuestas confiables, se incluyeron 2,040 juicios de 234 usuarios, y el método coincidió con el voto mayoritario en el 72 por ciento de los casos.

Interfaz gráfica de usuario para el estudio de evaluación humana, que muestra instrucciones de la tarea, ejemplos de imágenes precisas y anacrónicas, y preguntas de sí o no para identificar inconsistencias temporales en las salidas generadas.

Interfaz gráfica de usuario para el estudio de evaluación humana, que muestra instrucciones de la tarea, ejemplos de imágenes precisas y anacrónicas, y preguntas de sí o no para identificar inconsistencias temporales en las salidas generadas.

Demografía

El último análisis examinó cómo los modelos representan la raza y el género en el tiempo. Utilizando el conjunto de datos HistVis, los autores compararon las salidas del modelo con estimaciones de referencia generadas por un modelo de lenguaje. Estas estimaciones no fueron precisas, pero ofrecieron una idea aproximada de la plausibilidad histórica, lo que ayudó a revelar si los modelos adaptaban las representaciones al período objetivo.

Para evaluar estas representaciones a gran escala, los autores construyeron una canalización que comparaba las salidas del modelo con expectativas aproximadas para cada período y actividad. Primero, utilizaron la clasificadora FairFace, una herramienta basada en ResNet34 entrenada en más de cien mil imágenes, para detectar el género y la raza en las salidas generadas, lo que permitió medir con qué frecuencia las caras en cada escena se clasificaban como masculinas o femeninas, y para rastrear las categorías raciales en los períodos.

Ejemplos de imágenes generadas que muestran sobrerepresentación demográfica en diferentes modelos, períodos y actividades.

Ejemplos de imágenes generadas que muestran sobrerepresentación demográfica en diferentes modelos, períodos y actividades.

Los resultados de baja confianza se filtraron para reducir el ruido, y las predicciones se promediaron en todas las imágenes vinculadas a un período y actividad específicos. Para verificar la confiabilidad de las lecturas de FairFace, se utilizó un segundo sistema basado en DeepFace en una muestra de 5,000 imágenes. Las dos clasificadoras mostraron un acuerdo fuerte, lo que apoyó la consistencia de las lecturas demográficas utilizadas en el estudio.

Para comparar las salidas del modelo con la plausibilidad histórica, los autores pidieron a GPT-4o que estimara la distribución de género y raza esperada para cada actividad y período de tiempo. Estas estimaciones sirvieron como puntos de referencia aproximados en lugar de verdad de referencia. Se utilizaron dos métricas: sobrerepresentación y subrepresentación, que midieron cuánto se desviaban las salidas del modelo de las expectativas de LLM.

Los resultados mostraron patrones claros: FLUX.1 a menudo sobrerepresentó a los hombres, incluso en escenarios como cocinar, donde se esperaban mujeres; SD3 y SDXL mostraron tendencias similares en categorías como trabajo, educación y religión; las caras blancas aparecieron más de lo esperado en general, aunque este sesgo disminuyó en períodos más recientes; y algunas categorías mostraron aumentos inesperados en la representación no blanca, lo que sugiere que el comportamiento del modelo puede reflejar correlaciones en el conjunto de datos en lugar de contexto histórico:

Sobrerepresentación y subrepresentación de género y raza en las salidas de FLUX.1 en los siglos y actividades, mostradas como diferencias absolutas de las estimaciones demográficas de GPT-4o.

Sobrerepresentación y subrepresentación de género y raza en las salidas de FLUX.1 en los siglos y actividades, mostradas como diferencias absolutas de las estimaciones demográficas de GPT-4o.

Los autores concluyen:

‘Nuestro análisis revela que los modelos [Texto a imagen/TTI] dependen de codificaciones estilísticas limitadas en lugar de comprensiones matizadas de los períodos históricos. Cada era está fuertemente vinculada a un estilo visual específico, lo que resulta en representaciones unidimensionales de la historia.

‘Es notable que las representaciones fotorealistas de personas aparezcan solo a partir del siglo XX en adelante, con solo raras excepciones en FLUX.1 y SD3, lo que sugiere que los modelos refuerzan asociaciones aprendidas en lugar de adaptarse flexiblemente a los contextos históricos, perpetuando la noción de que el realismo es un rasgo moderno.

‘Además, los anacronismos frecuentes sugieren que los períodos históricos no están separados limpiamente en los espacios latentes de estos modelos, ya que los artefactos modernos a menudo emergen en entornos premodernos, lo que socava la confiabilidad de los sistemas TTI en contextos de educación y patrimonio cultural.’

Conclusión

Durante el entrenamiento de un modelo de difusión, los nuevos conceptos no se asientan limpiamente en ranuras predefinidas dentro del espacio latente. En su lugar, forman clusters moldeados por la frecuencia con la que aparecen y por su proximidad a ideas relacionadas. El resultado es una estructura suelta donde los conceptos existen en relación con su frecuencia y contexto típico, en lugar de por alguna separación limpia o empírica.

Esto hace que sea difícil aislar lo que cuenta como ‘histórico’ dentro de un conjunto de datos grande y general. Como sugieren los hallazgos en el nuevo documento, muchos períodos de tiempo están representados más por el aspecto de los medios utilizados para representarlos que por cualquier detalle histórico más profundo.

Esto es una razón por la que sigue siendo difícil generar una imagen fotorealista de calidad de 2025 de un personaje del siglo XIX; en la mayoría de los casos, el modelo dependerá de tropos visuales extraídos del cine y la televisión. Cuando estas fallan en coincidir con la solicitud, hay poco más en los datos para compensar. Superar esta brecha probablemente dependerá de mejoras futuras en la desvinculación de conceptos superpuestos.

 

Publicado por primera vez el lunes, 26 de mayo de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.