Angle d'Anderson
Comment empêcher l'IA de représenter les iPhones d'autrefois

Comment les générateurs d'images IA représentent-ils le passé ? De nouvelles recherches indiquent qu'ils placent des smartphones au XVIIIe siècle, des ordinateurs portables dans des scènes des années 18 et des aspirateurs dans des maisons du XIXe siècle, ce qui soulève des questions sur la manière dont ces modèles imaginent l'histoire – et sur leur capacité à garantir une précision historique contextuelle.
Début 2024, les capacités de génération d'images de Google GEMINI Le modèle d'IA multimodal a été critiqué pour avoir imposé l'équité démographique dans des contextes inappropriés, comme la génération de soldats allemands de la Seconde Guerre mondiale avec une provenance improbable :

Des militaires allemands démographiquement improbables, comme l'envisage le modèle multimodal Gemini de Google en 2024. Source : Gemini AI/Google via The Guardian
Il s’agit d’un exemple où les efforts visant à remédier à la situation biais Les modèles d'IA n'ont pas tenu compte du contexte historique. Dans ce cas précis, la question a été abordée peu après. Cependant, basé sur la diffusion les modèles restent enclins à générer des versions de l’histoire qui confondent les aspects et les artefacts modernes et historiques.
C'est en partie à cause de enchevêtrement, où les qualités qui apparaissent fréquemment ensemble dans les données d'entraînement fusionnent dans les résultats du modèle. Par exemple, si des objets modernes comme les smartphones coexistent souvent avec l'acte de parler ou d'écouter dans l'ensemble de données, le modèle peut apprendre à associer ces activités à des appareils modernes, même lorsque l'invite spécifie un contexte historique. Une fois ces associations intégrées dans les données du modèle, représentations internes, il devient difficile de séparer l’activité de son contexte contemporain, ce qui conduit à des résultats historiquement inexacts.
Un nouvel article de Suisse, examinant le phénomène des générations historiques enchevêtrées dans les modèles de diffusion latente, observe que les cadres d'IA qui sont tout à fait capable de créer des personnes photoréalistes préfèrent néanmoins représenter des personnages historiques de manière historique :
![D'après le nouvel article, diverses représentations via LDM de l'invite « Image photoréaliste d'une personne riant avec un ami à [la période historique] », chaque période étant indiquée dans chaque sortie. Comme on peut le constater, le support de l'époque est désormais associé au contenu. Source : https://arxiv.org/pdf/2505.17064](https://www.unite.ai/wp-content/uploads/2025/05/laughing-with-a-friend.jpg)
D'après le nouvel article, diverses représentations via LDM de l'invite « Image photoréaliste d'une personne riant avec un ami à [la période historique] », chaque période étant indiquée dans chaque sortie. Comme on peut le constater, le support de l'époque est désormais associé au contenu. Source : https://arxiv.org/pdf/2505.17064
En testant les trois modèles pour leur capacité à créer anachronismes (des choses qui ne sont pas de la période cible, ou « hors du temps » – qui peuvent être de la période cible avenir ainsi que son passé), ils ont constaté une tendance générale à confondre des activités intemporelles (comme « chanter » ou « cuisiner ») avec des contextes et des équipements modernes :

Des activités diverses, parfaitement valables pour les siècles précédents, sont représentées avec une technologie et un attirail actuels ou plus récents, à l'encontre de l'esprit de l'imagerie demandée.
Il est à noter que les smartphones sont particulièrement difficiles à séparer du langage de la photographie et de nombreux autres contextes historiques, car leur prolifération et leur représentation sont bien représentées dans des ensembles de données hyperscale influents tels que Exploration commune:

Dans le modèle génératif de texte en image Flux, les communications et les smartphones sont des concepts étroitement associés, même lorsque le contexte historique ne le permet pas.
Afin de déterminer l'ampleur du problème et de fournir des pistes de recherche pour résoudre ce problème particulier, les auteurs de la nouvelle étude ont développé un ensemble de données sur mesure permettant de tester les systèmes génératifs. Nous y reviendrons dans un instant. nouveau travail, qui s'intitule Histoire synthétique : évaluation des représentations visuelles du passé dans les modèles de diffusion, et provient de deux chercheurs de l'Université de Zurich. L'ensemble de données et le code sont accessibles au public.
Une « vérité » fragile
Certains des thèmes abordés dans le document abordent des questions culturellement sensibles, telles que la sous-représentation des races. et le genre Dans les représentations historiques. Si l'imposition par Gemini de l'égalité raciale dans le Troisième Reich, profondément inéquitable, constitue une révision historique absurde et insultante, restaurer les représentations raciales « traditionnelles » (là où les modèles de diffusion les ont « actualisées ») reviendrait souvent à « blanchir à nouveau » l'histoire.
De nombreuses séries historiques à succès récentes, telles que bridgertonbrouillent la précision démographique historique de manière à influencer les futurs ensembles de données d'entraînement, compliquant ainsi les efforts visant à aligner les images de période générées par LLM sur les normes traditionnelles. Il s'agit toutefois d'un sujet complexe, compte tenu de la tendance historique de l’histoire (occidentale) pour favoriser la richesse et la blancheur, et pour laisser tant d’histoires « mineures » non racontées.
En gardant à l’esprit ces paramètres culturels délicats et en constante évolution, examinons la nouvelle approche des chercheurs.
Méthode et tests
Pour tester la manière dont les modèles génératifs interprètent le contexte historique, les auteurs ont créé HistVis, un ensemble de données de 30,000 XNUMX images produites à partir d'une centaine d'invites décrivant des activités humaines courantes, chacune rendue sur dix périodes distinctes :

Un échantillon de l'ensemble de données HistVis, que les auteurs ont mis à disposition sur Hugging Face. Source : https://huggingface.co/datasets/latentcanon/HistVis
Les activités, telles que cuisine, prier or écouter de la musique, ont été choisis pour leur universalité et formulés dans un format neutre afin d'éviter d'ancrer le modèle dans une esthétique particulière. Les périodes couvertes par l'ensemble de données s'étendent du XVIIe siècle à nos jours, avec une attention particulière portée à cinq décennies distinctes du XXe siècle.
30,000 XNUMX images ont été générées à l'aide de trois modèles de diffusion open source largement utilisés : Diffusion Stable XL; Diffusion stable 3Et FLUX.1En isolant la période de temps comme seule variable, les chercheurs ont créé une base structurée pour évaluer la manière dont les indices historiques sont visuellement codés ou ignorés par ces systèmes.
Dominance du style visuel
L'auteur a d'abord examiné si les modèles génératifs par défaut sont spécifiques styles visuels lorsqu'ils représentent des périodes historiques ; car il semble que même lorsque les invites ne mentionnent pas le médium ou l'esthétique, les modèles associent souvent des siècles particuliers à des styles caractéristiques :
![Styles visuels prédits pour les images générées à partir de l'invite « Une personne dansant avec une autre dans la [période historique] » (à gauche) et à partir de l'invite modifiée « Une image photoréaliste d'une personne dansant avec une autre dans la [période historique] » avec « image monochrome » définie comme invite négative (à droite).](https://www.unite.ai/wp-content/uploads/2025/05/period-style.jpg)
Styles visuels prédits pour les images générées à partir de l'invite « Une personne dansant avec une autre dans la [période historique] » (à gauche) et à partir de l'invite modifiée « Une image photoréaliste d'une personne dansant avec une autre dans la [période historique] » avec « image monochrome » définie comme invite négative (à droite).
Le classificateur était basé sur un VGG16 modèle pré-entraîné sur ImageNet et d’une affiné avec 1,500 XNUMX exemples par classe à partir d'un WikiArt-ensemble de données dérivées. Étant donné que WikiArt ne distingue pas la photographie monochrome de la photographie couleur, un ensemble distinct score de couleur a été utilisé pour étiqueter les images à faible saturation comme monochromes.
Le classificateur formé a ensuite été appliqué à l'ensemble des données, et les résultats montrent que les trois modèles imposent des valeurs stylistiques par défaut cohérentes selon la période : SDXL associe les XVIIe et XVIIIe siècles aux gravures, tandis que SD17 et FLUX.18 privilégient les peintures. Au XXe siècle, SD3 privilégie la photographie monochrome, tandis que SDXL renvoie souvent des illustrations modernes.
Ces préférences persistent malgré des ajustements rapides, ce qui suggère que les modèles codent des liens bien ancrés entre le style et le contexte historique.

Styles visuels prédits des images générées à travers des périodes historiques pour chaque modèle de diffusion, sur la base de 1,000 XNUMX échantillons par période et par modèle.
Pour quantifier la force avec laquelle un modèle relie une période historique à un événement particulier style visuel, les auteurs ont développé une mesure qu'ils intitulent Dominance du style visuel (VSD). Pour chaque modèle et période, le VSD est défini comme la proportion de sorties dont on prévoit qu'elles partagent le style le plus courant :

Exemples de biais stylistiques à travers les modèles.
Un score élevé indique qu'un style unique domine les productions pour cette période, tandis qu'un score faible indique une plus grande variation. Cela permet de comparer le degré d'adhésion de chaque modèle à des conventions stylistiques spécifiques au fil du temps.
Appliquée à l'ensemble des données HistVis, la métrique VSD révèle différents niveaux de convergence, aidant à clarifier dans quelle mesure chaque modèle restreint son interprétation visuelle du passé :
Le tableau de résultats ci-dessus présente les scores VSD par période historique pour chaque modèle. Aux XVIIe et XVIIIe siècles, SDXL tend à produire des gravures très homogènes, tandis que SD17 et FLUX.18 privilégient la peinture. Aux XXe et XXIe siècles, SD3 et FLUX.1 s'orientent vers la photographie, tandis que SDXL présente davantage de variations, mais privilégie souvent l'illustration.
Les trois modèles démontrent une forte préférence pour l’imagerie monochrome dans les premières décennies du XXe siècle, en particulier dans les années 20, 1910 et 1930.
Pour tester si ces tendances pouvaient être atténuées, les auteurs ont utilisé ingénierie rapide, demandant explicitement le photoréalisme et décourageant la production monochrome par une invite négative. Dans certains cas, les scores de dominance ont diminué et le style dominant est passé, par exemple, du monochrome au peinture, aux XVIIe et XVIIIe siècles.
Cependant, ces interventions ont rarement produit des images véritablement photoréalistes, ce qui indique que les défauts stylistiques des modèles sont profondément ancrés.
Cohérence historique
La ligne d’analyse suivante a examiné cohérence historique: si les images générées incluaient des objets hors contexte. Au lieu d'utiliser une liste fixe d'éléments interdits, les auteurs ont développé une méthode flexible exploitant les modèles de langage large (LLM) et de langage visuel (VLM) pour repérer les éléments qui semblaient déplacés, en fonction du contexte historique.
La méthode de détection suivait le même format que l'ensemble de données HistVis, où chaque invite combinait une période historique et une activité humaine. Pour chaque invite, GPT-4o générait une liste d'objets susceptibles d'être déplacés dans la période spécifiée ; et pour chaque objet proposé, GPT-4o produisait une Oui ou non question conçue pour vérifier si cet objet apparaît dans l'image générée.
Par exemple, étant donné l'invite « Une personne écoutant de la musique au XVIIIe siècle », GPT-4o pourrait identifier appareils audio modernes comme historiquement inexact, et posent la question La personne utilise-t-elle des écouteurs ou un smartphone qui n’existait pas au 18e siècle ?.
Ces questions ont été transmises à GPT-4o dans une configuration de questions-réponses visuelles, où le modèle a examiné l'image et a renvoyé une réponse. oui or aucune Réponse pour chaque cas. Ce pipeline a permis de détecter des contenus historiquement invraisemblables sans recourir à une taxonomie prédéfinie d'objets modernes :

Exemples d'images générées signalées par la méthode de détection en deux étapes, montrant des éléments anachroniques : des écouteurs au XVIIIe siècle ; un aspirateur au XIXe siècle ; un ordinateur portable dans les années 18 ; et un smartphone dans les années 19.
Pour mesurer la fréquence d'apparition des anachronismes dans les images générées, les auteurs ont mis en place une méthode simple d'évaluation de la fréquence et de la gravité. Ils ont d'abord pris en compte les différences mineures de formulation dans la description du même objet par GPT-4o.
Par exemple, les appareils audio modernes et les appareils audio numériques ont été traités comme équivalents. Pour éviter les doubles comptages, un système de correspondance floue a été utilisé pour regrouper ces variations de niveau superficiel sans affecter des concepts véritablement distincts.
Une fois tous les anachronismes proposés normalisés, deux mesures ont été calculées : fréquence mesuré la fréquence à laquelle un objet donné apparaissait dans les images pour une période et un modèle spécifiques ; et gravité mesuré la fiabilité avec laquelle cet objet apparaissait une fois qu'il avait été suggéré par le modèle.
Si un téléphone moderne était signalé dix fois et apparaissait dans dix images générées, il recevait un score de gravité de 1.0. S'il n'apparaissait que dans cinq images, le score de gravité était de 0.5. Ces scores permettaient non seulement d'identifier les anachronismes, mais aussi de déterminer leur degré d'intégration dans les résultats du modèle pour chaque période :

Les quinze principaux éléments anachroniques de chaque modèle sont représentés par fréquence (abscisse) et par gravité (ordonnée). Les cercles indiquent les éléments classés parmi les quinze premiers par fréquence, les triangles par gravité et les losanges par les deux.
Ci-dessus, nous voyons les quinze anachronismes les plus courants pour chaque modèle, classés en fonction de leur fréquence d'apparition et de leur cohérence avec les invites.
Les vêtements étaient fréquents mais dispersés, tandis que des articles comme les appareils audio et le matériel de repassage apparaissaient moins souvent, mais avec une grande cohérence – des modèles qui suggèrent que les modèles réagissent souvent aux activité dans l'invite plus que la période de temps.
SD3 a montré le taux d'anachronismes le plus élevé, en particulier dans les images du XIXe siècle et des années 19, suivi de FLUX.1930 et SDXL.
Pour tester la conformité de la méthode de détection avec le jugement humain, les auteurs ont mené une étude utilisateur portant sur 1,800 3 images échantillonnées aléatoirement à partir de SD2,040 (le modèle présentant le taux d'anachronisme le plus élevé), chaque image étant évaluée par trois experts. Après filtrage des réponses fiables, 234 72 jugements de XNUMX utilisateurs ont été inclus, et la méthode a concordé avec le vote majoritaire dans XNUMX % des cas.

Interface graphique pour l'étude d'évaluation humaine, montrant les instructions de tâches, des exemples d'images précises et anachroniques et des questions oui-non pour identifier les incohérences temporelles dans les sorties générées.
Démographie
L'analyse finale a examiné la façon dont les modèles représentent la race et le genre au fil du temps. À l'aide de l'ensemble de données HistVis, les auteurs ont comparé les résultats du modèle aux estimations de base générées par un modèle linguistique. Ces estimations, imprécises, offraient une idée approximative de la plausibilité historique, permettant de déterminer si les modèles adaptaient leurs représentations à la période visée.
Pour évaluer ces représentations à grande échelle, les auteurs ont construit un pipeline comparant les données démographiques générées par le modèle aux attentes approximatives pour chaque période et activité. Ils ont d'abord utilisé Visage juste classificateur, un ResNet34-outil basé sur plus de cent mille images, pour détecter le sexe et la race dans les sorties générées, permettant de mesurer la fréquence à laquelle les visages de chaque scène étaient classés comme masculins ou féminins, et de suivre les catégories raciales à travers les périodes.

Exemples d’images générées montrant une surreprésentation démographique dans différents modèles, périodes et activités.
Les résultats peu fiables ont été filtrés afin de réduire le bruit, et les prédictions ont été moyennées sur toutes les images associées à une heure et une activité spécifiques. Pour vérifier la fiabilité des mesures FairFace, un second système basé sur Visage profond a été utilisé sur un échantillon de 5,000 XNUMX images. Les deux classificateurs ont montré une forte concordance, confirmant la cohérence des données démographiques utilisées dans l'étude.
Afin de comparer les résultats du modèle à la plausibilité historique, les auteurs ont demandé à GPT-4o d'estimer la répartition attendue entre les sexes et les origines ethniques pour chaque activité et chaque période. Ces estimations ont servi de base de référence approximative plutôt que de vérité terrain. Deux indicateurs ont ensuite été utilisés : sous-représentation et d’une surreprésentation, mesurant dans quelle mesure les résultats du modèle s'écartent des attentes du LLM.
Les résultats ont montré des tendances claires : FLUX.1 surreprésentait souvent les hommes, même dans des scénarios tels que cuisine, où l'on s'attendait à ce que les femmes ; SD3 et SDXL ont montré des tendances similaires dans des catégories telles que travail, l'éducation et d’une religion; les visages blancs sont apparus plus que prévu dans l'ensemble, bien que ce biais ait diminué au cours des périodes plus récentes ; et certaines catégories ont montré des pics inattendus dans la représentation des non-blancs, suggérant que le comportement du modèle peut refléter des corrélations entre les ensembles de données plutôt qu'un contexte historique :

Surreprésentation et sous-représentation du genre et de la race dans les résultats de FLUX.1 au fil des siècles et des activités, présentées sous forme de différences absolues par rapport aux estimations démographiques du GPT-4o.
Les auteurs concluent:
Notre analyse révèle que les modèles [Text-to-image/TTI] reposent sur des codages stylistiques limités plutôt que sur une compréhension nuancée des périodes historiques. Chaque époque est étroitement liée à un style visuel spécifique, ce qui donne lieu à des représentations unidimensionnelles de l'histoire.
« Il est à noter que les représentations photoréalistes de personnes n'apparaissent qu'à partir du 20e siècle, à de rares exceptions près dans FLUX.1 et SD3, ce qui suggère que les modèles renforcent les associations apprises plutôt que de s'adapter de manière flexible aux contextes historiques, perpétuant ainsi l'idée que le réalisme est un trait moderne.
« De plus, des anachronismes fréquents suggèrent que les périodes historiques ne sont pas clairement séparées dans les espaces latents de ces modèles, puisque les artefacts modernes émergent souvent dans des contextes pré-modernes, ce qui compromet la fiabilité des systèmes TTI dans les contextes éducatifs et du patrimoine culturel. »
Conclusion
Lors de l'apprentissage d'un modèle de diffusion, les nouveaux concepts ne s'intègrent pas parfaitement dans des emplacements prédéfinis de l'espace latent. Ils forment plutôt des groupes déterminés par leur fréquence d'apparition et leur proximité avec des idées apparentées. Il en résulte une structure peu structurée où les concepts existent en fonction de leur fréquence et de leur contexte typique, plutôt que selon une séparation nette et empirique.
Il est donc difficile d'isoler ce qui est considéré comme « historique » au sein d'un vaste ensemble de données à usage général. Comme le suggèrent les résultats de cette nouvelle étude, de nombreuses périodes sont davantage représentées par du dernier des médias utilisés pour les représenter que par des détails historiques plus profonds.
C'est l'une des raisons pour lesquelles il reste difficile de générer une image photoréaliste de qualité 2025 d'un personnage du XIXe siècle (par exemple) ; dans la plupart des cas, le modèle s'appuie sur des tropes visuels tirés du cinéma et de la télévision. Lorsque ceux-ci ne correspondent pas à la demande, les données ne permettent guère de compenser. Combler cet écart dépendra probablement des améliorations futures dans la compréhension des concepts qui se chevauchent.
Première publication le lundi 26 mai 2025