Suivez nous sur

Comment empêcher l'IA de représenter les iPhones d'autrefois

Angle d'Anderson

Comment empêcher l'IA de représenter les iPhones d'autrefois

mm
Un montage de diverses illustrations sélectionnées de l'article « Histoire synthétique : évaluation des représentations visuelles du passé dans les modèles de diffusion » (https://arxiv.org/abs/2505.17064)

Comment les gĂ©nĂ©rateurs d'images IA reprĂ©sentent-ils le passĂ© ? De nouvelles recherches indiquent qu'ils placent des smartphones au XVIIIe siècle, des ordinateurs portables dans des scènes des annĂ©es 18 et des aspirateurs dans des maisons du XIXe siècle, ce qui soulève des questions sur la manière dont ces modèles imaginent l'histoire – et sur leur capacitĂ© Ă  garantir une prĂ©cision historique contextuelle.

 

Début 2024, les capacités de génération d'images de Google GEMINI Le modèle d'IA multimodal a été critiqué pour avoir imposé l'équité démographique dans des contextes inappropriés, comme la génération de soldats allemands de la Seconde Guerre mondiale avec une provenance improbable :

Des militaires allemands dĂ©mographiquement improbables, comme l'envisage le modèle multimodal Gemini de Google en 2024. Source : Gemini AI/Google via The Guardian

Des militaires allemands démographiquement improbables, comme l'envisage le modèle multimodal Gemini de Google en 2024. Source : Gemini AI/Google via The Guardian

Il s’agit d’un exemple où les efforts visant à remédier à la situation biais Les modèles d'IA n'ont pas tenu compte du contexte historique. Dans ce cas précis, la question a été abordée peu après. Cependant, basé sur la diffusion les modèles restent enclins à générer des versions de l’histoire qui confondent les aspects et les artefacts modernes et historiques.

C'est en partie à cause de enchevêtrement, où les qualités qui apparaissent fréquemment ensemble dans les données d'entraînement fusionnent dans les résultats du modèle. Par exemple, si des objets modernes comme les smartphones coexistent souvent avec l'acte de parler ou d'écouter dans l'ensemble de données, le modèle peut apprendre à associer ces activités à des appareils modernes, même lorsque l'invite spécifie un contexte historique. Une fois ces associations intégrées dans les données du modèle, représentations internes, il devient difficile de séparer l’activité de son contexte contemporain, ce qui conduit à des résultats historiquement inexacts.

Un nouvel article de Suisse, examinant le phénomène des générations historiques enchevêtrées dans les modèles de diffusion latente, observe que les cadres d'IA qui sont tout à fait capable de créer des personnes photoréalistes préfèrent néanmoins représenter des personnages historiques de manière historique :

D'après le nouvel article, diverses reprĂ©sentations via LDM de l'invite « Image photorĂ©aliste d'une personne riant avec un ami Ă  [la pĂ©riode historique] Â», chaque pĂ©riode Ă©tant indiquĂ©e dans chaque sortie. Comme on peut le constater, le support de l'Ă©poque est dĂ©sormais associĂ© au contenu. Source : https://arxiv.org/pdf/2505.17064

D'après le nouvel article, diverses reprĂ©sentations via LDM de l'invite « Image photorĂ©aliste d'une personne riant avec un ami Ă  [la pĂ©riode historique] Â», chaque pĂ©riode Ă©tant indiquĂ©e dans chaque sortie. Comme on peut le constater, le support de l'Ă©poque est dĂ©sormais associĂ© au contenu. Source : https://arxiv.org/pdf/2505.17064

Pour l'invite « Une image photoréaliste d'une personne riant avec un ami dans [la période historique] », l'un des trois modèles testés ignore souvent l'invite négative « monochrome » et utilise plutôt des traitements de couleurs qui reflètent les médias visuels de l'époque spécifiée, imitant par exemple les tons atténués du film celluloïd des années 1950 et 1970.

En testant les trois modèles pour leur capacité à créer anachronismes (des choses qui ne sont pas de la période cible, ou « hors du temps » – qui peuvent être de la période cible avenir ainsi que son passé), ils ont constaté une tendance générale à confondre des activités intemporelles (comme « chanter » ou « cuisiner ») avec des contextes et des équipements modernes :

Des activités diverses, parfaitement valables pour les siècles précédents, sont représentées avec une technologie et un attirail actuels ou plus récents, à l'encontre de l'esprit de l'imagerie demandée.

Des activités diverses, parfaitement valables pour les siècles précédents, sont représentées avec une technologie et un attirail actuels ou plus récents, à l'encontre de l'esprit de l'imagerie demandée.

Il est à noter que les smartphones sont particulièrement difficiles à séparer du langage de la photographie et de nombreux autres contextes historiques, car leur prolifération et leur représentation sont bien représentées dans des ensembles de données hyperscale influents tels que Exploration commune:

Dans le modèle génératif de texte en image Flux, les communications et les smartphones sont des concepts étroitement associés, même lorsque le contexte historique ne le permet pas.

Dans le modèle génératif de texte en image Flux, les communications et les smartphones sont des concepts étroitement associés, même lorsque le contexte historique ne le permet pas.

Afin de dĂ©terminer l'ampleur du problème et de fournir des pistes de recherche pour rĂ©soudre ce problème particulier, les auteurs de la nouvelle Ă©tude ont dĂ©veloppĂ© un ensemble de donnĂ©es sur mesure permettant de tester les systèmes gĂ©nĂ©ratifs. Nous y reviendrons dans un instant. nouveau travail, qui s'intitule Histoire synthĂ©tique : Ă©valuation des reprĂ©sentations visuelles du passĂ© dans les modèles de diffusion, et provient de deux chercheurs de l'UniversitĂ© de Zurich. L'ensemble de donnĂ©es et le code sont accessibles au public.

Une « vérité » fragile

Certains des thèmes abordés dans le document abordent des questions culturellement sensibles, telles que la sous-représentation des races. et le genre Dans les représentations historiques. Si l'imposition par Gemini de l'égalité raciale dans le Troisième Reich, profondément inéquitable, constitue une révision historique absurde et insultante, restaurer les représentations raciales « traditionnelles » (là où les modèles de diffusion les ont « actualisées ») reviendrait souvent à « blanchir à nouveau » l'histoire.

De nombreuses séries historiques à succès récentes, telles que bridgertonbrouillent la précision démographique historique de manière à influencer les futurs ensembles de données d'entraînement, compliquant ainsi les efforts visant à aligner les images de période générées par LLM sur les normes traditionnelles. Il s'agit toutefois d'un sujet complexe, compte tenu de la tendance historique de l’histoire (occidentale) pour favoriser la richesse et la blancheur, et pour laisser tant d’histoires « mineures » non racontées.

En gardant à l’esprit ces paramètres culturels délicats et en constante évolution, examinons la nouvelle approche des chercheurs.

Méthode et tests

Pour tester la manière dont les modèles génératifs interprètent le contexte historique, les auteurs ont créé HistVis, un ensemble de données de 30,000 XNUMX images produites à partir d'une centaine d'invites décrivant des activités humaines courantes, chacune rendue sur dix périodes distinctes :

Un Ă©chantillon de l'ensemble de donnĂ©es HistVis, mis Ă  disposition par les auteurs sur Hugging Face. Source : https://huggingface.co/datasets/latentcanon/HistVis

Un échantillon de l'ensemble de données HistVis, que les auteurs ont mis à disposition sur Hugging Face. Source : https://huggingface.co/datasets/latentcanon/HistVis

Les activités, telles que cuisine, prier or écouter de la musique, ont été choisis pour leur universalité et formulés dans un format neutre afin d'éviter d'ancrer le modèle dans une esthétique particulière. Les périodes couvertes par l'ensemble de données s'étendent du XVIIe siècle à nos jours, avec une attention particulière portée à cinq décennies distinctes du XXe siècle.

30,000 XNUMX images ont été générées à l'aide de trois modèles de diffusion open source largement utilisés : Diffusion Stable XL; Diffusion stable 3Et FLUX.1En isolant la période de temps comme seule variable, les chercheurs ont créé une base structurée pour évaluer la manière dont les indices historiques sont visuellement codés ou ignorés par ces systèmes.

Dominance du style visuel

L'auteur a d'abord examiné si les modèles génératifs par défaut sont spécifiques styles visuels lorsqu'ils représentent des périodes historiques ; car il semble que même lorsque les invites ne mentionnent pas le médium ou l'esthétique, les modèles associent souvent des siècles particuliers à des styles caractéristiques :

Styles visuels prédits pour les images générées à partir de l'invite « Une personne dansant avec une autre dans la [période historique] » (à gauche) et à partir de l'invite modifiée « Une image photoréaliste d'une personne dansant avec une autre dans la [période historique] » avec « image monochrome » définie comme invite négative (à droite).

Styles visuels prédits pour les images générées à partir de l'invite « Une personne dansant avec une autre dans la [période historique] » (à gauche) et à partir de l'invite modifiée « Une image photoréaliste d'une personne dansant avec une autre dans la [période historique] » avec « image monochrome » définie comme invite négative (à droite).

Pour mesurer cette tendance, les auteurs ont formĂ© un rĂ©seau de neurones convolutifs (CNN) pour classer chaque image de l'ensemble de donnĂ©es HistVis dans l'une des cinq catĂ©gories suivantes : dessin; gravure; illustration; peinture; ou photographieCes catĂ©gories Ă©taient destinĂ©es Ă  reflĂ©ter les modèles communs qui Ă©mergent Ă  travers les pĂ©riodes et qui soutiennent une comparaison structurĂ©e.

Le classificateur était basé sur un VGG16 modèle pré-entraîné sur ImageNet et d’une affiné avec 1,500 XNUMX exemples par classe à partir d'un WikiArt-ensemble de données dérivées. Étant donné que WikiArt ne distingue pas la photographie monochrome de la photographie couleur, un ensemble distinct score de couleur a été utilisé pour étiqueter les images à faible saturation comme monochromes.

Le classificateur formĂ© a ensuite Ă©tĂ© appliquĂ© Ă  l'ensemble des donnĂ©es, et les rĂ©sultats montrent que les trois modèles imposent des valeurs stylistiques par dĂ©faut cohĂ©rentes selon la pĂ©riode : SDXL associe les XVIIe et XVIIIe siècles aux gravures, tandis que SD17 et FLUX.18 privilĂ©gient les peintures. Au XXe siècle, SD3 privilĂ©gie la photographie monochrome, tandis que SDXL renvoie souvent des illustrations modernes.

Ces préférences persistent malgré des ajustements rapides, ce qui suggère que les modèles codent des liens bien ancrés entre le style et le contexte historique.

Styles visuels prédits des images générées à travers des périodes historiques pour chaque modèle de diffusion, sur la base de 1,000 XNUMX échantillons par période et par modèle.

Styles visuels prédits des images générées à travers des périodes historiques pour chaque modèle de diffusion, sur la base de 1,000 XNUMX échantillons par période et par modèle.

Pour quantifier la force avec laquelle un modèle relie une pĂ©riode historique Ă  un Ă©vĂ©nement particulier style visuel, les auteurs ont dĂ©veloppĂ© une mesure qu'ils intitulent Dominance du style visuel (VSD). Pour chaque modèle et pĂ©riode, le VSD est dĂ©fini comme la proportion de sorties dont on prĂ©voit qu'elles partagent le style le plus courant :

Exemples de biais stylistiques à travers les modèles.

Exemples de biais stylistiques à travers les modèles.

Un score élevé indique qu'un style unique domine les productions pour cette période, tandis qu'un score faible indique une plus grande variation. Cela permet de comparer le degré d'adhésion de chaque modèle à des conventions stylistiques spécifiques au fil du temps.

AppliquĂ©e Ă  l'ensemble des donnĂ©es HistVis, la mĂ©trique VSD rĂ©vèle diffĂ©rents niveaux de convergence, aidant Ă  clarifier dans quelle mesure chaque modèle restreint son interprĂ©tation visuelle du passĂ© :

Le tableau de résultats ci-dessus présente les scores VSD par période historique pour chaque modèle. Aux XVIIe et XVIIIe siècles, SDXL tend à produire des gravures très homogènes, tandis que SD17 et FLUX.18 privilégient la peinture. Aux XXe et XXIe siècles, SD3 et FLUX.1 s'orientent vers la photographie, tandis que SDXL présente davantage de variations, mais privilégie souvent l'illustration.

Les trois modèles démontrent une forte préférence pour l’imagerie monochrome dans les premières décennies du XXe siècle, en particulier dans les années 20, 1910 et 1930.

Pour tester si ces tendances pouvaient être atténuées, les auteurs ont utilisé ingénierie rapide, demandant explicitement le photoréalisme et décourageant la production monochrome par une invite négative. Dans certains cas, les scores de dominance ont diminué et le style dominant est passé, par exemple, du monochrome au peinture, aux XVIIe et XVIIIe siècles.

Cependant, ces interventions ont rarement produit des images véritablement photoréalistes, ce qui indique que les défauts stylistiques des modèles sont profondément ancrés.

Cohérence historique

La ligne d’analyse suivante a examiné cohérence historique: si les images générées incluaient des objets hors contexte. Au lieu d'utiliser une liste fixe d'éléments interdits, les auteurs ont développé une méthode flexible exploitant les modèles de langage large (LLM) et de langage visuel (VLM) pour repérer les éléments qui semblaient déplacés, en fonction du contexte historique.

La mĂ©thode de dĂ©tection suivait le mĂŞme format que l'ensemble de donnĂ©es HistVis, oĂą chaque invite combinait une pĂ©riode historique et une activitĂ© humaine. Pour chaque invite, GPT-4o gĂ©nĂ©rait une liste d'objets susceptibles d'ĂŞtre dĂ©placĂ©s dans la pĂ©riode spĂ©cifiĂ©e ; et pour chaque objet proposĂ©, GPT-4o produisait une Oui ou non question conçue pour vĂ©rifier si cet objet apparaĂ®t dans l'image gĂ©nĂ©rĂ©e.

Par exemple, étant donné l'invite « Une personne écoutant de la musique au XVIIIe siècle », GPT-4o pourrait identifier appareils audio modernes comme historiquement inexact, et posent la question La personne utilise-t-elle des écouteurs ou un smartphone qui n’existait pas au 18e siècle ?.

Ces questions ont Ă©tĂ© transmises Ă  GPT-4o dans une configuration de questions-rĂ©ponses visuelles, oĂą le modèle a examinĂ© l'image et a renvoyĂ© une rĂ©ponse. oui or aucune RĂ©ponse pour chaque cas. Ce pipeline a permis de dĂ©tecter des contenus historiquement invraisemblables sans recourir Ă  une taxonomie prĂ©dĂ©finie d'objets modernes :

Exemples d'images générées signalées par la méthode de détection en deux étapes, montrant des éléments anachroniques : des écouteurs au XVIIIe siècle ; un aspirateur au XIXe siècle ; un ordinateur portable dans les années 18 ; et un smartphone dans les années 19.

Exemples d'images générées signalées par la méthode de détection en deux étapes, montrant des éléments anachroniques : des écouteurs au XVIIIe siècle ; un aspirateur au XIXe siècle ; un ordinateur portable dans les années 18 ; et un smartphone dans les années 19.

Pour mesurer la fréquence d'apparition des anachronismes dans les images générées, les auteurs ont mis en place une méthode simple d'évaluation de la fréquence et de la gravité. Ils ont d'abord pris en compte les différences mineures de formulation dans la description du même objet par GPT-4o.

Par exemple, les appareils audio modernes et les appareils audio numériques ont été traités comme équivalents. Pour éviter les doubles comptages, un système de correspondance floue a été utilisé pour regrouper ces variations de niveau superficiel sans affecter des concepts véritablement distincts.

Une fois tous les anachronismes proposĂ©s normalisĂ©s, deux mesures ont Ă©tĂ© calculĂ©es : frĂ©quence mesurĂ© la frĂ©quence Ă  laquelle un objet donnĂ© apparaissait dans les images pour une pĂ©riode et un modèle spĂ©cifiques ; et gravitĂ© mesurĂ© la fiabilitĂ© avec laquelle cet objet apparaissait une fois qu'il avait Ă©tĂ© suggĂ©rĂ© par le modèle.

Si un tĂ©lĂ©phone moderne Ă©tait signalĂ© dix fois et apparaissait dans dix images gĂ©nĂ©rĂ©es, il recevait un score de gravitĂ© de 1.0. S'il n'apparaissait que dans cinq images, le score de gravitĂ© Ă©tait de 0.5. Ces scores permettaient non seulement d'identifier les anachronismes, mais aussi de dĂ©terminer leur degrĂ© d'intĂ©gration dans les rĂ©sultats du modèle pour chaque pĂ©riode :

Les quinze principaux éléments anachroniques de chaque modèle sont représentés par fréquence (abscisse) et par gravité (ordonnée). Les cercles indiquent les éléments classés parmi les quinze premiers par fréquence, les triangles par gravité et les losanges par les deux.

Les quinze principaux éléments anachroniques de chaque modèle sont représentés par fréquence (abscisse) et par gravité (ordonnée). Les cercles indiquent les éléments classés parmi les quinze premiers par fréquence, les triangles par gravité et les losanges par les deux.

Ci-dessus, nous voyons les quinze anachronismes les plus courants pour chaque modèle, classés en fonction de leur fréquence d'apparition et de leur cohérence avec les invites.

Les vêtements étaient fréquents mais dispersés, tandis que des articles comme les appareils audio et le matériel de repassage apparaissaient moins souvent, mais avec une grande cohérence – des modèles qui suggèrent que les modèles réagissent souvent aux activité dans l'invite plus que la période de temps.

SD3 a montré le taux d'anachronismes le plus élevé, en particulier dans les images du XIXe siècle et des années 19, suivi de FLUX.1930 et SDXL.

Pour tester la conformitĂ© de la mĂ©thode de dĂ©tection avec le jugement humain, les auteurs ont menĂ© une Ă©tude utilisateur portant sur 1,800 3 images Ă©chantillonnĂ©es alĂ©atoirement Ă  partir de SD2,040 (le modèle prĂ©sentant le taux d'anachronisme le plus Ă©levĂ©), chaque image Ă©tant Ă©valuĂ©e par trois experts. Après filtrage des rĂ©ponses fiables, 234 72 jugements de XNUMX utilisateurs ont Ă©tĂ© inclus, et la mĂ©thode a concordĂ© avec le vote majoritaire dans XNUMX % des cas.

Interface graphique pour l'étude d'évaluation humaine, montrant les instructions de tâches, des exemples d'images précises et anachroniques et des questions oui-non pour identifier les incohérences temporelles dans les sorties générées.

Interface graphique pour l'étude d'évaluation humaine, montrant les instructions de tâches, des exemples d'images précises et anachroniques et des questions oui-non pour identifier les incohérences temporelles dans les sorties générées.

Démographie

L'analyse finale a examiné la façon dont les modèles représentent la race et le genre au fil du temps. À l'aide de l'ensemble de données HistVis, les auteurs ont comparé les résultats du modèle aux estimations de base générées par un modèle linguistique. Ces estimations, imprécises, offraient une idée approximative de la plausibilité historique, permettant de déterminer si les modèles adaptaient leurs représentations à la période visée.

Pour évaluer ces représentations à grande échelle, les auteurs ont construit un pipeline comparant les données démographiques générées par le modèle aux attentes approximatives pour chaque période et activité. Ils ont d'abord utilisé Visage juste classificateur, un ResNet34-outil basé sur plus de cent mille images, pour détecter le sexe et la race dans les sorties générées, permettant de mesurer la fréquence à laquelle les visages de chaque scène étaient classés comme masculins ou féminins, et de suivre les catégories raciales à travers les périodes.

Exemples d’images générées montrant une surreprésentation démographique dans différents modèles, périodes et activités.

Exemples d’images générées montrant une surreprésentation démographique dans différents modèles, périodes et activités.

Les rĂ©sultats peu fiables ont Ă©tĂ© filtrĂ©s afin de rĂ©duire le bruit, et les prĂ©dictions ont Ă©tĂ© moyennĂ©es sur toutes les images associĂ©es Ă  une heure et une activitĂ© spĂ©cifiques. Pour vĂ©rifier la fiabilitĂ© des mesures FairFace, un second système basĂ© sur Visage profond a Ă©tĂ© utilisĂ© sur un Ă©chantillon de 5,000 XNUMX images. Les deux classificateurs ont montrĂ© une forte concordance, confirmant la cohĂ©rence des donnĂ©es dĂ©mographiques utilisĂ©es dans l'Ă©tude.

Afin de comparer les rĂ©sultats du modèle Ă  la plausibilitĂ© historique, les auteurs ont demandĂ© Ă  GPT-4o d'estimer la rĂ©partition attendue entre les sexes et les origines ethniques pour chaque activitĂ© et chaque pĂ©riode. Ces estimations ont servi de base de rĂ©fĂ©rence approximative plutĂ´t que de vĂ©ritĂ© terrain. Deux indicateurs ont ensuite Ă©tĂ© utilisĂ©s : sous-reprĂ©sentation et d’une surreprĂ©sentation, mesurant dans quelle mesure les rĂ©sultats du modèle s'Ă©cartent des attentes du LLM.

Les résultats ont montré des tendances claires : FLUX.1 surreprésentait souvent les hommes, même dans des scénarios tels que cuisine, où l'on s'attendait à ce que les femmes ; SD3 et SDXL ont montré des tendances similaires dans des catégories telles que travail, l'éducation et d’une religion; les visages blancs sont apparus plus que prévu dans l'ensemble, bien que ce biais ait diminué au cours des périodes plus récentes ; et certaines catégories ont montré des pics inattendus dans la représentation des non-blancs, suggérant que le comportement du modèle peut refléter des corrélations entre les ensembles de données plutôt qu'un contexte historique :

Surreprésentation et sous-représentation du genre et de la race dans les résultats de FLUX.1 au fil des siècles et des activités, présentées sous forme de différences absolues par rapport aux estimations démographiques du GPT-4o.

Surreprésentation et sous-représentation du genre et de la race dans les résultats de FLUX.1 au fil des siècles et des activités, présentées sous forme de différences absolues par rapport aux estimations démographiques du GPT-4o.

Les auteurs concluent:

Notre analyse révèle que les modèles [Text-to-image/TTI] reposent sur des codages stylistiques limités plutôt que sur une compréhension nuancée des périodes historiques. Chaque époque est étroitement liée à un style visuel spécifique, ce qui donne lieu à des représentations unidimensionnelles de l'histoire.

« Il est à noter que les représentations photoréalistes de personnes n'apparaissent qu'à partir du 20e siècle, à de rares exceptions près dans FLUX.1 et SD3, ce qui suggère que les modèles renforcent les associations apprises plutôt que de s'adapter de manière flexible aux contextes historiques, perpétuant ainsi l'idée que le réalisme est un trait moderne.

« De plus, des anachronismes fréquents suggèrent que les périodes historiques ne sont pas clairement séparées dans les espaces latents de ces modèles, puisque les artefacts modernes émergent souvent dans des contextes pré-modernes, ce qui compromet la fiabilité des systèmes TTI dans les contextes éducatifs et du patrimoine culturel. »

Conclusion

Lors de l'apprentissage d'un modèle de diffusion, les nouveaux concepts ne s'intègrent pas parfaitement dans des emplacements prédéfinis de l'espace latent. Ils forment plutôt des groupes déterminés par leur fréquence d'apparition et leur proximité avec des idées apparentées. Il en résulte une structure peu structurée où les concepts existent en fonction de leur fréquence et de leur contexte typique, plutôt que selon une séparation nette et empirique.

Il est donc difficile d'isoler ce qui est considéré comme « historique » au sein d'un vaste ensemble de données à usage général. Comme le suggèrent les résultats de cette nouvelle étude, de nombreuses périodes sont davantage représentées par du dernier des médias utilisés pour les représenter que par des détails historiques plus profonds.

C'est l'une des raisons pour lesquelles il reste difficile de gĂ©nĂ©rer une image photorĂ©aliste de qualitĂ© 2025 d'un personnage du XIXe siècle (par exemple) ; dans la plupart des cas, le modèle s'appuie sur des tropes visuels tirĂ©s du cinĂ©ma et de la tĂ©lĂ©vision. Lorsque ceux-ci ne correspondent pas Ă  la demande, les donnĂ©es ne permettent guère de compenser. Combler cet Ă©cart dĂ©pendra probablement des amĂ©liorations futures dans la comprĂ©hension des concepts qui se chevauchent.

 

Première publication le lundi 26 mai 2025