Unghiul lui Anderson

Cum să împiedicați inteligența artificială să reprezinte iPhone-uri în epoci trecute

Published May 26, 2025

Updated April 26, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

Cum imaginează generatorii de imagini AI trecutul? Noi cercetări indică faptul că acestea plasează smartphone-uri în secolul al XVIII-lea, introduc laptopuri în scene din anii 1930 și plasează aspiratoare în case din secolul al XIX-lea, ridicând întrebări despre modul în care aceste modele imaginează istoria – și dacă sunt capabile să atingă acuratețea istorică contextuală.

La începutul anului 2024, capacitățile de generare a imaginilor modelului multimodal AI Gemini de la Google au fost criticate pentru impunerea demografiei corecte în contexte inadecvate, cum ar fi generarea de soldați germani din al Doilea Război Mondial cu o proveniență neplauzibilă:

Personal militar german cu demografie improbabilă, așa cum a fost imaginat de modelul multimodal Gemini de la Google în 2024. Sursă: Gemini AI/Google via The Guardian

Acesta a fost un exemplu în care eforturile de a corecta prejudecățile în modelele AI au eșuat în a lua în considerare contextul istoric. În acest caz, problema a fost rezolvată în curând. Cu toate acestea, modelele bazate pe difuzie rămân predispuse să genereze versiuni ale istoriei care confundă aspectele și artefactele moderne și istorice.

Acest lucru se datorează în parte împletirii, unde calitățile care apar frecvent împreună în datele de antrenare devin fuzionate în ieșirea modelului. De exemplu, dacă obiectele moderne, cum ar fi smartphone-urile, apar frecvent împreună cu actul de a vorbi sau de a asculta în setul de date, modelul poate învăța să asocieze aceste activități cu dispozitivele moderne, chiar și atunci când promptul specifică un context istoric. Odată ce aceste asocieri sunt încorporate în reprezentările interne ale modelului, devine dificil să separați activitatea de contextul său contemporan, ceea ce duce la rezultate istoric inexacte.

Un nou studiu din Elveția, care examinează fenomenul de generații istorice împletite în modelele de difuzie latentă, observă că cadrele AI care sunt capabile să creeze imagini fotorealistice cu oameni preferă totuși să reprezinte figuri istorice în moduri istorice:

Din noul studiu, reprezentări diverse prin LDM ale promptului ‘O imagine fotorealistă a unei persoane care râde cu un prieten în [perioada istorică]’, cu fiecare perioadă indicată în fiecare ieșire. Așa cum putem vedea, mediul epocii a devenit asociat cu conținutul. Sursă: https://arxiv.org/pdf/2505.17064

Pentru promptul ‘O imagine fotorealistă a unei persoane care râde cu un prieten în [perioada istorică]’, unul dintre cele trei modele testate a ignorat adesea promptul negativ ‘monocrom’ și a folosit în schimb tratamente de culoare care reflectă media vizuală a epocii specificate, de exemplu imitând tonurile estompate ale filmului de celuloid din anii 1950 și 1970.

La testarea celor trei modele pentru capacitatea lor de a crea anacronisme (lucruri care nu sunt din perioada țintă, sau ‘în afara timpului’ – care pot fi din viitorul sau trecutul perioadei țintă), s-a constatat o tendință generală de a confunda activitățile eterne (cum ar fi ‘cântatul’ sau ‘gătitul’) cu contexte și echipamente moderne:

Activități diverse care sunt perfect valabile pentru secolele anterioare sunt reprezentate cu tehnologie și accesorii actuale sau mai recente, împotriva spiritului imaginilor solicitate.

De remarcat este faptul că smartphone-urile sunt deosebit de dificil de separat de idiomul fotografiei și de multe alte contexte istorice, deoarece proliferarea și reprezentarea lor sunt bine reprezentate în seturi de date influente, cum ar fi Common Crawl:

În modelul generativ de text-la-imagini Flux, comunicațiile și smartphone-urile sunt concepte strâns asociate – chiar și atunci când contextul istoric nu o permite.

Pentru a determina amploarea problemei și pentru a oferi eforturilor de cercetare viitoare o cale de a face față acestei probleme, autorii noului studiu au dezvoltat un set de date special creat pentru a testa sistemele generative. În curând, vom examina acest nou studiu, care se intitulează Istoria sintetică: Evaluarea reprezentărilor vizuale ale trecutului în modelele de difuzie și provine de la doi cercetători de la Universitatea din Zurich. Setul de date și codul sunt disponibile public.

O “adevăr” fragil

Unele dintre temele din studiu ating probleme sensibile din punct de vedere cultural, cum ar fi subreprezentarea raselor și a genului în reprezentările istorice. În timp ce impunerea de către Gemini a egalității rasiale în al Treilea Reich este o revizuire istorică absurdă și jignitoare, restaurarea ‘reprezentărilor tradiționale’ (unde modelele de difuzie au ‘actualizat’ acestea) ar avea adesea ca efect ‘albirea’ istoriei.

Multe dintre serialele istorice de succes recente, cum ar fi Bridgerton, estompează acuratețea demografică istorică în moduri care sunt probabil să influențeze seturile de date de antrenare viitoare, complicând eforturile de a alinia imagini generate de LLM cu standardele tradiționale. Cu toate acestea, acesta este un subiect complex, având în vedere tendința istorică a (istoriei occidentale) de a favoriza bogăția și albețea și de a lăsa multe ‘povești mai mici’ nespuse.

Având în vedere aceste parametri culturale complexe și în schimbare, să examinăm abordarea cercetătorilor.

Metodă și teste

Pentru a testa cum modelele generative interpretează contextul istoric, autorii au creat HistVis, un set de date de 30.000 de imagini produse din 100 de prompturi care reprezintă activități umane comune, fiecare reprezentat în 10 perioade istorice distincte:

Un exemplu din setul de date HistVis, pe care autorii l-au făcut disponibil pe Hugging Face. Sursă: https://huggingface.co/datasets/latentcanon/HistVis

Activitățile, cum ar fi gătitul, rugăciunea sau ascultarea muzicii, au fost alese pentru universalitatea lor și formulate într-un format neutru pentru a evita ancorarea modelului într-o anumită estetică. Perioadele de timp pentru setul de date variază de la secolul al XVII-lea până în prezent, cu accent suplimentar pe cinci decenii individuale din secolul al XX-lea.

30.000 de imagini au fost generate folosind trei modele de difuzie deschise, larg utilizate: Stable Diffusion XL; Stable Diffusion 3; și FLUX.1. Prin izolarea perioadei de timp ca singura variabilă, cercetătorii au creat o bază structurată pentru evaluarea modului în care modelele vizuale încorporează sau ignoră indicii istorice.

Stil vizual dominant

Autorii au examinat inițial dacă modelele generative adoptă stiluri vizuale specifice atunci când reprezintă perioade istorice; deoarece părea că, chiar și atunci când prompturile nu conțineau nicio mențiune despre mediu sau estetică, modelele asociatu frecvent secolele cu stiluri caracteristice:

Stiluri vizuale prezise pentru imagini generate din promptul ‘O persoană care dansează cu altcineva în [perioada istorică]’ (stânga) și din promptul modificat ‘O imagine fotorealistă a unei persoane care dansează cu altcineva în [perioada istorică]’ cu ‘imagine monocromă’ setată ca prompt negativ (dreapta).

Pentru a măsura această tendință, autorii au antrenat o rețea neuronală convoluțională (CNN) pentru a clasifica fiecare imagine din setul de date HistVis în una dintre cinci categorii: desen; gravură; ilustrație; pictură; sau fotografie. Aceste categorii au fost menite să reflecte tipare comune care apar de-a lungul perioadelor de timp și care susțin comparația structurată.

Clasificatorul a fost bazat pe un model VGG16 preantrenat pe ImageNet și reglat cu 1.500 de exemple pe clasă dintr-un set de date derivat din WikiArt. Deoarece WikiArt nu distinge între monocrom și culoare, s-a utilizat un scor de culoare pentru a eticheta imagini cu saturație scăzută ca fiind monocrome.

Clasificatorul antrenat a fost apoi aplicat setului de date complet, iar rezultatele au arătat că toate cele trei modele impun stiluri vizuale specifice pentru fiecare perioadă: SDXL asociază secolele al XVII-lea și al XVIII-lea cu gravuri, în timp ce SD3 și FLUX.1 tind spre picturi. În deceniile secolului al XX-lea, SD3 favorizează fotografia monocromă, în timp ce SDXL arată mai multă variație, dar adesea se îndreaptă spre ilustrații.

Aceste preferințe au fost găsite să persiste în ciuda ajustărilor promptului, ceea ce sugerează că modelele încorporează legături între stil și context istoric.

Stiluri vizuale prezise pentru imagini generate de-a lungul perioadelor istorice pentru fiecare model de difuzie, pe baza a 1.000 de exemple pe perioadă pe model.

Pentru a cuantifica cât de puternic un model leagă o perioadă istorică de un anumit stil vizual, autorii au dezvoltat o metrică pe care o numesc dominanță a stilului vizual (VSD). Pentru fiecare model și perioadă de timp, VSD este definită ca proporția ieșirilor prezise care împărtășesc cel mai comun stil:

Exemple de prejudecăți stilistice de-a lungul modelelor.

Un scor mai mare indică faptul că un singur stil domină ieșirile pentru acea perioadă, în timp ce un scor mai mic indică o variație mai mare. Acest lucru permite compararea modului în care fiecare model se conformează convențiilor stilistice specifice de-a lungul timpului.

Aplicată setului de date complet HistVis, metrica VSD revelează niveluri diferite de convergență, ajutând la clarificarea modului în care fiecare model îngustează interpretarea sa vizuală a trecutului:

Tabelul de rezultate de mai sus arată scorurile VSD de-a lungul perioadelor istorice pentru fiecare model. În secolele al XVII-lea și al XVIII-lea, SDXL tinde să producă gravuri cu o consistență ridicată, în timp ce SD3 și FLUX.1 preferă picturile. În secolele al XX-lea și al XXI-lea, SD3 și FLUX.1 se îndreaptă spre fotografia, în timp ce SDXL arată mai multă variație, dar adesea se îndreaptă spre ilustrații.

Toate cele trei modele demonstrează o preferință puternică pentru imagini monocrome în deceniile mai timpurii ale secolului al XX-lea, în special în anii 1910, 1930 și 1950.

Pentru a testa dacă aceste modele pot fi mitigate, autorii au utilizat ingineria promptului, solicitând în mod explicit fotorealismul și descurajând ieșirile monocrome prin intermediul unui prompt negativ. În unele cazuri, scorurile de dominanță au scăzut, iar stilul principal a fost modificat, de exemplu de la monocrom la pictură, în secolele al XVII-lea și al XVIII-lea.

Cu toate acestea, aceste intervenții rareori au produs imagini cu adevărat fotorealistice, ceea ce indică faptul că preferințele stilistice ale modelelor sunt profund încorporate.

Coerență istorică

Următoarea linie de analiză a examinat coerența istorică: dacă imaginile generate conțin obiecte care nu se potrivesc perioadei de timp. În loc de a utiliza o listă fixă de articole interzise, autorii au dezvoltat o metodă flexibilă care a utilizat modele de limbaj mare (LLM) și modele de limbaj-viziune (VLM) pentru a identifica elemente care păreau în afara contextului istoric.

Metoda de detectare a urmat același format ca și setul de date HistVis, unde fiecare prompt a combinat o perioadă istorică cu o activitate umană. Pentru fiecare prompt, GPT-4o a generat o listă de obiecte care ar fi fost în afara locului în perioada specificată; și pentru fiecare obiect propus, GPT-4o a produs o întrebare da sau nu menită să verifice dacă acel obiect apărea în imaginea generată.

De exemplu, dat fiind promptul ‘O persoană care ascultă muzică în secolul al XVIII-lea’, GPT-4o ar putea identifica dispozitive audio moderne ca fiind istoric inexacte și ar produce întrebarea Este persoana folosind căști sau un smartphone care nu a existat în secolul al XVIII-lea?.

Aceste întrebări au fost transmise înapoi la GPT-4o într-un setup de întrebare și răspuns vizual, unde modelul a examinat imaginea și a returnat un răspuns da sau nu pentru fiecare. Acest pipeline a permis detectarea conținutului istoric implauzibil fără a se baza pe o taxonomie predefinită a obiectelor moderne:

Exemple de imagini generate marcate de metoda de detectare în două etape, arătând elemente anacronice: căști în secolul al XVIII-lea; un aspirator în secolul al XIX-lea; un laptop în anii 1930; și un smartphone în anii 1950.

Pentru a măsura cât de des apar anacronismele în imaginile generate, autorii au introdus o metodă simplă pentru a scoră frecvența și gravitatea. Mai întâi, au luat în considerare diferențele minore de exprimare în modul în care GPT-4o a descris același obiect.

De exemplu, dispozitiv audio modern și dispozitiv audio digital au fost tratați ca echivalenți. Pentru a evita dubla contabilizare, s-a utilizat un sistem de potrivire difuză pentru a grupa variațiile de suprafață fără a afecta concepte distincte.

Odată ce toate anacronismele propuse au fost normalizate, au fost calculate două metrice: frecvență a măsurat cât de des apărea un anumit obiect în imagini pentru o perioadă specifică de timp și model; și gravitate a măsurat cât de sigur acel obiect apărea odată ce a fost sugerat de model.

Dacă un telefon modern a fost marcat de zece ori și a apărut în zece imagini generate, a primit un scor de gravitate de 1,0. Dacă a apărut în doar cinci, scorul de gravitate a fost 0,5. Aceste scoruri au ajutat la identificarea nu numai a faptului că anacronismele au apărut, ci și a modului în care au fost încorporate în ieșirile modelului pentru fiecare perioadă:

Cei mai importanți 15 elemente anacronice pentru fiecare model, plasați în funcție de frecvență pe axa x și gravitate pe axa y. Cercurile marchează elemente clasate în top 15 după frecvență, triunghiurile după gravitate, și diamantele după ambele.

Mai sus, vedem cei mai frecvenți 15 anacronismi pentru fiecare model, clasificați după frecvență și gravitate.

Îmbrăcămintea a fost frecventă, dar răspândită, în timp ce articole precum dispozitive audio și echipamente de călcat au apărut mai rar, dar cu o consistență ridicată – modele care sugerează că modelele răspund mai mult la activitatea din prompt decât la perioada de timp.

SD3 a arătat cea mai mare rată de anacronisme, în special în imagini din secolul al XIX-lea și din anii 1930, urmată de FLUX.1 și SDXL.

Pentru a testa cât de bine metoda de detectare se potrivea cu judecata umană, autorii au efectuat un studiu cu utilizatori care au evaluat 1.800 de imagini generate aleator din SD3 (modelul cu cea mai mare rată de anacronisme), cu fiecare imagine evaluată de trei lucrători. După filtrarea pentru răspunsuri fiabile, 2.040 de judecăți de la 234 de utilizatori au fost incluse, iar metoda a fost de acord cu votul majoritar în 72% din cazuri.

Interfață grafică pentru studiul de evaluare umană, arătând instrucțiuni de sarcină, exemple de imagini corecte și anacronice, și întrebări da/nu pentru identificarea incoerențelor temporale în ieșirile generate.

Demografie

Ultima analiză a examinat modul în care modelele reprezintă rasa și genul de-a lungul timpului. Utilizând setul de date HistVis, autorii au comparat ieșirile modelului cu estimări de bază generate de un model de limbaj. Aceste estimări nu au fost precise, dar au oferit o idee aproximativă a plauzibilității istorice, ajutând la revelarea modului în care modelele adaptează reprezentările la perioada vizată.

Pentru a evalua aceste reprezentări la scară largă, autorii au construit un pipeline care compară ieșirile modelului cu așteptări istorice. Ei au utilizat mai întâi clasificatorul FairFace, un instrument bazat pe ResNet34, antrenat pe peste 100.000 de imagini, pentru a detecta genul și rasa în ieșirile generate, permițând măsurarea frecvenței cu care fețele din fiecare scenă au fost clasificate ca masculine sau feminine și urmărirea categoriilor rasiale de-a lungul perioadelor:

Exemple de imagini generate care arată suprareprezentarea demografică în diferite modele, perioade de timp și activități.

Rezultatele cu încredere scăzută au fost filtrate pentru a reduce zgomotul, iar predicțiile au fost mediate pentru toate imaginile legate de o perioadă și activitate specifică. Pentru a verifica fiabilitatea citirilor FairFace, un al doilea sistem bazat pe DeepFace a fost utilizat pe un eșantion de 5.000 de imagini. Cele două clasificatoare au arătat un acord puternic, susținând consistența citirilor demografice utilizate în studiu.

Pentru a compara ieșirile modelului cu plauzibilitatea istorică, autorii au solicitat GPT-4o să estimeze distribuția așteptată de gen și rasă pentru fiecare activitate și perioadă de timp. Aceste estimări au servit ca repere aproximative, mai degrabă decât adevăruri absolute. Două metrice au fost utilizate: subreprezentare și suprareprezentare, măsurând cât de mult ieșirile modelului s-au abătut de la așteptările LLM.

Rezultatele au arătat modele clare: FLUX.1 a suprareprezentat adesea bărbații, chiar și în scenarii cum ar fi gătitul, unde femeile erau așteptate; SD3 și SDXL au arătat tendințe similare în categorii cum ar fi muncă, educație și religie; fețele albe au apărut mai mult decât era de așteptat în general, deși această prejudecată a scăzut în perioadele mai recente; și unele categorii au arătat creșteri neașteptate în reprezentarea non-albă, sugerând că comportamentul modelului poate reflecta corelații din setul de date mai degrabă decât contextul istoric:

Suprareprezentare și subreprezentare de gen și rasă în ieșirile FLUX.1 de-a lungul secolelor și activităților, arătate ca diferențe absolute de la estimările demografice GPT-4o.

Autorii concluzionează:

‘Analiza noastră arată că [Text-to-image/TTI] modelele se bazează pe codări stilistice limitate, mai degrabă decât pe înțelegeri nuanțate ale perioadelor istorice. Fiecare epocă este puternic legată de un anumit stil vizual, ceea ce duce la reprezentări unidimensionale ale istoriei.

‘În mod semnificativ, reprezentările fotorealistice ale oamenilor apar doar din secolul al XX-lea înainte, cu excepții rare în FLUX.1 și SD3, sugerând că modelele întăresc asocierile învățate, mai degrabă decât adaptându-se flexibil la contexte istorice, perpetuând noțiunea că realismul este o trăsătură modernă.

‘În plus, anacronismele frecvente sugerează că perioadele istorice nu sunt separate curat în spațiile latente ale acestor modele, deoarece artefacte moderne apar adesea în setări premoderne, subminând fiabilitatea sistemelor TTI în contexte educaționale și de patrimoniu cultural.’

Concluzie

În timpul antrenării unui model de difuzie, noile concepte nu se așează în mod clar în sloturi predefinite în spațiul latent. În schimb, ele formează clusteruri modelate de frecvența lor de apariție și de proximitatea față de idei înrudite. Rezultatul este o structură slab organizată în care conceptele există în relație cu frecvența și contextul lor tipic, mai degrabă decât prin separarea curată sau empirică.

Acest lucru face dificilă izolarea a ceea ce contează ca ‘istoric’ într-un set de date mare și general. Așa cum sugerează rezultatele din noul studiu, multe perioade de timp sunt reprezentate mai degrabă prin aspectul mediului utilizat pentru a le reprezenta decât prin orice detaliu istoric mai profund.

Acesta este unul dintre motivele pentru care rămâne dificil să generați o imagine fotorealistă de calitate 2025 a unei figuri din, de exemplu, secolul al XIX-lea; în majoritatea cazurilor, modelul se va baza pe tropi vizuali din filme și televiziune. Când acestea nu se potrivesc cu solicitarea, nu există mult în date pentru a compensa. Închiderea acestei lacune va depinde probabil de îmbunătățirile viitoare în disocierea conceptelor suprapuse.

Publicat pentru prima dată luni, 26 mai 2025