Andersonin kulma

Miten estätä AI:n esittämästä iPhoneja menneissä aikakausina

Published May 26, 2025

Updated April 26, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

Miten AI-kuva-generaattorit kuvaavat menneisyyttä? Uusi tutkimus osoittaa, että ne laskevat älypuhelimet 1700-luvulle, lisäävät kannettavat tietokoneet 1930-luvun kohtauksiin ja asettavat imurointikoneet 1800-luvun kotiin, herättäen kysymyksiä siitä, miten nämä mallit kuvittelevat historiaa – ja ovatko ne kykeneviä saavuttamaan kontekstuaalisen historiallisen tarkkuuden lainkaan.

Alussa vuonna 2024 Google’n Gemini-monimodaalisen AI-mallin kuvagenerointikapasiteetit kritisoitiin asettamasta demografista oikeudenmukaisuutta sopimattomiin konteksteihin, kuten luomalla toisen maailmansodan aikaisia saksalaisia sotilaita, joilla oli epätodennäköinen tausta:

Demografisesti epätodennäköiset saksalaiset sotilaat, kuten Google’n Gemini-monimodaalinen malli kuvitteli vuonna 2024. Lähde: Gemini AI/Google kautta The Guardian

Tämä oli esimerkki siitä, miten pyrkimykset korjata harhaa AI-malleissa eivät ottaneet huomioon historiallista kontekstia. Tässä tapauksessa ongelma korjattiin pian sen jälkeen. Kuitenkin dif fuusiopohjaiset mallit ovat edelleen taipuvaisia luomaan versioita historiasta, jotka sekoittavat modernit ja historialliset näkökulmat ja artefaktit.

Tämä johtuu osittain silmukoitumisesta, jossa ominaisuudet, jotka usein ilmestyvät yhdessä koulutusdatasta, sulautuvat mallin tulosteeseen. Esimerkiksi, jos modernit esineet, kuten älypuhelimet, usein ilmestyvät yhdessä puhumisen tai kuuntelun kanssa koulutusdatasta, malli voi oppia yhdistämään nämä toiminnot modernien laitteiden kanssa, jopa kun pyynnössä määritellään historiallinen asetelma. Kun nämä yhdistelmät on upotettu mallin sisäisiin edustuksiin, se tulee vaikeaksi erottaa toiminta sen nykyisestä kontekstista, johtaen historiallisesti epätarkoihin tuloksiin.

Uusi tutkimuspaperi Sveitsistä, joka tutkii ilmiötä historiallisten sukupolvien sekoittumisesta latenttisissa dif fuusiomalleissa, huomauttaa, että AI-kehykset, jotka ovat hyvin kykeneviä luomaan fotorealistisia ihmisiä, kuitenkin mieltävät historiallisia hahmoja historiallisilla tavoilla:

Uudesta tutkimuspaperista, moninaiset edustukset LDM: n avulla pyynnöstä ‘Fotorealistinen kuva henkilöstä nauramassa ystävän kanssa [historiallisessa ajassa]’, jossa jokainen ajanjakso on ilmoitettu jokaisessa tulosteessa. Näemme, että aikakauden medium on liittynyt sisältöön. Lähde: https://arxiv.org/pdf/2505.17064

Pyynnölle ‘Fotorealistinen kuva henkilöstä nauramassa ystävän kanssa [historiallisessa ajassa]’, yksi kolmesta testatusta mallista usein jättää huomioimatta negatiivisen pyynnön ‘monokromaattinen’ ja sen sijaan käyttää värinkäsittelyjä, jotka heijastelevat aikakauden visuaalista mediaa, esimerkiksi matkien 1950- ja 1970-luvun selluloidifilmin hillittyjä sävyjä.

Testatessaan kolmea mallia niiden kyvystä luoda anakronismit (asiat, jotka eivät kuulu kohdekaudelle, tai ‘ajan ulkopuolelle’ – jotka voivat olla kohdekauden tulevaisuudesta sekä sen menneisyydestä), he löysivät yleisen taipumuksen sekoittaa ajattomia toimintoja (kuten ‘laulamista’ tai ‘ruoanlaittoa’) modernien kontekstien ja laitteiden kanssa:

Moninaiset toiminnot, jotka ovat täysin voimassa edellisille vuosisadoille, kuvataan nykyisellä tai uudemmalla teknologialla ja tarpeilla, vastoin pyydetyen kuvien henkeä.

On huomionarvoista, että älypuhelimet ovat erityisen vaikeita erottaa valokuvauksen ilmiöstä ja monista muista historiallisista konteksteista, koska niiden leviäminen ja kuvaus on hyvin edustettu vaikuttavissa hyperskaaladatasaamoissa, kuten Common Crawl:

Flux-generatiivisessa teksti-kuva-mallissa viestintä ja älypuhelimet ovat tiiviisti liittyneitä käsitteitä – jopa silloin, kun historiallinen konteksti ei salli sitä.

Määrittääkseen ongelman laajuuden ja antaakseen tuleville tutkimuspyrkimyksille keino edetä tämän ongelmakohdan kanssa, tutkimuspaperin kirjoittajat kehittivät mukautetun datasaaman, jota vastaan generatiivisia järjestelmiä voidaan testata. Hetken kuluttua tarkastelemme tätä uutta tutkimusta, joka on nimeltään Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models ja tulee kahdelta tutkijalta Zürichin yliopistosta. Datasaama ja koodi ovat julkisesti saatavilla.

Hauras ‘Totuus’

Jotkut tutkimuspaperin teemoista koskevat kulttuurisesti herkkäitä aiheita, kuten rotujen ja sukupuolen aliedustusta historiallisissa edustuksissa. Vaikka Gemini:n asettaminen rotuinen tasa-arvoa toisen maailmansodan aikaiseen Saksan natsiin on absurdi ja loukkaava historiallinen revisio, palauttaminen ‘perinteisiin’ rotuisten edustusten (jotka dif fuusiomallit ovat ‘päivittäneet’) johtaisi usein ‘uudelleen valkoiseen’ historiaan.

Monet viimeaikaiset menestyneet historialliset ohjelmat, kuten Bridgerton, sumeaavat historiallista demografista tarkkuutta tapoja, jotka ovat todennäköisesti vaikuttavia tuleviin koulutusdatasaamiin, monienko pyrkimyksiin saada LLM-generoitu aikakauden kuvat vastaamaan perinteisiä standardeja. Kuitenkin tämä on monimutkainen aihe, ottaen huomioon historiallisen taipumuksen (länsimaisen) historian suosia varallisuutta ja valkoisuutta ja jättää monia ‘vähäisempiä’ tarinoita kertomatta.

Pitäen mielessä nämä hankalat ja jatkuvasti muuttuvat kulttuuriset parametri, tarkastelemme tutkijoiden uutta lähestymistapaa.

Menetelmä ja testit

Testatakseen, miten generatiiviset mallit tulkitsevat historiallista kontekstia, kirjoittajat loivat HistVis-datasaaman, joka koostuu 30 000:sta kuvasta, jotka on tuotettu sadasta pyynnöstä, jotka kuvaavat yleisiä ihmistoimintoja, joita on esitetty kymmenessä eri aikakaudessa:

HistVis-datasaaman näyte, jonka kirjoittajat ovat julkaisseet Hugging Facessa. Lähde: https://huggingface.co/datasets/latentcanon/HistVis

Toiminnot, kuten ruoanlaitto, rukous tai musiikin kuuntelu, valittiin niiden universaalisuuden vuoksi, ja ne on muotoiltu neutraalissa muodossa välttääkseen ankkurointia malliin tiettyyn esteettiseen.

Aikakaudet datasaamassa ulottuvat 1600-luvulta nykypäivään, ja niihin on lisätty erityinen painopiste viidelle eri vuosikymmenelle 1900-luvulta.

30 000 kuvaa generoitiin käyttäen kolmea laajasti käytettyä avoimen lähdekoodin dif fuusiomallia: Stable Diffusion XL; Stable Diffusion 3; ja FLUX.1. Erotaakseen aikakauden muuttujana, tutkijat loivat järjestelmällisen perustan arvioimaan, miten historialliset vihjeet ovat visuaalisesti koodattuina tai ohitettuina näissä järjestelmissä.

Visuaalinen tyyli

Aluksi tutkijat tarkastelivat, onko generatiivisilla malleilla taipumus tietyn visuaalisen tyylin käyttämiseen, kun ne kuvaavat historiallisia aikakausia; koska näytti siltä, että vaikka pyynnössä ei mainittu mediaa tai estetiikkaa, mallit usein yhdistivät tiettyjä vuosisatoja tiettyihin tyyleihin:

Arvioidut visuaaliset tyylit generoiduista kuvista, jotka on luotu pyynnöstä ‘Henkilö tanssimassa toisen kanssa [historiallisessa ajassa]’ (vasemmalla) ja muokatusta pyynnöstä ‘Fotorealistinen kuva henkilöstä tanssimassa toisen kanssa [historiallisessa ajassa]’ negatiivisella pyynnöllä ‘monokromaattinen kuva’ (oikealla).

Mittaakseen tämän taipumuksen, tutkijat kouluttivat konvoluutioneurverkon (CNN) luokittelemaan jokaisen kuvan HistVis-datasaamassa yhteen viidestä luokasta: piirros; kaiverrus; illustraatio; maalaus; tai valokuvaus. Nämä luokat oli tarkoitettu heijastamaan yleisiä malleja, jotka ilmestyvät aikakausien yli ja jotka tukevat järjestelmällistä vertailua.

Luokittelija perustui VGG16-malliin, joka oli esikoulutettu ImageNet– ja hienosäädetty 1500 esimerkillä per luokka WikiArt-johtuvasta datasaamasta. Koska WikiArt ei erota monokromaattista värillistä valokuvauksesta, erillinen värisyyden arvo käytettiin merkkaamaan matalan kyllästysasteen kuvat monokromaattisiksi.

Koulutetun luokittelijan soveltamiseen koko datasaamaan, tulokset osoittivat, että kaikki kolme mallia asettavat johdonmukaiset tyylliset oletukset aikakauden mukaan: SDXL yhdistää 1600- ja 1700-luvut kaiverruksiin, kun taas SD3 ja FLUX.1 suosivat maalauksia. 1900-luvun vuosikymmeninä SD3 suosii monokromaattista valokuvaa, kun taas SDXL usein palauttaa modernit illustraatiot.

Nämä preferenssit havaittiin säilyvän pyynnön muutoksista huolimatta, osoittaen, että mallit koodaavat vahvat yhteydet tyylin ja historiallisen kontekstin välille:

Arvioidut visuaaliset tyylit generoiduista kuvista aikakausittain kullekin dif fuusiomallille, perustuen 1000 otokseen per aikakausi per malli.

Mittaakseen, kuinka voimakkaasti malli yhdistää historiallisen aikakauden tiettyyn visuaaliseen tyyliin, tutkijat kehittivät mittarin, jonka he kutsuvat Visuaalisen tyylin dominanssi (VSD). Kullekin mallille ja aikakaudelle VSD on määritelty suhteena, joka edustaa yleisimmän tyylin osuutta:

Esimerkkejä tyylistä harhaa malleissa.

Korkeampi arvo osoittaa, että yksittäinen tyyli dominoi tulosteita kyseisellä aikakaudella, kun taas alhaisempi arvo osoittaa suurempaa vaihtelua. Tämä mahdollistaa vertailun siitä, miten tiukasti kullekin mallille on omaksuttu tiettyjä tyyllisiä konventioita aikakausien yli.

Soveltamalla VSD-mittaria koko HistVis-datasaamaan, tulokset paljastavat erilaiset tasot konvergenssia, selventäen, miten voimakkaasti kullekin mallille on omaksuttu tiettyjä tyyllisiä konventioita:

Tulostaulukko yllä osoittaa VSD-pisteet aikakausittain kullekin mallille. 1600- ja 1700-luvuilla SDXL tuottaa kaiverruksia korkealla johdonmukaisuudella, kun taas SD3 ja FLUX.1 suosivat maalauksia. 1900- ja 2000-luvuilla SD3 ja FLUX.1 siirtyvät valokuvaukseen, kun taas SDXL näyttää enemmän vaihtelua, mutta usein olettaa illustraatiota.

Kaikki kolme mallia osoittavat vahvan preferenssin monokromaattiselle kuvamateriaalille varhaisemmissa vuosikymmeninä 1900-luvulla, erityisesti 1910-, 1930- ja 1950-luvuilla.

Kokeillakseen, voitaisiinko nämä mallit vähentää, tutkijat käyttivät pyynnön insinööritaitoa, nimenomaan pyytäen fotorealistista tyyliä ja estäen monokromaattista tulostetta negatiivisella pyynnöllä. Joidenkin tapauksissa dominanssipisteet laskivat, ja johtava tyyli siirtyi, esimerkiksi monokromaattisesta maalaukseen 1600- ja 1700-luvuilla.

Kuitenkin nämä interventiot harvoin tuottivat aitoja fotorealistisia kuvia, osoittaen, että mallien tyylliset oletukset ovat syvään juurtuneita.

Historiallinen johdonmukaisuus

Seuraava analyysi käsitteli historiallista johdonmukaisuutta: onko generoiduissa kuvissa esineitä, jotka eivät sovi aikakaudelle. Sen sijaan, että olisi käytetty kiinteää luetteloa kiellettyjä kohteita, tutkijat kehittivät joustavan menetelmän, joka hyödyntää suuria kieli- (LLM) ja visuaalisten kielen malleja (VLM) havaitsemaan elementtejä, jotka näyttävät sijoittuvan väärään aikakauteen, perustuen historialliseen kontekstiin.

Havainnon menetelmä seurasi samaa muotoa kuin HistVis-datasaama, jossa jokainen pyyntö yhdisti historiallisen aikakauden ihmistoimintaan. Kullekin pyynnölle GPT-4o generoi luettelon esineistä, jotka olisivat aikakaudelle epäsoveliaita; ja kullekin ehdotetulle esineelle GPT-4o tuotti kyllä- tai ei-kysymyksen tarkastamaan, näkyykö esine generoidussa kuvassa.

Esimerkiksi pyynnölle ‘Henkilö kuuntelemassa musiikkia 1700-luvulla’, GPT-4o saattaa tunnistaa modernit äänentoistolaitteet historiallisesti epätarkoiksi, ja tuottaa kysymyksen Onko henkilö käyttämässä kuulokkeita tai älypuhelinta, joita ei ollut olemassa 1700-luvulla?.

Nämä kysymykset palautettiin GPT-4o:lle visuaalisen kysymys-vastaus-asettelussa, jossa malli tarkasteli kuvaa ja palautti kyllä tai ei -vastauksen kullekin esineelle. Tämä putki mahdollisti havainnon historiallisesti epätarkoista sisällöstä ilman, että tarvittiin määritellä ennalta määrättyä luetteloa modernista esineistä:

Esimerkkejä generoiduista kuvista, joita kaksivaiheinen havainnon menetelmä on tunnistanut, osoittaen anakronistisia elementtejä: kuulokkeet 1700-luvulla; imurointikone 1800-luvulla; kannettava tietokone 1930-luvulla; ja älypuhelin 1950-luvulla.

Mittaakseen, kuinka usein anakronismit ilmestyvät generoiduissa kuvissa, tutkijat esittivät yksinkertaisen menetelmän mittaamaan niiden frekvenssin ja vakavuuden. Ensinnäkin he otettiin huomioon pienet sanamuodolliset erot siinä, miten GPT-4o kuvasi samaa esinettä.

Esimerkiksi moderni äänentoistolaite ja digitaalinen äänentoistolaite käsiteltiin vastaavina. Välttääkseen kaksoisluvun, sumean vastaavuusjärjestelmä käytettiin ryhmitelläkseen nämä pinnan tasolla ilmenevät variatiot ilman, että vaikuttaisi aitoon konseptien eroon.

Kun kaikki ehdotetut anakronismit normalisoitiin, kaksi mittaria laskettiin: frekvenssi mittasi, kuinka usein tietty esine ilmestyi kuvissa tietyn aikakauden ja mallin osalta; ja vakavuus mittasi, kuinka luotettavasti esine ilmestyi kerran, kun malli oli ehdottanut sitä.

Jos moderni puhelin tunnistettiin kymmenen kertaa ja se ilmestyi kymmenessä generoidussa kuvassa, se sai vakavuuspisteen 1,0. Jos se ilmestyi vain viidessä, vakavuuspiste oli 0,5. Nämä pisteet auttoivat tunnistamaan ei vain sitä, ilmestyvätkö anakronismit, vaan myös sitä, kuinka vahvasti ne olivat upotettuina mallin tuloksiin kullekin aikakaudelle:

Kymmenen eniten anakronistisia elementtejä kullekin mallille, piirrettynä frekvenssin mukaan x-akselilla ja vakavuuden mukaan y-akselilla. Ympyrät merkitsevät elementtejä, jotka sijoittuivat kymmenen parhaan joukkoon frekvenssin mukaan, kolmiot frekvenssin mukaan, ja timantit molempien mukaan.

Yllä olevassa kuvassa nähdään kymmenen yleisintä anakronismia kullekin mallille, järjestettynä frekvenssin ja vakavuuden mukaan.

Vaatteet olivat yleisiä, mutta hajallaan, kun taas esineet, kuten äänentoistolaitteet ja rauta, ilmestyivät vähemmän usein, mutta korkealla vakavuudella – mallit usein reagoivat toimintaan pyynnössä enemmän kuin aikakauteen.

SD3 osoitti korkeimman anakronismien määrän, erityisesti 1800-luvun ja 1930-luvun kuvissa, seurattuna FLUX.1:llä ja SDXL:llä.

Tutkittaakseen, miten hyvin havainnon menetelmä sopi ihmisten arvioon, tutkijat suorittivat käyttäjätutkimuksen, jossa 1800 satunnaiseen otokseen SD3:sta (malli, jolla oli korkein anakronismien määrä), ja jokainen kuva arvioitiin kolmen joukkotyöntekijän toimesta. Suodattamisen jälkeen luotettavista vastauksista 2040 arviota 234 käyttäjältä otettiin mukaan, ja menetelmä sopi enemmistön äänestykseen 72 prosentissa tapauksista.

Käyttöliittymä ihmisten arviointitutkimukselle, näyttäen tehtävän ohjeet, esimerkkejä tarkoista ja anakronistisista kuvista, ja kyllä- tai ei-kysymyksiä aikakausien epäjohdonmukaisuuksien tunnistamiseksi generoiduissa tuloksissa.

Demografiat

Viimeinen analyysi tarkasteli, miten mallit kuvaavat rotuja ja sukupuolta ajan myötä. Käyttäen HistVis-datasaamaa, tutkijat vertasivat mallien tuloksia perusarvioihin, jotka oli tuotettu kielimallilla. Nämä arviot eivät olleet tarkkoja, mutta tarjosivat karkean käsityksen historiallisesta todennäköisyydestä, paljastaen, sopeutuivatko mallit kuvaamaan aikakausia.

Arvioidakseen nämä kuvaamiset laajassa mittakaavassa, tutkijat loivat putken, joka vertasi mallien generoimia demografiota karkeisiin odotuksiin kullekin aikakaudelle ja toiminnalle. He ensin käyttivät FairFace-luokittelijaa, joka perustui ResNet34:ään, ja joka oli koulutettu yli 100 000 kuvan kokoelmasta, tunnistamaan sukupuolta ja rotua generoiduissa tuloksissa, mahdollistaen mittaamisen siitä, kuinka usein kasvot jokaisessa kohtauksessa luokitellaan maskuliinisiksi tai feminiinisiksi, ja seuraamisen rotuluokkien mukaan aikakausittain:

Esimerkkejä generoiduista kuvista, jotka osoittavat demografisen yli-edustuksen eri malleissa, aikakausina ja toimintoina.

Alhaisen luottamuksen tulokset suodatettiin pois vähentääkseen melua, ja ennusteet keskiarvoitiin kaikissa kuvissa, jotka liittyivät tiettyyn aikakauteen ja toimintaan. Tarkastellakseen FairFace-lukemien luotettavuutta, toinen järjestelmä perustui DeepFace:en, ja sitä käytettiin 5000 kuvan otokseen. Kaksi luokittelijaa osoittivat vahvan sopimuksen, tukeen demografisten lukemien johdonmukaisuutta, joita käytettiin tutkimuksessa.

Vertaakseen mallien tuloksia historiallisen todennäköisyyden kanssa, tutkijat pyysivät GPT-4o:ta arvioimaan odotetun sukupuolen ja rodun jakautumisen kullekin toiminnalle ja aikakaudelle. Nämä arviot toimivat karkeina perusarvoina eivätkä tosiasioina. Kaksi mittaria käytettiin: aliedustus ja yli-edustus, mitattaen, kuinka paljon mallien tulokset poikkesivat LLM:n odotuksista.

Tulokset osoittivat selkeitä malleja: FLUX.1 usein yli-edusti miehiä, jopa tilanteissa, kuten ruoanlaitto, jossa naiset odotettiin; SD3 ja SDXL osoittivat samankaltaisia suuntauksia kategoriassa, kuten työ, koulutus ja usko; valkoiset kasvot ilmestyivät useammin kuin odotettiin yleensä, vaikka tämä harha väheni myöhemmissä aikakausissa; ja jotkut kategoriat osoittivat odottamattomia piikkejä ei-valkoisen edustuksen suhteen, viitaten siihen, että mallin käyttäytyminen saattaa heijastaa datasaaman korrelaatioita eikä historiallista kontekstia:

Sukupuolen ja rodun yli-edustus ja aliedustus FLUX.1:n tuloksissa eri vuosisatojen ja toimintojen mukaan, esitettyä absoluuttisina eroina GPT-4o:n demografisista arvioista.

Tutkijat johtavat:

‘Meidän analyysi osoittaa, että [Teksti-kuva/TTI] -mallit nojaavat rajoitettuihin tyyllisiin koodauksiin eikä hienostuneisiin ymmärryksiin historiallisista aikakausista. Jokainen aikakausi on vahvasti kytköksissä tiettyyn visuaaliseen tyyliin, johtaen yksioikoisiin kuvaamisiin historiaa.

‘Huomattavasti, fotorealistiset kuvaamiset ihmisistä ilmestyvät vasta 1900-luvulta lähtien, ja vain harvoja poikkeuksia FLUX.1:ssä ja SD3:ssa, osoittaen, että mallit vahvistavat opittuja yhteyksiä eikä sopeudu joustavasti historiallisiin konteksteihin, ylläpitäen käsitystä, että realismin on moderni piirre.

‘Lisäksi useat anakronismit osoittavat, että historialliset aikakaudet eivät ole puhdasti erillisiä näiden mallien latentti-avaruudessa, koska modernit artefaktit usein ilmestyvät esihistoriallisissa asetelmissa, heikentäen TTI-järjestelmien luotettavuutta koulutuksessa ja kulttuuriperintökonteksteissa.’

Johtopäätös

Kouluttaessaan dif fuusiomallia, uudet käsitteet eivät asetu siististi ennalta määritettyihin lokeroihin latenttiavaruudessa. Sen sijaan ne muodostavat ryhmiä, jotka muotoavat niiden ilmestymisen tiheyden ja niiden suhteen muiden käsitteiden kanssa. Tämä johtaa löyhästi järjestäytyneeseen rakenteeseen, jossa käsitteet olemassaolevat suhteessa niiden tiheyteen ja tyypilliseen kontekstiin, eikä puhdasta empiriaa.

Tämä tekee siitä haastavaa erottaa, mitä voidaan pitää ‘historiallisena’ laajassa, yleiskäyttöisessä datasaamassa. Kuten uuden tutkimuspaperin löydökset osoittavat, monet aikakaudet edustetaan enemmän median ulkonäön kuin minkään syvemmän historiallisen yksityiskohdan kautta.

Tämä on yksi syy, miksi on edelleen haastavaa luoda 2025-laatus fotorealistinen kuva hahmosta (esimerkiksi) 1800-luvulta; useimmissa tapauksissa malli turvautuu visuaalisiin kaavoihin, jotka on poimittu elokuvista ja televisiosta. Kun nämä epäonnistuvat vastaamaan pyyntöä, ei ole paljon muuta dataa, joka voisi korvata. Täten tätä aukkoa voidaan ylittää vasta tulevien parannusten myötä, jotka eroavat limittyvistä käsitteistä.

Ensijulkaistu maanantaina, 26. toukokuuta 2025

Related Topics:AI image image classification image generation latent diffusion