Tekoäly
Onko DALL-E 2 vain “liimaamassa asioita yhteen” ilman ymmärrystä niiden välisistä suhteista?

Harvardin yliopiston uusi tutkimuspaperi viittaa siihen, että OpenAI:n otsikkoja herättänyt teksti-kuvaksi-kehyksessä DALL-E 2: lla on merkittäviä vaikeuksia toistaa jopa vastasyntyneen tason suhteita sen koostamien kuvien elementeissä, huolimatta siitä, että suuri osa sen tuotoksesta on loistavaa.
Tutkijat suorittivat käyttäjätutkimuksen, johon osallistui 169 joukkoistettua osallistujaa, joille esitettiin DALL-E 2 -kuvia, jotka perustuivat ihmisen perusrakenteisiin suhteen semantiikassa, yhdessä tekstikomennoilla, jotka olivat luoneet ne. Kun kysyttiin, ovatko komennot ja kuvat liittyneet toisiinsa, alle 22 %:ssa kuvista havaittiin olevan merkityksellisiä niiden liittyvien komennoilleen, suhteessa niiden hyvin yksinkertaisten suhteiden, joita DALL-E 2: ta pyydettiin visualisoimaan.

A screen-grab from the trials conducted for the new paper. Participants were tasked with selecting all the images that matched the prompt. Despite the disclaimer at the bottom of the interface, in all cases the images, unbeknownst to the participants, were in fact generated from the displayed associated prompt. Source: https://arxiv.org/pdf/2208.00005.pdf
Tulokset viittaavat myös siihen, että DALL-E:n ilmeinen kyky yhdistää erilaisia elementtejä voi heiketä, kun nämä elementit ovat vähemmän todennäköisiä tapahtuvan todellisessa maailmassa, joka ohjaa järjestelmää.
Esimerkiksi kuvat komennolle “lapsi koskettaa kulho” saivat 87 %:n sopimisen (ts. osallistujat klikkasivat useimmat kuvat olevan merkityksellisiä komennolle), kun taas samanlaiset fotorealistiset renderöinnit “apina koskettaa leguaania” saivat vain 11 %:n sopimisen:

DALL-E struggles to depict the unlikely event of a ‘monkey touching an Iguana’, arguably because it is uncommon, more likely non-existent, in the training set.
Toisessa esimerkissä DALL-E 2 usein epäonnistuu mittakaavassa ja jopa lajissa, luultavasti johtuen todellisten kuvien puutteesta, jotka kuvaavat tätä tapahtumaa. Sen sijaan on järkevää olettaa, että lasten ja ruuan kanssa liittyvät koulutusvalokuvat ovat runsaasti edustettuina, ja tämä alaluokka on hyvin kehittynyt.
DALL-E:n vaikeus yhdistää voimakkaasti kontrastisia kuvaelementtejä viittaa siihen, että yleisö on tällä hetkellä niin lumoutunut järjestelmän fotorealistisista ja laajasti tulkittavista kyvyistä, ettei ole kehittänyt kriittistä silmää tapauksiin, joissa järjestelmä on tehnyt vain “liimannut” yhden elementin toisen päälle, kuten näissä esimerkeissä viralliselta DALL-E 2 -sivustolta:

Cut-and-paste synthesis, from the official examples for DALL-E 2. Source: https://openai.com/dall-e-2/
Tutkimuspaperi toteaa*:
‘Relational understanding is a fundamental component of human intelligence, which manifests early in development, and is computed quickly and automatically in perception.
‘DALL-E 2’s difficulty with even basic spatial relations (such as in, on, under) suggests that whatever it has learned, it has not yet learned the kinds of representations that allow humans to so flexibly and robustly structure the world.
‘A direct interpretation of this difficulty is that systems like DALL-E 2 do not yet have relational compositionality.’
Tutkijat ehdottavat, että teksti-ohjattujen kuvien luomisjärjestelmät, kuten DALL-E -sarja, voivat hyötyä algoritmeista, jotka ovat yleisiä robotiikassa, jotka mallintavat identiteettejä ja suhteita samanaikaisesti, johtuen tarpeesta, jotta agentti voi todella vuorovaikuttaa ympäristön kanssa eikä vain valmistaa erilaisten elementtien seosta.
Yksi tällainen lähestymistapa, nimeltään CLIPort, käyttää samaa CLIP-mekanismia, joka toimii laadun arviointielementtinä DALL-E 2:ssa:

CLIPort, a 2021 collaboration between the University of Washington and NVIDIA, uses CLIP in a context so practical that the systems trained on it must necessarily develop an understanding of physical relationships, a motivator that is absent in DALL-E 2 and similar ‘fantastical’ image synthesis frameworks. Source: https://arxiv.org/pdf/2109.12098.pdf
Tutkijat ehdottavat myös, että “toinen uskottava parannus” voisi olla kuvien luomisjärjestelmien, kuten DALL-E:n, arkkitehtuurin sisällyttäminen moninkertaisten vaikutusten yhteen laskennan kerrokseen, jolloin suhteiden laskenta voidaan tehdä tavalla, joka on inspiroitu biologisen järjestelmien tiedonkäsittelykyvystä.
Tutkimuspaperi on nimeltään Testing Relational Understanding in Text-Guided Image Generation, ja se on Colin Conwellin ja Tomer D. Ullmanin työ Harvardin psykologian laitokselta.
Early Criticismin ulkopuolella
Kommentoidessaan DALL-E 2:n realismin ja eheyyden “sleight of hand” -taikuria, tutkijat mainitsevat aiemmat tutkimukset, jotka ovat havainneet puutteita DALL-E-tyyppisissä kuvien luomisjärjestelmissä.
Kesäkuussa tämän vuoden aikana UoC Berkeley huomautti DALL-E:n vaikeuksista heijastusten ja varjojen käsittelyssä; samassa kuussa tutkimus Koreasta tutki DALL-E 2 -tyyppisten kuvien luomisjärjestelmien “yksilöllisyyttä” ja alkuperäisyyttä kriittisellä silmällä; preliminary analysis DALL-E 2 -kuvista, pian julkaisun jälkeen, NYU:sta ja Texasin yliopistosta, paljasti erilaisia ongelmia koostumisessa ja muissa kuvien luomisjärjestelmien olennaisissa tekijöissä; ja viime kuussa joint work Illinoisin yliopistosta ja MIT:stä tarjosi ehdotuksia arkkitehtonisten parannusten suhteen koostumisessa.
Tutkijat huomauttavat myös, että DALL-E:n huiput, kuten Aditya Ramesh, ovat myöntäneet järjestelmän ongelmat sitoutumisessa, suhteellisessa koossa, tekstin ja muiden haasteiden kanssa.
Googleen kuuluvan kilpailevan kuvien luomisjärjestelmän Imagen kehittäjät ovat ehdottaneet DrawBench:ia, uudenlaista vertailujärjestelmää, joka arvioi kuvien tarkkuutta eri kehyksissä erilaisin mittarein.
Sen sijaan tutkimuksen tekijät ehdottavat, että parempi tulos voisi saavutettaa asettamalla ihmisen arvio (sen sijaan, että algoritminen mittari) tuloksiin, jotta voidaan määrittää, missä heikkoudet ovat ja mitä voidaan tehdä niiden korjaamiseksi.
Tutkimus
Tätä varten uusi projekti perustuu psykologisiin periaatteisiin ja pyrkii vetäytymään nykyisestä kiinnostuksen aallosta promptin insinööritaloon (joka on käytännössä myöntymys DALL-E 2:n tai vastaavan järjestelmän puutteista), jotta voidaan tutkia ja mahdollisesti osoittaa rajoitukset, jotka tekevät nämä “kierrokset” välttämättömiksi.













