Liity verkostomme!

Tekoäly

Onko DALL-E 2 vain "liimaa asioita yhteen" ymmärtämättä heidän suhteitaan?

mm
"Kuppi lusikalla". Lähde: DALL-E 2.

Harvardin yliopiston uusi tutkimusartikkeli viittaa siihen, että OpenAI:n otsikoihin tarttuvalla tekstistä kuvaksi -kehyksellä DALL-E 2:lla on huomattavia vaikeuksia toistaa jopa pikkulasten tason suhteita elementtien välillä, jotka se muodostaa syntetisoiduiksi valokuville huolimatta monien kuvien häikäisevän hienostuneisuudesta. sen tuotos.

Tutkijat tekivät käyttäjätutkimuksen, johon osallistui 169 joukkolähdettä, joille esiteltiin ihmissuhteiden semantiikan perusperiaatteisiin perustuvia DALL-E 2 -kuvia sekä ne luoneet tekstikehotteet. Kun kysyttiin, liittyivätkö kehotteet ja kuvat toisiinsa, alle 22 % kuvista koettiin osuviksi niihin liittyviin kehotteisiin, mitä tulee hyvin yksinkertaisiin suhteisiin, jotka DALL-E 2:ta pyydettiin visualisoimaan.

Kuvakaappaus uutta paperia varten tehdyistä kokeista. Osallistujien tehtävänä oli valita kaikki kehotteeseen sopivat kuvat. Huolimatta käyttöliittymän alareunassa olevasta vastuuvapauslausekkeesta, kaikissa tapauksissa kuvat luotiin osallistujien tietämättä näytetystä liittyvästä kehotteesta. Lähde: https://arxiv.org/pdf/2208.00005.pdf

Kuvakaappaus uutta paperia varten tehdyistä kokeista. Osallistujien tehtävänä oli valita kaikki kehotteeseen sopivat kuvat. Huolimatta käyttöliittymän alareunassa olevasta vastuuvapauslausekkeesta, kaikissa tapauksissa kuvat luotiin osallistujien tietämättä näytetystä liittyvästä kehotuksesta. Lähde: https://arxiv.org/pdf/2208.00005.pdf

Tulokset viittaavat myös siihen, että DALL-E:n näennäinen kyky yhdistää erilaisia ​​elementtejä voi heikentyä, kun näitä elementtejä on vähemmän todennäköisemmin esiintynyt järjestelmää käyttävissä todellisissa koulutustiedoissa.

Esimerkiksi kehotteen "lapsi koskettaa kulhoa" kuvat saivat 87 %:n yhtäpitävyysprosentin (eli osallistujat napsautivat useimpia kehotteen kannalta osuvia kuvia), kun taas vastaavasti fotorealistiset kuvat "apina koskettaa iguaania" saavutettiin. vain 11 % samaa mieltä:

DALL-E yrittää kuvata epätodennäköistä tapahtumaa, jossa "apina koskettaa iguaania", luultavasti siksi, että se on harvinainen tai todennäköisemmin olematon harjoitussarjassa.

DALL-E yrittää kuvata epätodennäköistä tapahtumaa, jossa "apina koskettaa iguaania", luultavasti siksi, että se on harvinainen tai todennäköisemmin olematon harjoitussarjassa.

Toisessa esimerkissä DALL-E 2 saa usein mittakaavan ja jopa lajin väärin, oletettavasti siksi, että tätä tapahtumaa kuvaavia todellisia kuvia on niukasti. Sitä vastoin on kohtuullista odottaa paljon lapsiin ja ruokaan liittyviä koulutuskuvia ja että tämä aliverkkotunnus/luokka on hyvin kehittynyt.

DALL-E:n vaikeus rinnastaa hurjan kontrastisia kuvaelementtejä viittaa siihen, että yleisö on tällä hetkellä niin hämmentynyt järjestelmän fotorealistisista ja laajasti tulkinnan kyvyistä, ettei he ole kehittäneet kriittistä silmää tapauksiin, joissa järjestelmä on käytännössä vain "liimannut" yhden elementin jyrkästi toiseen. , kuten näissä esimerkeissä viralliselta DALL-E 2 -sivustolta:

Leikkaa ja liitä synteesi DALL-E 2:n virallisista esimerkeistä. Lähde: https://openai.com/dall-e-2/

Leikkaa ja liitä synteesi DALL-E 2:n virallisista esimerkeistä. Lähde: https://openai.com/dall-e-2/

Uudessa paperissa sanotaan*:

"Suhteen ymmärtäminen on ihmisen älykkyyden peruskomponentti, joka ilmenee varhaisessa kehityksessä, ja se lasketaan nopeasti ja automaattisesti havainnossa.

'DALL-E 2:n vaikeus jopa perustavanlaatuisten tilasuhteiden kanssa (esim in, on, varten) viittaa siihen, että mitä tahansa se on oppinut, se ei ole vielä oppinut sellaisia ​​esityksiä, joiden avulla ihmiset voivat jäsentää maailmaa niin joustavasti ja lujasti.

"Tämän vaikeuden suora tulkinta on, että DALL-E 2:n kaltaisilla järjestelmillä ei vielä ole relaatiokoostumusta."

Kirjoittajat ehdottavat, että tekstiohjatut kuvanmuodostusjärjestelmät, kuten DALL-E-sarja, voisivat hyötyä robotiikassa yhteisistä hyödyntämisalgoritmeista, jotka mallintavat identiteettejä ja suhteita samanaikaisesti, koska agentin on oltava vuorovaikutuksessa ympäristön kanssa sen sijaan, että se vain valmistaa. sekoitus erilaisia ​​elementtejä.

Yksi tällainen lähestymistapa, nimeltään CLIPort, käyttää samaa CLIP-mekanismi joka toimii laadunarviointielementtinä DALL-E 2:ssa:

CLIPort, Washingtonin yliopiston ja NVIDIAn vuoden 2021 yhteistyö, käyttää CLIPiä niin käytännöllisessä kontekstissa, että siihen koulutettujen järjestelmien on välttämättä kehitettävä fyysisten suhteiden ymmärrys, motivaattori, joka puuttuu DALL-E 2:sta ja vastaava "fantastinen" kuvan synteesikehykset. Lähde: https://arxiv.org/pdf/2109.12098.pdf

CLIPort, Washingtonin yliopiston ja NVIDIAn vuoden 2021 yhteistyö, käyttää CLIPiä niin käytännöllisessä kontekstissa, että siihen koulutettujen järjestelmien on välttämättä kehitettävä fyysisten suhteiden ymmärrys, motivaattori, joka puuttuu DALL-E 2:sta ja vastaava "fantastinen" kuvan synteesikehykset. Lähde: https://arxiv.org/pdf/2109.12098.pdf

Kirjoittajat ehdottavat lisäksi, että "toinen uskottava päivitys" voisi olla kuvan synteesijärjestelmien, kuten DALL-E, arkkitehtuuriin sisällyttäminen kerrannaisvaikutuksia ainoassa laskentakerroksessa, mikä mahdollistaa suhteiden laskemisen tavalla, joka on inspiroitunut biologinen järjestelmät.

- uusi paperi on otsikko Relaatioymmärryksen testaus tekstiohjatussa kuvanluonnissa, ja tulee Colin Conwellilta ja Tomer D. Ullmanilta Harvardin psykologian laitokselta.

Varhaisen kritiikin ulkopuolella

Kommentoimalla DALL-E 2:n tuotoksen realismin ja eheyden takana olevaa "käden taitoa" kirjoittajat panevat merkille aikaisemmat työt, jotka ovat löytäneet puutteita DALL-E-tyylisissä generatiivisissa kuvajärjestelmissä.

Tämän vuoden kesäkuussa UoC Berkeley huomattava DALL-E:n vaikeus käsitellä heijastuksia ja varjoja; samassa kuussa korealainen tutkimus tutki DALL-E 2 -tyylisen lähdön "ainutlaatuisuutta" ja omaperäisyyttä. kriittisellä silmällä; alustava analyysi DALL-E 2 -kuvista, pian julkaisun jälkeen, NYU:sta ja Texasin yliopistosta löytyi erilaisia ​​sommitteluongelmia ja muita olennaisia ​​tekijöitä DALL-E 2 -kuvissa; ja viime kuussa, yhteistä työtä Illinoisin yliopiston ja MIT:n välillä tarjottiin ehdotuksia tällaisten järjestelmien arkkitehtonisista parannuksista koostumuksen suhteen.

Tutkijat huomauttavat lisäksi, että DALL-E-valaisimilla, kuten Aditya Rameshilla, on myönsi kehyksen ongelmat sitomiseen, suhteelliseen kokoon, tekstiin ja muihin haasteisiin.

Myös Googlen kilpailevan kuvasynteesijärjestelmän Imagenin kehittäjät ovat ehdottaneet DrawBench, uusi vertailujärjestelmä, joka mittaa kuvan tarkkuutta eri kehysten välillä erilaisilla mittareilla.

Sen sijaan uuden paperin kirjoittajat ehdottavat, että parempi tulos voitaisiin saavuttaa vertaamalla ihmisen arviota - pikemminkin kuin toisiinsa liittyviä algoritmisia mittareita - tuloksena saatuihin kuviin, jotta voidaan selvittää, missä heikkoudet ovat ja mitä voitaisiin tehdä niiden lieventämiseksi.

Tutkimus

Tätä varten uusi projekti perustaa lähestymistapansa psykologisiin periaatteisiin ja pyrkii vetäytymään nykyisestä kiinnostuksen nousu in nopea suunnittelu (mikä on itse asiassa myönnytys DALL-E 2:n tai minkä tahansa vastaavan järjestelmän puutteille) tutkia ja mahdollisesti korjata rajoituksia, jotka tekevät tällaiset "kiertotavat" tarpeellisiksi.

Paperissa todetaan:

"Nykyinen työ keskittyy 15 perussuhteen joukkoon, jotka on kuvattu, tutkittu tai ehdotettu aiemmin kognitiivisessa, kehitystyössä tai lingvistisessä kirjallisuudessa. Joukko sisältää sekä maadoitettuja tilasuhteita (esim. 'X Y:llä') ja abstraktimpia agenttisuhteita (esim. 'X auttaa Y'tä').

"Kehotteet ovat tarkoituksella yksinkertaisia, ilman ominaisuuksien monimutkaisuutta tai tarkennuksia. Toisin sanoen "aasi ja mustekala pelaavat peliä" -kehotteen sijaan. Aasilla on köysi toisessa päässä, mustekala toisessa. Aasi pitää köyttä suussaan. Kissa hyppää köyden yli", käytämme "laatikkoa veitsessä".

"Yksinkertaisuus kaappaa edelleen laajan valikoiman suhteita ihmispsykologian eri osa-alueilta ja tekee mahdollisista mallien epäonnistumisista silmiinpistävämpiä ja tarkempia."

Kirjoittajat rekrytoivat tutkimukseensa 169 osallistujaa Prolificista, jotka kaikki sijaitsevat Yhdysvalloissa ja joiden keski-ikä oli 33 ja 59 % naisia.

Osallistujille näytettiin 18 kuvaa järjestettynä 3 × 6 -ruudukkoon, jossa kehote oli ylhäällä ja vastuuvapauslauseke alareunassa, jossa todettiin, että kaikki kuvat tai jotkin niistä ei ehkä ole luotu näytetystä kehotteesta, ja sitten heitä pyydettiin valitse kuvat, joiden he uskoivat liittyvän tällä tavalla.

Yksilöille esitetyt kuvat perustuivat kieli-, kehitys- ja kognitiiviseen kirjallisuuteen, joka koostui kahdeksan fyysisen ja seitsemän "agenttisuhteen" sarjasta (tämä selviää hetken kuluttua).

Fyysiset suhteet
sisällä, päällä, alla, peittää, lähellä, peittää, roikkuu, ja sidottu.

Agenttisuhteet
työntäminen, vetäminen, koskettaminen, lyöminen, potkiminen, auttaminen, ja estäminen.

Kaikki nämä suhteet on vedetty aiemmin mainituista ei-CS-opintojen aloista.

Kaksitoista entiteettiä johdettiin käytettäviksi kehotteissa kuudesta objektista ja kuudesta agentista:

Esineet
laatikko, sylinteri, viltti, kulho, teekuppi, ja veitsi.

Kiinteistönvälittäjät
mies, nainen, lapsi, robotti, apina, ja iguaani.

(Tutkijat myöntävät, että iguaanin mukaan ottaminen, joka ei ollut kuivan sosiologisen tai psykologisen tutkimuksen tukipilari, oli "herkkua")

Kullekin suhteelle luotiin viisi erilaista kehotetta ottamalla satunnainen näyte kahdesta entiteetistä viisi kertaa, jolloin saatiin yhteensä 75 kehotetta, joista jokainen lähetettiin DALL-E 2:lle ja joista jokaisessa käytettiin alkuperäisiä 18 toimitettua kuvaa ilman muunnelmia. tai toinen mahdollisuus sallittu.

tulokset

Lehdessä lukee*:

Osallistujat ilmoittivat DALL-E 2:n kuvien ja niiden luomiseen käytettyjen kehotteiden välillä olevan vain vähän yhtäpitävyyttä, keskimäärin 22.2 % [18.3, 26.6] 75 erillisen kehotteen välillä.

"Agenttikehotteet, joiden keskiarvo oli 28.4 % [22.8, 34.2] 35 kehotteessa, loivat suuremman yhteisymmärryksen kuin fyysiset kehotteet, ja keskiarvo oli 16.9 % [11.9, 23.0] 40 kehotteessa."

Tulokset tutkimuksesta. Mustat pisteet tarkoittavat kaikkia kehotteita, ja jokainen piste on yksittäinen kehote, ja väri jakautuu sen mukaan, oliko kehotteen aihe agentti vai fyysinen (eli esine).

Tulokset tutkimuksesta. Mustat pisteet tarkoittavat kaikkia kehotteita, ja jokainen piste on yksittäinen kehote, ja väri jakautuu sen mukaan, oliko kehotteen aihe agentti vai fyysinen (eli esine).

Vertaakseen eroa kuvien ihmisen ja algoritmisen havainnon välillä tutkijat suorittivat renderöinsä OpenAI:n avoimen lähdekoodin kautta. ViT-L/14 CLIP-pohjainen kehys. Pisteiden keskiarvoa laskettaessa he havaitsivat "kohtalaisen suhteen" kahden tulosjoukon välillä, mikä on ehkä yllättävää, kun otetaan huomioon, missä määrin CLIP itse auttaa kuvien luomisessa.

Tulokset CLIP (ViT-L/14) -vertailusta ihmisen vasteisiin.

Tulokset CLIP (ViT-L/14) -vertailusta ihmisen vasteisiin.

Tutkijat ehdottavat, että muut arkkitehtuurin sisällä olevat mekanismit, mahdollisesti yhdistettynä sattumanvaraiseen tiedon määrään (tai puutteeseen) koulutussarjassa, voivat selittää tavan, jolla CLIP voi tunnistaa DALL-E:n rajoitukset ilman, että se voi kaikissa tapauksissa tehdä mitään. paljon ongelmasta.

Kirjoittajat päättelevät, että DALL-E 2:lla on vain kuvitteellinen ominaisuus, jos sellainen on, toistaa kuvia, jotka sisältävät suhteellista ymmärrystä, joka on ihmisälyn perustavanlaatuinen puoli, joka kehittyy meissä hyvin varhain.

"Ajatus siitä, että DALL-E 2:n kaltaisilla järjestelmillä ei ole sommittelua, saattaa tulla yllätyksenä kaikille, jotka ovat nähneet DALL-E 2:n hämmästyttävän kohtuulliset vastaukset kehotuksiin, kuten "sarjakuva daikon-retiisin vauvasta kävelemässä villakoiraa". Tämänkaltaiset kehotteet luovat usein järkevän likiarvon sävellyskonseptista, kun kehotteiden kaikki osat ovat läsnä ja oikeissa paikoissa.

"Kompositioisuus ei kuitenkaan ole vain kykyä liimata yhteen asioita – jopa asioita, joita ei ehkä ole koskaan aiemmin havainnut yhteen. Koostumus vaatii ymmärrystä säännöt jotka yhdistävät asioita. Suhteet ovat sellaisia ​​sääntöjä.

Mies puree T-Rexiä

Lausunto Kuten OpenAI käsittää a suurempi määrä käyttäjiä sen äskettäisen DALL-E 2:n beta-kaupallistamisen jälkeen ja koska nyt joutuu maksamaan suurimmasta osasta sukupolvia, puutteet DALL-E 2:n relaatioymmärryksessä voivat tulla selvemmiksi, koska jokaisella "epäonnistunut" yritys on taloudellinen painoarvo. eikä palautuksia ole saatavilla.

Niillä meistä, jotka saivat kutsun hieman aikaisemmin, on ollut aikaa (ja viime aikoihin asti enemmän vapaa-aikaa leikkiä järjestelmän kanssa) tarkkailla joitain "suhdehäiriöitä", joita DALL-E 2 voi lähettää.

Esimerkiksi a Jurassic Park fani, on erittäin vaikeaa saada dinosaurusta jahtaamaan henkilöä DALL-E 2:ssa, vaikka "jahdin" käsite ei näytä olevan DALL-E 2:ssa sensuurijärjestelmä, ja vaikka pitkä historia dinosauruselokuvien pitäisi tarjota runsaasti koulutusesimerkkejä (ainakin trailerien ja mainoskuvien muodossa) tähän muuten mahdottomaan lajien kohtaamiseen.

Tyypillinen DALL-E 2:n vastaus kehotteeseen "Värikuva T-Rexistä jahtaamassa miestä tiellä". Lähde: DALL-E 2

Tyypillinen DALL-E 2:n vastaus kehotteeseen "Värikuva T-Rexistä jahtaamassa miestä tiellä". Lähde: DALL-E 2

Olen huomannut, että yllä olevat kuvat ovat tyypillisiä muunnelmille "[dinosaurus] jahtaa [henkilöä]" nopea suunnittelu ja että mikään kehotteen viimeistely ei voi saada T-Rexiä todella noudattamaan. Ensimmäisessä ja toisessa kuvassa mies jahtaa (enemmän tai vähemmän) T-Rexiä; kolmannessa lähestyy sitä rennommin turvallisuutta piittaamatta; ja viimeisessä kuvassa ilmeisesti lenkkeilemässä rinnakkain suuren pedon kanssa. Noin 10-15 tämän teeman yrityskerran aikana olen havainnut, että dinosaurus on samalla tavalla "hajamielinen".

Voi olla, että ainoa harjoitustieto, jota DALL-E 2 pystyi käyttämään, oli rivillä "mies taistelee dinosauruksia vastaan", julkisuuskuvista vanhemmille elokuville, kuten Miljoona vuotta eaa (1966), ja että Jeff Goldblum kuuluisa lento petoeläinten kuningas on yksinkertaisesti poikkeava tuossa pienessä tietoerässä.

 

* Muutokseni tekijöiden tekstin sisäisistä lainauksista hyperlinkeiksi.

Julkaistu ensimmäisen kerran 4.

Koneoppimisen kirjoittaja, ihmiskuvan synteesin asiantuntija. Entinen tutkimussisällön johtaja Metaphysic.ai:ssa.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai