Umjetna inteligencija
DALL-E 2 jedinstveno rjeÅ”enje za dvostruka znaÄenja

Svatko tko je nauÄio talijanski rano nauÄi obratiti pozornost na kontekst kada opisuje a metla, jer talijanska rijeÄ za ovu svjetovnu domaÄu stvar ima izuzetno NSFW drugo znaÄenje kao glagol*. Iako rano uÄimo razdvajati semantiÄko mapiranje i (prikladnu) primjenjivost rijeÄi s viÅ”e znaÄenja, to nije vjeÅ”tina koju je lako prenijeti na hiperskalne sustave sinteze slika poput DALL-E 2 i Stable Diffusion, jer se oni oslanjaju na OpenAI-jev predtrening kontrastivnog jezika i slike (CLIP) modul, koji tretira objekte i njihova svojstva priliÄno labavije (ali koji je na dobitku sve viÅ”e tla u prostoru latentne difuzije slike i video sinteze.
ProuÄavajuÄi ovaj nedostatak, a nova istraživaÄka suradnja sa SveuÄiliÅ”ta Bar-Ilan i Allen instituta za umjetnu inteligenciju nudi opsežnu studiju o tome u kojoj je mjeri DALL-E 2 sklon takvim semantiÄkim pogreÅ”kama:

Dvostruka znaÄenja se u DALL-E 2 dijele na viÅ”e interpretacija - iako bilo koji latentni difuzijski sustav može proizvesti takve primjere. Na gornjoj desnoj slici, uklanjanje 'zlata' iz upita mijenja vrstu ribe, dok je u sluÄaju 'zebre' potrebno eksplicitno navesti povrÅ”inu ceste kako bi se uklonila duplicirana asocijacija. Izvor: https://export.arxiv.org/pdf/2210.10606
Autori su otkrili da ova tendencija dvostrukog tumaÄenja rijeÄi i fraza nije samo uobiÄajena za sve CLIP-voÄene difuzijske modele, veÄ se pogorÅ”ava kako se modeli treniraju na sve veÄim koliÄinama podataka. U radu se napominje da 'smanjene' verzije modela pretvaranja teksta u sliku, ukljuÄujuÄi DALL-E Mini (sada Craiyon), daju ove vrste pogreÅ”aka mnogo rjeÄe i da Stabilna difuzija takoÄer manje grijeÅ”i ā iako samo zato Å”to, vrlo Äesto, uopÄe ne slijedi upit, Å”to je joÅ” jedna vrsta pogreÅ”ke.

Jednostavan prompt 'date' prisiljava DALL-E 2 da pozove dva od nekoliko znaÄenja rijeÄi, dok se rijeÄ 'fan' takoÄer dijeli na dva svoja semantiÄka mapiranja, a na treÄoj slici, fraza 'cone' pouzdano pretvara inaÄe neodreÄenu hranu u promptu u sladoled, koji je povezan s 'cone'.
ObjaÅ”njavajuÄi kako izvodimo uÄinkovita leksiÄka odvajanja, rad navodi:
āIako simboli ā kao i reÄeniÄne strukture ā mogu biti dvosmisleni, nakon Å”to je interpretacija konstruirana, ta je dvosmislenost veÄ rijeÅ”ena. Na primjer, dok se simbol Å”iÅ”miÅ”a u leteÄem Å”iÅ”miÅ”u može protumaÄiti ili kao drveni Å”tap ili kao životinja, naÅ”a moguÄa tumaÄenja reÄenice su ili leteÄeg drvenog Å”tapa ili leteÄe životinje, ali nikada oboje istovremeno. Nakon Å”to se rijeÄ Å”iÅ”miÅ” koristi u interpretaciji za oznaÄavanje predmeta (na primjer drvenog Å”tapa), ne može se ponovno koristiti za oznaÄavanje drugog predmeta (životinje) u istoj interpretaciji.ā
DALL-E 2, primjeÄuje list, nije ograniÄen na ovaj naÄin:

'Å iÅ”miÅ” leti iznad bejzbolskog stadiona' ā prva slika je iz rada, ostale tri dobivene su jednostavnim unoÅ”enjem istog uputa u DALL-E 2.
Ova nekretnina je bila pod nazivom osjetljivost resursa.
Rad identificira tri aberantna ponaÅ”anja koja pokazuje DALL-E 2: da se rijeÄ ili fraza mogu interpretirati i uÄinkovito podijeliti u dva razliÄita entiteta, prikazujuÄi objekt ili koncept za svaki u istoj sceni; da se rijeÄ može interpretirati kao modifikator dvaju razliÄitih entiteta (vidi 'zlatnu ribicu' i druge primjere gore); i da se rijeÄ može istovremeno interpretirati i kao modifikator i kao alternativni entitet ā Å”to je primjer upita 'peÄat otvara pismo':

āPeÄat otvara pismoā ā prva ilustracija je iz rada, susjedne tri identiÄne reprodukcije iz DALL-E 2. FotorealistiÄni primjeri u nastavku imali su dodatni tekst āfotografija, Canon50, 85 mm, F5.6, nagraÄivana fotografijaā.
Autori identificiraju dva naÄina neuspjeha za difuzijske modele u tom pogledu: da Äe rezultati korisniÄkih upita sa smisleno dvosmislenim rijeÄima Äesto prikazati konkretiziranu rijeÄ zajedno s nekom manifestacijom koncepta; i curenje koncepta, gdje svojstva jednog objekta 'procuruju' u drugi renderirani objekt.
āUzevÅ”i sve u obzir, fenomeni koje ispitujemo pružaju dokaze o ograniÄenjima u lingvistiÄkim sposobnostima DALLE-2 i otvaraju puteve za buduÄa istraživanja koja bi otkrila proizlaze li ona iz problema s kodiranjem teksta, generativnim modelom ili oboje. OpÄenito, predloženi pristup može se proÅ”iriti na druge scenarije u kojima se proces dekodiranja koristi za otkrivanje induktivne pristranosti i nedostataka modela pretvaranja teksta u sliku.ā
KoristeÄi 17 rijeÄi koje Äe uzrokovati da DALL-E 2 podijeli ulaz u viÅ”e izlaza, autori su primijetili da homonim dupliciranje se dogodilo u preko 80% od 216 prikazanih slika.
IstraživaÄi su upotrijebili parove podražaj-kontrola kako bi ispitali u kojoj je mjeri specifiÄan i vjerojatno prespecifiÄan jezik neophodan da bi se sprijeÄilo ponavljanje. Za testove entitet-svojstvo kreirano je 10 takvih parova, a autori primjeÄuju da podražaji izazivaju zajedniÄko svojstvo u 92.5% sluÄajeva, dok ga kontrolni upit izaziva samo u 6.6% sluÄajeva.
'[Radi] demonstracije, razmotrimo zebru i ulicu, ovdje je zebra entitet, ali ona modificira ulicu, a DALLE-2 stalno generira pjeÅ”aÄke prijelaze, moguÄe zbog sliÄnosti zebrinih pruga s pjeÅ”aÄkim prijelazom. I u skladu s naÅ”om pretpostavkom, kontrola zebra i Å”ljunÄana ulica odreÄuje vrstu ulice koja obiÄno nema pjeÅ”aÄke prijelaze, i doista, svi naÅ”i kontrolni uzorci za ovaj upit ne sadrže pjeÅ”aÄki prijelaz.'