Povežite se s nama

Umjetna inteligencija

DALL-E 2 jedinstveno rjeŔenje za dvostruka značenja

mm

Svatko tko je naučio talijanski rano nauči obratiti pozornost na kontekst kada opisuje a metla, jer talijanska riječ za ovu svjetovnu domaću stvar ima izuzetno NSFW drugo značenje kao glagol*. Iako rano učimo razdvajati semantičko mapiranje i (prikladnu) primjenjivost riječi s viÅ”e značenja, to nije vjeÅ”tina koju je lako prenijeti na hiperskalne sustave sinteze slika poput DALL-E 2 i Stable Diffusion, jer se oni oslanjaju na OpenAI-jev predtrening kontrastivnog jezika i slike (CLIP) modul, koji tretira objekte i njihova svojstva prilično labavije (ali koji je na dobitku sve viÅ”e tla u prostoru latentne difuzije slike i video sinteze.

Proučavajući ovaj nedostatak, a nova istraživačka suradnja sa SveučiliÅ”ta Bar-Ilan i Allen instituta za umjetnu inteligenciju nudi opsežnu studiju o tome u kojoj je mjeri DALL-E 2 sklon takvim semantičkim pogreÅ”kama:

Dvostruka značenja podijeljena su na viÅ”estruke objekte u DALL-E 2 – iako svaki latentni difuzijski sustav može proizvesti takve primjere. Na gornjoj desnoj slici uklanjanje 'zlata' iz upita mijenja vrstu ribe, dok je u slučaju 'zebre' potrebno eksplicitno navesti povrÅ”inu ceste kako bi se uklonila duplicirana asocijacija. Izvor: https://export.arxiv.org/pdf/2210.10606

Dvostruka značenja se u DALL-E 2 dijele na viŔe interpretacija - iako bilo koji latentni difuzijski sustav može proizvesti takve primjere. Na gornjoj desnoj slici, uklanjanje 'zlata' iz upita mijenja vrstu ribe, dok je u slučaju 'zebre' potrebno eksplicitno navesti povrŔinu ceste kako bi se uklonila duplicirana asocijacija. Izvor: https://export.arxiv.org/pdf/2210.10606

Autori su otkrili da ova tendencija dvostrukog tumačenja riječi i fraza nije samo uobičajena za sve CLIP-vođene difuzijske modele, već se pogorÅ”ava kako se modeli treniraju na sve većim količinama podataka. U radu se napominje da 'smanjene' verzije modela pretvaranja teksta u sliku, uključujući DALL-E Mini (sada Craiyon), daju ove vrste pogreÅ”aka mnogo rjeđe i da Stabilna difuzija također manje grijeÅ”i – iako samo zato Å”to, vrlo često, uopće ne slijedi upit, Å”to je joÅ” jedna vrsta pogreÅ”ke.

Jednostavan upit 'datum' prisiljava DALL-E 2 da pozove dva od nekoliko značenja riječi, dok se riječ 'obožavatelj' također dijeli na dva svoja semantička preslikavanja, a na trećoj slici fraza 'stožac' pouzdano pretvara inače neodređenu hranu u upitu u sladoled, koji je povezan s 'kornetom'.

Jednostavan prompt 'date' prisiljava DALL-E 2 da pozove dva od nekoliko značenja riječi, dok se riječ 'fan' također dijeli na dva svoja semantička mapiranja, a na trećoj slici, fraza 'cone' pouzdano pretvara inače neodređenu hranu u promptu u sladoled, koji je povezan s 'cone'.

ObjaÅ”njavajući kako izvodimo učinkovita leksička odvajanja, rad navodi:

ā€žIako simboli – kao i rečenične strukture – mogu biti dvosmisleni, nakon Å”to je interpretacija konstruirana, ta je dvosmislenost već rijeÅ”ena. Na primjer, dok se simbol Å”iÅ”miÅ”a u letećem Å”iÅ”miÅ”u može protumačiti ili kao drveni Å”tap ili kao životinja, naÅ”a moguća tumačenja rečenice su ili letećeg drvenog Å”tapa ili leteće životinje, ali nikada oboje istovremeno. Nakon Å”to se riječ Å”iÅ”miÅ” koristi u interpretaciji za označavanje predmeta (na primjer drvenog Å”tapa), ne može se ponovno koristiti za označavanje drugog predmeta (životinje) u istoj interpretaciji.ā€œ

DALL-E 2, primjećuje list, nije ograničen na ovaj način:

'Å iÅ”miÅ” leti iznad bejzbolskog stadiona' – prva slika je s papira, ostale tri dobivene jednostavnim ubacivanjem istog upita u DALL-E 2.

'Å iÅ”miÅ” leti iznad bejzbolskog stadiona' – prva slika je iz rada, ostale tri dobivene su jednostavnim unoÅ”enjem istog uputa u DALL-E 2.

Ova nekretnina je bila pod nazivom osjetljivost resursa.

Rad identificira tri aberantna ponaÅ”anja koja pokazuje DALL-E 2: da se riječ ili fraza mogu interpretirati i učinkovito podijeliti u dva različita entiteta, prikazujući objekt ili koncept za svaki u istoj sceni; da se riječ može interpretirati kao modifikator dvaju različitih entiteta (vidi 'zlatnu ribicu' i druge primjere gore); i da se riječ može istovremeno interpretirati i kao modifikator i kao alternativni entitet – Å”to je primjer upita 'pečat otvara pismo':

'Pečat otvara pismo' – prva ilustracija je s papira, susjedne tri, identične reprodukcije iz DALL-E 2. Fotorealni primjeri u nastavku imali su dodatni tekst 'fotografija, Canon50, 85 mm, F5.6, nagrada- pobjednička fotografija'.

ā€žPečat otvara pismoā€œ – prva ilustracija je iz rada, susjedne tri identične reprodukcije iz DALL-E 2. Fotorealistični primjeri u nastavku imali su dodatni tekst ā€žfotografija, Canon50, 85 mm, F5.6, nagrađivana fotografijaā€œ.

Autori identificiraju dva načina neuspjeha za difuzijske modele u tom pogledu: da će rezultati korisničkih upita sa smisleno dvosmislenim riječima često prikazati konkretiziranu riječ zajedno s nekom manifestacijom koncepta; i curenje koncepta, gdje svojstva jednog objekta 'procuruju' u drugi renderirani objekt.

ā€žUzevÅ”i sve u obzir, fenomeni koje ispitujemo pružaju dokaze o ograničenjima u lingvističkim sposobnostima DALLE-2 i otvaraju puteve za buduća istraživanja koja bi otkrila proizlaze li ona iz problema s kodiranjem teksta, generativnim modelom ili oboje. Općenito, predloženi pristup može se proÅ”iriti na druge scenarije u kojima se proces dekodiranja koristi za otkrivanje induktivne pristranosti i nedostataka modela pretvaranja teksta u sliku.ā€œ

Koristeći 17 riječi koje će uzrokovati da DALL-E 2 podijeli ulaz u viÅ”e izlaza, autori su primijetili da homonim dupliciranje se dogodilo u preko 80% od 216 prikazanih slika.

Istraživači su upotrijebili parove podražaj-kontrola kako bi ispitali u kojoj je mjeri specifičan i vjerojatno prespecifičan jezik neophodan da bi se spriječilo ponavljanje. Za testove entitet-svojstvo kreirano je 10 takvih parova, a autori primjećuju da podražaji izazivaju zajedničko svojstvo u 92.5% slučajeva, dok ga kontrolni upit izaziva samo u 6.6% slučajeva.

'[Radi] demonstracije, razmotrimo zebru i ulicu, ovdje je zebra entitet, ali ona modificira ulicu, a DALLE-2 stalno generira pjeÅ”ačke prijelaze, moguće zbog sličnosti zebrinih pruga s pjeÅ”ačkim prijelazom. I u skladu s naÅ”om pretpostavkom, kontrola zebra i Å”ljunčana ulica određuje vrstu ulice koja obično nema pjeÅ”ačke prijelaze, i doista, svi naÅ”i kontrolni uzorci za ovaj upit ne sadrže pjeÅ”ački prijelaz.'

Pisac o strojnom učenju, stručnjak za područje sinteze ljudske slike. BivŔi voditelj istraživačkog sadržaja na Metaphysic.ai.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-poÅ”ta zaÅ”tićena]
Twitter: @manders_ai