stub DALL-E 2s unike løsning på doble betydninger - Unite.AI
Kontakt med oss

Kunstig intelligens

DALL-E 2s unike løsning på doble betydninger

mm
oppdatert on

Alle som har lært italiensk lærer tidlig å ta hensyn til konteksten når de beskriver en sopelime, fordi det italienske ordet for denne verdslige innenlandske gjenstanden har en ekstremt NSFW andre betydning som et verb*. Selv om vi tidlig lærer å skille ut den semantiske kartleggingen og (tilsvarende) anvendeligheten til ord med flere betydninger, er ikke dette en ferdighet som er lett å overføre til hyperskala bildesyntesesystemer som DALL-E 2 og Stable Diffusion, fordi de er avhengige av OpenAIs Contrastive Language–Image Pre-training (CLIP)-modulen, som behandler objekter og deres egenskaper litt mer løst (ennå som øker stadig mer jord i det latente diffusjonsbildet og videosynteserommet.

Ved å studere denne mangelen, a nytt forskningssamarbeid fra Bar-Ilan University og Allen Institute for Artificial Intelligence tilbyr en omfattende studie av i hvilken grad DALL-E 2 er disponert for slike semantiske feil:

Dobbeltbetydninger splittes opp i flere objekter i DALL-E 2 – selv om ethvert latent diffusjonssystem kan produsere slike eksempler. I bildet øverst til høyre endres fiskearten ved å fjerne 'gull' fra ledeteksten, mens i tilfellet med 'sebraovergangen' er det nødvendig å angi veibanen eksplisitt for å fjerne den dupliserte assosiasjonen. Kilde: https://export.arxiv.org/pdf/2210.10606

Dobbeltbetydninger delt ut i flere tolkninger i DALL-E 2 - selv om ethvert latent diffusjonssystem kan produsere slike eksempler. I bildet øverst til høyre endres fiskearten ved å fjerne 'gull' fra ledeteksten, mens i tilfellet med 'sebraovergangen' er det nødvendig å angi veibanen eksplisitt for å fjerne den dupliserte assosiasjonen. Kilde: https://export.arxiv.org/pdf/2210.10606

Forfatterne har funnet ut at denne tendensen til å dobbelttolke ord og uttrykk ikke bare ser ut til å være felles for alle CLIP-veiledede diffusjonsmodeller, men at den blir verre ettersom modellene trenes på stadig større datamengder. Avisen bemerker at "reduserte" versjoner av tekst-til-bilde-modeller, inkludert DALL-E Mini (nå Craiyon) produserer denne typen feil langt sjeldnere, og at Stabil diffusjon feiler også mindre – men bare fordi den svært ofte ikke følger ledeteksten i det hele tatt, som er en annen type feil.

Den enkle meldingen 'dato' tvinger DALL-E 2 til å påkalle to av de flere betydningene av ordet, mens ordet 'fan' også deler seg i to av dets semantiske tilordninger, og i det tredje bildet er uttrykket 'kjegle' pålitelig. gjør den ellers uspesifiserte maten i ledeteksten til iskrem, som er assosiert med 'kjegle'.

Den enkle meldingen 'dato' tvinger DALL-E 2 til å påkalle to av de flere betydningene av ordet, mens ordet 'fan' også deler seg i to av dets semantiske tilordninger, og i det tredje bildet er uttrykket 'kjegle' pålitelig. gjør den ellers uspesifiserte maten i ledeteksten til iskrem, som er assosiert med 'kjegle'.

Papiret forklarer hvordan vi utfører effektive leksikale separasjoner:

«Mens symboler – så vel som setningsstrukturer – kan være tvetydige, er denne tvetydigheten allerede løst etter at en tolkning er konstruert. For eksempel, mens symbolet flaggermus i en flygende flaggermus kan tolkes som enten en trepinne eller et dyr, er våre mulige tolkninger av setningen enten en flygende trepinne eller et flygende dyr, men aldri begge deler samtidig. Når ordet flaggermus har blitt brukt i tolkningen for å betegne en gjenstand (for eksempel en trepinne), kan det ikke gjenbrukes for å betegne en annen gjenstand (et dyr) i samme tolkning.'

DALL-E 2, observerer papiret, er ikke begrenset på denne måten:

"Et flaggermus flyr over en baseballstadion" – det første bildet er fra avisen, de tre andre er hentet fra ganske enkelt å mate den samme meldingen inn i DALL-E 2.

"Et flaggermus flyr over en baseballstadion" – det første bildet er fra avisen, de tre andre er hentet fra ganske enkelt å mate den samme meldingen inn i DALL-E 2.

Denne eiendommen har vært navngitt ressursfølsomhet.

Artikkelen identifiserer tre avvikende atferd utstilt av DALL-E 2: at et ord eller en frase kan bli tolket og effektivt delt inn i to forskjellige enheter, som gjengir et objekt eller konsept for hver i samme scene; at et ord kan tolkes som en modifisering av to forskjellige enheter (se 'gullfisken' og andre eksempler ovenfor); og at et ord kan tolkes samtidig som både en modifikator og en alternativ enhet – eksemplifisert ved ledeteksten "et segl åpner et brev":

'Et segl åpner et brev' – den første illustrasjonen er fra papiret, de tre ved siden av, identiske reproduksjoner fra DALL-E 2. De fotorealistiske eksemplene nedenfor hadde ekstrateksten 'photo, Canon50, 85mm, F5.6, award- vinnerbilde'.

'Et segl åpner et brev' – den første illustrasjonen er fra papiret, de tre ved siden av, identiske reproduksjoner fra DALL-E 2. De fotorealistiske eksemplene nedenfor hadde ekstrateksten 'photo, Canon50, 85mm, F5.6, award- vinnerbilde'.

Forfatterne identifiserer to feilmoduser for diffusjonsmodeller i denne forbindelse: at resultatene av brukeroppfordringer med sansetvetydige ord ofte vil vise det konkretiserte ordet sammen med en viss manifestasjon av konseptet; og konseptlekkasje, der egenskapene til ett objekt "lekker" inn i et annet gjengitt objekt.

"Tilsammen gir fenomenene vi undersøker bevis for begrensninger i den språklige evnen til DALLE-2 og åpner veier for fremtidig forskning som vil avdekke om de stammer fra problemer med tekstkodingen, den generative modellen eller begge deler. Mer generelt kan den foreslåtte tilnærmingen utvides til andre scenarier der dekodingsprosessen brukes til å avdekke den induktive skjevheten og manglene ved tekst-til-bilde-modeller.'

Ved å bruke 17 ord som vil få DALL-E 2 til å dele inndataene i flere utganger, observerte forfatterne at homonym duplisering skjedde i over 80 % av 216 gjengitte bilder.

Forskerne brukte stimuli-kontroll-par for å undersøke i hvilken grad spesifikt og uten tvil overspesifisert språk er nødvendig for å stoppe disse duplikasjonene. For entitet-til-eiendom-testene ble det opprettet 10 slike par, og forfatterne bemerker at stimuli-oppfordringene provoserer den delte eiendommen i 92.5 % av tilfellene, mens kontrollmeldingen bare fremkaller det i 6.6 % av tilfellene.

"[For å] demonstrere, tenk på en sebra og en gate, her er sebra en enhet, men den modifiserer gate, og DALLE-2 genererer konstant fotgjengeroverganger, muligens på grunn av sebrastripenes likhet med et fotgjengerovergang. Og i tråd med vår formodning spesifiserer kontrollen en sebra- og en grusgate en type gate som vanligvis ikke har fotgjengeroverganger, og faktisk inneholder ikke alle kontrollprøvene våre for denne ledeteksten et fotgjengerovergang.'

Forskernes eksperimenter med DALL-E Mini kunne ikke gjenskape disse funnene, som forskerne tilskriver de lavere egenskapene til disse modellene, og sannsynligheten for at deres reduktive prosesser lettere lyser på den mest "åpenbare" tolkningen av et menings-tvetydig ord:

'Vi antar at det – paradoksalt nok – er den lavere kapasiteten til DALLE-mini og Stable-diffusjon og det faktum at de ikke følger instruksjonene robust, som får dem til å fremstå som «bedre» med hensyn til feilene vi undersøker. En grundig evaluering av forholdet mellom skala, modellarkitektur og konseptlekkasje er overlatt til fremtidig arbeid.'

Tidligere arbeid fra 2021, bemerker forfatterne, hadde allerede observert at CLIPs innebygginger ikke eksplisitt binder et konsepts attributter til selve objektet. «Derfor,» skriver de. 'de observerer at rekonstruksjoner fra dekoderen ofte blander attributter og objekter.'

 

* DALL-E 2 har noen problemer i dette spesifikke tilfellet. Ved å skrive inn meldingen 'Una donna che sta scopando' ('en kvinne som feier') tilkaller du forskjellige middelaldrende kvinner som feier gårdsrom osv. Men hvis du legger til 'i et soverom' (på italiensk), kaller meldingen DALL-E 2s NSFW-filter, som sier at resultatene bryter med OpenAIs innholdspolicy.

Først publisert 20. oktober 2022.