Mesterséges Intelligencia

A DALL-E 2 egyedülálló megoldása a kettős jelentésekre

korszerűsített on December 9, 2022

Bárki, aki megtanult olaszul, korán megtanul a szövegkörnyezetre figyelni, amikor leírja a seprű, mert ennek a hétköznapi hazai tárgynak az olasz szava rendkívül NSFW második jelentése igeként*. Bár korán megtanuljuk szétválasztani a több jelentésű szavak szemantikai leképezését és (megfelelő) alkalmazhatóságát, ezt nem könnyű átadni olyan hiperskálás képszintézis rendszereknek, mint a DALL-E 2 és a Stable Diffusion, mert ezek a Az OpenAI kontrasztos nyelv-kép előképzése (CLIP) modul, amely meglehetősen lazábban kezeli az objektumokat és azok tulajdonságait (de ami egyre erősödik egyre nagyobb a talaj a látens diffúziós kép- és videószintézis térben.

Ezt a hiányt tanulmányozva a új kutatási együttműködés A Bar-Ilan Egyetem és az Allen Mesterséges Intelligencia Intézet átfogó tanulmányt kínál arról, hogy a DALL-E 2 milyen mértékben hajlamos az ilyen szemantikai hibákra:

A kettős jelentések több objektumra oszlanak a DALL-E 2-ben – bár bármely látens diffúziós rendszer képes ilyen példákat előállítani. A jobb felső képen az "arany" eltávolítása a promptból a halfajtát változtatja meg, míg a "zebra" esetében az útfelületet kifejezetten meg kell adni a megkettőzött asszociáció eltávolításához. Forrás: https://export.arxiv.org/pdf/2210.10606

A kettős jelentések többféle értelmezésre oszlanak a DALL-E 2-ben – bár bármely látens diffúziós rendszer képes ilyen példákat előállítani. A jobb felső képen az "arany" törlése a promptból megváltoztatja a halfajtát, míg a "zebra" esetében az útfelületet kifejezetten meg kell adni, hogy eltüntessük a duplikált asszociációt. Forrás: https://export.arxiv.org/pdf/2210.10606

A szerzők azt találták, hogy a szavak és kifejezések kettős értelmezésére való hajlam nem csak az összes CLIP-vezérelt diffúziós modellre jellemző, hanem egyre rosszabb, ahogy a modelleket egyre nagyobb mennyiségű adatra tanítják. A cikk megjegyzi, hogy a szöveg-képmodellek „csökkentett” változatai, köztük a DALL-E Mini (jelenleg Craiyon) sokkal ritkábban adnak ki ilyen jellegű hibákat, és Stabil diffúzió kevesebbet hibázik is – bár csak azért, mert nagyon gyakran egyáltalán nem követi a felszólítást, ami egy másik hiba.

Az egyszerű „dátum” felszólítás arra kényszeríti a DALL-E 2-t, hogy a szó számos jelentése közül kettőt hívjon meg, míg a „fan” szó szintén két szemantikai leképezésre szakad, a harmadik képen pedig a „kúp” kifejezés megbízhatóan. a promptban szereplő, egyébként meg nem nevezett ételt fagylalttá változtatja, ami a „kúphoz” kapcsolódik.

A cikk elmagyarázza, hogyan hajtjuk végre a hatékony lexikális elválasztást:

„Míg a szimbólumok – akárcsak a mondatszerkezetek – kétértelműek lehetnek, az értelmezés megalkotása után ez a kétértelműség már megoldódott. Míg például a denevér szimbólum egy repülő denevérben akár fabotként, akár állatként értelmezhető, a mondat lehetséges értelmezése vagy repülő fabot, vagy repülő állat, de soha nem mindkettő. Ha egyszer a denevér szót használták az értelmezésben egy tárgy (például fabot) jelölésére, akkor nem lehet újra felhasználni egy másik tárgy (egy állat) jelölésére ugyanabban az értelmezésben.

A cikk szerint a DALL-E 2 nincs így korlátozva:

„Egy ütő repül egy baseball-stadion felett” – az első kép a papírról származik, a másik három pedig ugyanazt az üzenetet egyszerűen beadta a DALL-E 2-be.

Ez az ingatlan megvolt nevezett erőforrás érzékenység.

A tanulmány három, a DALL-E 2 által mutatott rendellenes viselkedést azonosít: egy szót vagy kifejezést lehet értelmezni és hatékonyan ketté lehet osztani két különálló entitássá, így mindegyikhez egy tárgyat vagy fogalmat jelenítenek meg ugyanabban a jelenetben; hogy egy szó két különböző entitás módosítójaként értelmezhető (lásd az „aranyhalat” és más példákat fent); és hogy egy szó egyidejűleg értelmezhető módosítóként és alternatív entitásként is – erre példa a prompt "a pecsét levelet nyit":

„A pecsét levelet nyit” – az első illusztráció a papírról, a szomszédos három, egyforma reprodukció a DALL-E 2-től. Az alábbi fotorealisztikus példákon a „fotó, Canon50, 85mm, F5.6, díj győztes fotó'.

A szerzők ebből a szempontból két hibamódot azonosítanak a diffúziós modelleknél: az értelmes kétértelmű szavakat tartalmazó felhasználói felszólítások eredményei gyakran a konkretizált szót a fogalom valamilyen megnyilvánulásával együtt jelenítik meg; és koncepció szivárgása, ahol az egyik objektum tulajdonságai "szivárognak" egy másik renderelt objektumba.

„Összességében az általunk vizsgált jelenségek bizonyítékot szolgáltatnak a DALLE-2 nyelvi képességeinek korlátaira, és utakat nyitnak a jövőbeli kutatások számára, amelyek feltárják, hogy ezek a szövegkódolás, a generatív modell vagy mindkettő problémáiból fakadnak-e. Általánosabban, a javasolt megközelítés kiterjeszthető más forgatókönyvekre is, ahol a dekódolási folyamatot az induktív torzítás és a szöveg-kép modellek hiányosságainak feltárására használják.

17 szó felhasználásával, amelyek hatására a DALL-E 2 több kimenetre bontja a bemenetet, a szerzők megfigyelték, hogy homonima ismétlődés a 80 megjelenített kép több mint 216%-ánál fordult elő.

A kutatók inger-kontroll párokat használtak annak vizsgálatára, hogy milyen mértékben van szükség specifikus és vitathatatlanul túlzottan meghatározott nyelvre a megkettőződések megállításához. Az entitás-tulajdon tesztekhez 10 ilyen pár készült, és a szerzők megjegyzik, hogy az ingerek az esetek 92.5%-ában provokálják a megosztott tulajdonságot, míg a kontroll prompt csak az esetek 6.6%-ában váltja ki azt.

„[A] szemléltetéshez vegyünk egy zebrát és egy utcát, itt a zebra egy entitás, de módosítja az utcát, és a DALLE-2 folyamatosan generál átkelőhelyeket, valószínűleg azért, mert a zebracsíkok egy átkelőhöz hasonlítanak. És sejtésünknek megfelelően, a zebra és kavicsos utcák ellenőrzése olyan utcatípust határoz meg, amelyen jellemzően nincs átjáró, és valóban, az ehhez a felszólításhoz használt összes kontrollmintánk nem tartalmaz átjárót.

A DALL-E Minivel kísérletező kutatók nem tudták megismételni ezeket az eredményeket, amelyeket a kutatók e modellek alacsonyabb képességeinek tulajdonítanak, és annak valószínűségét, hogy reduktív folyamataik könnyebben rávilágítanak egy értelmes kétértelmű szó „legnyilvánvalóbb” értelmezésére:

„Feltételezésünk szerint – paradox módon – a DALLE-mini és a Stable-diffusion kisebb kapacitása, valamint az a tény, hogy nem követik robusztusan az utasításokat, „jobbnak” tűnnek az általunk vizsgált hibákhoz képest. A méretarány, a modellarchitektúra és a koncepció kiszivárgása közötti kapcsolat alapos értékelését a jövőbeli munkára kell bízni.

Előzetes munka származó 2021, a szerzők megjegyzik, már megfigyelték, hogy a CLIP beágyazásai nem kötik kifejezetten egy fogalom attribútumait magához az objektumhoz. „Ennek megfelelően” – írják. "megfigyelik, hogy a dekóderből származó rekonstrukciók gyakran keverik az attribútumokat és az objektumokat."

* A DALL-E 2-nek ebben a konkrét esetben van néhány problémája. Az "Una donna che sta scopando" ("egy nő söprő") parancs beírása különböző középkorú nőket idéz meg, akik udvarokat takarnak, stb. Ha azonban hozzáadja a "hálószobában" (olaszul), a prompt a DALL-E-t hívja meg. 2 NSFW szűrőjét, amely szerint az eredmények sértik az OpenAI tartalomszabályzatát.

Első megjelenés: 20. október 2022.

Kapcsolódó témák:képszintézis kutatás Stabil diffúzió

Up Next

UniTune: A Google alternatív neurális képszerkesztési technikája

Ne hagyd ki

AI-asszisztált objektumszerkesztés a Google Imagic és Runway „Erase and Replace” programjával

Martin Anderson

Író a gépi tanulásról, a mesterséges intelligenciáról és a big data-ról.
Személyes oldal: Martinanderson.ai
Kapcsolat [e-mail védett]
Twitter: @manders_ai