Mesterséges Intelligencia
A DALL-E 2 egyedülálló megoldása a kettős jelentésekre
Bárki, aki megtanult olaszul, korán megtanul a szövegkörnyezetre figyelni, amikor leírja a seprű, mert ennek a hétköznapi hazai tárgynak az olasz szava rendkívül NSFW második jelentése igeként*. Bár korán megtanuljuk szétválasztani a több jelentésű szavak szemantikai leképezését és (megfelelő) alkalmazhatóságát, ezt nem könnyű átadni olyan hiperskálás képszintézis rendszereknek, mint a DALL-E 2 és a Stable Diffusion, mert ezek a Az OpenAI kontrasztos nyelv-kép előképzése (CLIP) modul, amely meglehetősen lazábban kezeli az objektumokat és azok tulajdonságait (de ami egyre erősödik egyre nagyobb a talaj a látens diffúziós kép- és videószintézis térben.
Ezt a hiányt tanulmányozva a új kutatási együttműködés A Bar-Ilan Egyetem és az Allen Mesterséges Intelligencia Intézet átfogó tanulmányt kínál arról, hogy a DALL-E 2 milyen mértékben hajlamos az ilyen szemantikai hibákra:
A szerzők azt találták, hogy a szavak és kifejezések kettős értelmezésére való hajlam nem csak az összes CLIP-vezérelt diffúziós modellre jellemző, hanem egyre rosszabb, ahogy a modelleket egyre nagyobb mennyiségű adatra tanítják. A cikk megjegyzi, hogy a szöveg-képmodellek „csökkentett” változatai, köztük a DALL-E Mini (jelenleg Craiyon) sokkal ritkábban adnak ki ilyen jellegű hibákat, és Stabil diffúzió kevesebbet hibázik is – bár csak azért, mert nagyon gyakran egyáltalán nem követi a felszólítást, ami egy másik hiba.
A cikk elmagyarázza, hogyan hajtjuk végre a hatékony lexikális elválasztást:
„Míg a szimbólumok – akárcsak a mondatszerkezetek – kétértelműek lehetnek, az értelmezés megalkotása után ez a kétértelműség már megoldódott. Míg például a denevér szimbólum egy repülő denevérben akár fabotként, akár állatként értelmezhető, a mondat lehetséges értelmezése vagy repülő fabot, vagy repülő állat, de soha nem mindkettő. Ha egyszer a denevér szót használták az értelmezésben egy tárgy (például fabot) jelölésére, akkor nem lehet újra felhasználni egy másik tárgy (egy állat) jelölésére ugyanabban az értelmezésben.
A cikk szerint a DALL-E 2 nincs így korlátozva:
Ez az ingatlan megvolt nevezett erőforrás érzékenység.
A tanulmány három, a DALL-E 2 által mutatott rendellenes viselkedést azonosít: egy szót vagy kifejezést lehet értelmezni és hatékonyan ketté lehet osztani két különálló entitássá, így mindegyikhez egy tárgyat vagy fogalmat jelenítenek meg ugyanabban a jelenetben; hogy egy szó két különböző entitás módosítójaként értelmezhető (lásd az „aranyhalat” és más példákat fent); és hogy egy szó egyidejűleg értelmezhető módosítóként és alternatív entitásként is – erre példa a prompt "a pecsét levelet nyit":
A szerzők ebből a szempontból két hibamódot azonosítanak a diffúziós modelleknél: az értelmes kétértelmű szavakat tartalmazó felhasználói felszólítások eredményei gyakran a konkretizált szót a fogalom valamilyen megnyilvánulásával együtt jelenítik meg; és koncepció szivárgása, ahol az egyik objektum tulajdonságai "szivárognak" egy másik renderelt objektumba.
„Összességében az általunk vizsgált jelenségek bizonyítékot szolgáltatnak a DALLE-2 nyelvi képességeinek korlátaira, és utakat nyitnak a jövőbeli kutatások számára, amelyek feltárják, hogy ezek a szövegkódolás, a generatív modell vagy mindkettő problémáiból fakadnak-e. Általánosabban, a javasolt megközelítés kiterjeszthető más forgatókönyvekre is, ahol a dekódolási folyamatot az induktív torzítás és a szöveg-kép modellek hiányosságainak feltárására használják.
17 szó felhasználásával, amelyek hatására a DALL-E 2 több kimenetre bontja a bemenetet, a szerzők megfigyelték, hogy homonima ismétlődés a 80 megjelenített kép több mint 216%-ánál fordult elő.
A kutatók inger-kontroll párokat használtak annak vizsgálatára, hogy milyen mértékben van szükség specifikus és vitathatatlanul túlzottan meghatározott nyelvre a megkettőződések megállításához. Az entitás-tulajdon tesztekhez 10 ilyen pár készült, és a szerzők megjegyzik, hogy az ingerek az esetek 92.5%-ában provokálják a megosztott tulajdonságot, míg a kontroll prompt csak az esetek 6.6%-ában váltja ki azt.
„[A] szemléltetéshez vegyünk egy zebrát és egy utcát, itt a zebra egy entitás, de módosítja az utcát, és a DALLE-2 folyamatosan generál átkelőhelyeket, valószínűleg azért, mert a zebracsíkok egy átkelőhöz hasonlítanak. És sejtésünknek megfelelően, a zebra és kavicsos utcák ellenőrzése olyan utcatípust határoz meg, amelyen jellemzően nincs átjáró, és valóban, az ehhez a felszólításhoz használt összes kontrollmintánk nem tartalmaz átjárót.
A DALL-E Minivel kísérletező kutatók nem tudták megismételni ezeket az eredményeket, amelyeket a kutatók e modellek alacsonyabb képességeinek tulajdonítanak, és annak valószínűségét, hogy reduktív folyamataik könnyebben rávilágítanak egy értelmes kétértelmű szó „legnyilvánvalóbb” értelmezésére:
„Feltételezésünk szerint – paradox módon – a DALLE-mini és a Stable-diffusion kisebb kapacitása, valamint az a tény, hogy nem követik robusztusan az utasításokat, „jobbnak” tűnnek az általunk vizsgált hibákhoz képest. A méretarány, a modellarchitektúra és a koncepció kiszivárgása közötti kapcsolat alapos értékelését a jövőbeli munkára kell bízni.
Előzetes munka származó 2021, a szerzők megjegyzik, már megfigyelték, hogy a CLIP beágyazásai nem kötik kifejezetten egy fogalom attribútumait magához az objektumhoz. „Ennek megfelelően” – írják. "megfigyelik, hogy a dekóderből származó rekonstrukciók gyakran keverik az attribútumokat és az objektumokat."
* A DALL-E 2-nek ebben a konkrét esetben van néhány problémája. Az "Una donna che sta scopando" ("egy nő söprő") parancs beírása különböző középkorú nőket idéz meg, akik udvarokat takarnak, stb. Ha azonban hozzáadja a "hálószobában" (olaszul), a prompt a DALL-E-t hívja meg. 2 NSFW szűrőjét, amely szerint az eredmények sértik az OpenAI tartalomszabályzatát.
Első megjelenés: 20. október 2022.