Sztuczna inteligencja

Unikalne rozwiązanie DALL-E 2 dla podwójnych znaczeń

Published October 20, 2022

Updated April 28, 2026

Martin Anderson

Każdy, kto nauczył się języka włoskiego, ucząc się wcześnie, zwraca uwagę na kontekst, opisując szczotkę, ponieważ włoskie słowo na określenie tego zwyczajnego przedmiotu domowego ma ekstremalnie nieodpowiednie drugie znaczenie jako czasownik*. Chociaż uczymy się wcześnie rozplątywać mapowanie semantyczne i (odpowiednie) stosowalność słów o wielu znaczeniach, nie jest to umiejętność, którą łatwo przekazać systemom hyperskali image synthesis, takim jak DALL-E 2 i Stable Diffusion, ponieważ opierają się one na module OpenAI’s Contrastive Language–Image Pre-training (CLIP), który traktuje obiekty i ich właściwości dość swobodnie (jednak który zyskuje coraz więcej grunt w latent diffusion image i video synthesis space).

Studium tej luki, nowe badanie współpracy z Bar-Ilan University i Allen Institute for Artificial Intelligence oferuje obszerną analizę stopnia, w jakim DALL-E 2 jest skłonny do takich błędów semantycznych:

Podwójne znaczenia rozdzielone na wiele obiektów w DALL-E 2 – chociaż każdy system latent diffusion może produkować takie przykłady. W górnej prawej części obrazu, usunięcie 'złota' z podpowiedzi zmienia gatunek ryby, podczas gdy w przypadku 'zebra crossing' konieczne jest jawnie określenie powierzchni drogi, aby usunąć zdublowaną asociację. Source: https://export.arxiv.org/pdf/2210.10606

Podwójne znaczenia rozdzielone na wiele interpretacji w DALL-E 2 – chociaż każdy system latent diffusion może produkować takie przykłady. W górnej prawej części obrazu, usunięcie ‘złota’ z podpowiedzi zmienia gatunek ryby, podczas gdy w przypadku ‘zebra crossing’ konieczne jest jawnie określenie powierzchni drogi, aby usunąć zdublowaną asociację. Source: https://export.arxiv.org/pdf/2210.10606

Autorzy stwierdzili, że ta tendencja do podwójnej interpretacji słów i fraz wydaje się nie tylko wspólna dla wszystkich modeli CLIP, ale także, że pogarsza się wraz ze wzrostem ilości danych szkoleniowych. W artykule zauważa się, że ‘zmniejszone’ wersje modeli text-to-image, w tym DALL-E Mini (obecnie Craiyon), produkują tego rodzaju błędy znacznie rzadziej, a Stable Diffusion również błędnie interpretuje mniej – chociaż tylko dlatego, że często nie wykonuje podpowiedzi w ogóle, co jest innym rodzajem błędu.

Prosta podpowiedź ‘date’ zmusza DALL-E 2 do wywołania dwóch z kilku znaczeń słowa, podczas gdy słowo ‘fan’ również dzieli się na dwa ze swoich mapowań semantycznych, a w trzecim obrazie fraza ‘cone’ niezawodnie zmienia nieokreślone wcześniej jedzenie w podpowiedzi w lody, które są skojarzone z ‘cone’.

Wyjaśniając, jak wykonujemy wydajne separacje leksykalne, artykuł stwierdza:

‘Podczas gdy symbole – a także struktury zdaniowe – mogą być wieloznaczne, po zbudowaniu interpretacji ta wieloznaczność jest już rozwiązana. Na przykład, podczas gdy symbol ‘bat’ w latającym ‘bat’ może być interpretowany jako albo drewniany kij, albo zwierzę, nasze możliwe interpretacje zdania są albo latający drewniany kij, albo latające zwierzę, ale nigdy oba jednocześnie. Gdy słowo ‘bat’ zostało użyte w interpretacji, aby określić obiekt (na przykład drewniany kij), nie może być ponownie użyte do określenia innego obiektu (zwierzęcia) w tej samej interpretacji.’

DALL-E 2, jak zauważa artykuł, nie jest ograniczony w ten sposób:

‘A bat is flying over a baseball stadium’ – pierwszy obraz pochodzi z artykułu, a pozostałe trzy uzyskano, wprowadzając tę samą podpowiedź do DALL-E 2.

Ta właściwość została nazwana czułością na zasoby.

Artykuł identyfikuje trzy nieprawidłowe zachowania występujące w DALL-E 2: że słowo lub fraza mogą być interpretowane i efektywnie podzielone na dwie odrębne jednostki, renderując obiekt lub pojęcie w tej samej scenie; że słowo może być interpretowane jako modyfikator dwóch różnych jednostek (patrz przykłady ‘goldfish’ i inne powyżej); i że słowo może być interpretowane jednocześnie jako modyfikator i alternatywna jednostka – ilustrowane przez podpowiedź ‘a seal is opening a letter’:

‘A seal is opening a letter’ – pierwsza ilustracja pochodzi z artykułu, a trzy sąsiednie to identyczne reprodukcje z DALL-E 2. Poniższe przykłady fotorealistyczne miały dodatkowy tekst ‘photo, Canon50, 85mm, F5.6, award-winning photo’.

Autorzy identyfikują dwa tryby awaryjne dla modeli dyfuzji w tym zakresie: że wyniki podpowiedzi użytkownika ze słowami o wielu znaczeniach często wykazują konkretne słowo wraz z pewnym przejawem pojęcia; i przeciekanie pojęć, gdzie właściwości jednego obiektu ‘przeciekają’ do innego renderowanego obiektu.

‘Biorąc to wszystko razem, zjawiska, które badamy, dostarczają dowodów na ograniczenia w umiejętnościach językowych DALLE-2 i otwierają drogę do przyszłych badań, które ujawnią, czy te ograniczenia wynikają z problemów z kodowaniem tekstu, modelem generatywnym, czy oboma. Bardziej ogólnie, proponowany podejście może być rozszerzone na inne sytuacje, w których proces dekodowania jest używany do ujawnienia indukcyjnego zaufania i niedostatków modeli text-to-image.’

Używając 17 słów, które spowodują, że DALL-E 2 podzieli dane wejściowe na wiele wyników, autorzy zaobserwowali, że duplikacja homonimów wystąpiła w ponad 80% z 216 wyrenderowanych obrazów.

Badacze użyli par kontrolnych, aby zbadać, w jakim stopniu konieczne jest określenie specyficznego i nadmiernie określonego języka, aby zapobiec tym duplikacjom. Dla testów jednostka-do-właściwości, utworzono 10 takich par, a autorzy zauważają, że podpowiedzi prowokują wspólną właściwość w 92,5% przypadków, podczas gdy podpowiedź kontrolna wywołuje ją tylko w 6,6% przypadków.

‘[Aby] zademonstrować, rozważmy żyrafę i ulicę, tutaj żyrafa jest jednostką, ale modyfikuje ulicę, a DALLE-2 stale generuje przejścia dla pieszych, prawdopodobnie z powodu podobieństwa pasów żyrafy do przejścia. I zgodnie z naszym przypuszczeniem, kontrola żyrafa i ulica żwirowa określa typ ulicy, która zwykle nie ma przejść, i rzeczywiście, wszystkie nasze próbki kontrolne dla tej podpowiedzi nie zawierają przejścia.’