Sztuczna inteligencja

‘Bezsensowny język’, który może podważyć systemy moderacji syntezy obrazu

Published August 9, 2022

Updated April 28, 2026

Martin Anderson

DALL-E 2: 'a man in a state of exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

Nowe badania przeprowadzone na Uniwersytecie Columbia sugerują, że zabezpieczenia, które uniemożliwiają modelom syntezy obrazu, takim jak DALL-E 2, Imagen i Parti, generowanie szkodliwych lub kontrowersyjnych obrazów, są podatne na rodzaj ataku adversarialnego, który wykorzystuje “zmyślone” słowa.

Autor opracował dwa podejścia, które mogą potencjalnie obejść środki moderacji treści w systemie syntezy obrazu i stwierdził, że są one niezwykle odporne nawet na różne architektury, co wskazuje, że słabość ta jest bardziej niż tylko systemowa i może dotyczyć niektórych z najbardziej fundamentalnych zasad syntezy obrazu z tekstu.

Pierwsze, i silniejsze z nich, nazywa się macaronic prompting. Termin “macaronic” początkowo odnosi się do mieszanki wielu języków, jak w przypadku esperanto lub Unwinese. Być może najbardziej rozpowszechnionym przykładem byłby Urdu-English, rodzaj “mieszania kodu” powszechny w Pakistanie, który swobodnie łączy angielskie rzeczowniki i sufiksy urdu.

Compositional macaronic prompting in DALL-E 2. Source: https://arxiv.org/pdf/2208.04135.pdf

W niektórych z powyższych przykładów części znaczących słów zostały połączone, używając angielskiego jako “szkieletu”. Inne przykłady w artykule wykorzystują wiele języków w ramach jednej wypowiedzi.

System odpowiada w sposób semantycznie znaczący ze względu na brak kuracji w źródłach internetowych, na których system został wyuczony. Takie źródła często zawierają etykiety wielojęzyczne (tj. z zestawów danych niekoniecznie przeznaczonych do syntezy obrazu), a każde słowo spożyte, w dowolnym języku, staje się “tokenem”; jednak części tych słów stają się “pod-słowami” lub ułamkowymi tokenami. W przetwarzaniu języka naturalnego (NLP) tego rodzaju “stemming” pomaga odróżnić etymologię dłuższych pochodnych słów, które mogą powstać w operacjach transformacji, ale również tworzy ogromny leksykalny “zestaw Lego”, który “kreatywne” wprowadzanie może wykorzystać.

Monolingual portmanteau words are also effective in obtaining images through indirect or non-prosaic language, with very similar results often obtainable across differing architectures, such as DALL-E 2 and DALL-E Mini (Craiyon).

W drugim podejściu, zwanym evocative prompting, niektóre ze słów złożonych są podobne do bardziej “szkolnego” nurtu “łaciny szkolnej” pokazanego w Monty Python’s Life of Brian (1979).

It’s no joke – faux Latin often succeeds in evincing a meaningful response from DALL-E 2.

Autor stwierdza:

‘Oczywistą obawą związaną z tą metodą jest obejście filtrów treści opartych na czarnej liście wprowadzeń. Zasada macaronic prompting mogłaby dostarczyć łatwy i pozornie niezawodny sposób na ominięcie takich filtrów w celu wygenerowania szkodliwych, obraźliwych, nielegalnych lub innych wrażliwych treści, w tym obrazów przemocy, nienawiści, rasizmu, seksizmu lub pornografii, a także obrazów naruszających prawa własności intelektualnej lub przedstawiających prawdziwe osoby.

‘Firmy oferujące generowanie obrazów jako usługę położyły wiele wysiłku w zapobieganiu generowaniu takich danych wyjściowych zgodnie ze swoją polityką treści. W związku z tym macaronic prompting powinien być systematycznie badany jako zagrożenie dla protokołów bezpieczeństwa stosowanych w komercyjnym generowaniu obrazów.’

Autor sugeruje kilka rozwiązań przeciwko tej słabości, z których niektóre uważa za zbyt restrykcyjne.

Pierwszym możliwym rozwiązaniem jest najbardziej kosztowne: staranne kuracji źródłowych obrazów szkoleniowych, z większym nadzorem ludzkim i mniej algorytmicznym. Niemniej jednak artykuł stwierdza, że nie uniemożliwiłoby to systemowi syntezy obrazu tworzenia obraźliwego połączenia między dwoma pojęciami obrazowymi, które same w sobie są potencjalnie niewinne.

Po drugie, artykuł sugeruje, że systemy syntezy obrazu mogą przeprowadzać swoje rzeczywiste dane wyjściowe przez system filtrujący, przechwytując jakiekolwiek problematyczne skojarzenia przed ich przedstawieniem użytkownikowi. Możliwe, że DALL-E 2 obecnie korzysta z takiego filtra, choć OpenAI nie ujawnił dokładnie, jak działa moderacja treści DALL-E 2.

Wreszcie autor rozważa możliwość “słownika białej listy”, który pozwoliłby tylko na zatwierdzone i zaakceptowane słowa do pobierania i renderowania pojęć, ale uznaje, że może to stanowić zbyt surowe ograniczenie użyteczności systemu.

Chociaż badacz eksperymentował tylko z pięcioma językami (angielskim, niemieckim, francuskim, hiszpańskim i włoskim) przy tworzeniu zestawów wprowadzeń, uważa, że ten rodzaj “ataku adversarialnego” może stać się jeszcze bardziej “zakodowany” i trudny do powstrzymania poprzez rozszerzenie liczby języków, biorąc pod uwagę, że modele hiperskali, takie jak DALL-E 2, są szkolone na wielu językach (ponieważ jest to łatwiejsze niż użycie lekko przefiltrowanego lub “surowego” wejścia, a także dlatego, że dodatkowa wymiarowość prawdopodobnie zwiększy użyteczność systemu).

Artykuł artykuł nosi tytuł Ataki adversarialne na generowanie obrazów z użyciem zmyślonych słów i pochodzi od Raphaëla Millière z Uniwersytetu Columbia.

Zakodowany język w DALL-E 2

Zostało to wcześniej sugerowane, że bełkot, jaki DALL-E 2 wypuszcza, gdy próbuje przedstawić język pisanym, może sam w sobie być “ukrytym słownictwem”. Niemniej jednak wcześniejsze badania nad tym tajemniczym językiem nie zaproponowały żadnego sposobu opracowania łańcuchów nonce, które mogą przywołać określone obrazy.

Z poprzednich badań wynika:

‘[To] nie oferuje niezawodnej metody znajdowania łańcuchów nonce, które wywołują określone obrazy. Większość bełkotu tekstu uwzględnionego przez DALL-E 2 w obrazach nie wydaje się być wiernie związana z określonymi pojęciami wizualnymi, gdy są transkrybowane i używane jako wprowadzenie. To ogranicza wiarygodność tego podejścia jako sposób na obejście moderacji treści szkodliwych lub obraźliwych; jako taki, nie jest to szczególnie niepokojące ryzyko dla nadużywania modeli generowania obrazów z tekstu.’

Zamiast tego dwa metody autora są wyjaśnione jako sposoby, dzięki którym nonsens może przywołać powiązane i znaczące obrazy, omijając konwencjonalny etykiet, który obecnie rozwija się w inżynierię wprowadzeń.

Przykładowo autor rozważa słowo oznaczające “ptaki” w pięciu językach, które są w zakresie artykułu: Vögel w języku niemieckim, uccelli w języku włoskim, oiseaux w języku francuskim, i pájaros w języku hiszpańskim.

Z kodowaniem par bajtów (BPE) tokenizacją używaną w implementacji CLIP, która jest zintegrowana z DALL-E 2, słowa są tokenizowane w nieakcentowanym języku angielskim i mogą być “kreatywnie łączone”, aby utworzyć słowa nonce, które wydają się być bełkotem dla nas, ale zachowują swoje połączone znaczenie dla DALL-E 2, pozwalając systemowi wyrazić postrzegane intencje:

W powyższym przykładzie dwa z “obcych” słów dla ptaka są połączone w nonsensowny ciąg. Dzięki ułamkowej wadze pod-słów znaczenie jest zachowane.

Autor podkreśla, że znaczące wyniki mogą być również uzyskane bez przestrzegania granic segmentacji pod-słów, prawdopodobnie dlatego, że DALL-E 2 (główny przedmiot artykułu) został wystarczająco uogólniony, aby pozwolić granicom pod-słów na rozmycie bez zniszczenia ich znaczenia.

Aby dalej zademonstrować opracowane podejścia, artykuł oferuje przykłady macaronic prompting w różnych dziedzinach, używając listy słów tokenów ilustrowanych poniżej (z nonsensownymi hybrydowymi słowami na krańcu prawym).

Autor stwierdza, że następujące przykłady z DALL-E 2 nie są “wybrane”:

Lingua Franca

Artykuł również obserwuje, że kilka takich przykładów działa równie dobrze, lub przynajmniej bardzo podobnie, zarówno w DALL-E 2, jak i DALL-E Mini (obecnie Craiyon), i że jest to zaskakujące, ponieważ DALL-E 2 jest modelem dyfuzyjnym, a DALL-E Mini nie; dwa systemy są szkolone na różnych zestawach danych; a DALL-E Mini używa BART tokenizatora zamiast tokenizatora CLIP preferowanego przez DALL-E 2.

Remarkably similar results from DALL-E Mini, compared to the previous image, which featured results from the same ‘nonsense’ input from DALL-E 2.

Jak widać w pierwszym z powyższych obrazów, macaronic prompting może być również złożony w zdania syntaktycznie poprawne, aby wygenerować bardziej złożone sceny. Niemniej jednak wymaga to użycia angielskiego jako “szkieletu”, aby złożyć pojęcia, co sprawia, że procedura jest bardziej prawdopodobna do przechwycenia przez standardowe systemy cenzorskie w ramach syntezy obrazu.

Artykuł obserwuje, że hybrydyzacja leksykalna, “klejenie” słów, aby wywołać powiązane treści z systemu syntezy obrazu, może być również osiągnięta w jednym języku, poprzez użycie słów portmanteau.

Evocative Prompting

Podejście “evocative prompting” przedstawione w artykule opiera się na “wywoływaniu” szerszej odpowiedzi z systemu za pomocą słów, które nie są ściśle oparte na pod-słowach lub pod-tokenach lub częściowo współdzielonych etykietach.

Jednym z rodzajów evocative prompting jest pseudolatina, która może, między innymi, generować obrazy fikcyjnych leków, nawet bez określenia, że DALL-E 2 powinien pobrać pojęcie “lek”:

Evocative prompting działa również szczególnie dobrze z nonsensownymi wprowadzeniami, które odnoszą się szeroko do możliwych lokalizacji geograficznych i działa dość niezawodnie w różnych architekturach DALL-E 2 i DALL-E Mini:

The words used for these prompts to DALL-E 2 and DALL-E Mini are redolent of real names, but are in themselves utter nonsense. Nonetheless, the systems have ‘picked up the atmosphere’ of the words.

Wydaje się, że istnieje pewne nakładanie się między macaronic i evocative prompting. Artykuł stwierdza:

‘It seems that differences in training data, model size, and model architecture may cause different models to parse prompts like voiscellpajaraux and eidelucertlagarzard in either “macaronic” or “evocative” fashion, even when these models are proven to be responsive to both prompting methods.’

Artykuł kończy się:

‘While various properties of these models – including size, architecture, tokenization [procedure] and training data – may influence their vulnerability to text-based adversarial attacks, preliminary evidence discussed in this work suggests that some of these attacks may nonetheless work somewhat reliably across models.’

Największą przeszkodą w doświadczeniach z tymi metodami jest ryzyko oznaczenia i zablokowania przez system. DALL-E 2 wymaga skojarzonego numeru telefonu dla każdego konta użytkownika, ograniczając liczbę “kont użytkowników”, które prawdopodobnie będą potrzebne do prawdziwego przetestowania granic tego rodzaju hakowania leksykalnego, pod względem obejścia istniejących metod moderacji. Obecnie główną ochroną DALL-E 2 pozostaje niestabilność dostępu.

Po raz pierwszy opublikowane 9 sierpnia 2022.