Umělá inteligence

‘Nesmyslný jazyk’, který by mohl obejít moderaci syntézy obrazu

Published August 9, 2022

Updated April 5, 2026

Martin Anderson

DALL-E 2: 'a man in a state of exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

Nový výzkum z Kolumbijské univerzity naznačuje, že bezpečnostní opatření, která brání modelům syntézy obrazu, jako je DALL-E 2, Imagen a Parti, aby nevytvářely škodlivé nebo kontroverzní obrázky, jsou náchylná k určitému typu adversního útoku, který využívá “vymyšlená” slova.

Autor vyvinul dva přístupy, které potenciálně mohou obejít opatření pro moderaci obsahu v systému syntézy obrazu, a zjistil, že jsou pozoruhodně robustní i napříč různými architekturami, což naznačuje, že slabina je více než jen systémová a může být spojena s některými z nejzákladnějších principů text-to-image syntézy.

První, a silnější z obou, se nazývá macaronic prompting. Termín “macaronic” původně odkazuje na směs více jazyků, jako je tomu u Esperanta nebo Unwinese. Možná nejvíce kulturně rozšířeným příkladem by byl Urdu-English, typ “code mixing” běžný v Pákistánu, který poměrně volně kombinuje anglická substantiva a urdská přípony.

Compositional macaronic prompting v DALL-E 2. Source: https://arxiv.org/pdf/2208.04135.pdf

V některých z výše uvedených příkladů byly části smysluplných slov slepeny dohromady, přičemž angličtina sloužila jako “scaffold”. Další příklady v článku používají více jazyků napříč jediným promptem.

Systém bude reagovat způsobem, který je semanticky smysluplný, kvůli relativnímu nedostatku kurátorství ve webových zdrojích, na kterých byl systém trénován. Tyto zdroje velmi často přicházejí kompletní s multijazyčnými štítky (tj. z datových sad, které nejsou speciálně navrženy pro úkoly syntézy obrazu), a každé slovo, které bylo pozřeno, bez ohledu na jazyk, se stane “tokenem”; ale stejně tak i části těchto slov se stanou “subwords” nebo zlomkovými tokeny. V zpracování přirozeného jazyka (NLP) tento typ “stemming” pomáhá rozlišovat etymologii delších odvozených slov, která mohou vzniknout při transformačních operacích, ale také vytváří obrovskou lexikální “Lego sadu”, kterou “kreativní” prompting může využít.

Monolingual portmanteau words jsou také efektivní při získávání obrazů prostřednictvím nepřímého nebo non-prozaického jazyka, s velmi podobnými výsledky, které lze často získat napříč různými architekturami, jako jsou DALL-E 2 a DALL-E Mini (Craiyon).

V druhém typu přístupu, nazvaném evocative prompting, některé ze spojených slov jsou podobné v tónu juvenilnímu “školnímu latině” demonstrovanému v Monty Python’s Life of Brian (1979).

To není žádná legrace – faux Latin často uspěje v evokaci smysluplné odpovědi z DALL-E 2.

Autor uvádí:

‘Zjevnou obavou s touto metodou je obcházení filtrů obsahu založených na blacklistovaných promptech. V principu by macaronic prompting mohl poskytnout snadný a zdánlivě spolehlivý způsob, jak obejít tyto filtry za účelem generování škodlivého, urážlivého, nelegálního nebo jinak citlivého obsahu, včetně násilných, nenávistných, rasistických, sexistických nebo pornografických obrazů, a perhaps obrazů porušujících duševní vlastnictví nebo zobrazujících skutečné osoby. ‘

‘Společnosti, které nabízejí generování obrazů jako službu, vložily velké úsilí do prevence generování takových výstupů v souladu se svou politikou obsahu. V důsledku toho by se macaronic prompting měl systematicky prošetřit jako hrozba pro bezpečnostní protokoly používané pro komerční generování obrazů.’

Autor navrhuje několik řešení proti této zranitelnosti, z nichž některé připouští, že by mohly být považovány za příliš restriktivní.

První možným řešením je nejdražší: pečlivě kurátorovat zdrojové tréninkové obrázky, s větším lidským a méně algoritmickým dohledem. Nicméně, článek připouští, že by to nezabránilo systému syntézy obrazu ve vytváření útočného spojení mezi dvěma obrazovými koncepty, které jsou samy o sobě potenciálně neškodné.

Zadruhé, článek navrhuje, že systémy syntézy obrazu by mohly spustit svou skutečnou výstupní filtraci, zachycující jakékoli problematické asociace, než budou slouženy uživateli. Je možné, že DALL-E 2 již takový filtr používá, i když OpenAI nezveřejnil přesně, jak funguje moderace obsahu DALL-E 2.

Konečně, autor zvažuje možnost “slovníkového whitelistu”, který by umožnil pouze ověřená a schválená slova pro načtení a vykreslení konceptů, ale připouští, že by to mohlo představovat příliš přísnou restrikci na užitečnost systému.

Přestože výzkumník experimentoval pouze s pěti jazyky (angličtinou, němčinou, francouzštinou, španělštinou a italštinou) při vytváření prompt-assemblií, věří, že tento typ “adversního útoku” by mohl být ještě více “kryptický” a obtížněji odrazitelný rozšířením počtu jazyků, s ohledem na to, že hyperscale modely, jako je DALL-E 2, jsou trénovány na více jazycích (protože je snazší použít lehce filtrovaný nebo “syrový” vstup než zvažovat obrovské náklady na kurátorství, a protože tato další dimenze pravděpodobně přidá k užitečnosti systému).

Článek se nazývá Adversní útoky na generování obrazu s vymyšlenými slovy a pochází od Raphaëla Millière z Kolumbijské univerzity.

Kryptický jazyk v DALL-E 2

Bylo již navrženo, že blábol, který DALL-E 2 produkuje, kdykoli se snaží zobrazit psaný jazyk, by mohl být sám o sobě “skrytou slovníkem”. Nicméně, předchozí výzkum této záhadné řeči neposkytl žádný způsob, jak vyvinout nonce řetězce, které by mohly vyvolat konkrétní obraz.

Z předchozích prací článek uvádí:

‘[To] neposkytuje spolehlivou metodu pro nalezení nonce řetězců, které vyvolávají konkrétní obraz. Většina blábolu textu zahrnutého DALL-E 2 v obrazech se nezdá být spolehlivě spojena se specifickými vizuálními koncepty, když jsou přepisu a použity jako prompt. To omezuje životaschopnost tohoto přístupu jako způsob, jak obejít moderaci škodlivého nebo urážlivého obsahu; jako takový, není to zvlášť znepokojivý riziko pro zneužití textem řízené generace modelů.’

Navíc, autorovy dva metody jsou popsány jako prostředky, kterými nesmysl může vyvolat související a smysluplné obrazy, zatímco obejde konvenční etiketu, která se nyní vyvíjí do prompt inženýrství.

Příkladem autor zvažuje slovo pro “ptáky” v pěti jazycích, které jsou v rámci článku: Vögel v němčině, uccelli v italštině, oiseaux ve francouzštině a pájaros ve španělštině.

S byte-pair encoding (BPE) tokenizací, kterou používá implementace CLIP, která je integrována do DALL-E 2, jsou slova tokenizována do neakcentované angličtiny a mohou být “kreativně kombinována” za účelem vytvoření nonce slov, která se zdají být blábolem pro nás, ale uchovávají své slepené významy pro DALL-E 2, umožňující systému vyjádřit vnímanou intenci:

V výše uvedeném příkladu jsou dvě “cizí” slova pro ptáka slepena do blábolového řetězce. Díky zlomkové váze sub-slov uchovává význam.

Autor zdůrazňuje, že smysluplné výsledky lze také získat bez dodržování hranic subword segmentace, pravděpodobně proto, že DALL-E 2 (primární studie článku) zobecněl dostatečně, aby umožnil hranicím sub-slov rozostřit bez zničení jejich významu.

Článek dále demonstruje přístupy vyvinuté na příkladech macaronic promptingu napříč různými doménami, pomocí seznamu token slov ilustrovaných níže (s blábolovými hybridními slovy na pravé straně).

Autor uvádí, že následující příklady z DALL-E 2 nejsou “cherry-picked”:

Lingua Franca

Článek také poznamenává, že několik takových příkladů funguje stejně dobře, nebo alespoň velmi podobně, napříč DALL-E 2 a DALL-E Mini (nyní Craiyon), a že je to překvapující, protože DALL-E 2 je difúzní model a DALL-E Mini nikoli; systémy jsou trénovány na různých datech; a DALL-E Mini používá BART tokenizér místo tokenizéru CLIP oblíbeného DALL-E 2.

Podivuhodně podobné výsledky z DALL-E Mini ve srovnání s předchozím obrázkem, který obsahoval výsledky z téhož “blábolového” vstupu z DALL-E 2.

Jako je vidět na prvním z výše uvedených obrázků, macaronic prompting může být také sestaven do syntakticky správných vět za účelem generování složitějších scén. Nicméně, to vyžaduje použití angličtiny jako “scaffold” pro sestavení konceptů, což činí postup pravděpodobnějším pro zachycení standardními cenzurními systémy v rámci syntézy obrazu.

Článek poznamenává, že lexikální hybridizace, “slepení” slov za účelem vyvolání souvisejícího obsahu ze systému syntézy obrazu, může být také provedena v jediném jazyce, pomocí portmanteau slov.

Evocative Prompting

“Evocative prompting” přístup uvedený v článku závisí na “evokaci” širší odpovědi ze systému slovy, která nejsou striktně založena na sub-slovech nebo sub-tokenách nebo částečně sdílených štítcích.

Jeden typ evocative promptingu je pseudolatin, který může, mimo jiné použití, generovat obrazy fiktivních léků, i bez specifikace, že by DALL-E 2 měl načíst koncept “léku”:

Evocative prompting také funguje zvláště dobře s nonsensickými prompty, které se široce vztahují k možným geografickým lokalitám, a funguje poměrně spolehlivě napříč různými architekturami DALL-E 2 a DALL-E Mini:

Slova použité pro tyto prompty pro DALL-E 2 a DALL-E Mini připomínají skutečná jména, ale jsou samy o sobě naprostým blábolem. Přesto systémy “zachytily atmosféru” slov.

Zdá se, že existuje určitá souvislost mezi macaronic a evocative promptingem. Článek uvádí:

‘Zdá se, že rozdíly v tréninkových datech, velikosti modelu a architektuře modelu mohou způsobit, že různé modely budou zpracovávat prompty jako voiscellpajaraux a eidelucertlagarzard buď “macaronic” nebo “evocative” způsobem, i když tyto modely jsou prokázány jako reagující na obě metody promptingu.’

Článek uzavírá:

‘Zatímco různé vlastnosti těchto modelů – včetně velikosti, architektury, tokenizace a tréninkových dat – mohou ovlivnit jejich zranitelnost vůči textovým adversním útokům, předběžné důkazy diskutované v této práci naznačují, že některé z těchto útoků mohou fungovat poměrně spolehlivě napříč modely.’

Možná největší překážkou pro skutečný experiment kolem těchto metod je riziko, že budete označeni a zabanováni hostujícím systémem. DALL-E 2 vyžaduje přidružené telefonní číslo pro každý uživatelský účet, omezující počet “burner účtů”, které by pravděpodobně byly potřebné k skutečnému testování hranic tohoto typu lexikálního hackování, z hlediska obejití stávajících metod moderace.

Aktuálně, primární bezpečnostní opatření DALL-E 2 zůstává nestabilita přístupu.

Poprvé publikováno 9. srpna 2022.