Штучний інтелект

‘Нісенітниця-мову’, яка могла б підірвати системи модерації синтезу зображень

Published August 9, 2022

Updated April 5, 2026

Martin Anderson

DALL-E 2: 'a man in a state of exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

Нові дослідження Колумбійського університету свідчать, що заходи безпеки, які запобігають тим, щоб моделі синтезу зображень, такі як DALL-E 2, Imagen і Parti, могли виводити на екран пошкоджувальні або суперечливі зображення, вразливі до певного типу атак, пов’язаних з “вигаданими” словами.

Автор розробив два підходи, які потенційно можуть перевершити заходи модерації вмісту в системі синтезу зображень, і виявив, що вони досить стійкі навіть у різних архітектурах, що свідчить про те, що слабкість полягає не тільки в системі, а й може бути пов’язана з деякими з найфундаментальніших принципів синтезу тексту в зображення.

Перший, і сильніший з двох, називається macaronic prompting. Термін “macaronic” спочатку відноситься до суміші декількох мов, як у випадку з Есперанто або Unwinese. Можливо, найбільш поширений приклад буде Урду-англійська, тип “код-міксінгу”, поширений у Пакистані, який досить вільно змішує англійські іменники та урду-суфікси.

Композиційний макаронічний промпт в DALL-E 2. Джерело: https://arxiv.org/pdf/2208.04135.pdf

У деяких з вищезазначених прикладів частини осмислених слів були склеєні разом, використовуючи англійську мову як “каркас”. Інші приклади в статті використовують декілька мов у рамках одного промпту.

Система відповідає осмисленому чином через відносну відсутність кураторської діяльності у веб-джерелах, на яких була навчена система. Такі джерела часто супроводжуються багатомовними мітками (тобто з наборів даних, спеціально не призначених для завдання синтезу зображення), і кожне слово, яке було поглинено, у будь-якій мові, стає “токеном”; однак частини цих слів також стають “підсловами” або фракційними токенами. У обробці природної мови (NLP) такий “стемінг” допомагає відрізнити етимологію довших похідних слів, які можуть виникнути під час операцій перетворення, але також створює величезний лексичний “конструктор”, який може бути використаний “креативним” промптом.

Монолінгвістичні портомантові слова також ефективні для отримання зображень через непряму або не-прозаїчну мову, з дуже схожими результатами, часто досяжними у різних архітектурах, таких як DALL-E 2 і DALL-E Mini (Craiyon).

У другому типі підходу, званому evocative prompting, деякі з поєднаних слів схожі на тон більш ювенільної гілки “шкільного латинського” демонстрації у Монті Пайтонівському житті Брайана (1979).

Це не жарт – фальшивий латинський часто вдається у виклику осмисленої відповіді від DALL-E 2.

Автор заявляє:

‘Очевидна проблема з цим методом полягає в обхіді фільтрів вмісту на основі чорних списків промптів. У принципі, макаронічний промпт міг би забезпечити легкий і, здавалося б, надійний спосіб обходу таких фільтрів для генерації шкідливого, образливого, незаконного або іншого чутливого вмісту, включно з насильницькими, ненависними, расистськими, сексистськими чи порнографічними зображеннями, і, можливо, зображеннями, що порушують права інтелектуальної власності або зображеннями реальних осіб.’

‘Компанії, які пропонують генерацію зображень як послугу, доклали багато зусиль, щоб запобігти генерації такого вмісту згідно зі своєю політикою вмісту. Відповідно, макаронічний промпт повинен бути систематично досліджений як загроза протоколам безпеки, використовуваним для комерційної генерації зображень.’

Автор пропонує ряд засобів проти цієї вразливості, деякі з яких він вважає надмірно обмежувальними.

Перший можливий рішення – це найвідповідальніший: ретельніше кураторство джерел тренувальних зображень, з більшою участю людини та менше алгоритмічним наглядом. Однак стаття зазначає, що це не запобіжить системі синтезу зображень створювати образливий зв’язок між двома концепціями зображень, які самі по собі потенційно безневинні.

Другим можливим рішенням є те, що системи синтезу зображень могли б проходити свій фактичний вивід через систему фільтрів, перехоплюючи будь-які проблемні асоціації до того, як вони будуть надані користувачеві. Можливо, DALL-E 2 вже використовує такий фільтр, хоча OpenAI не розголошує точно, як працює модерація вмісту DALL-E 2.

Нарешті, автор розглядає можливість “словникового білого списку”, який би дозволяв тільки перевірені та затверджені слова для отримання та візуалізації концепцій, але зазначає, що це могло б представляти надмірно суворе обмеження на корисність системи.

Хоча дослідник експериментував лише з п’ятьма мовами (англійською, німецькою, французькою, іспанською та італійською) при створенні промпт-асамблей, він вважає, що такий тип “адверсарної атаки” міг би стати ще більш “криптичним” і важким для запобігання шляхом розширення кількості мов, оскільки гіпермасштабні моделі, такі як DALL-E 2, тренуються на кількох мовах (просто тому, що легше використовувати слабкофільтрований або “сирій” вхід, ніж考虑увати величезні витрати на кураторство, і тому, що додаткова розмірність, ймовірно, додасть до корисності системи).

Стаття називається Адверсарні атаки на генерацію зображень з вигаданими словами і походить від Raphaël Millièре з Колумбійського університету.

Криптична мова в DALL-E 2

Було зазначено раніше, що нісенітниця, яку DALL-E 2 виводить на екран, коли він намагається зобразити написану мову, могла б бути власною “прихованим словником”. Однак попередні дослідження цієї загадкової мови не пропонували жодного способу розробити nonce-строки, які могли б викликати конкретні зображення.

З попередніх робіт статті зазначається:

‘[Вона] не пропонує надійного методу для пошуку nonce-строк, які викликають конкретні зображення. Більшість нісенітниці тексту, включеної DALL-E 2 у зображення, не здається надійно пов’язаною з конкретними візуальними концепціями при транскрибуванні та використанні як промпту. Це обмежує життєздатність цього підходу як способу обходу модерації шкідливого або образливого вмісту; як такий, це не дуже турбує ризик для зловживання моделями генерації зображень, керованими текстом.’

Натомість два методи автора розгортаються як засоби, за допомогою яких нісенітниця може викликати пов’язані та осмислені зображення, обходячи звичайний етикет, який зараз розвивається у інженерії промптів.

Як приклад, автор розглядає слово для “птахів” у п’яти мовах, які входять у сферу статті: Vögel німецькою, uccelli італійською, oiseaux французькою, і pájaros іспанською.

З байтовим парним кодуванням (BPE) токенізацією, використовуваною у реалізації CLIP, яка інтегрована до DALL-E 2, слова токенізаються у безакцентовану англійську, і можуть бути “креативно поєднані”, щоб утворити nonce-слова, які здаються нісенітницею для нас, але зберігають свій склеєний зміст для DALL-E 2, дозволяючи системі виразити сприйняту намір:

У вищезазначеному прикладі дві “іноземні” слова для птаха склеєні разом у нісенітницю-строку. Завдяки фракційній вагі підслів, зміст зберігається.

Автор підкреслює, що осмислені результати також можна отримати без дотримання меж підсловової сегментації, ймовірно, тому, що DALL-E 2 (основне дослідження статті) загалом добре узагальнився, щоб дозволити межам підслів розмитися без знищення їхнього змісту.

Щоб далі продемонструвати розроблені підходи, стаття пропонує приклади макаронічного промпту у різних доменах, використовуючи перелік токен-слів, зображених нижче (з нісенітницею-гібридними словами праворуч).

Автор заявляє, що наступні приклади з DALL-E 2 не є “вибірковими”:

Лінгва франка

Стаття також зазначає, що декілька таких прикладів працюють майже однаково, або принаймні дуже схоже, у обох DALL-E 2 і DALL-E Mini (тепер Craiyon), і що це дивно, оскільки DALL-E 2 є моделлю дифузії, а DALL-E Mini – ні; дві системи тренуються на різних наборах даних; і DALL-E Mini використовує BART-токенізацію замість CLIP-токенізації, яку віддає перевагу DALL-E 2.

Дивовижні подібні результати з DALL-E Mini порівняно з попереднім зображенням, яке містить результати з того ж “нісенітниці”-вводу з DALL-E 2.

Як видно на першому з вищезазначених зображень, макаронічний промпт також може бути зібраний у синтаксично правильні речення для генерації більш складних сцен. Однак це вимагає використання англійської мови як “каркаса” для збирання концепцій, що робить процедуру більш ймовірною для перехоплення стандартними цензурними системами у рамках синтезу зображень.

Стаття зазначає, що лексична гібридизація, “склеювання” слів для виклику пов’язаного вмісту з системи синтезу зображень, також може бути здійснена в одній мові за допомогою портмантова слів.

Евокативний промпт

Підхід “евокативного промпту”, представлений у статті, залежить від “евокування” ширшої відповіді від системи словами, які не строго засновані на підсловах чи підтокенах чи частково спільних мітках.

Одним з типів евокативного промпту є псевдолатинська мова, яка, серед іншого, може генерувати зображення вигаданих ліків, навіть без жодної вказівки на те, що DALL-E 2 повинен отримати концепцію “лікарства”:

Евокативний промпт також працює особливо добре з нісенітницею-промптами, які пов’язані з можливими географічними місцями, і працює досить надійно у різних архітектурах DALL-E 2 і DALL-E Mini:

Слова, використані для цих промптів до DALL-E 2 і DALL-E Mini, нагадують справжні назви, але самі по собі є абсолютною нісенітницею. Тим не менш, системи “сприйняли атмосферу” слів.

Здається, існує деяке перетинання між макаронічним і евокативним промптом.

Стаття зазначає:

‘Здається, що відмінності у тренувальних даних, розміру моделі та архітектури моделі можуть спричинити те, що різні моделі розбивають промпти типу voiscellpajaraux і eidelucertlagarzard або у “макаронічному”, або у “евокативному” стилі, навіть коли ці моделі доведено, що відповідають на обидва типи промптів.’

Стаття завершується:

‘Хоча різні властивості цих моделей – включаючи розмір, архітектуру, процедуру токенізації та тренувальні дані – можуть впливати на їхню вразливість до текстових адверсарних атак, попередні дані, обговорені у цій роботі, свідчать про те, що деякі з цих атак можуть працювати досить надійно у різних моделях.’

Аргументно найбільша перешкода для справжньої експериментальної діяльності навколо цих методів полягає у ризику бути прапорцем і заблокованим господарською системою. DALL-E 2 вимагає пов’язаного номера телефону для кожного користувача, обмежуючи кількість “бурнів-акаунтів”, які, ймовірно, знадобляться для справжнього тестування меж цього типу лексичного хакінгу, щодо обходу існуючих методів модерації.

На даний момент основним засобом захисту DALL-E 2 залишається волатильність доступу.

Вперше опубліковано 9 серпня 2022 року.