Свяжитесь с нами:

«Язык чепухи», который может подорвать системы модерации синтеза изображений

Искусственный интеллект

«Язык чепухи», который может подорвать системы модерации синтеза изображений

mm
DALL-E 2: «мужчина в состоянии exaspenttausacion». https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug
DALL-E 2: «мужчина в состоянии exaspenttausacion». https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

Новое исследование Колумбийского университета показывает, что защитные механизмы, которые не позволяют таким моделям синтеза изображений, как DALL-E 2, Imagen и Parti, выдавать вредоносные или спорные изображения, подвержены своего рода состязательной атаке с использованием «выдуманных» слов.

Автор разработал два подхода, которые потенциально могут обойти меры модерации контента в системе синтеза изображений, и обнаружил, что они удивительно надежны даже для разных архитектур, что указывает на то, что слабость носит более чем системный характер и может иметь ключевое значение для некоторых из самый фундаментальный принцип синтеза текста в изображение.

Первый и более сильный из двух называется макаронное побуждениеТермин «макаронный» первоначально относится к смеси нескольких языков, например, эсперанто или невинный. Возможно, самым культурно-распространенным примером будет урду-английский, тип «смешивания кодов», распространенный в Пакистане, при котором довольно свободно смешиваются английские существительные и суффиксы урду.

Композиционная макаронная подсказка в DALL-E 2. Источник: https://arxiv.org/pdf/2208.04135.pdf

Композиционная макаронная подсказка в DALL-E 2. Источник: https://arxiv.org/pdf/2208.04135.pdf

В некоторых из приведённых выше примеров фрагменты осмысленных слов были склеены вместе, используя английский язык в качестве «каркаса». В других примерах, представленных в статье, в одной подсказке используются несколько языков.

Система будет реагировать семантически осмысленно благодаря относительной нехватке курирования веб-источников, на которых она обучалась. Такие источники часто поступают с многоязычными метками (то есть из наборов данных, не предназначенных специально для задач синтеза изображений), и каждое полученное слово, на любом языке, становится «токеном»; но также части этих слов становятся «подсловами» или дробными токенами. В обработке естественного языка (NLP) такой «стемминг» помогает определить этимологию более длинных производных слов, которые могут возникать в процессе преобразования, а также создаёт огромный лексический «конструктор Lego», который можно использовать для «творческих» подсказок.

Одноязычные слова-портфели также эффективны для получения изображений с помощью косвенного или непрозаического языка.

Одноязычные слова-портфели также эффективны для получения изображений с помощью непрямого или непрозаического языка, при этом очень похожие результаты часто получаются на разных архитектурах, таких как DALL-E 2 и DALL-E Mini (Craiyon).

При подходе второго типа, называемом вызывающее побуждениеНекоторые из слитных слов по тону похожи на более детскую ветвь «школьной латыни». продемонстрировали in Жизнь Брайана Монти Питона (1979).

Это не шутка — искусственная латынь часто вызывает осмысленный ответ DALL-E 2.

Это не шутка — поддельная латынь часто успешно вызывает содержательную реакцию DALL-E 2.

Автор утверждает:

«Очевидная проблема с этим методом — обход фильтров контента на основе подсказок из черного списка. В принципе, макаронные подсказки могут обеспечить простой и, казалось бы, надежный способ обойти такие фильтры для создания вредоносного, оскорбительного, незаконного или иного деликатного контента, включая изображения насилия, ненависти, расизма, сексизма или порнографические изображения, а также, возможно, изображения, нарушающие интеллектуальная собственность или изображения реальных людей.

«Компании, предлагающие услуги по созданию изображений, приложили немало усилий для предотвращения создания подобных продуктов в соответствии со своей политикой в ​​отношении контента. Следовательно, макаронные подсказки должны систематически расследоваться как угроза протоколам безопасности, используемым для создания коммерческих изображений».

Автор предлагает ряд средств защиты от этой уязвимости, некоторые из которых, по его признанию, могут считаться чрезмерно ограничительными.

Первое возможное решение является самым дорогим: более тщательно выбирать исходные обучающие изображения, с большим человеческим и меньшим алгоритмическим контролем. Однако в документе признается, что это не помешает системе синтеза изображений создать оскорбительную связь между двумя понятиями изображения, которые сами по себе потенциально безвредны.

Во-вторых, в статье предполагается, что системы синтеза изображений могли бы пропускать свои выходные данные через систему фильтров, отсеивая любые проблемные ассоциации до того, как они будут переданы пользователю. Возможно, DALL-E 2 уже использует такой фильтр, хотя OpenAI не раскрывает точный принцип работы модерации контента в DALL-E 2.

Наконец, автор рассматривает возможность создания «белого списка словарей», который допускал бы извлечение и отображение концепций только проверенными и одобренными словами, но признает, что это может представлять собой чрезмерно серьезное ограничение полезности системы.

Хотя исследователь экспериментировал только с пятью языками (английским, немецким, французским, испанским и итальянским) при создании сборок подсказок, он полагает, что этот тип «состязательной атаки» может стать еще более «загадочным» и его будет сложнее сдерживать, если расширить количество языков, учитывая, что гипермасштабные модели, такие как DALL-E 2, обучаются на нескольких языках (просто потому, что проще использовать слегка отфильтрованные или «сырые» входные данные, чем рассматривать огромные расходы на их обработку, и потому, что дополнительная размерность, вероятно, увеличит полезность системы).

Команда статье называется Состязательные атаки на генерацию изображений с помощью выдуманных слов, и исходит от Рафаэля Мильера из Колумбийского университета.

Загадочный язык в DALL-E 2

Это был предложил раньше что та тарабарщина, которую DALL-E 2 выдает всякий раз, когда пытается изобразить письменный язык, сама по себе может быть «скрытый словарь». Однако предшествующие исследования этого загадочного языка не дали никакого пути для разработки. одноразовые строки которые могут вызывать определенные образы.

Из Предыдущая работа, в документе говорится:

«[Он] не предлагает надёжного метода поиска строк одноразовых кодов, вызывающих определённые образы. Большая часть бессмысленного текста, включённого DALL-E 2 в изображения, по-видимому, ненадёжно ассоциируется с определёнными визуальными концепциями при расшифровке и использовании в качестве подсказки. Это ограничивает возможность использования данного подхода для обхода модерации вредоносного или оскорбительного контента; таким образом, он не представляет особой опасности для злоупотребления моделями генерации изображений на основе текста».

Вместо этого два метода автора разрабатываются как средства, с помощью которых бессмыслица может вызывать связанные и значимые образы, обходя при этом общепринятый этикет, который в настоящее время превращается в быстрый инжиниринг.

В качестве примера автор рассматривает слово «птицы» в пяти языках, рассматриваемых в статье: Птицы на немецком, птицы по-итальянски, домашняя птица на французском и птицы на испанском.

Достаточно воспользоваться ИИ-ассистентом кодирование пары байтов (BPE) токенизация, используемая реализацией CLIP это интегрированный в DALL-E 2 слова токенизируются в безакцентный английский и могут «творчески комбинироваться» для формирования случайных слов, которые кажутся нам бессмыслицей, но сохраняют свое склеенное значение для DALL-E 2, позволяя системе выражать воспринимаемое намерение:

В приведенном выше примере два «иностранных» слова для птица склеиваются в бессмысленную цепочку. Благодаря дробному весу подслов смысл сохраняется.

Автор подчеркивает, что значимые результаты могут быть получены и без соблюдения границ сегментации подслов, предположительно потому, что DALL-E 2 (основное исследование статьи) достаточно хорошо обобщил, чтобы позволить размыть границы подслов, не разрушая их. значение.

Чтобы дополнительно продемонстрировать разработанные подходы, в документе предлагаются примеры макаронических подсказок в разных областях с использованием списка токенов, показанного ниже (с бессмысленными гибридными словами в крайнем правом углу).

Автор утверждает, что приведенные ниже примеры из DALL-E 2 не являются «случайно выбранными»:

Lingua Franca

В документе также отмечается, что несколько таких примеров работают одинаково хорошо или, по крайней мере, очень похоже как на DALL-E 2, так и на DALL-E Mini (сейчас мелок), и что это удивительно, так как DALL-E 2 — диффузионная модель, а DALL-E Mini — нет; две системы обучаются на разных наборах данных; и DALL-E Mini использует БАРТ токенизатор вместо токенизатора CLIP, предпочитаемого DALL-E 2.

Удивительно похожие результаты от DALL-E Mini по сравнению с предыдущим изображением, на котором были показаны результаты того же «бессмысленного» ввода от DALL-E 2.

Удивительно похожие результаты от DALL-E Mini по сравнению с предыдущим изображением, на котором были показаны результаты того же «бессмысленного» ввода от DALL-E 2.

Как видно на первом из изображений выше, макаронические подсказки также можно собирать в синтаксически верные предложения для создания более сложных сцен. Однако для этого требуется использование английского языка в качестве «строительной площадки» для сборки концепций, что повышает вероятность перехвата процедуры стандартными системами цензуры в рамках синтеза изображений.

В статье отмечается, что лексическая гибридизация, «склеивание» слов для извлечения связанного содержания из системы синтеза изображений, может также осуществляться в одном языке с использованием слова портманто.

Вызывающие подсказки

Подход «вызывающего побуждения», описанный в статье, основан на «вызывании» более широкого ответа системы с помощью слов, которые не основаны строго на подсловах или подмаркерах или частично общих метках.

Одним из видов эвокационных подсказок является псевдолатынь, которая может, помимо прочего, генерировать образы вымышленных лекарств, даже без какого-либо указания на то, что DALL-E 2 должен извлекать понятие «лекарство»:

Вызывающие подсказки также особенно хорошо работают с бессмысленными подсказками, которые в широком смысле относятся к возможным географическим местоположениям, и работают достаточно надежно в разных архитектурах DALL-E 2 и DALL-E Mini:

Слова, используемые для этих подсказок к DALL-E 2 и DALL-E Mini, напоминают настоящие имена, но сами по себе являются полной ерундой. Тем не менее, системы «уловили атмосферу» слов.

Слова, используемые в подсказках к DALL-E 2 и DALL-E Mini, напоминают настоящие имена, но сами по себе являются полной бессмыслицей. Тем не менее, системы «уловили атмосферу» этих слов.

Похоже, что между макаронным и вызывающим воспоминания побуждением существует некий переход. В документе говорится:

«Похоже, что различия в данных для обучения, размере и архитектуре модели могут приводить к тому, что разные модели будут анализировать подсказки, такие как voiscellpajaraux и eidelucertlagarzard, либо «макароническим», либо «вызывающим» образом, даже если доказано, что эти модели реагируют на оба метода подсказок».

В статье делается вывод:

«Хотя различные свойства этих моделей, включая размер, архитектуру, токенизацию [процедуру] и данные обучения, могут влиять на их уязвимость к текстовым состязательным атакам, предварительные данные, обсуждаемые в этой работе, позволяют предположить, что некоторые из этих атак могут, тем не менее, работать достаточно надежно в разных моделях».

Пожалуй, самым большим препятствием для настоящих экспериментов с этими методами является риск быть помеченным и заблокированным хост-системой. DALL-E 2 требует привязки номера телефона к каждой учётной записи пользователя, что ограничивает количество «одноразовых учётных записей», которые, вероятно, потребуются для настоящего тестирования возможностей такого рода лексического хакерства с точки зрения подрыва существующих методов модерации. В настоящее время основной защитой DALL-E 2 остаётся изменчивость доступа.

 

Впервые опубликовано 9 августа 2022 г.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai