Свяжитесь с нами:

Риски аннотации изображений на основе «вибрации»

Угол Андерсона

Риски аннотации изображений на основе «вибрации»

mm
Посетитель музея запрещенных артефактов. SDXL; Flux; Flux.1 Kontext; Firefly.

Даже если им платят всего несколько долларов (или вообще ничего), эти неизвестные люди, оценивающие изображения на предмет «оскорбительного» контента, могут изменить вашу жизнь своим выбором. В новом важном исследовании Google, похоже, предполагается, что эти аннотаторы устанавливают собственные правила относительно того, что является «оскорбительным» или не является таковым, — независимо от того, насколько странной или личной может быть их реакция на то или иное изображение. Что может пойти не так?

 

Обзор На этой неделе новое сотрудничество между Google Research и Google Mind объединило не менее 13 участников новая статья в котором рассматривается вопрос о том, следует ли учитывать «инстинктивные чувства» аннотаторов изображений, когда люди оценивают изображения для алгоритмов, даже если их реакции не соответствуют установленным стандартам оценки.

Это важно для вас, потому что то, что оценщики и аннотаторы считают оскорбительным по правилу консенсуса, будет, как правило, закреплено в автоматических системах цензуры и модерации, а также в критериях «непристойного» или «неприемлемого» материала, в законодательстве, таком как новый брандмауэр NSFW* Великобритании (версия которой есть приезжает в Австралию (скоро), а также в системах оценки контента на платформах социальных сетей и в других средах.

Таким образом, чем шире критерии правонарушения, тем шире потенциальный уровень цензуры.

Вайб-цензура

Это не единственная точка зрения, которую предлагает новая статья; в ней также установлено, что люди, оценивающие изображения, часто более строги к тому, что, по их мнению, может оскорбить. другими людей, помимо них самих; и что низкокачественные изображения часто вызывают опасения по поводу безопасности, даже если качество изображения не имеет ничего общего с его содержанием.

В заключение статьи подчеркиваются эти два вывода, как будто основная позиция статьи не оправдала ожиданий, но исследователи все равно были обязаны опубликовать ее.

Хотя это не необычный сценарий, при внимательном прочтении статья раскрывает более зловещий подтекст: практика аннотирования могла бы рассмотреть возможность принятия того, что я могу описать только как вибрация-аннотирование:

Наши результаты показывают, что существующие системы должны учитывать субъективные и контекстуальные аспекты, такие как эмоциональные реакции, неявные суждения и культурные интерпретации вреда. Частое использование аннотаторами эмоционального языка и их расхождение с предопределёнными критериями вреда выявляют пробелы в современных методах оценки.

«Расширение правил аннотирования путем включения в них наглядных примеров различных культурных и эмоциональных интерпретаций может помочь устранить эти пробелы».

Новая статья, скудно иллюстрированная, начинается с примеров, которые недвусмысленны и понятны рядовому читателю, хотя сам основной материал гораздо более неоднозначен и вызывает гораздо больше вопросов. Здесь, под каждым изображением, мы видим эмоциональные реакции аннотаторов, соответствующие их изображениям. Источник: https://arxiv.org/pdf/2507.16033

Новая, скудно иллюстрированная статья начинается с примеров, которые недвусмысленны и понятны среднестатистическому читателю, хотя основной материал вызывает гораздо больше вопросов. Здесь, под каждым изображением, мы видим эмоциональные реакции комментаторов, обозначенные для соответствующих изображений. Источник: https://arxiv.org/pdf/2507.16033

На первый взгляд это звучит как предложение расширить и точнее количественно определить, что представляет собой «вред» на изображении — похвальное стремление; однако в статье несколько раз подчеркивается, что это нежелательно и (необязательно) осуществимо:

Наши результаты показывают, что существующие системы должны учитывать субъективные и контекстуальные аспекты, такие как эмоциональные реакции, неявные суждения и культурные интерпретации вреда. Частое использование аннотаторами эмоционального языка и их расхождение с предопределёнными критериями вреда выявляют пробелы в современных методах оценки.

«Расширение правил аннотирования путем включения в них наглядных примеров различных культурных и эмоциональных интерпретаций может помочь устранить эти пробелы […]

«[…] Процесс, посредством которого комментаторы рассуждают о неоднозначных изображениях, часто отражает их личные, культурные и эмоциональные точки зрения, которые трудно обобщить или стандартизировать».

Трудно понять, как «Расширение правил аннотирования с целью включения наглядных примеров различных культурных и эмоциональных интерпретаций» Можно ли вписать это в рациональную систему оценок? Авторы изо всех сил пытаются прояснить этот момент или сформулировать чёткую теорию, многократно критикуя материал, но так и не добиваясь от него успеха. В этом смысле сама их центральная тема кажется порожденной «флюидами», даже несмотря на то, что она затрагивает нематериальные психологические аспекты.

Проще говоря, мне кажется, что расширение конвейера аннотирования с целью включения критериев такого рода потенциально позволяет «отменить» или запутать любой материал (или класс тем), на который аннотатор может отреагировать с большой остротой.

Бинарное суждение

Степень, в которой изображения и текст могут причинить вред, действительно трудно количественно оценить, не в последнюю очередь потому, что высокая культура часто пересекается с «низкой» культурой (например, с статья и Романы), что привело к самым ранним критериям цензуры, основанным на «настроении»: даже если непристойный материал не поддается точному определению, вы узнаешь это, когда увидишь.

За обширным и исследовательским обсуждением эмпатии и качественных нюансов в новой статье, работа, кажется, тихо нападает на авторитет централизованных, стандартизированных таксономий («насилие», «нагота», «ненависть» и т. д.), которые позволяют платформам внедрять и масштабировать модерацию с приемлемыми пределами погрешности (обычно).

Возникает аргумент, что только децентрализованная, субъективная, учитывающая контекст человеческая обратная связь может правильно оценить результаты работы GenAI.

Однако это явно немасштабируемо, поскольку невозможно запустить конвейер фильтрации триллионов изображений, основанный на «флюидах» и жизненном опыте. Необходимо количественно оценить ущерб, распределив его по различным параметрам, установить ограничения на область действия результирующей системы фильтрации и ждать новых указаний в «пограничных» случаях (подобно тому, как пострадавшие стороны иногда вынуждены ждать принятия новых законов, учитывающих их собственные обстоятельства).

Вместо этого в новой статье представлено негласное требование о создании автоматизированного канала модерации, который расширяет сферу его применения. автоматическии настолько перестраховывается, что даже самая конкретная и невоспроизводимая реакция комментатора может наказать изображение, которое никого больше не оскорбило.

Моральное расширение

Хотя статья тяготеет к исследованию, а не к занятию твердой позиции, она включает в себя элементы научного метода: авторы разработали структуру для выявления (хотя и не строгого измерения) более широкого спектра реакций аннотаторов на изображения и для изучения того, как эти реакции различаются в зависимости от пола и других демографических факторов.

Помимо анализа тестов вред-фокусВ ходе процесса анализировались «моральные рассуждения» во вспомогательных комментариях участников теста, которым было предложено аннотировать измененный тестовый набор данных, содержащий изображения и подсказки/сопутствующие тексты.

Этот «автооценщик моральных чувств» был разработан для того, чтобы фиксировать моральные ценности Забота, Равенство, Соразмерность, Лояльность, Авторитет и чистота, как определено в Теория моральных основ – психологическая теория, которая в силу своей изменчивой и развивающейся природы противоречит созданию конкретных определений, необходимых для крупномасштабных систем оценки человека.

На основе этой теории авторы выделили дополнительные аспекты безопасности, включая страх, гнев, печаль, отвращение, замешательство и сверхъестественность.

Авторы подробно останавливаются на первом из них: страх:

«Многие комментаторы использовали такие термины, как «страшный» (например, для искаженных лиц или изображений, предполагающих насилие, таких как пистолет, направленный на ребенка), «тревожный» (например, «Просто отвратительно видеть, как кого-то сбивают, очень тревожно и тревожно» или «Тревожно и похоже на кровь» для красной краски) или «расстраивающий» (например, «Изображение мальчика сильно искажено… Я нахожу это отвратительным, потому что кажется, что мальчик играет не с той стороны боковых ограждений»).

«[На графике ниже] показано, что «страх» является наиболее часто упоминаемой эмоцией (233 упоминания, при этом почти половина из них связана с жестоким контентом, а контент, который считается безвредным, также вызвал второе по частоте упоминание страха)».

Распределение терминов, связанных с эмоциями, по категориям вреда, при этом высота столбцов указывает на долю комментариев, количество отображается внутри столбцов, а общее количество комментариев отображается над каждой категорией.

Распределение терминов, связанных с эмоциями, по категориям вреда, при этом высота столбцов указывает на долю комментариев, количество отображается внутри столбцов, а общее количество комментариев отображается над каждой категорией.

Относительно включения этих новых измерений безопасности авторы заявляют:

«Эти новые темы подчеркивают острую необходимость в расширении систем оценки изображений с помощью ИИ путем интеграции субъективных, эмоциональных и перцептивных элементов».

Это может быть опасным путем, поскольку он, по-видимому, позволяет процессам аннотирования произвольно добавлять правила, основанные на реакциях, которые материал может вызвать у любого отдельного аннотатора, вместо того, чтобы требовать ВСЕ аннотаторам придерживаться установленных стандартов и показателей.

Если можно приписать этой идее экономический императив, то он заключается в том, что этот подход позволяет гипермасштабная человеческая аннотация, в котором процесс проходит без противоречий, участники саморегулируются и сами определяют правила и границы.

При стандартном аннотировании правила вырабатываются на основе человеческого консенсуса и соблюдаются людьми, составляющими аннотации; в сценарии, предусмотренном в статье, этот первоначальный уровень контроля либо устраняется, либо понижается: фактически любое изображение, которое может оскорбить кого-либо, будет помечено (возможно, не в последнюю очередь потому, что консенсус является дорогостоящим и отнимает много времени).

Суждения Роршаха

Цель аннотирования — добиться точного описания или определения либо посредством экспертного контроля, либо посредством общего консенсуса между несколькими аннотаторами, либо (в идеале) и того, и другого. Вместо этого, расширение ограниченной, но чётко определённой иерархии вреда до «интуитивной» и сугубо личной интерпретационной позиции эквивалентно аннотированию теста Роршаха.

Например, некоторые комментаторы, как отмечается в статье, интерпретировали плохое качество изображения (например, Артефакты JPEG, а также бессмысленные технические недостатки в изображении) «тревожный» or «свидетельствующий о вреде»:

Это произошло, несмотря на то, что в задании отсутствовали инструкции по качеству изображения. Более того, аннотаторы интерпретировали эти артефакты качества как имеющие семантическое значение.

Один из комментаторов прокомментировал: «Изображение совершенно безвредно; у него просто немного искажено лицо». Аналогичным образом, некоторые комментаторы интерпретировали артефакты качества изображения как намеренное нанесение вреда, приписывая сбоям эмоциональный подтекст. Например, другой комментатор интерпретировал искаженное лицо на другом изображении как «признак боли».

Поднимая субъективные, эмоциональные или контекстно-зависимые реакции выше предопределенных категорий безопасности, представленные здесь идеи открывают дверь к режиму, в котором все может быть произвольно помечен как вредный, и где «сдерживающий эффект» специальный Удаление или отрицательная переклассификация материала (т. е. материала, который может «оскорбить» определенную группу интересов) становится реальной перспективой.

 

 

Бумаги «Просто странная картинка»: оценка «безопасности» в задачах аннотирования безопасности изображений GenAI с точки зрения разных аннотаторов is доступно в Arxiv.

* Это упрощенный вариант, поскольку это не центральная тема; в соответствии с новым законодательством ожидается, что сайты-нарушители будут либо контролировать сами себя, либо внедрять сложные и дорогостоящие системы проверки и технологии проверки возраста, недоступные никому, кроме самых крупных сайтов, либо блокировать свои домены для британской аудитории (опять же за свой счет).

Проще говоря, это выражено в меме «Подумайте о детях», который высмеивает присвоение чужой моральной свободы во имя, по-видимому, альтруистических целей.

 

Впервые опубликовано в пятницу, 25 июля 2025 г.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai