Взгляд Anderson

Риски «Вибрационного» Аннотирования Изображений

Published July 25, 2025

Updated May 18, 2026

Martin Anderson

A patron in the museum of banned artifacts. SDXL; Flux; Flux.1 Kontext; Firefly.

Хотя они получают всего несколько долларов (или даже ничего), неизвестные люди, оценивающие изображения на предмет «вредного» контента, могут изменить вашу жизнь своими решениями. Теперь большая новая статья от Google, кажется, предполагает, что эти аннотаторы создают свои собственные правила того, что является или не является «вредным» или оскорбительным – независимо от того, насколько их реакции на любое изображение могут быть странными или личными. Что может пойти не так?

Мнение На этой неделе новое сотрудничество между Google Research и Google Mind объединило не менее 13 участников в новой статье, которая исследует, следует ли учитывать «интуитивные чувства» аннотаторов изображений при оценке изображений для алгоритмов, даже если их реакции не соответствуют установленным стандартам оценки.

Это важно для вас, потому что то, что оценщики и аннотаторы находят оскорбительным по правилу консенсуса, будет иметь тенденцию закрепляться в автоматических системах цензуры и модерации, и в критериях для «непристойного» или «неприемлемого» материала, в законодательстве, таком как новый брандмауэр NSFW* в Великобритании (версия которого скоро появится в Австралии), и в системах оценки контента на платформах социальных сетей, среди других сред.

По мере того, как критерии оскорбления расширяются, потенциальный уровень цензуры также увеличивается.

Вибрационная Цензура

Это не единственная точка зрения, которую предлагает новая статья; она также показывает, что люди, которые оценивают изображения, часто более цензурны в отношении того, что, по их мнению, может оскорбить других людей, кроме себя; и что изображения низкого качества часто вызывают опасения по поводу безопасности, хотя качество изображения не имеет отношения к содержанию изображения.

В заключении статьи подчеркиваются эти два вывода, как будто центральная позиция статьи не удалась, но исследователи были обязаны опубликовать ее все равно.

Хотя это не редкий сценарий, статья, при внимательном чтении, содержит более зловещий подтекст: что практика аннотирования может рассмотреть возможность принятия того, что я могу описать только как вибрационное аннотирование:

‘Наши результаты показывают, что существующие рамки должны учитывать субъективные и контекстные измерения, такие как эмоциональные реакции, неявные суждения и культурные интерпретации вреда. Частое использование аннотаторами эмоционального языка и их отклонение от предопределенных меток вреда подчеркивают пробелы в текущих методах оценки.

‘Расширение руководств по аннотированию для включения иллюстративных примеров различных культурных и эмоциональных интерпретаций может помочь устранить эти пробелы.’

Новая статья с минимальными иллюстрациями начинается с примеров, которые являются неоднозначными и сочувственными для среднего читателя, хотя фактический основной материал вызывает многие вопросы. Здесь, под каждым изображением, мы видим эмоциональные реакции аннотаторов, обозначенные для их соответствующих изображений. Источник: https://arxiv.org/pdf/2507.16033

Сначала это звучит как предложение расширить и лучше количественно определить, что составляет «вред» в изображении – похвальная цель; но статья повторяет несколько раз, что это не желательно и не обязательно осуществимо:

‘Расширение руководств по аннотированию для включения иллюстративных примеров различных культурных и эмоциональных интерпретаций может помочь устранить эти пробелы […]

‘[…] Процесс, с помощью которого аннотаторы рассуждают об неоднозначных изображениях, часто отражает их личные, культурные и эмоциональные перспективы, которые трудно структурировать или стандартизировать.’

Трудно понять, как «Расширение руководств по аннотированию для включения иллюстративных примеров различных культурных и эмоциональных интерпретаций» может вписаться в рациональную систему оценки; авторы борются с澄清ением этой точки или сформулированием четкой теории, атакуя материал много раз, но никогда не преодолевая его. В этом отношении их центральная тема сама по себе кажется «вибрационной», даже когда она касается неосязаемых психологий.

Просто говоря, кажется мне, что расширение процесса аннотирования для включения критериев этого типа потенциально позволяет «отменить» или скрыть любой материал (или класс темы), который аннотатор может сильно отреагировать.

Бинарное Суждение

Степень, в которой изображения и текст могут причинить вред, действительно трудна для количественной оценки, не в последнюю очередь потому, что высокая культура часто пересекается с «низкой» культурой (например, с искусством и романами), что приводит к первому «вибрационному» критерию цензуры: даже если оскорбительный материал не поддается точному определению, вы знаете его, когда видите.

Под обширным и исследовательским обсуждением эмпатии и качественной нюанса, работа, кажется, тихо атакует авторитет централизованных, стандартизированных таксономий («насилие», «обнаженность», «ненависть» и т. д.), которые позволяют платформам реализовывать и масштабировать модерацию с допустимыми пределами ошибок (обычно).

Аргумент, который возникает, заключается в том, что только децентрализованная, субъективная, контекстно-чувствительная обратная связь человека может надлежащим образом оценить выход GenAI.

Однако это явно не масштабируемо, поскольку вы не можете запустить фильтр для триллиона изображений на «вибрациях» и жизненном опыте. Вам необходимо количественно оценить вред в различные свойства; установить предел объема результирующей системы фильтрации; и ждать новых директив в «крайних» случаях (так же, как обиженные стороны иногда должны ждать принятия новых законов, которые решают их собственные конкретные обстоятельства).

Вместо этого новая статья представляет собой неявный мандат для автоматизированной системы модерации, которая расширяет свой объем автоматически, и ошибается так далеко на стороне осторожности, что даже самая конкретная и нереплицируемая реакция аннотатора может наказать изображение, которое не оскорбило никого другого.

Моральное Расширение

Хотя статья склоняется к исследованию, а не к принятию твердой позиции, она включает в себя элементы научного метода: авторы разработали рамки для выявления (хотя не строго измерения) более широкого спектра реакций аннотаторов на изображения и для изучения того, как эти реакции варьируются по гендеру и другим демографическим факторам.

Помимо анализа фокуса на вреде^†, процесс анализировал «моральное рассуждение» в вспомогательных комментариях участников тестирования, которые были попросили аннотировать измененную тестовую выборку, содержащую изображения и связанные с ними тексты.

Этот «авторейтинг морального настроения» был разработан для захвата моральных ценностей Забота, Равенство, Пропорциональность, Лояльность, Авторитет и Чистота, как определено в Теории Моральных Основ – психологической теории, которая, из-за своей текучей и развивающейся природы, является противоречивой для создания конкретных определений, необходимых для крупномасштабных систем оценки человека.

Информированные этой теорией, дополнительные измерения безопасности были категоризированы авторами, включая страх, гнев, печаль, отвращение, замешательство и неуютность.

Авторы подробно рассказывают о первом из них, страхе:

‘Многие аннотаторы использовали термины как “страшно” (например, для искаженных лиц или изображений, предполагающих насилие, например, пистолета, направленного на ребенка), “тревожно” (“Абсолютно мерзко видеть, как кто-то был переезжен, очень тревожно и тревожно”, или “Тревожно и похоже на кровь” для красной краски), или “волнительно” (“Изображение мальчика имеет много искажений… Я нахожу его отвратительным, потому что кажется, что мальчик играет на неправильной стороне перил”).

‘[График ниже] количественно оценивает “страх” как наиболее часто упоминаемую эмоцию (233 упоминания, причем почти половина этих упоминаний связана с содержанием, связанным с насилием, содержание, признанное не вредным, также вызвало второе по частоте упоминание страха).’

Распределение эмоциональных терминов по категориям вреда, с высотами столбцов, указывающими пропорции комментариев, отображаемых в столбцах, и общими счетами комментариев, показанными выше каждой категорией.

В отношении включения этих новых измерений безопасности авторы заявляют:

‘Эти возникающие темы подчеркивают критическую необходимость обогащения рамок оценки изображений ИИ, интегрируя субъективные, эмоциональные и перцептивные элементы.’

Это может быть опасной дорогой, поскольку кажется, что процесс аннотирования может произвольно добавлять правила на основе реакций, которые материал может вызвать у любого аннотатора, вместо того, чтобы требовать от всех аннотаторов соблюдения установленных стандартов и эталонов.

Если можно присвоить экономическую императив этой идее, то это то, что этот подход позволяет гипермасштабное человеческое аннотирование, при котором процесс является без трения, участники являются самоорганизованными, и где они сами решают, какие правила и границы.

При стандартном аннотировании правила устанавливаются человеческим консенсусом и соблюдаются человеческими аннотаторами; при сценарии, представленном в статье, этот первоначальный уровень надзора либо удаляется, либо понижается: эффективно любое изображение, которое может вызвать оскорбление у кого-либо, будет помечено (не в последнюю очередь, возможно, потому, что консенсус дорог и требует времени).

Роршаховские Суждения

Намерение аннотирования заключается в том, чтобы прийти к точному описанию или определению либо через экспертный надзор, либо через общий консенсус среди нескольких аннотаторов, либо (идеально) через оба. Вместо этого расширение ограниченной, но хорошо определенной иерархии вреда до «интуитивной» и высоко личной интерпретативной позиции эквивалентно аннотированию теста Роршаха.

Например, некоторые аннотаторы, как отмечается в статье, интерпретировали плохое качество изображения (такое как артефакты JPEG, а также бессмысленные технические недостатки в изображении) как «тревожное» или «указывающее на вред»:

‘Это произошло, несмотря на то, что задание не включало инструкций по качеству изображения. Кроме того, аннотаторы интерпретировали эти артефакты качества как семантически значимые.

‘Один аннотатор прокомментировал: «Изображение не вредно вообще; у него просто немного искаженное лицо». Аналогично, некоторые аннотаторы интерпретировали артефакты качества как намеренный вред, придавая эмоциональный смысл глюкам. Например, другой аннотатор интерпретировал искаженное лицо в другом изображении как «указывающее на боль»’

Повышая субъективные, эмоциональные или контекстно-специфические реакции над предопределенными категориями безопасности, идеи, представленные здесь, открывают дверь к режиму, в котором что угодно может быть произвольно помечено как вредное, и где «охлаждающий эффект» ад хок удалений или негативной перекатегоризации материала (т. е. материала, который может «оскорбить» специальную группу интересов) становится реальной перспективой.

Статья “Просто странная картинка”: Оценка «безопасности» в задачах аннотирования изображений GenAI с точки зрения различных аннотаторов доступна на Arxiv.

* Обходной путь, поскольку это не является центральной темой здесь; в соответствии с новым законодательством, оскорбляющие сайты должны либо сами регулировать себя; внедрять сложные и дорогие системы проверки и технологии проверки возраста, которые находятся вне досягаемости всех, кроме самых крупных сайтов; или же блокировать свои домены для британской аудитории (снова, за свой счет).

† Просто выражено в меме «думайте о детях», который сатирирует присвоение морального агентства другого человека для якобы альтруистических целей.

Опубликовано впервые в пятницу, 25 июля 2025 года