Кут Андерсона

Ризики анотації зображень на основі «вібрації»

опублікований Липень 25, 2025

Мартін Андерсон

Покровитель музею заборонених артефактів. SDXL; Flux; Flux.1 Kontext; Firefly.

Навіть якщо їм платять лише кілька доларів (або взагалі нічого), невідомі люди, які оцінюють зображення на наявність «образливого» контенту, можуть змінити ваше життя своїм вибором. Тепер, схоже, нова велика стаття від Google пропонує цим анотаторам створити власні правила щодо того, що є «образливим» чи образливим, а що ні – незалежно від того, наскільки дивною чи особистою може бути їхня реакція на будь-яке зображення. Що може піти не так?

Думка Цього тижня нова співпраця між Google Research та Google Mind об’єднала щонайменше 13 учасників новий папір яке досліджує, чи слід враховувати «інстинктивні почуття» анотаторів зображень, коли люди оцінюють зображення для алгоритмів, навіть якщо їхні реакції не відповідають встановленим стандартам оцінювання.

Це важливо для вас, тому що те, що оцінювачі та анотатори вважають образливим за правилом консенсусу, як правило, буде закріплено в автоматичних системах цензури та модерації, а також у критеріях «непристойного» або «неприйнятного» матеріалу в законодавстві, такому як новий брандмауер NSFW* Великої Британії (версія якої є приїзд до Австралії незабаром), а також у системах оцінки контенту на платформах соціальних мереж та інших середовищах.

Тож чим ширші критерії для правопорушення, тим ширший потенційний рівень цензури.

Вайб-цензура

Це не єдина точка зору, яку пропонує нова стаття; у ній також виявляється, що люди, які оцінюють зображення, часто більш суворо ставляться до того, що, на їхню думку, образить когось. Інше люди, окрім них самих; і що зображення низької якості часто викликають занепокоєння щодо безпеки, навіть якщо якість зображення не має нічого спільного зі змістом зображення.

На завершення статті акцентується увага на цих двох висновках, ніби центральна позиція статті зазнала невдачі, але дослідники все одно були зобов'язані опублікувати її.

Хоча це не рідкісний сценарій, після уважного прочитання стаття виявляє більш зловісний підтекст: практика анотування могла б розглянути можливість впровадження того, що я можу описати лише як вібраційні анотації:

«Наші результати свідчать про те, що існуючі рамки повинні враховувати суб'єктивні та контекстуальні виміри, такі як емоційні реакції, неявні судження та культурні інтерпретації шкоди. Часте використання анотаторами емоційної мови та їхнє відхилення від заздалегідь визначених позначень шкоди підкреслюють прогалини в сучасній практиці оцінювання».

«Розширення правил анотування шляхом включення ілюстративних прикладів різноманітних культурних та емоційних інтерпретацій може допомогти усунути ці прогалини».

Нова стаття, що містить мало ілюстрацій, починається з однозначних та зрозумілих для пересічного читача прикладів, хоча сам основний матеріал набагато неоднозначніший і викликає набагато більше запитань. Тут, під кожним зображенням, ми бачимо емоційні реакції анотаторів, позначені для їхніх відповідних зображень. Джерело: https://arxiv.org/pdf/2507.16033

Нова стаття, що містить мало ілюстрацій, починається з прикладів, які є однозначними та зрозумілими для пересічного читача, хоча сам основний матеріал викликає набагато більше запитань. Тут, під кожним зображенням, ми бачимо емоційні реакції анотаторів, позначені для їхніх відповідних зображень. Джерело: https://arxiv.org/pdf/2507.16033

Спочатку це звучить як пропозиція розширити та краще кількісно визначити, що становить «шкоду» на зображенні – похвальне прагнення; але в статті кілька разів повторюється, що це не є ні бажаним, ні (обов’язково) здійсненним:

«Розширення інструкцій щодо анотацій, включаючи ілюстративні приклади різноманітних культурних та емоційних інтерпретацій, може допомогти усунути ці прогалини […]»

«[…] Процес, за допомогою якого анотатори розмірковують про неоднозначні зображення, часто відображає їхні особисті, культурні та емоційні погляди, які важко сформулювати або стандартизувати».

Важко зрозуміти, як «Розширення правил анотування шляхом включення ілюстративних прикладів різноманітних культурних та емоційних інтерпретацій» може вписатися в раціональну систему оцінювання; автори намагаються прояснити цей момент або сформулювати окрему теорію, багато разів атакуючи матеріал, але так і не знаходячи кращого рішення. У цьому відношенні їхня центральна тема сама по собі здається породженою «вібрацією», навіть якщо вона стосується нематеріальних психологій.

Простіше кажучи, мені здається, що розширення конвеєра анотацій, щоб включити такі критерії, потенційно дозволяє «скасувати» або заплутувати будь-який матеріал (або клас тем), на який анотатор може сильно відреагувати.

Бінарне судження

Ступінь, до якої зображення та текст можуть завдати шкоди, справді важко кількісно оцінити, не в останню чергу тому, що висока культура часто перетинається з «низькою» культурою (наприклад, з мистецтво та романи), що призвело до найдавніших критеріїв цензури на основі «вайбу»: навіть якщо непристойний матеріал не піддається точному визначенню, ви знай це, коли побачиш.

Під широким та дослідницьким обговоренням емпатії та якісних нюансів у новій статті, здається, що робота непомітно атакує авторитет централізованих, стандартизованих таксономій («насильство», «оголеність», «ненависть» тощо), які дозволяють платформам впроваджувати та масштабувати модерацію з допустимими межами похибки (зазвичай).

Виникає аргумент, що лише децентралізований, суб'єктивний, контекстно-залежний зворотний зв'язок людини може належним чином оцінити результати GenAI.

Однак це явно немасштабовано, оскільки неможливо запустити конвеєр фільтрації з трильйонів зображень на основі «вібрацій» та життєвого досвіду. Потрібно кількісно оцінити шкоду за різними властивостями; встановити обмеження на обсяг результуючої системи фільтрації; та чекати на нові директиви у «граничних» випадках (так само, як постраждалі сторони іноді повинні чекати на прийняття нових законів, що стосуються їхніх власних конкретних обставин).

Натомість, у новому документі представлено негласне зобов'язання щодо автоматизованого конвеєра модерації, який розширює його сферу застосування. автоматично, і настільки переступає поріг обережності, що навіть найконкретніша та неповторювана реакція анотатора може покарати зображення, яке нікого більше не образило.

Моральне розширення

Хоча стаття схиляється до дослідження, а не до твердої позиції, вона містить елементи наукового методу: автори розробили структуру для виявлення (хоча й не суворого вимірювання) ширшого спектру реакцій анотаторів на зображення та для вивчення того, як ці реакції відрізняються залежно від статі та інших демографічних факторів.

Окрім аналізу тестів зосередження на шкоді^†У процесі аналізувалися «моральні міркування» в додаткових коментарях учасників тестування, яких попросили анотувати модифікований набір тестових даних, що містив зображення та підказки/пов’язані тексти.

Цей «авторейтер моральних почуттів» був розроблений для фіксації моральних цінностей Турбота, Рівність, Пропорційність, Лояльність, Авторитет та Чистота, як визначено в Теорія моральних основ – психологічна теорія, яка через свою мінливу та еволюційну природу суперечить створенню конкретних визначень, необхідних для масштабних систем оцінювання людини.

Спираючись на цю теорію, автори класифікували додаткові виміри безпеки, зокрема страх, гнів, печаль, огиду, замішання та моторошність.

Автори детальніше розповідають про перший з них, страх:

«Багато анотаторів використовували такі терміни, як «страшно» (наприклад, для спотворених облич або зображень, що натякають на насильство, як-от пістолет, спрямований на дитину), «тривожно» (наприклад, «Абсолютно гидко бачити, як когось збивають, дуже прикро та тривожно» або «Тривожно і схоже на кров» для червоної фарби), або «засмучений» (наприклад, «Зображення хлопчика має багато спотворень… Я вважаю це неприємним, бо здається, що хлопчик грається не на тому боці бічних поручнів»).

«[Графік нижче] кількісно визначає «страх» як найчастіше згадувану емоцію (233 згадки, хоча майже половина з цих згадок пов’язані з насильницьким контентом, контент, який вважається нешкідливим, також викликав другу за частотою згадку страху)».

Розподіл термінів, пов’язаних з емоціями, за категоріями шкоди, де висота стовпців вказує на частку коментарів, кількість коментарів відображається всередині стовпців, а загальна кількість коментарів відображається над кожною категорією.

Щодо включення цих нових вимірів безпеки, автори зазначають:

«Ці нові теми підкреслюють критичну потребу в збагаченні систем оцінки зображень за допомогою штучного інтелекту шляхом інтеграції суб'єктивних, емоційних та перцептивних елементів».

Це може бути небезпечним шляхом, оскільки він, здається, дозволяє процесам анотування довільно додавати правила на основі реакцій, які матеріал може викликати в будь-якому окремому анотаторі, замість того, щоб вимагати всі анотаторам дотримуватися встановлених стандартів та орієнтирів.

Якщо можна приписати цій ідеї економічний імператив, то це те, що цей підхід дозволяє гіпермасштабна людська анотація, де процес є безперешкодним, учасники саморегулюються, і де вони самі вирішують, якими є правила та межі.

Згідно зі стандартним анотуванням, правила формуються на основі людського консенсусу та дотримуються анотаторами-людьми; за сценарієм, передбаченим у статті, цей початковий рівень контролю або видаляється, або знижується: фактично будь-яке зображення, яке може когось образити, буде позначено (не в останню чергу, можливо, тому, що консенсус є дорогим, а також трудомістким).

Судження Роршаха

Мета анотації полягає в тому, щоб досягти точного опису або визначення або через експертний нагляд, спільний консенсус серед кількох анотаторів, або (в ідеалі) обидва. Натомість, розширення обмеженої, але чітко визначеної ієрархії шкоди до «інтуїтивної» та дуже особистої інтерпретаційної позиції еквівалентне анотуванні тесту Роршаха.

Наприклад, деякі анотатори, паперові нотатки, інтерпретували погану якість зображення (наприклад, Артефакти JPEG, а також безглузді технічні недоліки зображення) як «тривожний» or «свідчить про шкоду»:

«Це сталося, незважаючи на те, що в завданні не було інструкцій щодо якості зображення. Більше того, анотатори інтерпретували ці артефакти якості як семантично значущі».

«Один анотатор зауважив: «Зображення зовсім не шкідливе; у нього просто трохи спотворене обличчя». Аналогічно, деякі анотатори інтерпретували артефакти якості зображення як навмисну шкоду, приписуючи емоційне значення глюкам. Наприклад, інший анотатор інтерпретував спотворене обличчя на іншому зображенні як «ознаку болю».

Підносячи суб'єктивні, емоційні або контекстуально-специфічні реакції вище за заздалегідь визначені категорії безпеки, ідеї, представлені тут, відкривають двері до режиму, де все можуть бути довільно позначені як шкідливі, а також там, де спостерігається «стримуючий ефект» спеціальний видалення або негативна перекатегоризація матеріалів (тобто матеріалів, які можуть «образити» певну групу інтересів) стає реальною перспективою.

Папір «Просто дивне фото»: Оцінка «безпеки» в завданнях анотації безпеки зображень GenAI з точки зору різних анотаторів is доступно в Arxiv.

* Скорочений шлях, оскільки це не є центральною темою; згідно з новим законодавством, сайти-порушники повинні або контролювати себе, або запровадити складні та дорогі системи перевірки та технології перевірки віку, які недоступні для всіх, окрім найбільших сайтів; або ж заблокувати свої домени від британської аудиторії (знову ж таки, за власний кошт).

† Просто виражено в мемі «подумайте про дітей», який висміює привласнення чужої моральної свободи дій з, очевидно, альтруїстичними цілями.

Вперше опубліковано у п'ятницю, 25 липня 2025 року

Вгору Далі

Здобуття золота за допомогою штучного інтелекту

Не пропустіть

Від срібла до золота: як штучний інтелект DeepMind підкорив математичну олімпіаду

Мартін Андерсон

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai