Погляд Anderson

Ілюзія «Завантажте більше міток!» у дослідженнях штучного інтелекту

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

Поширений погляд у сучасних дослідженнях машинного навчання полягає в тому, що саме машинне навчання можна використовувати для покращення якості анотацій наборів даних штучного інтелекту – зокрема, підписів зображень, призначених для використання у моделях мови та зору (VLM). Ця лінія думок обумовлена високими витратами на анотацію людьми та додатковим тягарем нагляду за виконанням анотаторів.

Аргументно це еквівалентно ранньому ілюзії 2000-х років «Завантажте більше оперативної пам’яті», яка сатиралізувала думку про те, що апаратні обмеження можна вирішити за допомогою програмного рішення.

Це також недооцінювана проблема; хоча нові моделі штучного інтелекту привертають широку увагу у публічній та комерційній сферах, анотація часто здається дрібницею у трубопроводах машинного навчання, затіненою збудженням, пов’язаним із більш широкими рамками.

Насправді здатність систем машинного навчання розпізнавати та відтворювати закономірності (центральний випадок використання майже всіх систем штучного інтелекту) залежить від якості та послідовності реальних анотацій – міток і фраз, створених або судимих реальними людьми, часто приймаючи суб’єктивні рішення щодо окремих даних у ненайдальних обставинах.

Невідворотно, системи, які намагаються спостерігати та відтворювати закономірності у поведінці анотаторів (і тим самим замінити людських анотаторів та забезпечити точне маркування у великому масштабі) не можуть сподіватися на хорошу роботу з даними, які не містяться у прикладах, взятих з людських спостерігачів. Нічого «подібного» не є зовсім таким же, і еквівалентність між доменами залишається проблематичною у комп’ютерному зорі.

«Верхня дані бочка» повинна зупинитися десь, і в цьому випадку це саме там зупиняється – з людським мозком, який робить якийсь суб’єктивний висновок, щоб закодувати дані для штучної системи.

Ремесло RAG

До недавнього часу неточності, що виникають з недоопрацьованими анотаціями наборів даних, можливо, вважалися прийнятними колатеральними ушкодженнями в контексті неідеальних, але все ж таки ринкових результатів, отриманих з генеративних систем штучного інтелекту.

Дійсно, тільки цього року дослідження з Сінгапуру дійшло до висновку, що «галюцинації» – тобто випадки, коли системи штучного інтелекту вигадують речі, які підкріплюють наші наміри, – є неминучими і пов’язані з концептуальною архітектурою таких систем.

Щоб протидіяти цьому, агенти на основі RAG – які можуть «перевірити» факти через інтернет-пошуки, – стають популярними у дослідженнях та прикладних комерційних рішеннях. Однак вони додають до витрат ресурсів та затримки у запитах; крім того, нова інформація, застосована до навченої моделі, не може конкурувати з більш складними та глибоко пов’язаними зв’язками, які характеризують рідні шари у навченій моделі.

Було б краще, якби анотаційні дані, які інформують ці моделі, були значно менш недолікими з самого початку, навіть якщо вони не можуть бути ідеальними (не в останню чергу тому, що ця діяльність поширюється на сферу людської суб’єктивності).

RePOPE

Нова стаття з Німеччини підкреслює проблеми, які виникають при використанні старих, широко використовуваних наборів даних, зосереджуючись зокрема на точності та надійності їх підписів зображень. Висновки дослідників свідчать про те, що помилки у мітках у бенчмарках можуть маскувати або неправильно представляти галюцинації у моделях мови та зору.

[підпис до зображення id=”attachment_216212″ align=”alignnone” width=”961″] З нової статті, деякі приклади, де оригінальні підписи не змогли правильно ідентифікувати об'єкти у наборі зображень MSCOCO. Ручна ревізія дослідниками бенчмарку POPE усуває ці недоліки, демонструючи вартість економії на кураторстві анотацій. Джерело: https://arxiv.org/pdf/2504.15707 З нової статті, деякі приклади, де оригінальні підписи не змогли правильно ідентифікувати об’єкти у наборі зображень MSCOCO. Ручна ревізія дослідниками бенчмарку POPE усуває ці недоліки, демонструючи вартість економії на кураторстві анотацій. Джерело: https://arxiv.org/pdf/2504.15707[/caption]

Припустимо, модель показується зображення вуличної сцени та запитується, чи є там велосипед. Модель відповідає так. Якщо бенчмарк-дані кажуть, що немає велосипеда, модель позначається як неправильна. Але якщо велосипед чітко видно на зображенні та був просто пропущений під час анотації, тоді відповідь моделі була правильною, а бенчмарк не пройшов. Помилки такого типу можуть накопичуватися у наборі даних, даючи спотворене уявлення про те, які моделі точні, а які схильні до галюцинацій.

Отже, коли неправильні або двозначні анотації приймаються як істинна правда, моделі можуть здаватися галюцинаціями, коли вони правильні, або здаються точними, коли вони не є, спотворюючи як вимірювання галюцинації, так і рейтинг моделей, і роблячи його важче діагностувати або вирішити проблему з впевненістю.

Нова стаття переглядає широко використовуваний бенчмарк під назвою Polling-based Object Probing Evaluation (POPE), який перевіряє, чи можуть моделі мови та зору правильно сказати, що є або немає на зображенні.

POPE заснований на мітках з впливового Microsoft COCO: Common Objects in Context (MSCOCO) набору даних, колекції анотованих зображень, які давно вважаються надійними за якістю анотацій.

POPE оцінює галюцинацію об’єктів у великих моделях мови та зору, переформулюючи проблему як бінарний класифікаційний задачу. Замість розбору згенерованих підписів система ставить прості так/ні питання до моделі про те, чи є певні об’єкти на зображенні, використовуючи шаблони типу ‘Чи є <об’єкт> на зображенні?’.

[підпис до зображення id=”attachment_216213″ align=”alignnone” width=”950″] Приклади галюцинації об'єктів у моделях мови та зору. Жирні мітки вказують на об'єкти, позначені як присутні в оригінальних анотаціях, тоді як червоні мітки показують об'єкти, вигадані моделями. Лівий приклад відображає традиційну інструкційну оцінку, тоді як три приклади справа взято з різних варіантів бенчмарку POPE. Приклади галюцинації об’єктів у моделях мови та зору. Жирні мітки вказують на об’єкти, позначені як присутні в оригінальних анотаціях, тоді як червоні мітки показують об’єкти, вигадані моделями. Лівий приклад відображає традиційну інструкційну оцінку, тоді як три приклади справа взято з різних варіантів бенчмарку POPE. Джерело: https://aclanthology.org/2023.emnlp-main.20.pdf[/caption]

Істинні об’єкти (відповідь: Так) поєднуються з вибраними неіснуючими об’єктами (відповідь: Ні), вибраними через випадкові, часті (популярні), або стратегії, засновані на співвідношенні (адверсарні). Ця установка дозволяє проводити більш стабільну, незалежну від запиту оцінку галюцинації без використання складного правилного аналізу підписів.

Автори нової статті – під назвою RePOPE: Вплив помилок анотації на бенчмарк POPE – викликають під сумнів прийняту точність POPE, переперевіривши мітки на зображеннях бенчмарку (тобто, MSCOCO) – і виявили, що дивовижна кількість з них неправильні або нечіткі.

[підпис до зображення id=”attachment_216214″ align=”alignnone” width=”939″] Приклади з набору даних MSCOCO 2014 року. Приклади з набору даних MSCOCO 2014 року. Джерело: https://arxiv.org/pdf/1405.0312[/caption]

Ці помилки змінюють рейтинг моделей, причому деякі з них, які спочатку показували хороші результати, опускаються вниз, коли їх оцінюють за виправленими мітками.

У тестах автори оцінювали ряд відкритих моделей з різними архітектурами та розмірами моделей на оригінальному бенчмарку POPE та на їхньому виправленому варіанті RePOPE.

За словами статті, виправлені анотації призвели до помітних змін у рейтингу моделей, особливо у F1 балах, причому деякі високопродуктивні моделі під POPE опускалися вниз під RePOPE.

Автори стверджують, що цей зсув ілюструє ступінь, у якій помилки анотації можуть маскувати справжню поведінку галюцинації моделей, і вони представляють RePOPE як більш надійний інструмент для оцінки вразливості до галюцинації.

[підпис до зображення id=”attachment_216215″ align=”alignnone” width=”940″] У іншому прикладі з нової статті ми бачимо, як оригінальні підписи POPE не змогли розрізняти тонкі об'єкти, такі як людина, що сидить поруч з кабіною трамваю на правому фото, або стільцем, закритим тенісистом на другому фото зліва. У іншому прикладі з нової статті ми бачимо, як оригінальні підписи POPE не змогли розрізняти тонкі об’єкти, такі як людина, що сидить поруч з кабіною трамваю на правому фото, або стільцем, закритим тенісистом на другому фото зліва.[/caption]

Метод і тести

Дослідники переанотували всі анотації у原始ному наборі даних MSCOCO, причому два людські анотатори були призначені для кожної інстанції даних. Там, де виникала двозначність щодо якості оригінальних міток (як у прикладах нижче), ці результати були відкладені з раунду тестування.

[підпис до зображення id=”attachment_216218″ align=”alignnone” width=”942″] Двузначні випадки, де несумісності у мітках POPE відображають нечіткі межі категорій. Наприклад, ведмежа, позначена як ведмежа, мотоцикл як велосипед, або аеропортні транспортні засоби як автомобілі. Ці випадки виключаються з RePOPE через суб'єктивний характер таких класифікацій, а також несумісності у原始них мітках MSCOCO. Двузначні випадки, де несумісності у мітках POPE відображають нечіткі межі категорій. Наприклад, ведмежа, позначена як ведмежа, мотоцикл як велосипед, або аеропортні транспортні засоби як автомобілі. Ці випадки виключаються з RePOPE через суб’єктивний характер таких класифікацій, а також несумісності у原始них мітках MSCOCO.[/caption]

У статті зазначається:

‘Оригінальні анотатори пропустили людей на задньому плані або за склом, тенісист закриває «стілець» на задньому плані, а салат містить лише невелику видиму смужку моркви.

‘Для деяких об’єктів анотації COCO дуже несумісні, ймовірно, через різну визначення цих об’єктів, використаних оригінальними анотаторами. Класифікація «ведмежої» як «ведмежої», мотоцикла як моторизованого «велосипеда», або аеропортного транспортного засобу як «автомобіля» залежить від конкретних визначень, що призводить до несумісностей у мітках POPE. Тому ми анотували відповідні зображення-парні як «двузначні».’

[підпис до зображення id=”attachment_216219″ align=”alignnone” width=”874″] Результати переанотації: позитивні питання спільні для всіх трьох варіантів POPE. Серед тих, хто був позначений як «Так» у POPE, 9,3% були визнані неправильними, а 13,8% були класифіковані як двузначні. Для «Ні» питань 1,7% були неправильно позначені, а 4,3% були двузначними. Результати переанотації: позитивні питання спільні для всіх трьох варіантів POPE. Серед тих, хто був позначений як «Так» у POPE, 9,3% були визнані неправильними, а 13,8% були класифіковані як двузначні. Для «Ні» питань 1,7% були неправильно позначені, а 4,3% були двузначними.[/caption]

Автори оцінювали ряд відкритих моделей на POPE та на RePOPE, серед яких були деякі з провідних архітектур на OpenVLM лідрборді: InternVL2.5 (8B/26B/38B/78B і 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; і PaliGemma2 (3B/10B).

[підпис до зображення id=”attachment_216220″ align=”alignnone” width=”880″] Початкові результати: високий рівень помилок у оригінальних позитивних мітках призводить до різкого спаду справжніх позитивів у всіх моделей. Фальшиві позитиви змінюються у підмножинах, майже подвоюючись у випадковій підмножині, але залишаючись几乎 незмінними у популярній підмножині, і показуючи легке зниження у адверсарній підмножині. Переанотація має великий вплив на рейтинги на основі F1. Моделі, такі як Ovis2-4B і Ovis2-8B, які показували хороші результати на популярній та адверсарній частинах у POPE, також піднімаються до верхівки у випадковій підмножині під RePOPE. Будь ласка, зверніться до джерела PDF для кращої роздільності.[/caption]

Результати графіків вище ілюструють, як кількість справжніх позитивів і фальшивих позитивів змінюється після виправлення міток у бенчмарку.

Справжні позитиви впали у всіх моделей, показуючи, що вони часто були заслуговані за правильні відповіді, коли ці відповіді були правильними лише під помилковими мітками, тоді як фальшиві позитиви слідували більш різноманітному шаблону.

На «випадковій» версії POPE фальшиві позитиви майже подвоїлися для багатьох моделей, вказуючи на те, що значна кількість об’єктів, позначених як галюцинації, насправді були присутні на зображеннях, але були пропущені під час оригінальної анотації. У цьому випадку багато помилок моделей насправді були помилками набору даних.

Для «адверсарної» версії POPE, де питання були засновані на об’єктах, які часто співвідносяться, фальшиві позитиви зменшилися. Це, ймовірно, відображає вищу ймовірність того, що відсутній об’єкт насправді був на зображенні, але залишився без мітки.

Хоча ці зрушення вплинули на точність і віддачу, рейтинги моделей залишилися відносно стабільними для обох метрик.

Бал F1 – основна міра оцінки POPE – була значно чутливішою до виправлення міток. На випадковій підмножині моделі, які займали місця біля верхівки під оригінальними мітками, такі як InternVL2.5-8B і -26B, опустилися до низу, коли оцінювалися з RePOPE. Інші, такі як Ovis2-4B і -8B, піднялися до верхівки.

Аналогічний шаблон виник у точних балах, хоча автори зазначають, що вони тепер можуть бути упередженими, оскільки виправлений набір даних містить нерівномірну кількість позитивних і негативних прикладів.

Автори стверджують, що сильний вплив помилок анотації на результати бенчмарку підкреслює необхідність високоякісних даних. Для підтримки більш надійної оцінки галюцинації об’єктів вони опублікували виправлені мітки на GitHub.

Однак вони зазначають, що це переанотування не повністю вирішує проблему насиченості бенчмарку, оскільки багато моделей все ще досягають справжніх позитивних і справжніх негативних ставок понад 90%. Вони пропонують використовувати додаткові бенчмарки, такі як DASH-B, який використовує більш складну підмножину негативних прикладів, поряд з RePOPE.

Висновок

Цей конкретний експеримент був можливий завдяки дуже малому масштабу набору даних, який був залучений. Доведення того ж гіпотези на гіпермасштабних наборах даних потребуватиме роботи з дуже обмеженими фрагментами даних; у високо різноманітних великих наборах даних це може виявитися майже неможливим ізолювати статистично репрезентативні та семантично узгоджені групи – потенційно викривляючи результати.

Єдиним виходом залишається необхідність кращої та більшої кількості людської анотації.

У цьому відношенні «краща» та «більша» існують як окремі проблеми, оскільки можна отримати більший обсяг анотацій через економіку, орієнтовану на низькі витрати, наприклад, Amazon Mechanical Turk (AMT). Очевидно, що ця потенційно експлуататорська підекономіка часто призводить до нижчих результатів.

Альтернативно, можна видалити завдання анотації в економічні регіони, де той же видаток дозволить отримати більшу кількість анотацій. Однак, чим далі анотатор віддалений від призначеного використання моделі, яку його мітки будуть формувати, тим менше ймовірно, що отримана модель буде відповідати потребам або очікуванням цільової області.

Це залишається однією з найбільш постійних та нерозв’язаних проблем у економіці розробки машинного навчання.

Перша публікація середи, 23 квітня 2025 року

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]