Погляд Anderson
Ілюзія «Завантажте більше міток!» у дослідженнях штучного інтелекту

Поширений погляд у сучасних дослідженнях машинного навчання полягає в тому, що саме машинне навчання можна використовувати для покращення якості анотацій наборів даних штучного інтелекту – зокрема, підписів зображень, призначених для використання у моделях мови та зору (VLM). Ця лінія думок обумовлена високими витратами на анотацію людьми та додатковим тягарем нагляду за виконанням анотаторів.
Аргументно це еквівалентно ранньому ілюзії 2000-х років «Завантажте більше оперативної пам’яті», яка сатиралізувала думку про те, що апаратні обмеження можна вирішити за допомогою програмного рішення.
Це також недооцінювана проблема; хоча нові моделі штучного інтелекту привертають широку увагу у публічній та комерційній сферах, анотація часто здається дрібницею у трубопроводах машинного навчання, затіненою збудженням, пов’язаним із більш широкими рамками.
Насправді здатність систем машинного навчання розпізнавати та відтворювати закономірності (центральний випадок використання майже всіх систем штучного інтелекту) залежить від якості та послідовності реальних анотацій – міток і фраз, створених або судимих реальними людьми, часто приймаючи суб’єктивні рішення щодо окремих даних у ненайдальних обставинах.
Невідворотно, системи, які намагаються спостерігати та відтворювати закономірності у поведінці анотаторів (і тим самим замінити людських анотаторів та забезпечити точне маркування у великому масштабі) не можуть сподіватися на хорошу роботу з даними, які не містяться у прикладах, взятих з людських спостерігачів. Нічого «подібного» не є зовсім таким же, і еквівалентність між доменами залишається проблематичною у комп’ютерному зорі.
«Верхня дані бочка» повинна зупинитися десь, і в цьому випадку це саме там зупиняється – з людським мозком, який робить якийсь суб’єктивний висновок, щоб закодувати дані для штучної системи.
Ремесло RAG
До недавнього часу неточності, що виникають з недоопрацьованими анотаціями наборів даних, можливо, вважалися прийнятними колатеральними ушкодженнями в контексті неідеальних, але все ж таки ринкових результатів, отриманих з генеративних систем штучного інтелекту.
Дійсно, тільки цього року дослідження з Сінгапуру дійшло до висновку, що «галюцинації» – тобто випадки, коли системи штучного інтелекту вигадують речі, які підкріплюють наші наміри, – є неминучими і пов’язані з концептуальною архітектурою таких систем.
Щоб протидіяти цьому, агенти на основі RAG – які можуть «перевірити» факти через інтернет-пошуки, – стають популярними у дослідженнях та прикладних комерційних рішеннях. Однак вони додають до витрат ресурсів та затримки у запитах; крім того, нова інформація, застосована до навченої моделі, не може конкурувати з більш складними та глибоко пов’язаними зв’язками, які характеризують рідні шари у навченій моделі.
Було б краще, якби анотаційні дані, які інформують ці моделі, були значно менш недолікими з самого початку, навіть якщо вони не можуть бути ідеальними (не в останню чергу тому, що ця діяльність поширюється на сферу людської суб’єктивності).
RePOPE
Нова стаття з Німеччини підкреслює проблеми, які виникають при використанні старих, широко використовуваних наборів даних, зосереджуючись зокрема на точності та надійності їх підписів зображень. Висновки дослідників свідчать про те, що помилки у мітках у бенчмарках можуть маскувати або неправильно представляти галюцинації у моделях мови та зору.
[підпис до зображення id=”attachment_216212″ align=”alignnone” width=”961″]
Припустимо, модель показується зображення вуличної сцени та запитується, чи є там велосипед. Модель відповідає так. Якщо бенчмарк-дані кажуть, що немає велосипеда, модель позначається як неправильна. Але якщо велосипед чітко видно на зображенні та був просто пропущений під час анотації, тоді відповідь моделі була правильною, а бенчмарк не пройшов. Помилки такого типу можуть накопичуватися у наборі даних, даючи спотворене уявлення про те, які моделі точні, а які схильні до галюцинацій.
Отже, коли неправильні або двозначні анотації приймаються як істинна правда, моделі можуть здаватися галюцинаціями, коли вони правильні, або здаються точними, коли вони не є, спотворюючи як вимірювання галюцинації, так і рейтинг моделей, і роблячи його важче діагностувати або вирішити проблему з впевненістю.
Нова стаття переглядає широко використовуваний бенчмарк під назвою Polling-based Object Probing Evaluation (POPE), який перевіряє, чи можуть моделі мови та зору правильно сказати, що є або немає на зображенні.
POPE заснований на мітках з впливового Microsoft COCO: Common Objects in Context (MSCOCO) набору даних, колекції анотованих зображень, які давно вважаються надійними за якістю анотацій.
POPE оцінює галюцинацію об’єктів у великих моделях мови та зору, переформулюючи проблему як бінарний класифікаційний задачу. Замість розбору згенерованих підписів система ставить прості так/ні питання до моделі про те, чи є певні об’єкти на зображенні, використовуючи шаблони типу ‘Чи є <об’єкт> на зображенні?’.
[підпис до зображення id=”attachment_216213″ align=”alignnone” width=”950″]
Істинні об’єкти (відповідь: Так) поєднуються з вибраними неіснуючими об’єктами (відповідь: Ні), вибраними через випадкові, часті (популярні), або стратегії, засновані на співвідношенні (адверсарні). Ця установка дозволяє проводити більш стабільну, незалежну від запиту оцінку галюцинації без використання складного правилного аналізу підписів.
Автори нової статті – під назвою RePOPE: Вплив помилок анотації на бенчмарк POPE – викликають під сумнів прийняту точність POPE, переперевіривши мітки на зображеннях бенчмарку (тобто, MSCOCO) – і виявили, що дивовижна кількість з них неправильні або нечіткі.
[підпис до зображення id=”attachment_216214″ align=”alignnone” width=”939″]
Ці помилки змінюють рейтинг моделей, причому деякі з них, які спочатку показували хороші результати, опускаються вниз, коли їх оцінюють за виправленими мітками.
У тестах автори оцінювали ряд відкритих моделей з різними архітектурами та розмірами моделей на оригінальному бенчмарку POPE та на їхньому виправленому варіанті RePOPE.
За словами статті, виправлені анотації призвели до помітних змін у рейтингу моделей, особливо у F1 балах, причому деякі високопродуктивні моделі під POPE опускалися вниз під RePOPE.
Автори стверджують, що цей зсув ілюструє ступінь, у якій помилки анотації можуть маскувати справжню поведінку галюцинації моделей, і вони представляють RePOPE як більш надійний інструмент для оцінки вразливості до галюцинації.
[підпис до зображення id=”attachment_216215″ align=”alignnone” width=”940″]
Метод і тести
Дослідники переанотували всі анотації у原始ному наборі даних MSCOCO, причому два людські анотатори були призначені для кожної інстанції даних. Там, де виникала двозначність щодо якості оригінальних міток (як у прикладах нижче), ці результати були відкладені з раунду тестування.
[підпис до зображення id=”attachment_216218″ align=”alignnone” width=”942″]
У статті зазначається:
‘Оригінальні анотатори пропустили людей на задньому плані або за склом, тенісист закриває «стілець» на задньому плані, а салат містить лише невелику видиму смужку моркви.
‘Для деяких об’єктів анотації COCO дуже несумісні, ймовірно, через різну визначення цих об’єктів, використаних оригінальними анотаторами. Класифікація «ведмежої» як «ведмежої», мотоцикла як моторизованого «велосипеда», або аеропортного транспортного засобу як «автомобіля» залежить від конкретних визначень, що призводить до несумісностей у мітках POPE. Тому ми анотували відповідні зображення-парні як «двузначні».’
[підпис до зображення id=”attachment_216219″ align=”alignnone” width=”874″]
Автори оцінювали ряд відкритих моделей на POPE та на RePOPE, серед яких були деякі з провідних архітектур на OpenVLM лідрборді: InternVL2.5 (8B/26B/38B/78B і 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; і PaliGemma2 (3B/10B).
[підпис до зображення id=”attachment_216220″ align=”alignnone” width=”880″]
Результати графіків вище ілюструють, як кількість справжніх позитивів і фальшивих позитивів змінюється після виправлення міток у бенчмарку.
Справжні позитиви впали у всіх моделей, показуючи, що вони часто були заслуговані за правильні відповіді, коли ці відповіді були правильними лише під помилковими мітками, тоді як фальшиві позитиви слідували більш різноманітному шаблону.
На «випадковій» версії POPE фальшиві позитиви майже подвоїлися для багатьох моделей, вказуючи на те, що значна кількість об’єктів, позначених як галюцинації, насправді були присутні на зображеннях, але були пропущені під час оригінальної анотації. У цьому випадку багато помилок моделей насправді були помилками набору даних.
Для «адверсарної» версії POPE, де питання були засновані на об’єктах, які часто співвідносяться, фальшиві позитиви зменшилися. Це, ймовірно, відображає вищу ймовірність того, що відсутній об’єкт насправді був на зображенні, але залишився без мітки.
Хоча ці зрушення вплинули на точність і віддачу, рейтинги моделей залишилися відносно стабільними для обох метрик.
Бал F1 – основна міра оцінки POPE – була значно чутливішою до виправлення міток. На випадковій підмножині моделі, які займали місця біля верхівки під оригінальними мітками, такі як InternVL2.5-8B і -26B, опустилися до низу, коли оцінювалися з RePOPE. Інші, такі як Ovis2-4B і -8B, піднялися до верхівки.
Аналогічний шаблон виник у точних балах, хоча автори зазначають, що вони тепер можуть бути упередженими, оскільки виправлений набір даних містить нерівномірну кількість позитивних і негативних прикладів.
Автори стверджують, що сильний вплив помилок анотації на результати бенчмарку підкреслює необхідність високоякісних даних. Для підтримки більш надійної оцінки галюцинації об’єктів вони опублікували виправлені мітки на GitHub.
Однак вони зазначають, що це переанотування не повністю вирішує проблему насиченості бенчмарку, оскільки багато моделей все ще досягають справжніх позитивних і справжніх негативних ставок понад 90%. Вони пропонують використовувати додаткові бенчмарки, такі як DASH-B, який використовує більш складну підмножину негативних прикладів, поряд з RePOPE.
Висновок
Цей конкретний експеримент був можливий завдяки дуже малому масштабу набору даних, який був залучений. Доведення того ж гіпотези на гіпермасштабних наборах даних потребуватиме роботи з дуже обмеженими фрагментами даних; у високо різноманітних великих наборах даних це може виявитися майже неможливим ізолювати статистично репрезентативні та семантично узгоджені групи – потенційно викривляючи результати.
Єдиним виходом залишається необхідність кращої та більшої кількості людської анотації.
У цьому відношенні «краща» та «більша» існують як окремі проблеми, оскільки можна отримати більший обсяг анотацій через економіку, орієнтовану на низькі витрати, наприклад, Amazon Mechanical Turk (AMT). Очевидно, що ця потенційно експлуататорська підекономіка часто призводить до нижчих результатів.
Альтернативно, можна видалити завдання анотації в економічні регіони, де той же видаток дозволить отримати більшу кількість анотацій. Однак, чим далі анотатор віддалений від призначеного використання моделі, яку його мітки будуть формувати, тим менше ймовірно, що отримана модель буде відповідати потребам або очікуванням цільової області.
Це залишається однією з найбільш постійних та нерозв’язаних проблем у економіці розробки машинного навчання.
Перша публікація середи, 23 квітня 2025 року












