Взгляд Anderson
Иллюзия «Загрузите больше меток!» в исследованиях ИИ

Распространённое мнение в текущих исследованиях машинного обучения заключается в том, что само машинное обучение можно использовать для улучшения качества аннотаций наборов данных ИИ – в частности, подписей изображений, предназначенных для использования в моделях видения-языка (VLM). Эта линия мышления обусловлена высокой стоимостью человеческой аннотации и дополнительной нагрузкой наблюдения за производительностью аннотаторов.
По сути, это эквивалент ИИ ранней 2000-х годов мемы «загрузите больше ОЗУ», которые сатирировали идею о том, что ограничение аппаратного обеспечения можно решить с помощью программного решения.
Это также малоизвестная проблема; в то время как новые модели ИИ привлекают широкое внимание в общественных и коммерческих сферах, аннотация часто кажется незначительной деталью в трубопроводах машинного обучения, затенённой волнением, окружающим более широкие рамки.
В действительности, способность систем машинного обучения распознавать и воспроизводить закономерности (центральный случай использования почти всех систем ИИ) зависит от качества и последовательности реальных аннотаций – меток и фраз, созданных или рассмотренных реальными людьми, которые часто делают субъективные суждения об отдельных данных в неидеальных обстоятельствах.
Неизбежно, системы, которые стремятся наблюдать и воспроизводить закономерности в поведении аннотаторов (и тем самым заменить человеческих аннотаторов и облегчить точную маркировку в крупном масштабе) не могут хорошо работать с данными не содержащимися в примерах, взятых из человеческих наблюдателей. Ничто «podobное» не совсем равно, и эквивалентность между доменами остаётся проблематичным преследованием в компьютерном зрении.
«Верхняя граница данных» должна остановиться где-то, и в данном случае это именно там, где она останавливается – с человеческим мозжечком, делающим некоторое субъективное различие, чтобы кодировать данные для искусственной системы.
Ремесло RAG
До недавнего времени неточности, возникающие из-за недооценки аннотаций наборов данных, возможно, считались приемлемым побочным ущербом в контексте несовершенных, но всё же рыночных результатов, полученных из генеративных систем ИИ.
Действительно, только в этом году исследование в Сингапуре заключило, что галлюцинации – т. е. случаи, когда системы ИИ изобретают вещи, которые подрывают наши намерения, – неизбежны и связаны с концептуальной архитектурой таких систем.
Чтобы противостоять этому, агенты на основе RAG – которые могут «верифицировать» факты через интернет-поиск – становятся популярными в исследованиях и прикладных коммерческих решениях. Однако они добавляют к стоимости ресурсов и задержке в запросах; кроме того, новая информация, примененная к обученной модели, не может конкурировать с более сложными и глубоко переплетёнными связями, характерными для родных слоёв в обученной модели.
Следовательно, было бы лучше, если бы данные аннотаций, информирующие эти модели, были значительно менее ошибочными с самого начала, даже если они не могут быть идеальными (не говоря уже о том, что эта деятельность вторгается в область человеческой субъективности).
RePOPE
Новая статья из Германии подчеркивает проблемы, возникающие из-за использования более старых, широко используемых наборов данных, сосредотачиваясь в частности на точности и надежности их подписей изображений. Результаты исследователей предполагают, что ошибки меток в эталонных наборах могут маскировать или неправильно представлять галлюцинации в моделях видения-языка.

Из новой статьи, некоторые примеры, где оригинальные подписи не смогли правильно идентифицировать объекты в наборе данных изображений MSCOCO. Ручное пересмотр бенчмарка RePOPE устраняет эти недостатки, демонстрируя стоимость экономии на курировании аннотаций. Источник: https://arxiv.org/pdf/2504.15707
Представьте, что модель показана изображение уличной сцены и спросили, есть ли на нём велосипед. Модель отвечает да. Если эталонный набор данных говорит, что нет велосипеда, модель помечается неправильной. Но если велосипед ясно виден на изображении и был просто пропущен во время аннотации, то ответ модели был правильным, и эталонный набор данных не сработал. Ошибки, подобные этой, могут накапливаться в наборе данных, давая искажённое представление о том, какие модели точны и какие склонны к галлюцинациям.
Таким образом, когда неправильные или двусмысленные аннотации рассматриваются как эталонная правда, модели могут казаться галлюцинирующими, когда они правильны, или казаться точными, когда они не являются таковыми, искажая как измерение галлюцинации, так и рейтинг производительности модели, и затрудняя диагностику или решение проблемы с уверенностью.
Новая статья пересматривает широко используемый эталон под названием Polling-based Object Probing Evaluation (POPE), который тестирует, могут ли модели видения-языка правильно сказать, что есть или нет на изображении.
POPE основан на метках из влиятельного Microsoft COCO: Common Objects in Context (MSCOCO) набора данных, коллекции аннотированных изображений, которые давно считаются предлагающими хороший уровень точности аннотаций.
POPE оценивает галлюцинацию объектов в крупных моделях видения-языка, переформулируя проблему как бинарную классификационную задачу. Вместо парсинга сгенерированных подписей система задает простые да/нет вопросы модели о том, присутствуют ли конкретные объекты на изображении, используя шаблоны, такие как ‘Есть ли <объект> на изображении?’.

Примеры галлюцинации объектов в моделях видения-языка. Жирные метки указывают объекты, помеченные как присутствующие в оригинальных аннотациях, в то время как красные метки показывают объекты, галлюцинируемые моделями. Левый пример отражает традиционную оценку на основе инструкций, в то время как три примера справа взяты из различных вариантов бенчмарка POPE. Источник: https://aclanthology.org/2023.emnlp-main.20.pdf
Эталонные объекты (ответ: Да) объединяются с выборочными несуществующими объектами (ответ: Нет), выбранными через случайную, частую (популярную) или кооккурентную (адверсарную) стратегию. Этот подход позволяет проводить более стабильную, независимую от подсказки оценку галлюцинации без использования сложного анализа подписей на основе правил.
Авторы новой статьи – озаглавленной RePOPE: Влияние ошибок аннотаций на бенчмарк POPE – оспаривают предполагаемую точность POPE, перепроверив метки на изображениях бенчмарка (т. е. MSCOCO) – и обнаружив, что удивительно большое количество из них неверны или неясны.

Примеры из набора данных MSCOCO 2014 года. Источник: https://arxiv.org/pdf/1405.0312
Эти ошибки меняют рейтинг моделей, при этом некоторые модели, которые изначально хорошо выполняли свою задачу, отстают, когда оцениваются по исправленным меткам.
В тестах авторы оценили ряд моделей видения-языка с открытыми весами на исходном бенчмарке POPE и на своей переаннотированной версии RePOPE.
Согласно статье, исправленные аннотации привели к заметным изменениям в рейтинге моделей, особенно в F1 баллах, при этом несколько высокопроизводительных моделей, занимавших высокие позиции в POPE, отстают в позиции под RePOPE.
Авторы утверждают, что этот сдвиг иллюстрирует степень, в которой ошибки аннотаций могут скрыть фактическое поведение галлюцинации моделей, и они представляют RePOPE как более надёжный инструмент для оценки уязвимости к галлюцинации.

В другом примере из новой статьи мы видим, как оригинальные подписи POPE не смогли различить тонкие объекты, такие как человек, сидящий рядом с кабиной трамвая на правом фото, или стул, скрытый теннисистом на втором фото слева.
Метод и тесты
Исследователи переаннотировали все аннотации в исходном наборе данных MSCOCO, с двумя человеческими аннотаторами, назначенными для каждой инстанции данных. Когда возникала двусмысленность относительно качества исходных меток (как в примерах ниже), эти результаты были отложены от раунда тестирования.

Неоднозначные случаи, где несоответствия в метках POPE отражают неясные границы категорий. Например, плюшевый мишка, помеченный как мишка, мотоцикл как велосипед или аэропортовые транспортные средства как автомобили. Эти случаи исключены из RePOPE из-за субъективной природы таких классификаций, а также несоответствий в исходных метках MSCOCO.
Статья гласит:
‘Оригинальные аннотаторы пропустили людей на фоне или за стеклом, теннисиста закрывает «стулья» на заднем плане, и салат из капусты содержит только небольшую видимую полоску моркови.
‘Для некоторых объектов аннотации COCO высоко не последовательны, вероятно, из-за различных определений этих объектов, используемых исходными аннотаторами. Классификация «плюшевого мишки» как «мишки», мотоцикла как моторизованного «велосипеда» или аэропортового транспортного средства как «автомобиля» зависит от конкретных определений, что приводит к несоответствиям в аннотациях POPE. Поэтому мы аннотируем соответствующие пары изображений и вопросов как «неоднозначные».’

Результаты переаннотации: положительные вопросы общие для всех трёх вариантов POPE. Среди тех, кто был помечен «Да» в POPE, 9,3 процента были найдены неверными и 13,8 процента были классифицированы как неоднозначные. Для вопросов «Нет» 1,7 процента были неправильно помечены и 4,3 процента были неоднозначными.
Авторы оценили ряд моделей с открытыми весами на POPE и на RePOPE, на различных архитектурах и размерах моделей. Выбранные модели включали некоторые из ведущих архитектур на OpenVLM лидерборде: InternVL2.5 (8B/26B/38B/78B и 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; и PaliGemma2 (3B/10B).

Первоначальные результаты: высокий уровень ошибок в исходных положительных метках приводит к резкому снижению истинных положительных результатов во всех моделях. Ложные положительные результаты варьируются в зависимости от подмножеств, почти удваиваясь в случайном подмножестве, но оставаясь в основном неизменными в популярном подмножестве и показывая незначительное снижение в адверсарном подмножестве. Переаннотация оказывает существенное влияние на рейтинги на основе F1. Модели, такие как Ovis2-4B и Ovis2-8B, которые хорошо выполняли свою задачу на популярных и адверсарных разделах в POPE, также поднимаются на вершину в случайном подмножестве под RePOPE.. Пожалуйста, обратитесь к исходному PDF для лучшего разрешения.
Графики результатов выше иллюстрируют, как меняется количество истинных положительных и ложных положительных результатов после исправления меток в бенчмарке.
Истинные положительные результаты снизились во всех моделях, показывая, что они часто засчитывались за правильные ответы, когда эти ответы были правильными только при ошибочных метках, в то время как ложные положительные результаты следовали более разнообразному шаблону.
На «случайной» версии POPE ложные положительные результаты почти удвоились для многих моделей, указывая на то, что значительное количество объектов, помеченных как галлюцинации, на самом деле присутствовали на изображениях, но были пропущены в исходных аннотациях. В этом случае многие предполагаемые ошибки моделей на самом деле были ошибками меток набора данных.
Для «адверсарной» версии POPE, где вопросы были основаны на объектах, которые часто сосуществуют, ложные положительные результаты снизились. Это, вероятно, отражает более высокую вероятность того, что якобы отсутствующий объект на самом деле присутствовал на изображении, но был не помечен.
Хотя эти сдвиги повлияли на точность и полноту, рейтинги моделей оставались относительно стабильными для обоих метрик.
Балл F1 – основная мера оценки POPE – был намного более чувствительным к исправлениям меток. На случайном подмножестве модели, которые ранжировались gầnко к верху под исходными метками, такие как InternVL2.5-8B и -26B, упали на дно, когда оценивались с RePOPE. Другие, такие как Ovis2-4B и -8B, поднялись на вершину.
Аналогичный шаблон появился в баллах точности, хотя авторы отмечают, что эти баллы могут теперь быть смещенными, поскольку исправленный набор данных содержит неравное количество положительных и отрицательных примеров.
Авторы утверждают, что сильное влияние ошибок аннотаций на результаты бенчмарка подчеркивает необходимость высококачественных данных. Чтобы поддержать более надёжную оценку галлюцинации объектов, они выпустили исправленные метки на GitHub.
Однако они отмечают, что это переаннотирование не полностью решает проблему насыщения бенчмарка, поскольку многие модели всё ещё достигают истинных положительных и истинных отрицательных результатов выше 90%. Они предлагают, что дополнительные бенчмарки, такие как DASH-B, которые используют более сложный набор отрицательных примеров, должны использоваться вместе с RePOPE.
Заключение
Этот конкретный эксперимент был возможен благодаря очень небольшому масштабу набора данных, участвовавшего в нём. Доказательство того же гипотезы на гипермасштабных наборах данных потребовало бы работы с очень ограниченными фрагментами данных; в высоко разнообразных больших наборах данных это может оказаться почти невозможным изолировать статистически представительные и семантически связанные группировки – потенциально искажая результаты.
Даже если бы это было возможно, какое средство было бы под рукой в текущем состоянии искусства? Аргумент возвращается неизбежно к необходимости лучшей и более обильной человеческой аннотации.
В этом отношении «лучшая» и «более обильная» существуют как отдельные проблемы, поскольку можно получить большее количество аннотаций через экономику «гонки к дну», такую как Amazon Mechanical Turk (AMT). Очевидно, что эта потенциально эксплуататорская субэкономика часто приводит к худшим результатам.
Альтернативно, можно передать задачи аннотации экономическим регионам, где то же расходование средств даст большее количество аннотаций. Однако, чем дальше аннотатор находится от предполагаемого использования модели, которую его метки будут формировать, тем менее вероятно, что полученная модель будет соответствовать потребностям или ожиданиям целевой области.
Это, таким образом, остаётся одной из наиболее постоянных и нерешённых проблем в экономике разработки машинного обучения.
Опубликовано впервые в среду, 23 апреля 2025 года












