Взгляд Anderson
‘Бунтующий’ Данные, Загрязняющие Производительность Генеративных Моделей ИИ

Новое исследование показывает, что многие популярные наборы изображений, используемые для обучения моделей ИИ, содержат тестовые изображения или gần-дубликаты, позволяя моделям обманывать, запоминая ответы вместо обучения. Утечка широко распространена, но обычно не обнаруживается, незаметно увеличивая результаты и давая несправедливое преимущество моделям, обученным на веб-шкале данных.
Когда вы проходите экзамен на вождение, вам обычно не сообщают заранее, какие именно дороги будут использоваться для экзамена. Если бы вы знали (и были немного нечестными), вы могли бы “оптимизировать” экзамен, повторяя этот маршрут, вместо того, чтобы развивать более широкие навыки вождения, которые могут справиться с любым маршрутом.
В обучении моделей машинного обучения это разумный аналог тестового раздела – разделения набора данных для обучения между (обычно) 70% для данных, которые будут использоваться для обучения модели, и оставшимися 30% для “дикой” данных.
Поскольку “дикая”数据 никогда не видела модель, если модель работает хорошо на этих данных, можно предположить, что она эффективна и производительна; если нет, модель может переобучиться на хорошо сбалансированном наборе – или же данные нуждаются в дополнительной обработке и определении.
В любом случае не оценка моделей на их обучающих данных является краеугольным камнем текущего метода в исследованиях и разработке ИИ.
То же самое снова, пожалуйста
Согласно новой исследовательской работе из Японии, сектор исследований компьютерного зрения и генеративных моделей ИИ не соответствовал усилиям исследователей LLM по обеспечению того, чтобы тестовые данные не загрязняли обучающие данные; в испытаниях исследователи обнаружили, что каждый гипермасштабный визуальный набор данных, который они изучали, включая те, которые обеспечивают некоторые из самых больших текущих генеративных моделей ИИ, в какой-то степени допустил пересечение своих тестовых данных с обучающими данными – что означает, что оценки и отчеты о производительности моделей, обученных на этих разделах, не будут более точными, чем результат экзамена у человека, который пронес в аудиторию шпаргалку, и не будут отражать реальную производительность на действительно новых данных.

Примеры перекрестного загрязнения данных, обнаруженные исследователями, где дублирующие или gần-дублирующие данные присутствуют как в обучающих, так и в тестовых данных. Источник: https://arxiv.org/pdf/2508.17416
На изображении выше, из новой работы, мы видим примеры либо дублирующих, либо gần-дублирующих данных, найденных в обоих основных обучающих данных и тестовых данных различных моделей – достаточно, чтобы сделать недействительной производительность модели на этих данных и слегка увеличить ее общие результаты, создавая впечатление уровня обобщения, которого модель на самом деле не достигла.
Чтобы сделать ситуацию более сложной, загрязнение, кажется, происходит в различных сценариях, включая ‘предварительное обучение‘, где веса старых родительских моделей используются для “запуска” новой модели. Если родительская модель выше имеет некоторые из тех же данных, что и новый набор данных, который предварительно обучается, перекрестное загрязнение может произойти, даже если раздел 70/30 или 80/20 чист.
Кумулятивный Эффект
Это почти наверняка произойдет даже в самых последних наборах данных: объем визуальных и языковых наборов данных вырос огромно за последние пять лет, включая не только самые новые изображения в Интернете, но и повторно собирая большую часть тех же данных, которые населяли более старые, исторические наборы данных.
Кроме того, автоматические процедуры, предназначенные для поиска и фильтрации миллиардов изображений для дубликатов и gần-дубликатов, теперь сталкиваются с такой трудной задачей, что сама обработка – ее стоимость в терминах времени и денег – теперь должна учитываться в контексте бюджетных ограничений.
Между тем, дублирование изображений является неизбежным следствием типа ад hoc поиска в Интернете за большими коллекциями, такими как Common Crawl, из-за распространенной практики повторной публикации и перекомпрессии изображений, а также применения редактирования, такого как обрезка, и даже переворота (чтобы избежать обнаружения, когда изображение может быть использовано без разрешения, например).
Авторы отмечают*:
‘Утечка данных является широко распространенной проблемой, распространенной в большинстве визуальных наборов данных. Утечка может скрыть способность модели к обобщению, что особенно проблематично при сравнении моделей, обученных на разных наборах данных, что приводит к несправедливым сравнениям.
‘Мы призываем разработчиков наборов данных тщательно рассмотреть последствия этих оценок. Для более справедливой оценки модели мы рекомендуем использовать детекторы дубликатов, которые учитывают как жесткую, так и мягкую утечку.
‘Идеально, утечка должна быть удалена из обучающего набора, и если это невозможно, она должна быть хотя бы удалена из тестового набора.’
Работа подробно описывает ряд тестов, которые исследователи провели на больших и популярных наборах данных – каждый из которых показал некоторый уровень загрязнения.
Новая работа называется Утечка данных в визуальных наборах данных и исходит от трех исследователей Университета Осаки.
Метод
Авторы определяют утечку в терминах трех измерений: модальность, покрытие и степень.
Модальность различает, утечка ли только изображения или и изображения, и метки; покрытие определяет, происходит ли перекрестное загрязнение внутри одного и того же набора данных или между разными наборами данных; и степень определяет, является ли дублирующий контент идентичным или лишь прилегающим.
Что касается утечки, два сценария, рассмотренные в работе, являются внутренней утечкой набора данных (где оценочные изображения повторяются в обучающем разделе одного и того же набора данных), и межнаборной утечкой (где оценочные изображения из одного набора данных присутствуют в другом наборе данных, используемом для обучения).
Что касается степени, два уровня, определенные в работе, являются мягкой утечкой (где изображения не идентичны, но демонстрируют незначительные вариации), и жесткой утечкой (где изображения идентичны в обучающих и оценочных данных).
Исследователи решают проблему обнаружения утечки в терминах извлечения изображений, используя кодировщики изображений для представления каждого изображения в виде вектора особенностей. Запросный набор является оценочным данными, а коллекция является обучающим набором.
Для меньших наборов данных каждый запросовый вектор был напрямую сравнен со всеми обучающими векторами с помощью косинусной подобия. Для более крупных наборов данных был построен Faiss-индекс, чтобы обеспечить более быстрый поиск K-ближайших соседей (KNN).
Поскольку кодировщик должен захватить достаточно визуальной информации, чтобы обнаружить тонкие сходства, но все же оставаться эффективным в условиях очень больших объемов данных, авторы полагались на предварительно вычисленные CLIP-особенности, предоставленные создателями наборов данных, в случае коллекции LAION, лежащей в основе Stable Diffusion, и последующих проектов.
Авторы отмечают, что разрешение CLIP использовать его дистиллированное понимание набора данных (вместо опроса фактических файлов в масштабе) значительно ускорило процесс и обеспечило лучшую последовательность при сравнении.
Данные и Тесты
Кодировщик изображений CLIP, использованный в испытаниях для новой работы, был CLIP ViT-B/32, который был первоначально использован для фильтрации LAION. Чтобы определить, связаны ли разные изображения, был использован KNN под AutoFaiss.
Наборы данных были сгруппированы в три типа: предварительные наборы данных – большие, веб-скрейпинговые коллекции, используемые для обучения общих моделей; обучающие наборы данных – меньшие, часто аннотированные коллекции, предназначенные для прямой настройки модели; и бенчмарк-наборы данных – вручную аннотированные и используемые исключительно для оценки.
Анализ охватил двадцать разделов по семи наборам данных: Microsoft COCO был использован как обучающий и оценочный набор, включающий обучающий, проверочный, тестовый и неаннотированный разделы; Flickr30k служил исключительно в качестве бенчмарка; и коллекция Google Conceptual Captions (GCC) была рассмотрена как предварительный источник, с ее проверочной частью также использованной для оценки.
Кроме того, ImageNet был использован для обучения и бенчмаркинга, а набор данных LAION-400M был использован исключительно для предварительного обучения.
OpenImages v4 внес свой вклад в обучающие и бенчмарк-данные, а TextCaps предоставил как обучающие, так и тестовые разделы для оценки.

Примеры аннотаций изображений из набора данных Open Images от Google, рассмотренного в новой работе. Источник: https://arxiv.org/pdf/1811.00982
Чтобы оценить, насколько хорошо метод может обнаружить утечку, когда изображения были тонко изменены путем изменения размера, обрезки или других не-семантических преобразований, авторы протестировали на Flickr30k, случайно выбирая 5 000 изображений в качестве запросов и используя весь набор данных в качестве ссылочного набора.
Каждое запросное изображение было преобразовано перед кодированием (т.е. подвергалось не-семантическому изменению, такому как изменение размера или обрезка), а затем сопоставлено с наиболее похожим элементом в коллекции с помощью косинусной подобия; совпадение засчитывалось только в том случае, если исходное изображение было восстановлено в качестве лучшего результата.
Три кодировщика, сравниваемые, были ResNet-152; DINOv2 ViT-B/14; и CLIP ViT-B/32.
Четыре типа не-семантических преобразований изображений были использованы: геометрические (перевороты и вращения); обрезка (удаление 20, 50 или 100 пикселей с каждого края); пикселизация (гауссовское размытие, добавленный шум или снижение разрешения до 128 или 256 пикселей); и цвет (оттенки серого, инверсия или наложения красного, зеленого или синего).

Из дополнительного материала, примеры преобразований, примененных к данным – типичные процедуры, также используемые в предобработке данных.
Затем авторы протестировали на обнаружение утечки в извлечении изображений:

Точность обнаружения утечки на 5 000 запросных изображениях Flickr30k, подвергнутых различным не-семантическим преобразованиям.
Все три кодировщика показали идеальную производительность на не измененных изображениях, и CLIP остался надежным при обрезке, горизонтальных переворотах, шуме и изменении размера, превосходя ResNet на изменениях пикселей и цвете.
DINOv2 показал сильную устойчивость к цветовым преобразованиям (вероятно, из-за его самообучаемого дизайна, считают авторы), но был заметно слабее на геометрических редактированиях и обрезке – оба из которых являются распространенными в дублированных наборах данных.
Поскольку LAION уже включает в себя вложения CLIP, и учитывая его последовательную надежность и скорость, CLIP был выбран в качестве кодировщика по умолчанию для основного анализа.
Жесткая и Мягкая Утечка
Производительность была оценена на разных порогах косинусной подобия, чтобы различать точные и gần-дублирующие изображения (жесткая и мягкая утечка).
Порог 0,98 был выбран для определения жесткой утечки, в результате чего не было ложных положительных результатов и идеального обнаружения идентичных изображений.
Для мягкой утечки был выбран порог 0,95, что позволило получить больше gần-дубликатов, сохраняя при этом почти нулевую скорость ложных положительных результатов. Приоритет был отдан точности над полнотой, и результаты были, таким образом, консервативно оценены:

Кривые оперативной характеристики получателя были использованы для выбора жестких и мягких порогов для обнаружения утечки. Высокие показатели AUC в обоих преобразованных и не-преобразованных условиях демонстрируют, что gần-дубликаты могут быть надежно различены от несвязанных изображений, даже при минимальных изменениях.
Внутренняя Утечка Набора Данных
Внутренняя утечка набора данных была рассчитана путем определения перекрестного загрязнения изображений между обучающими и оценочными разделами внутри одного и того же набора данных. Только наборы данных с бенчмарк- и обучающими или предварительными разделами были допущены, что сузило анализ до COCO, GCC, ImageNet, OpenImages и TextCaps.
Для COCO тестовый набор был сравнен с обучающим, оценочным и неаннотированным поднаборами, а проверочный набор – с обучающим и неаннотированным поднаборами.
Самые высокие показатели внутренней утечки набора данных были обнаружены в тестовом и проверочном разделах ImageNet, где жесткая утечка достигла 1,58%, а мягкая утечка – чуть ниже 2%. GCC и COCO последовали, с COCO val2017, показавшим мягкую утечку в 3%, а его тестовые разделы варьировались между 1,35% и 1,38%. OpenImages показал низкую жесткую утечку на уровне 0,05%, но мягкая утечка превысила 1,3% в обоих тестовых и проверочных разделах. TextCaps показал самую низкую общую утечку, на уровне 0,69%, без обнаружения жесткой утечки:

Показатели внутренней утечки набора данных, показывающие долю каждого оценочного раздела, перекрывающегося с его обучающим данными.
Относительно этих результатов авторы заявляют†:
‘Эти результаты показывают, что внутренняя утечка набора данных происходит во всех проанализированных наборах данных, либо в жесткой, либо в мягкой степени.
‘Учитывая, что утечка данных может поставить под угрозу оценку модели и что наборы данных специально разработаны для этой цели, внутренняя утечка набора данных является риском, который по дизайну не должен существовать.
‘Однако мы обнаружили несколько случаев во всех наборах данных.’
Межнаборная Утечка
Чтобы измерить межнаборную утечку (где модель обучается на одном наборе данных и оценивается на другом), четыре набора данных были использованы в качестве источников обучающих данных: тренировочный GCC, тренировочный ImageNet, тренировочный OpenImages и LAION.
Эти были сопоставлены с оценочными данными, извлеченными из тестового и проверочного разделов COCO 2014, Flickr30K, TextCaps тест, тестовый и проверочный разделы OpenImages и тестовый и проверочный разделы ImageNet.
Вложения CLIP ViT-B/32 были извлечены для всех наборов данных, кроме LAION, который предоставляет свои предварительно вычисленные вложения. Однако, поскольку эти вложения немного отличаются от тех, которые генерируются с помощью официальной реализации CLIP, запросные изображения были изменены в соответствии с методом, использованным в репозитории clip-retrieval, чтобы обеспечить совместимость.
Поиск был выполнен с помощью поиска KNN, хотя масштаб LAION потребовал разделения на блоки по миллиону изображений, с каждым индексированным отдельно:

Межнаборная утечка между бенчмарк-наборами данных (столбцы) и предварительными наборами данных (строки). Слева мы видим ‘жесткую’ утечку (идентичные изображения), а справа ‘мягкую’ утечку (гần-дубликаты).
Перекрестное загрязнение наборов данных было обнаружено во всех бенчмарк-наборах данных, с различной степенью тяжести. LAION показал самые высокие показатели жесткой утечки (идентичные изображения), особенно для OpenImages и TextCaps тестовых данных, каждый из которых превысил 3%. OpenImages также внес небольшой вклад в жесткую утечку в COCO.
Хотя менее серьезно, ImageNet все еще содержал жесткие дубликаты из каждого бенчмарка, рассмотренного; и GCC показал самую низкую общую жесткую утечку, оставаясь ниже 1%.
Мягкая утечка (гần-дубликаты) была более распространенной: LAION снова произвел самые высокие показатели, с до 7,9% перекрытия для определенных бенчмарков; OpenImages и TextCaps были наиболее пострадавшими бенчмарками; и Flickr30k показал наименьшее перекрестное загрязнение.
Хотя такие перекрытия могут составлять только небольшую часть оценочных наборов, авторы отмечают, что их присутствие может позволить запоминанию и поставить под угрозу действительность теста:

Примеры утечек. Слева – случаи ‘жесткой’ утечки, где изображения идентичны внутри набора данных (вверху) или между наборами данных (внизу); справа – случаи ‘мягкой’ утечки, где изображения визуально gần-дентичны.
Влияние на Нижестоящую Оценку
Работа затем рассматривает, как утечка данных влияет на нижестоящие оценки (т.е. производительность на стандартных задачах, когда предварительно обученные модели тестируются на бенчмарках, содержащих дублированные обучающие данные).
Три задачи были рассмотрены: классификация без выстрела; классификация с учителем; и извлечение изображения-текста.
Для каждой задачи производительность модели была оценена на бенчмарк-наборе данных, для которого уже были обнаружены утечные образцы в предварительном обучающем наборе данных. Результаты были сравнены по четырем подмножествам: полному бенчмарку; подмножеству утечных образцов; подмножеству неутечных образцов; и случайно выбранному подмножеству того же размера, что и утечная группа (использованному в качестве контроля).
Влияние утечки данных на три нижестоящие задачи было измерено с помощью бенчмарк-подмножеств, известных как содержащие утечные изображения. В классификации без выстрела предварительно обученная на LAION модель достигла заметно более высокой точности на утечных изображениях из набора данных ImageNet, подтверждая, что воздействие даже на gần-дубликаты во время обучения обеспечивает измеримое преимущество:

Точность классификация без выстрела на наборе данных ImageNet по подмножествам с и без утечки. Последний столбец сообщает о приросте точности относительно полного набора, и выделенные строки соответствуют утечным подмножествам.
Для классификации с учителем утечка в ImageNet вызвала резкое снижение производительности – если только утечное изображение не имело одинаковый ярлык в обоих разделах, в этом случае модель достигла почти идеальной точности, показывая сильный эффект запоминания:

Точность классификации с учителем на наборе данных ImageNet для подмножеств с и без утечки. Столбцы ‘прирост’ показывают изменение относительно полного набора. Утечные подмножества выделены.
В извлечении изображения-текста производительность снова улучшилась для утечных образцов, с как жесткой, так и мягкой утечкой, приводящей к более высокой отзывчивости, и с утечными подмножествами, также показывающими более последовательные результаты на разных запусках:

Производительность извлечения изображения-текста на Flickr30k по подмножествам с и без утечки, с утечными подмножествами, выделенными.
Авторы заключают:
‘В целом, мы [показываем] последовательные доказательства того, что утечка представляет серьезную угрозу для справедливой оценки модели в визуальных наборах данных, ставя под угрозу одно из самых фундаментальных принципов машинного обучения: не оценивать модели на их обучающих данных.’
Вывод
Одним из шокирующих аспектов работы является отчет о необходимости использования CLIP для получения вложений для огромного массива изображений в LAION, представляющего собой масштаб, который больше не может быть решен каким-либо другим способом, кроме агрегатного, с использованием токенизированных метаданных вместо более подробных характеристик, которые могут быть осмотрены, когда набор данных более управляем.
Это яркая иллюстрация того, насколько обучение моделей компьютерного зрения и генеративных моделей ИИ превзошло пределы и возможности человеческого надзора или любого рода ручной обработки за пределами представительных подвыборок.
* Возможно, несколько запутанно, проблема дублирования определяется в работе как ‘утечка’.
† Акцент авторов.
Опубликовано впервые во вторник, 26 августа 2025 года












