Искусственный интеллект

Кар텔 влиятельных наборов данных доминирует в исследованиях машинного обучения, предполагает новое исследование

Published December 6, 2021

Updated April 28, 2026

Martin Anderson

Новая статья из Калифорнийского университета и Google Research обнаружила, что небольшое количество «эталонных» наборов данных машинного обучения, в основном из влиятельных западных учреждений, и часто из государственных организаций, все больше доминирует в секторе исследований ИИ.

Исследователи приходят к выводу, что эта тенденция «по умолчанию» к очень популярным открытым наборам данных, таким как ImageNet, вызывает ряд практических, этических и даже политических проблем.

Среди их выводов – на основе основных данных из проекта Facebook Papers With Code (PWC) – авторы утверждают, что «широко используемые наборы данных вводятся только горсткой элитных учреждений», и что эта «консолидация» увеличилась до 80% в последние годы.

‘[Мы] обнаружили, что существует растущее неравенство в использовании наборов данных во всем мире, и что более 50% всех использований наборов данных в нашей выборке из 43 140 соответствовали наборам данных, введенным двенадцатью элитными, в основном западными, учреждениями.’

Карта использования наборов данных, не специфичных для задач, за последние десять лет. Критерии включения: учреждение или компания, на долю которой приходится более 50% известных использований. Справа показан коэффициент Джини для концентрации наборов данных во времени для учреждений и наборов данных. Источник: https://arxiv.org/pdf/2112.01716.pdf

Доминирующие учреждения включают Стэнфордский университет, Microsoft, Принстон, Facebook, Google, Институт Макса Планка и AT&T. Четыре из десяти лучших источников наборов данных являются корпоративными учреждениями.

Статья также характеризует растущее использование этих элитных наборов данных как ‘средство неравенства в науке’. Это связано с тем, что исследовательские команды, стремящиеся к общественному признанию, более мотивированы добиться результатов, соответствующих современному уровню (SOTA), на постоянном наборе данных, чем генерировать оригинальные наборы данных, которые не имеют такого же статуса и требуют от коллег адаптироваться к новым метрикам вместо стандартных индексов.

В любом случае, как признает статья, создание своего собственного набора данных – это чрезвычайно дорогое занятие для менее обеспеченных учреждений и команд.

‘Прима фаце научная действительность, предоставляемая SOTA-оценкой, общепризнанно связана с социальной достоверностью, которую исследователи получают, демонстрируя, что они могут конкурировать на широко признанном наборе данных, даже если более контекстно-специфичный бенчмарк может быть технически более подходящим.

‘Мы полагаем, что эти динамики создают “Эффект Матфея” (т.е. “богатые становятся богаче, а бедные – беднее”), где успешные бенчмарки и элитные учреждения, которые их вводят, приобретают непропорциональный авторитет в области.’

Статья названа Сокращенные, повторно используемые и переработанные: жизнь набора данных в исследованиях машинного обучения, и исходит от Бернарда Коха и Джейкоба Г. Фостера из UCLA, и Эмили Дентон и Алекса Ханны из Google Research.

Работа поднимает ряд вопросов с растущей тенденцией к консолидации, которую она документирует, и была встречена с общим одобрением на Open Review. Один из рецензентов из NeurIPS 2021 прокомментировал, что работа ‘чрезвычайно актуальна для всех, кто участвует в исследованиях машинного обучения.’ и предвидит ее включение в качестве обязательного чтения в университетских курсах.

От необходимости к коррупции

Авторы отмечают, что текущая культура «победи бенчмарк» возникла как средство для устранения отсутствия объективных инструментов оценки, которое вызвало спад интереса и инвестиций в ИИ во второй раз более тридцати лет назад, после спада делового энтузиазма к новым исследованиям в «Экспертных системах»:

‘Бенчмарки обычно формализуют определенную задачу через набор данных и связанную с ним количественную метрику оценки. Эта практика была первоначально введена в [исследованиях машинного обучения] после “Зимы ИИ” 1980-х годов правительственными финансистами, которые стремились более точно оценить стоимость, полученную на грантах.’

Статья утверждает, что первоначальные преимущества этой неформальной культуры стандартизации (снижение барьеров для участия, последовательные метрики и более гибкие возможности разработки) начинают перевешиваться недостатками, которые естественным образом возникают, когда тело данных становится достаточно мощным, чтобы эффективно определять свои «условия использования» и сферу влияния.

Авторы предлагают, в соответствии с многочисленными недавними промышленными и академическими мыслями по этому вопросу, что научное сообщество больше не ставит новые проблемы, если они не могут быть решены с помощью существующих бенчмарк-наборов данных.

Они также отмечают, что слепое следование этому небольшому количеству «золотых» наборов данных побуждает исследователей добиться результатов, которые переобучены (т.е. которые специфичны для набора данных и вряд ли будут работать почти так же хорошо на реальных данных, на новых академических или оригинальных наборах данных или даже, возможно, на разных наборах данных в «золотом стандарте»).

‘Учитывая наблюдаемую высокую концентрацию исследований на небольшом количестве бенчмарк-наборов данных, мы считаем, что диверсификация форм оценки особенно важна для избежания переобучения на существующих наборах данных и неправильного представления прогресса в области.’

Влияние правительства в исследованиях компьютерного зрения

Согласно статье, исследования компьютерного зрения заметно больше подвержены синдрому, который она описывает, чем другие сектора, и авторы отмечают, что исследования обработки естественного языка (NLP) гораздо меньше подвержены этому.
Авторы предполагают, что это может быть связано с тем, что сообщества NLP «более сплочены» и больше по размеру, и что наборы данных NLP более доступны и легче курируются, а также меньше и менее требовательны к ресурсам в плане сбора данных.

В компьютерном зрении, и особенно в отношении наборов данных для распознавания лиц (FR), авторы утверждают, что корпоративные, государственные и частные интересы часто сталкиваются:

‘Корпоративные и государственные учреждения имеют цели, которые могут вступить в конфликт с правом на неприкосновенность частной жизни (например, слежка), и их взвешивание этих приоритетов, вероятно, будет отличаться от того, которое имеют академики или более широкие заинтересованные стороны ИИ.’

Для задач распознавания лиц исследователи обнаружили, что количество чисто академических наборов данных резко падает по сравнению со средним:

‘[Четыре] из восьми наборов данных (33,69% от общего количества использований) были исключительно профинансированы корпорациями, вооруженными силами США или китайским правительством (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). MS-Celeb-1M был в конечном итоге отозван из-за противоречий, связанных со значением неприкосновенности частной жизни для разных заинтересованных сторон.’

Топ-наборы данных, используемые в сообществах исследований генерации изображений и распознавания лиц.

На приведенной выше схеме, как отмечают авторы, мы также видим, что относительно недавняя область генерации изображений (или синтеза изображений) сильно зависит от существующих, гораздо более старых наборов данных, которые не были предназначены для этого использования.

Фактически, статья отмечает растущую тенденцию к «миграции» наборов данных от их предполагаемого назначения, что вызывает вопросы о их пригодности для потребностей новых или периферийных исследовательских секторов, и о том, в какой степени бюджетные ограничения могут «генерализировать» объем исследовательских амбиций в более узкую рамку, предоставляемую как доступными материалами, так и культурой, которая так увлечена годовыми бенчмарками, что новые наборы данных испытывают трудности с получением признания.

‘Наши результаты также показывают, что наборы данных регулярно передаются между различными сообществами задач. Наиболее крайнем конце большинство бенчмарк-наборов данных, обращающихся для некоторых задач, были созданы для других задач.’

Что касается известных деятелей в области машинного обучения (включая Эндрю Нга), которые все чаще призывают к большему разнообразию и курированию наборов данных в последние годы, авторы поддерживают это настроение, но считают, что такие усилия, даже если они будут успешными, потенциально могут быть подорваны текущей культурой, зависимой от SOTA-результатов и установленных наборов данных:

‘Наши исследования показывают, что простое призыв к исследователям в области машинного обучения разработать больше наборов данных и сдвигу структурных стимулов, чтобы разработка наборов данных была оценена и вознаграждена, может быть недостаточно для диверсификации использования наборов данных и перспектив, которые в конечном итоге формируют и определяют программы исследований в области машинного обучения.’

‘В дополнение к стимулированию разработки наборов данных мы выступаем за ориентированные на равенство политики вмешательства, которые отдают приоритет значительному финансированию людей в менее обеспеченных учреждениях для создания высококачественных наборов данных. Это будет диверсифицировать – с социальной и культурной точки зрения – бенчмарк-наборы данных, используемые для оценки современных методов машинного обучения.’

6 декабря 2021 г., 16:49 по Гринвичу +2 – Исправлена притяжательная форма в заголовке. – МА