Штучний Інтелект
Нове дослідження показує, що картель впливових наборів даних домінує в дослідженнях машинного навчання

Нова стаття Каліфорнійського університету та Google Research виявила, що невелика кількість «еталонних» наборів даних машинного навчання, в основному від впливових західних інституцій і часто від державних організацій, все більше домінує в дослідницькому секторі ШІ.
Дослідники дійшли висновку, що ця тенденція до «за замовчуванням» дуже популярних наборів даних з відкритим кодом, таких як IMAGEnet, викликає низку практичних, етичних і навіть політичних причин для занепокоєння.
Серед їхніх висновків – на основі основних даних проекту спільноти під керівництвом Facebook Документи з кодом (PWC) – це стверджують автори «широко використовувані набори даних запроваджені лише кількома елітними установами», і ця «консолідація» зросла до 80% за останні роки.
«[Ми] виявили, що у всьому світі зростає нерівність у використанні наборів даних і що понад 50% усіх використань наборів даних у нашій вибірці з 43,140 XNUMX відповідали наборам даних, запровадженим дванадцятьма елітними, переважно західними, установами».

Карта використання наборів даних, не пов’язаних із завданням, за останні десять років. Критеріями для включення є випадки, коли на установу чи компанію припадає понад 50% відомих видів використання. Праворуч показано Коефіцієнт Джині для концентрації наборів даних у часі як для установ, так і для наборів даних. Джерело: https://arxiv.org/pdf/2112.01716.pdf
Домінуючими установами є Стенфордський університет, Microsoft, Princeton, Facebook, Google, Інститут Макса Планка та AT&T. Чотири з десяти найбільших джерел набору даних є корпоративними установами.
Стаття також характеризує зростаюче використання цих елітних наборів даних як «засобом нерівності в науці». Це пояснюється тим, що дослідницькі групи, які шукають схвалення спільноти, більше мотивовані досягати найсучасніших (SOTA) результатів на основі узгодженого набору даних, ніж створювати оригінальні набори даних, які не мають такого статусу і вимагатимуть від колег адаптації до нових метрики замість стандартних індексів.
У будь-якому випадку, як визнається в документі, створення власного набору даних є надзвичайно дорогим заняттям для менш забезпечених ресурсами установ і команд.
'The перша фракція Наукова обґрунтованість, надана бенчмаркінгом SOTA, зазвичай змішується з соціальною довірою, яку дослідники отримують, показуючи, що вони можуть конкурувати з широко визнаним набором даних, навіть якщо більш специфічний для контексту бенчмарк може бути більш технічно прийнятним.
«Ми вважаємо, що ця динаміка створює «ефект Метью» (тобто «багаті стають багатшими, а бідні біднішими»), коли успішні еталонні показники та елітні інституції, які їх запроваджують, набувають надзвичайного значення в галузі.
Команда папір має титул Зменшення, повторне використання та переробка: життя набору даних у дослідженнях машинного навчання, і походить від Бернарда Коха та Джейкоба Г. Фостера з Каліфорнійського університету в Лос-Анджелесі та Емілі Дентон і Алекса Ханни з Google Research.
Робота порушує низку проблем із зростаючою тенденцією до консолідації, яку вона документує, і була зустрінута загальна апробація на Open Review. Один рецензент з NeurIPS 2021 прокоментував, що робота є "надзвичайно актуальне для всіх, хто займається дослідженнями машинного навчання". і передбачив його включення як обов’язкове читання в університетських курсах.
Від необхідності до корупції
Автори відзначають, що нинішня культура «побити еталонні показники» з’явилася як засіб від відсутності об’єктивних інструментів оцінки, через що інтерес та інвестиції в штучний інтелект вдруге впали. більше тридцяти років тому, після спаду ділового ентузіазму щодо нових досліджень в «Експертних системах»:
«Порівняльні показники зазвичай формалізують конкретне завдання за допомогою набору даних і пов’язаного кількісного показника оцінки. Ця практика спочатку була введена в [дослідження машинного навчання] після «зими штучного інтелекту» 1980-х років урядовими спонсорами, які прагнули точніше оцінити вартість отриманих грантів».
У документі стверджується, що початкові переваги цієї неформальної культури стандартизації (зменшення перешкод для участі, узгоджені показники та більш гнучкі можливості розвитку) починають переважуватися недоліками, які природно виникають, коли маса даних стає достатньо потужною, щоб ефективно визначати її «умови використання» та сферу впливу.
Автори припускають, відповідно до багатьох останніх галузевих і академічних думок з цього питання, що дослідницьке співтовариство більше не створює нових проблем якщо їх неможливо вирішити за допомогою існуючих контрольних наборів даних.
Крім того, вони зазначають, що сліпе дотримання цієї невеликої кількості «золотих» наборів даних заохочує дослідників досягати результатів, які переобладнаний (тобто які є специфічними для набору даних і навряд чи так добре працюватимуть на даних реального світу, на нових академічних чи оригінальних наборах даних або навіть обов’язково на інших наборах даних у «золотому стандарті»).
«Враховуючи спостережувану високу концентрацію досліджень на невеликій кількості контрольних наборів даних, ми вважаємо, що диверсифікація форм оцінювання особливо важлива, щоб уникнути надмірного використання існуючих наборів даних і невірного представлення прогресу в цій галузі».
Вплив уряду на дослідження комп’ютерного зору
Згідно з документом, дослідження комп’ютерного зору значно більше страждають від описаного синдрому, ніж інші сектори, при цьому автори відзначають, що дослідження обробки природної мови (NLP) страждають набагато менше. Автори припускають, що це може бути тому, що спільноти НЛП є такими "більш зв'язний" і більші за розміром, а також тому, що набори даних NLP є більш доступними та легшими для курування, а також менші та менш ресурсомісткі з точки зору збору даних.
Автори стверджують, що в комп’ютерному зорі, і особливо щодо наборів даних розпізнавання обличчя (FR), корпоративні, державні та приватні інтереси часто стикаються:
«Корпоративні та державні установи мають цілі, які можуть вступати в конфлікт із конфіденційністю (наприклад, стеження), і їхні пріоритети, ймовірно, відрізнятимуться від тих, які дотримуються науковці чи ширші суспільні зацікавлені сторони ШІ».
Для завдань розпізнавання облич дослідники виявили, що частота суто академічних наборів даних різко падає порівняно із середнім:
«[Чотири] з восьми наборів даних (33.69% від загального використання) фінансувалися виключно корпораціями, військовими США або урядом Китаю (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). MS-Celeb-1M зрештою було відкликано через суперечки навколо цінності конфіденційності для різних зацікавлених сторін».

Найкращі набори даних, які використовуються в дослідницьких спільнотах із створення зображень і розпізнавання облич.
На наведеному вище графіку, як зазначають автори, ми також бачимо, що відносно недавнє поле генерації зображень (або синтезу зображень) значною мірою залежить від існуючих, набагато старіших наборів даних, які не були призначені для цього використання.
Фактично, у статті спостерігається зростаюча тенденція до «міграції» наборів даних убік від їх цільового призначення, ставлячи під сумнів їх придатність для потреб нових або віддалених секторів досліджень, а також міру, до якої бюджетні обмеження можуть «узагальнювати» масштаб амбіцій дослідників у вужчі рамки, надані як наявними матеріалами, так і культурою, яка настільки захоплена річними порівняльними рейтингами, що нові набори даних важко набувають популярності.
«Наші висновки також показують, що набори даних регулярно передаються між різними спільнотами завдань. З крайнього боку, більшість контрольних наборів даних, що циркулюють для деяких спільнот завдань, були створені для інших завдань».
Щодо світил машинного навчання (включаючи Ендрю Нґ), які все частіше закликають до більшої різноманітності та контролю наборів даних в останні роки, автори підтримують цю думку, але вважають, що такі зусилля, навіть якщо вони успішні, потенційно можуть бути підірвані залежністю поточної культури від результатів SOTA та встановлених наборів даних :
«Наше дослідження показує, що простого заклику дослідників МЛ до розробки більшої кількості наборів даних і зміни структур стимулів, щоб розробка наборів даних цінувалася та винагороджувалася, може бути недостатньо для диверсифікації використання наборів даних і перспектив, які в кінцевому підсумку формують і встановлюють програму досліджень MLR.
«На додаток до стимулювання розробки наборів даних, ми виступаємо за політичні втручання, орієнтовані на справедливість, які віддають пріоритет значному фінансуванню для людей в установах з меншими ресурсами для створення високоякісних наборів даних. Це урізноманітнило б — із соціальної та культурної точки зору — контрольні набори даних, які використовуються для оцінки сучасних методів машинного навчання».
6 грудня 2021 р., 4:49 GMT+2 – виправлено присвійний характер у заголовку. – М.А