Штучний інтелект

Оцінка історичної точності ImageNet

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

Нове дослідження від Google Research і UC Berkeley додає до тривалої критики щодо залежності сектора досліджень комп’ютерного зору (CV) від відомої бази даних ImageNet і її численних похідних. Після великої кількості ручної оцінки, проведеної в умовах великої праці, автори висновують, що майже 50% помилок, які найкращі моделі роблять на багатозначній підмножині оцінки ImageNet (де поточні найкращі моделі досягли більш ніж 97% точності), насправді не є помилками.

Від початку роботи:

‘Наш аналіз показує, що майже половина передбачуваних помилок насправді не є помилками, і ми відкрили нові дійсні багатозначні мітки, демонструючи, що без ретельного огляду ми суттєво недооцінюємо продуктивність цих моделей.

‘З іншого боку, ми також виявили, що найкращі моделі сьогодні все ще роблять значну кількість помилок (40%), які є очевидними для людських рецензентів.’

Ступінь, у якій неправильна маркування наборів даних – особливо не кваліфікованими робітниками-кровдсорсерами – може викривлювати сектор, був відкритий завдяки ретельному підходу до оцінки пар зображень/тексту по великій частині історії ImageNet.

У верхньому рядку приклади тяжкості помилок: у перших двох прикладах тут нова модель просто помилково передбачає мітку; у третьому прикладі нова модель визначає раніше відсутню багатозначну мітку (мітку, яка адресує нову категоризацію зображення); у останньому зображенні у верхньому рядку передбачення моделі є двозначним, оскільки зображення є бджоло-мухою, а не мухою. Однак середня бджола належить до ряду комах Diptera, тому це виняток було б майже неможливо помітити, навіть для експертного анотатора. У рядку нижче чотири категорії помилок з прикладами. Джерело: https://arxiv.org/pdf/2205.04596.pdf

Дослідники використали невелику кількість присвячених оцінювачів для ретельного перегляду історичних записів помилок у наборі даних ImageNet, виявивши, що багато з цих суджень про помилки є самі по собі помилковими – відкриття, яке потенційно переглядає деякі погані оцінки, які багато проєктів отримали на бенчмарках ImageNet за роки.

Як ImageNet укорінюється у культурі CV, дослідники стверджують, що покращення точності вважаються такими, що дають зменшення доходів, і що нові моделі, які перевершують встановлену точність міток і які пропонують нові (тобто додаткові) мітки, можуть бути покарані, по суті, за невідповідність.

‘Наприклад,’ відзначають автори. ‘Чи повинні ми карати моделі за те, що вони перші передбачили, що попередньо запечена булочка може бути булочкою, як одна з моделей, яку ми розглядаємо в цій роботі?’

З роботи, новіша модель суперечить попередньому передбаченню, що об’єкт на фото є тістом, і пропонує, що об’єкт насправді вже є булочкою).

З точки зору робітника-кровдсорсера, якому доручено ідентифікувати такий об’єкт, це є семантичною та навіть філософською дилемою, яку можна вирішити лише багатомітковим маркуванням (як часто відбувається у пізніших підмножинах та наступних ітераціях ImageNet).

Помилки великого (вище) і малого (нижче) масштабу, які виникли під час тестування спеціальних моделей у дослідженні. Оригінальні мітки ImageNet є першими зображеннями зліва.

Два очевидні рішення полягають у тому, щоб призначити більше ресурсів для маркування (що є викликом у рамках бюджетних обмежень більшості проєктів досліджень комп’ютерного зору); і, як підкреслюють автори, регулярно оновлювати набори даних і підмножини оцінки міток (що, серед інших перешкод, ризикує порушити історичну безперервність бенчмарків і засмічити нові дослідження паперами з кваліфікаціями та застереженнями щодо еквівалентності).

Як крок до виправлення ситуації, дослідники створили нову підмножину ImageNet під назвою ImageNet-Major (ImageNet-M), яку вони описують як ’68-приклад “помилка великого масштабу” з очевидних помилок, зроблених сьогодні найкращими моделями – скиб, де моделі повинні досягти майже досконалості, але сьогодні ще далекі від цього.’

Папера папера називається Коли тісто стає булочкою? Аналіз помилок, які залишаються на ImageNet, і написана чотирма авторами від Google Research, разом з Сарою Фрідович-Кейл з UC Berkeley.

Технічний борг

Виявлення мають важливе значення, оскільки залишені помилки, визначені (або неправильно визначені) в ImageNet, за 16 років з моменту його створення, можуть представляти різницю між моделлю, яку можна розгорнути, і тією, яка достатньо помилкова, щоб її не можна було випустити на живих даних. Як завжди, остання миля є критичною.

Сектор досліджень комп’ютерного зору та синтезу зображень фактично “автовибрав” ImageNet як метрику бенчмарка, з кількох причин — не в останню чергу тому, що ранні приймачі, на момент, коли високовтомні та добре промарковані набори даних були рідшими, ніж зараз, створили багато ініціатив досліджень, які швидко стали єдиною широко застосовуваною історичною “стандартом” для бенчмаркінгу нових фреймворків.

Метод

Шукаючи “залишені помилки” в ImageNet, дослідники використали стандартну ViT-модель (здатну досягти точності 89,5%) з 3 млрд параметрів, Vit-3B, попередньо навчену на JFT-3B і донастроювану на ImageNet-1K.

Використовуючи ImageNet2012_multilabel-набір даних, дослідники записали початкову багатозначну точність (MLA) ViT-3B як 96,3%, під час якої модель зробила 676 передбачуваних помилок. Саме ці помилки (та помилки, вироблені моделлю Greedy Soups) автори намагалися дослідити.

Для оцінки залишених 676 помилок автори уникли робітників-кровдсорсерів, спостерігаючи, що помилки такого типу можуть бути важкими для середніх анотаторів виявити, але зібрали панель з п’яти експертних рецензентів і створили спеціальний інструмент, щоб кожен рецензент міг побачити на одному погляд передбачувану клас, передбачувану оцінку, фактичні мітки та зображення.

Інтерфейс, створений для проєкту.

У деяких випадках подальші дослідження були необхідні для вирішення суперечок серед панелі, і пошук Google Image використовувався як допоміжний інструмент.

‘[У] одному цікавому, але не ізольованому випадку, передбачення таксі (без очевидних індикаторів таксі, окрім жовтого кольору) було присутнє на зображенні; ми визначили передбачення як正确не таксі, а не просто стандартний транспортний засіб, ідентифікуючи орієнтир-міст у фоні, щоб локалізувати місто, і подальший пошук зображень таксі в цьому місті дав зображення того ж таксі-моделі та дизайну номерного знака, підтверджуючи фактично правильне передбачення моделі.’

Після початкового огляду помилок, виявлених протягом кількох фаз дослідження, автори сформулювали чотири нові типи помилок: тонка помилка, де передбачувана клас подібна до фактичної мітки; тонка з поза словником (OOV), де модель ідентифікує об’єкт, чиї клас правильний, але не присутній у ImageNet; спурійна кореляція, де передбачувана мітка читає поза контекстом зображення; і не-прототипна, де фактичний об’єкт є спurious прикладом класу, який нагадує передбачувану мітку.

У певних випадках фактичні дані не були самі по собі “правильними”:

‘Після перегляду оригінальних 676 помилок [виявлених у ImageNet], ми виявили, що 298 були або правильними, або нечіткими, або визначили оригінальну фактичну мітку неправильною або проблематичною.’

Після вичерпного та складного раунду експериментів по різних наборах даних, підмножинам та валідаційним наборам автори виявили, що дві моделі, які вивчаються, насправді були визнані правильними (люди-рецензенти) для половини “помилок”, які вони робили за традиційними техніками.

Папера закінчується:

‘У цій роботі ми проаналізували кожну залишену помилку, яку моделі ViT-3B і Greedy Soups роблять на багатозначній валідаційній підмножині ImageNet.

‘Загалом, ми виявили, що: 1) коли велика, високоточна модель робить нове передбачення, яке не роблять інші моделі, воно виявляється правильною новою багатозначною майже половину часу; 2) моделі з вищою точністю не демонструють очевидної закономірності у наших категоріях та тяжкості помилок, які вони вирішують; 3) найкращі моделі сьогодні в основному відповідають або перевершують продуктивність найкращого експертного людини на людсько-оціненої багатозначної підмножини; 4) шумові тренувальні дані та недооцінені класи можуть бути фактором, який обмежує ефективне вимірювання покращень у класифікації зображень.’

Перша публікація 15 травня 2022 року.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Unite.AI

Оцінка історичної точності ImageNet

Технічний борг

Метод

You may like