кочан Оценка на историческата точност на ImageNet - Unite.AI
Свържете се с нас

Изкуствен интелект

Оценка на историческата точност на ImageNet

mm
Обновено on

Ново проучване от Google Research и UC Berkeley допълва дългогодишна критика по отношение на разчитането на изследователския сектор на компютърното зрение (CV) на почтения ImageNet набор от данни и многото му производни. След много трудоемка ръчна оценка, авторите заключават, че почти 50% от предполагаемите грешки, които най-добрите модели допускат при оценката на подмножество с множество етикети на ImageNet (където настоящите модели с най-висока производителност постигат повече от 97% най-добри 1 точност) всъщност не са грешка.

От вестника:

„Нашият анализ разкрива, че почти половината от предполагаемите грешки изобщо не са грешки и ние откриваме нови валидни мулти-етикети, демонстрирайки, че без внимателен преглед значително подценяваме ефективността на тези модели.

„От друга страна, ние също откриваме, че днешните най-добри модели все още правят значителен брой грешки (40%), които очевидно са грешни за рецензентите.“

Степента, до която неправилното етикетиране на набори от данни - особено от неквалифицирани краудсорсинг работници – може да изкриви сектора, беше разкрито от старателния подход на изследването за оценка на двойките изображение/текст в голяма част от историята на ImageNet.

В най-горния ред, примери за сериозност на грешката: в първите два примера тук новият модел просто получава грешно прогнозирания етикет; в третия пример новият модел идентифицира липсващ преди това мулти-етикет (етикет, който се отнася до нова категоризация на изображението); в последното изображение в горния ред прогнозата на модела е двусмислена, тъй като снимката е пчелна муха, а не муха. Обаче средната пчела принадлежи към разред насекоми Diptera и така това изключение би било почти невъзможно да се забележи, дори за експертен анотатор. В реда по-долу има четири категории грешки с примери. Източник: https://arxiv.org/pdf/2205.04596.pdf

В най-горния ред, примери за сериозност на грешката: в първите два примера тук новият модел просто получава грешно прогнозирания етикет; в третия пример новият модел идентифицира липсващ преди това мулти-етикет (етикет, който се отнася до нова категоризация на изображението); в последното изображение в горния ред прогнозата на модела е двусмислена, тъй като снимката е пчелна муха, а не муха. Обаче средната пчела принадлежи към разред насекоми Diptera и така това изключение би било почти невъзможно да се забележи, дори за експертен анотатор. В реда по-долу има четири категории грешки с примери.  Източник: https://arxiv.org/pdf/2205.04596.pdf

Изследователите са наели малък брой специализирани оценители, за да прегледат старателно записите за исторически грешки в оценката на набора от данни на ImageNet, откривайки, че голяма част от преценките за грешки сами по себе си са погрешни – откритие, което потенциално преразглежда някои от лошите оценки, получени от много проекти ImageNet бенчмаркове през годините.

С навлизането на ImageNet в CV културата, изследователите твърдят, че се смята, че подобренията в точността водят до намаляваща възвръщаемост и че новите модели, които надхвърлят установената точност на етикетите и които предполагат нови (т.е. допълнителни) етикети, може да бъдат наказвани по същество за не - съответствие.

'Например,' отбелязват авторите. „трябва ли да санкционираме моделите за това, че са първите, които са предвидили, че предварително изпечената франзела може да е франзела, както прави един от моделите, които разглеждаме в тази работа?“

От хартията по-нов модел се противопоставя на предишната прогноза, че обектът на снимката е тесто, и предполага, че обектът всъщност вече е геврек).

От хартията по-нов модел се противопоставя на предишната прогноза, че обектът на снимката е тесто, и предполага, че обектът всъщност вече е геврек).

От гледна точка на краудсорсинг работник, натоварен с идентифицирането на такъв обект, това е семантично и дори философско затруднение, което може да бъде решено само чрез мулти-етикетиране (както често се случва в по-късните подмножества и следващите итерации на ImageNet); в горния случай обектът наистина е както тесто, така и най-малкото зараждаща се франзела.

Основни (по-горе) и незначителни (по-долу) грешки, възникнали при тестване на потребителски модели в изследването. Оригиналните ImageNet етикети са първите изображения вляво.

Основни (по-горе) и незначителни (по-долу) грешки, възникнали при тестване на потребителски модели в изследването. Оригиналните ImageNet етикети са първите изображения вляво.

Двете очевидни решения са да се отделят повече ресурси за етикетиране (което е предизвикателство в рамките на бюджетните ограничения на повечето изследователски проекти за компютърно зрение); и, както подчертават авторите, редовно да се актуализират набори от данни и подгрупи за оценка на етикети (което, наред с други препятствия, рискува да наруши историческата приемственост на бенчмарковете „подобно за подобно“ и да затрупа нови научни статии с квалификации и откази от отговорност по отношение на еквивалентността) .

Като стъпка към коригиране на ситуацията, изследователите са разработили нов поднабор от данни на ImageNet, наречен ImageNet-Major (ImageNet-M), което те описват като 'изрезка от 68 примера за „основна грешка“ от очевидните грешки, допуснати от днешните топмодели – част, в която моделите трябва да постигнат почти съвършенство, но днес далеч не го правят.“

- хартия е озаглавен Кога тестото става на франзела? Анализиране на оставащите грешки в ImageNet, и е написан от четирима автори от Google Research, заедно със Сара Фридович-Кейл от Калифорнийския университет в Бъркли.

Технически дълг

Констатациите са важни, тъй като останалите грешки, идентифицирани (или погрешно идентифицирани) в ImageNet, през 16-те години от създаването му, централното изследване на изследването, могат да представляват разликата между разгръщаем модел и такъв, който е достатъчно податлив на грешки, че може да не се пускат в реално време. Както винаги, последната миля е критична.

Изследователският сектор за компютърно зрение и синтез на изображения ефективно „автоматично е избрал“ ImageNet като бенчмарк метрика поради редица причини – не на последно място поради обрива на ранните осиновители, във време, когато масивите с голям обем и добре обозначени данни бяха по-редки отколкото са сега, създадоха толкова много изследователски инициативи, че тестването срещу ImageNet бързо се превърна в единствения широко приложим исторически „стандарт“ за сравняване на нови рамки.

Начин на доставка

Търсейки „оставащите грешки“ в ImageNet, изследователите използваха стандарт ВиТ модел (с възможност за постигане на точност от 89.5%) с 3 милиарда параметъра, Вит-3В, предварително обучен на JFT-3B и фино настроен ImageNet-1K.

Използване на ImageNet2012_multilabel набор от данни, изследователите записаха първоначалната точност на множество етикети (MLA) на ViT-3B като 96.3%, по време на които моделът направи 676 очевидни грешки. Именно тези грешки (а също и грешки, произведени от модел на Greedy Soups) авторите се опитаха да разследват.

За да оценят останалите 676 грешки, авторите избягват краудработърите, като отбелязват, че грешки от този тип могат да бъдат труден за средни анотатори, които да забелязват, но събра група от пет експертни рецензенти и създаде специален инструмент, който позволява на всеки рецензент да види с един поглед прогнозирания клас; прогнозираният резултат; основните етикети на истината; и самото изображение.

Потребителският интерфейс, създаден за проекта.

Потребителският интерфейс, създаден за проекта.

В някои случаи бяха необходими допълнителни изследвания за разрешаване на спорове между панела и търсенето на изображения в Google беше използвано като допълнителен инструмент.

„[В] един интересен, но не изолиран случай, в изображението присъства предсказание за таксиметрова кабина (без очевидни индикатори за таксиметрова кабина освен жълтия цвят); ние определихме, че прогнозата е правилно таксиметрова кабина, а не просто стандартно превозно средство, като идентифицирахме забележителен мост на заден план, за да локализираме града, и последващо търсене на изображения за таксита в този град даде изображения на същия модел такси и дизайн на регистрационния номер, валидиращ действително правилната прогноза на модела.

След първоначален преглед на грешките, открити през няколко фази на изследването, авторите формулираха четири нови вида грешки: фина грешка, където предвиденият клас е подобен на етикет за основна истина; дребнозърнест с извън речника (OOV), където моделът идентифицира обект, чийто клас е правилен, но не присъства в ImageNet; фалшива корелация, където предвиденият етикет се чете извън контекста на изображението; и непрототипни, където основният обект на истината е очевиден пример за класа, който прилича на предвидения етикет.

В определени случаи основната истина сама по себе си не е „вярна“:

„След преглед на оригиналните 676 грешки [намерени в ImageNet], открихме, че 298 са или правилни, или неясни, или определихме първоначалната основна истина като неправилна или проблематична.“

След изчерпателен и сложен кръг от експерименти в набор от набори от данни, подмножества и набори за валидиране, авторите откриха, че двата изследвани модела всъщност се считат за правилни (от рецензентите) за половината от „грешките“, които са направили при конвенционалните техники .

Документът заключава:

„В тази статия анализирахме всяка оставаща грешка, която моделите ViT-3B и Greedy Soups правят в набора за валидиране на множество етикети на ImageNet.

„Като цяло открихме, че: 1) когато голям, високоточен модел прави нова прогноза, която не е направена от други модели, в крайна сметка това е правилен нов мулти-етикет почти половината от времето; 2) моделите с по-висока точност не демонстрират очевиден модел в нашите категории и сериозността на грешките, които разрешават; 3) SOTA моделите днес до голяма степен съвпадат или надминават представянето на най-добрия експертен човек в оцененото от хора подмножество с множество етикети; 4) шумните данни за обучение и недостатъчно определените класове могат да бъдат фактор, ограничаващ ефективното измерване на подобренията в класификацията на изображението.“

 

Първо публикувано на 15 май 2022 г.