Вештачка интелигенција

Проценка на историската точност на ImageNet

Ажурирани on Декември 9, 2022

Една нова студија од Google Research и UC Berkeley додава кон долгогодишна критика во врска со потпирањето на секторот за истражување на компјутерска визија (CV) на преподобниот IMAGEnet база на податоци и многу негови деривати. По многу трудоинтензивна рачна евалуација, авторите заклучуваат дека речиси 50% од наводните грешки што ги прават најдобрите модели при евалуацијата на подмножеството со повеќе етикети на ImageNet (каде што сегашните модели со врвни перформанси постигнуваат повеќе од 97% врвни 1 точност) всушност не се во грешка.

Од хартија:

„Нашата анализа открива дека речиси половина од наводните грешки воопшто не се грешки, а ние откриваме нови валидни мулти-етикети, што покажува дека, без внимателно разгледување, значително ги потценуваме перформансите на овие модели.

„Од друга страна, ние исто така откриваме дека најдобрите модели на денешницата сè уште прават значителен број грешки (40%) кои очигледно се погрешни за луѓето што ги оценуваат.

Степенот до кој погрешното означување на збирките на податоци – особено од неквалификувани работници на crowdsource – можеби го искривува секторот, беше откриено со макотрпниот пристап на студијата за евалуација на спарувањата слика/текст низ голем дел од историјата на ImageNet.

Во горниот ред, примери за сериозност на грешки: во првите два примери овде, новиот модел едноставно ја погреши предвидената ознака; во третиот пример, новиот модел идентификува мулти-етикета што претходно недостасуваше (етикета што се однесува на нова категоризација на сликата); на последната слика во горниот ред, предвидувањето на моделот е двосмислено, бидејќи сликата е мува, а не мува. Сепак, просечната пчела припаѓа на редот на инсекти Diptera, и затоа овој исклучок би бил речиси невозможно да се забележи, дури и за стручен прибележувач. Во редот подолу се четири категории на грешки, со примери. Извор: https://arxiv.org/pdf/2205.04596.pdf

Истражувачите вработија мал број посветени оценувачи за макотрпно да ги прегледаат историските записи за грешки во евалуацијата на базата на ImageNet, откривајќи дека голем дел од пресудите за грешки самите се во грешка - откритие што потенцијално ревидира некои од лошите резултати што многу проекти ги добиле на ImageNet репери низ годините.

Како што ImageNet се вградува во културата на CV, истражувачите тврдат дека се смета дека подобрувањата во точноста даваат сè помал принос и дека новите модели кои ја надминуваат утврдената точност на етикетите и кои сугерираат нови (т.е. дополнителни) етикети може да бидат казнети, во суштина, за не -сообразност.

'На пример,' набљудуваат авторите. „Дали треба да ги казнуваме моделите затоа што први предвидуваат дека претходно печениот ѓеврек може да биде ѓеврек, како што прави еден од моделите што ги разгледуваме во оваа работа?

Од трудот, поновиот модел ги пркоси претходните предвидувања дека предметот на фотографијата е тесто и сугерира дека предметот всушност е веќе ѓеврек).

Од гледна точка на работник со crowdsource, кој има задача да идентификува таков објект, ова е семантичка, па дури и филозофска дилема што може да се реши само со повеќе етикетирање (како што често се случува во подоцнежните подмножества и последователните повторувања на ImageNet); во горенаведениот случај, предметот е навистина и тесто и барем ѓеврек што зародиш.

Големи (горе) и помали (подолу) грешки што се појавија при тестирање на сопствени модели во истражувањето. Оригиналните етикети ImageNet се првите слики лево.

Двете очигледни решенија се да се доделат повеќе ресурси за етикетирање (што е предизвик, во рамките на буџетските ограничувања на повеќето истражувачки проекти за компјутерска визија); и, како што нагласуваат авторите, редовно да се ажурираат збирките на податоци и подмножествата за евалуација на етикети (кои, меѓу другите пречки, ризикуваат да се прекине историскиот континуитет на одредниците „како за слично“ и да се преполнат новите истражувачки трудови со квалификации и одрекувања во врска со еквивалентноста) .

Како чекор за поправање на ситуацијата, истражувачите развија нова под-податоци на ImageNet наречена ImageNet-Мајор (ImageNet-M), што тие го опишуваат како „Парче „голема грешка“ од 68 примери на очигледните грешки што ги прават денешните врвни модели - парче каде моделите треба да постигнат скоро совршенство, но денес се далеку од тоа.

на хартија е насловен Кога тестото станува ѓеврек? Анализирање на преостанатите грешки на ImageNet, и е напишана од четворица автори од Google Research, заедно со Сара Фридович-Кејл од UC Berkeley.

Технички долг

Наодите се важни затоа што преостанатите грешки идентификувани (или погрешно идентификувани) во ImageNet, во 16-те години од неговото основање, централната студија на истражувањето, може да ја претставуваат разликата помеѓу моделот што може да се распореди и оној што е доволно склон кон грешки што може. да не бидат пуштени на податоци во живо. Како и секогаш, на последната милја е критична.

Истражувачкиот сектор за компјутерска визија и синтеза на слики ефективно го „автоматски селектираше“ ImageNet како репер метрика, од повеќе причини - не само поради големиот број на рани корисници, во време кога големиот обем и добро означените сетови на податоци беа поретки отколку што се сега, создадоа толку многу истражувачки иницијативи што тестирањето против ImageNet брзо стана единствениот широко применлив историски „стандард“ за мерење на нови рамки.

Метод

Барајќи ги „преостанатите грешки“ во ImageNet, истражувачите користеа стандард ViT модел (способен да постигне точност од 89.5%) со 3 милијарди параметри, Вит-3Б, претходно обучени на JFT-3B и фино подесени ImageNet-1K.

Користење на ImageNet2012_multilabel базата на податоци, истражувачите ја забележале почетната прецизност со повеќе етикети (MLA) на ViT-3B како 96.3%, при што моделот направил 676 очигледни грешки. Токму овие грешки (и исто така грешки произведени од моделот на Greedy Soups) авторите се обидоа да ги истражат.

За да ги проценат преостанатите 676 грешки, авторите ги избегнаа работниците на толпата, забележувајќи дека грешките од овој тип може да бидат тешко за да можат да забележат просечни прибележувачи, но собраа панел од пет стручни рецензенти и создадоа посветена алатка за да му овозможи на секој рецензент на прв поглед да ја види предвидената класа; предвидениот резултат; етикетите на основната вистина; и самата слика.

UI изграден за проектот.

Во некои случаи, беше неопходно дополнително истражување за да се решат споровите меѓу панелот, а пребарувањето на слики на Google се користеше како дополнителна алатка.

„[Во] еден интересен, но не изолиран случај, на сликата беше присутно предвидување на такси кабина (без очигледни индикатори за такси кабината надвор од жолтата боја); го утврдивме предвидувањето дека е правилно такси кабина, а не само стандардно возило со идентификување на значаен мост во позадина со цел да се локализира градот, а последователното пребарување на слики за такси во тој град ги даде сликите на истиот модел на такси и дизајн на регистарска табличка, потврдувајќи го всушност точното предвидување на моделот.'

По првичниот преглед на грешките пронајдени во неколку фази од истражувањето, авторите формулираа четири нови типови грешки: ситно-грануларна грешка, каде што предвидената класа е слична на ознака за основана вистина; ситно-грануларен со вокабулар (ООВ), каде што моделот идентификува објект чија класа е точна, но не е присутна во ImageNet; лажна корелација, каде што предвидената ознака се чита надвор од контекстот на сликата; и непрототипни, каде што објектот на основната вистина е просечен пример за класата што има сличност со предвидената ознака.

Во одредени случаи, основната вистина сама по себе не беше „вистинита“:

„По прегледот на оригиналните 676 грешки [пронајдени во ImageNet], откривме дека 298 биле или точни или нејасни, или ја утврдивме оригиналната основна вистина неточна или проблематична.

По исцрпна и сложена рунда експерименти низ низа збирки на податоци, подмножества и множества за валидација, авторите открија дека двата модели што се испитуваат всушност биле оценети како точни (од човечките рецензенти) за половина од „грешките“ што ги направиле според конвенционалните техники. .

Весникот заклучува:

„Во овој труд, ја анализиравме секоја преостаната грешка што ја прават моделите ViT-3B и Greedy Soups во сетот за валидација со повеќе етикети ImageNet.

„Генерално, откривме дека: 1) кога голем модел со висока прецизност прави ново предвидување кое не е направено од други модели, тој завршува како точен нов мулти-етикета речиси половина од времето; 2) моделите со поголема точност не покажуваат очигледна шема во нашите категории и сериозноста на грешките што ги решаваат; 3) SOTA моделите денес во голема мера ги совпаѓаат или ги надминуваат перформансите на најдобриот експерт човек на подмножеството со повеќе етикети оценети од човекот; 4) бучните податоци за обука и недоволно одредени класи може да бидат фактор што го ограничува ефективно мерење на подобрувањата во класификацијата на сликите.'

Прво објавено на 15 мај 2022 година.

Поврзани теми:Компјутерска визија Избрана истражување

Следно

NeRF: Предизвикот за уредување на содржината на полињата со невронски зрачење

Не ја пропуштајте

Истражувачите напојуваат микропроцесор со алги, светлина и вода

Мартин Андерсон

Писател за машинско учење, вештачка интелигенција и големи податоци.
Лична страница: martinanderson.ai
Контакт: [заштитена по е-пошта]
Твитер: @manders_ai