заглушки Оценка исторической достоверности ImageNet — Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Оценка исторической точности ImageNet

mm
обновленный on

Новое исследование, проведенное Google Research и Калифорнийским университетом в Беркли, дополняет давняя критика относительно зависимости исследовательского сектора компьютерного зрения (CV) от почтенного IMAGEnet набор данных и его многочисленные производные. После большого объема трудоемкой ручной оценки авторы пришли к выводу, что почти 50% предполагаемых ошибок, которые допускают лучшие модели при оценке подмножества с несколькими метками в ImageNet (где текущие наиболее эффективные модели достигают более 97% лучших результатов). 1 точность) на самом деле не являются ошибочными.

Из статьи:

«Наш анализ показывает, что почти половина предполагаемых ошибок вовсе не являются ошибками, и мы обнаруживаем новые действительные множественные метки, демонстрируя, что без тщательного анализа мы значительно недооцениваем производительность этих моделей.

«С другой стороны, мы также обнаружили, что сегодняшние лучшие модели по-прежнему допускают значительное количество ошибок (40%), которые явно неуместны для рецензентов».

Степень неправильной маркировки наборов данных, особенно неквалифицированными работниками краудсорсинга – может искажать сектор, как показал кропотливый подход исследования к оценке пар изображения/текста на большом протяжении истории ImageNet.

В верхнем ряду приведены примеры серьезности ошибок: в первых двух примерах новая модель просто неправильно получает прогнозируемую метку; в третьем примере новая модель идентифицирует ранее отсутствовавшую мульти-метку (метку, относящуюся к новой категоризации изображения); на финальном изображении в верхнем ряду предсказание модели неоднозначно, потому что на картинке пчелиная муха, а не муха. Однако средняя пчела принадлежит к отряду двукрылых насекомых, поэтому это исключение почти невозможно обнаружить даже опытному аннотатору. В строке ниже четыре категории ошибок с примерами. Источник: https://arxiv.org/pdf/2205.04596.pdf

В верхнем ряду приведены примеры серьезности ошибок: в первых двух примерах новая модель просто неправильно получает прогнозируемую метку; в третьем примере новая модель идентифицирует ранее отсутствовавшую мульти-метку (метку, относящуюся к новой категоризации изображения); на финальном изображении в верхнем ряду предсказание модели неоднозначно, потому что на картинке пчелиная муха, а не муха. Однако обычная пчела принадлежит к отряду двукрылых насекомых, поэтому это исключение почти невозможно обнаружить даже опытному аннотатору. В строке ниже четыре категории ошибок с примерами.  Источник: https://arxiv.org/pdf/2205.04596.pdf

Исследователи наняли небольшое количество преданных своему делу оценщиков для кропотливого просмотра исторических записей об ошибках в оценке набора данных ImageNet, обнаружив, что очень многие из суждений об ошибках сами по себе являются ошибочными — открытие, которое потенциально может пересмотреть некоторые плохие оценки, которые многие проекты получили на Эталонные показатели ImageNet на протяжении многих лет.

По мере того, как ImageNet укрепляется в культуре CV, исследователи утверждают, что считается, что повышение точности приводит к уменьшению отдачи, и что новые модели, которые превышают установленную точность маркировки и предполагают новые (то есть дополнительные) маркировки, могут быть наказаны, по существу, за -соответствие.

'Например,' — замечают авторы. «Должны ли мы наказывать модели за то, что они первыми предсказали, что предварительно выпеченный бублик может быть бубликом, как это делает одна из моделей, которые мы рассматриваем в этой работе?»

Судя по статье, более новая модель опровергает предыдущее предсказание о том, что объект на фотографии — это тесто, и предполагает, что на самом деле этот объект уже является рогаликом).

Судя по статье, более новая модель опровергает предыдущее предсказание о том, что объект на фотографии — это тесто, и предполагает, что на самом деле этот объект уже является рогаликом).

С точки зрения краудсорсингового работника, которому поручено идентифицировать такой объект, это семантическая и даже философская проблема, которую можно решить только с помощью множественной маркировки (как это часто происходит в более поздних подмножествах и последующих итерациях ImageNet); в приведенном выше случае объект действительно является и тестом, и, по крайней мере, зарождающимся бубликом.

Основные (вверху) и мелкие (внизу) ошибки, возникшие при тестировании пользовательских моделей в исследовании. Оригинальные этикетки ImageNet — это первые изображения слева.

Основные (вверху) и мелкие (внизу) ошибки, возникшие при тестировании пользовательских моделей в исследовании. Оригинальные этикетки ImageNet — это первые изображения слева.

Два очевидных решения — выделить больше ресурсов на маркировку (что является сложной задачей в рамках бюджетных ограничений большинства исследовательских проектов в области компьютерного зрения); и, как подчеркивают авторы, регулярно обновлять наборы данных и маркировать подмножества оценок (что, помимо других препятствий, рискует нарушить историческую преемственность эталонов «одинаково» и засорить новые исследовательские работы оговорками и оговорками относительно эквивалентности). .

В качестве шага к исправлению ситуации исследователи разработали новый поднабор данных ImageNet под названием ImageNet-Major (ImageNet-M), который они описывают как «кусок из 68 примеров «серьезных ошибок» очевидных ошибок, сделанных сегодняшними топ-моделями, — кусок, в котором модели должны достичь почти совершенства, но сегодня это далеко не так».

Ассоциация бумаги называется Когда тесто превращается в рогалик? Анализ оставшихся ошибок на ImageNetи написан четырьмя авторами из Google Research вместе с Сарой Фридович-Кейл из Калифорнийского университета в Беркли.

Технический долг

Выводы важны, потому что оставшиеся ошибки, выявленные (или неверно идентифицированные) в ImageNet за 16 лет с момента его создания, основного исследования исследования, могут отражать разницу между развертываемой моделью и моделью, которая достаточно подвержена ошибкам, чтобы она могла работать. t быть выпущенным на живых данных. Как всегда, последняя миля имеет решающее значение.

Сектор исследований в области компьютерного зрения и синтеза изображений фактически «автоматически выбрал» ImageNet в качестве эталонной метрики по ряду причин — не в последнюю очередь из-за большого количества первых последователей в то время, когда большие объемы и хорошо маркированные наборы данных были реже. чем сейчас, породили так много исследовательских инициатив, что тестирование с помощью ImageNet быстро стало единственным широко применимым историческим «стандартом» для сравнительного анализа новых фреймворков.

Способ доставки

В поисках «оставшихся ошибок» в ImageNet исследователи использовали стандартный ВиТ модель (способная достичь точности 89.5%) с 3 миллиардами параметров, Вит-3Б, предварительно обученный на ДЖФТ-3Б и настроен на Имиджнет-1К.

Посмотрите на график ImageNet2012_multilabel В наборе данных исследователи зафиксировали начальную многометочную точность (MLA) ViT-3B как 96.3%, в течение которой модель допустила 676 явных ошибок. Именно эти ошибки (а также ошибки, вызванные моделью Greedy Soups) авторы стремились исследовать.

Для оценки оставшихся 676 ошибок авторы избегали краудворкеров, отмечая, что ошибки этого типа могут быть трудный для обычных аннотаторов, но собрал группу из пяти экспертов-рецензентов и создал специальный инструмент, позволяющий каждому рецензенту с первого взгляда увидеть прогнозируемый класс; прогнозируемый счет; наземные метки истины; и само изображение.

Пользовательский интерфейс, созданный для проекта.

Пользовательский интерфейс, созданный для проекта.

В некоторых случаях для разрешения разногласий между комиссией требовались дальнейшие исследования, и в качестве дополнительного инструмента использовался поиск картинок Google.

«[В] одном интересном, но не единичном случае на изображении присутствовало предсказание такси (без явных индикаторов такси, кроме желтого цвета); мы определили прогноз как правильное такси, а не просто стандартное транспортное средство, идентифицировав ориентир мост на заднем плане, чтобы локализовать город, а последующий поиск изображений такси в этом городе дал изображения той же модели такси и дизайн номерного знака, подтверждающий действительно правильный прогноз модели».

После первоначального обзора ошибок, обнаруженных на нескольких этапах исследования, авторы сформулировали четыре новых типа ошибок: детальная ошибка, где прогнозируемый класс похож на метку истинности; мелкозернистый с вне словарного запаса (OOV), где модель идентифицирует объект, класс которого правильный, но отсутствует в ImageNet; ложная корреляция, где прогнозируемая метка читается вне контекста изображения; и непрототипный, где наземный объект истинности является благовидным примером класса, имеющего сходство с предсказанной меткой.

В некоторых случаях основная истина сама по себе не была «истинной»:

«После рассмотрения первоначальных 676 ошибок [найденных в ImageNet] мы обнаружили, что 298 были либо правильными, либо неясными, либо определили исходную истину как неверную или проблематичную».

После исчерпывающего и сложного раунда экспериментов с рядом наборов данных, подмножеств и проверочных наборов авторы обнаружили, что две изучаемые модели были фактически признаны правильными (людьми-обозревателями) за половину «ошибок», которые они допускали при использовании обычных методов. .

В статье делается вывод:

«В этой статье мы проанализировали все оставшиеся ошибки, которые модели ViT-3B и Greedy Soups совершают в наборе для проверки мультиметок ImageNet.

«В целом мы обнаружили, что: 1) когда большая высокоточная модель делает новый прогноз, не сделанный другими моделями, почти в половине случаев она оказывается правильной новой мультиметкой; 2) модели с более высокой точностью не демонстрируют очевидной закономерности в наших категориях и серьезности решаемых ими ошибок; 3) модели SOTA сегодня в значительной степени соответствуют или превосходят производительность лучшего эксперта-человека в подмножестве с несколькими метками, оцениваемыми людьми; 4) зашумленные обучающие данные и недостаточно определенные классы могут быть фактором, ограничивающим эффективное измерение улучшений в классификации изображений».

 

Впервые опубликовано 15 мая 2022 г.