заглушки Чрезмерная интерпретация может представлять большую и более неразрешимую угрозу, чем переобучение - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Чрезмерная интерпретация может представлять большую и более неразрешимую угрозу, чем переобучение

mm
обновленный on

Если ваша хорошая подруга Алиса любит носить желтые свитера, вы увидите гораздо больше желтых свитеров, чем средний человек. Через некоторое время, возможно, когда вы увидите различный женщина в желтом свитере, основная концепция Алиса придет на ум.

Если вы видите женщину в желтом свитере, которая походит Алиса немного, вы можете даже на мгновение принять ее за свою подругу.

Но это не Алиса. В конце концов, ты поймешь, что желтый свитер не является полезным ключом для идентификации Алисы, так как она никогда не носит их летом и не всегда носит их зимой. Какой-то путь к дружбе, вы начнете понижать рейтинг желтый свитер как возможный Алиса идентификатор, потому что ваш опыт его использования был неудовлетворительным, и когнитивная энергия, затраченная на поддержание этого кратчайший путь не часто вознаграждается.

Однако если вы используете систему распознавания на основе компьютерного зрения, вполне возможно, что вы увидите Алису везде, где видите желтый свитер.

Это не твоя вина; вам было поручено идентифицировать Алису любой ценой, исходя из минимума доступной информации, и у вас нет недостатка в когнитивных ресурсах, чтобы поддерживать это упрощающее Алиса детская кроватка.

сверхъестественное различение

Согласно недавней статье Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и Amazon Web Services, этот синдром, получивший название чрезмерное толкованиешироко распространен в области исследований в области компьютерного зрения (CV); нельзя смягчить путем устранения переобучения (поскольку это не является прямым дополнением к переоснащению); обычно проявляется в исследованиях, в которых используются два наиболее влиятельных набора данных для распознавания и преобразования изображений, СИФАР-10 и IMAGEnet; и не имеет легких средств - определенно нет дешево средства защиты.

Исследователи обнаружили, что при сокращении входных обучающих изображений до 5% их связного содержания широкий спектр популярных фреймворков продолжал правильно классифицировать изображения, которые в большинстве случаев кажутся любому наблюдателю визуальной «тарабарщиной»:

Оригинальные тренировочные изображения из CIFAR-10, уменьшенные до 5% от исходного содержания пикселей, но правильно классифицированные рядом популярных платформ компьютерного зрения с точностью от 90 до 99%. Источник: https://arxiv.org/pdf/2003.08907.pdf

Оригинальные тренировочные изображения из CIFAR-10, уменьшенные до 5% от исходного содержания пикселей, но правильно классифицированные рядом популярных платформ компьютерного зрения с точностью от 90 до 99%. Источник: https://arxiv.org/pdf/2003.08907.pdf

В некоторых случаях системы классификации на самом деле находят эти урезанные изображения. легче правильно классифицировать, чем полные кадры в исходных обучающих данных, при этом авторы наблюдают «[CNN] более уверенно работают с этими подмножествами пикселей, чем с полными изображениями».

Это указывает на потенциально опасный тип «мошенничества», который является обычной практикой для систем CV, использующих эталонные наборы данных, такие как CIFAR-10 и ImageNet, и эталонные среды, такие как ВГГ16, Реснет20и ResNet18.

Чрезмерная интерпретация имеет заметные последствия для автономных транспортных систем на основе CV, которые в последнее время стали объектом пристального внимания. решение Теслы отдать предпочтение интерпретации изображений, а не LiDAR и другим системам обнаружения на основе лучей для алгоритмов автономного вождения.

Хотя «быстрое обучение» известный вызови поле активных исследований в области компьютерного зрения, авторы статьи отмечают, что  Немецко-канадские исследования который особенно обозначил проблему в 2019 году, не признает, что «ложные» подмножества пикселей, которые характеризуют чрезмерную интерпретацию, являются «статистически достоверными данными», которые, возможно, необходимо решать с точки зрения архитектуры и подходов более высокого уровня, а не путем более тщательного контроля наборы данных.

Ассоциация бумаги называется Чрезмерная интерпретация выявляет патологии модели классификации изображенийи исходит от Брэндона Картера, Сиддхарты Джейн и Дэвида Гиффорда из CSAIL в сотрудничестве с Джонасом Мюллером из Amazon Web Services. Код бумаги доступен по адресу https://github.com/gifford-lab/overinterpretation.

Сокращение данных

Изображения без данных, которые использовали исследователи, называются ими Достаточное количество входных подмножеств (SIS) — по сути, изображение SIS содержит минимально возможное «внешнее шасси», которое может очертить изображение достаточно хорошо, чтобы позволить системе компьютерного зрения идентифицировать исходный объект изображения (т. е. собака, судноИ т.д.).

В приведенной выше строке мы видим полные проверочные изображения ImageNet; ниже подмножества SIS, правильно классифицированные моделью Inception V3 с достоверностью 90%, основанные, по-видимому, на всем, что осталось от изображения — фоновом контексте. Естественно, последний столбец имеет важное значение для распознавания вывесок в алгоритмах беспилотных транспортных средств.

В приведенной выше строке мы видим полные проверочные изображения ImageNet; ниже подмножества SIS, правильно классифицированные моделью Inception V3 с достоверностью 90%, основанные, по-видимому, на всем, что осталось от изображения — фоновом контексте. Естественно, последний столбец имеет важное значение для распознавания вывесок в алгоритмах беспилотных транспортных средств.

Комментируя результаты, полученные на изображении выше, исследователи отмечают:

«Мы обнаружили, что пиксели SIS сосредоточены за пределами фактического объекта, который определяет метку класса. Например, на изображении «пицца» SIS сосредоточена на форме тарелки и фонового стола, а не на самой пицце, что позволяет предположить, что модель может плохо обобщать изображения, содержащие различные круглые предметы на столе. На изображении «большой панды» SIS содержит бамбук, который, вероятно, появился в коллекции фотографий ImageNet для этого класса.

«На изображениях «светофор» и «уличный знак» SIS состоит из пикселей в небе, что говорит о том, что автономные транспортные системы, которые могут зависеть от этих моделей, должны быть тщательно проверены на наличие патологий чрезмерной интерпретации».

Изображения SIS не вырезаются случайным образом, а создаются для проекта в процессе обратного выбора пакетного градиента на Начало V3 и ResNet50 через PyTorch. Изображения получаются с помощью процедуры абляции, которая учитывает взаимосвязь между способностью модели точно классифицировать изображение и областями, в которых исходные данные итеративно удаляются.

Чтобы подтвердить достоверность SIS, авторы протестировали процесс случайный удаление пикселей, и обнаружил, что результаты тестов «значительно менее информативны», что указывает на то, что изображения SIS действительно представляют минимум данных, которые необходимы популярным моделям и наборам данных для приемлемых прогнозов.

Взглянув на любое из уменьшенных изображений, можно предположить, что эти модели не соответствуют человеческому уровню зрительного восприятия, что привело бы к средней точности менее 20%.

С изображениями SIS, уменьшенными всего до 5% их исходных пикселей, люди едва достигают «выше, чем случайная» вероятность успеха классификации по сравнению с 90–99% успеха популярных наборов данных и сред, изученных в статье.

С изображениями SIS, уменьшенными всего до 5% их исходных пикселей, люди едва достигают «выше, чем случайная» вероятность успеха классификации по сравнению с 90–99% успеха популярных наборов данных и сред, изученных в статье.

Помимо переобучения

Переоснащение происходит, когда модель машинного обучения настолько интенсивно обучается на наборе данных, что становится опытной в составлении прогнозов для эти конкретные данные, но гораздо менее эффективен (или даже совершенно неэффективен) на свежих данных, которые вводятся в него после обучения (вне распределения данные).

Исследователи отмечают, что нынешний академический и отраслевой интерес к борьбе с переоснащением не поможет одновременно решить проблему чрезмерной интерпретации, потому что урезанные подмножества пикселей, которые представляют собой идентифицируемые изображения для компьютеров и бессмысленные мазни для людей, на самом деле действительно применимые данные, а не «одержимая» концентрация на плохо отобранных или анемичных данных:

«Излишняя интерпретация связана с переоснащением, но переоснащение можно диагностировать по снижению точности теста. Чрезмерная интерпретация может быть связана с истинными статистическими сигналами в базовом распределении набора данных, которые возникают из-за определенных свойств источника данных (например, линеек дерматологов).

«Таким образом, чрезмерную интерпретацию может быть сложнее диагностировать, поскольку она допускает решения, принятые на основе статистически достоверных критериев, а модели, использующие такие критерии, могут преуспеть в тестах».

Возможные решения

Авторы предполагают, что сборка моделей, где несколько архитектур участвуют в процессе оценки и обучения, может каким-то образом смягчить чрезмерную интерпретацию. Они также обнаружили, что применение отключение ввода, первоначально предназначенный для предотвращения переобучения, привел к «небольшому снижению» точности теста CIFAR-10 (что, вероятно, желательно), но к «значительному» (~ 6%) увеличению точности моделей на невидимых данных. Тем не менее, низкие цифры говорят о том, что любые последующие методы лечения переобучения вряд ли полностью решат проблему переинтерпретации.

Авторы допускают возможность использования карты значимости чтобы указать, какие области изображения имеют отношение к извлечению признаков, но обратите внимание, что это противоречит цели автоматического анализа изображения и требует аннотации человека, что невозможно в масштабе. Они также отмечают, что карты заметности оказались только грубые оценки с точки зрения понимания операций модели.

В статье делается вывод:

«Учитывая существование невыдающихся подмножеств пикселей, которых достаточно для правильной классификации, модель может полагаться исключительно на такие шаблоны. В этом случае метод интерпретируемости, который точно описывает модель, должен выводить эти бессмысленные обоснования, в то время как методы интерпретируемости, которые смещают обоснования в сторону человеческих априорных данных, могут давать результаты, которые вводят пользователей в заблуждение, полагая, что их модели ведут себя так, как предполагалось».

 

 

Впервые опубликовано 13 января 2022 г.