Искусственный интеллект

Борьба за предотвращение обмана ИИ при прохождении тестов

Published June 3, 2021

Updated April 26, 2026

Martin Anderson

Новые исследования, проведенные в китайском университете, дают представление о том, почему генеративные модели обработки естественного языка, такие как GPT-3, склонны “обманывать”, когда им задают трудный вопрос, производя ответы, которые могут быть технически правильными, но без реального понимания того, почему ответ правильный; и почему они демонстрируют мало или совсем не демонстрируют способности объяснить логику, лежащую в основе своих “легких” ответов. Исследователи также предлагают новые методы, чтобы заставить системы “изучать усерднее” во время фазы обучения.

Проблема двойная: во-первых, мы проектируем системы, которые пытаются достичь результатов быстро и с оптимальным использованием ресурсов. Даже когда, как в случае с GPT-3, ресурсы могут быть значительно больше, чем те, которые могут позволить себе средний проект исследований NLP, эта культура результативной оптимизации все еще проникает в методологию, потому что она стала доминировать в академической конвенции.

Следовательно, наши архитектуры обучения вознаграждают модели, которые быстро сходятся и производят, казалось бы, подходящие ответы на вопросы, даже если модель NLP в дальнейшем не может оправдать свой ответ или продемонстрировать, как она пришла к своим выводам.

Ранний склонность к обману

Это происходит потому, что модель учится “shortcut-ответам” гораздо раньше в обучении, чем она учится более сложным типам приобретения знаний. Поскольку повышенная точность часто вознаграждается довольно безразлично на протяжении всего обучения, модель затем отдает приоритет любому подходу, который позволит ей ответить на вопрос “легко” и без реального понимания.

Поскольку обучение с помощью “shortcut” неизбежно представит первые успехи во время обучения, сессия естественно отклонится от более сложной задачи получения полезной и более полной эпистемологической перспективы, которая может содержать более глубокие и вдумчивые слои атрибуции и логики.

Кормление ИИ “легкими” ответами

Вторая проблема заключается в том, что, хотя недавние исследовательские инициативы изучили тенденцию ИИ “обманывать” таким образом и определили явление “shortcut”, до сих пор не было попыток классифицировать “shortcut”-включающий материал в датасете, который был бы логическим первым шагом в решении того, что может оказаться фундаментальной архитектурной ошибкой в системах понимания машинного чтения (MRC).

Новая работа, совместная работа между Институтом компьютерных технологий Вансуаня и MOE Key Laboratory of Computational Linguistics в Пекинском университете, тестирует различные языковые модели на новоаннотированном датасете, который включает классификации для “легких” и “трудных” решений возможного вопроса.

Source: https://arxiv.org/pdf/2106.01024.pdf

Датасет использует парафразирование в качестве критерия для более сложных и глубоких ответов, поскольку семантическое понимание необходимо для переформулирования полученных знаний. Напротив, “shortcut”-ответы могут использовать токены, такие как даты и другие инкапсулирующие ключевые слова, чтобы произвести ответ, который является фактически точным, но без контекста или рассуждений.

“Shortcut”-компонент аннотаций включает в себя сопоставление слов вопроса (QWM) и простое сопоставление (SpM). Для QWM модель использует сущности, извлеченные из предоставленных текстовых данных, и отвергает контекст; для SpM модель определяет совпадение между предложениями ответов и вопросами, которые оба предоставляются в обучающих данных.

Данные “shortcut” почти “вирусные” по влиянию в датасете

Исследователи утверждают, что датасеты имеют тенденцию содержать высокий процент вопросов-“shortcut”, которые заставляют обученные модели полагаться на трюки-“shortcut”.

Две модели, использованные в экспериментах, были BiDAF и Google’s BERT-base. Исследователи наблюдают, что даже когда обучаются на вариациях датасета с более высоким процентом “трудных” вопросов, обе модели все еще работают лучше на вопросах-“shortcut”, чем на более трудных парафразированных вопросах, несмотря на небольшое количество примеров в датасете.

Это представляет “shortcut-данные” почти в контексте вируса – что для того, чтобы они были приняты и приоритезированы в обучении, необходимо очень мало их присутствия в датасете, под обычными стандартами и практиками в NLP.

Доказательство обмана

Один из методов, который исследование использует для доказательства хрупкости ответа-“shortcut”, заключается в замене “легкого” сущности слова на аномальное слово. Когда используется метод-“shortcut”, логика “обманутого” ответа не может быть предоставлена; но когда ответ был предоставлен из более глубокого контекста и семантической оценки более широкого диапазона текстовых данных, возможно для системы деконструировать ошибку и реконструировать правильный ответ.

Замена ‘Beyoncé’ (человека) на ‘America’ (место), показывает, имеет ли модель какую-либо фоническую логику для своего ответа.

“Shortcut” из-за экономической императивы

Что касается некоторых архитектурных причин, почему “shortcut” так приоритезируются в потоках обучения NLP, авторы комментируют ‘Модели MRC могут изучить трюки-“shortcut”, такие как QWM, с меньшими вычислительными ресурсами, чем задачи понимания, такие как определение парафразирования’.

Это, тогда, может быть непреднамеренным результатом стандартных оптимизационных и ресурсо-сохраняющих философий в подходах к машинному чтению, и давления на получение результатов с ограниченными ресурсами в сжатые сроки.

Исследователи также отмечают:

‘[Поскольку] трюк-“shortcut” может быть использован для ответа на большинство вопросов обучения правильно, ограниченные нерешенные вопросы, оставшиеся, могут не мотивировать модели изучать сложные решения, требующие сложных навыков.’

Если результаты работы в дальнейшем подтвердятся, то кажется, что огромная и постоянно растущая область предобработки данных может потребовать рассмотреть “скрытые шпаргалки” в данных как проблему, которую необходимо решить в долгосрочной перспективе, или пересмотреть архитектуры NLP, чтобы отдать приоритет более сложным рутинам для приема данных.