Взгляд Anderson

Отсутствие ‘человеческой ошибки’ разоблачает обманчивые системы ИИ

Published April 2, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image (GPT-1.5) featuring two male chess players facing off in a tournament, but we can see from the wires and cables hanging out of his back, that one of the players is a robot.

Новые исследования показывают, что ИИ может выдавать себя за человека, пока не вспомнит ‘слишком хорошо’, и простые тесты на память могут раскрыть чат-ботов благодаря их отсутствию обычных человеческих ошибок.

Исследователи из Принстона разработали метод выявления сущностей ИИ, выдающих себя за человека, путем выполнения задач, которые человеку выполнить трудно – в основном связанных с кратковременным запоминанием.

Тестированные в этом порядке ИИ не смогли адекватно воспроизвести уровень человеческих ошибок, если не были специально обучены на этом в системном промпте, или же были тонко настроены на психологических данных.

В статье говорится:

‘[Мы] исследуем идею обнаружения человечности с помощью задач, которые машины могут решить слишком хорошо, чтобы быть человеком. Конкретно, мы проверяем наличие установленного человеческого когнитивного ограничения: ограниченная рабочая память.

‘Мы показываем, что когнитивное моделирование на стандартной задаче последовательного воспоминания может быть использовано для различения онлайн-участников и моделей ИИ, даже когда последние специально обучены имитировать человеческие ограничения рабочей памяти.

‘Наши результаты демонстрируют, что возможно использовать хорошо установленные когнитивные явления для различения моделей ИИ и людей.’

Наблюдаемая исследователями тенденция подразумевает, что готовые языковые модели очень вероятно раскроют себя в любом обратном тесте Тьюринга, который использует этот метод.

Хотя ‘целевые’ модели ИИ будут работать лучше, тонкая настройка на эту задачу вероятно ограничит их для этого, за счет общего использования; и хотя системный промпт может быть так же длинным, как «Война и мир», и поэтому может включать указания о том, как имитировать человеческие недостатки, эффективность этого метода подрывается тем, что он включен в очень обширные инструкции (которые будут подчеркивать многие другие приоритеты), или очень короткие (которые будут жертвовать обобщенной способностью в пользу специфичности задачи, как и тонкая настройка).

‘Вы говорите о памяти…’

Более эффективные методы определения дискурса, сгенерированного ИИ, все больше необходимы – не в последнюю очередь самим исследователям, которые часто должны полагаться на удаленных работников, которые хорошо мотивированы обмануть систему через автоматизацию и другие трюки.

Кроме того, информированный и правдоподобно доставленный материал, сгенерированный ИИ, вероятно, будет необходим в случаях мошенничества с ИИ, где разговоры в реальном времени требуют быстрых и авторитетных ответов, и преступники определенно не имеют времени, чтобы поискать в Google запрос, который им только что был брошен.

Так же, как сектор обнаружения ИИ может использовать такие знания, растущая индустрия голосовых звонков, управляемых ИИ, вероятно, будет выигрывать от знания того, какое поведение избегать.

Хотя это и предполагает возможность ‘обратного теста Тьюринга’, авторы отмечают, что если обобщенный ИИ станет более способным имитировать человеческие недостатки, есть огромный резервуар ошибочности, на который можно опираться*:

‘Существует много кандидатов на установленные человеческие когнитивные ограничения, которые модели ИИ могут не унаследовать. Например, люди устают, воспринимают оптические иллюзии, и могут хранить только небольшое количество предметов в своей рабочей памяти.’

…