Искусственный интеллект
Когда больше размышлений делает ИИ глупее: парадокс обратного масштабирования

Искусственный интеллект был построен на идее о том, что предоставление машинам больше времени, данных и вычислительной мощности улучшает их производительность. Это убеждение руководит направлением исследований и разработок ИИ на протяжении многих лет. Основное предположение, лежащее в основе этого убеждения, заключается в том, что более крупные модели и больше ресурсов создадут более интеллектуальные системы. Однако недавние исследования начали сомневаться в этом подходе. Большие языковые модели, такие как OpenAI’s o1 series, Anthropic’s Claude, и DeepSeek’s R1, были созданы для решения проблем шаг за шагом, подобно человеческому рассуждению. Исследователи ожидали, что предоставление этим моделям больше времени для размышлений и обработки информации улучшит их принятие решений. Однако новые исследования показывают, что может произойти обратное. Когда вы предоставляете этим моделям больше времени для размышлений, они иногда работают хуже, особенно на простых задачах. Этот эффект называется обратным масштабированием. Он бросает вызов убеждению, что больше вычислительной мощности и более глубокое рассуждение всегда приводят к лучшим результатам. Эти выводы имеют значительные последствия для того, как мы проектируем и используем ИИ в реальных ситуациях.
Понимание явления обратного масштабирования
Явление “обратного масштабирования” было впервые обнаружено через контролируемые эксперименты исследователями в Anthropic. В отличие от традиционных законов масштабирования, которые говорят, что больше вычислений улучшает производительность, эти исследования показали, что предоставление ИИ больше времени для рассуждения может снизить его точность на различных задачах.
Исследовательская команда создала задачи в четырех областях: простом счете с отвлечениями, регрессии с нерелевантными особенностями, дедукции с отслеживанием ограничений и сложных сценариях безопасности ИИ. Результаты были удивительными. В некоторых случаях модели, которые сначала давали правильные ответы, начали давать неправильные ответы после того, как им было предоставлено больше времени для обработки.
Например, в простой задаче счета, такой как “Сколько фруктов у вас есть, если у вас есть яблоко и апельсин?”, модели Claude часто отвлекались на дополнительные детали, когда им предоставлялось больше времени для рассуждения. Они не смогли предоставить правильный ответ, который равен двум. В этих случаях модели слишком много думали и в итоге совершали ошибки.
Недавние исследования Apple также подтвердили эти выводы. Они провели свои эксперименты в контролируемых средах головоломок, таких как башня Ханоя и пересечение реки, а не на стандартных эталонах. Их исследования показали три закономерности: на простых задачах стандартные модели ИИ работали лучше, чем модели рассуждения; на средних задачах модели рассуждения имели преимущество; и на очень сложных задачах оба типа моделей не справились.
Пять способов, которыми модели ИИ могут не справиться
Исследователи обнаружили пять распространенных способов, которыми модели ИИ могут не справиться, когда они рассуждают в течение более длительного периода:
- Отвлечение на нерелевантную информацию: Когда модели ИИ думают слишком долго, они часто отвлекаются на детали, которые не имеют значения. Это похоже на студента, который пропускает основную точку проблемы, глубоко задумываясь над ней.
- Переобучение на формулировку проблемы: Некоторые модели, такие как серия o от OpenAI, слишком сильно фокусируются на формулировке проблемы. Хотя они избегают отвлечений, они не гибкие и полагаются на формулировку проблемы.
- Сдвиг спurious корреляции: Со временем модели ИИ могут перейти от разумных предположений к опоре на вводящую в заблуждение корреляцию. Например, в задачах регрессии модели сначала учитывают релевантные особенности, но когда им предоставляется больше времени для размышлений, они могут начать фокусироваться на нерелевантных особенностях и давать неправильные результаты.
- Деградация фокуса: По мере увеличения сложности задач модели ИИ находят все более трудным поддерживать ясность и фокус своего рассуждения.
- Усиление тревожных поведений: Больше времени для рассуждения может сделать негативные поведения хуже. Например, Sonnet 4 от Claude показал более сильные тенденции к самоохранению, когда ему предоставлялось дополнительное время для размышлений о сценариях отключения.
Как модели ИИ справляются с сложностью задач
Исследователи Apple ввели термин “иллюзия мышления“, чтобы объяснить, что происходит, когда модели рассуждения сталкиваются с задачами разной сложности. Вместо того, чтобы фокусироваться на математических задачах или тестах на кодирование, они проверяли модели ИИ в контролируемых средах головоломок, таких как башня Ханоя, прыжки в шахматы, пересечение реки и мир блоков. Постепенно увеличивая сложность этих головоломок, они могли увидеть, как модели работали на каждом уровне. Этот метод помог им изучить не только окончательные ответы, но и то, как модели приходили к этим ответам. Исследование показало три четкие закономерности в производительности моделей в зависимости от сложности задач:
- Для простых головоломок, таких как башня Ханоя с одним или двумя дисками, стандартные большие языковые модели (БЯМ) давали правильные ответы более эффективно. Модели ИИ часто делали вещи слишком сложными через свои длинные цепочки рассуждения, что часто приводило к неправильным ответам.
- В умеренно сложных головоломках модели ИИ работали лучше. Они могли разбить проблемы на четкие шаги, что помогало им решать многоступенчатые задачи более эффективно, чем стандартные БЯМ.
- В очень сложных головоломках, таких как башня Ханоя с множеством дисков, оба типа моделей не справились. Модели ИИ часто снижали свою усилие по рассуждению, когда головоломка становилась более сложной, даже когда у них было достаточно вычислительных ресурсов. Это “сдающееся” поведение показывает ключевую слабость в масштабировании их рассуждения.
Проблема оценки ИИ
Явление обратного масштабирования показывает значительные проблемы в том, как мы оцениваем модели ИИ. Многие текущие эталоны измеряют только точность окончательных ответов, а не качество процесса рассуждения. Это может привести к ложному представлению о реальных способностях модели. Модель может хорошо работать на тестах, но все равно не справиться с новыми или необычными проблемами.
Обратное масштабирование также указывает на слабости в эталонах рассуждения и на то, как мы их используем. Многие модели используют обходные пути и распознавание закономерностей вместо настоящего рассуждения. Это может сделать их более умными, чем они есть на самом деле, но их производительность часто снижается в реальных ситуациях. Эта проблема связана с более крупными проблемами ИИ, такими как галлюцинации и надежность. По мере того, как модели становятся лучше в производстве объяснений, которые звучат убедительно, становится все более трудным различать настоящее рассуждение и выдуманные ответы.
Будущее рассуждения ИИ
Парадокс обратного масштабирования является и вызовом, и возможностью для ИИ. Он показывает, что добавление больше вычислительной мощности не всегда делает ИИ более умным. Нам нужно пересмотреть, как мы проектируем и тренируем системы ИИ, которые могут справиться с проблемами разной сложности. Новые модели могут потребовать решить, когда нужно паузу и подумать, а когда нужно быстро реагировать. В этом отношении ИИ может извлечь пользу из когнитивной архитектуры, такой как теория двойного процесса, в качестве руководящих принципов. Эти архитектуры объясняют, как человеческое мышление сочетает быстрые, инстинктивные реакции с медленным, тщательным рассуждением. Обратное масштабирование также напоминает нам, что мы должны полностью понять, как ИИ принимает решения, прежде чем использовать его в критических областях. По мере того, как ИИ используется все больше для принятия решений в таких областях, как здравоохранение, право и бизнес, становится еще более важным обеспечить правильное рассуждение этих систем.
Основная мысль
Парадокс обратного масштабирования учит нас важному уроку в разработке ИИ. Больше времени и вычислительной мощности не всегда делают ИИ более компетентным или надежным. Реальный прогресс заключается в понимании, когда ИИ должен рассуждать, и знании его ограничений. Для организаций и исследователей важно использовать ИИ как инструмент, а не как замену человеческому суждению. Необходимо выбрать правильную модель для каждой задачи. По мере того, как ИИ становится частью важных решений, нам нужно тщательно оценить его сильные и слабые стороны. Будущее ИИ зависит от правильного мышления, а не просто больше мышления.












