Искусственный интеллект
Масштабирование во время тестирования: секретный ингредиент новой волны моделей рассуждения уровня PhD

Область искусственного интеллекта достигла точки, где просто добавление большего количества данных или увеличение размера модели не является лучшим способом сделать ее более интеллектуальной. В течение последних нескольких лет мы считали, что если мы построим более крупные нейронные сети и покормим их большей частью интернета, они в конечном итоге станут более интеллектуальными. Этот подход, известный как законы масштабирования, работал замечательно. Он дал нам модели, которые могут писать стихи, переводить языки и сдавать экзамен на адвокатуру. Однако эти модели часто испытывали трудности с глубокой логикой, сложной математикой и многоступенчатыми научными проблемами. Они были отличны в распознавании закономерностей, но часто терпели неудачу в задачах, требующих многоступенчатого рассуждения.
В последнее время появилась новая тенденция, которая меняет способ нашего мышления об возможностях ИИ. Эта тенденция называется масштабированием во время тестирования. Вместо того, чтобы сосредотачиваться только на том, сколько модель учится во время своей фазы обучения, исследователи теперь сосредотачиваются на том, сколько “думает” модель, когда она фактически отвечает на вопрос. Этот сдвиг является секретным ингредиентом последней волны моделей рассуждения, таких как OpenAI’s o1 series, которые теперь работают на уровне студентов PhD в сложных предметах, таких как физика, химия и биология.
Сдвиг от масштабирования обучения к масштабированию вывода
Чтобы понять, почему это значительный сдвиг, нам нужно посмотреть, как ИИ строился до сих пор. Традиционно “интеллект” модели определялся на основе ее обучения. Это включало расходы месяцев и миллионов долларов на обработку огромных объемов данных с помощью тысяч графических процессоров. Как только обучение было завершено, модель была по сути заморожена. Когда вы задавали ей вопрос, она предоставляла ответ почти мгновенно на основе закономерностей, которые она уже выучила. Это то, что мы называем выводом или тестированием.
Проблема с этим традиционным подходом заключается в том, что модель имеет только один шанс ответить правильно. Она обрабатывает запрос и генерирует токены один за другим без возможности “думать” или “дважды проверять” свою логику, прежде чем ответить. Масштабирование во время тестирования меняет эту динамику. Оно позволяет модели тратить больше вычислительных ресурсов во время фазы вывода. Как и человек, который может потратить несколько секунд на ответ на простой вопрос, но несколько минут или часов на решение сложной математической задачи, модели ИИ теперь проектируются так, чтобы масштабировать свои усилия в зависимости от сложности задачи.
Определение концепции масштабирования во время тестирования
Масштабирование во время тестирования относится к техникам, которые позволяют модели ИИ использовать дополнительные вычислительные ресурсы для обработки запроса в момент его доставки. В простых терминах, это означает предоставление модели большего “времени для размышлений”. Это не о том, чтобы сделать модель больше; это о том, чтобы сделать модель более вдумчивой. Когда модель использует масштабирование во время тестирования, она не просто производит первый ответ, который приходит на ум. Вместо этого она может исследовать разные пути, проверять ошибки в своей собственной логике и уточнять свой ответ, прежде чем пользователь его увидит.
Эта концепция часто сравнивается с тем, как работает человеческий мозг. Психологи часто говорят о “Системе 1” и “Системе 2” мышления. Система 1 быстра, интуитивна и эмоциональна. Это то, что вы используете, когда распознаете лицо или едете на машине по знакомой дороге. Система 2 медленнее, более вдумчивая и логичная. Это то, что вы используете, когда решаете сложное математическое уравнение или планируете сложный проект. До недавнего времени модели ИИ были в основном мыслителями Системы 1. Масштабирование во время тестирования является мостом, который позволяет им доступ к мышлению Системы 2.
Механика процесса рассуждения
Существует несколько способов, которыми исследователи достигают масштабирования во время тестирования. Одним из наиболее распространенных методов является Цепочка мыслей (CoT) подсказка, но в этих новых моделях она встроена直接 в систему, а не является чем-то, о чем пользователь должен просить. Модель обучена разбивать проблему на более мелкие, логические шаги. Делая это, модель может проверить каждую часть решения, прежде чем перейти к следующему.
Другой важный метод включает алгоритмы поиска, такие как Монте-Карло-дерево поиска. Вместо того, чтобы просто предсказывать следующее наиболее вероятное слово, модель генерирует несколько возможных путей для ответа. Она оценивает эти пути и определяет, какой из них наиболее вероятно приведет к правильному решению. Если она попадает в тупик или понимает, что предыдущий шаг был неправильным, она может вернуться и попробовать другой подход. Эта “возможность просмотра” очень похожа на то, как шахматный движок оценивает тысячи потенциальных ходов, прежде чем выбрать лучший. Просматривая многие возможности во время фазы вывода, модель может решить намного более сложные проблемы, чем те, которые могут быть решены直接 с помощью стандартной модели ИИ.
Почему рассуждение уровня PhD требует больше, чем память
Причина, по которой это так важно, заключается в том, что высокоуровневое рассуждение в науке и математике не может быть решено только с помощью памяти. На экзамене PhD по физике вы не можете просто повторить факт, который вы прочитали в учебнике. Вам необходимо применить сложные принципы к новой и уникальной ситуации. Стандартные модели часто галлюцинируют в этих сценариях, потому что они пытаются предсказать следующее слово на основе вероятности, а не логики.
Масштабирование во время тестирования позволяет модели действовать более как исследователь. Она может проверять гипотезы внутренне. Например, если модели предлагается написать сложный код, она может “запустить” логику в своей скрытой цепочке мыслей, выявить потенциальную ошибку и исправить ее, прежде чем представить окончательный код. Эта способность к самоисправлению является тем, что позволяет новой волне моделей набирать высокие баллы на бенчмарках, таких как Американский пригласительный математический экзамен (AIME) или GPQA (сложный научный тест, разработанный экспертами). Они не просто угадывают; они проверяют.
Торговое соотношение эффективности и вычислительных затрат
Хотя масштабирование во время тестирования является мощным, оно имеет значительную стоимость. В старом способе делать вещи наиболее дорогой частью ИИ было обучение. Как только модель была развернута, ее запуск был относительно дешевым и быстрым. С масштабированием во время тестирования стоимость смещается в сторону запроса пользователя. Поскольку модель выполняет больше работы, генерируя несколько путей и проверяя свою собственную работу, она требует больше времени для ответа и требует больше аппаратных ресурсов.
Это создает новую экономику ИИ. Мы движемся к ситуации, когда “стоимость за запрос” может сильно варьироваться. Простой вопрос о погоде может стоить доли цента и занять секунду. Глубокий научный запрос может стоить несколько долларов в вычислительном времени и может занять час для обработки. Этот компромисс необходим для достижения высокоуровневого рассуждения, но он также означает, что разработчикам необходимо найти способы сделать эти модели эффективными, чтобы они могли быть использованы в масштабе в отраслях, таких как медицина или инженерия.
Влияние на будущее искусственного интеллекта
Рост масштабирования во время тестирования предполагает, что мы можем вступать в новую эру развития ИИ. В течение многих лет была обеспокоенность тем, что мы в конечном итоге исчерпаем высококачественные человеческие данные для обучения моделей. Если модели учатся только на том, что люди уже написали, они могут столкнуться с потолком. Однако масштабирование во время тестирования показывает, что модели могут улучшить свою производительность, думая усерднее, а не просто читая больше.
Это открывает дверь к тому, что ИИ может делать свои собственные открытия. Если модель может рассуждать через проблему, которую она никогда не видела раньше, она может потенциально найти новые решения в материаловедении, открытии лекарств или возобновляемой энергии. Это перемещает ИИ от быть полезным помощником, который суммирует текст, к быть цифровым сотрудником, который может помочь решить самые сложные проблемы мира. Мы видим сдвиг от “генеративного” ИИ к “рассуждающему” ИИ.
Основная мысль
Масштабирование во время тестирования оказывается пропущенной связью в поисках продвинутого искусственного интеллекта. Позволяя моделям использовать больше вычислительной мощности в момент вывода, мы открыли уровень производительности, который считался находящимся на расстоянии нескольких лет. Эти модели начинают демонстрировать тип логики, который чувствуется гораздо ближе к человеческому интеллекту, чем простое распознавание закономерностей в прошлом.
Когда мы движемся вперед, задача будет заключаться в усовершенствовании этих техник. Нам необходимо сделать рассуждение быстрее и более доступным, а также найти правильный баланс между “быстрым” и “медленным” мышлением. Секретный ингредиент больше не является просто размером модели или количеством данных, которые она видела. Секрет в том, как модель использует свое время для размышлений. Для всех, кто следит за прогрессом ИИ, ясно, что фокус сместился. Гонка больше не только о том, у кого есть самая большая модель, но и о том, у кого есть модель, которая может рассуждать лучше всего. Этот сдвиг, вероятно, определит следующее десятилетие инноваций в области.












