Свяжитесь с нами:

Anthropic прекращает работу над Claude Opus 4.1, сокрушая бенчмарки кодирования

Объявления

Anthropic прекращает работу над Claude Opus 4.1, сокрушая бенчмарки кодирования

mm

Антропный запущен Клод Опус 4.1 сегодня — обновленная версия флагманской модели ИИ, которая достигает точности 74.5% при выполнении реальных задач кодирования, устанавливая новый рекорд, при этом сохраняя ту же цену, что и у ее предшественника.

Это обновление является стратегическим шагом, который отрасль искусственного интеллекта ожидает Выпуск GPT-5 от OpenAIКомпания Anthropic позиционирует свою новейшую модель как конкурентоспособную альтернативу, которая превосходно справляется со сложными задачами программирования и автономным выполнением задач. Компания обещает «существенно более существенные улучшения» в ближайшие недели, что свидетельствует об обострении конкуренции среди ведущих разработчиков ИИ.

Ключевые улучшения производительности

Согласно заявлению Anthropic, Claude Opus 4.1 превосходит своего предшественника по производительности в трех ключевых областях: агентные задачи, требующие многошаговых рассуждений, приложения для кодирования в реальном мире и возможности аналитического рассуждения.

Модель достигла 74.5% на SWE-bench Проверенная оценка, который измеряет способность ИИ выявлять и исправлять реальные ошибки в программном обеспечении с открытым исходным кодом, превосходя предыдущий показатель Claude Opus 4 в 72.5% и превосходя модели OpenAI серии O примерно на пять процентных пунктов.

GitHub отметил особенно значительный прирост возможностей рефакторинга многофайлового кода, в то время как Rakuten Group подчеркнула точность модели в выявлении исправлений в больших кодовых базах без внесения новых ошибок. Заниматься виндсерфингом, стартап в области кодирования, сообщил, что Opus 4.1 продемонстрировал улучшение на одно стандартное отклонение по сравнению с Opus 4 в их бенчмарке для младших разработчиков, сравнив скачок производительности с предыдущим скачком с Sonnet 3.7 до Sonnet 4.

Доступность и интеграция

Обновленная модель сразу же доступна платным пользователям Claude через веб-интерфейс и Claude Code, а также через API Anthropic, Amazon Bedrock и Vertex AI от Google Cloud. Разработчики могут получить доступ к новой модели через API-тег без повышения цены по сравнению с предыдущей версией, сохраняя при этом структура ценообразования что сделало Клода конкурентоспособным на корпоративном рынке.

Помимо разработки программного обеспечения, Claude Opus 4.1 демонстрирует расширенные возможности анализа данных и исследовательских задач. Anthropic особо выделил улучшения в «отслеживании деталей и агентном поиске», имея в виду способность модели сохранять контекст в сложных многоэтапных операциях — критически важную функцию для корпоративные приложения требующие самостоятельного решения проблем.

Отраслевой контекст и конкуренция

Похоже, время выпуска выбрано намеренно, поскольку отраслевые отчёты свидетельствуют о планах OpenAI представить GPT-5 в ближайшем будущем. ИнформацияОжидается, что GPT-5 сосредоточится на схожих областях — программировании, математике и задачах с использованием агентов, — хотя аналитики предсказывают, что улучшения могут быть постепенными, а не революционными.

Быстрая итерация моделей Claude (данное обновление вышло всего через три месяца после запуска семейства Claude 4 в мае) отражает ускоряющиеся темпы разработки ИИ, поскольку компании конкурируют за позиции на рынке корпоративных и девелоперских инструментов. Это соответствует истории позиционирования Anthropic как безопасной альтернативы OpenAI при сохранении конкурентоспособных показателей производительности.

Технические детали и реализация

Команда системная карта В исследовании Claude Opus 4.1 показано, что это гибридная модель рассуждений, способная работать как с режимами расширенного мышления, так и без них. В таких бенчмарках, как SWE-bench Verified и Terminal-Bench, модель достигла своих результатов без использования расширенного мышления, в то время как в других бенчмарках, таких как GPQA Diamond и MMMU, использовалось до 64 тысяч токенов расширенного мышления.

Модель продолжает использовать ту же простую платформу для тестирования SWE-bench, которую Anthropic использовала в семействе Claude 4, оснащая модель только инструментом bash и инструментом редактирования файлов, работающим через замену строк. Этот минималистичный подход контрастирует с более сложными реализациями, но при этом обеспечивает лучшие в отрасли результаты.

«Взгляд вперед» в соавторстве с Кеннетом Кейсом,

Anthropic рекомендует всем текущим пользователям Opus 4 обновиться до новой версии для всех случаев использования. Компания предоставила полную документацию, включая страница модели и технические спецификации для разработчиков, заинтересованных во внедрении технологии.

Учитывая, что Anthropic и OpenAI готовят важные релизы, ближайшие недели могут стать решающими в определении лидера в области возможностей ИИ следующего поколения. Модели ИИ становятся все более сложными В своих способностях к рассуждению и кодированию конкуренты переходят от сырых показателей производительности к практической реализации и надежности в производственных средах.

Часто задаваемые вопросы (Клод Опус 4.1)

Каким образом Claude Opus 4.1 улучшает задачи кодирования и рассуждения по сравнению с более ранними версиями?

Claude Opus 4.1 набрал 74.5% на SWE-bench Verified (по сравнению с 72.5% в Opus 4) и демонстрирует заметные улучшения в рефакторинге многофайлового кода, отслеживании деталей в сложных кодовых базах и возможностях агентного поиска, которые позволяют ему эффективнее справляться с многоэтапными задачами рассуждения.

Каковы основные реальные области применения Claude Opus 4.1 в области кодирования и агентов ИИ?

Модель отлично подходит для отладки больших кодовых баз без внесения новых ошибок, автономного рефакторинга кода в нескольких файлах, глубокого анализа данных и исследовательских задач, требующих постоянного контекста, что делает ее идеальным решением для разработки корпоративного программного обеспечения и автоматизированной оптимизации рабочих процессов.

Как производительность Claude Opus 4.1 на SWE-bench отражает его возможности кодирования?

SWE-bench Verified измеряет способность ИИ выявлять и исправлять реальные ошибки в программном обеспечении с открытым исходным кодом, а результат Claude Opus 4.1 в 74.5% представляет собой наивысший публично заявленный показатель производительности, превосходящий модели OpenAI o-серии примерно на пять процентных пунктов.

В чем основные отличия Claude Opus 4.1 от других моделей ИИ, таких как GitHub Copilot или ChatGPT?

В отличие от GitHub Copilot, который фокусируется на дополнении кода, Claude Opus 4.1 обрабатывает все рабочие процессы решения проблем, включая отладку и рефакторинг, предлагая при этом гибридные режимы рассуждений, которые могут переключаться между быстрыми ответами и расширенным мышлением для сложных задач — возможность, недоступная в стандартных реализациях ChatGPT.

Как разработчики и компании могут интегрировать Claude Opus 4.1 в свои рабочие процессы и платформы?

Разработчики могут получить доступ к Claude Opus 4.1 через API, используя тег «claude-opus-4-1-20250805», через Amazon Bedrock, Google Cloud Vertex AI или через Claude Code для интеграции с командной строкой по той же цене, что и Opus 4, и без необходимости внесения изменений в код для существующих реализаций.

Алекс МакФарланд — журналист и писатель, занимающийся искусственным интеллектом. Он сотрудничал с многочисленными стартапами и публикациями в области искусственного интеллекта по всему миру.