Оголошення
Антропік випускає Claude Opus 4.1, розбиває бенчмарки кодування

Антропік сьогодні випустив Claude Opus 4.1, оновлену версію своєї флагманської моделі штучного інтелекту, яка досягає 74,5% точності при виконанні реальних завдань кодування, встановлюючи новий рекорд бенчмарків, зберігаючи при цьому ту ж саму ціну, що й у попередньої версії.
Оновлення є стратегічним кроком, оскільки індустрія штучного інтелекту очікує випуску OpenAI GPT-5, при цьому Антропік позиціонує свою останню модель як конкурентну альтернативу, яка excels у складних програмних завданнях та автономному виконанні завдань. Компанія обіцяє “суттєво більші покращення” у найближчі тижні, що свідчить про посилення конкуренції серед провідних розробників штучного інтелекту.
Ключові покращення продуктивності
За заявою Антропіка, Claude Opus 4.1 покращує продуктивність попередньої версії в трьох ключових областях: агентських завданнях, які вимагають багатокрокового мислення, реальних застосуваннях кодування та аналітичних можливостях.
Модель досягла 74,5% на SWE-bench Verified бенчмарку, який вимірює здатність штучного інтелекту визначати та виправляти фактичні помилки в відкритому програмному забезпеченні – перевершуючи попередній результат Claude Opus 4 на рівні 72,5% і перевершуючи моделі o-серії OpenAI приблизно на п’ять відсоткових пунктів.
GitHub відзначив особливо сильні здобутки в багатокрокових можливостях рефакторингу коду, тоді як Rakuten Group підкреслив точність моделі при визначенні коригувань у великих кодових базах без введення нових помилок. Windsurf, стартап, що займається кодуванням, повідомив, що Opus 4.1 забезпечив покращення на один стандартний відхил від Opus 4 на їхньому бенчмарку для молодших розробників, порівнюючи стрибок продуктивності з попереднім стрибком від Sonnet 3.7 до Sonnet 4.
Доступність та інтеграція
Оновлена модель доступна негайно для платних користувачів Claude через веб-інтерфейс і Claude Code, а також через API Антропіка, Amazon Bedrock і Google Cloud Vertex AI. Розробники можуть отримати доступ до нової моделі, використовуючи тег API без підвищення ціни порівняно з попередньою версією, зберігаючи цінову структуру, яка зробила Claude конкурентоспроможним на ринку підприємств.
Поза програмним забезпеченням Claude Opus 4.1 демонструє покращені можливості в задачах аналізу даних та досліджень. Антропік особливо підкреслив покращення в “відстежуванні деталей та агентському пошуку”, маючи на увазі здатність моделі зберігати контекст під час складних багатокрокових операцій – критичної функції для підприємств, які вимагають автономного вирішення проблем.
Контекст індустрії та конкуренція
Тимінг випуску здається навмисним, оскільки індустрія очікує майбутнього випуску OpenAI GPT-5, при цьому Антропік позиціонує свою останню модель як конкурентну альтернативу, яка excels у складних програмних завданнях та автономному виконанні завдань. Компанія обіцяє “суттєво більші покращення” у найближчі тижні, що свідчить про посилення конкуренції серед провідних розробників штучного інтелекту.
Швидка ітерація моделей Claude – з цією оновленою версією, випущеною всього за три місяці після запуску сім’ї моделей Claude 4 у травні – відображає прискорений темп розвитку штучного інтелекту, оскільки компанії конкурують за позицію на ринку підприємств та розробників. Це слідує історії Антропіка щодо позиціонування себе як безпечної альтернативи OpenAI, зберігаючи при цьому конкурентоспроможні показники продуктивності.
Технічні деталі та реалізація
Картка системи системи показує, що Claude Opus 4.1 є гібридною моделлю мислення, здатною працювати з або без розширених режимів мислення. Для бенчмарків, таких як SWE-bench Verified і Terminal-Bench, модель досягла своїх результатів без розширених режимів мислення, тоді як інші бенчмарки, такі як GPQA Diamond і MMMU, використовували до 64K токенів розширеної можливості мислення.
Модель продовжує використовувати той самий простий каркас для тестування SWE-bench, який Антропік використовував у всіх моделях сім’ї Claude 4 – оснастивши модель лише інструментом bash і інструментом редагування файлів, який працює через заміну рядків. Цей мінімалістський підхід контрастує з більш складними реалізаціями, проте все ж досягає лідерських результатів у галузі.
Перспектива
Антропік рекомендує всім поточним користувачам Opus 4 оновити до нової версії для всіх випадків використання. Компанія надала повну документацію, включаючи сторінку моделі та технічні характеристики для розробників, які цікавляться імплементацією технології.
З обома Антропіком і OpenAI, які готують значні випуски, найближчі тижні можуть стати вирішальними для визначення лідерства у наступному поколінні можливостей штучного інтелекту. Коли моделі штучного інтелекту стають дедалі більш досконалими у своєму мисленні та кодуванні, конкуренція переходить від суто продуктивних показників до практичної реалізації та надійності у виробничих середовищах.
Часті питання (Claude Opus 4.1)
Як Claude Opus 4.1 покращує завдання кодування та мислення порівняно з попередніми версіями?
Claude Opus 4.1 досягає 74,5% на SWE-bench Verified (у порівнянні з 72,5% у Opus 4), з помітними покращеннями у багатокроковому рефакторингу коду, відстежуванні деталей у складних кодових базах та агентських можливостях пошуку, які дозволяють йому краще виконувати багатокрокові завдання.
Які ключові реальні застосування для Claude Opus 4.1 у кодуванні та агентах штучного інтелекту?
Модель excels у виправленні великих кодових баз без введення нових помилок, автономному рефакторингу коду у декілька файлів, глибокому аналізі даних та завданнях дослідження, що вимагають підтримки контексту – роблячи її ідеальною для розробки програмного забезпечення підприємств та автоматизованої оптимізації робочих процесів.
Як продуктивність Claude Opus 4.1 на SWE-bench відображає його можливості кодування?
SWE-bench Verified вимірює здатність штучного інтелекту визначати та виправляти фактичні помилки в відкритому програмному забезпеченні, і 74,5% результату Claude Opus 4.1 представляє найвищий публічно заявлений результат, перевершуючи моделі o-серії OpenAI приблизно на п’ять відсоткових пунктів.
Які основні відмінності між Claude Opus 4.1 та іншими моделями штучного інтелекту, такими як GitHub Copilot або ChatGPT?
На відміну від GitHub Copilot, який зосереджується на завершенні коду, Claude Opus 4.1 обробляє повні робочі потоки вирішення проблем, включаючи виправлення помилок та рефакторинг, пропонуючи при цьому гібридні режими мислення, які можуть перемикатися між швидкими відповідями та розширеним мисленням для складних завдань – можливістю, якої немає у стандартних реалізаціях ChatGPT.
Як розробники та підприємства можуть інтегрувати Claude Opus 4.1 у свої робочі потоки та платформи?
Розробники можуть отримати доступ до Claude Opus 4.1 через API, використовуючи тег “claude-opus-4-1-20250805”, через Amazon Bedrock, Google Cloud Vertex AI або через Claude Code для командної інтеграції, з тією ж ціною, що й у попередній версії, без необхідності змінювати код для існуючих реалізацій.












