Connect with us

Оголошення

Anthropic випускає Claude Opus 4.1, який б’є рекорди в кодуванні

mm

Anthropic сьогодні запустила Claude Opus 4.1, оновлену версію своєї флагманської AI-моделі, яка демонструє 74,5% точності в реальних завданнях кодування, встановлюючи новий рекорд, зберігаючи при цьому ту саму ціну, що й попередня версія.

Це оновлення є стратегічним кроком на тлі очікувань AI-індустрією релізу GPT-5 від OpenAI, оскільки Anthropic позиціонує свою останню модель як конкурентну альтернативу, яка відмінно справляється зі складними завданнями програмування та автономного виконання завдань. Компанія обіцяє “істотно більші покращення” в найближчі тижні, що сигналізує про загострення конкуренції між провідними розробниками AI.

Ключові покращення продуктивності

Згідно з оголошенням Anthropic, Claude Opus 4.1 покращує продуктивність попередньої версії в трьох ключових областях: агентських завданнях, що вимагають багатокрокового мислення, реальних застосуваннях кодування та аналітичних можливостях мислення.

Модель показала результат 74,5% на бенчмарку SWE-bench Verified, який вимірює здатність AI виявляти та виправляти реальні помилки в програмному забезпеченні з відкритим кодом — перевершивши попередній результат Claude Opus 4 у 72,5% та обійшовши o-серії моделей OpenAI приблизно на п’ять процентних пунктів.

GitHub відзначив особливо сильний прогрес у можливостях рефакторингу коду в кількох файлах, тоді як Rakuten Group підкреслив точність моделі у виявленні виправлень у великих кодобазах без внесення нових помилок. Windsurf, стартап у сфері кодування, повідомив, що Opus 4.1 показав покращення на одне стандартне відхилення порівняно з Opus 4 на їхньому бенчмарку для молодших розробників, порівнюючи цей стрибок у продуктивності з попереднім переходом від Sonnet 3.7 до Sonnet 4.

Доступність та інтеграція

Оновлена модель негайно доступна платним користувачам Claude через веб-інтерфейс і Claude Code, а також через API Anthropic, Amazon Bedrock і Google Cloud Vertex AI. Розробники можуть отримати доступ до нової моделі, використовуючи тег API, без підвищення ціни порівняно з попередньою версією, зберігаючи структуру ціноутворення, яка зробила Claude конкурентоспроможним на корпоративному ринку.

Окрім розробки програмного забезпечення, Claude Opus 4.1 демонструє покращені можливості в аналізі даних та дослідницьких завданнях. Anthropic особливо виділила покращення в “відстеженні деталей та агентському пошуку”, маючи на увазі здатність моделі зберігати контекст під час складних багатокрокових операцій — критично важливу функцію для корпоративних застосувань, що вимагають автономного вирішення проблем.

Контекст галузі та конкуренція

Час релізу здається навмисним, оскільки галузеві звіти припускають, що OpenAI планує представити GPT-5 найближчим часом. Згідно з The Information, очікується, що GPT-5 зосередиться на схожих областях — програмуванні, математиці та агентських завданнях — хоча аналітики прогнозують, що покращення можуть бути поступовими, а не революційними.

Швидка ітерація моделей Claude — це оновлення вийшло всього через три місяці після запуску сімейства Claude 4 у травні — відображає прискорення темпів розвитку AI, оскільки компанії конкурують за позиції на ринку корпоративних та розробницьких інструментів. Це продовжує історію Anthropic, яка позиціонує себе як альтернативу OpenAI з акцентом на безпеку, зберігаючи при цьому конкурентоспроможні показники продуктивності.

Технічні деталі та реалізація

Системна картка показує, що Claude Opus 4.1 є гібридною моделлю мислення, здатною працювати з розширеними режимами мислення або без них. Для бенчмарків, таких як SWE-bench Verified і Terminal-Bench, модель досягла своїх результатів без розширеного мислення, тоді як інші бенчмарки, такі як GPQA Diamond і MMMU, використовували до 64K токенів розширеної мисленної потужності.

Модель продовжує використовувати ту саму просту структуру для тестування SWE-bench, яку Anthropic застосовувала в сімействі Claude 4 — надаючи моделі лише інструмент bash та інструмент редагування файлів, який працює через заміну рядків. Цей мінімалістичний підхід контрастує з більш складними реалізаціями, але все одно досягає провідних у галузі результатів.

Погляд у майбутнє

Anthropic рекомендує всім поточним користувачам Opus 4 оновитися до нової версії для всіх випадків використання. Компанія надала комплексну документацію, включаючи сторінку моделі та технічні специфікації для розробників, які зацікавлені у впровадженні технології.

Оскільки і Anthropic, і OpenAI готують значні релізи, найближчі тижні можуть виявитися вирішальними у визначенні лідерства в наступному поколінні можливостей AI. У міру того, як AI-моделі стають все більш складними у своїх мисленнєвих та кодувальних можливостях, конкуренція зміщується від сирих показників продуктивності до практичної реалізації та надійності в робочих середовищах.

Поширені запитання (Claude Opus 4.1)

Як Claude Opus 4.1 покращує завдання кодування та мислення порівняно з попередніми версіями?

Claude Opus 4.1 показує 74,5% на SWE-bench Verified (порівняно з 72,5% у Opus 4), з помітними покращеннями в рефакторингу коду в кількох файлах, відстеженні деталей у складних кодобазах та агентських можливостях пошуку, що дозволяють їй ефективніше обробляти багатокрокові завдання мислення.

Які ключові реальні застосування Claude Opus 4.1 у кодуванні та AI-агентах?

Модель відмінно справляється з налагодженням великих кодобаз без внесення нових помилок, автономним рефакторингом коду в кількох файлах, глибоким аналізом даних та дослідницькими завданнями, що вимагають підтримки контексту — що робить її ідеальною для корпоративної розробки програмного забезпечення та оптимізації автоматизованих робочих процесів.

Як продуктивність Claude Opus 4.1 на SWE-bench відображає її можливості кодування?

SWE-bench Verified вимірює здатність AI виявляти та виправляти реальні помилки в програмному забезпеченні з відкритим кодом, і результат Claude Opus 4.1 у 74,5% є найвищим публічно повідомленим показником, що перевершує o-серії моделей OpenAI приблизно на п’ять процентних пунктів.

Які основні відмінності між Claude Opus 4.1 та іншими AI-моделями, такими як GitHub Copilot або ChatGPT?

На відміну від GitHub Copilot, який зосереджений на автодоповненні коду, Claude Opus 4.1 обробляє повні робочі процеси вирішення проблем, включаючи налагодження та рефакторинг, а також пропонує гібридні режими мислення, які можуть перемикатися між швидкими відповідями та розширеним мисленням для складних завдань — можливість, недоступна в стандартних реалізаціях ChatGPT.

Як розробники та бізнеси можуть інтегрувати Claude Opus 4.1 у свої робочі процеси та платформи?

Розробники можуть отримати доступ до Claude Opus 4.1 через API, використовуючи тег “claude-opus-4-1-20250805”, через Amazon Bedrock, Google Cloud Vertex AI або через Claude Code для інтеграції в командному рядку, з тією самою ціною, що й для Opus 4, і без необхідності змін коду в існуючих реалізаціях.

Алекс МакФарланд — журналіст і письменник у сфері штучного інтелекту, який досліджує найновіші досягнення в галузі. Він співпрацював з численними стартапами та виданнями, що спеціалізуються на ШІ, по всьому світу.