Искусственный интеллект

Потолок в 75%: достигли ли модели ИИ пиковой производительности при использовании текущих методов?

опубликованный 11 августа 2025

Алекс МакФарланд

Антропный и OpenAI представили передовые модели ИИ с разницей в два дня, обе достигли практически одинаковой точности 74–75 % на отраслевых тестах кодирования, что свидетельствует о потенциальном пределе производительности современных архитектур ИИ, при этом используя кардинально разные подходы к распространению и внедрению.

Почти одновременные релизы поднимают фундаментальные вопросы о том, достигла ли разработка ИИ предела при существующих методах обучения, даже несмотря на то, что компании резко расходятся во мнениях о том, как предоставить эти возможности пользователям и разработчикам по всему миру.

Сближение показателей указывает на техническую веху

Клод Опус 4.1, выпущенный 5 августа компанией Anthropic, набрал 74.5% на SWE-bench Verified, стандартном отраслевом тесте кодирования. OpenAI GPT-5, анонсированная 7 августа, набрала 74.9% в том же тесте — статистический показатель, который говорит о том, что обе компании, несмотря на независимую работу, довели текущие архитектуры до схожих пределов.

Разница в 0.4% между моделями находится в пределах статистического шума для таких показателей.

Однако архитектурные подходы существенно различаются. OpenAI построил GPT-5 как многомодельная система с интеллектуальной маршрутизацией — запросы направляются к быстродействующим системам для простых задач, моделям рассуждений для сложных задач или мини-версиям при достижении пределов вычислительных мощностей. Anthropic сохранил подход с одной моделью в Opus 4.1, отдавая приоритет согласованности перед специализированной оптимизацией.

Источник: Антропный

Стратегии дистрибуции раскрывают конкурирующие философии

OpenAI немедленно предоставила GPT-5 всем пользователям ChatGPT, включая пользователей бесплатной версии, что позволило охватить около 700 миллионов активных пользователей в неделю без каких-либо затрат. Microsoft одновременно интегрировала модель на платформы GitHub Copilot, Visual Studio Code, M365 Copilot и Azure.

Anthropic сохраняет более традиционные ограничения доступа, предлагая Opus 4.1 для платных пользователей Claude, через Claude Code для разработчиков и через доступ к API. Компания, по всей видимости, ориентирована на обслуживание разработчиков и предприятий, которым требуется надежная и стабильная работа, а не на расширение географии распространения.

Ценообразование GPT-5 агрессивное, и разработчики отмечают выгодное соотношение цены и производительности, которое может заставить конкурентов скорректировать свои ценовые стратегии.

Требования инфраструктуры меняют экономику отрасли

Вычислительные требования демонстрируют масштабы передовых разработок в области искусственного интеллекта. OpenAI, как сообщается, поддерживает Годовой контракт на $30 млрд с Oracle на поставку мощностей, обучив GPT-5 на Microsoft Azure с использованием графических процессоров NVIDIA H200. Компания Meta объявила о планах потратить 72 миллиарда долларов на инфраструктуру ИИ только в 2025 году.

Обе компании сообщают о значительных улучшениях в практических приложениях, выходящих за рамки простых бенчмарков. OpenAI утверждает, что GPT-5 демонстрирует «примерно на 45% меньше ошибок, чем GPT-4o» при включённом веб-поиске, а режим мышления показывает результаты, аналогичные их модели o3, при этом используя на 50–80% меньше токенов, что является существенным повышением эффективности.

Отчеты GitHub Opus 4.1 показывает «заметный прирост производительности при рефакторинге многофайлового кода», в то время как Cursor, популярный помощник по кодированию на основе ИИ, описывает GPT-5 как «удивительно интеллектуальный, простой в управлении», согласно документации для разработчиков OpenAI.

Источник: OpenAI

Технический потолок предполагает смену парадигмы

Сближение показателей эффективности в разных компаниях свидетельствует о том, что текущие парадигмы обучения, возможно, приближаются к своим пределам. Несколько моделей, демонстрирующих точность около 74–75% тесты кодирования указывает на то, что следующие крупные улучшения могут потребовать фундаментальных инноваций, а не постепенного масштабирования.

Архитектурные компромиссы между сложной системой маршрутизации OpenAI и Единый подход Anthropic Отражают разные философии, не имея явного победителя. Многомодельная система GPT-5 обеспечивает гибкость, но привносит потенциальные точки отказа, в то время как последовательность Клода может привести к снижению производительности в пользу надежности.

Демократизация передовых возможностей ИИ — функции, которые два года назад стоили тысячи долларов в год, теперь доступны бесплатно, — ускоряет их внедрение в различных отраслях. Этот переход от ИИ как премиум-услуги к коммунальной инфраструктуре может открыть совершенно новые категории приложений.

Последствия для рынка и дальнейшие шаги

Отраслевые обозреватели ожидают, что Anthropic отреагирует на ценовую стратегию OpenAI, хотя, скорее всего, не путем прямого сопоставления цен. Google DeepMind и Meta, относительно тихие во время этих заявлений, как ожидается, предпримут шаги в ближайшие месяцы.

48-часовой интервал между релизами показал переход ИИ от экспериментальной технологии к надёжной инфраструктуре. Когда несколько компаний достигают практически идентичных результатов тестов с разницей в несколько процентов, конкуренция смещается в сторону эффективности развертывания, качества интеграции и надёжности обслуживания.

Практические улучшения важнее, чем превосходство в бенчмарках. SWE-bench Verified измеряет способность ИИ выявлять и исправлять реальные ошибки в программном обеспечении с открытым исходным кодом, и результаты обеих моделей отражают значительный прогресс в возможностях автономного программирования.

По мере того, как модели ИИ становятся всё более сложными в своих рассуждениях и программировании, конкуренция смещается от простых показателей производительности к практической реализации и надёжности в производственных условиях. Удивительная правда? Эта стабильность может привести к более радикальным изменениям, чем очередной прорыв.

Похожие темы:Клод GPT-5 OpenAI Opus 4.1