Connect with us

75% Потолок: Достигли ли модели ИИ пиковой производительности с помощью текущих методов?

Искусственный интеллект

75% Потолок: Достигли ли модели ИИ пиковой производительности с помощью текущих методов?

mm

Anthropic и OpenAI представили модели ИИ нового поколения с разницей в два дня, обе модели достигли практически идентичной точности 74-75% на отраслевых тестах кодирования, что может указывать на потенциальный потолок производительности для текущих архитектур ИИ, при этом они используют совершенно разные подходы к распространению и реализации.

Ближайшие по времени выпуски вызывают фундаментальные вопросы о том, достигло ли развитие ИИ плато с помощью текущих методов обучения, даже несмотря на то, что компании существенно расходятся в том, каким образом они будут предоставлять эти возможности пользователям и разработчикам по всему миру.

Сходимость на эталонные точки указывает на технический рубеж

Claude Opus 4.1, выпущенная 5 августа компанией Anthropic, набрала 74,5% на SWE-bench Verified, стандартном отраслевом тесте кодирования. GPT-5 от OpenAI, представленная 7 августа, достигла 74,9% на том же тесте — статистически незначимая разница, что говорит о том, что обе компании довели текущие архитектуры до схожих пределов, несмотря на то, что работали независимо.

Разница в 0,4% между моделями попадает в пределы статистического шума для таких тестов.

Подходы к архитектуре, однако, существенно различаются. OpenAI разработала GPT-5 как систему с несколькими моделями и умным маршрутизатором — запросы направляются к быстрым ответчикам для простых задач, моделям рассуждений для сложных проблем или мини-версиям, когда достигаются пределы вычислительных ресурсов. Anthropic сохранила подход с одной моделью в Opus 4.1, отдавая приоритет последовательности над специализированной оптимизацией.

Источник: Anthropic

Стратегии распространения раскрывают конкурирующие философии

OpenAI сделала GPT-5 сразу доступной для всех пользователей ChatGPT, включая тех, кто использует бесплатный тариф — достигая примерно 700 миллионов активных пользователей в неделю без дополнительной платы. Microsoft одновременно интегрировала модель в GitHub Copilot, Visual Studio Code, M365 Copilot и платформы Azure.

Anthropic сохраняет более традиционные ограничения на доступ, предлагая Opus 4.1 платным пользователям Claude, через Claude Code для разработчиков и через доступ по API. Компания, по-видимому, фокусируется на обслуживании разработчиков и предприятий, требующих надежной и последовательной производительности, а не на максимизации охвата распространения.

Цена на GPT-5 агрессивна, и разработчики отмечают благоприятные соотношения стоимости и возможностей, что может заставить конкурентов скорректировать свои стратегии ценообразования.

Требования к инфраструктуре меняют экономику отрасли

Вычислительные требования раскрывают огромный масштаб разработки ИИ нового поколения. OpenAI, как сообщается, поддерживает контракт с Oracle на 30 миллиардов долларов в год на емкость, имея обученную GPT-5 на Microsoft Azure с использованием NVIDIA H200 GPU. Meta объявила о планах потратить 72 миллиарда долларов на инфраструктуру ИИ в 2025 году alone.

Обе компании сообщают о значительных улучшениях в практических приложениях, выходящих за рамки сырых тестов. OpenAI заявляет, что GPT-5 демонстрирует “приблизительно на 45% меньше ошибок, чем GPT-4o”, когда включен поиск в интернете, с режимом мышления, достигающим аналогичных результатов, что и их модель o3, при этом используя на 50-80% меньше токенов — существенный прирост эффективности.

GitHub сообщает, что Opus 4.1 показывает “заметные улучшения производительности при многофайловой рефакторинге кода”, в то время как Cursor, популярный помощник кодирования ИИ, описывает GPT-5 как “замечательно умную и легкую в управлении”, согласно документации разработчика OpenAI.

Источник: OpenAI

Технический потолок предполагает сдвиг парадигмы вперед

Сходимость на схожие показатели производительности среди компаний предполагает, что текущие парадигмы обучения могут приближаться к своим пределам. Множество моделей, сгруппированных вокруг 74-75% точности на тестах кодирования, указывает на то, что следующие значительные улучшения могут требовать фундаментальных инноваций, а не постепенного масштабирования.

Торговые-offs между сложной системой маршрутизации OpenAI и единым подходом Anthropic отражают разные философии без явного победителя. Система с несколькими моделями GPT-5 предлагает гибкость, но вводит потенциальные точки отказа, в то время как последовательность Claude может жертвовать специализированной производительностью ради надежности.

Демократизация возможностей ИИ нового поколения — с функциями, которые стоили тысячи долларов в год два года назад и теперь доступны бесплатно — ускоряет внедрение по всем отраслям. Этот переход ИИ от премиум-сервиса к инфраструктуре может позволить создать совершенно новые категории приложений.

Влияние на рынок и следующие шаги

Наблюдатели отрасли ожидают, что Anthropic ответит на стратегию ценообразования OpenAI, хотя, вероятно, не через прямое сопоставление цен. Google’s DeepMind и Meta, относительно тихие во время этих объявлений, как ожидается, сделают свои ходы в ближайшие месяцы.

48-часовое окно между выпусками показало переход ИИ от экспериментальной технологии к надежной инфраструктуре. Когда несколько компаний достигают практически идентичных результатов тестов с разницей в доли процента, конкуренция смещается в сторону эффективности развертывания, качества интеграции и надежности сервиса.

Практические улучшения имеют большее значение, чем превосходство в тестах. SWE-bench Verified измеряет способность ИИ определять и исправлять реальные ошибки в открытом программном обеспечении, и результаты обеих моделей представляют значительный прогресс в автономных возможностях кодирования.

По мере того, как модели ИИ становятся все более сложными в своих рассуждениях и возможностях кодирования, конкуренция смещается от сырых показателей производительности к практической реализации и надежности в производственных средах. Удивительная правда? Эта стабильность может позволить более трансформационные изменения, чем новый прорыв.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.