Connect with us

Нет, ИИ не тормозит. Вы смотрите на неправильную доску счета

Лидеры мнений

Нет, ИИ не тормозит. Вы смотрите на неправильную доску счета

mm

Руководители начали сомневаться в своих дорожных картах ИИ. После первоначального всплеска генеративных инструментов в 2023 году, естественно задаться вопросом, не замедлился ли импульс. Но этот вопрос неправильно интерпретирует доску счета. Прогресс ИИ не остановился. Он сместился.

То, что когда-то казалось экспоненциальным изменением на поверхности, плавным письмом, отполированными резюме, теперь происходит в более глубоких, значимых областях: рассуждении, коде, оркестровке рабочих процессов и многомодальном понимании. Эти достижения менее эффектны, но намного более значимы. Если вы все еще измеряете ИИ по его способности написать лучший абзац, вы пропускаете фактическую трансформацию.

Настоящие выигрыши происходят там, где выполняется работа

Прогресс ускоряется там, где он имеет наибольшее значение. На новых, строгих эталонах, таких как GPQA, который оценивает рассуждение в области науки на уровне магистра, производительность модели выросла почти на 49% пунктов в год. На MMMU, который тестирует задачи в разных доменах и многомодальные задачи, оценки выросли почти на 19 пунктов. SWE-bench, эталон, который требует исправления реальных кодовых баз GitHub и прохождения автоматических тестов, вырос с 4,4% до более 71% за один год.

Эти не являются незначительными улучшениями. Они показывают, что крупные языковые модели осваивают задачи, которые требуют точности, рассуждения и интеграции в сложные системы. SWE-bench, в частности, выходит за пределы тривиальных задач и демонстрирует, могут ли модели участвовать в фактическом разработке программного обеспечения, порог, который когда-то казался отдаленным.

В то же время предприятия эволюционируют свои ожидания. Теперь недостаточно, чтобы модели были “общеинтеллектуальными”, они должны быть конкретно полезными. Сдвиг в сторону адаптированных моделей, систем, связанных с инструментами, и многоагентных框мов отражает растущий спрос на производительность, которая является операционной, аудиторской и интегрированной в реальные рабочие процессы.

Нарратив не соответствует реальности

Итак, почему кажется, что все замедляется? Есть две причины. Во-первых, эталоны, которые изначально привлекли внимание, резюмирование текста, генерация электронной почты и простые задачи чата, достигли естественных пределов. Как только модель последовательно выполняет задачи с точностью 90%, выигрыши кажутся минимальными. Это потолочный эффект, а не плато в прогрессе.

Современные улучшения включают долгосрочную память, интеграцию инструментов, рассуждение во время вывода и домен-специфическую точность. Эти возможности не производят вирусные демонстрации, но они значительно улучшают, что могут делать модели в реальных рабочих процессах. Хотя традиционные языковые эталоны достигли потолка, операционные эталоны, связанные с реальным рассуждением, использованием инструментов и надежностью предприятия, улучшаются быстрее, чем когда-либо. Этот разрыв объясняет несоответствие: случайные наблюдатели видят застой, потому что поверхность не изменилась, но практики видят трансформацию, происходящую прямо под ней.

От демонстраций к развертыванию

ИИ больше не ограничивается эффектными демонстрациями или узкими прототипами. Он переходит в фазу основного развертывания, особенно в корпоративных средах, где важны надежность, точность и доставка результатов. Сдвиг в сторону структурированных, задачно-специфических систем уже начался.

К 2026 году 40% корпоративных приложений будут включать встроенные агенты ИИ, что является огромным скачком от всего 5% в 2025 году. Эти агенты предназначены не просто для ответа на запросы, а для выполнения задач, оркестровки рабочих процессов и доставки осязаемых результатов в таких областях, как финансы, кибербезопасность и операции с клиентами.

Эта эволюция отражает более глубокий технический сдвиг. Ведущие разработчики ИИ, включая OpenAI, переходят от грубой масштабирования к рассуждению во время вывода, что позволяет моделям мыслить над проблемами, проверять выводы и взаимодействовать с внешними инструментами динамически. То, что когда-то казалось узкой автоматизацией, становится чем-то гораздо более способным: агентами, которые планируют, адаптируются и выполняют задачи надежно. Это не больший ИИ, это умнее ИИ, построенный для реальной работы.

И эта реальная работа измеряется, а не просто представляется. Корпорации переходят от циклов доказательства концепции к производственно-готовым развертываниям с четкими КПИ и бизнес-целями, связанными с результатами. Эта зрелая фаза больше не о новизне, а о надежности.

Ошибка, которую руководители собираются совершить

Настоящий риск, с которым сталкиваются корпоративные лидеры сегодня, заключается не в том, что прогресс ИИ остановился. Это то, что они поверят, что он остановился, и приостановят инвестиции в тот момент, когда возможности ускоряются под поверхностью.

Организации, которые обгоняют других, не ждут следующего показа в стиле GPT. Они встраивают сегодняшний ИИ в высокоценные, межфункциональные рабочие процессы и доставляют измеримое бизнес-воздействие. Более двух третей организаций, использующих ИИ, сообщают о значительном снижении затрат или росте доходов, напрямую связанных с этими развертываниями. Наиболее успешные адоптеры были теми, кто интегрировал ИИ в несколько бизнес-функций и автоматизировал целые процессные цепочки.

Однако многие исполнительные команды все еще застряли в устаревших рамках оценки. Они полагаются на академические эталоны, которые больше не отражают сложность реальных корпоративных задач. Они чрезмерно оптимизируют для эффективности токенов, не учитывая операционную ценность точности, восстановления и интеграции.

Это не просто техническая задержка, это стратегическая. Разрыв между компаниями, которые переработали свой подход к ИИ, и теми, кто не сделал этого, расширяется. И скоро он не будет измеряться в развертываемых моделях, а в захваченной доле рынка и времени, необходимом для получения результата.

Как переосмыслить оценку ИИ

Пора обновить доску счета. Организации должны отслеживать полное выполнение задач, оркестровку инструментов и многомодальные рабочие процессы. Модели должны оцениваться не только на основе того, “отвечают ли они на вопрос”, но и на основе того, выполняют ли они многоступенчатую задачу, восстанавливаются ли после сбоя и производят ли вывод, который интегрируется в существующие системы.

Эталоны, такие как GPQA, MMMU и SWE-bench, являются началом. Но внутренние эталоны, построенные вокруг конкретного домена и рабочих процессов предприятия, еще более важны.

Современный ИИ способен доставлять высокоценные результаты, но только если вы тестируете на те результаты, которые имеют значение.

То, что определит следующую волну успеха, не будет моделями с наибольшим количеством параметров, а системами, которые работают надежно в конкретном бизнес-контексте. Точность, аудитория, поддержка инструментов и восстановление после ошибки будут иметь больше веса, чем плавность или тон.

Фронтир переместился

ИИ не застойный. Он переходит в слои, где происходит реальная работа, где системы должны рассуждать, проверять и взаимодействовать в разных доменах. Он оставляет позади фазу новизны и входит в фазу инфраструктуры.

Компании, которые понимают этот сдвиг, уже строят преимущество. Они не гонятся за следующей вирусной демонстрацией. Они захватывают реальную производительность, улучшают время решения и масштабируют процессы с точностью и скоростью.

Если вы все еще смотрите на старую доску счета, вы пропускаете очки, набранные где-то еще. Следующие лидеры не будут теми, кто ждал фейерверков. Они будут теми, кто увидел через шум и действовал на основе реального сигнала.

Steve Wilson является главным офицером по искусственному интеллекту в Exabeam, где он руководит разработкой передовых решений кибербезопасности на основе искусственного интеллекта для глобальных предприятий. Как опытный руководитель технологического сектора, Уилсон провел свою карьеру, проектируя крупномасштабные облачные платформы и безопасные системы для организаций Global 2000. Он широко уважаем в сообществах искусственного интеллекта и безопасности за сочетание глубокой технической экспертизы с реальным применением в предприятиях. Уилсон также является автором Руководства разработчика по безопасности крупномасштабных языковых моделей (O’Reilly Media), практического руководства по обеспечению безопасности систем GenAI в современных программных стеках.