Лидеры мнений
Новый цифровой разрыв в ИИ: почему модели, готовые к краю и основанные на ЦП, выиграют войну затрат

Глобальный рынок искусственного интеллекта (ИИ) расширяется с удивительной скоростью. В 2024 году он был оценен в 257,68 миллиарда долларов, а прогнозы предполагают, что к концу 2025 года он достигнет 371,71 миллиарда долларов и к 2032 году вырастет до 2,4 триллиона долларов. Это почти десятикратный рост за менее чем decade, траектория, сопоставимая с некоторыми из наиболее трансформирующих технологических бумов в современной истории.
За последнее decade примерно 1 500 новых компаний ИИ каждая получила инвестиции в размере более 1,5 миллиона долларов, что указывает не только на волну инноваций, но и на сильное присутствие жесткой конкуренции. Установленные компании также не сидят на стороне. Согласно отчету McKinsey от января, поразительные 92% организаций планируют увеличить свои расходы на ИИ в течение следующих трех лет.
Но по мере того, как внедрение ИИ ускоряется, инфраструктура, поддерживающая его, начинает показывать трещины. За последние два года ИИ сместился от демонстрационных примеров к постоянным, реальным рабочим нагрузкам.
Настоящая проблема не только в качестве модели, но и в том, где и как эти модели работают. Новая цифровая пропасть формируется, не вокруг доступа к данным или талантам, а вокруг вычислительной стратегии. Организациим приходится принимать важное решение: продолжать полагаться на системы, ориентированные на графические процессоры (GPU), или принять более экономичные, готовые к краю, архитектуры, основанные на центральных процессорах (ЦП), которые дешевле в эксплуатации в масштабе, проще в развертывании в различных средах и лучше соответствуют потребностям в конфиденциальности и задержке.
Эти архитектурные решения имеют значение, потому что реальная нагрузка не в построении моделей, а в их запуске день за днем. Это то место, где затраты на вывод быстро превосходят затраты на обучение и определяют экономику ИИ в масштабе.
Вывод поглощает бюджеты ИИ
Хотя заголовки часто подчеркивают огромные расходы на обучение передовых моделей, вывод является счетом, который никогда не прекращается. Индекс ИИ Стэнфорда за 2025 год отмечает, что быстрые достижения в области небольших моделей привели к снижению стоимости достижения производительности на уровне “GPT-3.5” более чем на 280 раз между концом 2022 года и концом 2024 года. Однако тот же отчет подчеркивает одержимость отрасли оптимизацией эффективности вывода.
Цены на GPU в облаке только усилили давление. Аренда высококлассных экземпляров GPU может стоить почти вдвое больше стоимости владения тем же оборудованием. Эластичность полезна для пиковых рабочих нагрузок, но долгосрочные “аренды” вывода тихо истощают бюджеты. Даже NVIDIA, чей бизнес зависит от ускорителей, потратил прошлый год на агрессивную оптимизацию вывода на своем стеке. Это свидетельствует о том, что реальная битва смещается от производительности обучения к экономике обслуживания.
Эта возникающая проблема с затратами означает, что организации, которые не готовы или не могут пересмотреть свою вычислительную стратегию, рискуют быть оставленными позади.
Почему край (и ЦП) меняют кривую затрат
Суровая реальность заключается в том, что вывод, ориентированный на GPU, создает неустойчивую экономику. Запуск крупных, реальных рабочих нагрузок ИИ на дорогих GPU не только увеличивает затраты, но и ускоряет амортизацию оборудования. Циклы инноваций происходят так быстро, часто менее 18 месяцев между новыми поколениями чипов, что инвестиции в инфраструктуру быстро теряют свою стоимость. Это привело к предупреждениям аналитиков о затратах на амортизацию, связанных с покупкой чипов ИИ, поскольку они уже снижают прогнозы прибыли. Например, Alphabet, как ожидается, поглотит 28 миллиардов долларов на затраты на амортизацию к 2026 году.
Фабрики, клиники, магазины и мобильные устройства – это места, где ИИ будет все чаще работать. Отправка каждого запроса в централизованную ферму GPU часто является неправильным инструментом для работы, поскольку это дорого, энергозатратно и склонно к задержке и проблемам с конфиденциальностью.
Среды края не являются однородными фермами GPU. Они представляют собой разнообразные парки ЦП: серверы, укрепленные ПК, ноутбуки и портативные устройства. Это разнообразие делает ЦП естественной основой для экономически эффективного развертывания ИИ.
В этом новом ландшафте ЦП не являются просто запасным вариантом, они являются экономически эффективным путем к масштабируемому, доступному ИИ.
GPU как “частный самолет” ИИ
По мере того, как модели становятся больше и более сложными, они требуют больше мощности GPU, что не только увеличивает инфраструктурные и энергетические затраты, но и концентрирует передовые возможности ИИ в руках тех, кто может их себе позволить.
Исследования показывают, что крупные, общего назначения генеративные модели часто используют намного больше энергии и генерируют значительно больше выбросов углекислого газа на 1 000 выводов по сравнению с меньшими, специализированными системами. Даже при контроле количества параметров архитектуры, ориентированные на GPU, усиливают как финансовые, так и операционные барьеры. Со временем это создает бутылочное горлышко, делая чрезвычайно трудным для стартапов, исследователей и недостаточно обеспеченных сообществ получить доступ к передовым инструментам ИИ.
Это проблема эксклюзивности: GPU похожи на частные самолеты ИИ, они быстрые и мощные, но доступные только для небольшого круга хорошо финансируемых организаций.
Но признание этих ограничений не означает полное отвержение GPU. Они остаются исключительными для определенных классов моделей и шаблонов пропускной способности. Стратегия, ориентированная на ЦП, не является анти-GPU. Это экономически эффективное решение.
Этот подход расширяет доступ и гарантирует, что развертывание ИИ обусловлено эффективностью, а не престижем. Вместо будущего, определяемого эксклюзивностью GPU, ЦП открывают дверь к масштабируемому, устойчивому и инклюзивному развертыванию ИИ.
Необходимый переход к моделям, управляемым ЦП
Если экономика ИИ должна масштабироваться устойчиво, решение заключается в том, чтобы переосмыслить, как модели обучаются и развертываются. Одним из подходов является приоритет высокоэнтропийных данных и краевых случаев во время обучения. Эти входные данные стимулируют значительный прогресс и могут снизить потребность в огромных наборах данных, позволяя моделям работать с меньшим количеством параметров, оставаясь при этом высокоэффективными.
Будучи достаточно компактными, чтобы работать на коммерческих ЦП, будь то в ноутбуках, смартфонах, серверах или устройствах Интернета вещей (IoT), эти модели значительно снижают затраты на вывод и энергопотребление. Они также позволяют выполнять обработку в реальном времени непосредственно на устройстве, снижая задержку и улучшая конфиденциальность, сохраняя конфиденциальные данные локально.
Этот сдвиг не только о затратах, но и об равенстве. В секторах, таких как здравоохранение, где уже существуют “пустыни” доступа, развертывание ИИ, готового к краю и основанного на ЦП, может мостить разрывы, доставляя передовые инструменты ИИ непосредственно в клиники, контакт-центры или полевые устройства без зависимости от дефицитных, централизованных вычислительных ресурсов. Результатом является более широкое внедрение, улучшенная устойчивость и более инклюзивное распределение преимуществ ИИ.
От власти к доступу: ЦП как великий уравнитель в ИИ
Грядущие годы не только проверят, кто может построить наиболее мощные модели ИИ, но и кто сможет доставить их эффективно, устойчиво и в масштабе. Модели, оптимизированные для ЦП и готовые к краю, предлагают путь вперед. Позволяя ИИ работать эффективно на коммерческом оборудовании, они снижают барьеры для стартапов и исследователей, снижают зависимость от хрупких цепочек поставок и вводят передовые приложения в среды, где централизованные кластеры GPU непрактичны.
Оценка инфраструктуры ИИ с помощью метрик, таких как общая стоимость на транскрибированный час, баллы развертывания и готовность к краю, гарантирует, что решения оцениваются не только по точности бенчмарка, но и по их способности масштабироваться доступно и инклюзивно в реальном мире.
Ставки высоки. Если отрасль продолжит рассматривать GPU как стандарт, доступ останется эксклюзивным, инновации будут концентрироваться, а распространение в государственные услуги, здравоохранение и недостаточно обеспеченные сектора будет отставать. Но если стратегии, ориентированные на ЦП и готовые к краю, возьмут верх, ИИ может стать более устойчивым, частным и устойчивым. Это не только выравнивает поле, но и переопределяет его.












