Connect with us

Инфраструктура ИИ сломана. Токены становятся новой мерой ценности.

Лидеры мнений

Инфраструктура ИИ сломана. Токены становятся новой мерой ценности.

mm

Индустрия ИИ имеет проблему измерения.

На протяжении многих лет успех определялся доступом к вычислительным ресурсам, таким как кто имеет больше GPU, крупнейшие кластеры или быстрые обучающие запуски. Миллиарды были вложены в инфраструктуру, чтобы выиграть эту гонку.

Но когда ИИ переходит от экспериментов к производству, эта модель начинает разрушаться.

Корпорации не покупают GPU. Они даже не покупают емкость вывода. Они покупают результаты, такие как сводки, рекомендации, решения, контент. Другими словами, они покупают токены.

Однако большинство инфраструктуры ИИ по-прежнему спроектировано так, как если бы вычислительные ресурсы были конечной целью. Это не так.

Настоящая единица ценности в ИИ – это токен. И компании, которые признают это изменение раньше, определят следующую эпоху рынка.

Возникновение фабрики токенов ИИ

Если токены являются продуктом, то инфраструктура ИИ должна вести себя как производственная система, а не как научный проект. Вот где появляется концепция фабрики токенов ИИ.

Фабрика токенов ИИ – это не просто еще один программный слой в стеке. Это переосмысление самого стека. Вместо оптимизации изолированного моделирования или сырого использования оборудования она фокусируется на одном результате: эффективном производстве токенов в масштабе.

Это означает абстрагирование сложности инфраструктуры, динамическое распределение рабочих нагрузок в гетерогенных средах и непрерывную оптимизацию для пропускной способности, задержки, использования и стоимости токена.

Сегодняшняя модель по сути является арендой GPU с дополнительными шагами. Организации обеспечивают дорогое оборудование, соединяют фрагментированные инструменты и надеются, что использование в конечном итоге оправдает инвестиции.

Фабрика токенов переворачивает это уравнение полностью. Она обеспечивает вывод, а не инфраструктуру, и рассматривает эффективность как основной принцип проектирования с первого дня. Это не инкрементальный прогресс. Это сдвиг от инфраструктуры как емкости к инфраструктуре как производству.

Почему старая модель не может удержаться

Текущая модель инфраструктуры ИИ не только неэффективна. Она становится все более неустойчивой.

Дефицит GPU раскрыл первые трещины. Спрос продолжает опережать предложение, заставляя организации использовать фрагментированные, многосторонние развертывания. То, что началось как временное решение, быстро стало нормой: гетерогенные среды, соединенные без единой операционной системы.

Проблема заключается в том, что большинство существующих стеков не были построены для этой реальности. Они не оптимизируют эффективно между архитектурами, не адаптируются в реальном времени и не обеспечивают четкой видимости производительности и стоимости.

В результате сложность увеличивается быстрее, чем масштаб.

Каждая новая модель, фреймворк, ускоритель или облачная платформа вводит еще один слой операционных накладных расходов. Команды тратят огромное количество времени на управление оркестровкой, совместимостью, маршрутизацией, планированием и наблюдением вместо улучшения результатов.

То, что должно быть преимуществом масштабирования, быстро становится проблемой координации.

В то же время экономические показатели становятся все труднее игнорировать. Ранние развертывания ИИ могли скрыть неэффективность за ростом и экспериментами. Это окно закрывается.

Руководители теперь задают более сложные вопросы: Почему стоимость вывода так непредсказуема? Почему использование GPU все еще так низко? Почему организации платят премиальные цены за оборудование, которое часто простаивает? Почему так трудно связать расходы на инфраструктуру с бизнес-результатами?

Ответ прост: Система была разработана для доступа, а не для эффективности.

От вычислительной модели к токен-центрической архитектуре

Сдвиг к фабрикам токенов является как философским, так и архитектурным.

Во-первых, рынок переходит от GPU в качестве сервиса к результату в качестве сервиса. Клиенты не хотят управлять инфраструктурой; они хотят гарантированные результаты. Логический конечный результат – это потребление на основе вывода, а не ресурсов.

Во-вторых, фрагментированные стека отдают место единой системе управления. В гетерогенной среде видимость и контроль являются всем. Фабрики токенов обеспечивают реальное понимание использования, стоимости и производительности и возможность действовать на основе этого. Организациям необходимо понять: Кто генерирует токены? По какой цене? На каком оборудовании? Под какой рабочей нагрузкой? И с каким уровнем эффективности? Без этих ответов оптимизация становится догадкой.

Наконец, фокус отрасли смещается от выполнения к непрерывной оптимизации. Вызов заключается не только в запуске моделей, но и в запуске их интеллектуально, поскольку организации определяют: Какие рабочие нагрузки принадлежат какому оборудованию? Как можно максимизировать пропускную способность, контролируя стоимость? Как можно предотвратить неконтролируемое использование токенов?

Фабрики токенов рассматривают эти вопросы как первоочередные проблемы, а не как второстепенные.

Почему сегодняшняя модель доставки ИИ не оправдывает ожиданий

Традиционный стек ИИ (охватывающий поставщиков оборудования, облачные платформы, сервисы вывода) был построен в основном для быстрого роста, а не для системной эффективности.

Каждый слой добавляет ценность, но также и стоимость, абстракцию и операционную фрагментацию. Результатом является система с наложенными маржами, ограниченной прозрачностью и увеличивающейся привязкой к поставщикам. Организации в конечном итоге оптимизируют внутри силосов, а не на уровне системы.

Фабрики токенов фундаментально бросают вызов этой модели.

Отключая оборудование от доставки ценности, они обеспечивают оптимизацию от начала до конца. Рабочие нагрузки могут свободно перемещаться между средами. Архитектуры могут эволюционировать без необходимости массовых переписываний. Эффективность становится измеримой, управляемой и непрерывно улучшаемой.

Это то, как корпорации и новые облачные провайдеры могут более эффективно конкурировать с крупнейшими игроками. Не пытаясь сравниться с их масштабом, а превосходя их по эффективности.

Кто выигрывает

Может быть, наиболее деструктивным аспектом этого перехода является то, кого он эмансипирует. Вам не нужно владеть центром обработки данных или даже GPU, чтобы эксплуатировать фабрику токенов.

Важно контролировать оркестровку, оптимизацию и доставку. Это открывает двери для гораздо более широкого круга игроков:

  • Корпорации с большими, постоянными рабочими нагрузками ИИ.
  • Новые облачные провайдеры, оптимизирующие для конкретных вертикалей или случаев использования.
  • Поставщики инфраструктуры, перемещающиеся вверх по стеку.

В этой модели конкурентное преимущество не исходит от накопления вычислительных ресурсов. Оно исходит от производства токенов лучше, быстрее и дешевле, чем кто-либо другой.

Новая битва: Стоимость токена

Следующая фаза конкуренции ИИ не будет выиграна только за счет качества модели. Она будет выиграна за счет эффективности. Более конкретно, за счет стоимости токена.

Кто может обеспечить эквивалентные или лучшие выводы по доле стоимости? Кто может масштабироваться без неконтролируемых расходов на инфраструктуру? Кто может превратить ИИ в предсказуемый, прибыльный бизнес?

Это не вопросы инфраструктуры. Это вопросы производства, требующие производственного мышления.

Будущее не построено на GPU

GPU не уходят, но они больше не являются историей. Токены – это то, что имеет значение.

Организации, которые остаются сосредоточенными на вычислительных ресурсах, сталкиваются с растущими затратами и снижением доходности. Те, кто переходит на токен-центрические системы, откроют фундаментально другую модель, которая соответствует инфраструктуру результатам и стоимость ценности.

Фабрики токенов ИИ не являются далекой концепцией. Они являются неизбежной эволюцией рынка. Единственный реальный вопрос – кто построит их первым и кто останется позади.

Гаурав Шах является вице-президентом по развитию бизнеса и стратегии в NeuReality, где он руководит усилиями клиентов по революционизации вывода ИИ и ускорению его внедрения в различные секторы, включая финтех, хелс-тех и государственный сектор. Гаурав имеет три десятилетия опыта работы в технологической отрасли, работая на должностях по маркетингу и управлению продуктами в NVIDIA, Marvell, Tenstorrent и GlobalFoundries. Он базируется в районе залива Сан-Франциско.