Лидеры мнений
Секрет быстрого ИИ не в большем количестве GPU, а в более умной сети

ИИ переопределяет то, что возможно в различных отраслях, включая здравоохранение, финансы, производство и розничную торговлю. Но вместе с перспективным потенциалом он также предъявляет огромные требования к инфраструктуре.
Организации по всему миру инвестируют в GPU в беспрецедентном масштабе, чтобы ускорить обучение и вывод ИИ. К 2028 году Gartner предсказывает, что расходы на ИТ в области генеративного ИИ превысят 1 триллион долларов. Hyperion Research прогнозирует, что общий рынок HPC превысит 100 миллиардов долларов в то же время. Однако, несмотря на инвестиции в передовые ускорители, многие CIO продолжают сталкиваться с простаиванием GPU, при этом уровень использования составляет 35% или ниже. Это не только приводит к недоиспользованию, но и к расточительству энергии и увеличению затрат.
Хотя многие проекты ИИ застревают, это не потому, что им не хватает GPU или вычислительной мощности, а потому, что сеть не может справиться, требуя нового подхода к проектированию для ИИ в масштабе.
Скрытая стоимость сетевых瓶颈ов
Когда сети не могут обеспечить передачу данных достаточно быстро, чтобы поддерживать постоянную загрузку GPU, организации сталкиваются с несколькими критическими последствиями:
- Недоиспользование GPU и CPU из-за瓶颈ов в передаче данных: GPU предназначены для массово-параллельных вычислений, но они могут обрабатывать данные только так быстро, как они получают их. Если сетевая ткань не может справиться, GPU простаивают, ожидая данных, вместо того, чтобы выполнять вычисления. CPU также могут простаивать, поскольку они координируют задачи и перемещают данные через конвейер, что приводит к низкому использованию, несмотря на наличие дорогого оборудования.
- Несовместимая производительность вывода из-за неэффективной сети: Неэффективность сети создает неравномерные потоки данных, что приводит к колебаниям GPU между полной скоростью и простоем. Это приводит к непредсказуемой производительности вывода, которая может парализовать приложения ИИ в производстве.
- Более длительные циклы обучения, задерживающие время выхода на рынок: Обучение моделей ИИ требует перемещения огромных наборов данных через серверы, GPU и хранилища. Сетевые瓶ネки тормозят этот процесс, поэтому GPU тратят меньше времени на обучение и больше времени на ожидание. Это напрямую замедляет графики разработки и развертывания продукта.
- Растущие энергетические и эксплуатационные затраты: Даже когда они простаивают, GPU и окружающая инфраструктура продолжают потреблять значительное количество энергии. Если GPU недоиспользуются из-за сетевой неэффективности, организации платят за высокое энергопотребление без получения пропорциональной производительности. Эксплуатационные затраты увеличиваются, поскольку объекты должны поддерживать пиковые нагрузки энергии и охлаждения, даже если вычислительная производительность искусственно ограничена.
Корпорации могут продолжать вкладывать деньги в еще больше GPU, но без надлежащего улучшения сети они только усугубят эти瓶ネки и неэффективность.
Сеть как ускоритель: сдвиг парадигмы
Решение требует полного пересмотра сетевой архитектуры. Введение модели, которая использует сеть как ускоритель, переворачивает традиционное мышление о производительности HPC и ИИ, чтобы открыть новые возможности.
Вместо того, чтобы сосредотачиваться в первую очередь на добавлении вычислительной мощности через GPU и CPU, подход “сеть как ускоритель” рассматривает сетевую ткань как умножитель производительности. В результате сеть может лучше поддерживать высокоплотную вычислительную мощность и ускорять ROI, устраняя瓶ネки и масштабируясь для удовлетворения вычислительных потребностей, и оптимизируя инвестиции в оборудование. Позволяя получить большую вычислительную мощность без замедления, организации могут запускать более крупные рабочие нагрузки в меньшем пространстве, получать результаты быстрее и избегать чрезмерных затрат на дополнительное оборудование.
Как работает модель «сеть как ускоритель»
Итак, как работает эта модель, чтобы организации могли преобразовать свою сеть из пассивного перемещения данных в активный стимулятор вычислений и начать получать выгоду? Она обеспечивает четыре ключевые возможности, которых не хватает традиционным сетям:
- Гарантированная доставка на уровне оборудования: Традиционные сети возлагают на CPU и GPU бремя отслеживания пакетов, повторной передачи и перестановки. Это потребляет вычислительные циклы, которые могли бы быть посвящены обучению или выводу. С сетевой тьмой, которая гарантирует доставку на уровне оборудования, эти задачи передаются от вычислительных узлов, в результате чего снижается нагрузка на CPU и GPU, обеспечивается предсказуемая и последовательная производительность, и упрощается программирование и оркестровка кластеров.
- Интеллектуальная динамическая маршрутизация: Конвенциональная маршрутизация полагается на фиксированные или субоптимальные пути, которые могут оставить части сети недоиспользуемыми или создать瓶ネки, где огромные объемы данных передаются одновременно. Интеллектуальная маршрутизация динамически использует все доступные пути для оптимизации потока трафика. Она позволяет получить большую пропускную способность с помощью нескольких активных маршрутов, балансирующих трафик, более низкую задержку за счет оптимального выбора пути и улучшенную отказоустойчивость, поскольку сетевой трафик автоматически маршрутизируется вокруг отказов связей или узлов. Это снижает простой и поддерживает GPU полностью загруженными данными.
- Автоматический повтор на уровне связи: Когда пакеты теряются или повреждаются, стандартные сети полагаются на вычислительный уровень для обнаружения и повторной передачи, что вводит значительную задержку и прерывает вычислительный поток. Сетевая ткань с встроенными возможностями автоматического повторения на уровне связи обрабатывает повторные передачи внутри самой сети. Это позволяет добиться почти прозрачной надежности, поскольку потеря пакетов становится невидимой для вычислительных узлов, а также снижает влияние задержки, поскольку повторы происходят локально на уровне связи, а не на всем сетевом стеке. Это также устраняет необходимость в сложном обработке ошибок на уровне приложения. Возможности автоматического повторения обеспечивают бесперебойную и эффективную распределенную вычислительную мощность, что важно при масштабировании на тысячи GPU.
- Вычисления в сети: В то время как традиционные сетевые ткани в основном перемещают данные, вычисления в сети позволяют сети стать сопроцессором, выполняя определенные операции непосредственно внутри ткани. NVIDIA SHARP является ярким примером – он позволяет выполнять уменьшения на самих сетевых коммутаторах. Это позволяет выполнять ускоренные распределенные операции, снижает задержку, поскольку данные агрегируются при передаче через сеть, и увеличивает эффективность, поскольку вычислительные узлы освобождаются от выполнения задач агрегации, оставляя больше циклов для обучения и симуляции.
В целом, эти возможности являются тем, что делает “сетевую вычислительную мощность” фундаментальной для масштабирования следующих поколений ИИ и HPC-сред. Сетецентрированный подход обеспечивает осязаемые доходы, которые включают более высокое использование GPU, устраняющее голод данных, более быстрое время получения информации, снижающее циклы обучения и стабилизирующее производительность вывода, улучшенную эффективность ресурсов и более низкую общую стоимость владения.
Откройте истинную силу сети
ИИ в масштабе не является только проблемой вычислений – это системный инженерный вызов, с сетью в его центре. Относиться к сети как к ускорителю превращает ее в умножитель производительности для вычислений, позволяя центрам данных HPC и ИИ масштабироваться по плотности без жертвования производительностью. Это обеспечивает измеримый ROI быстрее, извлекая максимальную ценность из существующей инфраструктуры, прежде чем инвестировать в больше кремния.
Устраняя瓶ネки, увеличивая использование и обеспечивая предсказуемую производительность, более умная сеть позволяет получить более продуктивные команды ИИ, лучший ROI на инфраструктуре GPU и более быстрое время получения информации, инноваций и лидерства на рынке. Это позволяет организациям открыть, что их сеть может быть на самом деле, и использовать силу ИИ новыми способами.












