Connect with us

Кори Сандерс, Старший Вице-Президент по Продукту в CoreWeave – Интервью

Интервью

Кори Сандерс, Старший Вице-Президент по Продукту в CoreWeave – Интервью

mm

Кори Сандерс, Старший Вице-Президент по Продукту в CoreWeave, возглавляет стратегию и выполнение продукта для одной из самых быстро растущих облачных платформ, ориентированных на ИИ. Он отвечает за масштабирование инноваций, формирование решений, созданных в сотрудничестве с клиентами, и укрепление позиций CoreWeave на рынке инфраструктуры ИИ. До прихода в CoreWeave Сандерс провел два десятилетия в Microsoft на руководящих должностях, охватывающих облачную инженерию, платформы для конкретных отраслей, стратегию коммерческих решений и партнерства с крупными предприятиями, с глубоким опытом в области технической реализации и стратегии выхода на рынок.

CoreWeave – это облачный провайдер, родной для ИИ, построенный специально для высокопроизводительных вычислений и крупномасштабных рабочих нагрузок искусственного интеллекта. Компания эксплуатирует быстро расширяющуюся сеть центров данных по всей территории США и Европы, предоставляя инфраструктуру и программное обеспечение, ускоренные с помощью GPU, предназначенные для обучения ИИ, вывода и передовых вычислительных случаев использования. Сосредоточившись на архитектуре, созданной для конкретных целей, а не на общего назначения облака, CoreWeave стала критически важным партнером по инфраструктуре для лабораторий ИИ и предприятий, стремящихся к производительности, масштабируемости и эффективности в масштабе.

Вы провели более 20 лет в Microsoft, работая над инженерией Windows, стратегией облачных продаж и Microsoft Cloud для отраслей. Что это развитие преподало вам о том, что действительно стимулирует принятие решений на уровне предприятия, и как вы применяете эти уроки сегодня в CoreWeave?

Принятие решений на уровне предприятия начинается с решения конкретной проблемы клиента. Инновации ради инноваций сами по себе не являются столь важными для предприятия. Это о том, чтобы поставить себя на их место, чтобы понять, что действительно беспокоит их – будь то стоимость поддержки, операционная сложность, связь с клиентами или управление глобальными командами и новыми продуктами – и затем предоставление услуг, которые помогают. Они часто готовы быть инновационными в своем подходе, но наиболее важным фактором является помощь им в решении их проблемы. Наиболее частой ошибкой, которую я видел в проектировании продукта, является слишком большая увлеченность “крутизной” продукта. Хотя это имеет вес в потребительском секторе, клиенты предприятий в конечном итоге заботятся намного больше об полезности, чем о “крутизне”.

CoreWeave часто описывается как предлагающая инфраструктуру ИИ, созданную для конкретных целей. В практическом смысле, что означает “созданная для конкретных целей” с точки зрения продукта, и где общего назначения облачные платформы испытывают трудности с рабочими нагрузками ИИ?

Наибольшая польза от того, что вы созданы для конкретных целей, заключается в способности сосредоточиться и предоставлять услуги без необходимости решать каждую общую задачу. Я приведу два примера: один в программном обеспечении, другой в аппаратном.

На стороне программного обеспечения наше предложение Object Storage с кэшем LOTA ориентировано конкретно на кэширование для рабочих нагрузок ИИ. Оно развертывается直接 на узлах GPU, предоставляет конечную точку S3 для приложения и реагирует на запросы GPU, охватывая свой кэш на нескольких узлах. Это увеличивает пропускную способность до GPU до 7 ГБ/с, что намного превышает то, что предлагают общего назначения облака. Мы можем добиться этого, потому что мы делаем предположения о проектировании, связанные с рабочими нагрузками ИИ, разделением чтения/записи и макетами кластеров. Если клиент использовал бы это для размещения базы данных или сайта электронной коммерции, это не имело бы такого же воздействия. Это и есть определение программного обеспечения, созданного для конкретных целей.

Пример с аппаратным обеспечением аналогичен. Учитывая нашу обширную установку последних поколений NVIDIA – многие из которых требуют жидкостного охлаждения – CoreWeave приобрела конкретные знания и конструкции центров данных для поддержки этих потребностей. В отличие от более крупных облаков, которые строят для взаимозаменяемости, а затем должны ретроспективно добавлять жидкостное охлаждение, CoreWeave строит центры данных, ориентированные на ИИ с самого начала. Это приводит к более низким затратам и более высокой доступности для последних моделей.

Ниже приведено изображение кэша LOTA, упомянутого ранее.

Когда клиенты впервые думают о масштабировании ИИ, многие полагают, что им нужно доступ только к GPU. Что они обычно осознают, чего не хватает, когда они начинают обучать или обслуживать модели в масштабе?

Учитывая сложность выполнения рабочих нагрузок на огромных кластерах GPU, окружающие услуги становятся истинными драйверами успеха. Это включает в себя очевидные, такие как хранилище и сеть, но также критически важные операционные услуги, такие как наблюдаемость, оркестровка и безопасность. Именно здесь CoreWeave действительно блестит с нашим предложением Mission Control. Оно предоставляет клиентам глубокое понимание здоровья узла и времени выполнения на их флоте, интегрируя эти знания直接 в двигатель оркестровки. Это позволяет клиенту относиться к своей инфраструктуре не как к 1000 отдельным GPU, а как к единому, сплоченному сущности задания.

Каковы ваши главные приоритеты продукта сейчас, чтобы улучшить результаты для клиентов, будь то производительность, надежность, предсказуемость затрат или опыт разработчика?

В ядре платформы мы постоянно сосредоточены на производительности, надежности и наблюдаемости. Мы должны обеспечить, чтобы клиенты могли запускать задания повторяющимся, предсказуемым способом, используя каждый TFLOP в каждом GPU. Помимо этого, мы работаем над упрощением процесса подключения для клиентов, которые могут быть не знакомы с каждым колокольчиком и свистком в инструменте, таком как SLURM (который все используют, но почти все ненавидят). Наконец, мы разрабатываем дополнительные услуги и модели выставления счетов, чтобы сделать инновации проще и начать с малого. Сейчас экспериментирование удивительно сложно из-за высоких барьеров для входа, таких как ограничения по емкости, трехлетние обязательства и необходимость специализированных экспертов, чтобы просто начать. Мы хотим вернуть легкость инноваций на платформу ИИ.

Когда рабочие нагрузки ИИ смещаются от обучения к выводу, как это влияет на проектирование инфраструктуры и принятие решений о дорожной карте продукта?

Это создает значительные возможности для применения существующей дифференциации CoreWeave к требованиям вывода. Например, кэш LOTA, о котором я упоминал, фокусируется на кормлении GPU во время обучения; однако, мы можем взять эту же технологию, интегрировать ее в такие вещи, как KVCache, и превратить ее в мощный дифференциатор вывода. Аналогично, инструменты, такие как Mission Control, становятся еще более важными для вывода, поскольку наблюдение за здоровьем GPU имеет решающее значение для запуска высокодоступных агентных приложений.

В течение следующих одного-двух лет, что определит лидерство на рынке облачных вычислений ИИ, и какие возможности будут наиболее важны для клиентов?

Я думаю, что лидерство будет определяться двумя вещами. Первое – это предоставление все возрастающих требований к масштабу для обучения. Это потребует достижений в наблюдаемости, мониторинге здоровья и автоматическом восстановлении. Когда вы переходите от сотен до десятков тысяч GPU, распределенных по всему миру, ручная реакция на отказы – это не вариант.

Второе – это предоставление правильных услуг для вывода и агентных рабочих нагрузок. Это требует возможностей глобальной развертываемости и бизнес-моделей, которые поощряют экспериментирование. Этот шаблон использования помог облачным вычислениям расти изначально, и он был несколько утерян в эпоху ИИ. Нам нужно вернуть его через лучшую поддержку платформы, возможности многооблачных вычислений и легкость использования в нескольких регионах.

Ранее вы возглавляли инициативы по облачным вычислениям для конкретных отраслей, охватывающих здравоохранение, розничную торговлю, финансовые услуги, производство и суверенные облака. Какие уроки из этих вертикалей переводятся напрямую на инфраструктуру ИИ, а какие нет?

Генерационные сдвиги в GPU продолжают вводить новые сложности. Каждый новый выпуск приносит повышенную взаимосвязанность, более высокую память и более высокие потребности в энергии, все из которых требуют от нас пересмотреть наши предположения о том, как узлы подключены и как программное обеспечение доставляется. Нам необходимо оставаться беспощадными в этом, чтобы сохранить наше лидерство. С другой стороны, область, которая улучшается наиболее быстро, – это чистый масштаб того, чего могут достичь клиенты; скорость, с которой они адаптируются к более крупным вычислительным футпринтам, впечатляет.

Когда центры данных и кластеры ИИ продолжают расти в масштабе, какие операционные проблемы оказываются наиболее трудными для решения сегодня, и какие из них улучшаются наиболее быстро?

Генерационные сдвиги GPU продолжают создавать новые сложности в проектировании и программном обеспечении. Каждый новый выпуск GPU приносит повышенную взаимосвязанность, более высокую память и более высокие потребности в энергии, все из которых требуют от нас пересмотреть наши предположения о том, как узлы подключены, как стойки управляются и как программное обеспечение доставляется. Нам необходимо продолжать сосредотачиваться на этой работе, чтобы сохранить наше лидерство. Те, которые улучшаются наиболее быстро, – это то, чего могут достичь клиенты с растущим масштабом вычислений.

В инфраструктуре ИИ надежность выходит за рамки простого времени безотказной работы. Как CoreWeave определяет надежность, и какие показатели лучше всего отражают успех с точки зрения клиента?

В масштабе главным соображением для клиента является просто выполнение задания. В огромных операциях отдельные отказы или замедления ожидаемы. Ключевым моментом является то, как мы обнаруживаем и автоматически реагируем на эти проблемы, чтобы задание было завершено, несмотря на сложности. Это причина, по которой мы интегрируем Mission Control в более высокие услуги, такие как SUNK (Slurm на Kubernetes). Это позволяет клиентам реагировать на отказы автоматически, не теряя часов или недель работы. Для нас успех не только в времени безотказной работы узла; это успех задания.

Взглянув вперед, какая значительная смена в инфраструктуре ИИ, по вашему мнению, остается недооцененной, будь то связано с эволюцией аппаратного обеспечения, специализацией стеков, требованиями суверенитета или новыми моделями развертывания?

Я считаю, что появление обучения с подкреплением (RL) как обновляющей части стека ИИ остается недооцененным. Хотя это не новая область исследования, она была в значительной степени затенена во время первой волны разработки LLM. RL возвращается и сыграет жизненно важную роль в том, чтобы сделать услуги ИИ более отзывчивыми к меняющимся ландшафтам их пользователей. Из-за этого мы очень взволнованы нашим предложением серверного RL, которое у нас есть сегодня.

Благодарим за отличное интервью, читателям, которые хотят узнать больше, следует посетить CoreWeave.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.