Connect with us

Ken Claffey, генеральный директор VDURA – Интервью: Возвращение к разговору

Интервью

Ken Claffey, генеральный директор VDURA – Интервью: Возвращение к разговору

mm

Ken Claffey, генеральный директор и президент VDURA, является опытным лидером, ориентированным на клиента, с глубокими знаниями в области облачных и корпоративных инфраструктур, разработки аппаратного и программного обеспечения, а также стратегического роста в области продукта, операций и маркетинга. На протяжении всей своей карьеры он создавал и возглавлял высокопроизводительные глобальные команды, реализовывал корпоративную стратегию, стимулировал прибыльный рост выручки и инновации в области продукта, а также выводил из кризиса нерентабельные бизнесы. До того, как занять пост генерального директора VDURA, Клаффей занимал руководящие должности в Seagate Technology, где он служил старшим вице-президентом и генеральным менеджером, курируя корпоративные системы и P&L, и ранее занимал руководящие должности в Xyratex, Adaptec и Eurologic, имея десятилетний опыт работы в области корпоративного хранения и высокопроизводительных вычислений.

VDURA является компанией, специализирующейся на программно-определенной инфраструктуре данных, разрабатывающей современные решения для хранения, оптимизированные для искусственного интеллекта и высокопроизводительных вычислений, под девизом «скорость встречается с долговечностью». Флагманская платформа VDURA Data Platform сочетает производительность параллельной файловой системы на основе флэш-накопителей с устойчивостью объектного хранения в единой архитектуре, которая масштабируется линейно на тысячи клиентов и узлов, упрощая операции и снижая общую стоимость владения. Основанная изначально как Panasas и ребрендированная в 2024 году, платформа VDURA поддерживает локальные, облачные и гибридные среды с продвинутой автоматизацией, ускорением метаданных и масштабируемой производительностью, предназначенной для обеспечения бесперебойной работы кластеров GPU и защиты данных для корпоративных, исследовательских и критически важных случаев использования ИИ и высокопроизводительных вычислений.

Как ваш опыт в области высокопроизводительных вычислений и корпоративного хранения сформировал ваше мнение о том, что хранение становится определяющим ограничением в инфраструктуре ИИ?

Имея опыт создания систем хранения для некоторых из самых требовательных вычислительных сред в мире, вы развиваете интуицию о том, где на самом деле находятся узкие места, а не где люди предполагают, что они находятся. В Xyratex и при работе над ClusterStor в Seagate мы решали проблемы хранения для суперкомпьютеров, где физика была безжалостна. Вы либо обеспечивали вычисления, либо не обеспечивали.

То, что я вижу сейчас в инфраструктуре ИИ, – это то же фундаментальное ограничение, только в другой экономической оболочке. Фокус на GPU в рынке Neocloud был понятен. NVIDIA создала дефицитную и трансформационную ресурс. Но предположение, что хранение будет просто масштабироваться вместе с ним, дешево и легко, всегда было обречено на провал. Оно провалилось. Хранение сейчас занимает 20-30 процентов бюджета инфраструктуры ИИ в развертываниях с использованием только флэш-накопителей, растущих быстрее, чем любой другой компонент. Когда вы провели карьеру, наблюдая, как хранение становится связывающим ограничением в каждой крупномасштабной вычислительной среде, вы перестаете удивляться, когда остальной рынок осознает эту реальность.

Почему планирование хранения было отложено во время захвата инфраструктуры Neocloud?

Несколько структурных предположений совпали в самый неподходящий момент. Во-первых, цены на флэш были временно благоприятными. NVMe SSD были доступны и достаточно многочисленны, чтобы все-флэш-решение казалось разумным по умолчанию. Это было не архитектурная мудрость. Это было следствием краткого экономического окна, которое операторы ошибочно приняли за постоянное состояние.

Во-вторых, конкурентная динамика отдавала предпочтение количеству GPU над всем остальным. Рынок Neocloud оценивался по количеству чипов NVIDIA, которые можно было установить. Хранение было примерно 10-процентной статьей расходов, легко пропускаемой без глубокого анализа. В-третьих, решение об использовании только флэш-накопителей казалось безопасным, поскольку оно исключало сложность. Один уровень, один тип носителя, прост в закупке и эксплуатации. Проблема заключалась в том, что «простота» и «экономическая устойчивость» перестали быть одним и тем же, когда производство NAND сузилось и цены взлетели. К тому времени, когда инфраструктурные решения были уже приняты.

Что удивляет операторов больше всего, когда они видят, как хранение влияет на использование GPU?

Отношение более прямое, чем многие операторы осознают, пока они не столкнутся с простаивающими GPU. Тренировочные запуски с частой проверкой создают всплески требований к записи, которые могут остановить вычисления, если слой хранения не может поглотить их достаточно быстро. Каналы данных для предварительной обработки и инжеста создают устойчивые требования к пропускной способности чтения, которые, если не удовлетворены, лишают GPU работы.

Руководство NVIDIA по DGX количественно определяет это: обучение текстовых моделей ИИ требует примерно 0,5 ГБ/с пропускной способности чтения на GPU, в то время как физические задачи ИИ и визуализации требуют примерно 4 ГБ/с чтения и 2 ГБ/с записи на GPU. Если ваша архитектура хранения не может обеспечить это, вы не работаете на полную мощность GPU. Вы работаете на той доле, которую позволяет хранение.

Архитектура имеет огромное значение в масштабе кластера. Система хранения, которая вставляет посредника между накопителем и клиентом, может показать сопоставимую производительность на одном накопителе, но в масштабе вы можете оказаться нуждающимися в три раза большем количестве накопителей, чтобы насытить тот же флот GPU. Три раза больше SSD, три раза больше энергии, три раза больше стойки. Математика использования быстро складывается.

Какие различия в стоимости могут возникнуть исключительно из-за выбора SSD и архитектурного дизайна, даже когда метрики пропускной способности кажутся схожими?

Вот где операторы попадают в серьезные неприятности, потому что заголовочные цифры могут быть действительно вводящими в заблуждение. Возьмем представительный пример. 122,88 ТБ QLC NVMe SSD стоит примерно 27 000 долларов. 7,68 ТБ накопитель из того же поколения обеспечивает сопоставимую последовательную пропускную способность за около 1 800 долларов. Для кластера из 4 096 GPU на расширенной спецификации NVIDIA это решение о выборе емкости производит счет за флэш в диапазоне от 600 000 до 9,6 миллиона долларов. Пропускная способность практически идентична. Единственная переменная – сколько холодных данных вы выбираете хранить на премиальных носителях, которые не обеспечивают дополнительной производительности.

Помимо этого, архитектурный дизайн определяет количество накопителей в масштабе кластера. Архитектура, обеспечивающая примерно 5,8 ГБ/с измеренной пропускной способности чтения на SSD, требует около 353 накопителей, чтобы насытить кластер из 4 096 GPU. Архитектура, обеспечивающая примерно 1,9 ГБ/с на SSD из-за накладных расходов посредника, требует более 1 000. При 12 000 долларов за 30 ТБ накопитель эта разница не является погрешностью – это вопрос бизнес-модели.

Как операторам следует пересмотреть стратегию хранения «только флэш» противtiered хранения, когда цены на флэш растут, а производство NAND остается ограниченным?

Начальная точка – признание того, что экономическое основание для инфраструктуры ИИ «только флэш» всегда было условным, а не фундаментальным. Генеральный директор Phison описал производственную мощность NAND как эффективно распределенную до 2026 года. Goldman Sachs прогнозирует рост цен на DRAM на двузначные проценты квартал к кварталу в тот же период. Стандарт «только флэш» имел смысл, когда флэш был дешевым и доступным. Теперь он уже не таков.

Правильная основа – задать вопрос, для чего на самом деле нужен флэш. Флэш – это среда для производительности. Он должен быть размером, чтобы насытить требования к пропускной способности GPU, не более. Все остальное, включая холодные данные, контрольные точки, которые не активно читаются, и архивные обучающие наборы, принадлежат на высокоплотные жесткие диски, которые остаются на порядок дешевле за терабайт.

Ловушка, в которую попадают операторы, заключается в том, что они рассматривают tiering как дополнительную функцию: покупают основной слой «только флэш», добавляют отдельный объектный магазин для холодных данных и подключают их с помощью внешних перемещений данных. Это вводит второй программный стек, второй план данных, сетевую сложность и операционные накладные расходы. Подход гиперскелеров, при котором SSD и HDD работают в рамках одного и того же программного стека с родным высокопроизводительным tiering и без внешних перемещений данных, держит хранение ближе к 10 процентам бюджета инфраструктуры, сохраняя при этом насыщение каждого GPU.

Какие уроки может извлечь уровень Neocloud из выборов дизайна хранения гиперскелеров?

Самый важный урок заключается в том, что Google, Meta и Microsoft не используют «только флэш», и у них больше опыта работы с задачами ИИ, чем у кого-либо другого. Они развертывают архитектуры с смешанными уровнями и интеллектуальным tiering: достаточно флэш-накопителей NVMe, чтобы насытить пропускную способность GPU, затем быстрое сливание на высокоплотные жесткие диски, как только физика позволяет. Это не философское предпочтение. Это экономическая императив, обусловленная ясным пониманием физики задач ИИ.

Второй урок – архитектурная интеграция. Гиперскелеры не решают tiering, прикрепляя отдельные системы. Они запускают SSD и HDD на одном и том же программном стеке, одном плане данных, с tiering как первоклассной операцией внутри системы хранения, а не как пакетной задачей, управляемой отдельным инструментом. Эта интеграция позволяет им сохранять экономичность хранения на огромном масштабе, сохраняя при этом гарантии производительности, необходимые для их флотов GPU.

Третий урок – обеспечение долговечности. AWS S3 обеспечивает 11 девяток долговечности. Azure Blob – 12 или более. Легаси-архитектуры HPC, построенные на локальном RAID, могут не соответствовать этому на больших масштабах, в зависимости от скоростей отказов накопителей и окон перестроения, потенциально теряя тысячи файлов в год на корпусе в миллиард файлов. Современный сетевой код коррекции ошибок с многоуровневой защитой может превысить 11 девяток. Разрыв между этими двумя реалиями – это разница между системой хранения, которую можно действительно обеспечить SLA, и той, которую нельзя.

Как командам инфраструктуры следует количественно оценить экономическое воздействие доступности хранения на флоты GPU?

Математика трезвящая, когда вы ее проводите честно. Сбой общего хранения не производит пропорциональный дефект SLA. Он производит одновременный дефект по всем GPU-стойкам, подключенным к этому хранению. Кластер из 5 000 GPU с доступностью хранения 98 процентов не обеспечивает пропускную способность, на 2 процента ниже. Он производит 876 000 часов простаивающего компьютера в год. При представительных затратах на час GPU это переводится в миллионы долларов простаивающего компьютера ежегодно, плюс кредиты SLA, причитающиеся на каждой пострадавшей стойке одновременно.

Воздействие сбоя хранения в большом кластере – это весь кластер. Командам инфраструктуры необходимо смоделировать это явно: какова годовая стоимость простаивающего компьютера при текущем уровне доступности хранения, какие обязательства по кредитам SLA прикрепляются к каждому уровню доступности, и какой риск отказа клиентов от сбоя SLA? Операционно сложное хранение – это невидимая стоимость, которая складывается на больших масштабах. CoreWeave и Oracle уже предлагают 99-процентную доступность на уровне стойки. Поставщики, которые не могут соответствовать этому, теряют сделки сегодня, и сделки, которые они теряют, – это все более ценные корпоративные контракты, которые рынок Neocloud нуждается, чтобы доказать свою долгосрочную экономику.

Как различные архитектуры хранения сравниваются по производительности на ватт в средах с ограничениями по мощности?

Это возникает почти в каждом серьезном разговоре об инфраструктуре сейчас, и разница не является незначительной. Это умножается. Основываясь на опубликованных спецификациях и сопоставимых конфигурациях, обеспечивающих примерно 1 340 ГБ/с пропускной способности чтения, одна архитектура потребляет 55 кВт, в то время как другая достигает аналогичной производительности при примерно 16 кВт. Это разница в 3,4 раза в производительности на ватт. В центре данных, где задачи ИИ потребляют 40-250 киловатт на стойку против фиксированного сетевого подключения, расточительные ватты хранения – это GPU, которые вы не можете развернуть. Собственная документация NVIDIA BlueField-4 заявляет явно, что доступность мощности является основным ограничением для масштабирования фабрик ИИ.

Также есть вторичный эффект, который операторы редко учитывают. Некоторые архитектуры хранения требуют 5 ГБ ОЗУ и один-два выделенных процессорных ядра навсегда заблокированных на каждом узле GPU, просто чтобы достичь пиковой производительности хранения. На кластере из 500 узлов это 2,5 ТБ ОЗУ и до 2 000 процессорных ядер, навсегда недоступных для задач ИИ. Когда вы платите 30 000 долларов или более за GPU, каждый украденный ядро и каждый заблокированный гигабайт – это прямой налог на инвестиции в вычислительную мощность, которая якобы является всей целью инфраструктуры.

Как архитектура хранения напрямую влияет на конкурентоспособность SLA, когда гарантии доступности приближаются к 99 процентам?

Хранение – это единственный самый большой радиус взрыва в любом кластере GPU, что делает его наиболее важным фактором в любой честной привязке SLA. Система рейтинга SemiAnalysis ClusterMAX 2.0, которая становится влиятельной базой для закупок Neocloud, делает SLA явным фактором в переговорах о ценах. Поставщики без конкурентоспособных SLA теряют сделки сейчас.

Размерность долговечности столь же важна и менее обсуждаема. Корпоративные клиенты были приучены AWS S3 и Azure Blob ожидать 11-12 девяток долговечности. Легаси-архитектуры HPC, построенные на локальном RAID, могут не соответствовать этому на больших масштабах, в зависимости от скоростей отказов накопителей и окон перестроения, потенциально теряя тысячи файлов в год на корпусе в миллиард файлов. Современный сетевой код коррекции ошибок с многоуровневой защитой может превысить 11 девяток. Разрыв между этими двумя реалиями – это разница между системой хранения, которую можно действительно обеспечить SLA, и той, которую нельзя.

Какие возможности хранения наиболее вероятно определят долгосрочное выживание Neocloud через консолидацию?

Операторы, которые выживут, – это те, кто решил уравнение общей стоимости владения по всему стеку инфраструктуры, а не только уравнение закупки GPU. Это означает несколько конкретных возможностей.

Во-первых, унифицированная программно-определенная архитектура, которая запускает флэш и диск на одном плане данных с родным высокопроизводительным tiering, без внешних перемещений данных, без второго программного стека, без операционной сложности, введенной путем прикрепления отдельных систем. Во-вторых, хранение, которое может ездить на независимых кривых затрат для флэш и диска, поскольку эти рынки движутся независимо друг от друга, что они будут. В-третьих, самоисцеляющиеся системы, которые поддерживают высокую доступность без специализированных администраторов, выполняющих ручное восстановление в 3 часа ночи. Операционно сложное хранение – это невидимая стоимость, которая складывается на больших масштабах.

Более широкая точка заключается в том, что волна консолидации отделяет инфраструктуру, построенную для бенчмарков первого дня, от инфраструктуры, построенной для экономики третьего года. Стоимость аренды H100 снизилась более чем на 60 процентов от пика. Рынок больше не вознаграждает накопление GPU. Он требует доказательств возврата на вложенный капитал. Архитектура хранения – это место, где живет это доказательство, потому что это место, где скорость использования GPU, привязки SLA, эффективность мощности и долгосрочная структура затрат все сходятся.

Какое сообщение у вас для операторов Neocloud, оценивающих свою стратегию хранения сегодня?

Не позволяйте решению о хранении быть тем, которое вы приняли по умолчанию. Каждая другая часть стека инфраструктуры получает тщательную инженерную и финансовую проверку. Хранение должно быть не другим. Операторы, которые будут здесь через три года, – это те, кто внимательно посмотрел на свою истинную стоимость за полезный час GPU, понял свою реальную позицию по доступности и убедился, что они были размером для рабочей нагрузки, а не для лазейки в закупках.

Окно, чтобы все это сделать правильно, сужается. Консолидация уже идет, и экономика безжалостна. Но для операторов, которые готовы пересмотреть слой хранения с той же тщательностью, которую они применяли к выбору GPU, возможность значительна. Хранение, сделанное правильно, не только снижает стоимость. Оно открывает полную ценность каждого GPU в стойке.

Спасибо за отличное интервью. Читателям, которые хотят узнать больше об этом технологическом стеке, следует посетить VDURA. Они также могут прочитать наше предыдущее интервью с Ken Claffey.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.

Раскрытие информации о рекламе: Unite.AI придерживается строгих редакционных стандартов, чтобы предоставлять читателям точную информацию и новости. Мы можем получать вознаграждение, если вы переходите по ссылкам на продукты, которые мы рассмотрели.