Entrevistas
Ken Claffey, CEO da VDURA – Série de Entrevistas: Uma Conversa de Retorno

Ken Claffey, CEO e Presidente da VDURA, é um líder de negócios e produtos centrado no cliente com profunda experiência em infraestrutura de nuvem e empresa, desenvolvimento de hardware e software, e impulsionando o crescimento estratégico em produtos, operações e funções de marketing. Ao longo de sua carreira, ele construiu e liderou equipes globais de alto desempenho, executou estratégia corporativa, impulsionou o crescimento de receita lucrativa e inovação de produtos, e virou negócios subperformantes. Antes de assumir o comando da VDURA, Claffey ocupou cargos de liderança sênior na Seagate Technology, onde atuou como SVP e Gerente Geral supervisionando sistemas de empresa e P&L, e anteriormente ocupou cargos de liderança na Xyratex, Adaptec e Eurologic, trazendo décadas de experiência em armazenamento de empresa e computação de alto desempenho.
VDURA é uma empresa de infraestrutura de dados definida por software que constrói soluções de armazenamento modernas otimizadas para cargas de trabalho de inteligência artificial e computação de alto desempenho sob o lema “velocidade encontra durabilidade”. A plataforma de dados VDURA combina o desempenho do sistema de arquivos paralelo de primeira classe com a resiliência do armazenamento de objetos em uma arquitetura unificada que escala linearmente em milhares de clientes e nós, simplificando as operações e reduzindo o custo total de propriedade. Originalmente fundada como Panasas e rebrandada em 2024, a plataforma VDURA suporta ambientes locais, em nuvem e híbridos com automação avançada, aceleração de metadados e desempenho escalável projetado para manter clusters de GPU alimentados e dados protegidos para casos de uso de inteligência artificial e computação de alto desempenho de empresa, pesquisa e missão crítica.
Como sua jornada através da computação de alto desempenho e armazenamento de empresa moldou sua visão de que o armazenamento está se tornando o constrangimento definidor na infraestrutura de inteligência artificial?
Ao construir sistemas de armazenamento para alguns dos ambientes de computação mais exigentes do mundo, você desenvolve uma intuição para onde os gargalos realmente vivem versus onde as pessoas supõem que vivem. Na Xyratex e por meio do trabalho do ClusterStor na Seagate, estávamos resolvendo problemas de armazenamento para supercomputadores onde a física era implacável. Você ou alimentava o cálculo ou não.
O que vejo agora na infraestrutura de inteligência artificial é o mesmo constrangimento fundamental, apenas vestido com diferentes economias. A obsessão por GPU no mercado Neocloud era compreensível. A NVIDIA criou um recurso escasso e transformador. Mas a suposição de que o armazenamento simplesmente escalaria junto com ele, barato e facilmente, sempre iria quebrar. Quebrou. O armazenamento agora está tendendo a 20 a 30 por cento dos orçamentos de infraestrutura de inteligência artificial em implantações all-flash, crescendo mais rápido do que qualquer outro componente. Quando você passou uma carreira assistindo ao armazenamento se tornar o constrangimento vinculante em todos os ambientes de computação em grande escala, você para de se surpreender quando o resto do mercado chega a essa realidade.
Por que a planejamento de armazenamento foi depriorizado durante a corrida de infraestrutura Neocloud?
Várias suposições estruturais convergiram exatamente no momento errado. Primeiro, os preços do flash foram temporariamente favoráveis. Os SSDs NVMe eram acessíveis e abundantes o suficiente para que ir all-flash parecesse uma opção razoável por padrão. Não era sabedoria arquitetônica. Era um produto de uma janela econômica breve que os operadores confundiram com uma condição permanente.
Em segundo lugar, a dinâmica competitiva recompensou a contagem de GPU acima de tudo. O mercado Neocloud estava sendo avaliado por quantos chips NVIDIA você poderia instalar. O armazenamento era aproximadamente um item de 10 por cento, fácil de aprovar sem uma análise profunda. Terceiro, a decisão all-flash parecia segura porque eliminava a complexidade. Uma camada, um tipo de mídia, simples de adquirir e operar. O problema é que “simples” e “economicamente sustentável” pararam de ser a mesma coisa no momento em que o fornecimento de NAND se apertou e os preços dispararam. Nesse momento, as decisões de infraestrutura já estavam bloqueadas.
O que surpreende os operadores mais quando veem como o armazenamento está afetando a utilização de seus GPUs?
A relação é mais direta do que a maioria dos operadores percebe até que estão olhando para GPUs ociosas. As execuções de treinamento com checkpointing frequente criam demandas de escrita em rajadas que podem estagnar o cálculo se a camada de armazenamento não puder absorvê-las rapidamente o suficiente. Os pipelines de dados para pré-processamento e ingestão criam requisitos de throughput de leitura sustentados que, se não atendidos, privam os GPUs de trabalho.
A própria orientação da NVIDIA sobre o DGX quantifica isso: o treinamento de LLM baseado em texto requer aproximadamente 0,5 GB/s de throughput de leitura por GPU, enquanto os trabalhos de inteligência artificial e visualização física requerem aproximadamente 4 GB/s de leituras e 2 GB/s de escritas por GPU. Se a arquitetura de armazenamento não puder entregar isso, você não está executando seus GPUs na capacidade. Você está executando-os na fração que o armazenamento permite.
A arquitetura importa enormemente em escala de cluster. Um sistema de armazenamento que interponha um intermediário entre o drive e o cliente pode mostrar um throughput comparável em um único drive, mas em escala você pode acabar precisando de três vezes mais drives para saturar a mesma frota de GPU. Três vezes mais SSDs, três vezes mais energia, três vezes mais espaço na prateleira. A matemática de utilização se complica rapidamente.
Quais diferenças de custo podem surgir apenas da seleção de SSD e design arquitetônico, mesmo quando as métricas de throughput de cabeçalho parecem semelhantes?
É aqui que os operadores entram em sérios problemas, porque as cifras de cabeçalho podem ser genuinamente enganosas. Pegue um exemplo representativo. Um SSD NVMe QLC de 122,88 TB custa cerca de $27.000. Um drive de 7,68 TB da mesma geração entrega um throughput sequencial comparável por cerca de $1.800. Para um cluster de 4.096 GPUs na especificação Enhanced da NVIDIA, essa única decisão de capacidade produz uma conta de flash que varia de $600.000 a $9,6 milhões. O throughput é efetivamente idêntico. A única variável é quanto dados frios você está escolhendo estacionar em mídia premium que entrega nenhum benefício de desempenho adicional.
Além disso, o design arquitetônico determina a contagem de drive em escala de cluster. Uma arquitetura que entrega cerca de 5,8 GB/s de throughput de leitura medido por SSD precisa de cerca de 353 drives para saturar um cluster de 4.096 GPUs. Uma arquitetura que entrega aproximadamente 1,9 GB/s por SSD, devido à sobrecarga do intermediário, precisa de mais de 1.000. A $12.000 por drive de 30 TB, essa diferença não é um erro de arredondamento – é uma questão de modelo de negócios.
Como os operadores devem repensar o armazenamento all-flash versus em camadas à medida que os preços do flash aumentam e o fornecimento de NAND permanece restrito?
O ponto de partida é aceitar que o pressuposto econômico por trás da infraestrutura de inteligência artificial all-flash foi sempre contingente, não fundamental. O CEO da Phison descreveu a capacidade de produção de NAND como efetivamente alocada até 2026. O Goldman Sachs projeta que os preços de DRAM aumentarão em dois dígitos trimestre a trimestre durante o mesmo período. O padrão all-flash fez sentido quando o flash era barato e abundante. Já não é.
A estrutura certa é perguntar para que o flash é realmente. O flash é um meio de desempenho. Ele deve ser dimensionado para saturar os requisitos de throughput de GPU, não mais. Tudo o mais, incluindo dados frios, checkpoints que não estão sendo lidos ativamente e conjuntos de treinamento arquivados, pertence a HDDs de alta densidade, que permanecem ordens de magnitude mais baratos por TB.
A armadilha em que os operadores caem é tratar a camada como um acréscimo: comprar uma camada primária all-flash, adicionar um objeto de armazenamento separado para dados frios e conectá-los com movimentos de dados externos. Isso introduz uma segunda pilha de software, um segundo plano de dados, complexidade de rede e sobrecarga operacional. A abordagem dos hyperscalers, executando SSD e HDD dentro da mesma pilha de software com tiering de alto desempenho nativo e sem movimentos de dados externos, mantém o armazenamento mais próximo de 10 por cento do orçamento de infraestrutura, enquanto ainda satura cada GPU.
Quais lições o nível Neocloud pode aprender com as escolhas de design de armazenamento dos hyperscalers?
A lição mais importante é que o Google, Meta e Microsoft não executam all-flash, e têm mais experiência de carga de trabalho de inteligência artificial do que qualquer pessoa. Eles implantam arquiteturas de camadas mistas com tiering inteligente: o suficiente de flash NVMe para saturar o throughput de GPU, então drenar para HDDs de alta densidade tão rápido quanto a física permite. Isso não é uma preferência filosófica. É um imperativo econômico impulsionado por uma compreensão clara da física da carga de trabalho de inteligência artificial.
A segunda lição é a integração arquitetônica. Os hyperscalers não resolvem a camada unindo sistemas separados. Eles executam SSD e HDD na mesma pilha de software, no mesmo plano de dados, com a camada como uma operação de primeira classe dentro do sistema de armazenamento, não como um trabalho em lote gerenciado por uma ferramenta separada. Essa integração é o que permite que eles mantenham o armazenamento econômico em escala enorme, enquanto mantém as garantias de desempenho que suas frotas de GPU exigem.
A terceira lição é a garantia de durabilidade. O AWS S3 entrega 11 nines de durabilidade. O Azure Blob entrega 12 ou mais. As arquiteturas de armazenamento de HPC legado construídas em RAID local podem cair abaixo de 5 nines em escala, dependendo das taxas de falha de drive e janelas de reconstrução, potencialmente milhares de arquivos perdidos por ano em um corpus de um bilhão de arquivos. O codificação de eliminação de rede moderna com proteção de nível múltiplo pode ultrapassar 11 nines. A lacuna entre essas duas realidades é a diferença entre um sistema de armazenamento que você pode realmente garantir um SLA e um que não pode.
Como as equipes de infraestrutura devem quantificar o impacto econômico da disponibilidade de armazenamento em frotas de GPU?
A matemática é sóbria quando você a executa honestamente. A falha de armazenamento compartilhado não produz uma perda de SLA proporcional. Produz uma violação simultânea em todos os racks de GPU conectados a esse armazenamento. Um cluster de 5.000 GPUs com 98 por cento de disponibilidade de armazenamento não entrega uma perda de desempenho de 2 por cento. Produz 876.000 horas de cálculo perdidas por ano. A um custo representativo de hora de GPU, isso se traduz em milhões de dólares em cálculo ocioso anualmente, mais créditos de SLA devidos em cada rack afetado simultaneamente.
A área de explosão da falha de armazenamento em um cluster grande é o cluster inteiro. As equipes de infraestrutura precisam modelar isso explicitamente: qual é o custo anualizado de cálculo ocioso na figura de disponibilidade de armazenamento atual, quais são as obrigações de crédito de SLA que se anexam a cada nível de disponibilidade e qual é o risco de perda de cliente devido a falhas de SLA? O CoreWeave e o Oracle já estão oferecendo 99 por cento de tempo de atividade de rack. Os provedores que não podem corresponder a isso estão perdendo negócios hoje, e os negócios que estão perdendo são cada vez mais os contratos de empresa de alto valor que o mercado Neocloud precisa para provar sua economia de longo prazo.
Como as diferentes arquiteturas de armazenamento se comparam em desempenho por watt em ambientes com restrição de energia?
Isso surge em quase todas as conversas de infraestrutura sérias agora, e a diferença não é marginal. É multiplicativa. Com base em especificações publicadas e configurações comparáveis, entregando aproximadamente 1.340 GB/s de throughput de leitura, uma arquitetura queima 55 kW, enquanto outra alcança uma saída semelhante a cerca de 16 kW. Isso é uma diferença de 3,4x em desempenho por watt. Em um data center onde as cargas de trabalho de inteligência artificial estão consumindo 40 a 250 kilowatts por rack contra uma conexão de grade fixa, os watts de armazenamento desperdiçados são GPUs que você não pode implantar. A própria documentação do BlueField-4 da NVIDIA afirma explicitamente que a disponibilidade de energia é a principal restrição para escalar fábricas de inteligência artificial.
Há também um efeito de segunda ordem que os operadores raramente contabilizam. Algumas arquiteturas de armazenamento exigem 5 GB de DRAM e um a quatro núcleos de CPU dedicados permanentemente bloqueados por nó de GPU apenas para alcançar o desempenho de armazenamento de pico. Em um cluster de 500 nós, isso é 2,5 TB de DRAM e até 2.000 núcleos de CPU permanentemente indisponíveis para as cargas de trabalho de inteligência artificial. Quando você está pagando $30.000 ou mais por GPU, cada núcleo roubado e cada gigabyte bloqueado é um imposto direto sobre o investimento de cálculo que supostamente é o ponto da infraestrutura.
Como a arquitetura de armazenamento afeta diretamente a competitividade do SLA à medida que as garantias de tempo de atividade se aproximam de 99 por cento?
O armazenamento é o único maior raio de explosão em qualquer cluster de GPU, o que o torna a variável mais importante em qualquer compromisso de SLA honesto. O sistema de classificação ClusterMAX 2.0 da SemiAnalysis, que está se tornando um benchmark influente na compra do Neocloud, torna os SLAs um fator explícito nas negociações de preços. Os provedores sem SLAs competitivos estão perdendo negócios agora.
A dimensão de durabilidade é igualmente importante e menos discutida. Os clientes de empresa foram condicionados pelo AWS S3 e pelo Azure Blob a esperar 11 a 12 nines de durabilidade. As arquiteturas de armazenamento de HPC legado construídas em RAID local podem cair abaixo de 5 nines em escala, dependendo das taxas de falha de drive e janelas de reconstrução, potencialmente milhares de arquivos perdidos por ano em um corpus de um bilhão de arquivos. A codificação de eliminação de rede moderna com proteção de nível múltiplo pode ultrapassar 11 nines. A lacuna entre essas duas realidades é a diferença entre um sistema de armazenamento que você pode realmente garantir um SLA e um que não pode.
Quais capacidades de armazenamento são mais prováveis de determinar a sobrevivência de longo prazo do Neocloud por meio da consolidação?
Os operadores que sobreviverão serão aqueles que resolveram a equação de custo total de propriedade em toda a pilha de infraestrutura, não apenas a equação de aquisição de GPU. Isso significa várias capacidades específicas.
Primeiro, uma arquitetura de software definida unificada que executa flash e disco em um único plano de dados com tiering de alto desempenho nativo, sem movimentos de dados externos, sem segunda pilha de software, sem complexidade operacional introduzida pela união de sistemas separados. Segundo, armazenamento que possa acompanhar curvas de custo independentes para flash e disco à medida que esses mercados se movem independentemente um do outro, o que farão. Terceiro, sistemas auto-curativos que mantêm alta disponibilidade sem administradores especializados realizando recuperação manual às 3h da manhã. A complexidade operacional do armazenamento é um custo invisível que se complica em escala. Quarto, durabilidade que possa ser credivelmente garantida em um SLA contra benchmarks de hyperscalers.
O ponto mais amplo é que a onda de consolidação está separando a infraestrutura construída para benchmarks do dia um da infraestrutura construída para a economia do ano três. As taxas de aluguel de H100 caíram mais de 60 por cento do pico. O mercado não está mais recompensando a acumulação de GPU. Está exigindo prova de retorno sobre o capital investido. A arquitetura de armazenamento é onde essa prova vive, porque é onde as taxas de utilização de GPU, os compromissos de SLA, a eficiência de energia e a estrutura de custo de longo prazo todos convergem.
Qual é sua mensagem para os operadores do Neocloud que estão avaliando sua estratégia de armazenamento hoje?
Não deixe que a decisão de armazenamento seja a que você fez por padrão. Cada parte da pilha de infraestrutura recebe uma análise e uma análise financeira rigorosas. O armazenamento não deve ser diferente. Os operadores que estarão aqui em três anos são aqueles que deram uma olhada dura no verdadeiro custo por hora de GPU de cálculo útil, entenderam sua postura de disponibilidade real e garantiram que estavam dimensionados para a carga de trabalho e não para um atalho de compra.
A janela para fazer isso está se fechando. A consolidação já está em andamento, e a economia é implacável. Mas para os operadores que estão dispostos a repensar a camada de armazenamento com a mesma rigorosidade que aplicaram à seleção de GPU, a oportunidade é significativa. O armazenamento feito certo não reduz apenas o custo. Desbloqueia o valor total de cada GPU na prateleira.
Obrigado pela grande entrevista, leitores que desejam aprender mais sobre essa pilha de tecnologia devem visitar VDURA. Eles também podem ler nossa entrevista anterior com Ken Claffey.












