Entrevistas
Ken Claffey, CEO de VDURA – Serie de entrevistas: Una conversación de retorno

Ken Claffey, CEO y Presidente de VDURA, es un experimentado líder de negocios y productos centrados en el cliente con una profunda experiencia en infraestructura de nube y empresa, desarrollo de hardware y software, y conducción de crecimiento estratégico en funciones de producto, operaciones y mercadeo. A lo largo de su carrera, ha construido y liderado equipos de alto rendimiento a nivel global, ejecutado estrategia corporativa, impulsado crecimiento de ingresos rentables y innovación de productos, y dado la vuelta a empresas con bajo rendimiento. Antes de asumir el cargo en VDURA, Claffey ocupó puestos de liderazgo senior en Seagate Technology, donde se desempeñó como SVP y Gerente General supervisando sistemas empresariales y P&L, y puestos de liderazgo anteriores en Xyratex, Adaptec y Eurologic, lo que le brindó décadas de experiencia en almacenamiento empresarial y computación de alto rendimiento.
VDURA es una empresa de infraestructura de datos definida por software que construye soluciones de almacenamiento modernas optimizadas para cargas de trabajo de inteligencia artificial y computación de alto rendimiento bajo el lema “velocidad encuentra durabilidad”. La plataforma de datos VDURA combina el rendimiento del sistema de archivos paralelo de flash con la resistencia del almacenamiento de objetos en una arquitectura unificada que se escala linealmente a través de miles de clientes y nodos, simplificando las operaciones y reduciendo el costo total de propiedad. Originalmente fundada como Panasas y rebautizada en 2024, la plataforma de VDURA admite entornos locales, en la nube y híbridos con automatización avanzada, aceleración de metadatos y rendimiento escalable diseñado para mantener alimentados a los clústeres de GPU y proteger los datos para casos de uso de inteligencia artificial y computación de alto rendimiento empresarial, de investigación y críticos.
¿Cómo ha moldeado su recorrido a través de HPC y almacenamiento empresarial su visión de que el almacenamiento se está convirtiendo en la restricción definitoria en la infraestructura de inteligencia artificial?
Al haber construido sistemas de almacenamiento para algunos de los entornos de cómputo más exigentes del mundo, desarrollas una intuición sobre dónde viven los cuellos de botella en realidad, en lugar de dónde la gente asume que viven. En Xyratex y a través del trabajo de ClusterStor en Seagate, estábamos resolviendo problemas de almacenamiento para supercomputadoras donde la física era implacable. O alimentabas el cómputo o no.
Lo que veo ahora en la infraestructura de inteligencia artificial es la misma restricción fundamental, solo vestida con diferentes economías. La obsesión con GPU en el mercado Neocloud era comprensible. NVIDIA creó un recurso escaso y transformador. Pero la suposición de que el almacenamiento simplemente se escalaría junto con él, de manera barata y fácil, siempre iba a fallar. Ha fallado. El almacenamiento ahora tiende hacia el 20 al 30 por ciento de los presupuestos de infraestructura de inteligencia artificial en implementaciones de solo flash, creciendo más rápido que cualquier otro componente. Cuando has pasado una carrera viendo cómo el almacenamiento se convierte en la restricción vinculante en cada entorno de cómputo a gran escala, dejas de sorprenderte cuando el resto del mercado se da cuenta de esa realidad.
¿Por qué se despriorizó la planificación de almacenamiento durante la toma de infraestructura Neocloud?
Unas cuantas suposiciones estructurales convergieron en el momento exacto. Primero, los precios del flash eran temporalmente favorables. Los SSD NVMe eran asequibles y abundantes, por lo que ir a solo flash parecía una opción razonable por defecto. No era sabiduría arquitectónica. Era un producto de una ventana económica breve que los operadores confundieron con una condición permanente.
En segundo lugar, la dinámica competitiva recompensó las cuentas de GPU por encima de todo lo demás. El mercado Neocloud se estaba evaluando según la cantidad de chips NVIDIA que podías rack. El almacenamiento era aproximadamente un ítem del 10 por ciento, fácil de pasar por alto sin un escrutinio profundo. Tercero, la decisión de ir a solo flash parecía segura porque eliminaba la complejidad. Una capa, un tipo de medio, simple de adquirir y operar. El problema es que “simple” y “sostenible económicamente” dejaron de ser lo mismo en el momento en que la oferta de NAND se redujo y los precios aumentaron. Para entonces, las decisiones de infraestructura ya estaban bloqueadas.
¿Qué sorprende más a los operadores cuando ven cómo el almacenamiento afecta la utilización de sus GPU?
La relación es más directa de lo que la mayoría de los operadores se dan cuenta hasta que están mirando GPU inactivas. Las ejecuciones de entrenamiento con puntos de control frecuentes crean demandas de escritura en ráfagas que pueden detener el cómputo si la capa de almacenamiento no puede absorberlas lo suficientemente rápido. Las tuberías de datos para el preprocesamiento y la ingesta crean requisitos de rendimiento de lectura sostenida que, si no se cumplen, privan a los GPU de trabajo.
La propia guía de DGX de NVIDIA cuantifica esto: el entrenamiento de LLM basado en texto requiere aproximadamente 0,5 GB/s de rendimiento de lectura por GPU, mientras que los trabajos de inteligencia artificial y visualización física requieren aproximadamente 4 GB/s de lecturas y 2 GB/s de escrituras por GPU. Si tu arquitectura de almacenamiento no puede entregar eso, no estás ejecutando tus GPU a capacidad. Estás ejecutándolas a la fracción que tu almacenamiento permite.
La arquitectura es enormemente importante a escala de clúster. Un sistema de almacenamiento que interponga un intermediario entre la unidad y el cliente puede mostrar un rendimiento de throughput comparable en una sola unidad, pero a escala puedes terminar necesitando tres veces más unidades para saturar la misma flota de GPU. Tres veces más SSD, tres veces más potencia, tres veces más espacio en rack. Las matemáticas de utilización se complican rápidamente.
¿Qué diferenciales de costo pueden surgir puramente de la selección de SSD y el diseño arquitectónico, incluso cuando las métricas de throughput parecen similares?
Este es el lugar donde los operadores se meten en problemas serios, porque las cifras de título pueden ser genuinamente engañosas. Tomemos un ejemplo representativo. Un SSD NVMe QLC de 122,88 TB cuesta alrededor de $27,000. Un disco de 7,68 TB de la misma generación ofrece un rendimiento de throughput secuencial comparable por alrededor de $1,800. Para un clúster de 4,096 GPU en la especificación mejorada de NVIDIA, esa sola decisión de selección de capacidad produce una factura de flash que va desde $600,000 hasta $9,6 millones. El rendimiento es efectivamente idéntico. La única variable es cuántos datos fríos estás eligiendo para estacionar en un medio premium que no ofrece ningún beneficio de rendimiento adicional.
Además, el diseño arquitectónico determina la cantidad de unidades a escala de clúster. Una arquitectura que ofrece aproximadamente 5,8 GB/s de rendimiento de lectura medido por SSD necesita alrededor de 353 unidades para saturar un clúster de 4,096 GPU. Una arquitectura que ofrece aproximadamente 1,9 GB/s por SSD, debido a la sobrecarga del intermediario, necesita más de 1,000. A $12,000 por disco de 30 TB, esa diferencia no es un error de redondeo, es una pregunta de modelo de negocio.
¿Cómo deberían replantear los operadores el almacenamiento en solo flash versus almacenamiento en capas a medida que aumentan los precios del flash y la oferta de NAND sigue siendo limitada?
El punto de partida es aceptar que el premisa económica detrás de la infraestructura de inteligencia artificial en solo flash siempre fue contingente, no fundamental. El CEO de Phison ha descrito la capacidad de producción de NAND como efectivamente asignada hasta 2026. Goldman Sachs proyecta que los precios de DRAM aumentarán en dos dígitos trimestre a trimestre durante el mismo período. La opción por defecto de solo flash tenía sentido cuando el flash era barato y abundante. Ya no lo es.
El marco correcto es preguntar para qué es realmente el flash. El flash es un medio de rendimiento. Debe dimensionarse para saturar los requisitos de throughput de GPU, nada más. Todo lo demás, incluidos los datos fríos, los puntos de control que no se están leyendo activamente y los conjuntos de entrenamiento archivados, pertenecen a discos duros de alta densidad, que siguen siendo órdenes de magnitud más baratos por TB.
La trampa en la que caen los operadores es tratar la capa como algo que se agrega: comprar una capa principal de solo flash, agregar una tienda de objetos separada para datos fríos y conectarlos con movimientos de datos externos. Eso introduce una segunda pila de software, un segundo plano de datos, complejidad de red y sobrecarga operativa. El enfoque de los hyperscalers, que ejecuta SSD y HDD dentro de la misma pila de software con capa nativa de alto rendimiento y sin movimientos de datos externos, mantiene el almacenamiento más cerca del 10 por ciento del presupuesto de infraestructura mientras aún satura cada GPU.
¿Qué lecciones puede aprender la capa Neocloud del diseño de almacenamiento de los hyperscalers?
La lección más importante es que Google, Meta y Microsoft no ejecutan solo flash, y tienen más experiencia en cargas de trabajo de inteligencia artificial que nadie. Despliegan arquitecturas de capas mixtas con capa inteligente: suficiente flash NVMe para saturar el throughput de GPU, luego drenar a discos duros de alta densidad tan rápido como la física lo permite. Esto no es una preferencia filosófica. Es un imperativo económico impulsado por una comprensión clara de la física de las cargas de trabajo de inteligencia artificial.
La segunda lección es la integración arquitectónica. Los hyperscalers no resuelven la capa uniendo sistemas separados. Ejecutan SSD y HDD en la misma pila de software, el mismo plano de datos, con capa como una operación de primera clase dentro del sistema de almacenamiento, no como un trabajo por lotes administrado por una herramienta separada. Esa integración es lo que les permite mantener el almacenamiento económico a una escala enorme mientras mantiene las garantías de rendimiento que sus flotas de GPU requieren.
La tercera lección es la durabilidad que respalda. AWS S3 entrega 11 nueves de durabilidad. Azure Blob entrega 12 o más. Las arquitecturas de almacenamiento de HPC heredadas construidas en RAID local pueden caer por debajo de 5 nueves a escala dependiendo de las tasas de falla de la unidad y las ventanas de reconstrucción, potencialmente miles de archivos perdidos por año en un corpus de mil millones de archivos. El codificado de eliminación de red moderno con protección de varios niveles puede superar los 11 nueves. La brecha entre esas dos realidades es la diferencia entre un sistema de almacenamiento que puedes respaldar con un SLA y uno que no puedes.
¿Cómo deberían cuantificar los equipos de infraestructura el impacto económico de la disponibilidad de almacenamiento en las flotas de GPU?
Las matemáticas son sobrias cuando se ejecutan honestamente. La falla de almacenamiento compartido no produce una brecha de SLA proporcional. Produce una violación simultánea en cada rack de GPU conectado a ese almacenamiento. Un clúster de 5,000 GPU con una disponibilidad de almacenamiento del 98 por ciento no entrega un error de rendimiento del 2 por ciento. Produce 876,000 horas de cómputo perdidas por año. A costos representativos de hora de GPU, eso se traduce en millones de dólares en cómputo inactivo anualmente, más créditos de SLA adeudados en cada rack afectado simultáneamente.
El radio de explosión de la falla de almacenamiento en un clúster grande es el clúster completo. Los equipos de infraestructura necesitan modelar esto explícitamente: ¿cuál es el costo anualizado de cómputo inactivo en su figura actual de disponibilidad de almacenamiento, cuáles son las obligaciones de crédito de SLA que se adjuntan a cada nivel de disponibilidad y cuál es el riesgo de abandono del cliente por fallas de SLA? CoreWeave y Oracle ya están ofreciendo un tiempo de actividad del rack del 99 por ciento. Los proveedores que no pueden igualar eso están perdiendo tratos hoy, y los tratos que están perdiendo son cada vez más los contratos empresariales de alto valor que el mercado Neocloud necesita para demostrar su economía a largo plazo.
¿Cómo comparan las diferentes arquitecturas de almacenamiento en rendimiento por vatio en entornos con restricciones de potencia?
Sale en casi todas las conversaciones de infraestructura serias ahora, y la diferencia no es marginal. Es multiplicativa. Según especificaciones publicadas y configuraciones comparables, al entregar aproximadamente 1,340 GB/s de rendimiento de lectura, una arquitectura quema 55 kW mientras que otra logra una salida similar a aproximadamente 16 kW. Esa es una diferencia de 3,4 veces en rendimiento por vatio. En un centro de datos donde las cargas de trabajo de inteligencia artificial están consumiendo 40 a 250 kilovatios por rack contra una conexión de red fija, los vatios de almacenamiento desperdiciados son GPU que no puedes desplegar. La propia documentación de BlueField-4 de NVIDIA establece explícitamente que la disponibilidad de potencia es la restricción principal para escalar fábricas de inteligencia artificial.
También hay un efecto de segundo orden que los operadores rara vez tienen en cuenta. Algunas arquitecturas de almacenamiento requieren 5 GB de DRAM y uno a cuatro núcleos de CPU dedicados permanentemente bloqueados por nodo de GPU solo para lograr el rendimiento de almacenamiento máximo. A través de un clúster de 500 nodos, eso es 2,5 TB de DRAM y hasta 2,000 núcleos de CPU permanentemente no disponibles para las cargas de trabajo de inteligencia artificial. Cuando estás pagando $30,000 o más por GPU, cada núcleo robado y cada gigabyte bloqueado es un impuesto directo sobre la inversión en cómputo que supuestamente es el punto de la infraestructura.
¿Cómo afecta directamente la arquitectura de almacenamiento la competitividad de SLA a medida que las garantías de tiempo de actividad se acercan al 99 por ciento?
El almacenamiento es el radio de explosión más grande en cualquier clúster de GPU, lo que lo convierte en la variable más importante en cualquier compromiso de SLA honesto. El sistema de calificación ClusterMAX 2.0 de SemiAnalysis, que se está convirtiendo en una referencia influyente en la adquisición de Neocloud, hace que los SLA sean un factor explícito en las negociaciones de precios. Los proveedores sin SLA competitivos están perdiendo tratos ahora.
La dimensión de durabilidad es igualmente importante y menos discutida. Los clientes empresariales han sido condicionados por AWS S3 y Azure Blob a esperar 11 a 12 nueves de durabilidad. Las arquitecturas de almacenamiento de HPC heredadas construidas en RAID local pueden caer por debajo de 5 nueves a escala dependiendo de las tasas de falla de la unidad y las ventanas de reconstrucción, potencialmente miles de archivos perdidos por año en un corpus de mil millones de archivos. El codificado de eliminación de red moderno con protección de varios niveles puede superar los 11 nueves. La brecha entre esas dos realidades es la diferencia entre un sistema de almacenamiento que puedes respaldar con un SLA y uno que no puedes.
¿Qué capacidades de almacenamiento son más probable que determinen la supervivencia a largo plazo de Neocloud a través de la consolidación?
Los operadores que sobrevivirán serán aquellos que hayan resuelto la ecuación de costo total de propiedad en toda la pila de infraestructura, no solo la ecuación de adquisición de GPU. Eso significa varias capacidades específicas.
Primero, una arquitectura de software definida unificada que ejecuta flash y disco en un solo plano de datos con capa nativa de alto rendimiento, sin movimientos de datos externos, sin segunda pila de software, sin complejidad operativa introducida por la unión de sistemas separados. Segundo, almacenamiento que pueda cabalgar curvas de costo independientes para flash y disco a medida que esos mercados se mueven de forma independiente entre sí, lo que harán. Tercero, sistemas auto-sanadores que mantienen la alta disponibilidad sin administradores especializados que realicen recuperación manual a las 3 AM. La complejidad operativa del almacenamiento es un costo invisible que se compone a escala. Cuarto, durabilidad que pueda ser respaldada creíblemente en un SLA contra las referencias de los hyperscalers.
El punto más amplio es que la ola de consolidación está separando la infraestructura construida para las mediciones del día uno de la infraestructura construida para la economía del año tres. Las tarifas de alquiler de H100 han caído más del 60 por ciento desde su punto máximo. El mercado ya no recompensa la acumulación de GPU. Está exigiendo pruebas de retorno sobre la inversión de capital. La arquitectura de almacenamiento es donde vive esa prueba, porque es donde se cruzan las tasas de utilización de GPU, los compromisos de SLA, la eficiencia de energía y la estructura de costos a largo plazo.
¿Qué mensaje tiene para los operadores de Neocloud que están evaluando su estrategia de almacenamiento hoy?
No dejen que la decisión de almacenamiento sea la que tomaron por defecto. Cada parte de la pila de infraestructura recibe una ingeniería y un escrutinio financiero rigurosos. El almacenamiento no debería ser diferente. Los operadores que estarán aquí en tres años son aquellos que echaron un vistazo honesto a su costo real por hora de cómputo útil, entendieron su postura de disponibilidad real y se aseguraron de que estaban dimensionados para la carga de trabajo en lugar de para un atajo de adquisición.
La ventana para hacerlo bien se está cerrando. La consolidación ya está en marcha, y la economía es implacable. Pero para los operadores que están dispuestos a replantear la capa de almacenamiento con el mismo rigor que aplicaron a la selección de GPU, la oportunidad es significativa. El almacenamiento hecho correctamente no solo reduce el costo. Desbloquea el valor completo de cada GPU en el rack.
Gracias por la gran entrevista, los lectores que desean aprender más sobre esta pila de tecnología pueden visitar VDURA. También pueden leer nuestra entrevista anterior con Ken Claffey.












