Líderes de opinión

El Secreto para un AI Más Rápido No es Más GPUs, es una Conexión en Red Más Inteligente

mm

El AI está redefiniendo lo que es posible en diversas industrias, incluyendo la atención médica, las finanzas, la fabricación y el comercio minorista. Sin embargo, con un gran potencial, también conlleva enormes demandas de infraestructura.

Las organizaciones de todo el mundo están invirtiendo en GPUs a una escala sin precedentes para acelerar el entrenamiento y la inferencia del AI. Para 2028, Gartner proyecta que el gasto en IT de AI generativa superará los $1 billón. Hyperion Research prevé que el gasto total en el mercado de HPC superará los $100 mil millones en el mismo período. Sin embargo, a pesar de invertir en aceleradores de última generación, muchos directores de informática siguen viendo GPUs inactivas, con una utilización que oscila entre el 35% o menos. Esto no solo resulta en un rendimiento deficiente, sino también en un desperdicio de energía y costos inflados.

Aunque muchos proyectos de AI se estancan, no es porque les falten GPUs o potencia de cómputo, sino porque la red no puede seguir el ritmo, lo que requiere un nuevo enfoque para diseñar el AI a escala.

El Costo Oculto de los Cuellos de Botella de la Red

Cuando las redes no pueden proporcionar datos lo suficientemente rápido para mantener las GPUs constantemente ocupadas, las organizaciones experimentan varios impactos críticos:

  • GPUs y CPUs subutilizados debido a transferencias de datos bloqueadas: Las GPUs están diseñadas para cálculos masivamente paralelos, pero solo pueden procesar datos tan rápido como se les entregan. Si la red no puede seguir el ritmo, las GPUs se quedan inactivas esperando datos en lugar de procesar números. Las CPUs también pueden estancarse ya que coordinan tareas y mueven datos a través de la tubería, lo que resulta en una baja utilización a pesar de la disponibilidad de hardware costoso.
  • Rendimiento de inferencia inconsistente debido a una red ineficiente: Las ineficiencias de la red crean flujos de datos desiguales, lo que hace que las GPUs fluctúen entre velocidades máximas y estados inactivos. Esto produce un rendimiento de inferencia impredecible que puede paralizar las aplicaciones de AI en producción.
  • Ciclos de entrenamiento más largos, retrasando el tiempo de llegada al mercado: El entrenamiento de modelos de AI requiere mover grandes conjuntos de datos a través de servidores, GPUs y almacenamiento. Los cuellos de botella de la red estrangulan este proceso, por lo que las GPUs pasan menos tiempo entrenando y más tiempo esperando. Esto ralentiza directamente los calendarios de desarrollo y despliegue de productos.
  • Costos de energía y operativos en aumento: Incluso cuando están inactivas, las GPUs y la infraestructura circundante aún consumen una cantidad significativa de energía. Si las GPUs están subutilizadas debido a ineficiencias de la red, las organizaciones pagan por un alto consumo de energía sin obtener un rendimiento proporcional. Los costos operativos aumentan porque las instalaciones deben respaldar las cargas máximas de energía y refrigeración, incluso si el rendimiento de cómputo está artificialmente limitado.

Las empresas pueden seguir invirtiendo dinero en más GPUs, pero sin las mejoras de red adecuadas, solo comprenderán estos cuellos de botella y las ineficiencias.

Red como Acelerador: Un Cambio de Paradigma

La solución requiere replantear la arquitectura de la red por completo. Introducir un modelo que utiliza la red como acelerador invierte la forma tradicional de pensar sobre el rendimiento de HPC y AI para desbloquear nuevas capacidades.

En lugar de centrarse principalmente en agregar más cómputo a través de GPUs y CPUs, el enfoque “red como acelerador” trata la red como un multiplicador de rendimiento. Como resultado, la red puede apoyar mejor el cómputo de alta densidad y acelerar el ROI al eliminar cuellos de botella, escalar para satisfacer las demandas de cómputo y optimizar las inversiones en hardware. Al permitir un mayor cómputo sin ralentizaciones, las organizaciones pueden ejecutar cargas de trabajo más grandes en menos espacio, obtener resultados más rápido y evitar gastar demasiado en hardware adicional.

Cómo Funciona el Modelo “Red como Acelerador”

Entonces, ¿cómo funciona este modelo para que las organizaciones puedan transformar su red de ser un simple movimiento de datos en un habilitador activo del cómputo y comenzar a aprovechar los beneficios? Proporciona cuatro capacidades clave que las redes tradicionales no tienen:

  • Entrega garantizada a nivel de hardware: Las redes tradicionales sobrecargan las CPUs y las GPUs con la sobrecarga de seguimiento de paquetes, retransmisión y reordenamiento. Esto consume ciclos de cómputo que podrían dedicarse al entrenamiento o la inferencia. Con una red que garantiza la entrega a nivel de hardware, estas tareas se transfieren lejos de los nodos de cómputo, lo que resulta en una reducción de la sobrecarga de CPU y GPU, un rendimiento predecible y consistente y una escalabilidad que simplifica la programación y la orquestación de clústeres.
  • Enrutamiento dinámico inteligente: La ruta fija o subóptima convencional puede dejar partes de la red subutilizadas o crear cuellos de botella donde fluyen grandes volúmenes de datos simultáneamente. El enrutamiento inteligente aprovecha dinámicamente todas las rutas disponibles para optimizar el flujo de tráfico. Permite un mayor rendimiento con múltiples rutas activas que equilibran el tráfico, una latencia más baja a través de la selección de rutas óptimas y una mayor resiliencia ya que el tráfico de la red se reruta automáticamente alrededor de fallas de enlaces o nodos. Esto reduce los tiempos de inactividad y mantiene las GPUs completamente alimentadas con datos.
  • Reintento automático de enlace: Cuando se pierden o corrompen paquetes, las redes estándar dependen de la capa de cómputo para detectar y volver a enviarlos, lo que introduce una latencia significativa y interrumpe el flujo de cómputo. Una red con capacidades de reintento automático de enlace incorporadas maneja las retransmisiones dentro de la red en sí. Permite una confiabilidad casi transparente ya que la pérdida de paquetes se vuelve invisible para los nodos de cómputo, mientras reduce el impacto de la latencia ya que los reintentos ocurren localmente en el enlace, no en toda la pila de la red. También elimina la necesidad de un manejo de errores de aplicación complejo. Las capacidades de reintento automático garantizan un cómputo distribuido ininterrumpido y eficiente, lo cual es importante al escalar a través de miles de GPUs.
  • Cómputo en red: Mientras que las redes tradicionales se centran principalmente en mover datos, el cómputo en red permite que la red se convierta en un coprocesador al realizar ciertas operaciones directamente dentro de la red. NVIDIA SHARP es un ejemplo destacado: permite reducciones en los conmutadores de red en sí. Esto permite operaciones distribuidas aceleradas, reduce la latencia porque los datos se agregan a medida que atraviesan la red y aumenta la eficiencia porque los nodos de cómputo se liberan de realizar tareas de agregación, dejando más ciclos para el entrenamiento y la simulación.

En conjunto, estas capacidades son lo que hace que “la computación liderada por la red” sea fundamental para escalar entornos de AI y HPC de próxima generación. Un enfoque centrado en la red proporciona retornos tangibles que incluyen una mayor utilización de las GPUs que elimina la hambruna de datos, un tiempo más rápido para obtener información que reduce los ciclos de entrenamiento y estabiliza el rendimiento de la inferencia, una mayor eficiencia de recursos y un menor costo total de propiedad.

Descubrir el Verdadero Poder de la Red

El AI a escala no es solo un problema de cómputo, es un desafío de ingeniería a nivel de sistema, con la red en el centro de ello. Tratar la red como un acelerador la convierte en un multiplicador de fuerza para el cómputo, lo que permite que los centros de datos de HPC y AI escalen en densidad sin sacrificar el rendimiento. Proporciona un ROI medible más rápido al extraer el valor máximo de la infraestructura existente antes de invertir en más silicio.

Al eliminar cuellos de botella, aumentar la utilización y entregar un rendimiento predecible, una red más inteligente permite que los equipos de AI sean más productivos, un mejor ROI en la infraestructura de GPU y un tiempo más rápido para obtener información, innovación y liderazgo en el mercado. Permite que las organizaciones descubran lo que su red puede ser realmente y aprovechen el poder del AI de nuevas maneras.

Nishant Lodha es director senior de redes de inteligencia artificial en Cornelis Networks. Antes de unirse a Cornelis, Nishant ocupó puestos de director en Intel Corporation y Marvell. Tiene más de 25 años de experiencia en tecnologías de redes, almacenamiento y computación de centros de datos en roles que abarcan marketing de productos, soluciones y marketing técnico, y ingeniero de redes. Está ubicado en Silicon Valley.