Líderes de opinión

El cambio inminente en la infraestructura de IA: programabilidad más allá del silicio

mm

Mientras que todo el mundo está cada vez más enamorado de la IA y todas sus aplicaciones, existen algunas barreras muy reales que obstaculizan su éxito total. Por ejemplo, la infraestructura de los centros de datos de IA, que enfrenta importantes desafíos de confiabilidad, cuellos de botella de rendimiento y restricciones de consumo de energía que limitan cómo pueden escalar los sistemas de IA en la práctica. De hecho, las cargas de trabajo de IA en constante cambio exigen un paso hacia la siguiente etapa del desarrollo de OCS – OCS de fotónica de silicio programable – que permite niveles de flexibilidad de red nunca vistos antes.

Cómo llegamos aquí: La historia detrás del desarrollo de OCS

Conmutadores de circuito óptico (OCS) tienen una larga historia que se remonta a la telefonia en el siglo XIX y principios del siglo XX, cuando la comunicación de voz dependía de la conmutación de circuitos – conmutación física de cables para establecer una conexión telefónica entre dos partes. La conmutación de paquetes se introdujo en la década de 1960 como una forma de hacer un mejor uso de la infraestructura compartida. Implicaba dividir los datos en pequeños “paquetes” para permitir que múltiples transmisiones viajaran a través de una red en cualquier ruta. En la década de 1970, estos paquetes se definieron aún más en cómo se dirigían, se routearon y se entregaban a través de sistemas heterogéneos, y en la década de 1980, esta definición – Protocolo de control de transmisión/Protocolo de Internet, o TCP/IP – se convirtió en el estándar de Internet para permitir que las redes anteriormente incompatibles se comunicaran bajo un marco común. A medida que crecían las demandas de la red y la escalabilidad en la década de 1990, se introdujeron conmutadores de paquetes eléctricos (EPS). Combinados con TCP/IP, los EPS respaldaron el crecimiento de Internet y conectaron a millones de usuarios en todo el mundo. Al mismo tiempo, la fibra comenzó a reemplazar al cobre en las redes globales, ofreciendo una mayor capacidad y un alcance más largo y la capacidad de soportar velocidades de varios terabits.

El entorno de IA dinámico

Pero a principios del siglo XXI, las cargas de trabajo de IA ejercieron una enorme presión sobre las redes electrónicas actuales, lo que llevó al desarrollo de las primeras arquitecturas de conmutadores de circuito óptico (OCS) de datos de centro de datos comerciales basados en MEMS. Los conmutadores ópticos MEMS son dispositivos de conmutación óptica que utilizan espejos móviles microscópicos para redirigir la luz entre las fibras de entrada y salida sin convertir la señal a electricidad. Estos OCS basados en MEMS admiten grandes cantidades de puertos, que son ideales para conectar ópticamente servidores distantes y superar las limitaciones del cobre en los centros de datos. Sin embargo, se han vuelto evidentes los límites en la velocidad de reconfiguración, el costo por puerto y el factor de forma. Estos límites impiden que los OCS basados en MEMS aborden la necesidad de reconfiguración de la red en tiempo real en el corazón del motor de cómputo del centro de datos – la red de escalado – especialmente en la cara de las cargas de trabajo de IA.

De hecho, hoy en día, los límites de los OCS basados en MEMS y las demandas del centro de datos de IA son aún más pronunciados, gracias a los cambios masivos, no lineales y impredecibles introducidos por la IA cada año o cada seis meses – si no cada trimestre. Los actores del ecosistema del centro de datos de IA ahora se les pide que se adapten rápidamente y respondan al paisaje de IA en constante cambio. Y los diseñadores de la red están presionados para reconfigurar o reprogramar sus redes de centro de datos de IA según sea necesario para sortear problemas dentro de la red, o gestionar el nuevo nivel de cargas de trabajo de IA que necesitan un rendimiento optimizado.

Fotónica de silicio programable: Más allá de una red ‘congelada’

La fotónica de silicio (SiPh) programable OCS es el siguiente paso en el desarrollo de OCS. De bajo costo, muy compacta y impulsada por software, estos chips fotónicos pueden ser reprogramados instantáneamente para adaptarse en tiempo real a la forma en que la luz y, por lo tanto, reconfigurar la red. En comparación con MEMS, el OCS de SiPh programable es una tecnología de estado sólido, lo que elimina muchos riesgos de confiabilidad porque no hay partes móviles. La tecnología de estado sólido compatible con CMOS también implica que puede coincidir con el costo óptimo del objetivo del clúster de GPU de $100 por radix.

Los OCS de SiPh programable también fortalecen las arquitecturas de los centros de datos de IA de dos maneras críticas. Primero, permiten una reconfiguración rápida de los interconectores de GPU para que las cargas de trabajo se puedan ejecutar de manera más eficiente y completar más rápido. A medida que evoluciona el entrenamiento de IA, las topologías de comunicación deben cambiar dinámicamente, incluso dentro del trabajo de entrenamiento, sin pérdida de paquetes. Esto requiere tiempos de reconfiguración extremadamente rápidos, un área en la que la escalabilidad de OCS de SiPh es fundamentalmente superior a los enfoques basados en MEMS, que admiten tiempos de reconfiguración y transducción mucho más rápidos que las tecnologías de MEMS.

En segundo lugar, la programabilidad de OCS de SiPh permite integrar funciones adicionales directamente en el tejido de conmutación sin escalar en factor de forma. Capacidades como la telemetría en tiempo real a través de fotodetectores integrados de SiGe y la amplificación de enlaces pueden incorporarse para mejorar la observabilidad y aumentar la resistencia a fallos. Mientras que los OCS basados en MEMS suelen introducir 2-3 dB de pérdida óptica, las implementaciones de OCS de SiPh pueden diseñarse para ser efectivamente libres de pérdida, lo que mejora la flexibilidad y eficiencia generales del sistema.

Mirando hacia adelante

Debido a que las redes de centros de datos históricas son rígidas y no pueden seguir el ritmo de las necesidades cambiantes de los centros de datos de IA, el mercado para la tecnología de SiPh programable presenta una oportunidad de varios miles de millones de dólares. Junto con este gran auge viene la necesidad de colaboración y cooperación entre las empresas que están en el corazón de esta nueva tecnología. Con este fin, existe un cuerpo de estandarización de OCP — que incluye Google, Microsoft, Lumentum y otros innovadores — que tiene como objetivo hacer que la interfaz de software para el administrador de la red que utiliza OCS sea tan estándar y fácil de usar como sea posible. Juntas, estas empresas comparten sus perspectivas y crean estándares para impulsar la tecnología hacia adelante y acelerar la adopción.

A medida que la IA impulsa la evolución en nuestro mundo, las redes de los centros de datos de IA también deben evolucionar y ser resistentes al futuro para respaldarla. Los OCS de SiPh programable permiten que las empresas creen en la cima de la innovación y realicen nuevas y emocionantes oportunidades para todos.

Christian Dupont es CEO de iPronics, donde ha recaudado decenas de millones para escalar la empresa en conmutadores ópticos para centros de datos de inteligencia artificial. Un ingeniero de EPFL con una carrera distinguida en la industria tecnológica, el Sr. Dupont ha ocupado puestos ejecutivos en Texas Instruments, se ha desempeñado como CEO en Varioptic y PoLight en el dominio de MEMS ópticos, y más tarde como CEO de CEO-CF, Dolphin Integration y Riber.