Entrevistas
Andrew Feldman, Co-fundador y CEO de Cerebras Systems – Serie de Entrevistas

Andrew es co-fundador y CEO de Cerebras Systems. Es un empresario dedicado a empujar los límites en el espacio de cómputo. Antes de Cerebras, co-fundó y fue CEO de SeaMicro, un pionero en microservidores de alta banda y eficientes en energía. SeaMicro fue adquirida por AMD en 2012 por $357M. Antes de SeaMicro, Andrew fue Vicepresidente de Gestión de Producto, Marketing y Desarrollo de Negocios en Force10 Networks, que más tarde fue vendida a Dell Computing por $800M. Antes de Force10 Networks, Andrew fue Vicepresidente de Marketing y Desarrollo Corporativo en RiverStone Networks desde la creación de la empresa hasta su oferta pública inicial en 2001. Andrew tiene un BA y un MBA de la Universidad de Stanford.
Cerebras Systems está construyendo una nueva clase de sistema de computadora, diseñada desde cero con el objetivo singular de acelerar la IA y cambiar el futuro del trabajo de la IA.
¿Podría compartir la historia de la génesis detrás de Cerebras Systems?
Mis co-fundadores y yo trabajamos juntos en una startup anterior que mi CTO Gary y yo fundamos en 2007, llamada SeaMicro (que fue vendida a AMD en 2012 por $334 millones). Mis co-fundadores son algunos de los principales arquitectos y ingenieros informáticos de la industria – Gary Lauterbach, Sean Lie, JP Fricker y Michael James. Cuando nos reunimos de nuevo en 2015, escribimos dos cosas en una pizarra – que queríamos trabajar juntos, y que queríamos construir algo que transformara la industria y estuviera en el Museo de Historia de la Computación, que es el equivalente al Salón de la Fama de la Computación. Nos sentimos honrados cuando el Museo de Historia de la Computación reconoció nuestros logros y agregó el procesador WSE-2 a su colección el año pasado, citando cómo ha transformado el paisaje de la inteligencia artificial.
Cerebras Systems es un equipo de pioneros arquitectos informáticos, científicos de la computación, investigadores de aprendizaje profundo y ingenieros de todos los tipos que aman hacer ingeniería sin miedo. Nuestra misión cuando nos reunimos fue construir una nueva clase de computadora para acelerar el aprendizaje profundo, que ha surgido como una de las cargas de trabajo más importantes de nuestro tiempo.
Nos dimos cuenta de que el aprendizaje profundo tiene requisitos computacionales únicos, masivos y en crecimiento. Y no está bien emparejado con máquinas heredadas como las unidades de procesamiento gráfico (GPUs), que fueron diseñadas fundamentalmente para otros trabajos. Como resultado, la IA de hoy está limitada no por aplicaciones o ideas, sino por la disponibilidad de cómputo. Probar una sola nueva hipótesis – entrenar un nuevo modelo – puede tomar días, semanas o incluso meses y costar cientos de miles de dólares en tiempo de cómputo. Eso es un gran obstáculo para la innovación.
Así que la génesis de Cerebras fue construir un tipo nuevo de computadora optimizada exclusivamente para el aprendizaje profundo, a partir de una hoja de papel en blanco. Para satisfacer las enormes demandas computacionales del aprendizaje profundo, diseñamos y fabricamos el chip más grande jamás construido – el Motor a Escala de Wafer (WSE). Al crear el primer procesador a escala de wafer del mundo, superamos desafíos en diseño, fabricación y embalaje – todos los cuales habían sido considerados imposibles durante los 70 años de historia de la computación. Cada elemento del WSE está diseñado para permitir la investigación de aprendizaje profundo a velocidades y escalas sin precedentes, impulsando el supercomputador de IA más rápido de la industria, el Cerebras CS-2.
Con cada componente optimizado para el trabajo de IA, el CS-2 entrega un rendimiento de cómputo mayor en menos espacio y menos potencia que cualquier otro sistema. Esto lo hace mientras reduce radicalmente la complejidad de programación, el tiempo de cómputo en tiempo real y el tiempo de solución. Dependiendo de la carga de trabajo, desde la IA hasta el cómputo de alto rendimiento, el CS-2 entrega cientos o miles de veces más rendimiento que las alternativas heredadas. El CS-2 proporciona los recursos de cómputo de aprendizaje profundo equivalentes a cientos de GPUs, mientras proporciona la facilidad de programación, administración y despliegue de un solo dispositivo.
En los últimos meses, Cerebras parece estar en todas partes en las noticias, ¿qué puede decirnos sobre el nuevo supercomputador de IA Andromeda?
Anunciamos Andromeda en noviembre del año pasado, y es uno de los supercomputadores de IA más grandes y poderosos jamás construidos. Al entregar más de 1 Exaflop de cómputo de IA y 120 Petaflops de cómputo denso, Andromeda tiene 13,5 millones de núcleos en 16 sistemas CS-2, y es el único supercomputador de IA que ha demostrado una escalabilidad lineal casi perfecta en cargas de trabajo de modelos de lenguaje grande. También es muy fácil de usar.
Por recordatorio, el supercomputador más grande de la Tierra – Frontier – tiene 8,7 millones de núcleos. En número bruto de núcleos, Andromeda es más de una vez y media más grande. Hace un trabajo diferente, obviamente, pero esto da una idea del alcance: casi 100 terabits de ancho de banda interno, casi 20.000 núcleos AMD Epyc lo alimentan, y – a diferencia de los supercomputadores gigantes que tardan años en estar listos – pusimos en marcha Andromeda en tres días y de inmediato, estaba entregando una escalabilidad lineal casi perfecta de IA.
Los Laboratorios Nacionales de Argonne fueron nuestros primeros clientes en usar Andromeda, y aplicaron a un problema que estaba rompiendo su clúster de 2.000 GPUs llamado Polaris. El problema era ejecutar modelos generativos muy grandes, GPT-3XL, mientras ponían toda la secuencia del genoma de Covid en la ventana de secuencia, para que pudieran analizar cada gen en el contexto de todo el genoma de Covid. Andromeda ejecutó una carga de trabajo genética única con longitudes de secuencia largas (MSL de 10K) en 1, 2, 4, 8 y 16 nodos, con una escalabilidad lineal casi perfecta. La escalabilidad lineal es una de las características más buscadas de un clúster grande. Andromeda entregó un rendimiento 15,87 veces mayor en 16 sistemas CS-2, en comparación con un solo CS-2, y una reducción en el tiempo de entrenamiento para coincidir.
¿Podría hablarnos sobre la asociación con Jasper que se anunció a finales de noviembre y qué significa para ambas empresas?
Jasper es una empresa realmente interesante. Son líderes en contenido de IA generativa para marketing, y sus productos son utilizados por más de 100.000 clientes en todo el mundo para escribir copias para marketing, anuncios, libros y más. Es obviamente un espacio muy emocionante y en crecimiento en este momento. El año pasado, anunciamos una asociación con ellos para acelerar la adopción y mejorar la precisión de la IA generativa en aplicaciones empresariales y de consumidor. Jasper está utilizando nuestro supercomputador Andromeda para entrenar sus modelos computacionalmente intensivos en una fracción del tiempo. Esto extenderá el alcance de los modelos de IA generativa a las masas.
Con el poder del supercomputador Andromeda de Cerebras, Jasper puede avanzar dramáticamente en el trabajo de IA, incluyendo el entrenamiento de redes GPT para que los resultados de IA se ajusten a todos los niveles de complejidad y granularidad del usuario final. Esto mejora la precisión contextual de los modelos generativos y permitirá a Jasper personalizar el contenido en varias clases de clientes de manera rápida y sencilla.
Nuestra asociación permite a Jasper inventar el futuro de la IA generativa, haciendo cosas que son impracticables o simplemente imposibles con la infraestructura tradicional, y acelerar el potencial de la IA generativa, llevando sus beneficios a nuestra base de clientes en crecimiento en todo el mundo.
En un comunicado de prensa reciente, el Laboratorio Nacional de Tecnología Energética y el Centro de Supercomputación de Pittsburgh anunciaron la primera simulación de Dinámica de Fluidos Computacional en el motor a escala de wafer de Cerebras. ¿Podría describir qué es específicamente un motor a escala de wafer y cómo funciona?
Nuestro Motor a Escala de Wafer (WSE) es el procesador de IA revolucionario para nuestro sistema de computadora de aprendizaje profundo, el CS-2. A diferencia de los procesadores de propósito general heredados, el WSE se construyó desde cero para acelerar el aprendizaje profundo: tiene 850.000 núcleos optimizados para IA para operaciones de tensor esparso, memoria de alta banda ancha en chip y conectividad que es órdenes de magnitud más rápida que lo que podría lograr un clúster tradicional. Todo esto nos da los recursos de cómputo de aprendizaje profundo equivalentes a un clúster de máquinas heredadas en un solo dispositivo, fácil de programar como un solo nodo – reduciendo radicalmente la complejidad de programación, el tiempo de cómputo en tiempo real y el tiempo de solución.
Nuestro WSE-2 de segunda generación, que impulsa nuestro sistema CS-2, puede resolver problemas extremadamente rápido. Lo suficientemente rápido como para permitir modelos de alta fidelidad en tiempo real de sistemas ingenieriles de interés. Es un ejemplo raro de “escalabilidad fuerte” exitosa, que es el uso de paralelismo para reducir el tiempo de resolución con un problema de tamaño fijo.
Y eso es lo que el Laboratorio Nacional de Tecnología Energética y el Centro de Supercomputación de Pittsburgh están utilizando. Acabamos de anunciar algunos resultados emocionantes de una simulación de dinámica de fluidos computacional, compuesta por alrededor de 200 millones de celdas, a tasas casi en tiempo real. Este video muestra la simulación de alta resolución de la convección de Rayleigh-Bénard, que ocurre cuando una capa de fluido se calienta desde abajo y se enfría desde arriba. Estos flujos de fluidos impulsados por el calor están por todas partes – desde días ventosos, hasta tormentas de nieve en el lago, hasta corrientes de magma en el núcleo de la Tierra y el movimiento de plasma en el sol. Como dice el narrador, no es solo la belleza visual de la simulación lo que es importante: es la velocidad a la que podemos calcularla. Por primera vez, utilizando nuestro Motor a Escala de Wafer, el Laboratorio Nacional de Tecnología Energética puede manipular una cuadrícula de casi 200 millones de celdas en casi tiempo real.
¿Qué tipo de datos se están simulando?
La carga de trabajo probada fue flujos de fluidos impulsados por el calor, también conocidos como convección natural, que es una aplicación de la dinámica de fluidos computacional (CFD). Los flujos de fluidos ocurren naturalmente por todas partes — desde días ventosos, hasta tormentas de nieve en el lago, hasta el movimiento de placas tectónicas. Esta simulación, compuesta por alrededor de 200 millones de celdas, se centra en un fenómeno conocido como “convección de Rayleigh-Bénard”, que ocurre cuando un fluido se calienta desde abajo y se enfría desde arriba. En la naturaleza, este fenómeno puede provocar eventos climáticos severos como downbursts, microbursts y derechos. También es responsable del movimiento de magma en el núcleo de la Tierra y del movimiento de plasma en el sol.
A fines de 2022, el Laboratorio Nacional de Tecnología Energética presentó una nueva API de modelado de ecuaciones de campo, impulsada por el sistema CS-2, que fue hasta 470 veces más rápida que lo que era posible en el supercomputador Joule de la NETL. Esto significa que podría entregar velocidades más allá de lo que pueden lograr clústeres de cualquier número de CPUs o GPUs. Al utilizar una API de Python simple que permite el procesamiento a escala de wafer para la mayoría de la ciencia computacional, WFA entrega ganancias en rendimiento y usabilidad que no podrían obtenerse en computadoras y supercomputadoras convencionales – de hecho, superó a OpenFOAM en el supercomputador Joule 2.0 de la NETL en más de dos órdenes de magnitud en el tiempo de solución.
Debido a la simplicidad de la API de WFA, los resultados se lograron en solo unas semanas y continúan la estrecha colaboración entre la NETL, el PSC y Cerebras Systems.
Al transformar la velocidad de la CFD (que siempre ha sido una tarea lenta y fuera de línea) en nuestro WSE, podemos abrir un gran número de nuevos casos de uso en tiempo real para esto, y muchas otras aplicaciones de HPC básicas. Nuestro objetivo es que al permitir más poder de cómputo, nuestros clientes puedan realizar más experimentos e inventar una mejor ciencia. El director del laboratorio de la NETL, Brian Anderson, nos ha dicho que esto acelerará drásticamente y mejorará el proceso de diseño para algunos proyectos muy grandes en los que la NETL está trabajando para mitigar el cambio climático y permitir un futuro energético seguro – proyectos como la secuestración de carbono y la producción de hidrógeno azul.
Cerebras está superando constantemente a la competencia al lanzar supercomputadoras, ¿cuáles son algunos de los desafíos detrás de la construcción de supercomputadoras de vanguardia?
Irónicamente, uno de los desafíos más difíciles de la IA grande es el cómputo distribuido.
Para entrenar las redes neuronales de vanguardia de hoy, los investigadores a menudo utilizan cientos o miles de unidades de procesamiento gráfico (GPUs). Y no es fácil. Escalar el entrenamiento de modelos de lenguaje grande en un clúster de GPUs requiere distribuir una carga de trabajo en muchos dispositivos pequeños, lidiar con los tamaños de memoria del dispositivo y las limitaciones de ancho de banda de memoria, y gestionar cuidadosamente la sobrecarga de comunicación y sincronización.
Hemos adoptado un enfoque completamente diferente para diseñar nuestros supercomputadores a través del desarrollo del Clúster a Escala de Wafer de Cerebras, y el modo de ejecución de transmisión de peso de Cerebras. Con estas tecnologías, Cerebras aborda una nueva forma de escalar basada en tres puntos clave:
El reemplazo del procesamiento de CPU y GPU por aceleradores a escala de wafer como el sistema CS-2 de Cerebras. Este cambio reduce la cantidad de unidades de cómputo necesarias para lograr una velocidad de cómputo aceptable.
Para satisfacer el desafío del tamaño del modelo, empleamos una arquitectura de sistema que desacopla el cómputo del almacenamiento del modelo. Un servicio de cómputo basado en un clúster de sistemas CS-2 (que proporciona un ancho de banda de cómputo adecuado) está estrechamente acoplado a un servicio de memoria (con una gran capacidad de memoria) que proporciona subconjuntos del modelo al clúster de cómputo según sea necesario. Como de costumbre, un servicio de datos proporciona lotes de datos de entrenamiento al servicio de cómputo según sea necesario.
Un modelo innovador para la programación y coordinación del trabajo de entrenamiento en el clúster CS-2 que emplea paralelismo de datos, entrenamiento capa a capa con pesos esparso transmitidos a demanda y retención de activaciones en el servicio de cómputo.
Ha habido temores sobre el fin de la Ley de Moore durante casi una década, ¿cuántos años más puede exprimir la industria y qué tipo de innovaciones se necesitan para esto?
Creo que la pregunta con la que todos estamos luchando es si la Ley de Moore – como la escribió Moore – está muerta. No se necesitan dos años para obtener más transistores. Ahora se necesitan cuatro o cinco años. Y esos transistores no llegan al mismo precio – llegan a precios mucho más altos. Entonces, la pregunta se convierte en, ¿estamos obteniendo aún los mismos beneficios al pasar de siete a cinco a tres nanómetros? Los beneficios son más pequeños y cuestan más, y así las soluciones se vuelven más complicadas que simplemente el chip.
Jack Dongarra, un arquitecto informático líder, dio una charla recientemente y dijo: “Hemos mejorado mucho en hacer FLOPs y en hacer E/S”. Eso es realmente cierto. Nuestra capacidad para mover datos fuera del chip está muy por detrás de nuestra capacidad para aumentar el rendimiento en un chip por una gran cantidad. En Cerebras, nos alegró cuando dijo eso, porque valida nuestra decisión de hacer un chip más grande y mover menos cosas fuera del chip. También proporciona algunas orientaciones sobre formas futuras de hacer que los sistemas con chips funcionen mejor. Hay trabajo por hacer, no solo en exprimir más FLOPs, sino también en técnicas para moverlos y para mover los datos de chip a chip – incluso de un chip muy grande a otro muy grande.
¿Hay algo más que le gustaría compartir sobre Cerebras Systems?
Para bien o para mal, la gente a menudo pone a Cerebras en esta categoría de “los chicos del chip realmente grande”. Hemos podido proporcionar soluciones convincentes para redes neuronales muy grandes, eliminando así la necesidad de hacer cómputo distribuido doloroso. Creo que eso es enormemente interesante y está en el corazón de por qué a nuestros clientes les encanta. El dominio interesante para 2023 será cómo hacer cómputo grande con un nivel de precisión más alto, utilizando menos FLOPs.
Nuestro trabajo sobre la dispersión proporciona un enfoque extremadamente interesante. No hacemos trabajo que no nos acerque a la meta, y multiplicar por cero es una mala idea. Estamos a punto de publicar un papel realmente interesante sobre la dispersión, y creo que habrá más esfuerzo en buscar cómo llegar a estos puntos eficientes, y cómo hacerlo con menos potencia. Y no solo para menos potencia y entrenamiento; ¿cómo minimizar el costo y el poder utilizado en la inferencia? Creo que la dispersión ayuda en ambos frentes.
Gracias por estas respuestas detalladas, los lectores que deseen aprender más deben visitar Cerebras Systems.












