talón Andrew Feldman, cofundador y director ejecutivo de Cerebras Systems - Serie de entrevistas - Unite.AI
Contáctanos

Entrevistas

Andrew Feldman, cofundador y director ejecutivo de Cerebras Systems – Serie de entrevistas

mm

Publicado

 on

Andrew es cofundador y director general de Sistemas Cerebras. Es un emprendedor dedicado a empujar los límites en el espacio informático. Antes de Cerebras, fue cofundador y director ejecutivo de SeaMicro, un pionero en microservidores de alto ancho de banda y eficiencia energética. SeaMicro fue adquirida por AMD en 2012 por 357 millones de dólares. Antes de SeaMicro, Andrew fue vicepresidente de administración de productos, marketing y BD en Force10 Networks, que luego se vendió a Dell Computing por $ 800 millones. Antes de Force10 Networks, Andrew fue vicepresidente de marketing y desarrollo corporativo en RiverStone Networks desde el inicio de la empresa hasta la oferta pública inicial en 2001. Andrew tiene una licenciatura y una maestría en administración de empresas de la Universidad de Stanford.

Cerebras Systems está construyendo una nueva clase de sistema informático, diseñado a partir de los primeros principios con el único objetivo de acelerar la IA y cambiar el futuro del trabajo de la IA.

¿Podría compartir la historia de génesis detrás de Cerebras Systems?

Mis cofundadores y yo trabajamos juntos en una startup anterior que mi CTO Gary y yo comenzamos en 2007, llamada SeaMicro (que se vendió a AMD en 2012 por $334 millones). Mis cofundadores son algunos de los arquitectos e ingenieros informáticos líderes en la industria: Gary Lauterbach, Sean Lie, JP Fricker y Michael James. Cuando volvimos a reunir a la banda en 2015, escribimos dos cosas en una pizarra: que queríamos trabajar juntos y que queríamos construir algo que transformaría la industria y estaría en el Computer History Museum, que es el equivalente a el Salón de la Fama de la Computación. Nos sentimos honrados cuando el Museo de Historia de la Computación reconoció nuestros logros y agregó el procesador WSE-2 a su colección el año pasado, citando cómo ha transformado el panorama de la inteligencia artificial.

Cerebras Systems es un equipo pionero de arquitectos informáticos, científicos informáticos, investigadores de aprendizaje profundo e ingenieros de todo tipo a los que les encanta hacer ingeniería sin miedo. Nuestra misión cuando nos reunimos era construir una nueva clase de computadora para acelerar el aprendizaje profundo, que se ha convertido en una de las cargas de trabajo más importantes de nuestro tiempo.

Nos dimos cuenta de que el aprendizaje profundo tiene requisitos computacionales únicos, masivos y crecientes. Y no se compara bien con las máquinas heredadas, como las unidades de procesamiento de gráficos (GPU), que se diseñaron fundamentalmente para otros trabajos. Como resultado, la IA actual no está restringida por aplicaciones o ideas, sino por la disponibilidad de cómputo. Probar una sola hipótesis nueva (entrenar un modelo nuevo) puede llevar días, semanas o incluso meses y costar cientos de miles de dólares en tiempo de cómputo. Ese es un gran obstáculo para la innovación.

Entonces, la génesis de Cerebras fue construir un nuevo tipo de computadora optimizada exclusivamente para el aprendizaje profundo, a partir de una hoja de papel en blanco. Para cumplir con las enormes demandas computacionales del aprendizaje profundo, diseñamos y fabricamos el chip más grande jamás construido: el Wafer-Scale Engine (WSE). Al crear el primer procesador a escala de obleas del mundo, superamos desafíos en el diseño, la fabricación y el empaque, todos los cuales se habían considerado imposibles durante los 70 años de historia de las computadoras. Cada elemento del WSE está diseñado para permitir la investigación de aprendizaje profundo a velocidades y escalas sin precedentes, impulsando la supercomputadora de IA más rápida de la industria, la Cerebras CS-2.

Con cada componente optimizado para el trabajo de IA, el CS-2 ofrece más rendimiento informático en menos espacio y menos energía que cualquier otro sistema. Hace esto mientras reduce radicalmente la complejidad de la programación, el tiempo de cómputo del reloj de pared y el tiempo de solución. Según la carga de trabajo, desde IA hasta HPC, CS-2 ofrece cientos o miles de veces más rendimiento que las alternativas heredadas. El CS-2 proporciona los recursos informáticos de aprendizaje profundo equivalentes a cientos de GPU, al tiempo que proporciona la facilidad de programación, administración e implementación de un solo dispositivo.

En los últimos meses, Cerebras parece estar en todo el noticias, ¿qué nos puede decir sobre la nueva supercomputadora Andromeda AI?

Anunciamos Andromeda en noviembre del año pasado, y es una de las supercomputadoras de IA más grandes y poderosas jamás construidas. Con más de 1 exaflop de cómputo de IA y 120 petaflops de cómputo denso, Andromeda tiene 13.5 millones de núcleos en 16 sistemas CS-2 y es la única supercomputadora de IA que ha demostrado una escala lineal casi perfecta en grandes cargas de trabajo de modelo de lenguaje. También es muy fácil de usar.

A modo de recordatorio, la supercomputadora más grande de la Tierra, Frontier, tiene 8.7 millones de núcleos. En el recuento de núcleos sin procesar, Andrómeda es más de una vez y media más grande. Obviamente, hace un trabajo diferente, pero esto da una idea del alcance: casi 100 terabits de ancho de banda interno, casi 20,000 núcleos AMD Epyc lo alimentan y, a diferencia de las supercomputadoras gigantes que tardan años en ponerse en pie, ponemos de pie a Andromeda en tres días. e inmediatamente después, estaba ofreciendo una escala lineal casi perfecta de IA.

Argonne National Labs fue nuestro primer cliente en usar Andromeda y lo aplicaron a un problema que estaba rompiendo su clúster de 2,000 GPU llamado Polaris. El problema era ejecutar modelos generativos GPT-3XL muy grandes, mientras se colocaba todo el genoma de Covid en la ventana de secuencia, para poder analizar cada gen en el contexto del genoma completo de Covid. Andromeda ejecutó una carga de trabajo genética única con longitudes de secuencia largas (MSL de 10K) en 1, 2, 4, 8 y 16 nodos, con una escala lineal casi perfecta. El escalado lineal es una de las características más buscadas de un gran clúster. Andromeda entregó un rendimiento de 15.87X en 16 sistemas CS-2, en comparación con un solo CS-2, y una reducción en el tiempo de capacitación para igualar.

¿Podría hablarnos de la sociedad con jaspe que se dio a conocer a finales de noviembre y lo que significa para ambas empresas?

Jasper es una empresa muy interesante. Son líderes en contenido generativo de IA para marketing, y sus productos son utilizados por más de 100,000 XNUMX clientes en todo el mundo para escribir contenido para marketing, anuncios, libros y más. Es obviamente un espacio muy emocionante y de rápido crecimiento en este momento. El año pasado, anunciamos una asociación con ellos para acelerar la adopción y mejorar la precisión de la IA generativa en las aplicaciones empresariales y de consumo. Jasper está utilizando nuestra supercomputadora Andromeda para entrenar sus modelos computacionalmente intensivos en una fracción del tiempo. Esto extenderá el alcance de los modelos generativos de IA a las masas.

Con el poder de la supercomputadora Cerebras Andromeda, Jasper puede avanzar drásticamente el trabajo de IA, incluida la capacitación de redes GPT para adaptar las salidas de IA a todos los niveles de complejidad y granularidad del usuario final. Esto mejora la precisión contextual de los modelos generativos y permitirá a Jasper personalizar el contenido en múltiples clases de clientes de forma rápida y sencilla.

Nuestra asociación permite a Jasper inventar el futuro de la IA generativa, al hacer cosas que no son prácticas o simplemente imposibles con la infraestructura tradicional, y acelerar el potencial de la IA generativa, brindando sus beneficios a nuestra base de clientes en rápido crecimiento en todo el mundo.

En un reciente comunicado de prensa, el Laboratorio Nacional de Tecnología Energética y el Centro de Supercomputación de Pittsburgh Pioneer anunciaron la primera Simulación Computacional de Dinámica de Fluidos en el motor a escala de obleas de Cerebras. ¿Podría describir qué es específicamente un motor a escala de oblea y cómo funciona?

Nuestro Motor a escala de obleas (WSE) es el revolucionario procesador de IA para nuestro sistema informático de aprendizaje profundo, el CS-2. A diferencia de los procesadores heredados de uso general, el WSE se creó desde cero para acelerar el aprendizaje profundo: tiene 850,000 XNUMX núcleos optimizados para IA para operaciones de tensor dispersas, memoria en chip de gran ancho de banda masivo e interconecta órdenes de magnitud más rápido que un procesador tradicional. clúster podría lograr. En conjunto, le brinda los recursos informáticos de aprendizaje profundo equivalentes a un grupo de máquinas heredadas, todo en un solo dispositivo, fácil de programar como un solo nodo, lo que reduce radicalmente la complejidad de la programación, el tiempo de cómputo de reloj de pared y el tiempo de solución.

Nuestro WSE-2 de segunda generación, que alimenta nuestro sistema CS-2, puede resolver problemas extremadamente rápido. Suficientemente rápido para permitir modelos de alta fidelidad en tiempo real de sistemas de ingeniería de interés. Es un raro ejemplo de "escalamiento fuerte" exitoso, que es el uso del paralelismo para reducir el tiempo de resolución con un problema de tamaño fijo.

Y para eso lo están utilizando el Laboratorio Nacional de Tecnología Energética y el Centro de Supercomputación de Pittsburgh. Acabamos de anunciar algunos resultados realmente emocionantes de una simulación de dinámica de fluidos computacional (CFD), compuesta por alrededor de 200 millones de células, a tasas casi en tiempo real.  Este video muestra la simulación de alta resolución de la convección de Rayleigh-Bénard, que ocurre cuando una capa de fluido se calienta desde abajo y se enfría desde arriba. Estos flujos de fluidos impulsados ​​térmicamente están a nuestro alrededor, desde los días ventosos hasta las tormentas de nieve con efecto lago, las corrientes de magma en el núcleo de la tierra y el movimiento del plasma en el sol. Como dice el narrador, lo importante no es solo la belleza visual de la simulación: es la velocidad a la que podemos calcularla. Por primera vez, utilizando nuestro motor de escala de obleas, NETL puede manipular una cuadrícula de casi 200 millones de celdas casi en tiempo real.

¿Qué tipo de datos se simula?

La carga de trabajo probada fue flujos de fluidos impulsados ​​térmicamente, también conocidos como convección natural, que es una aplicación de dinámica de fluidos computacional (CFD). Los flujos de fluidos ocurren naturalmente a nuestro alrededor, desde los días ventosos hasta las tormentas de nieve con efecto lago y el movimiento de las placas tectónicas. Esta simulación, compuesta por unos 200 millones de celdas, se centra en un fenómeno conocido como convección “Rayleigh-Bénard”, que se produce cuando un fluido se calienta desde abajo y se enfría desde arriba. En la naturaleza, este fenómeno puede dar lugar a fenómenos meteorológicos severos como downbursts, microbursts y derechos. También es responsable del movimiento del magma en el núcleo de la tierra y del movimiento del plasma en el sol.

En noviembre de 2022, NETL presentó una nueva API de modelado de ecuaciones de campo, impulsada por el sistema CS-2, que era hasta 470 veces más rápida de lo que era posible en la supercomputadora Joule de NETL. Esto significa que podría ofrecer velocidades más allá de lo que pueden lograr los clústeres de cualquier cantidad de CPU o GPU. Utilizando una API de Python simple que permite el procesamiento a escala de obleas para gran parte de la ciencia computacional, WFA ofrece ganancias en rendimiento y usabilidad que no se podrían obtener en computadoras y supercomputadoras convencionales; de hecho, superó a OpenFOAM en la supercomputadora Joule 2.0 de NETL en más de dos órdenes. de magnitud en el tiempo de solución.

Debido a la simplicidad de la API de WFA, los resultados se lograron en solo unas pocas semanas y continúan con la estrecha colaboración entre NETL, PSC y Cerebras Systems.

Al transformar la velocidad de CFD (que siempre ha sido una tarea lenta y fuera de línea) en nuestro WSE, podemos abrir una gran cantidad de nuevos casos de uso en tiempo real para esta y muchas otras aplicaciones principales de HPC. Nuestro objetivo es que al habilitar más poder de cómputo, nuestros clientes puedan realizar más experimentos e inventar una mejor ciencia. El director del laboratorio de NETL, Brian Anderson, nos ha dicho que esto acelerará y mejorará drásticamente el proceso de diseño de algunos proyectos realmente grandes en los que NETL está trabajando para mitigar el cambio climático y permitir un futuro energético seguro, proyectos como el secuestro de carbono y la producción de hidrógeno azul.

Cerebras está superando constantemente a la competencia cuando se trata de lanzar supercomputadoras, ¿cuáles son algunos de los desafíos detrás de la construcción de supercomputadoras de última generación?

Irónicamente, uno de los desafíos más difíciles de la gran IA no es la IA. Es la computación distribuida.

Para entrenar las redes neuronales de última generación de hoy en día, los investigadores suelen utilizar de cientos a miles de unidades de procesamiento de gráficos (GPU). Y no es fácil. Escalar el entrenamiento de modelos de lenguaje grande a través de un clúster de GPU requiere distribuir una carga de trabajo entre muchos dispositivos pequeños, lidiar con los tamaños de memoria del dispositivo y las restricciones de ancho de banda de la memoria, y administrar cuidadosamente los gastos generales de comunicación y sincronización.

Hemos adoptado un enfoque completamente diferente para diseñar nuestras supercomputadoras a través del desarrollo de la Cúmulo de escala de oblea de Cerebras, y la Transmisión de peso de Cerebras modo de ejecución. Con estas tecnologías, Cerebras aborda una nueva forma de escalar basada en tres puntos clave:

El reemplazo del procesamiento de CPU y GPU por aceleradores a escala de oblea como el sistema Cerebras CS-2. Este cambio reduce la cantidad de unidades de cómputo necesarias para lograr una velocidad de cómputo aceptable.

Para enfrentar el desafío del tamaño del modelo, empleamos una arquitectura de sistema que desagrega la computación del almacenamiento del modelo. Un servicio de cómputo basado en un clúster de sistemas CS-2 (que proporciona un ancho de banda de cómputo adecuado) está estrechamente acoplado a un servicio de memoria (con gran capacidad de memoria) que proporciona subconjuntos del modelo al clúster de cómputo bajo demanda. Como de costumbre, un servicio de datos proporciona lotes de datos de entrenamiento al servicio de cómputo según sea necesario.

Un modelo innovador para la programación y coordinación del trabajo de capacitación en el clúster CS-2 que emplea paralelismo de datos, capacitación capa a vez con pesos dispersos transmitidos a pedido y retención de activaciones en el servicio de cómputo.

Ha habido temores sobre el fin de la Ley de Moore durante casi una década, ¿cuántos años más puede entrar la industria y qué tipo de innovaciones se necesitan para esto?

Creo que la pregunta con la que todos lidiamos es si la Ley de Moore, tal como la escribió Moore, está muerta. No se necesitan dos años para obtener más transistores. Ahora lleva cuatro o cinco años. Y esos transistores no tienen el mismo precio, tienen precios mucho más altos. Entonces, la pregunta es, ¿seguimos obteniendo los mismos beneficios de pasar de siete a cinco a tres nanómetros? Los beneficios son menores y cuestan más, por lo que las soluciones se vuelven más complicadas que simplemente el chip.

Jack Dongarra, un destacado arquitecto informático, dio una charla recientemente y dijo: "Hemos mejorado mucho en la fabricación de FLOP y de E/S". Eso es verdad. Nuestra capacidad para mover datos fuera del chip está muy por detrás de nuestra capacidad para aumentar el rendimiento en un chip. En Cerebras, nos alegramos cuando dijo eso, porque valida nuestra decisión de hacer un chip más grande y mover menos cosas fuera del chip. También brinda orientación sobre formas futuras de hacer que los sistemas con chips funcionen mejor. Hay trabajo por hacer, no solo exprimir más FLOP, sino también en técnicas para moverlos y mover los datos de un chip a otro, incluso de un chip muy grande a otro muy grande.

¿Hay algo más que le gustaría compartir sobre Cerebras Systems?

Para bien o para mal, la gente a menudo coloca a Cerebras en esta categoría de "los chicos realmente grandes". Hemos sido capaces de proporcionar soluciones convincentes para redes neuronales muy, muy grandes, eliminando así la necesidad de hacer computación distribuida dolorosa. Creo que eso es enormemente interesante y está en el corazón de por qué nuestros clientes nos aman. El dominio interesante para 2023 será cómo hacer grandes cálculos con un mayor nivel de precisión, utilizando menos FLOP.

Nuestro trabajo sobre la escasez proporciona un enfoque extremadamente interesante. No hacemos trabajo que no nos lleve hacia la línea de gol, y multiplicar por cero es una mala idea. Pronto publicaremos un documento realmente interesante sobre la escasez, y creo que habrá más esfuerzo para ver cómo llegamos a estos puntos eficientes y cómo lo hacemos con menos energía. Y no solo por menos potencia y entrenamiento; ¿Cómo minimizamos el costo y el poder utilizados en la inferencia? Creo que la escasez ayuda en ambos frentes.

Gracias por estas respuestas detalladas, los lectores que deseen obtener más información deben visitar Sistemas Cerebras.

Socio fundador de unite.AI y miembro de la consejo de tecnología de forbes, antoine es un futurista apasionado por el futuro de la IA y la robótica.

También es el fundador de Valores.io, un sitio web que se centra en invertir en tecnología disruptiva.