Connect with us

Andrew Feldman, Co-fundador & CEO da Cerebras Systems – Série de Entrevistas

Entrevistas

Andrew Feldman, Co-fundador & CEO da Cerebras Systems – Série de Entrevistas

mm

Andrew é co-fundador e CEO da Cerebras Systems. Ele é um empreendedor dedicado a empurrar os limites no espaço de computação. Antes da Cerebras, ele co-fundou e foi CEO da SeaMicro, uma pioneira em microservidores de alta largura de banda e eficiência energética. A SeaMicro foi adquirida pela AMD em 2012 por $357M. Antes da SeaMicro, Andrew foi Vice-Presidente de Gerenciamento de Produto, Marketing e Desenvolvimento de Negócios da Force10 Networks, que mais tarde foi vendida para a Dell Computing por $800M. Antes da Force10 Networks, Andrew foi Vice-Presidente de Marketing e Desenvolvimento Corporativo da RiverStone Networks, desde a sua criação até a IPO em 2001. Andrew possui um BA e um MBA pela Universidade de Stanford.

A Cerebras Systems está construindo uma nova classe de sistema de computador, projetado desde o início para o objetivo singular de acelerar a IA e mudar o futuro do trabalho de IA.

Poderia compartilhar a história de criação por trás da Cerebras Systems?

Meus co-fundadores e eu todos trabalhamos juntos em uma startup anterior que meu CTO Gary e eu começamos em 2007, chamada SeaMicro (que foi vendida para a AMD em 2012 por $334 milhões). Meus co-fundadores são alguns dos principais arquitetos e engenheiros de computador da indústria – Gary Lauterbach, Sean Lie, JP Fricker e Michael James. Quando nos reunimos novamente em 2015, escrevemos duas coisas em um quadro branco – que queríamos trabalhar juntos, e que queríamos construir algo que transformasse a indústria e estivesse no Museu de História do Computador, que é o equivalente ao Hall da Fama do Computador. Fomos honrados quando o Museu de História do Computador reconheceu nossos feitos e adicionou o processador WSE-2 à sua coleção no ano passado, citando como ele transformou o cenário de inteligência artificial.

A Cerebras Systems é uma equipe de arquitetos de computador pioneiros, cientistas da computação, pesquisadores de aprendizado profundo e engenheiros de todos os tipos que amam fazer engenharia sem medo. Nossa missão quando nos reunimos foi construir uma nova classe de computador para acelerar o aprendizado profundo, que surgiu como uma das cargas de trabalho mais importantes de nosso tempo.

Percebemos que o aprendizado profundo tem requisitos computacionais únicos, massivos e em crescimento. E não é bem combinado com máquinas legadas como unidades de processamento gráfico (GPUs), que foram fundamentalmente projetadas para outros trabalhos. Como resultado, a IA de hoje é limitada não por aplicações ou ideias, mas pela disponibilidade de computação. Testar uma única nova hipótese – treinar um novo modelo – pode levar dias, semanas ou até meses e custar centenas de milhares de dólares em tempo de computação. Isso é um grande obstáculo à inovação.

Então, a criação da Cerebras foi para construir um novo tipo de computador otimizado exclusivamente para o aprendizado profundo, a partir de um papel em branco. Para atender às enormes demandas computacionais do aprendizado profundo, projetamos e fabricamos o maior chip já construído – o Wafer-Scale Engine (WSE). Ao criar o primeiro processador de escala de wafer do mundo, superamos desafios em design, fabricação e embalagem – todos os quais haviam sido considerados impossíveis para a história de 70 anos dos computadores. Cada elemento do WSE é projetado para permitir a pesquisa de aprendizado profundo em velocidades e escalas sem precedentes, alimentando o supercomputador de IA mais rápido da indústria, o Cerebras CS-2.

Com cada componente otimizado para o trabalho de IA, o CS-2 entrega mais desempenho de computação em menos espaço e menos energia do que qualquer outro sistema. Isso é feito enquanto reduz radicalmente a complexidade de programação, o tempo de computação e o tempo de solução. Dependendo da carga de trabalho, desde IA até HPC, o CS-2 entrega centenas ou milhares de vezes mais desempenho do que as alternativas legadas. O CS-2 fornece recursos de computação de aprendizado profundo equivalentes a centenas de GPUs, enquanto fornece a facilidade de programação, gerenciamento e implantação de um único dispositivo.

Nos últimos meses, a Cerebras parece estar em todas as notícias, o que pode nos contar sobre o novo supercomputador de IA Andromeda?

Anunciamos o Andromeda em novembro do ano passado, e é um dos supercomputadores de IA mais poderosos já construídos. Entregando mais de 1 Exaflop de computação de IA e 120 Petaflops de computação densa, o Andromeda tem 13,5 milhões de núcleos em 16 sistemas CS-2 e é o único supercomputador de IA a demonstrar escalabilidade linear quase perfeita em cargas de trabalho de modelos de linguagem grandes. Ele também é muito simples de usar.

Para lembrar, o maior supercomputador da Terra – Frontier – tem 8,7 milhões de núcleos. Em termos de contagem de núcleos, o Andromeda é mais de uma vez e meia maior. Ele faz um trabalho diferente, obviamente, mas isso dá uma ideia do escopo: quase 100 terabits de largura de banda interna, quase 20.000 núcleos AMD Epyc o alimentam e – ao contrário dos supercomputadores gigantes que levam anos para serem implantados – implantamos o Andromeda em três dias e imediatamente após, ele estava entregando escalabilidade linear quase perfeita de IA.

O Laboratório Nacional de Energia de Argonne foi nosso primeiro cliente a usar o Andromeda, e eles o aplicaram a um problema que estava quebrando seu cluster de 2.000 GPUs chamado Polaris. O problema era executar modelos de linguagem gerativos muito grandes, GPT-3XL, enquanto colocava o genoma completo do Covid na janela de sequência, para que você pudesse analisar cada gene no contexto do genoma completo do Covid. O Andromeda executou uma carga de trabalho genética única com comprimentos de sequência longos (MSL de 10K) em 1, 2, 4, 8 e 16 nós, com escalabilidade linear quase perfeita. A escalabilidade linear é uma das características mais procuradas de um grande cluster. O Andromeda entregou 15,87X de taxa de transferência em 16 sistemas CS-2, em comparação com um único CS-2, e uma redução no tempo de treinamento para corresponder.

Poderia nos contar sobre a parceria com a Jasper que foi divulgada no final de novembro e o que isso significa para ambas as empresas?

A Jasper é uma empresa muito interessante. Eles são líderes em conteúdo de IA gerativo para marketing, e seus produtos são usados por mais de 100.000 clientes em todo o mundo para escrever cópias para marketing, anúncios, livros e mais. É obviamente um espaço muito emocionante e em crescimento agora. No ano passado, anunciamos uma parceria com eles para acelerar a adoção e melhorar a precisão da IA gerativa em aplicações de empresa e consumidor. A Jasper está usando nosso supercomputador Andromeda para treinar seus modelos computacionalmente intensivos em uma fração do tempo. Isso estenderá o alcance dos modelos de IA gerativa para as massas.

Com o poder do supercomputador Andromeda da Cerebras, a Jasper pode avançar dramaticamente o trabalho de IA, incluindo o treinamento de redes GPT para ajustar as saídas de IA a todos os níveis de complexidade e granularidade do usuário final. Isso melhora a precisão contextual dos modelos gerativos e permitirá que a Jasper personalize o conteúdo em várias classes de clientes rapidamente e facilmente.

Nossa parceria permite que a Jasper invente o futuro da IA gerativa, fazendo coisas que são impraticáveis ou simplesmente impossíveis com a infraestrutura tradicional, e acelerar o potencial da IA gerativa, trazendo seus benefícios para nossa base de clientes em crescimento em todo o mundo.

Em um comunicado de imprensa recente, o Laboratório Nacional de Tecnologia de Energia e o Centro de Supercomputação de Pittsburgh anunciaram a primeira simulação de dinâmica de fluidos computacional já realizada no Wafer-Scale Engine da Cerebras. Poderia descrever o que é especificamente um Wafer-Scale Engine e como ele funciona?

Nosso Wafer-Scale Engine (WSE) é o processador de IA revolucionário para nosso sistema de computador de aprendizado profundo, o CS-2. Ao contrário dos processadores de propósito geral legados, o WSE foi construído desde o início para acelerar o aprendizado profundo: ele tem 850.000 núcleos otimizados para IA para operações de tensor esparsos, memória de grande largura de banda no chip e interconexão com ordens de magnitude mais rápida do que um cluster tradicional poderia possivelmente alcançar. Isso tudo nos dá os recursos de computação de aprendizado profundo equivalentes a um cluster de máquinas legadas em um único dispositivo, fácil de programar como um único nó – reduzindo radicalmente a complexidade de programação, o tempo de computação e o tempo de solução.

Nosso segundo WSE-2, que alimenta nosso sistema CS-2, pode resolver problemas extremamente rápido. Rápido o suficiente para permitir modelos de sistemas de engenharia em tempo real e de alta fidelidade. É um exemplo raro de “strong scaling” bem-sucedido, que é o uso de paralelismo para reduzir o tempo de resolução com um problema de tamanho fixo.

E é isso que o Laboratório Nacional de Tecnologia de Energia e o Centro de Supercomputação de Pittsburgh estão usando. Acabamos de anunciar alguns resultados muito emocionais de uma simulação de dinâmica de fluidos computacional, composta por cerca de 200 milhões de células, em taxas quase em tempo real. Este vídeo mostra a simulação de alta resolução de convecção de Rayleigh-Bénard, que ocorre quando uma camada de fluido é aquecida de baixo e resfriada de cima. Esses fluxos de fluidos termicamente impulsionados estão por toda parte – desde dias ventosos, até tempestades de neve do lago, até correntes de magma no núcleo da Terra e movimento de plasma no sol. Como o narrador diz, não é apenas a beleza visual da simulação que é importante: é a velocidade com que podemos calculá-la. Pela primeira vez, usando nosso Wafer-Scale Engine, o NETL é capaz de manipular uma grade de quase 200 milhões de células em quase tempo real.

Que tipo de dados está sendo simulado?

A carga de trabalho testada foi fluxos de fluidos impulsionados termicamente, também conhecidos como convecção natural, que é uma aplicação de dinâmica de fluidos computacional (CFD). Fluxos de fluidos ocorrem naturalmente por toda parte — desde dias ventosos, até tempestades de neve do lago, até movimento de placas tectônicas. Esta simulação, composta por cerca de 200 milhões de células, se concentra em um fenômeno conhecido como “convecção de Rayleigh-Bénard”, que ocorre quando um fluido é aquecido de baixo e resfriado de cima. Na natureza, este fenômeno pode levar a eventos climáticos severos, como downbursts, microbursts e derechos. Ele também é responsável pelo movimento de magma no núcleo da Terra e pelo movimento de plasma no sol.

Em novembro de 2022, o NETL introduziu uma nova API de modelagem de equação de campo, alimentada pelo sistema CS-2, que foi até 470 vezes mais rápida do que o que era possível no supercomputador Joule do NETL. Isso significa que pode entregar velocidades além do que clusters de CPUs ou GPUs possam alcançar. Usando uma API Python simples que habilita o processamento de escala de wafer para grande parte da ciência computacional, a WFA entrega ganhos em desempenho e usabilidade que não poderiam ser obtidos em computadores e supercomputadores convencionais – de fato, superou o OpenFOAM no supercomputador Joule 2.0 do NETL por mais de duas ordens de magnitude no tempo de solução.

Devido à simplicidade da API WFA, os resultados foram alcançados em apenas algumas semanas e continuam a colaboração estreita entre o NETL, o PSC e a Cerebras Systems.

Ao transformar a velocidade da CFD (que sempre foi uma tarefa lenta e offline) em nosso WSE, podemos abrir um novo conjunto de casos de uso em tempo real para isso e muitas outras aplicações de HPC principais. Nosso objetivo é que, ao habilitar mais poder de computação, nossos clientes possam realizar mais experimentos e inventar melhor ciência. O diretor do laboratório do NETL, Brian Anderson, nos disse que isso acelerará drasticamente e melhorará o processo de design para alguns projetos muito grandes em que o NETL está trabalhando para mitigar as mudanças climáticas e permitir um futuro de energia seguro — projetos como a captura de carbono e a produção de hidrogênio azul.

A Cerebras está consistentemente superando a concorrência ao lançar supercomputadores, quais são alguns dos desafios por trás da construção de supercomputadores de ponta?

Ironicamente, um dos desafios mais difíceis do grande IA não é o IA. É o cálculo distribuído.

Para treinar as redes neurais de ponta de hoje, os pesquisadores frequentemente usam centenas a milhares de GPUs. E não é fácil. Escalar o treinamento de modelos de linguagem grande em um cluster de GPUs requer distribuir uma carga de trabalho em muitos dispositivos pequenos, lidar com restrições de tamanho e largura de banda de memória do dispositivo e gerenciar cuidadosamente a sobrecarga de comunicação e sincronização.

Tomamos uma abordagem completamente diferente para projetar nossos supercomputadores por meio do desenvolvimento do Cluster de Escala de Wafer da Cerebras e do modo de execução de transmissão de peso da Cerebras. Com essas tecnologias, a Cerebras aborda uma nova maneira de escalar com base em três pontos principais:

A substituição do processamento de CPU e GPU por aceleradores de escala de wafer, como o sistema CS-2 da Cerebras. Essa mudança reduz a quantidade de unidades de computação necessárias para alcançar uma velocidade de computação aceitável.

Para atender ao desafio do tamanho do modelo, empregamos uma arquitetura de sistema que desconecta o cálculo do armazenamento de modelo. Um serviço de cálculo baseado em um cluster de sistemas CS-2 (fornecendo largura de banda de cálculo adequada) é acoplado a um serviço de memória (com grande capacidade de memória) que fornece subconjuntos do modelo ao cluster de cálculo sob demanda. Como de costume, um serviço de dados fornece lotes de dados de treinamento ao serviço de cálculo conforme necessário.

Um modelo inovador para o agendamento e coordenação do trabalho de treinamento em todo o cluster CS-2 que emprega paralelismo de dados, treinamento de camada por vez com pesos esparsos transmitidos sob demanda e retenção de ativações no serviço de cálculo.

Há temores do fim da Lei de Moore há quase uma década, quantos anos a indústria ainda pode extrair e quais tipos de inovações são necessárias para isso?

Acho que a pergunta com que todos estamos lidando é se a Lei de Moore – como escrita por Moore – está morta. Não está levando dois anos para obter mais transistores. Agora está levando quatro ou cinco anos. E esses transistores não estão vindo ao mesmo preço – estão vindo a preços muito mais altos. Então, a pergunta se torna, ainda estamos obtendo os mesmos benefícios de passar de sete para cinco para três nanômetros? Os benefícios são menores e custam mais, e assim as soluções se tornam mais complicadas do que simplesmente o chip.

Jack Dongarra, um arquiteto de computador líder, deu uma palestra recentemente e disse: “Nós nos tornamos muito melhores em fazer FLOPs e em fazer I/O.” Isso é realmente verdade. Nossa capacidade de mover dados fora do chip está muito atrás de nossa capacidade de aumentar o desempenho em um chip por uma grande margem. Na Cerebras, ficamos felizes quando ele disse isso, porque valida nossa decisão de fazer um chip maior e mover menos coisas fora do chip. Isso também fornece alguma orientação sobre futuras maneiras de fazer sistemas com chips performar melhor. Há trabalho a ser feito, não apenas em extrair mais FLOPs, mas também em técnicas para movê-los e para mover os dados de chip para chip — mesmo de um chip muito grande para um chip muito grande.

Há algo mais que gostaria de compartilhar sobre a Cerebras Systems?

Para melhor ou para pior, as pessoas frequentemente colocam a Cerebras nessa categoria de “os caras do chip muito grande.” Nós conseguimos fornecer soluções convincentes para redes neurais muito grandes, eliminando assim a necessidade de fazer computação distribuída dolorosa. Acredito que isso seja enormemente interessante e esteja no coração de por que nossos clientes nos amam. O domínio interessante para 2023 será como fazer cálculo grande para um nível de precisão mais alto, usando menos FLOPs.

Nosso trabalho em esparsidade fornece uma abordagem extremamente interessante. Nós não fazemos trabalhos que não nos movem em direção à linha de chegada, e multiplicar por zero é uma má ideia. Vamos lançar um papel realmente interessante sobre esparsidade em breve, e acho que haverá mais esforço em olhar como chegamos a esses pontos eficientes e como fazemos isso com menos potência. E não apenas para menos potência e treinamento; como minimizamos o custo e a potência usada na inferência? Acho que a esparsidade ajuda em ambos os fronts.

Obrigado por essas respostas aprofundadas, leitores que desejam aprender mais devem visitar Cerebras Systems.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.