Entrevistas

Jay Dawani é cofundador e CEO da Lemurian Labs – Série de entrevistas

Atualização do on 11 de abril de 2024

Jay Dawani é cofundador e CEO da Lemurian Labs. Laboratórios Lemurianos tem a missão de fornecer computadores de IA acessíveis e eficientes, movidos pela crença de que a IA não deve ser um luxo, mas uma ferramenta acessível a todos. A equipe fundadora do Lemurian Labs combina experiência em IA, compiladores, algoritmos numéricos e arquitetura de computadores, unidos por um único propósito: reimaginar a computação acelerada.

Você pode nos explicar seu histórico e wPara começar, o que fez você entrar na IA?

Absolutamente. Eu programava desde os 12 anos e construía meus próprios jogos e coisas assim, mas na verdade entrei na IA quando tinha 15 anos por causa de um amigo do meu pai que gostava de computadores. Ele alimentou minha curiosidade e me deu livros para ler, como 'The Computer and The Brain' de Von Neumann, 'Perceptrons' de Minsky, 'AI A Modern Approach' de Russel e Norvig. Esses livros influenciaram muito meu pensamento e parecia quase óbvio que a IA seria transformadora e eu simplesmente tinha que fazer parte desse campo.

Quando chegou a hora da universidade, eu realmente queria estudar IA, mas não encontrei nenhuma universidade que oferecesse isso, então decidi me formar em matemática aplicada e, pouco tempo depois de chegar à universidade, ouvi falar dos resultados da AlexNet no ImageNet, que foi realmente emocionante. Naquela época, eu tinha esse momento de agora ou nunca acontecendo na minha cabeça e me esforcei para ler todos os artigos e livros que pude encontrar relacionados a redes neurais e procurei todos os líderes na área para aprender com eles, porque como muitas vezes você está presente no nascimento de uma nova indústria e aprende com seus pioneiros.

Rapidamente percebi que não gosto de pesquisar, mas gosto de resolver problemas e construir produtos habilitados para IA. Isso me levou a trabalhar em carros e robôs autônomos, IA para descoberta de materiais, modelos generativos para simulações multifísicas, simuladores baseados em IA para treinar pilotos profissionais de corrida e ajudar com configurações de carros, robôs espaciais, negociação algorítmica e muito mais.

Agora, tendo feito tudo isso, estou tentando controlar o custo do treinamento e implantações de IA, porque esse será o maior obstáculo que enfrentaremos em nosso caminho para possibilitar um mundo onde todas as pessoas e empresas possam ter acesso e se beneficiar da IA. da maneira mais econômica possível.

Muitas empresas que trabalham em computação acelerada têm fundadores que construíram carreiras em semicondutores e infraestrutura. Como você acha que sua experiência anterior em IA e matemática afeta sua capacidade de compreender o mercado e competir de forma eficaz?

Na verdade, acho que não vir da indústria me dá a vantagem de ter a vantagem de estar de fora. Muitas vezes descobri que não ter conhecimento das normas da indústria ou dos conhecimentos convencionais dá à pessoa a liberdade de explorar mais livremente e ir mais fundo do que a maioria dos outros faria, porque você não está sobrecarregado de preconceitos.

Tenho a liberdade de fazer perguntas “mais idiotas” e testar suposições de uma forma que a maioria das outras pessoas não faria, porque muitas coisas são verdades aceitas. Nos últimos dois anos, tive várias conversas com pessoas da indústria onde elas são muito dogmáticas sobre alguma coisa, mas não conseguem me dizer a origem da ideia, o que considero muito intrigante. Gosto de compreender por que certas escolhas foram feitas e que pressupostos ou condições existiam naquele momento e se ainda se mantêm.

Vindo de experiência em IA, tendo a ter uma visão de software observando onde estão as cargas de trabalho hoje, e aqui estão todas as maneiras possíveis pelas quais elas podem mudar ao longo do tempo, e modelando todo o pipeline de ML para treinamento e inferência para entender os gargalos, o que diz me onde estão as oportunidades de agregar valor. E como venho de uma formação matemática, gosto de modelar coisas para chegar o mais próximo possível da verdade e ter isso para me guiar. Por exemplo, construímos modelos para calcular o desempenho do sistema para o custo total de propriedade e podemos medir o benefício que podemos trazer aos clientes com software e/ou hardware e para compreender melhor as nossas restrições e os diferentes botões disponíveis para nós, e dezenas de outros modelos para várias coisas. Somos muito orientados por dados e usamos os insights desses modelos para orientar nossos esforços e compensações.

Parece que o progresso na IA veio principalmente do escalonamento, que requer exponencialmente mais computação e energia. Parece que estamos numa corrida armamentista com todas as empresas tentando construir o maior modelo, e parece não haver fim à vista. Você acha que há uma saída para isso?

Sempre há maneiras. O dimensionamento provou ser extremamente útil e acho que ainda não vimos o fim. Muito em breve veremos modelos sendo treinados com um custo de pelo menos um bilhão de dólares. Se você deseja ser líder em IA generativa e criar modelos básicos de ponta, precisará gastar pelo menos alguns bilhões por ano em computação. Agora, existem limites naturais para o dimensionamento, como ser capaz de construir um conjunto de dados grande o suficiente para um modelo desse tamanho, obter acesso a pessoas com o conhecimento certo e obter acesso a computação suficiente.

O aumento contínuo do tamanho do modelo é inevitável, mas também não podemos transformar toda a superfície da Terra em um supercomputador do tamanho de um planeta para treinar e servir LLMs por razões óbvias. Para controlar isso, temos vários botões com os quais podemos brincar: melhores conjuntos de dados, novas arquiteturas de modelos, novos métodos de treinamento, melhores compiladores, melhorias e explorações algorítmicas, melhores arquiteturas de computador e assim por diante. Se fizermos tudo isso, encontraremos cerca de três ordens de magnitude de melhoria. Essa é a melhor saída.

Você acredita nos primeiros princípios e pensa: como isso molda sua mentalidade sobre como você administra os Laboratórios Lemurianos?

Definitivamente empregamos muitos princípios básicos na Lemuriana. Sempre achei a sabedoria convencional enganosa porque esse conhecimento foi formado em um determinado momento, quando certas suposições eram válidas, mas as coisas sempre mudam e você precisa testar novamente as suposições com frequência, especialmente quando se vive em um mundo de ritmo tão acelerado.

Muitas vezes me pego fazendo perguntas como “isso parece uma ideia muito boa, mas por que isso pode não funcionar” ou “o que precisa ser verdade para que isso funcione” ou “o que sabemos que são verdades absolutas e quais são as suposições que estamos fazendo e por quê?”, ou “por que acreditamos que esta abordagem específica é a melhor maneira de resolver este problema”. O objetivo é invalidar e eliminar ideias da maneira mais rápida e barata possível. Queremos tentar maximizar o número de coisas que estamos testando em um determinado momento. Trata-se de estar obcecado com o problema que precisa ser resolvido e não ser excessivamente opinativo sobre qual tecnologia é melhor. Muitas pessoas tendem a concentrar-se excessivamente na tecnologia e acabam por compreender mal os problemas dos clientes e perder as transições que acontecem na indústria, o que poderia invalidar a sua abordagem, resultando na sua incapacidade de se adaptar ao novo estado do mundo.

Mas o pensamento dos primeiros princípios não é tão útil por si só. Tendemos a combiná-lo com backcasting, o que basicamente significa imaginar um resultado futuro ideal ou desejado e trabalhar de trás para frente para identificar as diferentes etapas ou ações necessárias para realizá-lo. Isto garante que convirjamos para uma solução significativa que não seja apenas inovadora, mas também fundamentada na realidade. Não faz sentido perder tempo procurando a solução perfeita apenas para perceber que não é viável construí-la devido a uma variedade de restrições do mundo real, como recursos, tempo, regulamentação ou construir uma solução aparentemente perfeita, mas depois descobrir você tornou muito difícil a adoção pelos clientes.

De vez em quando, encontramo-nos numa situação em que precisamos de tomar uma decisão, mas não temos dados, e neste cenário empregamos hipóteses mínimas testáveis que nos dão um sinal sobre se faz ou não sentido prosseguir com algo com o mínimo de esforço possível. do gasto energético.

Tudo isso combinado nos dá agilidade, ciclos de iteração rápidos para eliminar o risco de itens rapidamente, e nos ajudou a ajustar estratégias com alta confiança e a fazer muito progresso em problemas muito difíceis em um período muito curto de tempo.

Inicialmente, você estava focado em borda AI, o que fez você mudar o foco e migrar para a computação em nuvem?

Começamos com IA de ponta porque naquela época eu estava muito focado em tentar resolver um problema muito específico que enfrentei ao tentar inaugurar um mundo de robótica autônoma de uso geral. A robótica autônoma promete ser a maior mudança de plataforma em nossa história coletiva, e parecia que tínhamos tudo o que era necessário para construir um modelo básico para a robótica, mas faltava o chip de inferência ideal com o equilíbrio certo entre rendimento, latência e eficiência energética e programabilidade para executar o referido modelo básico.

Eu não estava pensando no datacenter neste momento porque havia empresas mais do que suficientes focadas lá e eu esperava que elas descobrissem o assunto. Projetamos uma arquitetura realmente poderosa para esse espaço de aplicativos e estávamos nos preparando para gravá-la, e então ficou claro que o mundo havia mudado e que o problema realmente estava no datacenter. A taxa na qual os LLMs estavam escalando e consumindo computação supera em muito o ritmo do progresso na computação, e quando você leva em consideração a adoção, isso começa a pintar um quadro preocupante.

Parecia que era aqui que deveríamos concentrar os nossos esforços, para reduzir ao máximo o custo energético da IA nos datacenters, sem impor restrições sobre onde e como a IA deveria evoluir. E então, começamos a trabalhar para resolver esse problema.

Você pode compartilhar a história da gênese do cofundador Lemurian Labs?

A história começa no início de 2018. Eu estava trabalhando no treinamento de um modelo básico para autonomia de uso geral, juntamente com um modelo para simulação multifísica generativa para treinar o agente e ajustá-lo para diferentes aplicações, e algumas outras coisas para ajudar a escalar para multi -ambientes de agente. Mas rapidamente esgotei a quantidade de computação que tinha e estimei a necessidade de mais de 20,000 GPUs V100. Tentei arrecadar o suficiente para ter acesso à computação, mas o mercado ainda não estava pronto para esse tipo de escala. No entanto, isso me fez pensar sobre o lado da implantação e sentei-me para calcular quanto desempenho eu precisaria para servir esse modelo nos ambientes de destino e percebi que não havia nenhum chip que pudesse me levar até lá.

Alguns anos depois, em 2020, encontrei-me com Vassil – meu eventual cofundador – para conversar e compartilhei os desafios que enfrentei na construção de um modelo de base para a autonomia, e ele sugeriu a construção de um chip de inferência que pudesse administrar a base. modelo, e ele compartilhou que tem pensado muito sobre formatos de números e melhores representações ajudariam não apenas a fazer com que as redes neurais mantivessem a precisão em larguras de bits mais baixas, mas também a criar arquiteturas mais poderosas.

Era uma ideia intrigante, mas estava fora do meu alcance. Mas isso não me abandonava, o que me levou a passar meses e meses aprendendo as complexidades da arquitetura de computadores, conjuntos de instruções, tempos de execução, compiladores e modelos de programação. Eventualmente, construir uma empresa de semicondutores começou a fazer sentido e eu formei uma tese sobre qual era o problema e como resolvê-lo. E então, no final do ano, começamos a Lemuriana.

Você falou anteriormente sobre a necessidade de lidar primeiro com o software ao construir hardware. Você poderia explicar por que o problema de hardware é, antes de tudo, um problema de software?

O que muitas pessoas não percebem é que o lado do software dos semicondutores é muito mais difícil do que o próprio hardware. Construir uma arquitetura de computador útil para os clientes usarem e da qual se beneficiarem é um problema de pilha completa e, se você não tiver esse entendimento e preparação, acabará com uma arquitetura bonita, com muito desempenho e eficiência. mas totalmente inutilizável pelos desenvolvedores, que é o que realmente importa.

Há outros benefícios em adotar uma abordagem inicial de software, é claro, como um tempo de lançamento no mercado mais rápido. Isso é crucial no mundo em rápida evolução de hoje, onde ser muito otimista em relação a uma arquitetura ou recurso pode significar que você perderá totalmente o mercado.

Não ter uma visão inicial do software geralmente resulta em não ter desprezado as coisas importantes necessárias para a adoção do produto no mercado, não ser capaz de responder às mudanças no mercado, por exemplo, quando as cargas de trabalho evoluem de forma inesperada, e ter hardware subutilizado. Nem tudo são grandes coisas. Esse é um grande motivo pelo qual nos preocupamos tanto em ser centrados em software e por que nossa opinião é que você não pode ser uma empresa de semicondutores sem realmente ser uma empresa de software.

Você pode discutir seus objetivos imediatos de pilha de software?

Quando estávamos projetando nossa arquitetura e pensando no roteiro futuro e onde estariam as oportunidades para trazer mais desempenho e eficiência energética, começou a ficar muito claro que veríamos muito mais heterogeneidade, o que criaria muitos problemas em software. E não precisamos apenas ser capazes de programar arquiteturas heterogêneas de forma produtiva, temos que lidar com elas em escala de datacenter, o que é um desafio como nunca encontramos antes.

Isso nos preocupou porque a última vez que tivemos que passar por uma grande transição foi quando a indústria mudou de arquiteturas de núcleo único para arquiteturas de núcleo múltiplo e, naquela época, foram necessários 10 anos para que o software funcionasse e as pessoas o utilizassem. Não podemos esperar 10 anos para descobrir um software para a heterogeneidade em escala; isso tem que ser resolvido agora. E assim, começamos a trabalhar para entender o problema e o que precisa existir para que essa pilha de software exista.

Atualmente, estamos trabalhando com muitas das principais empresas de semicondutores e hiperescaladores/provedores de serviços em nuvem e lançaremos nossa pilha de software nos próximos 12 meses. É um modelo de programação unificado com um compilador e tempo de execução capaz de atingir qualquer tipo de arquitetura e orquestrar o trabalho em clusters compostos de diferentes tipos de hardware, e é capaz de escalar de um único nó até um cluster de mil nós para obter o maior desempenho possível. .

Obrigado pela ótima entrevista, os leitores que desejam saber mais devem visitar Laboratórios Lemurianos.