Connect with us

Jay Dawani é Co-fundador e CEO da Lemurian Labs – Série de Entrevistas

Entrevistas

Jay Dawani é Co-fundador e CEO da Lemurian Labs – Série de Entrevistas

mm

Jay Dawani é Co-fundador e CEO da Lemurian Labs. Lemurian Labs está em uma missão para entregar computadores de IA acessíveis, acessíveis e eficientes, impulsionados pela crença de que a IA não deve ser um luxo, mas uma ferramenta acessível a todos. A equipe de fundadores da Lemurian Labs combina especialização em IA, compiladores, algoritmos numéricos e arquitetura de computadores, unidos por um único propósito: reimaginar o processamento acelerado.

Pode nos levar pelo seu histórico e o que o levou a entrar na área de IA para começar?

Claro. Eu havia começado a programar desde os 12 anos e criar meus próprios jogos e coisas assim, mas eu realmente entrei na área de IA quando tinha 15 anos porque de um amigo do meu pai que estava interessado em computadores. Ele alimentou minha curiosidade e me deu livros para ler, como “O Computador e o Cérebro” de Von Neumann, “Perceptrons” de Minsky e “IA: Uma Abordagem Moderna” de Russel e Norvig. Esses livros influenciaram muito meu pensamento e pareceu quase óbvio na época que a IA seria transformadora e que eu precisava fazer parte disso.

Quando chegou a hora de ir para a universidade, eu realmente queria estudar IA, mas não encontrei nenhuma universidade que oferecesse isso, então decidi me especializar em matemática aplicada. Um pouco depois de chegar à universidade, ouvi falar dos resultados do AlexNet no ImageNet, o que foi realmente emocionante. Naquela época, tive um momento de “agora ou nunca” e mergulhei de cabeça na leitura de todos os artigos e livros que pude encontrar relacionados a redes neurais e procurei todos os líderes da área para aprender com eles, porque quantas vezes você tem a chance de estar lá no nascimento de uma nova indústria e aprender com seus pioneiros?

Muito rapidamente, percebi que não gosto de pesquisa, mas gosto de resolver problemas e criar produtos habilitados por IA. Isso me levou a trabalhar em carros autônomos e robôs, IA para descoberta de materiais, modelos gerativos para simulações de multi-física, simuladores de treinamento para motoristas de corrida profissionais e ajudar com configurações de carros, robôs espaciais, negociação algorítmica e muito mais.

Agora, tendo feito tudo isso, estou tentando controlar o custo do treinamento e implantação de IA, porque isso será o maior obstáculo que enfrentaremos em nosso caminho para permitir que cada pessoa e empresa tenha acesso e se beneficie da IA da maneira mais econômica possível.

Muitas empresas que trabalham em computação acelerada têm fundadores que construíram carreiras em semicondutores e infraestrutura. Como você acha que sua experiência passada em IA e matemática afeta sua capacidade de entender o mercado e competir efetivamente?

Na verdade, acho que não vir da indústria me dá a vantagem de ser um outsider. Encontrei que muitas vezes não ter conhecimento das normas da indústria ou sabedoria convencional me dá a liberdade de explorar mais livremente e ir mais fundo do que a maioria faria, porque não estou limitado por vieses.

Tenho a liberdade de fazer perguntas “mais estúpidas” e testar suposições de uma maneira que a maioria não faria, porque muitas coisas são verdades aceitas. Nos últimos dois anos, tive várias conversas com pessoas dentro da indústria que são muito dogmáticas sobre algo, mas não podem me dizer a proveniência da ideia, o que acho muito intrigante. Gosto de entender por que certas escolhas foram feitas e quais suposições ou condições havia naquela época e se elas ainda se aplicam.

Vindo de uma formação em IA, tendo a olhar para as cargas de trabalho de hoje e para todas as maneiras possíveis pelas quais elas podem mudar com o tempo, e modelar toda a pipeline de ML para treinamento e inferência para entender os gargalos, o que me diz onde estão as oportunidades para entregar valor. E porque venho de uma formação matemática, gosto de modelar coisas para chegar o mais perto da verdade que posso e ter isso me guiar. Por exemplo, construímos modelos para calcular o desempenho do sistema para o custo total de propriedade e podemos medir o benefício que podemos trazer aos clientes com software e/ou hardware e entender melhor nossas restrições e os diferentes controles disponíveis para nós, e dezenas de outros modelos para várias coisas. Somos muito orientados por dados e usamos as informações desses modelos para guiar nossos esforços e trade-offs.

Parece que o progresso em IA veio principalmente do escalonamento, o que requer exponencialmente mais computação e energia. Parece que estamos em uma corrida armamentista com todas as empresas tentando construir o maior modelo, e não parece haver um fim à vista. Você acha que há uma saída para isso?

Sempre há maneiras. O escalonamento provou ser extremamente útil, e não acho que tenhamos visto o fim ainda. Logo veremos modelos sendo treinados com um custo de pelo menos um bilhão de dólares. Se você quiser ser um líder em IA gerativa e criar modelos de base de ponta, precisará gastar pelo menos alguns bilhões por ano em computação. Agora, há limites naturais para o escalonamento, como ser capaz de construir um conjunto de dados grande o suficiente para um modelo desse tamanho, obter acesso a pessoas com o conhecimento certo e obter acesso a computação suficiente.

O escalonamento contínuo do tamanho do modelo é inevitável, mas também não podemos transformar a superfície toda da Terra em um supercomputador do tamanho do planeta para treinar e servir LLMs por razões óbvias. Para controlar isso, temos várias opções: melhores conjuntos de dados, novas arquiteturas de modelo, novos métodos de treinamento, melhores compiladores, melhorias algorítmicas e explorações, melhores arquiteturas de computador e assim por diante. Se fizermos tudo isso, há cerca de três ordens de magnitude de melhoria a ser encontrada. Essa é a melhor saída.

Você é um defensor do pensamento de primeira ordem, como isso molda sua mentalidade para como você está dirigindo a Lemurian Labs?

Definitivamente empregamos muito pensamento de primeira ordem na Lemurian. Sempre encontrei que a sabedoria convencional é enganosa porque esse conhecimento foi formado em um determinado momento, quando certas suposições se aplicavam, mas as coisas sempre mudam e você precisa retestar suposições com frequência, especialmente quando vive em um mundo tão rápido.

Muitas vezes, pego-me fazendo perguntas como “isso parece uma ideia muito boa, mas por que isso não pode funcionar”, ou “o que precisa ser verdade para que isso funcione”, ou “o que sabemos que são verdades absolutas e quais são as suposições que estamos fazendo e por quê?”, ou “por que acreditamos que essa abordagem particular é a melhor maneira de resolver esse problema”. O objetivo é invalidar e matar ideias o mais rápido e barato possível. Queremos tentar maximizar a quantidade de coisas que estamos tentando a qualquer momento. É sobre estar obcecado com o problema que precisa ser resolvido e não estar muito opinativo sobre qual tecnologia é a melhor. Muitas pessoas tendem a se concentrar demais na tecnologia e acabam não entendendo os problemas dos clientes e perdem as transições que acontecem na indústria, o que pode invalidar sua abordagem, resultando em sua incapacidade de se adaptar ao novo estado do mundo.

Mas o pensamento de primeira ordem não é muito útil por si só. Tendemos a combiná-lo com backcasting, que basicamente significa imaginar um resultado ideal ou desejado e trabalhar de trás para frente para identificar as diferentes etapas ou ações necessárias para realizá-lo. Isso garante que convergimos em uma solução significativa que não é apenas inovadora, mas também fundamentada na realidade. Não faz sentido gastar tempo criando a solução perfeita apenas para perceber que não é viável construí-la devido a uma variedade de restrições do mundo real, como recursos, tempo, regulamentação ou criar uma solução aparentemente perfeita, mas mais tarde descobrir que a tornamos muito difícil para os clientes adotarem.

De vez em quando, nos encontramos em uma situação em que precisamos tomar uma decisão, mas não temos dados, e nesse cenário, empregamos hipóteses mínimas testáveis que nos dão um sinal de se algo faz sentido para perseguir com o menor gasto de energia possível.

Tudo isso combinado nos dá agilidade, ciclos de iteração rápidos para desviar itens rapidamente, e nos ajudou a ajustar estratégias com alta confiança e fazer muito progresso em problemas muito difíceis em um curto período de tempo.

Inicialmente, você estava focado em edge AI, o que o fez refocar e mudar para computação em nuvem?

Começamos com edge AI porque, naquela época, eu estava muito focado em tentar resolver um problema específico que eu havia enfrentado ao tentar introduzir um mundo de robótica autônoma de propósito geral. A robótica autônoma promete ser a maior mudança de plataforma em nossa história coletiva, e parecia que tínhamos tudo o que precisávamos para construir um modelo de base para robótica, mas estávamos faltando o chip de inferência ideal com o equilíbrio certo de taxa de transferência, latência, eficiência de energia e programabilidade para executar o modelo de base.

Não estava pensando no datacenter naquela época, porque havia mais do que o suficiente de empresas se concentrando nisso e eu esperava que elas resolvessem. Projetamos uma arquitetura muito poderosa para esse espaço de aplicativos e estávamos preparados para lançá-la, e então ficou claro que o mundo havia mudado e o problema realmente estava no datacenter. A taxa com que os LLMs estavam escalando e consumindo computação supera o ritmo de progresso na computação, e quando você fatora a adoção, começa a pintar um quadro preocupante.

Parecia que era aqui que deveríamos nos concentrar, para reduzir o custo de energia da IA nos datacenters o máximo possível, sem impor restrições a onde e como a IA deveria evoluir. E então, começamos a trabalhar para resolver esse problema.

Pode compartilhar a história de fundação da Lemurian Labs?

A história começa no início de 2018. Eu estava trabalhando no treinamento de um modelo de base para autonomia de propósito geral, junto com um modelo para simulação de multi-física gerativa para treinar o agente e ajustá-lo para diferentes aplicações, e algumas outras coisas para ajudar a escalar em ambientes de multi-agente. Mas muito rapidamente, esgotamos a quantidade de computação que eu tinha, e eu estimei precisar de mais de 20.000 GPUs V100. Tentei levantar o suficiente para obter acesso à computação, mas o mercado não estava pronto para esse tipo de escala ainda. Isso, no entanto, me fez pensar sobre o lado de implantação e me sentei para calcular quanto desempenho eu precisaria para servir esse modelo nos ambientes-alvo e percebi que não havia chip que pudesse me levar até lá.

Um par de anos depois, em 2020, eu me encontrei com Vassil – meu eventual co-fundador – para me atualizar e compartilhei os desafios que eu enfrentei ao construir um modelo de base para autonomia, e ele sugeriu construir um chip de inferência que pudesse executar o modelo de base, e compartilhou que ele havia pensado muito sobre formatos numéricos e que representações melhores ajudariam não apenas em tornar as redes neurais mais precisas em bit-widths mais baixos, mas também em criar arquiteturas mais poderosas.

Foi uma ideia intrigante, mas estava muito fora da minha área de especialização. Mas não me deixou, o que me levou a passar meses e meses aprendendo as complexidades da arquitetura de computador, conjuntos de instruções, tempos de execução, compiladores e modelos de programação. Eventualmente, construir uma empresa de semicondutores começou a fazer sentido e eu havia formado uma tese sobre o que era o problema e como abordá-lo. E então, hacia o final do ano, começamos a Lemurian.

Você falou anteriormente sobre a necessidade de abordar o software primeiro ao construir hardware, pode elaborar sobre suas visões de por que o problema de hardware é, antes de mais nada, um problema de software?

O que muitas pessoas não percebem é que o lado de software dos semicondutores é muito mais difícil do que o hardware em si. Construir uma arquitetura de computador útil para os clientes usarem e obter benefícios é um problema de pilha completa, e se você não tiver essa compreensão e preparação ao entrar, acabará com uma arquitetura bonita e muito performática e eficiente, mas totalmente inutilizável por desenvolvedores, o que é o que realmente importa.

Há outros benefícios em adotar uma abordagem de software primeiro, é claro, como um tempo de mercado mais rápido. Isso é crucial no mundo em movimento rápido de hoje, onde ser muito otimista sobre uma arquitetura ou recurso pode significar que você perde o mercado inteiro.

Não adotar uma visão de software primeiro geralmente resulta em não ter desviado os itens importantes necessários para a adoção do produto no mercado, não ser capaz de responder a mudanças no mercado, por exemplo, quando as cargas de trabalho evoluem de uma maneira inesperada, e ter hardware subutilizado. Nada disso é bom. Essa é uma grande razão pela qual nos importamos muito em ser centrados em software e por que nossa visão é que você não pode ser uma empresa de semicondutores sem realmente ser uma empresa de software.

Pode discutir seus objetivos imediatos de pilha de software?

Quando estávamos projetando nossa arquitetura e pensando sobre a estrada à frente e onde estavam as oportunidades para trazer mais desempenho e eficiência de energia, começou a ficar claro que iríamos ver muito mais heterogeneidade, o que criaria muitos problemas de software. E não precisamos apenas ser capazes de programar arquiteturas heterogêneas de forma produtiva, temos que lidar com elas em escala de datacenter, o que é um desafio do tipo que não enfrentamos antes.

Isso nos preocupou porque a última vez que tivemos que passar por uma transição importante foi quando a indústria mudou de arquiteturas de único núcleo para multi-núcleo, e naquela época, levou 10 anos para que o software funcionasse e as pessoas o usassem. Não podemos esperar 10 anos para descobrir como fazer software para heterogeneidade em escala, isso precisa ser resolvido agora. E então, começamos a trabalhar para entender o problema e o que precisa existir para que essa pilha de software exista.

Estamos atualmente nos engajando com muitas das principais empresas de semicondutores e provedores de serviços de nuvem e lançaremos nossa pilha de software nos próximos 12 meses. É um modelo de programação unificado com um compilador e tempo de execução capaz de direcionar qualquer tipo de arquitetura, e orquestrando o trabalho em clusters compostos por diferentes tipos de hardware, e capaz de escalar de um nó único para um cluster de mil nós para o melhor desempenho possível.

Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Lemurian Labs.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.