Entrevistas
Jay Dawani es cofundador y CEO de Lemurian Labs – Serie de entrevistas

Jay Dawani es cofundador y CEO de Lemurian Labs. Lemurian Labs tiene como misión entregar computadoras de inteligencia artificial asequibles, accesibles y eficientes, impulsadas por la creencia de que la inteligencia artificial no debería ser un lujo, sino una herramienta accesible para todos. El equipo fundador de Lemurian Labs combina experiencia en inteligencia artificial, compiladores, algoritmos numéricos y arquitectura de computadoras, unidos por un solo propósito: reinventar la computación acelerada.
¿Puedes llevarnos a través de tu experiencia y qué te llevó a la inteligencia artificial desde el principio?
Absolutamente. Había estado programando desde los 12 años y creando mis propios juegos y demás, pero en realidad me metí en la inteligencia artificial cuando tenía 15 años debido a un amigo de mi padre que estaba en computadoras. Alimentó mi curiosidad y me dio libros para leer como “The Computer and The Brain” de Von Neumann, “Perceptrons” de Minsky y “AI A Modern Approach” de Russel y Norvig. Estos libros influyeron mucho en mi pensamiento y parecía casi obvio entonces que la inteligencia artificial iba a ser transformadora y yo simplemente tenía que ser parte de este campo.
Cuando llegó el momento de la universidad, realmente quería estudiar inteligencia artificial, pero no encontré ninguna universidad que lo ofreciera, así que decidí especializarme en matemáticas aplicadas en su lugar, y un poco después de llegar a la universidad, me enteré de los resultados de AlexNet en ImageNet, lo que fue realmente emocionante. En ese momento, tuve un momento de “ahora o nunca” en mi cabeza y me sumergí en leer todos los artículos y libros que pude encontrar relacionados con redes neuronales y busqué a todos los líderes en el campo para aprender de ellos, porque, ¿cuántas veces se tiene la oportunidad de estar allí en el nacimiento de una nueva industria y aprender de sus pioneros?
Muy rápidamente me di cuenta de que no disfruto de la investigación, pero sí disfruto resolviendo problemas y creando productos habilitados para inteligencia artificial. Eso me llevó a trabajar en coches y robots autónomos, inteligencia artificial para el descubrimiento de materiales, modelos generativos para simulaciones de multi-física, simuladores de inteligencia artificial para entrenar a conductores de coches de carreras profesionales y ayudar con la configuración de los coches, robots espaciales, comercio algorítmico y mucho más.
Ahora, después de haber hecho todo eso, estoy tratando de reducir el costo de la formación y despliegue de la inteligencia artificial, porque eso será el mayor obstáculo que enfrentaremos en nuestro camino hacia permitir que cada persona y empresa tenga acceso a la inteligencia artificial de la manera más económica posible.
Muchas empresas que trabajan en computación acelerada tienen fundadores que han construido carreras en semiconductores e infraestructura. ¿Cómo crees que tu experiencia pasada en inteligencia artificial y matemáticas impacta tu capacidad para entender el mercado y competir de manera efectiva?
En realidad, creo que no venir de la industria me da la ventaja de ser un forastero. He encontrado que es el caso con bastante frecuencia que no tener conocimiento de las normas de la industria o la sabiduría convencional te da la libertad de explorar más libremente y profundamente que la mayoría de los demás, porque no estás limitado por prejuicios.
Tengo la libertad de hacer preguntas como “esto parece una idea realmente buena, pero ¿por qué podría no funcionar” o “¿qué necesita ser cierto para que esto funcione” o “¿qué sabemos que son verdades absolutas y qué suposiciones estamos haciendo y por qué!”, o “¿por qué creemos que este enfoque particular es la mejor manera de resolver este problema”. El objetivo es invalidar y matar ideas lo más rápido y barato posible. Queremos intentar maximizar la cantidad de cosas que estamos tratando en cualquier momento dado.
Al venir de un fondo de inteligencia artificial, tiendo a tomar una visión de software al mirar dónde están las cargas de trabajo hoy y aquí están todas las formas posibles en que pueden cambiar con el tiempo, y modelar toda la tubería de aprendizaje automático para la formación y la inferencia para entender los cuellos de botella, lo que me dice dónde están las oportunidades para entregar valor. Y porque vengo de un fondo matemático, me gusta modelar las cosas para acercarme a la verdad tanto como pueda, y tener que guiarlo. Por ejemplo, hemos construido modelos para calcular el rendimiento del sistema para el costo total de propiedad y podemos medir el beneficio que podemos brindar a los clientes con software y/o hardware y para comprender mejor nuestras limitaciones y los diferentes controles disponibles para nosotros, y docenas de otros modelos para varias cosas. Estamos muy impulsados por datos y usamos las ideas de estos modelos para guiar nuestros esfuerzos y compromisos.
Parece que el progreso en la inteligencia artificial ha venido principalmente de la escalabilidad, lo que requiere una cantidad exponencialmente mayor de cómputo y energía. Parece que estamos en una carrera armamentista con cada empresa tratando de construir el modelo más grande, y no parece que haya un fin a la vista. ¿Crees que hay una forma de salir de esto?
Siempre hay formas. La escalabilidad ha demostrado ser extremadamente útil, y no creo que hayamos visto el final todavía. Muy pronto veremos modelos que se entrenan con un costo de al menos mil millones de dólares. Si quieres ser un líder en inteligencia artificial generativa y crear modelos de base de vanguardia, necesitarás gastar al menos unos pocos mil millones de dólares al año en cómputo. Ahora, hay límites naturales a la escalabilidad, como ser capaz de construir un conjunto de datos lo suficientemente grande para un modelo de ese tamaño, obtener acceso a personas con el conocimiento adecuado y obtener acceso a suficiente cómputo.
La escalabilidad continua del tamaño del modelo es inevitable, pero no podemos convertir toda la superficie de la Tierra en un supercomputador de tamaño planetario para entrenar y servir LLM para razones obvias. Para controlar esto, tenemos varios controles que podemos jugar: mejores conjuntos de datos, nuevas arquitecturas de modelos, nuevos métodos de entrenamiento, mejores compiladores, mejoras algorítmicas y explotaciones, mejores arquitecturas de computadoras, y así sucesivamente. Si hacemos todo eso, hay aproximadamente tres órdenes de magnitud de mejora que se pueden encontrar. Esa es la mejor forma de salir.
Eres un creyente en el pensamiento de primeros principios, ¿cómo moldea tu mentalidad para cómo estás ejecutando Lemurian Labs?
Definitivamente empleamos mucho pensamiento de primeros principios en Lemurian. Siempre he encontrado que la sabiduría convencional es engañosa porque ese conocimiento se formó en un momento determinado cuando ciertas suposiciones se mantuvieron, pero las cosas siempre cambian y debes volver a probar las suposiciones con frecuencia, especialmente cuando vives en un mundo tan rápido.
A menudo me encuentro haciendo preguntas como “esta parece una idea realmente buena, pero ¿por qué podría no funcionar” o “¿qué necesita ser cierto para que esto funcione” o “¿qué sabemos que son verdades absolutas y qué suposiciones estamos haciendo y por qué!”, o “¿por qué creemos que este enfoque particular es la mejor manera de resolver este problema”. El objetivo es invalidar y matar ideas lo más rápido y barato posible. Queremos intentar maximizar la cantidad de cosas que estamos tratando en cualquier momento dado.
Pero el pensamiento de primeros principios no es muy útil por sí solo. Tendemos a emparejarlo con la previsión, que básicamente significa imaginar un resultado o resultado deseado ideal y trabajar hacia atrás para identificar los diferentes pasos o acciones necesarias para lograrlo. Esto garantiza que convergimos en una solución significativa que no solo es innovadora, sino también basada en la realidad. No tiene sentido pasar tiempo creando la solución perfecta solo para darte cuenta de que no es factible construirla debido a una variedad de limitaciones del mundo real como recursos, tiempo, regulación o construir una solución aparentemente perfecta, pero más tarde descubrir que la has hecho demasiado difícil para que los clientes la adopten.
De vez en cuando nos encontramos en una situación en la que necesitamos tomar una decisión pero no tenemos datos, y en este escenario empleamos hipótesis mínimamente probables que nos dan una señal de si algo tiene sentido o no perseguir con la menor cantidad de gasto de energía.
Todo esto combinado es para darnos agilidad, ciclos de iteración rápida para desviar elementos rápidamente, y nos ha ayudado a ajustar estrategias con alta confianza, y hacer mucho progreso en problemas muy difíciles en muy poco tiempo.
Inicialmente, estabas enfocado en inteligencia artificial de borde, ¿qué te llevó a reenfocarte y pivotar a la computación en la nube?
Empezamos con la inteligencia artificial de borde porque en ese momento estaba muy enfocado en tratar de resolver un problema muy particular que había enfrentado al tratar de introducir un mundo de robótica autónoma de propósito general. La robótica autónoma tiene la promesa de ser el mayor cambio de plataforma en nuestra historia colectiva, y parecía que teníamos todo lo necesario para construir un modelo de base para la robótica, pero nos faltaba el chip de inferencia ideal con el equilibrio correcto de rendimiento, latencia, eficiencia energética y programabilidad para ejecutar el modelo de base.
No estaba pensando en el centro de datos en ese momento porque había más que suficientes empresas enfocadas allí y esperaba que lo resolverían. Diseñamos una arquitectura muy poderosa para este espacio de aplicación y estábamos listos para grabarla, y entonces se hizo abundante y claro que el mundo había cambiado y el problema verdadero estaba en el centro de datos. La velocidad a la que los LLM estaban escalando y consumiendo cómputo superaba con creces el ritmo de progreso en la computación, y cuando se factoriza la adopción, comienza a pintar una imagen preocupante.
Parecía que este era el lugar donde debíamos enfocar nuestros esfuerzos, para reducir el costo energético de la inteligencia artificial en los centros de datos tanto como sea posible sin imponer restricciones sobre dónde y cómo debería evolucionar la inteligencia artificial. Así que, nos pusimos a trabajar en resolver este problema.
¿Puedes compartir la historia de la creación de Lemurian Labs?
La historia comienza a principios de 2018. Estaba trabajando en la formación de un modelo de base para la autonomía general y un modelo para la simulación de multi-física generativa para entrenar al agente y afinarlo para diferentes aplicaciones, y algunas otras cosas para ayudar a escalar en entornos de multi-agente. Pero muy rápidamente me quedé sin la cantidad de cómputo que tenía, y estimé necesitar más de 20,000 GPU V100. Intenté recaudar suficiente para obtener acceso al cómputo, pero el mercado no estaba listo para ese tipo de escala todavía. Sin embargo, me hizo pensar en el lado del despliegue y me senté a calcular cuánto rendimiento necesitaría para servir este modelo en los entornos objetivo y me di cuenta de que no había ningún chip en existencia que pudiera llegar allí.
Un par de años después, en 2020, me reuní con Vassil, mi eventual cofundador, para ponernos al día y compartí los desafíos que había enfrentado al construir un modelo de base para la autonomía, y sugirió construir un chip de inferencia que pudiera ejecutar el modelo de base, y compartió que había estado pensando mucho en formatos numéricos y que mejores representaciones ayudarían no solo a hacer que las redes neuronales retuvieran la precisión a anchos de bits más bajos, sino también a crear arquitecturas más poderosas.
Era una idea intrigante, pero estaba fuera de mi alcance. Pero no me dejó, lo que me llevó a pasar meses y meses aprendiendo las complejidades de la arquitectura de computadoras, conjuntos de instrucciones, tiempos de ejecución, compiladores y modelos de programación. Finalmente, construir una empresa de semiconductores comenzó a tener sentido y había formado una tesis sobre cuál era el problema y cómo abordarlo. Y, hacia el final del año, empezamos Lemurian.
Hablaste anteriormente sobre la necesidad de abordar el software primero al construir hardware, ¿podrías elaborar sobre tus puntos de vista sobre por qué el problema de hardware es en primer lugar un problema de software?
Lo que mucha gente no se da cuenta es que el lado de software de los semiconductores es mucho más difícil que el hardware en sí. Construir una arquitectura de computadora útil para que los clientes la utilicen y obtengan beneficios es un problema de pila completa, y si no tienes esa comprensión y preparación al entrar, terminarás con una arquitectura hermosa y muy performante y eficiente, pero totalmente inutilizable para los desarrolladores, lo cual es lo que realmente importa.
Hay otros beneficios al tomar un enfoque de software primero, por supuesto, como un tiempo de llegada al mercado más rápido. Esto es crucial en el mundo en movimiento rápido de hoy, donde ser demasiado optimista sobre una arquitectura o función podría significar que te pierdes completamente del mercado.
No tomar un enfoque de software primero generalmente resulta en no haber desvinculado las cosas importantes requeridas para la adopción del producto en el mercado, no ser capaz de responder a los cambios en el mercado, por ejemplo, cuando las cargas de trabajo evolucionan de una manera inesperada, y tener hardware subutilizado. Todas estas no son cosas buenas. Esa es una gran razón por la que nos importa mucho ser centrados en el software y por qué nuestra visión es que no puedes ser una empresa de semiconductores sin realmente ser una empresa de software.
¿Puedes discutir tus objetivos inmediatos de pila de software?
Cuando estábamos diseñando nuestra arquitectura y pensando en la hoja de ruta hacia adelante y dónde estaban las oportunidades para traer más rendimiento y eficiencia energética, comenzó a estar muy claro que íbamos a ver mucha más heterogeneidad, lo que crearía muchos problemas en el software. Y no solo necesitamos ser capaces de programar arquitecturas heterogéneas de manera productiva, tenemos que lidiar con ellas a escala de centro de datos, lo cual es un desafío como el que no hemos visto antes.
Esto nos preocupó porque la última vez que tuvimos que pasar por una transición importante fue cuando la industria se mudó de arquitecturas de un solo núcleo a arquitecturas de varios núcleos, y en ese momento tomó 10 años que el software funcionara y la gente lo usara. No podemos esperar 10 años para averiguar cómo hacer que el software funcione para la heterogeneidad a escala, tiene que estar resuelto ahora. Así que, nos pusimos a trabajar en comprender el problema y qué necesita existir para que esta pila de software exista.
Actualmente estamos interactuando con muchas de las principales empresas de semiconductores y proveedores de servicios en la nube y estaremos lanzando nuestra pila de software en los próximos 12 meses. Es un modelo de programación unificado con un compilador y tiempo de ejecución capaz de apuntar a cualquier tipo de arquitectura, y orquestar el trabajo a través de clústeres compuestos por diferentes tipos de hardware, y es capaz de escalar desde un solo nodo hasta un clúster de mil nodos para el rendimiento más alto posible.
Gracias por la gran entrevista, los lectores que deseen aprender más pueden visitar Lemurian Labs.












