Connect with us

Nikunj Bajaj, Co-fundador y CEO de TrueFoundry – Serie de entrevistas

Entrevistas

Nikunj Bajaj, Co-fundador y CEO de TrueFoundry – Serie de entrevistas

mm

Nikunj Bajaj es el co-fundador y CEO de TrueFoundry, donde lidera la visión y la estrategia de la empresa en torno a la construcción de plataformas de inteligencia artificial confiables y de nivel empresarial. Con experiencia en la escalabilidad de productos y equipos de tecnología, se enfoca en permitir que las organizaciones desplieguen y operen sistemas de inteligencia artificial de manera segura y eficiente. Escribe sobre la adopción de inteligencia artificial empresarial, la estrategia de plataformas de inteligencia artificial y las tendencias emergentes en la producción de inteligencia artificial.

TrueFoundry es una plataforma de infraestructura de inteligencia artificial empresarial que ayuda a las organizaciones a construir, desplegar, gobernar y escalar aplicaciones de aprendizaje automático y generativo en entornos basados en Kubernetes, ya sea en la nube, en las instalaciones o en un entorno híbrido, con una sólida gobernanza, seguridad y control de costos. Combina una puerta de enlace de inteligencia artificial para centralizar el acceso a modelos, LLM y flujos de trabajo de agentes con herramientas para afinar modelos, desplegar, monitorear y autoescalar, con el objetivo de simplificar la operación de aprendizaje automático y acelerar el tiempo de valor para los equipos de ciencia de datos e ingeniería. El enfoque de TrueFoundry en el desarrollador, agnóstico a la nube, enfatiza la conformidad empresarial y la flexibilidad, lo que permite a los equipos gestionar cargas de trabajo de inteligencia artificial complejas sin bloqueo de proveedor y al mismo tiempo hacer cumplir estándares como SOC 2, HIPAA e ITAR.

Ha trabajado en investigación de aprendizaje automático, inteligencia artificial en producción en Facebook y sistemas de recomendación a gran escala antes de fundar TrueFoundry — ¿qué experiencias lo llevaron directamente a construir una empresa de infraestructura de inteligencia artificial empresarial, y qué dolor no estaba siendo abordado en ese momento?

En Meta, veíamos el aprendizaje automático como un caso especial de software, y la inteligencia artificial generativa como un caso especial de aprendizaje automático, lo que resultaba en una pila vertical con software en la parte inferior, aprendizaje automático en el medio y inteligencia artificial generativa en la parte superior. En este conjunto, si soy un desarrollador de aprendizaje automático, los modelos que construyo siguen el mismo patrón de despliegue que el resto del software, lo que hace que escalar sistemas sea muy sencillo.

La mayoría de las empresas, sin embargo, estaban desplegando pilas paralelas, lo que significa que tenían pilas separadas para software, aprendizaje automático e inteligencia artificial generativa. En el momento en que tienes estas pilas paralelas, escalar se vuelve más complejo debido a las entregas necesarias entre el mundo del aprendizaje automático y el mundo del software.

Nuestro equipo siempre ha trabajado en la intersección de la construcción de modelos de aprendizaje automático y la infraestructura de aprendizaje automático, por lo que teníamos una perspectiva única que podríamos traer a las empresas y adaptarlas a sus requisitos específicos. También teníamos una hipótesis a fines de 2021 de que el aprendizaje automático se acercaba a un punto de inflexión, y cuando lo hiciera, más empresas necesitarían una pila verticalmente integrada para desplegar y escalar estos sistemas de manera efectiva. Esto es lo que finalmente nos llevó a fundar TrueFoundry, y nuestra hipótesis fue correcta. La adopción de inteligencia artificial se aceleró después del lanzamiento de ChatGPT a fines de 2022.

¿Cómo han cambiado las cosas para las organizaciones en cuanto a la forma en que deben pensar sobre la confiabilidad y el fracaso a medida que los sistemas de inteligencia artificial pasan de la experimentación a las operaciones diarias?

Las apuestas con la inteligencia artificial generativa son significativamente más altas en comparación con los sistemas de aprendizaje automático tradicionales. A medida que estos sistemas se mueven hacia la producción, las organizaciones lidian con un nivel mucho mayor de ambigüedad y no determinismo porque los LLM son estocásticos por naturaleza. Los sistemas agentes construidos sobre ellos agregan aún más ambigüedad.

Además, los fallos ya no son binarios. En lugar de que los sistemas simplemente fallen o no fallen, muchos problemas aparecen como fallos parciales o degradaciones silenciosas. Los sistemas pueden responder con mayor latencia, calidad degradada o comportamiento incorrecto con el tiempo. En muchos casos, estas degradaciones pueden ser más difíciles de detectar y, a veces, incluso más dañinas que una interrupción total.

Las organizaciones necesitan pensar en la confiabilidad no solo en términos de tiempo de actividad, sino también en la degradación del rendimiento con el tiempo.

TrueFailover se lanzó en medio de una ola de interrupciones de servicios de inteligencia artificial y nube de alto perfil. ¿Qué eventos recientes hicieron que quedara claro que la confiabilidad de la inteligencia artificial había pasado de ser un “sería bueno tener” a un requisito arquitectónico fundamental?

Uno de nuestros clientes de atención médica que procesa solicitudes de pacientes en tiempo real y relacionadas con recetas se vio afectado por una interrupción causada por un fallo del modelo. Sus flujos de trabajo generan miles de dólares de ingresos por segundo, y la interrupción interrumpió algunos de estos flujos de trabajo críticos. Como cliente temprano de TrueFailover, pudimos ayudar con una recuperación rápida, y el impacto se contuvo.

Incidentes como este plantean una pregunta importante. A medida que las apuestas de los sistemas de inteligencia artificial generativa siguen aumentando, ¿por qué los procesos de recuperación siguen siendo en gran medida manuales? Reforzó la idea de que los sistemas deben estar diseñados con la suposición de que los fallos ocurrirán y que deben estar diseñados para corregirse automáticamente. La confiabilidad también debe estar integrada en la propia pila de inteligencia artificial a través del uso de puertas de enlace de inteligencia artificial, que pueden proporcionar enrutamiento centralizado, observabilidad, guardias y conmutación de modelos inteligente entre proveedores.

Muchas interrupciones de inteligencia artificial todavía se presentan como contratiempos técnicos. ¿Dónde ve que comienzan a surgir los costos económicos y humanos reales cuando los sistemas de inteligencia artificial se van?

La inteligencia artificial empresarial ha evolucionado hasta el punto en que estos contratiempos ya no solo afectan los flujos de trabajo internos. Hoy en día, las interrupciones y las degradaciones afectan directa e inmediatamente la percepción pública y las ganancias, porque los casos de uso de producción ahora son orientados al cliente. Este cambio de la prueba interna a aplicaciones de alto riesgo y orientadas al cliente es por qué estamos viendo una mayor demanda de atención y supervisión ejecutiva.

A medida que los sistemas de inteligencia artificial se integran más profundamente en los flujos de trabajo operativos, las interrupciones ya no son solo problemas técnicos. Cada vez más tienen consecuencias directas para los negocios, los clientes y la reputación.

En entornos críticos de la misión, como farmacias, operaciones de atención médica o soporte al cliente, ¿con qué rapidez puede la inactividad de la inteligencia artificial escalar a un riesgo operativo o de reputación?

En entornos críticos de la misión, la escalada ocurre casi de inmediato porque estos sistemas respaldan flujos de trabajo en tiempo real y sensibles al tiempo. Incluso una interrupción breve puede detener procesos críticos, retrasar la entrega del servicio o interrumpir sistemas posteriores que dependen de esas salidas, creando efectos operativos en cascada en toda la organización.

En sectores como la atención médica, el impacto se extiende más allá de la interrupción operativa al experiencia del cliente y los resultados del servicio. Si un paciente no puede cumplir con su receta a tiempo, puede haber consecuencias reales. No solo es un problema para el paciente, sino que también puede dañar la reputación de una farmacia o proveedor de atención médica. En entornos críticos de la misión donde la confianza es un factor, es fundamental que los sistemas permanezcan en línea. Es por esto que las organizaciones están reconociendo cada vez más que los sistemas de inteligencia artificial deben estar diseñados con la suposición de que los fallos ocurrirán y que los mecanismos de recuperación necesitan activarse automáticamente para minimizar el riesgo.

Ha dicho que muchos equipos arquitectan para la capacidad en lugar de la continuidad. ¿Por qué cree que la resiliencia ha sido históricamente infrautilizada en el diseño de sistemas de inteligencia artificial?

Esto se debe en gran medida a los incentivos dentro de las organizaciones. Las nuevas capacidades son visibles y emocionantes. Desbloquean demos, características y posibilidades de productos que el liderazgo puede ver de inmediato.

La continuidad, por definición, es invisible cuando las cosas funcionan bien. Debido a esto, los sistemas de recompensa tienden a estar sesgados hacia el envío de nuevas características en lugar de garantizar que nada se rompa. Como resultado, las organizaciones a menudo invierten de manera desproporcionada en el desarrollo de capacidades en lugar de la ingeniería de resiliencia.

¿Qué nuevas fragilidades se introducen en la pila de inteligencia artificial que los líderes pueden no apreciar completamente a medida que las empresas confían cada vez más en modelos y API externos?

Los LLM son fundamentalmente recursos compartidos, y las empresas no los poseen como poseen infraestructura tradicional. Además, sistemas de negocio críticos con empresas están ejecutándose en sistemas externos que no están completamente probados en el tiempo. Los LLM en sí están evolucionando rápidamente, lo que significa que un proveedor de modelos no puede ser considerado responsable de cosas como la latencia o el rendimiento del modelo que disminuye ligeramente, porque están iterando en su investigación muy rápidamente.

Debido a que los LLM son recursos compartidos, la latencia puede aumentar porque otro consumidor de estos LLM realiza una acción específica. Hay muchos puntos de fallo que se introducen debido a la naturaleza fundamental de los LLM, y las empresas en este nuevo mundo simplemente no tienen el control total. Sin control total, lo mejor que una empresa puede hacer es crear suficientes redundancias del sistema para diseñar un sistema resistente.

¿Cómo deberían las organizaciones repensar la arquitectura de la inteligencia artificial para asumir el fallo en lugar de tratar las interrupciones como casos de borde raros?

Las organizaciones deben regresar a los primeros principios del diseño de sistemas distribuidos. Los sistemas de software se construyeron sobre la suposición de que los componentes de la red y las máquinas fallarían, y que toda una región podría irse.

Los sistemas de inteligencia artificial no deben ser diferentes. Deberíamos asumir que los proveedores de modelos experimentarán problemas de latencia, degradaciones o interrupciones, e incorporar redundancia para que las aplicaciones permanezcan resistentes en diferentes escenarios de fallo.

¿Espera que la resiliencia de la inteligencia artificial se convierta en un factor decisivo en la selección de plataformas y proveedores, similar a cómo el tiempo de actividad y la redundancia dieron forma a las decisiones de infraestructura en la nube?

A medida que más sistemas de inteligencia artificial se mueven hacia la producción, la resiliencia se convertirá en un requisito básico. Si un proveedor no puede mostrar sus gráficos y métricas sobre el tiempo de actividad y la resiliencia general, no será considerado. Una vez que la resiliencia se convierta en una expectativa básica entre los proveedores, los factores decisivos se desplazarán hacia la experiencia del usuario, la optimización del rendimiento, la observabilidad y capacidades de producto de nivel superior. Con el tiempo, componentes como una puerta de enlace de inteligencia artificial y capacidades de conmutación automática se convertirán en elementos fundamentales de la infraestructura de inteligencia artificial empresarial.

¿Qué significa realmente la inteligencia artificial “lista para la producción” en un mundo donde se espera que la inteligencia artificial esté continuamente disponible, no solo ocasionalmente útil?

Los sistemas de inteligencia artificial listos para la producción deben ser observables, controlables y recuperables. Las tres casillas deben estar marcadas.

Para que la inteligencia artificial en producción sea observable, los equipos necesitan una visibilidad profunda en el comportamiento del modelo, la latencia, las tasas de error, el uso de tokens, la deriva y los patrones de fallo. Sin una fuerte observabilidad, se vuelve muy difícil detectar degradaciones antes de que los usuarios comiencen a notarlas.

Para que los sistemas sean controlables, eso incluye la configuración de tráfico, la limitación de velocidad, los guardias, la aplicación de políticas y el enrutamiento inteligente entre modelos y proveedores. Aquí es donde una puerta de enlace de inteligencia artificial se convierte en fundamental, actuando como un plano de control centralizado que hace cumplir los guardias, proporciona una gobernanza coherente y permite la conmutación de modelos dinámica cuando el rendimiento o la confiabilidad disminuye.

Y, finalmente, cuando se trata de ser recuperable, los sistemas deben estar diseñados con la suposición de que los componentes pueden estar parcial o completamente dañados, ya sea debido a interrupciones del proveedor, calidad de modelo degradada, límites de velocidad o entradas inesperadas de actores maliciosos. Los mecanismos de conmutación automática y la auto-curación deben ser nativos de la arquitectura, no libros de juego manuales activados después de que algo salga mal.

Esta es la dirección hacia la que estamos trabajando en TrueFoundry. Los proveedores que definen la preparación para la producción de esta manera, combinando la observabilidad, el control centralizado y la recuperación automatizada, ganarán la confianza a largo plazo de los clientes y podrán seguir resolviendo nuevos problemas a medida que surjan. Gracias por la gran entrevista, los lectores que deseen aprender más pueden visitar TrueFoundry.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.