Connect with us

Neetu Pathak, Co-Fundadora y CEO de Skymel – Serie de Entrevistas

Entrevistas

Neetu Pathak, Co-Fundadora y CEO de Skymel – Serie de Entrevistas

mm

Neetu Pathak, Co-Fundadora y CEO de Skymel, lidera la empresa en la revolución de la inferencia de IA con su innovadora tecnología NeuroSplit™. Junto con el CTO Sushant Tripathy, impulsa la misión de Skymel para mejorar el rendimiento de las aplicaciones de IA mientras reduce los costos computacionales.

NeuroSplit™ es una tecnología de inferencia adaptativa que distribuye dinámicamente las cargas de trabajo de IA entre los dispositivos de los usuarios y los servidores en la nube. Este enfoque aprovecha los recursos de cómputo inactivos en los dispositivos de los usuarios, reduciendo los costos de la infraestructura en la nube hasta un 60%, acelerando las velocidades de inferencia, garantizando la privacidad de los datos y permitiendo una escalabilidad sin problemas.

Al optimizar la potencia de cómputo local, NeuroSplit™ permite que las aplicaciones de IA se ejecuten de manera eficiente incluso en GPUs más antiguas, reduciendo significativamente los costos mientras se mejora la experiencia del usuario.

¿Qué te inspiró a co-fundar Skymel, y qué desafíos clave en la infraestructura de IA estabas tratando de resolver con NeuroSplit?

La inspiración para Skymel surgió de la convergencia de nuestras experiencias complementarias. Durante su tiempo en Google, mi co-fundador, Sushant Tripathy, estaba desplegando modelos de IA basados en voz en miles de millones de dispositivos Android. Descubrió que había una enorme cantidad de potencia de cómputo inactiva disponible en los dispositivos de los usuarios, pero la mayoría de las empresas no podían utilizarla eficazmente debido a los complejos desafíos de ingeniería para acceder a estos recursos sin comprometer la experiencia del usuario.

Mientras tanto, mi experiencia trabajando con empresas y startups en Redis me dio una visión profunda de lo crítico que se estaba volviendo la latencia para los negocios. A medida que las aplicaciones de IA se volvieron más comunes, estaba claro que necesitábamos mover el procesamiento más cerca de donde se estaba creando la datos, en lugar de enviar constantemente los datos de un lado a otro a los centros de datos.

Fue entonces cuando Sushant y yo nos dimos cuenta de que el futuro no se trataba de elegir entre el procesamiento local o en la nube, sino de crear una tecnología inteligente que pudiera adaptarse sin problemas entre el procesamiento local, en la nube o híbrido según cada solicitud de inferencia específica. Esta idea nos llevó a fundar Skymel y desarrollar NeuroSplit, superando las limitaciones tradicionales de la infraestructura que estaban frenando la innovación en IA.

¿Puedes explicar cómo NeuroSplit optimiza dinámicamente los recursos de cómputo mientras mantiene la privacidad del usuario y el rendimiento?

Uno de los principales obstáculos en la inferencia de IA local ha sido sus requisitos de cómputo estáticos; tradicionalmente, ejecutar un modelo de IA requiere los mismos recursos computacionales independientemente de las condiciones del dispositivo o el comportamiento del usuario. Este enfoque de “talla única” ignora la realidad de que los dispositivos tienen diferentes capacidades de hardware, desde varios chips (GPU, NPU, CPU, XPU) hasta diferentes anchos de banda de red, y los usuarios tienen diferentes comportamientos en términos de uso de aplicaciones y patrones de carga.

NeuroSplit monitorea continuamente various telemetrías del dispositivo, desde capacidades de hardware hasta utilización de recursos actuales, estado de la batería y condiciones de la red. También consideramos patrones de comportamiento del usuario, como cuántas otras aplicaciones están ejecutándose y patrones de uso de dispositivos típicos. Esta supervisión integral permite a NeuroSplit determinar dinámicamente cuánta inferencia de cómputo se puede ejecutar de manera segura en el dispositivo del usuario mientras se optimiza para los indicadores de rendimiento clave de los desarrolladores.

Cuando la privacidad de los datos es fundamental, NeuroSplit garantiza que los datos sin procesar nunca abandonen el dispositivo, procesando información sensible localmente mientras mantiene un rendimiento óptimo. Nuestra capacidad para dividir, recortar o desconectar modelos de IA nos permite ajustar 50-100 modelos de IA en el espacio de memoria de solo un modelo cuantificado en un dispositivo del usuario. En términos prácticos, esto significa que los usuarios pueden ejecutar simultáneamente muchas más aplicaciones impulsadas por IA, procesando datos sensibles localmente, en comparación con los enfoques de cómputo estático tradicionales.

¿Cuáles son los principales beneficios de la inferencia adaptativa de NeuroSplit para las empresas de IA, particularmente aquellas que trabajan con tecnología de GPU más antigua?

NeuroSplit ofrece tres beneficios transformadores para las empresas de IA. Primero, reduce drásticamente los costos de infraestructura a través de dos mecanismos: las empresas pueden utilizar GPUs más antiguas y más baratas de manera efectiva, y nuestra capacidad única para ajustar tanto modelos completos como modelos de referencia en GPUs en la nube permite tasas de utilización de GPU significativamente más altas. Por ejemplo, una aplicación que normalmente requiere múltiples NVIDIA A100 a $2.74 por hora ahora puede ejecutarse en una sola A100 o en múltiples V100 a solo 83 centavos por hora.

En segundo lugar, mejoramos sustancialmente el rendimiento procesando los datos sin procesar directamente en los dispositivos de los usuarios. Esto significa que los datos que eventualmente viajan a la nube son mucho más pequeños en tamaño, reduciendo significativamente la latencia de la red mientras se mantiene la precisión. Este enfoque híbrido ofrece a las empresas lo mejor de ambos mundos: la velocidad del procesamiento local con el poder del cómputo en la nube.

Tercero, al procesar los datos iniciales sensibles en el dispositivo del usuario, ayudamos a las empresas a mantener fuertes protecciones de privacidad del usuario sin sacrificar el rendimiento. Esto es cada vez más crucial a medida que las regulaciones de privacidad se vuelven más estrictas y los usuarios son más conscientes de la privacidad.

¿Cómo reduce la solución de Skymel los costos de inferencia de IA sin comprometer la complejidad o la precisión del modelo?

Primero, al dividir los modelos de IA individuales, distribuimos el cómputo entre los dispositivos de los usuarios y la nube. La primera parte se ejecuta en el dispositivo del usuario, manejando del 5% al 100% del cómputo total dependiendo de los recursos del dispositivo disponibles. Solo el cómputo restante necesita ser procesado en GPUs en la nube.

Esta división significa que las GPUs en la nube manejan una carga de cómputo reducida; si un modelo originalmente requería una GPU A100 completa, después de la división, esa misma carga de trabajo podría necesitar solo el 30-40% de la capacidad de la GPU. Esto permite a las empresas utilizar instancias de GPU más rentables como la V100.

En segundo lugar, NeuroSplit optimiza la utilización de GPU en la nube. Al organizar de manera eficiente tanto los modelos completos como los modelos de referencia (las partes restantes de los modelos divididos) en la misma GPU en la nube, logramos tasas de utilización significativamente más altas en comparación con los enfoques tradicionales. Esto significa que más modelos pueden ejecutarse simultáneamente en la misma GPU en la nube, reduciendo aún más los costos por inferencia.

¿Qué distingue el enfoque híbrido (local + nube) de Skymel de otras soluciones de infraestructura de IA en el mercado?

El panorama de IA está en un punto de inflexión fascinante. Mientras que Apple, Samsung y Qualcomm están demostrando el poder de la IA híbrida a través de las características de sus ecosistemas, estos siguen siendo jardines cerrados. Pero la IA no debería estar limitada por el dispositivo que un usuario sucede que use.

NeuroSplit es fundamentalmente agnóstico del dispositivo, agnóstico de la nube y agnóstico de la arquitectura de la red neuronal. Esto significa que los desarrolladores pueden finalmente ofrecer experiencias de IA consistentes independientemente de si sus usuarios están en un iPhone, un dispositivo Android o una laptop; o si están utilizando AWS, Azure o Google Cloud.

Piense en lo que esto significa para los desarrolladores. Pueden construir su aplicación de IA una vez y saber que se adaptará inteligentemente en cualquier dispositivo, cualquier nube y cualquier arquitectura de red neuronal. No más construir diferentes versiones para diferentes plataformas o comprometer características en función de las capacidades del dispositivo.

Estamos sacando las capacidades de IA híbrida de nivel empresarial de los jardines cerrados y haciéndolas universalmente accesibles. A medida que la IA se convierte en central para cada aplicación, este tipo de flexibilidad y consistencia no es solo una ventaja; es esencial para la innovación.

¿Cómo complementa el Agente de Orquestador a NeuroSplit, y qué papel juega en la transformación de las estrategias de implementación de IA?

El Agente de Orquestador (AO) y NeuroSplit trabajan juntos para crear un sistema de implementación de IA autooptimizable:

1. Los desarrolladores establecen los límites:

  • Restricciones: modelos permitidos, versiones, proveedores de nube, zonas, reglas de cumplimiento
  • Objetivos: latencia objetivo, límites de costo, requisitos de rendimiento, necesidades de privacidad

2. El AO trabaja dentro de estas restricciones para lograr los objetivos:

  • Decide qué modelos/API utilizar para cada solicitud
  • Ajusta las estrategias de implementación en función del rendimiento en el mundo real
  • Toma decisiones para optimizar para los objetivos especificados
  • Puede ser reconfigurado instantáneamente a medida que cambian las necesidades

3. NeuroSplit ejecuta las decisiones del AO:

  • Utiliza la telemetría del dispositivo en tiempo real para optimizar la ejecución
  • Divide el procesamiento entre el dispositivo y la nube cuando es beneficioso
  • Garantiza que cada inferencia se ejecute de manera óptima dadas las condiciones actuales

Es como tener un sistema de IA que se autooptimiza dentro de sus reglas y objetivos definidos, en lugar de requerir una optimización manual para cada escenario.

En tu opinión, ¿cómo reconfigurará el Agente de Orquestador la forma en que se implementa la IA en las industrias?

Resuelve tres desafíos críticos que han estado frenando la adopción y la innovación de la IA.

Primero, permite que las empresas sigan el ritmo de los últimos avances en IA sin esfuerzo. Con el Agente de Orquestador, puedes aprovechar instantáneamente los modelos y técnicas más nuevos sin tener que volver a trabajar en la infraestructura. Esto es una ventaja competitiva importante en un mundo donde la innovación en IA se está moviendo a una velocidad vertiginosa.

En segundo lugar, permite la optimización dinámica de la selección de modelos de IA por solicitud. El Agente de Orquestador puede combinar inteligentemente modelos de todo el ecosistema de opciones para ofrecer los mejores resultados posibles para cada interacción del usuario. Por ejemplo, una IA de servicio al cliente podría utilizar un modelo especializado para preguntas técnicas y otro diferente para consultas de facturación, ofreciendo mejores resultados para cada tipo de interacción.

En tercer lugar, maximiza el rendimiento mientras minimiza los costos. El Agente automáticamente equilibra la ejecución de la IA en el dispositivo del usuario o en la nube según lo que tenga más sentido en ese momento. Cuando la privacidad es importante, procesa los datos localmente. Cuando se necesita más potencia de cómputo, aprovecha la nube. Todo esto sucede detrás de escena, creando una experiencia suave para los usuarios mientras se optimizan los recursos para las empresas.

Pero lo que realmente distingue al Agente de Orquestador es cómo permite a las empresas crear experiencias hiperpersonalizadas de próxima generación para sus usuarios. Piense en una plataforma de aprendizaje en línea; con nuestra tecnología, pueden construir un sistema que se adapte automáticamente al enfoque de enseñanza según el nivel de comprensión de cada estudiante. Cuando un usuario busca “aprendizaje automático”, la plataforma no solo muestra resultados genéricos, sino que también puede evaluar instantáneamente su comprensión actual y personalizar explicaciones utilizando conceptos que ya conoce.

En última instancia, el Agente de Orquestador representa el futuro de la implementación de IA; un cambio de la infraestructura de IA estática y monolítica a la orquestación de IA dinámica y autooptimizable. No se trata solo de hacer que la implementación de IA sea más fácil; se trata de hacer posible clases enteras de aplicaciones de IA que no existen.

¿Qué tipo de comentarios has recibido hasta ahora de las empresas que participan en la beta privada del Agente de Orquestador?

Los comentarios de los participantes en nuestra beta privada han sido excelentes. Las empresas están emocionadas de descubrir que finalmente pueden liberarse del bloqueo de la infraestructura, ya sea a modelos propietarios o a servicios de alojamiento. La capacidad de tomar decisiones de implementación a prueba de futuro ha sido un juego cambiador, eliminando esos meses temidos de rework cuando se cambian los enfoques.

Nuestros resultados de rendimiento de NeuroSplit han sido nada menos que sorprendentes; no podemos esperar para compartir los datos públicamente pronto. Lo que es particularmente emocionante es cómo el concepto mismo de implementación de IA adaptativa ha capturado la imaginación. El hecho de que la IA se esté implementando a sí misma suena futurista y no es algo que esperaran ahora, así que solo desde el avance tecnológico, la gente se emociona con las posibilidades y los nuevos mercados que podría crear en el futuro.

Con los avances rápidos en la IA generativa, ¿qué ves como los próximos obstáculos importantes para la infraestructura de IA, y cómo planea Skymel abordarlos?

Nos dirigimos hacia un futuro que la mayoría no ha comprendido completamente: no habrá un solo modelo de IA dominante, sino miles de millones de ellos. Incluso si creamos el modelo de IA general más poderoso imaginable, todavía necesitaremos versiones personalizadas para cada persona en la Tierra, cada una adaptada a contextos, preferencias y necesidades únicos. Eso marca una revolución en el enfoque actual de “talla única”.

El futuro demanda una infraestructura inteligente que pueda manejar miles de millones de modelos. En Skymel, no solo estamos resolviendo los desafíos de implementación de hoy; nuestra hoja de ruta tecnológica ya está construyendo los cimientos de lo que viene a continuación.

¿Cómo visualizas la evolución de la infraestructura de IA en los próximos cinco años, y qué papel crees que Skymel jugará en esta evolución?

El panorama de la infraestructura de IA está a punto de sufrir un cambio fundamental. Mientras que hoy en día el enfoque está en escalar modelos de lenguaje grande genéricos en la nube, los próximos cinco años verán a la IA volviéndose profundamente personalizada y consciente del contexto. Esto no se trata solo de afinar; se trata de una IA que se adapta a usuarios, dispositivos y situaciones específicos en tiempo real.

Este cambio crea dos desafíos importantes de infraestructura. Primero, el enfoque tradicional de ejecutar todo en centros de datos centralizados se vuelve insostenible tanto técnicamente como económicamente. En segundo lugar, la creciente complejidad de las aplicaciones de IA significa que necesitamos una infraestructura que pueda optimizar dinámicamente a través de múltiples modelos, dispositivos y ubicaciones de cómputo.

En Skymel, estamos construyendo una infraestructura que aborda específicamente estos desafíos. Nuestra tecnología permite que la IA se ejecute donde más sentido tenga; ya sea en el dispositivo donde se genera la datos, en la nube donde hay más potencia de cómputo disponible, o inteligentemente dividida entre ambos. Más importante aún, toma estas decisiones en tiempo real según condiciones y requisitos cambiantes.

Mirando hacia adelante, las aplicaciones de IA exitosas no se definirán por el tamaño de sus modelos o la cantidad de cómputo que pueden acceder. Se definirán por su capacidad para ofrecer experiencias personalizadas y responsivas mientras gestionan eficientemente los recursos. Nuestro objetivo es hacer que este nivel de optimización inteligente esté disponible para cada aplicación de IA, independientemente de la escala o la complejidad.

Gracias por la gran entrevista, los lectores que deseen aprender más deben visitar Skymel.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.