Entrevistas
Neetu Pathak, Co-Fundadora e CEO da Skymel – Série de Entrevistas

Neetu Pathak, Co-Fundadora e CEO da Skymel, lidera a empresa na revolução da inferência de IA com sua tecnologia inovadora NeuroSplit™. Ao lado do CTO Sushant Tripathy, ela impulsiona a missão da Skymel para melhorar o desempenho das aplicações de IA enquanto reduz os custos computacionais.
A NeuroSplit™ é uma tecnologia de inferência adaptativa que distribui dinamicamente as cargas de trabalho de IA entre dispositivos de usuário e servidores de nuvem. Essa abordagem aproveita os recursos de computação ociosos nos dispositivos do usuário, reduzindo os custos de infraestrutura de nuvem em até 60%, acelerando as velocidades de inferência, garantindo a privacidade dos dados e permitindo uma escalabilidade sem interrupções.
Ao otimizar a potência de computação local, a NeuroSplit™ permite que as aplicações de IA funcionem de forma eficiente mesmo em GPUs mais antigas, reduzindo significativamente os custos enquanto melhora a experiência do usuário.
O que inspirou você a co-fundar a Skymel, e quais desafios principais na infraestrutura de IA você estava tentando resolver com a NeuroSplit?
A inspiração para a Skymel veio da convergência de nossas experiências complementares. Durante seu tempo no Google, meu co-fundador, Sushant Tripathy, estava implantando modelos de IA baseados em voz em bilhões de dispositivos Android. Ele descobriu que havia uma enorme quantidade de potência de computação ociosa disponível nos dispositivos de usuário, mas a maioria das empresas não podia utilizá-la de forma eficaz devido aos complexos desafios de engenharia de acessar esses recursos sem comprometer a experiência do usuário.
Enquanto isso, minha experiência trabalhando com empresas e startups na Redis me deu uma visão profunda de como a latência estava se tornando crítica para os negócios. À medida que as aplicações de IA se tornavam mais prevalentes, ficou claro que precisávamos mover o processamento para mais perto de onde os dados estavam sendo criados, em vez de constantemente transportá-los de volta e forth para os data centers.
Foi então que Sushant e eu percebemos que o futuro não era sobre escolher entre processamento local ou em nuvem — era sobre criar uma tecnologia inteligente que pudesse adaptar-se perfeitamente entre processamento local, em nuvem ou híbrido com base em cada solicitação de inferência específica. Essa percepção nos levou a fundar a Skymel e desenvolver a NeuroSplit, movendo-se além das limitações tradicionais de infraestrutura que estavam segurando a inovação de IA.
Pode explicar como a NeuroSplit otimiza dinamicamente os recursos de computação enquanto mantém a privacidade do usuário e o desempenho?
Um dos principais obstáculos na inferência de IA local tem sido seus requisitos computacionais estáticos — tradicionalmente, executar um modelo de IA exige os mesmos recursos computacionais independentemente das condições do dispositivo ou do comportamento do usuário. Essa abordagem de um tamanho só ignora a realidade de que os dispositivos têm diferentes capacidades de hardware, desde vários chips (GPU, NPU, CPU, XPU) até larguras de banda de rede variadas, e os usuários têm diferentes comportamentos em termos de uso de aplicativos e padrões de carregamento.
A NeuroSplit monitora continuamente várias telemetrias de dispositivo — desde capacidades de hardware até utilização de recursos atuais, status da bateria e condições de rede. Também consideramos padrões de comportamento do usuário, como quantos outros aplicativos estão em execução e padrões típicos de uso do dispositivo. Esse monitoramento abrangente permite que a NeuroSplit determine dinamicamente quanto cálculo de inferência pode ser executado com segurança no dispositivo do usuário enquanto otimiza os principais indicadores de desempenho para os desenvolvedores.
Quando a privacidade dos dados é fundamental, a NeuroSplit garante que os dados brutos nunca deixem o dispositivo, processando informações sensíveis localmente enquanto mantém o desempenho ótimo. Nossa capacidade de dividir, cortar ou desacoplar modelos de IA nos permite caber 50-100 modelos de estub em espaço de memória de apenas um modelo quantizado em um dispositivo de usuário. Em termos práticos, isso significa que os usuários podem executar significativamente mais aplicações impulsionadas por IA simultaneamente, processando dados sensíveis localmente, em comparação com as abordagens de computação estática tradicionais.
Quais são os principais benefícios da inferência adaptativa da NeuroSplit para as empresas de IA, particularmente aquelas que trabalham com tecnologia de GPU mais antiga?
A NeuroSplit entrega três benefícios transformadores para as empresas de IA. Primeiro, reduz dramaticamente os custos de infraestrutura por meio de dois mecanismos: as empresas podem utilizar GPUs mais baratas e mais antigas de forma eficaz, e nossa capacidade única de acomodar modelos completos e de estub em GPUs de nuvem permite taxas de utilização de GPU significativamente mais altas. Por exemplo, um aplicativo que normalmente exigiria vários NVIDIA A100s a $2,74 por hora agora pode ser executado em apenas um A100 ou vários V100s por apenas $0,83 por hora.
Em segundo lugar, melhoramos substancialmente o desempenho processando os dados brutos iniciais diretamente nos dispositivos do usuário. Isso significa que os dados que eventualmente viajam para a nuvem são muito menores em tamanho, reduzindo significativamente a latência de rede enquanto mantém a precisão. Essa abordagem híbrida oferece às empresas o melhor de ambos os mundos — a velocidade do processamento local com o poder do processamento em nuvem.
Terceiro, ao lidar com o processamento inicial de dados sensíveis nos dispositivos do usuário, ajudamos as empresas a manter fortes proteções de privacidade do usuário sem sacrificar o desempenho. Isso é cada vez mais crucial à medida que as regulamentações de privacidade se tornam mais rigorosas e os usuários se tornam mais conscientes da privacidade.
Como a solução da Skymel reduz os custos para a inferência de IA sem comprometer a complexidade ou precisão do modelo?
Primeiro, dividindo modelos de IA individuais, distribuímos o cálculo entre os dispositivos do usuário e a nuvem. A primeira parte é executada no dispositivo do usuário, lidando com 5% a 100% do cálculo total, dependendo dos recursos do dispositivo disponíveis. Somente o cálculo restante precisa ser processado em GPUs de nuvem.
Essa divisão significa que as GPUs de nuvem lidam com uma carga de cálculo reduzida — se um modelo originalmente exigisse uma GPU A100 completa, após a divisão, essa mesma carga de trabalho poderia precisar apenas de 30-40% da capacidade da GPU. Isso permite que as empresas usem instâncias de GPU mais acessíveis, como o V100.
Em segundo lugar, a NeuroSplit otimiza a utilização de GPU na nuvem. Ao organizar eficientemente modelos completos e de estub (as partes restantes dos modelos divididos) na mesma GPU de nuvem, alcançamos taxas de utilização significativamente mais altas em comparação com as abordagens tradicionais. Isso significa que mais modelos podem ser executados simultaneamente na mesma GPU de nuvem, reduzindo ainda mais os custos por inferência.
O que distingue a abordagem híbrida (local + nuvem) da Skymel de outras soluções de infraestrutura de IA no mercado?
O cenário de IA está em um ponto de inflexão fascinante. Enquanto a Apple, Samsung e Qualcomm estão demonstrando o poder da IA híbrida por meio de recursos de seus ecossistemas, esses permanecem jardins fechados. Mas a IA não deve ser limitada pelo dispositivo que alguém acontece de usar.
A NeuroSplit é fundamentalmente agnóstica de dispositivo, agnóstica de nuvem e agnóstica de arquitetura de rede neural. Isso significa que os desenvolvedores podem finalmente entregar experiências de IA consistentes, independentemente de os usuários estarem em um iPhone, dispositivo Android ou laptop — ou se estão usando AWS, Azure ou Google Cloud.
Pense sobre o que isso significa para os desenvolvedores. Eles podem construir seu aplicativo de IA uma vez e saber que ele se adaptará inteligentemente em qualquer dispositivo, nuvem e arquitetura de rede neural. Nenhuma necessidade de construir diferentes versões para diferentes plataformas ou comprometer recursos com base nas capacidades do dispositivo.
Estamos trazendo capacidades de IA híbrida de nível empresarial para fora dos jardins fechados e tornando-as universalmente acessíveis. À medida que a IA se torna central para cada aplicativo, esse tipo de flexibilidade e consistência não é apenas uma vantagem — é essencial para a inovação.
Como o Agente de Orquestração complementa a NeuroSplit, e qual é o papel que ele desempenha na transformação das estratégias de implantação de IA?
O Agente de Orquestração (AO) e a NeuroSplit trabalham juntos para criar um sistema de implantação de IA auto-otimizado:
1. Desenvolvedores definem os limites:
- Restrições: modelos permitidos, versões, provedores de nuvem, zonas, regras de conformidade
- Metas: latência de destino, limites de custo, requisitos de desempenho, necessidades de privacidade
2. O AO trabalha dentro dessas restrições para atingir as metas:
- Decide quais modelos/APIs usar para cada solicitação
- Ajusta estratégias de implantação com base no desempenho do mundo real
- Faz compensações para otimizar para as metas especificadas
- Pode ser reconfigurado instantaneamente à medida que as necessidades mudam
3. A NeuroSplit executa as decisões do AO:
- Usa telemetria de dispositivo em tempo real para otimizar a execução
- Divide o processamento entre o dispositivo e a nuvem quando benéfico
- Garante que cada inferência seja executada de forma ótima, considerando as condições atuais
É como ter um sistema de IA que se otimiza automaticamente dentro de suas regras e metas definidas, em vez de exigir otimização manual para cada cenário.
Na sua opinião, como o Agente de Orquestração redefinirá a forma como a IA é implantada em várias indústrias?
Ele resolve três desafios críticos que estavam segurando a adoção e inovação de IA.
Primeiro, permite que as empresas acompanhem os últimos avanços em IA sem esforço. Com o Agente de Orquestração, você pode aproveitar instantaneamente os novos modelos e técnicas mais recentes sem reestruturar sua infraestrutura. Isso é uma grande vantagem competitiva em um mundo onde a inovação em IA está se movendo a velocidades incríveis.
Em segundo lugar, permite a otimização dinâmica da seleção de modelos de IA por solicitação. O Agente de Orquestração pode inteligentemente misturar e combinar modelos de um vasto ecossistema de opções para entregar os melhores resultados possíveis para cada interação do usuário. Por exemplo, um AI de atendimento ao cliente poderia usar um modelo especializado para perguntas técnicas e um diferente para perguntas de cobrança, entregando melhores resultados para cada tipo de interação.
Terceiro, maximiza o desempenho enquanto minimiza os custos. O Agente automaticamente equilibra a execução de IA no dispositivo do usuário ou na nuvem com base no que faz mais sentido naquele momento. Quando a privacidade é importante, processa os dados localmente. Quando é necessário mais poder de computação, aproveita a nuvem. Tudo isso acontece nos bastidores, criando uma experiência suave para os usuários enquanto otimiza os recursos para os negócios.
Mas o que realmente distingue o Agente de Orquestração é como ele permite que os negócios criem experiências hiperpessoais de próxima geração para seus usuários. Pegue uma plataforma de aprendizado eletrônico — com nossa tecnologia, eles podem construir um sistema que se adapta automaticamente ao nível de compreensão de cada aluno. Quando um usuário procura “aprendizado de máquina”, a plataforma não mostra apenas resultados genéricos — pode avaliar instantaneamente seu nível de compreensão atual e personalizar explicações usando conceitos que eles já conhecem.
Em última análise, o Agente de Orquestração representa o futuro da implantação de IA — uma mudança de infraestrutura de IA estática e monolítica para orquestração de IA adaptativa e auto-otimizada. Não é apenas sobre tornar a implantação de IA mais fácil — é sobre tornar classes inteiramente novas de aplicações de IA possíveis.
Que tipo de feedback você recebeu até agora de empresas participantes da beta privada do Agente de Orquestração?
O feedback dos participantes da nossa beta privada foi ótimo! As empresas estão entusiasmadas em descobrir que finalmente podem se libertar do bloqueio de infraestrutura, seja para modelos proprietários ou serviços de hospedagem. A capacidade de tornar qualquer decisão de implantação à prova de futuro tem sido um divisor de águas, eliminando aqueles temidos meses de reestruturação quando mudando de abordagem.
Nossos resultados de desempenho da NeuroSplit foram nada menos que notáveis — não podemos esperar para compartilhar os dados publicamente em breve. O que é particularmente emocionante é como o próprio conceito de implantação de IA adaptativa capturou a imaginação. O fato de a IA estar implantando a si mesma soa futurista e não é algo que eles esperavam agora, então apenas a partir do avanço tecnológico as pessoas ficam animadas com as possibilidades e novos mercados que isso pode criar no futuro.
Com os avanços rápidos em IA gerativa, o que você vê como os principais obstáculos para a infraestrutura de IA, e como a Skymel planeja abordá-los?
Estamos nos dirigindo para um futuro que a maioria ainda não capturou completamente: não haverá um único modelo de IA dominante, mas bilhões deles. Mesmo se criarmos o modelo de IA mais poderoso imaginável, ainda precisaremos de versões personalizadas para cada pessoa na Terra, cada uma adaptada a contextos, preferências e necessidades únicas. Isso marca uma mudança revolucionária da abordagem de um tamanho só de hoje.
O futuro exige infraestrutura inteligente que possa lidar com bilhões de modelos. Na Skymel, não estamos apenas resolvendo os desafios de implantação de hoje — nossa estrada de tecnologia já está construindo as fundações do que está por vir.
Como você imagina a infraestrutura de IA evoluindo nos próximos cinco anos, e qual papel você vê a Skymel desempenhando nessa evolução?
O cenário de infraestrutura de IA está prestes a passar por uma mudança fundamental. Enquanto o foco de hoje é escalar modelos de linguagem grandes genéricos na nuvem, os próximos cinco anos verão a IA se tornando profundamente personalizada e sensível ao contexto. Isso não é apenas sobre fine-tuning — é sobre IA que se adapta a usuários, dispositivos e situações específicas em tempo real.
Essa mudança cria dois desafios de infraestrutura principais. Primeiro, a abordagem tradicional de executar tudo em data centers centralizados se torna insustentável tanto tecnicamente quanto economicamente. Em segundo lugar, a complexidade crescente das aplicações de IA significa que precisamos de infraestrutura que possa otimizar dinamicamente várias modelos, dispositivos e locais de computação.
Na Skymel, estamos construindo infraestrutura que aborda especificamente esses desafios. Nossa tecnologia permite que a IA seja executada onde mais faz sentido — seja no dispositivo onde os dados estão sendo gerados, na nuvem onde mais computação está disponível, ou inteligentemente dividida entre os dois. Mais importante, adapta essas decisões em tempo real com base em condições e requisitos em mudança.
Olhando para o futuro, aplicações de IA de sucesso não serão definidas pelo tamanho de seus modelos ou pela quantidade de computação que podem acessar. Elas serão definidas pela capacidade de entregar experiências personalizadas e responsivas enquanto gerenciam recursos de forma eficiente. Nosso objetivo é tornar esse nível de otimização inteligente acessível a cada aplicativo de IA, independentemente da escala ou complexidade.
Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Skymel.












