Entrevistas
Saket Saurabh, CEO e Co-Fundador da Nexla – Série de Entrevistas

Saket Saurabh, CEO e Co-Fundador da Nexla, é um empreendedor com uma paixão profunda por dados e infraestrutura. Ele está liderando o desenvolvimento de uma plataforma de engenharia de dados de próxima geração, automatizada, projetada para trazer escala e velocidade para aqueles que trabalham com dados.
Anteriormente, Saurabh fundou um startup de mobile bem-sucedido que alcançou marcos significativos, incluindo aquisição, IPO e crescimento em um negócio de milhões de dólares. Ele também contribuiu para vários produtos e tecnologias inovadoras durante sua gestão na Nvidia.
Nexla permite a automação da engenharia de dados para que os dados estejam prontos para uso. Eles alcançam isso por meio de uma abordagem única de Nexsets – produtos de dados que facilitam a integração, transformação, entrega e monitoramento de dados para qualquer pessoa.
O que o inspirou a co-fundar a Nexla, e como suas experiências em engenharia de dados moldaram sua visão para a empresa?
Antes de fundar a Nexla, comecei minha jornada em engenharia de dados na Nvidia, construindo tecnologias de ponta e escaláveis. Depois disso, levei meu startup anterior por uma jornada de aquisição e IPO no espaço de publicidade móvel, onde grandes quantidades de dados e aprendizado de máquina eram parte fundamental de nossa oferta, processando cerca de 300 bilhões de registros de dados por dia.
Olhando para o cenário em 2015, após a minha empresa anterior ter ido a público, eu estava procurando pelo próximo grande desafio que me excitasse. Vindo dessas duas origens, ficou claro para mim que os desafios de dados e computação estavam convergindo à medida que a indústria se movia em direção a aplicações mais avançadas impulsionadas por dados e IA.
Embora não soubéssemos na época que a IA Gerativa (GenAI) progrediria tão rapidamente, era óbvio que o aprendizado de máquina e a IA seriam a base para aproveitar os dados. Então, comecei a pensar sobre que tipo de infraestrutura é necessária para as pessoas serem bem-sucedidas ao trabalhar com dados e como podemos tornar isso possível para qualquer pessoa, não apenas engenheiros, aproveitar os dados em seu dia a dia profissional.
Isso levou à visão para a Nexla – simplificar e automatizar a engenharia por trás dos dados, pois a engenharia de dados era uma solução muito personalizada dentro da maioria das empresas, especialmente ao lidar com problemas de dados complexos ou em larga escala. O objetivo era tornar os dados acessíveis e abordáveis para uma gama mais ampla de usuários, não apenas engenheiros de dados. Minhas experiências em construir sistemas e aplicações de dados escaláveis alimentaram essa visão de democratizar o acesso aos dados por meio da automação e simplificação.
Como os Nexsets exemplificam a missão da Nexla de tornar os dados prontos para uso para todos, e por que essa inovação é crucial para as empresas modernas?
Os Nexsets exemplificam a missão da Nexla de tornar os dados prontos para uso para todos, abordando o desafio central dos dados. Os 3Vs dos dados – volume, velocidade e variedade – têm sido um problema persistente. A indústria fez algum progresso no combate aos desafios com volume e velocidade. No entanto, a variedade de dados permaneceu um grande obstáculo, à medida que a proliferação de novos sistemas e aplicações levou a uma diversidade cada vez maior em estruturas e formatos de dados.
A abordagem da Nexla é modelar e conectar automaticamente os dados de fontes diversas em uma entidade consistente e embalada, um produto de dados que chamamos de Nexset. Isso permite que os usuários acessem e trabalhem com os dados sem precisar entender a complexidade subjacente das várias fontes e estruturas de dados. Um Nexset atua como um gateway, fornecendo uma interface simples e direta para os dados.
Isso é crucial para as empresas modernas porque permite que mais pessoas, não apenas engenheiros de dados, aproveitem os dados em seu dia a dia de trabalho. Ao abstrair a variedade e a complexidade dos dados, os Nexsets tornam possível que usuários de negócios, analistas e outros interajam diretamente com os dados de que precisam, sem exigir expertise técnica extensa.
Também trabalhamos para tornar a integração fácil de usar para consumidores de dados menos técnicos – desde a interface do usuário e como as pessoas colaboram e governam os dados até como constroem transformações e fluxos de trabalho. Abstrair a complexidade da variedade de dados é fundamental para democratizar o acesso aos dados e empoderar uma gama mais ampla de usuários para extrair valor de seus ativos de informação. Essa é uma capacidade crítica para as empresas modernas que buscam se tornar mais orientadas a dados e aproveitar insights impulsionados por dados em toda a organização.
O que torna os dados “prontos para a GenAI” e como a Nexla aborda esses requisitos de forma eficaz?
A resposta depende em parte de como você está usando a GenAI. A maioria das empresas está implementando a GenAI de Recuperação Aumentada por Geração (RAG). Isso requer, primeiro, preparar e codificar os dados para carregá-los em um banco de dados de vetores e, em seguida, recuperar os dados por meio de uma busca para adicioná-los a qualquer prompt como contexto de entrada para um Modelo de Linguagem Grande (LLM) que não foi treinado usando esses dados. Portanto, os dados precisam ser preparados de uma maneira que funcione bem tanto para buscas de vetores quanto para LLMs.
Independentemente de você estar usando RAG, Recuperação Aumentada por Treinamento (RAFT) ou fazendo treinamento de modelo, há alguns requisitos-chave:
- Formato de dados: os LLMs de GenAI geralmente funcionam melhor com dados em um formato específico. Os dados precisam ser estruturados de uma maneira que os modelos possam facilmente ingerir e processar. Eles também devem ser “divididos” de uma maneira que ajude o LLM a usar melhor os dados.
- Conectividade: os LLMs de GenAI precisam ser capazes de acessar dinamicamente as fontes de dados relevantes, em vez de confiar em conjuntos de dados estáticos. Isso requer conectividade contínua com os vários sistemas e repositórios de dados da empresa.
- Segurança e governança: ao usar dados empresariais sensíveis, é fundamental ter controles de segurança e governança robustos. O acesso e uso dos dados precisam ser seguros e conformes com as políticas organizacionais existentes. Você também precisa governar os dados usados pelos LLMs para ajudar a prevenir violações de dados.
- Escalabilidade: os LLMs de GenAI podem ser intensivos em dados e computação, então a infraestrutura de dados subjacente precisa ser capaz de escalar para atender às demandas desses modelos.
A Nexla aborda esses requisitos para tornar os dados prontos para a GenAI de várias maneiras importantes:
- Acesso a dados dinâmico: a plataforma de integração de dados da Nexla fornece uma maneira única de se conectar a centenas de fontes e usa vários estilos de integração e velocidade de dados, juntamente com orquestração, para fornecer aos LLMs de GenAI os dados mais recentes de que precisam, quando precisam, em vez de confiar em conjuntos de dados estáticos.
- Preparação de dados: a Nexla tem a capacidade de extrair, transformar e preparar os dados em formatos otimizados para cada caso de uso de GenAI, incluindo divisão de dados incorporada e suporte a vários modelos de codificação.
- Auto-geração: integração e GenAI são ambos difíceis. A Nexla gera automaticamente muitas das etapas necessárias com base nas escolhas feitas pelo consumidor de dados – usando IA e outras técnicas – para que os usuários possam fazer o trabalho por conta própria.
- Governança e segurança: a Nexla incorpora controles de segurança e governança robustos em todos os aspectos, incluindo colaboração, para garantir que os dados empresariais sensíveis sejam acessados e usados de maneira segura e conforme as normas.
- Escalabilidade: a plataforma da Nexla é projetada para escalar e atender às demandas das cargas de trabalho de GenAI, fornecendo o poder de computação e a escala elástica necessários.
Integração convergente, auto-geração e governança de dados precisam ser construídas juntas para tornar a democratização de dados possível.
Como os tipos e fontes de dados diversificados contribuem para o sucesso dos modelos de GenAI, e qual é o papel da Nexla na simplificação do processo de integração?
Os modelos de GenAI precisam ter acesso a todos os tipos de informações para fornecer os melhores insights e gerar saídas relevantes. Se você não fornecer essas informações, não deve esperar bons resultados. É o mesmo com as pessoas.
Os modelos de GenAI precisam ser treinados em uma ampla gama de dados, desde bancos de dados estruturados até documentos não estruturados, para construir uma compreensão abrangente do mundo. Diferentes fontes de dados, como artigos de notícias, relatórios financeiros e interações de clientes, fornecem informações contextuais valiosas que esses modelos podem aproveitar. A exposição a dados diversificados também permite que os modelos de GenAI se tornem mais flexíveis e adaptáveis, permitindo que eles lidem com uma gama mais ampla de consultas e tarefas.
A Nexla abstrai a variedade de todos esses dados com Nexsets e torna fácil acessar quase qualquer fonte, extrair, transformar, orquestrar e carregar os dados para que os consumidores de dados possam se concentrar apenas nos dados e em torná-los prontos para a GenAI.
Quais tendências estão moldando o ecossistema de dados em 2025 e além, particularmente com o surgimento da GenAI?
As empresas têm se concentrado principalmente em usar a GenAI para construir assistentes ou copilotos para ajudar as pessoas a encontrar respostas e tomar melhores decisões. A IA Agente, agentes que automatizam tarefas sem a intervenção humana, é definitivamente uma tendência em crescimento à medida que nos movemos em direção a 2025. Agentes, assim como copilotos, precisam de integração para garantir que os dados fluam suavemente – não apenas em uma direção, mas também permitindo que a IA atue sobre esses dados.
Outra grande tendência para 2025 é o aumento da complexidade dos sistemas de IA. Esses sistemas estão se tornando mais sofisticados, combinando componentes de diferentes fontes para criar soluções coesas. É semelhante à forma como os humanos dependem de várias ferramentas ao longo do dia para realizar tarefas. Os sistemas de IA habilitados seguirão essa abordagem, orquestrando múltiplas ferramentas e componentes. Essa orquestração apresenta um desafio significativo, mas também uma área-chave de desenvolvimento.
Do ponto de vista das tendências, estamos vendo um impulso em direção à IA gerativa avançando além do simples padrão de correspondência para o raciocínio real. Há muito progresso tecnológico acontecendo nesse espaço. Embora esses avanços possam não se traduzir totalmente em valor comercial em 2025, eles representam a direção para a qual estamos nos movendo.
Outra tendência-chave é a aplicação crescente de tecnologias aceleradas para inferência de IA, particularmente com empresas como a Nvidia. Tradicionalmente, as GPUs têm sido amplamente usadas para treinar modelos de IA, mas a inferência em tempo de execução – o ponto em que o modelo é ativamente usado – está se tornando igualmente importante. Podemos esperar avanços na otimização da inferência, tornando-a mais eficiente e impactante.
Além disso, há uma realização de que os dados de treinamento disponíveis foram amplamente maximizados. Isso significa que melhorias adicionais nos modelos não virão do acréscimo de mais dados durante o treinamento, mas de como os modelos operam durante a inferência. Em tempo de execução, aproveitar novas informações para melhorar os resultados do modelo está se tornando um foco crítico.
Embora algumas tecnologias emocionais comecem a atingir seus limites, novas abordagens continuarão a surgir, destacando a importância da agilidade para as organizações que adotam a IA. O que funciona bem hoje pode se tornar obsoleto dentro de seis meses a um ano, então é fundamental estar preparado para adicionar ou substituir fontes de dados e qualquer componente de suas pipelines de IA. Manter-se adaptável e aberto a mudanças é crucial para acompanhar o cenário em rápida evolução.
Quais estratégias as organizações podem adotar para quebrar os silos de dados e melhorar o fluxo de dados em seus sistemas?
Primeiro, as pessoas precisam aceitar que os silos de dados sempre existirão. Isso sempre foi o caso. Muitas organizações tentam centralizar todos os seus dados em um lugar, acreditando que criarão um setup ideal e desbloquearão um valor significativo, mas isso se prova quase impossível. Isso geralmente se transforma em uma empreitada longa e cara, que dura vários anos, especialmente para grandes empresas.
Então, a realidade é que os silos de dados estão aqui para ficar. Uma vez que aceitamos isso, a pergunta se torna: Como podemos trabalhar com silos de dados de forma mais eficiente?
Uma analogia útil é pensar em grandes empresas. Nenhuma grande corporação opera a partir de um único escritório onde todos trabalham juntos globalmente. Em vez disso, elas se dividem em sede e vários escritórios. O objetivo não é resistir a essa divisão natural, mas garantir que esses escritórios possam colaborar eficazmente. É por isso que investimos em ferramentas de produtividade, como Zoom ou Slack, para conectar as pessoas e permitir fluxos de trabalho sem interrupções entre locais.
De maneira semelhante, os silos de dados são sistemas fragmentados que sempre existirão entre equipes, divisões ou outras fronteiras. A chave não é eliminá-los, mas tornar possível que eles trabalhem juntos suavemente. Sabendo disso, podemos nos concentrar em tecnologias que facilitam essas conexões.
Por exemplo, tecnologias como os Nexsets fornecem uma interface comum ou uma camada de abstração que funciona em várias fontes de dados. Ao atuar como um gateway para os silos de dados, eles simplificam o processo de interoperar com dados espalhados por vários silos. Isso cria eficiências e minimiza os impactos negativos dos silos.
Em essência, a estratégia deve ser sobre melhorar a colaboração entre silos, em vez de tentar combatê-los. Muitas empresas cometem o erro de tentar consolidar tudo em um grande lago de dados. Mas, para ser honesto, essa é uma batalha quase impossível de vencer.
Como as plataformas de dados modernas lidam com desafios como velocidade e escalabilidade, e o que distingue a Nexla ao abordar essas questões?
Do jeito que vejo, muitas ferramentas dentro da pilha de dados moderna foram inicialmente projetadas com foco em facilidade de uso e velocidade de desenvolvimento, o que veio do fato de tornar as ferramentas mais acessíveis – permitindo que analistas de marketing movam seus dados de uma plataforma de marketing diretamente para uma ferramenta de visualização, por exemplo. A evolução dessas ferramentas frequentemente envolveu o desenvolvimento de soluções pontuais, ou ferramentas projetadas para resolver problemas específicos e bem definidos.
Quando falamos sobre escalabilidade, as pessoas geralmente pensam em escalabilidade em termos de lidar com volumes maiores de dados. Mas o desafio real da escalabilidade vem de dois fatores principais: o número crescente de pessoas que precisam trabalhar com dados e a variedade crescente de sistemas e tipos de dados que as organizações precisam gerenciar.
Ferramentas modernas, sendo altamente especializadas, tendem a resolver apenas um subconjunto desses desafios. Como resultado, as organizações acabam usando várias ferramentas, cada uma abordando um problema único, o que eventualmente cria seus próprios desafios, como sobrecarga de ferramentas e ineficiência.
A Nexla aborda esse problema equilibrando cuidadosamente a facilidade de uso e a flexibilidade. Por um lado, oferecemos simplicidade por meio de recursos como modelos e interfaces de usuário amigáveis. Por outro lado, oferecemos capacidades flexíveis e amigáveis para desenvolvedores que permitem que as equipes continuem aprimorando a plataforma. Os desenvolvedores podem adicionar novas capacidades ao sistema, mas essas melhorias permanecem acessíveis como botões e cliques simples para usuários não técnicos. Essa abordagem evita a armadilha de ferramentas excessivamente especializadas, ao mesmo tempo em que fornece uma ampla gama de funcionalidades de nível empresarial.
O que realmente distingue a Nexla é sua capacidade de combinar facilidade de uso com escalabilidade e amplitude necessárias pelas organizações. Nossa plataforma conecta esses dois mundos de forma transparente, permitindo que as equipes trabalhem de forma eficiente sem comprometer o poder ou a flexibilidade.
Uma das principais forças da Nexla está em sua arquitetura abstrata. Por exemplo, enquanto os usuários podem projetar visualmente um pipeline de dados, a forma como esse pipeline é executado é altamente adaptável. Dependendo dos requisitos do usuário – como a fonte, o destino ou se os dados precisam ser em tempo real – a plataforma mapeia automaticamente o pipeline para uma das seis diferentes máquinas. Isso garante o desempenho ótimo sem exigir que os usuários gerenciem essas complexidades manualmente.
A plataforma também é acoplada solta, o que significa que os sistemas de origem e destino são desacoplados. Isso permite que os usuários adicionem facilmente mais destinos a fontes existentes, adicionem mais fontes a destinos existentes e permitam integrações bidirecionais entre sistemas.
É importante notar que a Nexla abstrai o design de pipelines para que os usuários possam lidar com dados em lote, dados de streaming e dados em tempo real sem alterar seus fluxos de trabalho ou designs. A plataforma se adapta automaticamente a essas necessidades, tornando mais fácil para os usuários trabalhar com dados em qualquer formato ou velocidade. Isso é mais sobre design pensado do que especificidades de linguagem de programação, garantindo uma experiência sem interrupções.
Tudo isso ilustra que construímos a Nexla com o consumidor final de dados em mente. Muitas ferramentas tradicionais foram projetadas para aqueles que produzem dados ou gerenciam sistemas, mas nos concentramos nas necessidades dos consumidores de dados que desejam interfaces consistentes e diretas para acessar os dados, independentemente de sua origem. Priorizar a experiência do consumidor nos permitiu projetar uma plataforma que simplifica o acesso aos dados, mantendo a flexibilidade necessária para suportar casos de uso diversificados.
Posso compartilhar exemplos de como os recursos de código baixo e sem código transformaram a engenharia de dados para seus clientes?
Os recursos de código baixo e sem código transformaram o processo de engenharia de dados em uma experiência verdadeiramente colaborativa para os usuários. Por exemplo, no passado, a equipe de operações de conta da DoorDash, que gerencia dados para os comerciantes, precisava fornecer requisitos para a equipe de engenharia. Os engenheiros então construíam soluções, levando a um processo iterativo de ida e volta que consumia muito tempo.
Agora, com as ferramentas de código baixo e sem código, essa dinâmica mudou. A equipe de operações diárias pode usar uma interface de código baixo para lidar com suas tarefas diretamente. Enquanto isso, a equipe de engenharia pode adicionar rapidamente novos recursos por meio da mesma plataforma de código baixo, permitindo atualizações imediatas. A equipe de operações pode então usar esses recursos de forma transparente, sem atrasos.
Essa mudança transformou o processo em um esforço colaborativo, em vez de um gargalo criativo, resultando em economia de tempo significativa. Os clientes relataram que tarefas que anteriormente levavam dois a três meses agora podem ser concluídas em menos de duas semanas – uma melhoria de 5x a 10x na velocidade.
Como o papel da engenharia de dados está evoluindo, particularmente com a adoção crescente da IA?
A engenharia de dados está evoluindo rapidamente, impulsionada pela automação e avanços como a GenAI. Muitos aspectos do campo, como geração de código e criação de conectores, estão se tornando mais rápidos e eficientes. Por exemplo, com a GenAI, o ritmo ao qual os conectores podem ser gerados, testados e implantados melhorou drasticamente. No entanto, esse progresso também introduz novos desafios, incluindo complexidade aumentada, preocupações de segurança e a necessidade de governança robusta.
Uma preocupação premente é o uso indevido de dados empresariais. As empresas se preocupam com seus dados proprietários sendo usados inadvertidamente para treinar modelos de IA e perderem sua vantagem competitiva ou sofrerem uma violação de dados à medida que os dados são vazados para outros. O aumento da complexidade dos sistemas e o volume maciço de dados exigem que as equipes de engenharia de dados adotem uma perspectiva mais ampla, focando em questões sistemáticas mais amplas, como segurança, governança e garantindo a integridade dos dados. Esses desafios não podem ser resolvidos apenas pela IA.
Embora a IA gerativa possa automatizar tarefas de nível inferior, o papel da engenharia de dados está se deslocando para a orquestração do ecossistema mais amplo. Os engenheiros de dados agora atuam mais como regentes, gerenciando numerosos componentes e processos interconectados, como configurar salvaguardas para prevenir erros ou acesso não autorizado, garantir conformidade com padrões de governança e monitorar como as saídas geradas por IA são usadas em decisões de negócios.
Erros e erros nesses sistemas podem ser caros. Por exemplo, os sistemas de IA podem recuperar informações de políticas desatualizadas, levando a respostas incorretas, como prometer um reembolso a um cliente quando não é permitido. Esses tipos de problemas exigem supervisão rigorosa e processos bem definidos para capturar e abordar esses erros antes que afetem os negócios.
Outra responsabilidade crucial para as equipes de engenharia de dados é adaptar-se à mudança na demografia dos usuários. As ferramentas de IA não são mais limitadas a analistas ou usuários técnicos que podem questionar a validade dos relatórios e dos dados. Essas ferramentas agora são usadas por indivíduos nas extremidades da organização, como agentes de suporte ao cliente, que podem não ter a expertise para desafiar saídas incorretas. Essa ampla democratização da tecnologia aumenta a responsabilidade das equipes de engenharia de dados para garantir a precisão e a confiabilidade dos dados.
Quais novos recursos ou avanços podem ser esperados da Nexla à medida que o campo da engenharia de dados continua a crescer?
Estamos nos concentrando em vários avanços para abordar desafios emergentes e oportunidades à medida que a engenharia de dados continua a evoluir. Um deles é soluções impulsionadas por IA para abordar a variedade de dados. Um dos principais desafios na engenharia de dados é gerenciar a variedade de dados de fontes diversas, então estamos aproveitando a IA para simplificar esse processo. Por exemplo, ao receber dados de centenas de diferentes comerciantes, o sistema pode mapeá-los automaticamente em uma estrutura padrão. Hoje, esse processo geralmente requer entrada humana significativa, mas as capacidades impulsionadas por IA da Nexla visam minimizar o esforço manual e melhorar a eficiência.
Também estamos avançando em nossa tecnologia de conectores para suportar a próxima geração de fluxos de trabalho de dados, incluindo a capacidade de gerar facilmente novos agentes. Esses agentes permitem conexões sem interrupções com novos sistemas e permitem que os usuários realizem ações específicas dentro desses sistemas. Isso é particularmente direcionado às necessidades crescentes dos usuários de GenAI e torna mais fácil integrar e interagir com uma variedade de plataformas.
Terceiro, continuamos a inovar em monitoramento e garantia de qualidade aprimorados. À medida que mais usuários consomem dados em vários sistemas, a importância do monitoramento e da garantia de qualidade dos dados cresceu significativamente. Nosso objetivo é fornecer ferramentas robustas para monitoramento do sistema e garantia de qualidade para que os dados permaneçam confiáveis e ações, mesmo à medida que o uso se expande.
Finalmente, a Nexla também está dando passos para abrir algumas de nossas capacidades principais. A ideia é que, compartilhando nossa tecnologia com a comunidade mais ampla, podemos capacitar mais pessoas a aproveitar as ferramentas e soluções de engenharia de dados avançadas, o que reflete nosso compromisso de fomentar a inovação e a colaboração dentro do campo.
Obrigado pelas grandes respostas, leitores que desejam aprender mais devem visitar Nexla.












