Entrevistas

Jeronimo De Leon, Gerente SĂȘnior de Produto de IA na Backblaze – SĂ©rie de Entrevistas

mm

Jeronimo De Leon é um líder experiente em gestão de produtos com mais de 10 anos de experiência impulsionando a inovação baseada em IA em ambientes de empresa e startup. Atualmente, como Gerente Sênior de Produto de IA na Backblaze, ele lidera o desenvolvimento de recursos de IA/ML, se concentra em como a Backblaze melhora o ciclo de vida de dados de IA para as arquiteturas de MLOps dos clientes e implementa ferramentas e agentes de IA para otimizar as operações internas.

Backblaze é uma empresa de armazenamento em nuvem e backup que fornece backups automáticos de computador ilimitados para indivíduos e empresas, juntamente com soluções de armazenamento de objetos escaláveis para cargas de trabalho de empresa, mídia e aplicativos. Seus serviços se concentram em acessibilidade, segurança de dados, recuperação fácil e compatibilidade perfeita com sistemas existentes.

Você traz mais de uma década de experiência em gestão de produtos baseada em IA – desde trabalhar com LLMs na Intelas e RAG na Welcome.AI até lançar o chatbot da Bloomberg e agora liderar os esforços de IA na Backblaze. Como essas experiências moldaram sua visão sobre o papel do armazenamento em nuvem na escalabilidade de fluxos de trabalho de IA/ML?

Desde que comecei a trabalhar em projetos de IA na IBM Watson, vi o ritmo da inovação acelerar dramaticamente. O que costumava levar anos para passar da pesquisa para a produção agora acontece em meses. No entanto, os desafios fundamentais de infraestrutura permanecem os mesmos: onde está o dado, onde o armazenamos e como o acessamos de forma eficiente?

Antes, as limitações eram computação e modelos, mas agora temos uma abundância de modelos pré-treinados e há muitos provedores de computação. No entanto, ao iniciar um projeto, costumávamos começar com um projeto de coleta e processamento de dados, o que ainda é o mesmo hoje. Consistentemente vejo organizações atingindo o mesmo gargalo de consolidação de dados de fontes dispersas. As organizações que têm sucesso são aquelas que resolvem a acessibilidade de dados precocemente, criando uma base que escala com sua maturidade em IA. Suas decisões de arquitetura de armazenamento determinam quão rapidamente você pode chegar ao treinamento de modelos e inovar.

Onde você vê o armazenamento em nuvem desempenhando os papéis mais críticos ao longo do ciclo de vida de IA – desde a ingestão e processamento de dados até o treinamento, ajuste fino, inferência e monitoramento?

O armazenamento em nuvem é fundamental em todo o ciclo de vida de IA, com etapas-chave na agregação de dados, processamento, treinamento e inferência. No início, a consolidação sistemática, catalogação e segurança de arquivos aceleram novos projetos e facilitam a testagem de modelos emergentes. Dados limpos e bem processados geralmente superam a simples posse de mais dados, o que torna o armazenamento central para a qualidade, bem como para a escala. Uma das minhas frases favoritas da Backblaze é: “Não é acúmulo se for dado.” Você nunca sabe quão valioso será, então as organizações devem coletar o máximo possível. Durante o treinamento, o armazenamento escalável garante o throughput de conjuntos de dados massivos, e na inferência, a captura de saídas de previsão e feedback do usuário permite iteração contínua. No final, o armazenamento é a base que determina quão rapidamente você pode inovar com IA.

Quais são os principais obstáculos que as organizações enfrentam ao escalar o armazenamento para IA, e como esses desafios diferem entre startups menores e grandes empresas?

Os principais obstáculos ao escalar o armazenamento para IA são custo, gerenciamento de dados e acessibilidade. Armazenar grandes volumes de dados é apenas parte do desafio; eles também devem ser organizados, recuperáveis e governados com os controles certos. Dados limpos e bem estruturados são frequentemente mais valiosos do que simplesmente ter mais deles.

Para as startups, o desafio inicial é adquirir dados suficientes para treinar e aperfeiçoar seus modelos. Uma vez que os tenham, o custo e a arquitetura se tornam as próximas barreiras.

Para as grandes empresas, o desafio é a complexidade. Seus dados são abundantes, mas fragmentados em silos, sistemas legados e regimes de conformidade, tornando a consolidação e a acessibilidade difíceis.

As organizações que têm sucesso tratam o armazenamento como um habilitador estratégico que escala em custo, desempenho e acessibilidade ao lado de sua maturidade em IA.

Dentre custo, latência, segurança e conformidade, qual você vê como a barreira mais premente para escalar a IA hoje, e como as organizações devem priorizar o enfrentamento disso?

Dentre custo, latência, segurança e conformidade, a latência é uma das barreiras mais prementes. Ela afeta diretamente o treinamento de modelos e a inferência, e a inferência, em particular, molda a experiência do usuário. As organizações fazem o possível para reduzir a latência nessa etapa, pois atrasos na entrega de previsões podem minar a adoção.

O custo permanece como um desafio constante à medida que os volumes de dados crescem, e a conformidade se torna mais crítica à medida que as organizações escalam, especialmente em setores regulamentados. As startups frequentemente se concentram primeiro no custo e na latência, enquanto as empresas devem equilibrar a latência com demandas de governança e regulamentação. A prioridade deve ser construir um armazenamento que minimize a latência para treinamento e inferência, mantendo-se eficiente em termos de custo e conformidade à medida que a adoção de IA se expande.

As empresas frequentemente enfatizam a necessidade de flexibilidade e acesso fácil a dados para impulsionar a inovação em IA. Do seu ponto de vista, como é a verdadeira flexibilidade no acesso a dados, e por que é essencial?

Em uma palestra recente que dei, eu enfatizei a ideia de arquivamento inteligente. A verdadeira flexibilidade no acesso a dados começa com a centralização de informações em um arquivo estruturado e pesquisável. Isso significa unificar formatos diversos, normalizar e etiquetar para consistência e habilitar a indexação para consultas futuras. Essa abordagem garante que os dados não sejam apenas armazenados, mas tornados úteis.

É essencial porque estabelece a base para análises e modelagem. Quando os dados são estruturados e pesquisáveis, as equipes podem se mover mais rapidamente, experimentar com mais liberdade e reduzir a latência tanto no treinamento quanto na inferência. Sem esse tipo de flexibilidade, o armazenamento rapidamente se torna um gargalo em vez de um habilitador para a inovação em IA.

Pode compartilhar casos de uso do mundo real – como com clientes como Decart AI ou Wynd Labs – que demonstrem como a abordagem certa de armazenamento em nuvem pode habilitar diretamente a inovação em IA?

Esses são dois excelentes exemplos de como a abordagem certa de armazenamento em nuvem pode habilitar diretamente a inovação em IA. A Decart se concentrou no treinamento de modelos, onde mover dados para computação de forma eficiente era crítica. Com o Backblaze B2, eles escalaram para 16 PB em 90 dias, treinaram em vários clusters de GPU com custo de saída zero e alcançaram 10 vezes a eficiência dos concorrentes. Essa confiabilidade e eficiência os liberaram para inovar mais rapidamente.

A Wynd Labs se concentrou no acesso do cliente aos dados. Eles ingerem petabytes diariamente e servem dezenas de petabytes mensalmente. Com o desempenho de alto nível e saída gratuita do Backblaze, eles puderam escalar para demanda de empresa e reinvestir recursos em desenvolvimento de produtos. Essa capacidade de entregar acesso a dados em escala desbloqueou novas oportunidades para sua plataforma.

Em ambos os casos, a estratégia de armazenamento certa transformou a infraestrutura de um constrangimento em um habilitador, permitindo que as empresas se concentrassem em inovar em IA em vez de gerenciar custo e complexidade.

À medida que os modelos e conjuntos de dados de IA crescem em complexidade, qual orientação você daria às organizações que tentam equilibrar o desempenho de armazenamento com a eficiência de custo?

As organizações precisam pensar sobre o uso de dados de longo prazo com seu produto em mente. Coletar, processar, mover e executar inferência em dados serão todos centrais para como seu produto evolui. Se elas não contabilizarem isso agora, os custos e os desafios de armazenamento só se acumularão com o tempo. Como a IA será uma parte central de seu produto e de sua organização, o armazenamento deve ser projetado desde cedo para equilibrar desempenho com eficiência de custo, de modo que possa escalar suavemente à medida que crescem.

Segurança e conformidade são especialmente prementes em setores regulamentados. Como você vê o armazenamento em nuvem evoluindo para atender às necessidades de governança, permitindo que as equipes inovem rapidamente?

A governança é uma parte fundamental do armazenamento. Simplificar o acesso com uma base sólida para como os dados são gerenciados, seguros e auditados é crítico. Vejo o armazenamento em nuvem evoluindo com controles mais fortes, como criptografia por padrão, permissões granulares, registros de auditoria e opções de residência de dados. Além disso, a linhagem de dados é importante. Em IA, saber de onde vieram os dados, como foram processados e como alimentam os modelos é essencial tanto para a conformidade quanto para a confiança.

Ao mesmo tempo, as plataformas de armazenamento estão melhorando a usabilidade para que as equipes possam se mover rapidamente. Quando a governança, a linhagem e a acessibilidade trabalham juntas, as organizações podem atender aos requisitos regulamentares enquanto continuam a inovar em IA com rapidez.

Para as organizações que avaliam ou migrar para o B2, qual conselho ou orientação você fornece em termos de implementação – particularmente em relação à migração de dados, integração com pilhas de MLOps ou computação existentes, ou otimização para throughput e saída?

Como o B2 é compatível com o S3, ele se integra diretamente às pilhas de MLOps e computação existentes sem necessidade de reestruturação. Frequentemente trabalhamos com clientes em um conceito de prova para validar a migração, o desempenho e a integração antes de escalar. A partir daí, o foco está em otimizar o throughput, o movimento de dados e a orquestração de dados para que as equipes possam treinar em clusters, executar inferência e iterar rapidamente sem serem retardadas por gargalos de infraestrutura.

À medida que as cargas de trabalho de IA continuam a escalar – especialmente com tendências em torno de LLMs, conjuntos de dados de escala de exabyte e estratégias híbridas ou multi-nuvem – como a Backblaze está evoluindo suas ofertas de armazenamento para atender a essas necessidades emergentes?

Na Backblaze, estamos focados não apenas em como os dados são usados hoje, mas em como serão orquestrados no futuro. O armazenamento não é mais apenas um arquivo; está se tornando uma ferramenta que habilita acesso rápido, movimento eficiente e orquestração confiável de dados em ambientes. Com LLMs e conjuntos de dados de escala de exabyte, essa base de acesso fácil e alto throughput será crítica não apenas para treinamento e inferência, mas também para a classe emergente de agentes de IA que dependem de dados para tornar os processos mais autônomos. O resultado é uma base de armazenamento que habilita a inovação agora e prepara as organizações para o que vem a seguir.

Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Backblaze.

Antoine é um líder visionårio e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalåvel em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA serå tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele estå dedicado a explorar como essas inovaçÔes moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.