Connect with us

Corey Sanders, Vice-Presidente Sênior de Produto na CoreWeave – Série de Entrevistas

Entrevistas

Corey Sanders, Vice-Presidente Sênior de Produto na CoreWeave – Série de Entrevistas

mm

Corey Sanders, Vice-Presidente Sênior de Produto na CoreWeave, lidera a estratégia e execução de produto para uma das plataformas de nuvem focadas em IA de crescimento mais rápido. Ele é responsável por escalar a inovação, moldar soluções personalizadas com os clientes e fortalecer a posição da CoreWeave no mercado de infraestrutura de IA. Antes de ingressar na CoreWeave, Sanders passou duas décadas na Microsoft em funções de liderança sênior que abrangiam engenharia de nuvem, plataformas específicas de setor, estratégia de soluções comerciais e parcerias empresariais em grande escala, com profunda experiência em conectar a execução técnica e a estratégia de go-to-market.

CoreWeave é um provedor de nuvem nativa em IA construído especificamente para computação de alto desempenho e cargas de trabalho de inteligência artificial em grande escala. A empresa opera uma pegada de data centers em expansão rápida nos EUA e na Europa, oferecendo infraestrutura e software acelerados por GPU projetados para treinamento de IA, inferência e casos de uso de computação avançada. Ao se concentrar em arquitetura personalizada em vez de nuvem de propósito geral, a CoreWeave se tornou um parceiro de infraestrutura crítico para laboratórios de IA e empresas que buscam desempenho, escalabilidade e eficiência em escala.

Você passou mais de 20 anos na Microsoft trabalhando em engenharia do Windows, estratégia de vendas de nuvem e Microsoft Cloud para Setor. O que essa progressão lhe ensinou sobre o que realmente impulsiona a adoção empresarial, e como você está aplicando essas lições hoje na CoreWeave?

A adoção empresarial começa com a resolução de um problema específico do cliente. A inovação por si só não é tão crucial para as empresas. É sobre se colocar no lugar delas para entender o que realmente as aflige — se é o custo de suporte, complexidades operacionais, conexão com os clientes ou gestão de equipes globais e linhas de produtos novas — e, em seguida, oferecer serviços que ajudem. Eles muitas vezes estão dispostos a ser inovadores em sua abordagem, mas a consideração mais crucial é ajudá-los a resolver seu problema. O erro mais frequente que eu vi no design de produtos é se deixar levar demais pela “coolness” de um produto. Embora isso tenha peso no espaço de consumo, os clientes empresariais, no final, se importam muito mais com a utilidade do que com a “coolness”.

A CoreWeave é frequentemente descrita como oferecendo infraestrutura de IA personalizada. Em termos práticos, o que significa personalizada do ponto de vista do produto, e onde as plataformas de nuvem de propósito geral lutam com cargas de trabalho de IA?

O maior benefício de ser personalizada é a capacidade de se concentrar e entregar serviços sem precisar resolver todos os casos de uso gerais. Vou dar dois exemplos: um em software e um em hardware.

No lado do software, nossa oferta de Armazenamento de Objetos com cache LOTA é focada especificamente no cache para cargas de trabalho de IA. Ela é implantada diretamente nos nodes GPU, fornece um ponto de extremidade S3 para o aplicativo e responde a solicitações de GPU ao espalhar seu cache por vários nodes. Isso aumenta a taxa de transferência para a GPU em até 7 GB/s, muito além do que as nuvens de propósito geral oferecem. Podemos alcançar isso porque fazemos suposições de design em torno de cargas de trabalho específicas de IA, divisões de leitura/escrita e layouts de cluster. Se um cliente usasse isso para hospedar um banco de dados ou um site de comércio eletrônico, não teria o mesmo impacto. Essa é a definição de software personalizado.

O exemplo de hardware é semelhante. Dada nossa ampla implantação de SKUs NVIDIA de última geração — muitos dos quais exigem resfriamento líquido — a CoreWeave construiu expertise e projetos de data centers específicos para atender a essas necessidades. Ao contrário das nuvens maiores que constroem para fungibilidade e, em seguida, devem adicionar resfriamento líquido retroativamente, a CoreWeave constrói data centers focados em IA desde o início. Isso resulta em menores custos e maior disponibilidade para os tipos de SKU mais recentes.

Quando os clientes começam a pensar em escalar a IA, muitos acreditam que precisam apenas de acesso a GPUs. O que eles normalmente percebem que estão faltando uma vez que começam a treinar ou servir modelos em escala?

Dada a complexidade de executar cargas de trabalho em clusters de GPU maciços, os serviços circundantes se tornam os verdadeiros impulsionadores do sucesso. Isso inclui os óbvios, como armazenamento e rede, mas também serviços operacionais críticos como observabilidade, orquestração e segurança. É aqui que a CoreWeave realmente brilha com nossa oferta Mission Control. Ela fornece aos clientes uma consciência profunda da saúde do node e do tempo de execução em toda a sua frota, integrando esse conhecimento diretamente no motor de orquestração. Isso permite que o cliente trate sua infraestrutura não como 1.000 GPUs individuais, mas como uma entidade de trabalho coesa única.

Quais são as principais prioridades de produto em que você está se concentrando agora para melhorar os resultados dos clientes, seja em termos de desempenho, confiabilidade, previsibilidade de custos ou experiência do desenvolvedor?

Na plataforma central, estamos constantemente focados em desempenho, confiabilidade e observabilidade. Devemos garantir que os clientes possam executar trabalhos de maneira repetível e previsível, aproveitando ao máximo cada TFLOP em cada GPU. Além disso, estamos trabalhando para simplificar a integração para clientes que podem não estar familiarizados com cada detalhe de uma ferramenta como SLURM (que todos usam, mas quase todos odeiam). Finalmente, estamos desenvolvendo serviços adicionais e modelos de faturamento para tornar mais fácil inovar e começar pequeno. Atualmente, experimentar é surpreendentemente difícil devido a altas barreiras de entrada, como restrições de capacidade, compromissos de três anos e a necessidade de especialistas especializados apenas para começar. Queremos trazer de volta a facilidade de inovação para a plataforma de IA.

À medida que mais cargas de trabalho de IA mudam de treinamento intensivo para inferência intensiva, como essa transição influencia as decisões de design de infraestrutura e estratégia de produto?

Isso cria oportunidades significativas para aplicar a diferenciação existente da CoreWeave às necessidades de inferência. Por exemplo, o cache LOTA que mencionei se concentra em alimentar as GPUs durante o treinamento; no entanto, podemos pegar essa mesma tecnologia, integrá-la a coisas como o KVCache e transformá-la em um diferenciador poderoso de inferência. Da mesma forma, ferramentas como Mission Control se tornam ainda mais vitais para a inferência, pois observar a saúde da GPU é crucial para executar aplicações altamente disponíveis.

Nos próximos um a dois anos, o que definirá a liderança no mercado de nuvem de IA, e quais capacidades serão mais importantes para os clientes?

Acredito que a liderança será definida por duas coisas. A primeira é a entrega dos requisitos de escala em constante crescimento para o treinamento. Isso exigirá avanços em observabilidade, monitoramento de saúde e recuperação automática. Quando você passa de centenas para dezenas de milhares de GPUs distribuídas globalmente, a resposta manual a falhas é um não-início.

A segunda é a entrega dos serviços certos para inferência e cargas de trabalho agênticas. Isso requer capacidades de implantação global e modelos de negócios que incentivem a experimentação. Esse padrão de uso foi o que ajudou a nuvem a crescer originalmente e foi um pouco perdido na era da IA. Precisamos trazê-lo de volta por meio de melhor suporte à plataforma, capacidades multi-nuvem e facilidade de uso multi-região.

Você liderou anteriormente iniciativas de nuvem específicas de setor em saúde, varejo, serviços financeiros, manufatura e nuvem soberana. Quais lições desses setores verticais se traduzem diretamente para a infraestrutura de IA, e quais não?

Mudanças geracionais nos GPUs continuam a introduzir novas complexidades. Cada novo lançamento traz maior interconectividade, mais memória e maiores necessidades de energia, todas as quais exigem que revisitemos nossas suposições sobre como os nodes são conectados e como o software é entregue. Devemos permanecer implacáveis aqui para manter nossa liderança. Por outro lado, a área que está melhorando mais rapidamente é a escala pura do que os clientes podem realizar; a velocidade com que estão se adaptando a grandes footprints de computação é impressionante.

À medida que os data centers e clusters de IA continuam a escalar, quais desafios operacionais estão se provando mais difíceis de resolver hoje, e quais estão melhorando mais rapidamente?

As mudanças geracionais dos GPUs continuam a criar novas complexidades no design e software. Cada novo lançamento de GPU vem com capacidades de interconexão aumentadas, mais memória, mais necessidades de energia, etc., que exigem que revisitemos nossas suposições sobre como os nodes são conectados, como os racks são gerenciados e como o software entrega. Teremos que continuar a nos concentrar nesse trabalho para garantir que mantenhamos nossa posição de liderança. Os que estão melhorando mais rapidamente são o que os clientes são capazes de realizar com a escala crescente de computação.

Em infraestrutura de IA, a confiabilidade vai além do tempo de atividade. Como a CoreWeave define confiabilidade, e quais indicadores refletem melhor o sucesso do ponto de vista do cliente?

Em escala, a consideração mais importante para um cliente é simplesmente concluir o trabalho. Em operações maciças, falhas ou desacelerações individuais são esperadas. A chave é como detectamos e respondemos automaticamente a esses problemas para garantir que o trabalho seja concluído apesar dos desafios. É por isso que integramos o Mission Control em serviços de nível superior, como SUNK (Slurm on Kubernetes). Isso permite que os clientes respondam a falhas automaticamente sem perder horas ou semanas de trabalho. Para nós, o sucesso não é apenas sobre o tempo de atividade do node; é sobre o sucesso do trabalho.

Olhando para o futuro, qual é o grande deslocamento em infraestrutura de IA que você acredita ainda é subestimado, seja relacionado à evolução de hardware, especialização de pilhas, requisitos de soberania ou novos modelos de implantação?

Acredito que o advento do Aprendizado por Reforço (RL) como uma parte renovada da pilha de IA é ainda subestimado. Embora não seja um campo de estudo novo, foi largamente ofuscado durante a onda inicial de desenvolvimento de LLM. O RL está fazendo um retorno e desempenhará um papel vital em tornar os serviços de IA mais responsivos às paisagens em mudança de seus usuários. Por causa disso, estamos muito animados com a oferta de RL sem servidor que temos hoje.

Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar CoreWeave.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.