Connect with us

Enfabrica Apresenta Tecido de Memória Baseado em Ethernet Que Pode Redefinir a Inferência de IA em Escala

Inteligência artificial

Enfabrica Apresenta Tecido de Memória Baseado em Ethernet Que Pode Redefinir a Inferência de IA em Escala

mm

Enfabrica, uma startup com sede no Vale do Silício apoiada pela Nvidia, apresentou um produto inovador que pode redefinir significativamente a forma como as cargas de trabalho de IA em grande escala são implantadas e dimensionadas. O novo sistema de tecido de memória elástica (EMFASYS) da empresa é o primeiro tecido de memória baseado em Ethernet disponível comercialmente, projetado especificamente para resolver o gargalo principal da inferência de IA gerativa: o acesso à memória.

Em um momento em que os modelos de IA estão se tornando mais complexos, sensíveis ao contexto e persistentes – exigindo vastas quantidades de memória por sessão de usuário -, o EMFASYS oferece uma abordagem inovadora para desacoplar a memória do processamento, permitindo que os data centers de IA melhorem drasticamente o desempenho, reduzam os custos e aumentem a utilização de seus recursos mais caros: GPUs.

O que é um Tecido de Memória — e Por Que Ele É Importante?

Tradionalmente, a memória dentro dos data centers está fortemente ligada ao servidor ou nó em que reside. Cada GPU ou CPU tem acesso apenas à memória de alta largura de banda diretamente anexada a ela — geralmente HBM para GPUs ou DRAM para CPUs. Essa arquitetura funciona bem quando as cargas de trabalho são pequenas e previsíveis. Mas a IA gerativa mudou o jogo. Os LLMs exigem acesso a janelas de contexto grandes, histórico do usuário e memória multiagente — todos os quais devem ser processados rapidamente e sem atraso. Essas demandas de memória frequentemente superam a capacidade disponível da memória local, criando gargalos que isolam os núcleos da GPU e inflam os custos da infraestrutura.

Um tecido de memória resolve isso transformando a memória em um recurso compartilhado e distribuído — uma espécie de pool de memória anexada à rede, acessível por qualquer GPU ou CPU no cluster. Pense nisso como criar uma “nuvem de memória” dentro da prateleira do data center. Em vez de replicar a memória em servidores ou sobrecarregar o caro HBM, um tecido permite que a memória seja agregada, desagregada e acessada sob demanda por meio de uma rede de alta velocidade. Isso permite que as cargas de trabalho de inferência de IA sejam escaladas de forma mais eficiente sem serem limitadas pelos limites de memória física de um único nó.

A Abordagem da Enfabrica: Ethernet e CXL, Juntos Finalmente

O EMFASYS alcança essa arquitetura de memória em escala de prateleira combinando duas tecnologias poderosas: RDMA sobre Ethernet e Compute Express Link (CXL). O primeiro permite a transferência de dados de ultra-baixa latência e alta taxa de transferência por meio de redes Ethernet padrão. O segundo permite que a memória seja desanexada de CPUs e GPUs e reunida em recursos compartilhados, acessíveis por meio de links CXL de alta velocidade.

No núcleo do EMFASYS está o chip ACF-S da Enfabrica, um “SuperNIC” de 3,2 terabits por segundo (Tbps) que funde o controle de rede e memória em um único dispositivo. Esse chip permite que os servidores sejam conectados a pools maciços de DRAM DDR5 de commodity — até 18 terabytes por nó — distribuídos por toda a prateleira. O que é crucial é que ele o faz usando portas Ethernet padrão, permitindo que os operadores aproveitem sua infraestrutura de data center existente sem investir em interconexões proprietárias.

O que torna o EMFASYS particularmente atraente é sua capacidade de descarregar dinamicamente as cargas de trabalho limitadas por memória dos caros HBM anexados à GPU para o DRAM muito mais acessível, mantendo ao mesmo tempo a latência de acesso em nível de microssegundo. A pilha de software por trás do EMFASYS inclui mecanismos de cache inteligentes e balanceamento de carga que ocultam a latência e orquestram o movimento de memória de maneiras transparentes para os LLMs em execução no sistema.

Implicações para a Indústria de IA

Isso é mais do que apenas uma solução de hardware inteligente — representa uma mudança filosófica na forma como a infraestrutura de IA é construída e escalada. À medida que a IA gerativa se move da novidade para a necessidade, com bilhões de consultas de usuário sendo processadas diariamente, o custo de atender a esses modelos se tornou insustentável para muitas empresas. As GPUs frequentemente estão subutilizadas, não por falta de capacidade de processamento, mas porque elas permanecem ociosas esperando pela memória. O EMFASYS aborda esse desequilíbrio diretamente.

Ao permitir que a memória seja anexada a um tecido e acessível via Ethernet, a Enfabrica oferece aos operadores de data centers uma alternativa escalável para continuar comprando mais GPUs ou HBM. Em vez disso, eles podem aumentar a capacidade de memória de forma modular, usando DRAM de commodity e networking inteligente, reduzindo a pegada geral e melhorando a economia da inferência de IA.

As implicações vão além das economias de custos imediatas. Esse tipo de arquitetura desagregada abre caminho para modelos de memória como serviço, onde o contexto, o histórico e o estado do agente podem persistir além de uma única sessão ou servidor, abrindo a porta para sistemas de IA mais inteligentes e personalizados. Isso também prepara o palco para nuvens de IA mais resilientes, onde as cargas de trabalho podem ser distribuídas elasticamente por toda a prateleira ou data center sem limitações rígidas de memória.

Olhando para o Futuro

O EMFASYS da Enfabrica está atualmente sendo testado com clientes selecionados, e embora a empresa não tenha divulgado quem são esses parceiros, a Reuters relata que os principais provedores de nuvem de IA já estão testando o sistema. Isso posiciona a Enfabrica não apenas como um fornecedor de componentes, mas como um dos principais habilitadores na próxima geração de infraestrutura de IA.

Ao desacoplar a memória do processamento e torná-la disponível em redes Ethernet de alta velocidade e commodity, a Enfabrica está criando as bases para uma nova era de arquitetura de IA — uma em que a inferência pode ser escalada sem compromisso, onde os recursos não estão mais isolados e onde a economia da implantação de grandes modelos de linguagem finalmente começa a fazer sentido.

Em um mundo cada vez mais definido por sistemas de IA ricos em contexto e multiagente, a memória não é mais um ator de apoio — é o palco. E a Enfabrica está apostando que quem construir o melhor palco definirá o desempenho da IA nos anos que vêm.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.