Entrevistas

Moshe Tanach, CEO e Co-Fundador da NeuReality – Série de Entrevistas

mm

Moshe Tanach é o CEO e co-fundador da NeuReality. Antes de fundar a NeuReality, Moshe atuou como Diretor de Engenharia na Marvell e Intel, onde liderou o desenvolvimento de produtos de rede e sem fio complexos para produção em massa. Ele também atuou como Vice-Presidente de Pesquisa e Desenvolvimento na DesignArt Networks (posteriormente adquirida pela Qualcomm), onde contribuiu para o desenvolvimento de produtos de estações base de 4G.

NeuReality tem como missão simplificar a adoção de IA. Ao adotar uma abordagem de nível de sistema para a IA, a equipe de especialistas da NeuReality entrega inferência de IA de forma holística, identificando pontos de dor e fornecendo soluções de inferência de IA personalizadas e construídas com propósito, que tornam a IA acessível e asequível.

Com sua vasta experiência em liderar projetos de engenharia na Marvell, Intel e DesignArt-Networks, o que o inspirou a co-fundar a NeuReality, e como seus papéis anteriores influenciaram a visão e a direção da empresa?

A NeuReality foi construída desde o início para resolver os problemas de custo, complexidade e clima que seriam inevitáveis na inferência de IA – que é a implantação de modelos de IA treinados e software em centros de dados de produção. Onde o treinamento de IA é como a IA é criada; a inferência de IA é como ela é usada e como ela interage com bilhões de pessoas e dispositivos em todo o mundo.

Nós somos uma equipe de engenheiros de sistemas, então olhamos para todos os ângulos, todas as facetas múltiplas da inferência de IA de ponta a ponta, incluindo GPUs e todas as classes de aceleradores de IA personalizados. Tornou-se claro para nós, desde 2015, que os chips e sistemas de IA dependentes de CPU – que é todos os GPUs, TPUs, LPUs, NRUs, ASICs e FPGAs lá fora – atingiriam um obstáculo significativo em 2020. As limitações do sistema onde o acelerador de IA se tornou melhor e mais rápido em termos de desempenho bruto, mas a infraestrutura subjacente não acompanhou.

Como resultado, decidimos nos afastar dos grandes gigantes cheios de burocracia que protegem os negócios bem-sucedidos, como os fabricantes de CPUs e NICs, e perturbar a indústria com uma melhor arquitetura de IA que seja aberta, agnóstica e construída com propósito para a inferência de IA. Uma das conclusões de reimaginar a inferência de IA ideal é que, ao aumentar a utilização de GPUs e a eficiência de nível de sistema, nossa nova infraestrutura de computação e rede de IA – alimentada por nosso servidor de chip NR1 – pode remover as barreiras do mercado que desencorajam 65% das organizações de inovar e adotar IA hoje – GPUs subutilizadas que levam à compra de mais do que o necessário (porque elas ficam ociosas > 50% do tempo) – ao mesmo tempo em que reduz o consumo de energia, o desafio de espaço de centro de dados e os custos operacionais.

Essa é uma oportunidade única de realmente transformar a arquitetura de sistema de IA para melhor, com base em tudo o que eu aprendi e pratiquei por 30 anos, abrindo as portas para novos inovadores de IA em todas as indústrias e removendo gargalos de CPU, complexidade e pegadas de carbono.

A missão da NeuReality é democratizar a IA. Pode explicar o que “IA para Todos” significa para você e como a NeuReality planeja alcançar essa visão?

Nossa missão é democratizar a IA, tornando-a mais acessível e asequível para todas as organizações, grandes e pequenas – ao liberar a capacidade máxima de qualquer GPU ou acelerador de IA, para que você obtenha mais do seu investimento; em outras palavras, obtenha MAIS dos GPUs que você compra, em vez de COMPRAR mais GPUs que ficam ociosas > 50% do tempo. Podemos aumentar os aceleradores de IA até 100% de capacidade, ao mesmo tempo em que entregamos até 15X de eficiência energética e reduzimos os custos do sistema em até 90%. Essas são melhorias de magnitude de ordem.

Atingir a IA para Todos também significa torná-la fácil de usar. Na NeuReality, simplificamos a implantação, gerenciamento e escalabilidade da infraestrutura de IA, melhoramos os processos de negócios e a rentabilidade, e avançamos em setores como saúde pública, segurança, aplicação da lei e atendimento ao cliente. Nosso impacto abrange setores como imagens médicas, ensaios clínicos, detecção de fraude, criação de conteúdo de IA e muitos mais.

Atualmente, nossos primeiros aparelhos de inferência de IA NR1-S comercialmente disponíveis estão disponíveis com aceleradores de IA Cloud AI 100 Ultra da Qualcomm e por meio da Cirrascale, um provedor de serviços de nuvem.

A Solução de Inferência de IA NR1 é considerada a primeira arquitetura de sistema de centro de dados projetada para a era da IA, e construída com propósito para a inferência de IA. Quais foram as principais inovações e avanços que levaram ao desenvolvimento do NR1?

NR1 é o nome de toda a arquitetura de sistema de silício para software que projetamos e entregamos à indústria de IA – como uma infraestrutura de computação e rede de IA aberta e totalmente compatível que complementa completamente qualquer acelerador de IA e GPUs. Se eu tivesse que descrever as principais inovações e avanços que levaram a essa solução de ponta a ponta NR1 e que nos diferenciam, eu diria:

  • Gráficos de Computação de IA Otimizados: A equipe projetou um Acelerador de Execução de Gráficos Programável para otimizar o processamento de Gráficos de Computação, que são cruciais para a IA e outros trabalhos como processamento de mídia, bancos de dados e mais. Os Gráficos de Computação representam uma série de operações com dependências, e essa aplicabilidade mais ampla posiciona o NR1 como potencialmente disruptivo além do superimpulsionamento de GPUs e outros aceleradores de IA. Isso simplifica a implantação de modelos de IA, gerando Gráficos de Computação otimizados (CGs) com base em dados de IA pré-processados e APIs de software, levando a ganhos de desempenho significativos.
  • NR1 NAPU (Unidade de Processamento Endereçável por Rede): Nossa arquitetura de inferência de IA é alimentada pelo NR1 NAPU – um servidor de chip de 7nm que permite acesso direto à rede para pré e pós-processamento de IA. Nós empacotamos 6,5 vezes mais força em um chip NR1 menor do que um CPU de propósito geral típico. Tradicionalmente, as tarefas de pré-processamento (como limpeza de dados, formatação e extração de recursos) e as tarefas de pós-processamento (como interpretação de resultados e formatação) são tratadas pelo CPU. Ao descarregar essas tarefas para o NR1 NAPU, nós deslocamos tanto os CPUs quanto os NICs. Isso reduz gargalos, permitindo um processamento geral mais rápido e tempos de resposta mais rápidos e menores custos por consulta de IA. Isso reduz gargalos e permite um processamento geral mais rápido.
  • Tecnologia de Hipervisor de IA NR1: O Hipervisor de IA baseado em hardware do NR1 otimiza a orquestração de tarefas de IA e a utilização de recursos, melhorando a eficiência e reduzindo gargalos.
  • Motor de Rede de IA sobre Tecido NR1: O NR1 incorpora um motor de rede de IA sobre tecido único que garante a conectividade de rede sem interrupções e a escalabilidade eficiente de recursos de IA em vários chips NR1 – que são acoplados a qualquer GPU ou acelerador de IA – dentro do mesmo servidor de inferência ou aparelho de inferência de IA NR1-S.

A NeuReality recentemente destacou dados de desempenho que mostram economias de custo e energia significativas. Pode fornecer mais detalhes sobre como o NR1 alcança até 90% de economia de custo e 15x de eficiência energética em comparação com sistemas tradicionais?

O NR1 da NeuReality reduz o custo e o consumo de energia da inferência de IA em até 90% e 15x, respectivamente. Isso é alcançado por meio de:

  • Silício Especializado: Nossa infraestrutura de inferência de IA personalizada é alimentada pelo servidor de chip NR1 NAPU, que absorve a funcionalidade do CPU e do NIC em um – e elimina a necessidade de CPUs na inferência. Em última análise, o NR1 maximiza a saída de qualquer acelerador de IA ou GPU da maneira mais eficiente possível.
  • Arquitetura Otimizada: Ao simplificar o fluxo de dados de IA e incorporar o pré e pós-processamento de IA diretamente no NR1 NAPU, nós descarregamos e substituímos o CPU. Isso resulta em latência reduzida, escalabilidade linear e menor custo por consulta de IA.
  • Implantação Flexível: Você pode comprar o NR1 de duas maneiras principais: 1) dentro do Módulo NR1-M, que é um cartão PCIe que abriga vários NR1 NAPUs (geralmente 10) projetados para serem usados com os cartões de acelerador de IA existentes. 2) dentro do Aparelho NR1-S, que acopla NR1 NAPUs com um número igual de aceleradores de IA (GPU, ASIC, FPGA, etc.) como um sistema de inferência de IA pronto para uso.

Na Supercomputação 2024, em novembro, você verá que demonstraremos um Aparelho NR1-S com 4x chips NR1 por 16x aceleradores de IA Cloud AI 100 Ultra da Qualcomm. Nós testamos o mesmo com chips de inferência de IA da Nvidia. A NeuReality está revolucionando a inferência de IA com sua arquitetura aberta e personalizada.

Como o Aparelho de Inferência de IA NR1-S, combinado com aceleradores de IA Cloud AI 100 da Qualcomm, se compara a servidores de inferência tradicionais com CPUs e GPUs Nvidia H100 ou L40S em aplicações do mundo real?

O NR1, combinado com aceleradores de IA Cloud AI 100 da Qualcomm ou GPUs Nvidia H100 ou L40S, entrega um aumento significativo de desempenho em aplicações de IA do mundo real, como modelos de linguagem grandes, visão computacional, processamento de linguagem natural e reconhecimento de fala. Em outras palavras, ao executar o sistema de inferência de IA com o NR1, otimiza o desempenho, o custo do sistema, a eficiência energética e os tempos de resposta em imagens, som, linguagem e texto – tanto separadamente (modalidade única) quanto juntos (multi-modalidade).

O resultado? Quando combinado com o NR1, um cliente obtém MAIS do investimento caro em GPUs, em vez de COMPRAR mais GPUs para atingir o desempenho desejado.

Além de maximizar a utilização de GPUs, o NR1 entrega eficiência excepcional, resultando em 50-90% de melhor relação custo-benefício e até 13-15x de eficiência energética. Isso se traduz em economias de custo significativas e uma pegada ambiental reduzida para a infraestrutura de IA.

O NR1-S demonstra escalabilidade linear sem quedas de desempenho. Pode explicar os aspectos técnicos que permitem essa escalabilidade sem interrupções?

O Aparelho NR1-S, acoplando nossos chips NR1 com aceleradores de IA de qualquer tipo ou quantidade, redefine a infraestrutura de IA. Nós ultrapassamos as limitações de CPU para atingir um novo nível de desempenho e eficiência.

Em vez do gargalo tradicional de NIC para CPU para acelerador, o NR1-S integra o acesso direto à rede, o pré-processamento de IA e o pós-processamento dentro de nossas Unidades de Processamento Endereçáveis por Rede (NAPUs). Com 10 NAPUs por sistema, cada um lidando com tarefas como processamento de visão, áudio e DSP, e nosso Hipervisor de IA orquestrando as cargas de trabalho, o fluxo de dados de IA é simplificado. Isso se traduz em escalabilidade linear: adicione mais aceleradores, obtenha desempenho proporcionalmente maior.

O resultado? A utilização de 100% dos aceleradores de IA é consistentemente observada. Embora o custo e a eficiência energética geral variem dependendo dos chips de IA específicos usados, o investimento de hardware maximizado e o desempenho aprimorado são consistentemente entregues. À medida que as necessidades de inferência de IA aumentam, o NR1-S fornece uma alternativa atraente às arquiteturas tradicionais.

A NeuReality visa remover as barreiras para a adoção generalizada de IA. Quais são os principais desafios que as empresas enfrentam ao adotar a IA, e como a tecnologia da NeuReality ajuda a superar esses desafios?

Quando mal implementada, o software e as soluções de IA podem se tornar problemáticos. Muitas empresas não podem adotar a IA devido ao custo e à complexidade de construir e dimensionar sistemas de IA. Hoje, as soluções de IA não são otimizadas para a inferência, com pods de treinamento que têm uma eficiência ruim e servidores de inferência que têm gargalos altos. Para enfrentar esse desafio e tornar a IA mais acessível, desenvolvemos a primeira solução completa de inferência de IA – uma infraestrutura de computação e rede de IA alimentada por nosso NAPU – que aproveita ao máximo o acelerador de IA companheiro e reduz as barreiras do mercado em torno do custo excessivo e do consumo de energia.

Nossa abordagem de nível de sistema para a inferência de IA – em vez de tentar desenvolver uma GPU ou acelerador de IA melhor, onde já há muita inovação e concorrência – significa que estamos preenchendo uma lacuna significativa na indústria para dezenas de inovadores de chips e sistemas de inferência de IA. Nossa equipe atacou as deficiências na inferência de IA de forma sistemática e holística, determinando pontos de dor, lacunas arquiteturais e projeções de cargas de trabalho de IA – para entregar a primeira arquitetura de inferência de IA personalizada, de silício para software, sem CPU. E ao desenvolver uma pilha de software de IA de ponta a ponta com padrões abertos de Python e Kubernetes combinados com a Ferramenta de Linha de Comando, Provisionamento e APIs de Inferência da NeuReality, nosso conjunto integrado de ferramentas de software combina todos os componentes em uma interface de usuário/UX de alta qualidade.

Em um mercado de IA competitivo, o que diferencia a NeuReality de outros provedores de soluções de inferência de IA?

Para colocar de forma simples, somos abertos e agnósticos em relação ao acelerador. Nossa infraestrutura de inferência de IA NR1 supercarrega qualquer acelerador de IA – GPU, TPU, LPU, ASIC, você nomeia – criando um sistema de ponta a ponta verdadeiramente otimizado. Os aceleradores de IA foram inicialmente trazidos para ajudar os CPUs a lidar com as demandas de redes neurais e aprendizado de máquina em grande escala, mas agora os aceleradores de IA se tornaram tão poderosos que estão sendo limitados pelos próprios CPUs que deveriam ajudar.

Nossa solução? O NR1. É uma arquitetura de inferência de IA completa e reimaginada. Nosso truque é que o NR1 NAPU foi projetado como um co-ingredient para maximizar o desempenho do acelerador de IA sem consumir energia extra ou quebrar o banco. Nós construímos um ecossistema aberto, integrando-se perfeitamente com qualquer chip de inferência de IA e frameworks de software populares como Kubernetes, Python, TensorFlow e mais.

A abordagem aberta da NeuReality significa que não estamos competindo com o cenário de IA; estamos aqui para complementá-lo por meio de parcerias estratégicas e colaboração tecnológica. Nós fornecemos a peça que falta do quebra-cabeça: uma arquitetura de inferência de IA personalizada, sem CPU, que não apenas destranca os aceleradores de IA para o desempenho de referência, mas também torna mais fácil para as empresas e governos adotarem a IA. Imagine liberar o poder total de NVIDIA H100s, Google TPUs ou AMD MI300s – dando a eles a infraestrutura que eles merecem.

A arquitetura aberta e eficiente da NeuReality nivela o campo de jogo, tornando a IA mais acessível e asequível para todos. Estou apaixonado por ver diferentes indústrias – fintech, biotecnologia, saúde – experimentar a vantagem do NR1 em primeira mão. Compare suas soluções de IA em sistemas tradicionais com CPU com a infraestrutura moderna do NR1 e testemunhe a diferença. Hoje, apenas 35% das empresas e governos adotaram a IA, e isso é com base em critérios de qualificação incrivelmente baixos. Vamos tornar possível para mais de 50% dos clientes empresariais adotarem a IA até o próximo ano sem prejudicar o planeta ou quebrar o banco.

Olhando para o futuro, qual é a visão de longo prazo da NeuReality para o papel da IA na sociedade, e como você vê a empresa contribuindo para esse futuro?

Eu imagino um futuro onde a IA beneficia todos, fomentando a inovação e melhorando vidas. Estamos construindo não apenas tecnologia; estamos construindo a base para um futuro melhor.

Nossa solução de inferência de IA NR1 é fundamental para essa visão. É uma solução completa de inferência de IA que começa a quebrar as barreiras de custo e complexidade que impedem a adoção empresarial de IA em massa. Reimaginamos tanto a infraestrutura quanto a arquitetura, entregando um sistema revolucionário que maximiza a saída de qualquer GPU, qualquer acelerador de IA, sem aumentar os custos operacionais ou o consumo de energia.

O modelo de negócios realmente importa para escalar e dar aos clientes finais escolhas reais sobre a autocracia de IA concentrada, como eu escrevi anteriormente. Então, em vez disso, estamos construindo um ecossistema aberto onde nosso silício funciona com outros silícios, não contra ele. É por isso que projetamos o NR1 para se integrar perfeitamente com todos os aceleradores de IA e com modelos e software abertos, tornando-o o mais fácil possível de instalar, gerenciar e dimensionar.

Mas não paramos por aí. Estamos colaborando com parceiros para validar nossa tecnologia em várias cargas de trabalho de IA e entregar “inferência como um serviço” e “LLM como um serviço” por meio de provedores de serviços de nuvem, hiperscalers e diretamente com fabricantes de chips companheiros. Queremos tornar a IA avançada acessível e asequível para todos.

Imagine as possibilidades se pudéssemos aumentar o desempenho de inferência de IA, a eficiência energética e a acessibilidade em porcentagens de dois dígitos. Imagine uma sociedade robusta e habilitada para IA, com mais vozes e escolhas se tornando uma realidade. Então, devemos todos fazer o trabalho difícil de provar o impacto nos negócios e o ROI quando a IA é implementada nas operações diárias de centros de dados. Vamos nos concentrar na implementação revolucionária de IA, não apenas na capacidade do modelo de IA.

Essa é a forma como contribuímos para um futuro onde a IA beneficia todos – uma vitória para as margens de lucro, as pessoas e o planeta.

Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar NeuReality.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável por moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI.

Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.