Entre em contato

Aprimorando a inferência de IA: técnicas avançadas e melhores práticas

Líderes de pensamento

Aprimorando a inferência de IA: técnicas avançadas e melhores práticas

mm

Quando se trata de aplicações baseadas em IA em tempo real, como carros autônomos ou monitoramento de saúdeMesmo um segundo a mais para processar uma entrada pode ter consequências graves. Aplicações de IA em tempo real exigem GPUs confiáveis ​​e poder de processamento, o que tem sido muito caro e proibitivo para muitas aplicações – até agora.

Ao adotar um processo de inferência otimizado, as empresas não só podem maximizar a eficiência da IA, como também reduzir o consumo de energia e os custos operacionais (em até 90%); aumentar a privacidade e a segurança; e até mesmo melhorar a satisfação do cliente.

Problemas comuns de inferência

Alguns dos problemas mais comuns enfrentados pelas empresas quando se trata de gerenciar eficiências de IA incluem clusters de GPU subutilizados, modelos de uso geral padrão e falta de percepção dos custos associados.

As equipes geralmente provisionam clusters de GPU para picos de carga, mas entre 70 e 80 por cento do tempo, eles são subutilizados devido a fluxos de trabalho irregulares.

Além disso, as equipes recorrem a modelos grandes e de uso geral (GPT-4, Claude), mesmo para tarefas que poderiam ser executadas em modelos de código aberto menores e mais baratos. Os motivos? Falta de conhecimento e uma curva de aprendizado acentuada na construção de modelos personalizados.

Por fim, os engenheiros geralmente não têm conhecimento do custo em tempo real de cada solicitação, o que resulta em contas altíssimas. Ferramentas como PromptLayer e Helicone podem ajudar a fornecer esse conhecimento.

Com a falta de controles na escolha do modelo, no lote e na utilização, os custos de inferência podem aumentar exponencialmente (em até 10 vezes), desperdiçar recursos, limitar a precisão e diminuir a experiência do usuário. 

Consumo de energia e custos operacionais

Executar LLMs maiores como GPT-4, Llama 3 70B ou Mixtral-8x7B requer significativamente mais poder por token. Em média, 40 a 50% da energia usada por um data center alimenta os equipamentos de computação, com outros 30 a 40% dedicados ao resfriamento dos equipamentos.

Portanto, para uma empresa que trabalha 24 horas por dia para inferência em escala, é mais benéfico considerar um provedor local em vez de um provedor de nuvem para evitar pagar um custo premium e consumindo mais energia.

Privacidade e segurança

De acordo com Cisco's Estudo de referência sobre privacidade de dados de 2025, "64% dos entrevistados se preocupam em compartilhar inadvertidamente informações confidenciais publicamente ou com concorrentes, mas quase metade admite inserir dados pessoais de funcionários ou não públicos nas ferramentas GenAI.” Isso aumenta o risco de não conformidade se os dados forem registrados ou armazenados em cache incorretamente. 

Outra oportunidade de risco é executar modelos em diferentes organizações de clientes em uma infraestrutura compartilhada; isso pode levar a violações de dados e problemas de desempenho, além de haver um risco adicional de as ações de um usuário impactarem outros usuários. Portanto, as empresas geralmente preferem serviços implantados em sua nuvem.

A satisfação do cliente

Quando as respostas demoram mais do que alguns segundos para aparecer, os usuários geralmente desistem, reforçando o esforço dos engenheiros de otimizar excessivamente para obter latência zero. Além disso, os aplicativos apresentam “obstáculos como alucinações e imprecisões que podem limitar o impacto generalizado e a adoção”, de acordo com um Comunicado de imprensa da Gartner.

Benefícios comerciais do gerenciamento dessas questões

Otimizar o processamento em lote, escolher modelos do tamanho certo (por exemplo, migrar do Llama 70B ou de modelos de código fechado como o GPT para o Gemma 2B sempre que possível) e melhorar a utilização da GPU pode reduzir os custos de inferência entre 60% e 80%. Usar ferramentas como o vLLM pode ajudar, assim como migrar para um modelo sem servidor, com pagamento conforme o uso, para um fluxo de trabalho mais ágil. 

Tomemos como exemplo o Cleanlab. lançou o Modelo de linguagem confiável (TLM) para adicionar Uma pontuação de confiabilidade para cada resposta do LLM. Ele foi projetado para resultados de alta qualidade e confiabilidade aprimorada, o que é essencial para aplicativos corporativos, evitando alucinações descontroladas. Antes do Inferless, a Cleanlabs enfrentava custos mais altos com GPUs, pois elas funcionavam mesmo quando não estavam sendo usadas ativamente. Seus problemas eram típicos de provedores tradicionais de GPUs em nuvem: alta latência, gerenciamento de custos ineficiente e um ambiente complexo para gerenciar. Com a inferência sem servidor, eles reduziram os custos em 90%, mantendo os níveis de desempenho. Mais importante ainda, entraram em operação em duas semanas, sem custos adicionais de engenharia.

Otimizando arquiteturas de modelos

Modelos de base como GPT e Claude costumam ser treinados para generalidade, não para eficiência ou tarefas específicas. Ao não personalizar modelos de código aberto para casos de uso específicos, as empresas desperdiçam memória e tempo de computação em tarefas que não precisam dessa escala.

Chips de GPU mais recentes, como o H100, são rápidos e eficientes. Isso é especialmente importante ao executar operações de grande escala, como geração de vídeo ou tarefas relacionadas à IA. Mais núcleos CUDA aumentam a velocidade de processamento, superando GPUs menores; da NVIDIA Núcleos tensores são projetados para acelerar essas tarefas em escala.

A memória da GPU também é importante na otimização de arquiteturas de modelos, pois modelos de IA grandes exigem espaço considerável. Essa memória adicional permite que a GPU execute modelos maiores sem comprometer a velocidade. Por outro lado, o desempenho de GPUs menores, com menos VRAM, é prejudicado, pois elas movem dados para uma RAM de sistema mais lenta.

Vários benefícios da otimização da arquitetura de modelos incluem economia de tempo e dinheiro. Primeiro, a mudança de um transformador denso para variantes otimizadas para LoRA ou baseadas em FlashAttention pode reduzir entre 200 e 400 milissegundos no tempo de resposta por consulta, o que é crucial em chatbots e jogos, por exemplo. Além disso, modelos quantizados (como de 4 ou 8 bits) precisam de menos VRAM e rodam mais rápido em GPUs mais baratas. 

A longo prazo, a otimização da arquitetura do modelo economiza dinheiro em inferência, pois modelos otimizados podem ser executados em chips menores.

A otimização da arquitetura do modelo envolve as seguintes etapas:

  • Quantização — reduzindo a precisão (FP32 → INT4/INT8), economizando memória e acelerando o tempo de computação
  • Poda — remoção de pesos ou camadas menos úteis (estruturadas ou não estruturadas)
  • Destilação — treinar um modelo “aluno” menor para imitar a saída de um maior 

Comprimindo o tamanho do modelo

Modelos menores significam inferência mais rápida e infraestrutura mais barata. Modelos grandes (13B+, 70B+) exigem GPUs caras (A100s, H100s), alta VRAM e mais potência. Compactá-los permite que rodem em hardware mais barato, como A10s ou T4s, com latência muito menor. 

Modelos compactados também são essenciais para executar inferências em dispositivos (celulares, navegadores, IoT), pois modelos menores permitem o atendimento de mais solicitações simultâneas sem escalar a infraestrutura. Em um chatbot com mais de 1,000 usuários simultâneos, passar de um modelo compactado de 13 bilhões para 7 bilhões permitiu que uma equipe atendesse mais que o dobro de usuários por GPU sem picos de latência.

Aproveitando hardware especializado

CPUs de uso geral não são projetadas para operações tensoras. Hardware especializado como NVIDIA A100s, H100s, Google TPUs ou AWS Inferentia pode oferecer inferência mais rápida (entre 10 e 100x) para LLMs com melhor eficiência energética. Economizar até 100 milissegundos por solicitação pode fazer a diferença no processamento de milhões de solicitações diariamente.

Considere este exemplo hipotético:

Uma equipe está executando o LLaMA-13B em GPUs A10 padrão para seu sistema RAG interno. A latência é de cerca de 1.9 segundo e eles não conseguem processar muitos lotes devido aos limites de VRAM. Então, eles migram para H100s com TensorRT-LLM, habilitam o FP8 e otimizam o kernel de atenção, aumentando o tamanho do lote de oito para 64. O resultado é uma redução da latência para 400 milissegundos, com um aumento de cinco vezes na taxa de transferência.
Como resultado, eles conseguem atender solicitações cinco vezes com o mesmo orçamento e liberam os engenheiros da necessidade de lidar com gargalos de infraestrutura.

Avaliando opções de implantação

Processos diferentes exigem infraestruturas diferentes; um chatbot com 10 usuários e um mecanismo de busca que atende a um milhão de consultas por dia têm necessidades diferentes. Investir totalmente na nuvem (por exemplo, AWS Sagemaker) ou em servidores GPU "faça você mesmo" sem avaliar a relação custo-benefício leva a gastos desnecessários e a uma experiência ruim para o usuário. Observe que, se você se comprometer antecipadamente com um provedor de nuvem fechado, migrar a solução posteriormente será doloroso. No entanto, avaliar antecipadamente com uma estrutura de pagamento conforme o uso oferece opções futuras.

A avaliação abrange as seguintes etapas:

  • Compare a latência e o custo do modelo em todas as plataformas: execute testes A/B na AWS, no Azure, em clusters de GPU locais ou em ferramentas sem servidor para replicar.
  • Medir o desempenho da inicialização a frio: isso é especialmente importante para cargas de trabalho sem servidor ou orientadas a eventos, porque os modelos carregam mais rápido. 
  • Avalie os limites de observabilidade e dimensionamento: avalie as métricas disponíveis e identifique qual é o máximo de consultas por segundo antes da degradação.
  • Verifique o suporte à conformidade: determine se você pode aplicar regras de dados com restrição geográfica ou registros de auditoria.
  • Estime o custo total de propriedade. Isso deve incluir horas de GPU, armazenamento, largura de banda e custos indiretos para as equipes.

Conclusão

A inferência permite que as empresas otimizem o desempenho de sua IA, reduzam o uso de energia e os custos, mantenham a privacidade e a segurança e mantenham os clientes satisfeitos.

Aishwarya Goel é cofundadora e CEO da Infernal, uma plataforma sem servidor com estado que ajuda os desenvolvedores a implantar modelos personalizados e de código aberto com baixas inicializações a frio e dimensionamento automático eficiente.