Connect with us

Aperfeiçoando a Inferência de IA: Técnicas Avançadas e Melhores Práticas

Líderes de pensamento

Aperfeiçoando a Inferência de IA: Técnicas Avançadas e Melhores Práticas

mm

Quando se trata de aplicações em tempo real impulsionadas por IA, como carros autônomos ou monitoramento de saúde, mesmo um segundo a mais para processar uma entrada pode ter consequências graves. As aplicações de IA em tempo real exigem GPUs e processamento confiáveis, o que tem sido muito caro e proibitivo para muitas aplicações – até agora.

Ao adotar um processo de inferência otimizado, as empresas podem não apenas maximizar a eficiência da IA; elas também podem reduzir o consumo de energia e os custos operacionais (até 90%); melhorar a privacidade e a segurança; e até melhorar a satisfação do cliente.

Problemas comuns de inferência

Alguns dos problemas mais comuns enfrentados pelas empresas ao gerenciar a eficiência da IA incluem clusters de GPU subutilizados, padrão para modelos de propósito geral e falta de visibilidade sobre os custos associados.

As equipes frequentemente provisionam clusters de GPU para carga de pico, mas entre 70 e 80 por cento do tempo, eles estão subutilizados devido a fluxos de trabalho desiguais.

Além disso, as equipes recorrem a grandes modelos de propósito geral (GPT-4, Claude) mesmo para tarefas que poderiam ser executadas em modelos de código aberto menores e mais baratos. Os motivos? Falta de conhecimento e uma curva de aprendizado acentuada na construção de modelos personalizados.

Finalmente, os engenheiros geralmente carecem de visibilidade sobre o custo real por solicitação, o que leva a contas altas. Ferramentas como PromptLayer, Helicone podem ajudar a fornecer essa visibilidade.

Com a falta de controles sobre a escolha do modelo, batching e utilização, os custos de inferência podem aumentar exponencialmente (até 10 vezes), desperdiçar recursos, limitar a precisão e diminuir a experiência do usuário.

Consumo de energia e custos operacionais

Executar LLMs maiores, como GPT-4, Llama 3 70B ou Mixtral-8x7B, requer significativamente mais energia por token. Em média, 40 a 50 por cento da energia usada por um centro de dados alimenta o equipamento de computação, com mais 30 a 40 por cento dedicados ao resfriamento do equipamento.

Portanto, para uma empresa que executa inferência em escala 24 horas por dia, é mais benéfico considerar um provedor local em vez de um provedor de nuvem para evitar pagar um custo premium e consumir mais energia.

Privacidade e segurança

De acordo com o estudo 2025 Data Privacy Benchmark Study da Cisco, 64% dos respondentes se preocupam em compartilhar inadvertidamente informações sensíveis publicamente ou com concorrentes, mas quase metade admite inserir dados pessoais de funcionários ou não públicos em ferramentas de GenAI.” Isso aumenta o risco de não conformidade se os dados forem registrados ou armazenados em cache de forma inadequada.

Outra oportunidade de risco é executar modelos em diferentes organizações de clientes em uma infraestrutura compartilhada; isso pode levar a violações de dados e problemas de desempenho, e há um risco adicional de as ações de um usuário afetarem outros usuários. Portanto, as empresas geralmente preferem serviços implantados em sua nuvem.

Satisfação do cliente

Quando as respostas demoram mais de alguns segundos para aparecer, os usuários geralmente desistem, apoiando o esforço dos engenheiros para otimizar para latência zero. Além disso, as aplicações apresentam “obstáculos, como alucinações e imprecisão que podem limitar o impacto e a adoção generalizada,” de acordo com um comunicado à imprensa da Gartner.

Benefícios comerciais de gerenciar esses problemas

Otimizar o batching, escolher modelos de tamanho correto (por exemplo, mudar de Llama 70B ou modelos de código fechado como GPT para Gemma 2B quando possível) e melhorar a utilização de GPU pode reduzir as contas de inferência em até 60 a 80 por cento. Usar ferramentas como vLLM pode ajudar, assim como mudar para um modelo de servidor sem servidor pago conforme você vai para um fluxo de trabalho pontiagudo.

Por exemplo, a Cleanlab. A Cleanlab lançou o Modelo de Linguagem Confiável (TLM) para adicionar um score de confiabilidade a cada resposta do LLM. Ele é projetado para saídas de alta qualidade e confiabilidade aprimorada, o que é crítico para aplicações empresariais para prevenir alucinações não verificadas. Antes da Inferless, a Cleanlabs enfrentou aumento nos custos de GPU, pois as GPUs estavam em execução mesmo quando não estavam sendo usadas ativamente. Seus problemas eram típicos de provedores de GPU de nuvem tradicionais: alta latência, gerenciamento de custos ineficiente e um ambiente complexo para gerenciar. Com inferência sem servidor, eles reduziram os custos em 90 por cento, mantendo os níveis de desempenho. Mais importante ainda, eles foram ao ar em duas semanas sem custos adicionais de overhead de engenharia.

Otimizando arquiteturas de modelo

Modelos de base, como GPT e Claude, são frequentemente treinados para generalidade, não para eficiência ou tarefas específicas. Ao não personalizar modelos de código aberto para casos de uso específicos, as empresas desperdiçam memória e tempo de processamento para tarefas que não precisam dessa escala.

Novos chips de GPU, como o H100, são rápidos e eficientes. Eles são especialmente importantes ao executar operações em larga escala, como geração de vídeo ou tarefas relacionadas à IA. Mais núcleos CUDA aumentam a velocidade de processamento, superando GPUs menores; os núcleos de tensor da NVIDIA são projetados para acelerar essas tarefas em escala.

A memória de GPU também é importante na otimização de arquiteturas de modelo, pois os grandes modelos de IA exigem espaço significativo. Essa memória adicional permite que a GPU execute modelos maiores sem comprometer a velocidade. Por outro lado, o desempenho de GPUs menores com menos VRAM sofre, pois elas movem dados para uma RAM de sistema mais lenta.

Vários benefícios da otimização da arquitetura do modelo incluem economia de tempo e dinheiro. Primeiramente, mudar de um transformador denso para variantes otimizados com LoRA ou FlashAttention pode reduzir entre 200 e 400 milissegundos o tempo de resposta por consulta, o que é crucial em chatbots e jogos, por exemplo. Além disso, modelos quantizados (como 4-bit ou 8-bit) precisam de menos VRAM e executam mais rápido em GPUs mais baratas.

Em longo prazo, a otimização da arquitetura do modelo economiza dinheiro na inferência, pois os modelos otimizados podem ser executados em chips menores.

A otimização da arquitetura do modelo envolve as seguintes etapas:

  • Quantização — reduzir a precisão (FP32 → INT4/INT8), economizar memória e acelerar o tempo de processamento
  • Poda — remover pesos ou camadas menos úteis (estruturadas ou não estruturadas)
  • Destilação — treinar um modelo “aluno” menor para imitar a saída de um modelo maior

Comprimindo o tamanho do modelo

Modelos menores significam inferência mais rápida e infraestrutura menos cara. Modelos grandes (13B+, 70B+) exigem GPUs caras (A100s, H100s), alta VRAM e mais energia. Comprimir esses modelos permite que eles sejam executados em hardware mais barato, como A10s ou T4s, com latência muito menor.

Modelos comprimidos também são críticos para a execução de inferência em dispositivos (telefones, navegadores, IoT), pois modelos menores permitem o atendimento de mais solicitações concorrentes sem dimensionar a infraestrutura. Em um chatbot com mais de 1.000 usuários concorrentes, mudar de um modelo de 13B para um modelo de 7B comprimido permitiu que uma equipe atendesse mais do que o dobro de usuários por GPU sem picos de latência.

Aproveitando hardware especializado

CPUs de propósito geral não são projetados para operações de tensor. Hardware especializado, como NVIDIA A100s, H100s, Google TPUs ou AWS Inferentia, pode oferecer inferência mais rápida (entre 10 e 100 vezes) para LLMs com melhor eficiência energética. Reduzir apenas 100 milissegundos por solicitação pode fazer uma diferença quando se processam milhões de solicitações diariamente.

Considere este exemplo hipotético:

Uma equipe está executando LLaMA-13B em GPUs A10 padrão para seu sistema RAG interno. A latência é de cerca de 1,9 segundos, e eles não podem fazer batching devido a limitações de VRAM. Então, eles mudam para H100s com TensorRT-LLM, habilitam FP8 e kernel de atenção otimizado, aumentam o tamanho do lote de oito para 64. O resultado é reduzir a latência para 400 milissegundos com um aumento de cinco vezes na taxa de transferência.Como resultado, eles conseguem atender a solicitações cinco vezes com o mesmo orçamento e liberam os engenheiros da navegação de gargalos de infraestrutura.

Avaliando opções de implantação

Processos diferentes exigem infraestruturas diferentes; um chatbot com 10 usuários e um mecanismo de busca que atende um milhão de consultas por dia têm necessidades diferentes. Ir todas as suas fichas na nuvem (por exemplo, AWS Sagemaker) ou servidores de GPU DIY sem avaliar as razões custo-desempenho leva a gastos desperdiçados e má experiência do usuário. Note que se você se comprometer cedo com um provedor de nuvem fechada, migrar a solução posteriormente é doloroso. No entanto, avaliar cedo com uma estrutura de pagamento conforme você vai oferece opções no futuro.

A avaliação abrange as seguintes etapas:

  • Testar a latência do modelo e o custo em diferentes plataformas: Execute testes A/B na AWS, Azure, clusters de GPU locais ou ferramentas sem servidor para replicar.
  • Medir o desempenho de inicialização a frio: Isso é especialmente importante para cargas de trabalho sem servidor ou baseadas em eventos, pois os modelos carregam mais rápido.
  • Avaliar a observabilidade e os limites de dimensionamento: Avalie as métricas disponíveis e identifique qual é o máximo de consultas por segundo antes de degradar.
  • Verificar o suporte à conformidade: Determine se você pode aplicar regras de dados limitadas geograficamente ou logs de auditoria.
  • Estimar o custo total de propriedade. Isso deve incluir horas de GPU, armazenamento, largura de banda e overhead para equipes.

O resumo

A inferência permite que as empresas otimizem o desempenho da IA, reduzam o consumo de energia e os custos, mantenham a privacidade e a segurança e mantenham os clientes satisfeitos.

Aishwarya Goel é co-fundadora e CEO da Inferless, uma plataforma serverless com estado que ajuda os desenvolvedores a implantar modelos personalizados e de código aberto com baixos tempos de início a frio e escalonamento automático eficiente.