Seguici sui social

Leader del pensiero

Migliorare l'inferenza dell'IA: tecniche avanzate e best practice

mm

Quando si tratta di applicazioni basate sull'intelligenza artificiale in tempo reale come le auto a guida autonoma o monitoraggio sanitarioAnche un secondo in più per elaborare un input potrebbe avere gravi conseguenze. Le applicazioni di intelligenza artificiale in tempo reale richiedono GPU affidabili e una potenza di elaborazione elevata, che fino ad ora si sono rivelate molto costose e proibitive per molte applicazioni.

Adottando un processo di inferenza ottimizzante, le aziende possono non solo massimizzare l'efficienza dell'intelligenza artificiale, ma anche ridurre il consumo energetico e i costi operativi (fino al 90%), migliorare la privacy e la sicurezza e persino aumentare la soddisfazione del cliente.

Problemi comuni di inferenza

Tra i problemi più comuni che le aziende devono affrontare quando si tratta di gestire l'efficienza dell'intelligenza artificiale rientrano cluster GPU sottoutilizzati, modelli generici predefiniti e mancanza di informazioni sui costi associati.

Spesso i team predispongono cluster GPU per i picchi di carico, ma tra il 70 e l'80 percento delle volte sono sottoutilizzati a causa di flussi di lavoro irregolari.

Inoltre, i team utilizzano modelli generici di grandi dimensioni (GPT-4, Claude) anche per attività che potrebbero essere eseguite su modelli open source più piccoli ed economici. I motivi? La mancanza di conoscenze e una curva di apprendimento ripida nella creazione di modelli personalizzati.

Infine, gli ingegneri in genere non hanno una visione chiara dei costi in tempo reale di ogni richiesta, il che si traduce in fatture esorbitanti. Strumenti come PromptLayer e Helicone possono aiutare a fornire questa informazione.

In assenza di controlli sulla scelta del modello, sul batching e sull'utilizzo, i costi di inferenza possono aumentare in modo esponenziale (fino a 10 volte), sprecare risorse, limitare la precisione e peggiorare l'esperienza dell'utente. 

Consumo energetico e costi operativi

L'esecuzione di LLM più grandi come GPT-4, Llama 3 70B o Mixtral-8x7B richiede significativamente più potenza per token. In media, dal 40 al 50 percento dell'energia utilizzata da un data center alimenta le apparecchiature di elaborazione dati, con un ulteriore 30-40 percento dedicato al raffreddamento delle apparecchiature.

Pertanto, per un'azienda che opera 24 ore su 24 per l'inferenza su larga scala, è più vantaggioso considerare un fornitore on-premise rispetto a un fornitore cloud per evitare di pagare un costo aggiuntivo e consumando più energia.

Privacy e sicurezza

Secondo Cisco Studio comparativo sulla privacy dei dati del 2025, "Il 64% degli intervistati teme di condividere inavvertitamente informazioni sensibili pubblicamente o con i concorrenti, eppure quasi la metà ammette di inserire dati personali dei dipendenti o non pubblici negli strumenti GenAI. Ciò aumenta il rischio di non conformità se i dati vengono registrati o memorizzati nella cache in modo improprio. 

Un'altra opportunità di rischio è l'esecuzione di modelli su diverse organizzazioni di clienti su un'infrastruttura condivisa; ciò può portare a violazioni dei dati e problemi di prestazioni, senza contare il rischio aggiuntivo che le azioni di un utente possano avere ripercussioni sugli altri utenti. Per questo motivo, le aziende in genere preferiscono i servizi distribuiti nel loro cloud.

Soddisfazione del cliente

Quando le risposte impiegano più di qualche secondo per essere visualizzate, gli utenti in genere abbandonano il sito, supportando lo sforzo degli ingegneri di ottimizzare al massimo per ottenere una latenza zero. Inoltre, le applicazioni presentano "ostacoli come allucinazioni e imprecisioni che possono limitare l'impatto diffuso e l'adozione", secondo un Comunicato stampa di Gartner.

Vantaggi aziendali derivanti dalla gestione di questi problemi

Ottimizzare il batching, scegliere modelli di dimensioni adeguate (ad esempio, passando da Llama 70B o modelli closed source come GPT a Gemma 2B, ove possibile) e migliorare l'utilizzo della GPU può ridurre i costi di inferenza dal 60 all'80%. L'utilizzo di strumenti come vLLM può essere d'aiuto, così come il passaggio a un modello serverless pay-as-you-go per flussi di lavoro con picchi. 

Prendiamo Cleanlab, ad esempio. Cleanlab lanciato il Modello linguistico affidabile (TLM) a aggiungere un punteggio di affidabilità per ogni risposta LLM. È progettato per output di alta qualità e una maggiore affidabilità, fondamentale per le applicazioni aziendali al fine di prevenire allucinazioni incontrollate. Prima di Inferless, Cleanlabs ha riscontrato un aumento dei costi delle GPU, poiché queste rimanevano in funzione anche quando non venivano utilizzate attivamente. I loro problemi erano tipici dei tradizionali fornitori di GPU cloud: elevata latenza, gestione dei costi inefficiente e un ambiente complesso da gestire. Con l'inferenza serverless, hanno ridotto i costi del 90% mantenendo inalterati i livelli di prestazioni. Ancora più importante, sono andati in produzione entro due settimane senza costi aggiuntivi di ingegneria.

Ottimizzazione delle architetture dei modelli

Modelli di base come GPT e Claude sono spesso addestrati per la generalità, non per l'efficienza o per attività specifiche. Non personalizzando i modelli open source per casi d'uso specifici, le aziende sprecano memoria e tempo di elaborazione per attività che non richiedono tale scalabilità.

I chip GPU più recenti, come l'H100, sono veloci ed efficienti. Questi sono particolarmente importanti quando si eseguono operazioni su larga scala come la generazione di video o attività legate all'intelligenza artificiale. Un maggior numero di core CUDA aumenta la velocità di elaborazione, superando le prestazioni delle GPU più piccole; NVIDIA nuclei tensori sono progettati per accelerare queste attività su larga scala.

Anche la memoria della GPU è importante per ottimizzare le architetture dei modelli, poiché i modelli di intelligenza artificiale di grandi dimensioni richiedono spazio significativo. Questa memoria aggiuntiva consente alla GPU di eseguire modelli più grandi senza compromettere la velocità. Al contrario, le prestazioni delle GPU più piccole con meno VRAM ne risentono, poiché spostano i dati su una RAM di sistema più lenta.

L'ottimizzazione dell'architettura del modello offre diversi vantaggi, tra cui il risparmio di tempo e denaro. In primo luogo, il passaggio da un trasformatore denso a varianti ottimizzate per LoRA o basate su FlashAttention può ridurre il tempo di risposta per query di 200-400 millisecondi, un fattore cruciale, ad esempio, nei chatbot e nel gaming. Inoltre, i modelli quantizzati (come quelli a 4 o 8 bit) richiedono meno VRAM e funzionano più velocemente su GPU più economiche. 

Nel lungo termine, l'ottimizzazione dell'architettura del modello consente di risparmiare denaro sull'inferenza, poiché i modelli ottimizzati possono essere eseguiti su chip più piccoli.

L'ottimizzazione dell'architettura del modello prevede i seguenti passaggi:

  • Quantizzazione — riducendo la precisione (FP32 → INT4/INT8), risparmiando memoria e velocizzando i tempi di elaborazione
  • Potatura — rimozione di pesi o strati meno utili (strutturati o non strutturati)
  • Distillazione — addestrare un modello “studente” più piccolo per imitare l’output di uno più grande 

Compressione delle dimensioni del modello

Modelli più piccoli significa inferenza più veloce e infrastrutture meno costose. I modelli di grandi dimensioni (13B+, 70B+) richiedono GPU costose (A100, H100), VRAM elevata e maggiore potenza. La loro compressione consente loro di funzionare su hardware più economico, come A10 o T4, con una latenza molto inferiore. 

I modelli compressi sono fondamentali anche per l'esecuzione di inferenze su dispositivi (telefoni, browser, IoT), poiché modelli più piccoli consentono di gestire più richieste simultanee senza dover scalare l'infrastruttura. In un chatbot con oltre 1,000 utenti simultanei, il passaggio da un modello compresso da 13 miliardi a uno da 7 miliardi ha permesso a un team di servire più del doppio degli utenti per GPU senza picchi di latenza.

Sfruttando hardware specializzato

Le CPU generiche non sono progettate per operazioni tensoriali. Hardware specializzato come NVIDIA A100, H100, Google TPU o AWS Inferentia possono offrire un'inferenza più rapida (da 10 a 100 volte) per gli LLM con una migliore efficienza energetica. Risparmiare anche solo 100 millisecondi per richiesta può fare la differenza quando si elaborano milioni di richieste al giorno.

Consideriamo questo esempio ipotetico:

Un team esegue LLaMA-13B su GPU A10 standard per il suo sistema RAG interno. La latenza è di circa 1.9 secondi e non è possibile eseguire batch di grandi dimensioni a causa dei limiti di VRAM. Quindi passano a H100 con TensorRT-LLM, abilitano FP8 e un kernel di attenzione ottimizzato, aumentando la dimensione dei batch da 64 a 400. Il risultato è una riduzione della latenza a XNUMX millisecondi con un aumento di cinque volte della produttività.
Di conseguenza, sono in grado di soddisfare le richieste cinque volte di più con lo stesso budget, liberando gli ingegneri dal problema dei colli di bottiglia dell'infrastruttura.

Valutazione delle opzioni di distribuzione

Processi diversi richiedono infrastrutture diverse; un chatbot con 10 utenti e un motore di ricerca che elabora un milione di query al giorno hanno esigenze diverse. Puntare tutto sul cloud (ad esempio, AWS Sagemaker) o su server GPU fai da te senza valutare il rapporto costo-prestazioni porta a sprechi di denaro e a un'esperienza utente scadente. Si noti che se ci si affida fin da subito a un provider cloud chiuso, migrare la soluzione in un secondo momento risulta arduo. Tuttavia, valutare in anticipo con una struttura a consumo offre opzioni future.

La valutazione comprende i seguenti passaggi:

  • Confronta la latenza e i costi del modello su più piattaforme: esegui test A/B su AWS, Azure, cluster GPU locali o strumenti serverless per replicarli.
  • Misurare le prestazioni di avvio a freddo: questo è particolarmente importante per i carichi di lavoro serverless o basati su eventi, perché i modelli vengono caricati più velocemente. 
  • Valutare i limiti di osservabilità e scalabilità: valutare le metriche disponibili e identificare il numero massimo di query al secondo prima del degrado.
  • Controllare il supporto per la conformità: determinare se è possibile applicare regole sui dati geografici o registri di controllo.
  • Stima il costo totale di proprietà. Questo dovrebbe includere ore di utilizzo della GPU, spazio di archiviazione, larghezza di banda e costi aggiuntivi per i team.

La linea di fondo

L'inferenza consente alle aziende di ottimizzare le prestazioni della propria intelligenza artificiale, ridurre i costi e il consumo energetico, salvaguardare la privacy e la sicurezza e garantire la soddisfazione dei clienti.

Aishwarya Goel è co-fondatrice e CEO di Senza inferno, una piattaforma serverless con stato che aiuta gli sviluppatori a distribuire modelli personalizzati e open source con pochi avvii a freddo e un efficiente ridimensionamento automatico.