Intelligenza artificiale
Inferenza AI su larga scala: esplorazione dell’architettura ad alte prestazioni di NVIDIA Dynamo

Man mano che la tecnologia di Intelligenza Artificiale (AI) avanza, la necessità di soluzioni di inferenza efficienti e scalabili è cresciuta rapidamente. Presto, l’inferenza AI è destinata a diventare più importante dell’addestramento poiché le aziende si concentrano sull’esecuzione rapida di modelli per effettuare previsioni in tempo reale. Questa trasformazione sottolinea la necessità di un’infrastruttura robusta per gestire grandi quantità di dati con ritardi minimi.
L’inferenza è vitale in settori come veicoli autonomi, rilevamento di frodi e diagnosi mediche in tempo reale. Tuttavia, presenta sfide uniche, in particolare quando si scala per soddisfare le esigenze di attività come lo streaming video, l’analisi dei dati in tempo reale e le informazioni sui clienti. I modelli AI tradizionali faticano a gestire queste attività ad alto throughput in modo efficiente, spesso portando a costi elevati e ritardi. Man mano che le aziende espandono le loro capacità AI, hanno bisogno di soluzioni per gestire grandi volumi di richieste di inferenza senza sacrificare le prestazioni o aumentare i costi.
È qui che entra in gioco NVIDIA Dynamo. Lanciato nel marzo 2025, Dynamo è un nuovo framework AI progettato per affrontare le sfide dell’inferenza AI su larga scala. Aiuta le aziende ad accelerare i carichi di lavoro di inferenza mantenendo prestazioni solide e riducendo i costi. Costruito sull’architettura GPU robusta di NVIDIA e integrato con strumenti come CUDA, TensorRT e Triton, Dynamo sta cambiando il modo in cui le aziende gestiscono l’inferenza AI, rendendola più facile ed efficiente per aziende di tutte le dimensioni.
La crescente sfida dell’inferenza AI su larga scala
L’inferenza AI è il processo di utilizzo di un modello di apprendimento automatico pre-addestrato per effettuare previsioni da dati del mondo reale, ed è essenziale per molte applicazioni AI in tempo reale. Tuttavia, i sistemi tradizionali spesso affrontano difficoltà nel gestire la crescente domanda di inferenza AI, in particolare in aree come veicoli autonomi, rilevamento di frodi e diagnosi mediche.
La domanda di AI in tempo reale sta crescendo rapidamente, trainata dalla necessità di decisioni rapide e immediate. Un rapporto di Forrester di maggio 2024 ha trovato che il 67% delle aziende integra AI generativa nelle proprie operazioni, sottolineando l’importanza dell’AI in tempo reale. L’inferenza è al cuore di molte attività AI, come abilitare le auto a guida autonoma a prendere decisioni rapide, rilevare frodi nelle transazioni finanziarie e assistere nelle diagnosi mediche come l’analisi di immagini mediche.
Nonostante questa domanda, i sistemi tradizionali faticano a gestire la portata di queste attività. Uno dei principali problemi è l’underutilizzo delle GPU. Ad esempio, l’utilizzo della GPU in molti sistemi rimane intorno al 10% al 15%, il che significa che una quantità significativa di potenza computazionale è underutilizzata. Man mano che il carico di lavoro per l’inferenza AI aumenta, sorgono ulteriori sfide, come limiti di memoria e cache thrashing, che causano ritardi e riducono le prestazioni generali.
Raggiungere una bassa latenza è cruciale per le applicazioni AI in tempo reale, ma molti sistemi tradizionali faticano a stare al passo, soprattutto quando si utilizza l’infrastruttura cloud. Un rapporto McKinsey rivela che il 70% dei progetti AI non riesce a raggiungere i propri obiettivi a causa di problemi di qualità e integrazione dei dati. Queste sfide sottolineano la necessità di soluzioni più efficienti e scalabili; è qui che entra in gioco NVIDIA Dynamo.
Ottimizzazione dell’inferenza AI con NVIDIA Dynamo
NVIDIA Dynamo è un framework open-source e modulare che ottimizza le attività di inferenza AI su larga scala in ambienti multi-GPU distribuiti. Si propone di affrontare le sfide comuni nei modelli di AI generativa e di ragionamento, come l’underutilizzo della GPU, i collo di bottiglia della memoria e l’inefficiente routing delle richieste. Dynamo combina ottimizzazioni hardware-aware con innovazioni software per affrontare questi problemi, offrendo una soluzione più efficiente per le applicazioni AI ad alta richiesta.
Una delle caratteristiche chiave di Dynamo è la sua architettura di serving disaggregata. Questo approccio separa la fase di prefill computazionalmente intensiva, che gestisce l’elaborazione del contesto, dalla fase di decode, che coinvolge la generazione di token. Assegnando ogni fase a cluster GPU distinti, Dynamo consente un’ottimizzazione indipendente. La fase di prefill utilizza GPU ad alta memoria per un’ingestione del contesto più rapida, mentre la fase di decode utilizza GPU ottimizzate per la latenza per un flusso di token efficiente. Questa separazione migliora il throughput, rendendo modelli come Llama 70B due volte più veloci.
Include un pianificatore di risorse GPU che schedula dinamicamente l’allocazione della GPU in base all’utilizzo in tempo reale, ottimizzando i carichi di lavoro tra i cluster di prefill e decode per prevenire la sovrapprovisione e i cicli inattivi. Un’altra caratteristica chiave è il router smart consapevole della cache KV, che assicura che le richieste in ingresso siano dirette alle GPU che detengono dati di cache KV rilevanti, minimizzando così i calcoli ridondanti e migliorando l’efficienza. Questa caratteristica è particolarmente benefica per i modelli di ragionamento multi-step che generano più token dei modelli linguistici standard.
La libreria di trasferimento dell’inferenza NVIDIA (NIXL) è un altro componente critico, che consente una comunicazione a bassa latenza tra GPU e livelli di memoria/archiviazione eterogenei come HBM e NVMe. Questa caratteristica supporta il recupero della cache KV in meno di un millisecondo, che è cruciale per le attività sensibili al tempo. Il manager della cache KV distribuita aiuta anche a scaricare i dati della cache meno frequentemente utilizzati nella memoria del sistema o negli SSD, liberando così la memoria della GPU per calcoli attivi. Questo approccio migliora le prestazioni generali del sistema fino a 30 volte, soprattutto per modelli grandi come DeepSeek-R1 671B.
NVIDIA Dynamo si integra con l’intero stack di NVIDIA, compresi CUDA, TensorRT e GPU Blackwell, mentre supporta backend di inferenza popolari come vLLM e TensorRT-LLM. I benchmark mostrano fino a 30 volte più token per GPU per secondo per modelli come DeepSeek-R1 su sistemi GB200 NVL72.
Come successore del server di inferenza Triton, Dynamo è progettato per le fabbriche AI che richiedono soluzioni di inferenza scalabili e efficienti in termini di costo. Beneficia i sistemi autonomi, l’analisi in tempo reale e i flussi di lavoro agente multi-modello. La sua progettazione open-source e modulare consente inoltre una facile personalizzazione, rendendolo adattabile per carichi di lavoro AI diversi.
Applicazioni e impatto nel mondo reale
NVIDIA Dynamo ha dimostrato il suo valore in diversi settori in cui l’inferenza AI in tempo reale è critica. Migliora i sistemi autonomi, l’analisi in tempo reale e le fabbriche AI, abilitando applicazioni AI ad alto throughput.
Aziende come Together AI hanno utilizzato Dynamo per scalare i carichi di lavoro di inferenza, raggiungendo fino a 30 volte di aumento della capacità quando eseguono modelli DeepSeek-R1 su GPU NVIDIA Blackwell. Inoltre, il routing intelligente delle richieste e la pianificazione della GPU di Dynamo migliorano l’efficienza nei grandi dispiegamenti AI.
Vantaggio competitivo: Dynamo vs. alternative
NVIDIA Dynamo offre vantaggi chiave rispetto ad alternative come AWS Inferentia e Google TPUs. È progettato per gestire carichi di lavoro AI su larga scala in modo efficiente, ottimizzando la pianificazione della GPU, la gestione della memoria e il routing delle richieste per migliorare le prestazioni su più GPU. A differenza di AWS Inferentia, che è strettamente legata all’infrastruttura cloud di AWS, Dynamo offre flessibilità supportando sia i dispiegamenti ibridi cloud che on-premise, aiutando le aziende a evitare il lock-in del fornitore.
Una delle forze di Dynamo è la sua architettura modulare open-source, che consente alle aziende di personalizzare il framework in base alle proprie esigenze. Ottimizza ogni fase del processo di inferenza, assicurando che i modelli AI funzionino in modo fluido ed efficiente, sfruttando al meglio le risorse computazionali disponibili. Con il suo focus sulla scalabilità e sulla flessibilità, Dynamo è adatto per le aziende che cercano una soluzione di inferenza AI efficiente in termini di costo e ad alte prestazioni.
Il punto fondamentale
NVIDIA Dynamo sta trasformando il mondo dell’inferenza AI fornendo una soluzione scalabile e efficiente alle sfide che le aziende affrontano con le applicazioni AI in tempo reale. La sua progettazione open-source e modulare consente di ottimizzare l’utilizzo della GPU, gestire meglio la memoria e dirigere le richieste in modo più efficace, rendendolo perfetto per attività AI su larga scala. Separando i processi chiave e consentendo alle GPU di adattarsi dinamicamente, Dynamo aumenta le prestazioni e riduce i costi.
A differenza dei sistemi tradizionali o dei concorrenti, Dynamo supporta sia i dispiegamenti ibridi cloud che on-premise, offrendo alle aziende maggiore flessibilità e riducendo la dipendenza da qualsiasi fornitore. Con le sue prestazioni impressionanti e la sua adattabilità, NVIDIA Dynamo stabilisce un nuovo standard per l’inferenza AI, offrendo alle aziende una soluzione avanzata, efficiente in termini di costo e scalabile per le loro esigenze AI.












