mozzicone Il futuro dell'intelligenza artificiale generativa è l'edge - Unite.AI
Seguici sui social

Leader del pensiero

Il futuro dell’intelligenza artificiale generativa è l’edge

mm

Pubblicato il

 on

L'avvento di ChatGPT e AI generativa in generale, rappresenta un momento spartiacque nella storia della tecnologia ed è paragonato agli albori di Internet e degli smartphone. L’intelligenza artificiale generativa ha mostrato un potenziale illimitato nella sua capacità di sostenere conversazioni intelligenti, superare esami, generare programmi/codici complessi e creare immagini e video accattivanti. Sebbene le GPU eseguano la maggior parte dei modelli Gen AI nel cloud, sia per l'addestramento che per l'inferenza, questa non è una soluzione scalabile a lungo termine, soprattutto per l'inferenza, a causa di fattori che includono costo, potenza, latenza, privacy e sicurezza. Questo articolo affronta ciascuno di questi fattori insieme a esempi motivanti per spostare i carichi di lavoro di calcolo della generazione AI all'edge.

La maggior parte delle applicazioni viene eseguita su processori ad alte prestazioni, sia su dispositivi (ad esempio smartphone, desktop, laptop) che in data center. Con l’aumento della quota di applicazioni che utilizzano l’intelligenza artificiale, questi processori dotati solo di CPU risultano inadeguati. Inoltre, la rapida espansione dei carichi di lavoro di intelligenza artificiale generativa sta determinando una domanda esponenziale di server abilitati all’intelligenza artificiale con GPU costose e assetate di energia che, a loro volta, stanno facendo aumentare i costi dell’infrastruttura. Questi server abilitati all’intelligenza artificiale possono costare fino a 7 volte il prezzo di un server normale e le GPU rappresentano l’80% di questo costo aggiuntivo.

Inoltre, un server basato su cloud consuma da 500 W a 2000 W, mentre un server abilitato all’intelligenza artificiale consuma tra 2000 W e 8000 W – 4 volte di più! Per supportare questi server, i data center necessitano di moduli di raffreddamento aggiuntivi e aggiornamenti dell'infrastruttura, che possono essere anche superiori all'investimento di elaborazione. I data center consumano già 300 TWH all’anno, quasi l’1% del consumo energetico totale mondiale Se le tendenze nell’adozione dell’intelligenza artificiale continuano, entro il 5 fino al 2030% dell’energia mondiale potrebbe essere utilizzata dai data center. Inoltre, c’è un investimento senza precedenti nei data center di intelligenza artificiale generativa. Si stima che i data center consumeranno fino a 500 miliardi di dollari per spese in conto capitale entro il 2027, alimentato principalmente dai requisiti infrastrutturali dell’IA.

Il consumo di elettricità dei Data Center, già pari a 300 TwH, aumenterà in modo significativo con l’adozione dell’intelligenza artificiale generativa.

I costi di calcolo dell’intelligenza artificiale e il consumo di energia impediranno l’adozione di massa dell’intelligenza artificiale generativa. Le sfide della scalabilità possono essere superate spostando il calcolo dell’intelligenza artificiale all’edge e utilizzando soluzioni di elaborazione ottimizzate per i carichi di lavoro dell’intelligenza artificiale. Con questo approccio, il cliente ottiene anche altri vantaggi, tra cui latenza, privacy, affidabilità e maggiore capacità.

Il calcolo segue i dati fino all'Edge

Sin da dieci anni fa, quando l’intelligenza artificiale è emersa dal mondo accademico, la formazione e l’inferenza dei modelli di intelligenza artificiale sono avvenute nel cloud/data center. Dato che gran parte dei dati vengono generati e consumati all'edge, in particolare i video, aveva senso spostare l'inferenza dei dati all'edge, migliorando così il costo totale di proprietà (TCO) per le imprese grazie alla riduzione dei costi di rete e di elaborazione. Mentre i costi dell’inferenza dell’intelligenza artificiale sul cloud sono ricorrenti, il costo dell’inferenza all’edge è una spesa hardware una tantum. In sostanza, potenziare il sistema con un processore Edge AI riduce i costi operativi complessivi. Come la migrazione dei carichi di lavoro di intelligenza artificiale convenzionali all’Edge (ad esempio, dispositivi, dispositivi), i carichi di lavoro di intelligenza artificiale generativa seguiranno l’esempio. Ciò porterà notevoli risparmi alle imprese e ai consumatori.

Il passaggio all’edge, abbinato a un efficiente acceleratore AI per eseguire funzioni di inferenza, offre anche altri vantaggi. Il primo tra questi è la latenza. Ad esempio, nelle applicazioni di gioco, i personaggi non giocanti (NPC) possono essere controllati e potenziati utilizzando l'intelligenza artificiale generativa. Utilizzando modelli LLM eseguiti su acceleratori IA all'avanguardia in una console di gioco o in un PC, i giocatori possono assegnare a questi personaggi obiettivi specifici, in modo che possano partecipare in modo significativo alla storia. La bassa latenza dell'inferenza del bordo locale consentirà ai discorsi e ai movimenti degli NPC di rispondere ai comandi e alle azioni dei giocatori in tempo reale. Ciò offrirà un'esperienza di gioco altamente coinvolgente in modo conveniente ed efficiente dal punto di vista energetico.

In applicazioni come quella sanitaria, la privacy e l'affidabilità sono estremamente importanti (ad esempio, valutazione dei pazienti, raccomandazioni sui farmaci). I dati e i modelli Gen AI associati devono essere on-premise per proteggere i dati dei pazienti (privacy) e qualsiasi interruzione della rete che bloccherà l’accesso ai modelli AI nel cloud può essere catastrofica. Un'appliance Edge AI che esegue un modello Gen AI creato appositamente per ciascun cliente aziendale, in questo caso un fornitore di servizi sanitari, può risolvere perfettamente i problemi di privacy e affidabilità garantendo al tempo stesso latenza e costi inferiori.

L’intelligenza artificiale generativa sui dispositivi edge garantirà una bassa latenza nei giochi, preserverà i dati dei pazienti e migliorerà l’affidabilità per l’assistenza sanitaria.

Molti modelli di intelligenza artificiale in esecuzione sul cloud possono avvicinarsi a un trilione di parametri: questi modelli possono rispondere in modo efficace a query di carattere generale. Tuttavia, le applicazioni specifiche dell'azienda richiedono che i modelli forniscano risultati pertinenti al caso d'uso. Prendiamo l'esempio di un assistente basato sulla Gen AI creato per prendere ordini in un fast food: affinché questo sistema possa interagire senza interruzioni con il cliente, il modello Gen AI sottostante deve essere addestrato sulle voci del menu del ristorante, conoscendo anche gli allergeni e gli ingredienti . La dimensione del modello può essere ottimizzata utilizzando un superset Large Language Model (LLM) per addestrare un LLM relativamente piccolo, da 10-30 miliardi di parametri, e quindi utilizzare un'ulteriore messa a punto con i dati specifici del cliente. Un modello di questo tipo può fornire risultati con maggiore precisione e capacità. E date le dimensioni più ridotte del modello, può essere implementato in modo efficace su un acceleratore AI sull’Edge.

Generazione AI vincerà a Edge

Ci sarà sempre bisogno di Gen AI in esecuzione nel cloud, in particolare per applicazioni generiche come ChatGPT e Claude. Ma quando si tratta di applicazioni aziendali specifiche, come il riempimento generativo di Adobe Photoshop o il copilota Github, l'intelligenza artificiale generativa su Edge non è solo il futuro, è anche il presente. Gli acceleratori di intelligenza artificiale appositamente realizzati sono la chiave per rendere tutto ciò possibile.

In qualità di veterano della Silicon Valley e CEO di Kinara Inc, Ravi Annavajjhala vanta oltre 20 anni di esperienza nello sviluppo aziendale, nel marketing e nell'ingegneria, nella creazione di prodotti tecnologici all'avanguardia e
portandoli sul mercato. Nel suo attuale ruolo di amministratore delegato di Deep Vision, Ravi continua a prestare servizio
il suo consiglio di amministrazione e ha raccolto 50 milioni di dollari portando il processore Ara-1 dell'azienda dal pre-silicio a
produzione su larga scala e aumentare il volume del processore di seconda generazione, Ara-2. Prima di aderire
Deep Vision, Ravi ha ricoperto posizioni di leadership esecutiva presso Intel e SanDisk, dove ha ricoperto ruoli chiave
nel guidare la crescita dei ricavi, nell'evoluzione delle partnership strategiche e nello sviluppo di roadmap di prodotto
ha guidato il settore con caratteristiche e capacità all'avanguardia.