Connect with us

La Parete GPU Sta Cedendo: La Rivoluzione Invisibile nell’Architettura Post-Transformer

Intelligenza artificiale

La Parete GPU Sta Cedendo: La Rivoluzione Invisibile nell’Architettura Post-Transformer

mm

Per gli ultimi cinque anni, l’industria dell’intelligenza artificiale è stata sostanzialmente sinonimo di una parola: Transformer. Dalla pubblicazione del seminale “Attention Is All You Need” nel 2017, questa architettura ha dominato il settore. Da GPT a Claude, virtualmente ogni modello che fa notizia si basa sullo stesso meccanismo di base di auto-attenzione. Abbiamo largamente assunto che il percorso verso un miglior AI sia semplicemente una questione di scala. Nella pratica, ciò significa addestrare Transformer più grandi con più dati su cluster più grandi di GPU.

Mentre questa convinzione ha guidato molti progressi, ora sta raggiungendo i suoi limiti. Stiamo colpendo un “Muro GPU”, una barriera non solo di potenza di calcolo grezza, ma anche di larghezza di banda della memoria e sostenibilità economica. Mentre il mondo si concentra sulla corsa ai modelli con un trilione di parametri, un radicale cambiamento sta avvenendo nei laboratori di ricerca. Una nuova ondata di “architetture post-Transformer” sta emergendo per infrangere i limiti del paradigma attuale. Questo cambiamento promette di rendere l’AI più efficiente, accessibile e capace di ragionare su contesti infiniti.

Il Soffitto di Silicio: Perché i Transformer Stanno Colpendo un Muro

Per capire perché abbiamo bisogno di un cambiamento, dobbiamo prima capire l’ostacolo del regime attuale. I Transformer sono incredibilmente potenti, ma sono anche notevolmente inefficienti in modi specifici. Il nucleo della loro capacità risiede nel “meccanismo di attenzione”, che consente al modello di guardare ogni token in una sequenza e calcolare la sua relazione con ogni altro token. Ciò è ciò che gli dà la capacità di comprendere il contesto in modo notevole.

Tuttavia, questa capacità viene con un difetto fatale di crescita quadratica. Se si raddoppia la lunghezza del documento che si desidera far leggere all’AI, il lavoro computazionale richiesto non si limita a raddoppiare, ma quadruplica. Mentre cerchiamo di creare modelli “a contesto infinito” che possano leggere intere biblioteche o codici, le richieste computazionali diventano estremamente elevate.

Ma il problema più immediato è la memoria, in particolare il “KV Cache” (Cache Chiave-Valore). Per generare testo in modo fluido, un Transformer deve mantenere una storia in corso di tutto ciò che ha appena detto nella memoria ad alta velocità della GPU (VRAM). Man mano che la conversazione si allunga, questa cache si gonfia, consumando enormi quantità di memoria solo per ricordare cosa è successo tre paragrafi fa.

Ciò crea il “Muro GPU”. Non stiamo solo esaurendo i chip; stiamo esaurendo la larghezza di banda della memoria per alimentarli. Abbiamo costruito motori che stanno diventando sempre più grandi, ma stanno diventando impossibili da alimentare. Per lungo tempo, la soluzione dell’industria è stata semplicemente acquistare più NVIDIA H100. Ma questa forza bruta sta raggiungendo un punto di rendimenti decrescenti. Non abbiamo bisogno di un motore che consumi carburante quadraticamente, ma di una nuova architettura.
<h2-La Rivoluzione Invisibile

Mentre la ricerca mainstream si è concentrata sugli LLM, un gruppo di ricercatori ha ripreso un’idea vecchia: Reti Neurali Ricorrenti (RNN). Prima dei Transformer, le RNN erano lo standard per il linguaggio. Elaboravano il testo in modo sequenziale, parola per parola, aggiornando uno stato interno nascosto man mano che procedevano. Erano incredibilmente efficienti perché non avevano bisogno di guardare indietro alla storia intera, ma portavano solo l'”essenza” di essa nella loro memoria.

Le RNN fallirono perché non potevano gestire dipendenze lunghe; “dimenticavano” l’inizio di una frase quando raggiungevano la fine. Erano anche lente nell’addestramento perché non potevano essere parallelizzate. Ciò significa che dovevate elaborare la parola A prima di poter elaborare la parola B. I Transformer hanno risolto questo problema elaborando tutto contemporaneamente (parallelizzazione) e mantenendo tutto in memoria (attenzione).

Ora stiamo assistendo alla nascita di architetture che combinano il meglio di entrambi i mondi. Queste sono conosciute in generale come Modelli di Spazio di Stato (SSM). Offrono la velocità di addestramento dei Transformer (parallelizzabili) ma l’efficienza di inferenza delle RNN (crescita lineare).

Una delle architetture prominenti in questa nuova ondata è Mamba. Rilasciata alla fine del 2023 e raffinata nel 2024, Mamba è un cambiamento fondamentale nel modo in cui i modelli gestiscono le informazioni. A differenza di un Transformer, che mantiene una copia originale di ogni parola che ha mai visto nel suo buffer di memoria, Mamba utilizza uno “spazio di stato selettivo”.

Possiamo capire la differenza tra Transformer e Mamba immaginando il Transformer come uno studioso che tiene aperto ogni libro che ha mai letto su una grande scrivania, costantemente scansionando avanti e indietro per trovare connessioni. Mamba, al contrario, è uno studioso che legge il libro una volta e comprime le informazioni chiave in un taccuino altamente efficiente. Quando Mamba genera la prossima parola, non deve guardare indietro al testo grezzo; guarda il suo stato compresso.

Questa distinzione cambia l’economia del deploy dell’AI. Con Mamba e architetture simili come RWKV (Receptance Weighted Key Value), il costo di generare testo non esplode man mano che la sequenza si allunga. Teoricamente, potreste alimentare questi modelli con un milione di parole di contesto, e il costo computazionale per generare il prossimo token rimane lo stesso come se aveste alimentato solo dieci parole.

Il Ritorno della Ricorrenza

La svolta tecnica dietro Mamba è la “selettività”. I precedenti tentativi di modernizzare le RNN fallirono perché erano troppo rigidi. Comprimevano le informazioni in modo uniforme, indipendentemente dal fatto che fossero importanti o rumore. Mamba introduce un meccanismo che consente al modello di decidere dinamicamente cosa ricordare e cosa dimenticare man mano che elabora i dati.

Se il modello riceve un’informazione importante, come una definizione di variabile in un blocco di codice, “apre la porta” e scrive fortemente nel suo stato. Se affronta parole di riempimento o rumore irrilevante, chiude la porta, preservando la sua capacità di memoria limitata per ciò che conta.

Questa selettività risolve efficacemente il problema del “dimenticare” che ha sfidato le vecchie RNN. In molti test, i modelli basati su Mamba eguagliano le prestazioni dei Transformer della stessa dimensione ma eseguono fino a cinque volte più velocemente durante l’inferenza. Più importante ancora, le loro impronte di memoria sono molto più piccole. Ciò apre la porta per LLM ad alte prestazioni che possono eseguire su dispositivi che in precedenza si pensava non fossero in grado di gestirli, come laptop, reti di edge computing o addirittura smartphone, senza scaricare nel cloud.

Stiamo anche assistendo alla nascita di Hyena, un’altra architettura sub-quadratica che utilizza convoluzioni lunghe per elaborare i dati. Come Mamba, Hyena mira a rimuovere i pesanti strati di “attenzione” del Transformer e sostituirli con operazioni matematiche che sono molto più economiche per l’hardware. Questi modelli hanno iniziato a sfidare i Transformer dominanti nelle principali classifiche.
<h2-La Ascesa degli Ibridi

La rivoluzione, tuttavia, potrebbe non essere una completa sostituzione del Transformer, ma piuttosto un’evoluzione in forme ibride. Stiamo già vedendo l’emergere di modelli come Jamba (di AI21 Labs), che combina strati di Transformer con strati di Mamba.

Questo approccio ibrido offre un modo pratico per affrontare le limitazioni dei Transformer. I Transformer rimangono eccezionalmente forti in certi compiti, specialmente per copiare dettagli precisi dal contesto. Mescolando strati di Mamba (che gestiscono la maggior parte dell’elaborazione dei dati e della memoria a lungo termine) con alcuni strati di attenzione del Transformer (che gestiscono il ragionamento immediato e netto), otteniamo un modello che combina il meglio di entrambi i mondi.

Un modello ibrido crea una finestra di contesto enorme che è effettivamente utilizzabile. Attualmente, molti “lunghi contesti” dei Transformer affermano di gestire 100.000 token, ma le loro prestazioni peggiorano rapidamente man mano che il contesto si riempie. Questo fenomeno è noto come “perduto nel mezzo“. L’architettura ibrida mantiene la coerenza molto meglio su lunghe distanze perché gli strati SSM sono progettati specificamente per comprimere e trasportare lo stato nel tempo.

Questi sviluppi spostano l’attenzione dell’industria da “Training Compute” (quanto grande è il cluster che devo costruire per creare il modello?) a “Inference Economics” (quanto cheaply posso servire questo modello a un miliardo di utenti?). Se un modello ibrido può servire un utente al 10% del costo di un Transformer, il caso d’uso per le applicazioni AI cambia nel giro di una notte.

Il Futuro del Deploy dell’AI

Le implicazioni di questa rivoluzione post-Transformer non sono limitate solo al data center. Il Muro GPU ha storicamente agito come un guardiano, assicurandosi che solo i più grandi giganti tecnologici con miliardi di dollari in hardware potessero costruire ed eseguire modelli all’avanguardia. Architetture efficienti come Mamba e RWKV democratizzano questo potere. Se potete eseguire un modello di livello GPT-4 su una scheda di consumo perché non avete più bisogno di terabyte di VRAM per la cache Chiave-Valore, il controllo centralizzato dell’AI inizia a allentarsi. Potremmo vedere una rinascita di agenti AI locali e privati che vivono interamente sul vostro computer, elaborando i vostri dati privati senza mai inviare un pacchetto al cloud.

Inoltre, questa efficienza è la chiave per sbloccare sistemi AI “Agentic AI” che eseguono in background per ore o giorni per completare compiti complessi. I Transformer attuali sono troppo costosi e lenti per eseguire in loop continui per lunghi periodi. Un’architettura efficiente e lineare può “pensare” ed elaborare loop in modo continuo senza mandare in bancarotta l’utente o surriscaldare l’hardware.

Il Fondamentale

Il Transformer ha dominato i titoli dell’AI, ma dietro le quinte, una rivoluzione silenziosa è in corso. Il Muro GPU sta spingendo i ricercatori a ripensare come i modelli gestiscono la memoria e il calcolo. Le architetture post-Transformer come Mamba e i modelli ibridi stanno dimostrando che l’efficienza, non solo la scala, definirà la prossima era. Queste innovazioni rendono le finestre di contesto massive pratiche, l’inferenza più economica e l’AI avanzata accessibile oltre i data center. Il futuro dell’AI non si trova in modelli più grandi, ma in modelli più intelligenti che ricordano, ragionano e scalano in modo efficiente.

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.