Finanziamenti

Cerebras ottiene 1,1 miliardi di dollari nella serie G a una valutazione di 8,1 miliardi di dollari per ridefinire la corsa ai chip AI

mm

Cerebras Systems ha annunciato il completamento di un round di finanziamento oversubscribed di 1,1 miliardi di dollari nella serie G, valutando l’azienda a 8,1 miliardi di dollari. Il finanziamento è stato guidato da Fidelity Management & Research e Atreides Management, con la partecipazione di Tiger Global, Valor Equity Partners, 1789 Capital e degli azionisti esistenti Altimeter, Alpha Wave e Benchmark.

L’azienda afferma che il capitale accelererà lo sviluppo dei processori a scala di wafer, espanderà le capacità di produzione negli Stati Uniti e aumenterà la presenza nei data center. Ciò posiziona Cerebras per soddisfare la domanda esplosiva di carichi di lavoro di inferenza che stanno diventando la colonna vertebrale della distribuzione di AI moderna.

Perché Cerebras si distingue

Mentre Nvidia domina l’addestramento di grandi modelli di intelligenza artificiale con le sue GPU, Cerebras ha puntato sull’inferenza, dove i modelli vengono distribuiti in ambienti reali. Nel corso dell’ultimo anno, Cerebras ha costantemente dimostrato velocità più di 20 volte superiori a quelle delle GPU Nvidia in un’ampia gamma di modelli. Quel vantaggio di prestazioni ha alimentato un’enorme adozione in aziende, governi e istituti di ricerca.

La chiave risiede nel Wafer Scale Engine (WSE) di Cerebras, il chip di semiconduttore più grande del mondo. L’ultima generazione, WSE-3, integra quasi un milione di core ottimizzati per l’intelligenza artificiale su un’intera fetta di silicio, evitando i collo di bottiglia della comunicazione che si verificano quando i carichi di lavoro vengono distribuiti su più GPU. Questo design riduce la latenza e il consumo di energia mentre aumenta il throughput, rendendolo ideale per i compiti di inferenza in cui la velocità e l’efficienza sono fondamentali.

Come si confronta con Nvidia e Groq

Cerebras non è l’unico a ripensare l’hardware di inferenza. Groq ha intrapreso una strada diversa con le sue Language Processing Units, progettate per una latenza ultra-bassa e prestazioni deterministiche in scenari leggeri e in tempo reale. Nvidia, nel frattempo, continua a dominare il panorama dell’addestramento e offre un’ampia gamma di supporto per l’inferenza attraverso il suo ecosistema CUDA e le GPU per data center.

La competizione mette in evidenza un’industria che si sta dividendo in architetture specializzate. La forza di Nvidia rimane la sua versatilità e il suo ecosistema. Groq si concentra su carichi di lavoro in tempo reale e leggeri. Cerebras, invece, sta puntando sulla fascia alta dello spettro, dove modelli enormi richiedono un enorme throughput e efficienza. Il suo approccio a scala di wafer potrebbe non essere così modulare come i cluster di GPU, ma offre un vantaggio decisivo quando i carichi di lavoro di inferenza raggiungono trilioni di token al mese.

Momentum e posizione sul mercato

I sistemi di Cerebras sono già utilizzati da grandi aziende tecnologiche e istituzioni, tra cui AWS, Meta, IBM, Mistral, Cognition e Notion, insieme a governi e centri di ricerca come il Dipartimento dell’Energia degli Stati Uniti e il Dipartimento della Difesa. L’azienda è anche diventata il principale fornitore di inferenza su Hugging Face, servendo oltre cinque milioni di richieste mensili di sviluppatori.

Questo momentum sottolinea come l’economia dell’AI stia cambiando. Mentre l’addestramento rimane costoso e intensivo in termini di risorse, il valore a lungo termine risiede nella distribuzione dei modelli su larga scala. Le aziende sono sempre più sensibili ai costi, alla latenza e all’affidabilità dell’inferenza – fattori che giocano direttamente nelle forze di Cerebras.

Sfide future

L’ascesa di Cerebras non è senza ostacoli significativi. I progetti a scala di wafer sono notoriamente difficili da produrre. I rendimenti possono essere bassi, i difetti costosi e le soluzioni di raffreddamento complesse, il che rende rischiosa e costosa la scalabilità della produzione. A differenza dei cluster di GPU modulari, dove i chip difettosi possono essere sostituiti individualmente, i sistemi a scala di wafer sono meno perdonanti.

L’azienda ha anche affrontato critiche riguardo alla concentrazione dei clienti. Nei precedenti resoconti finanziari, Cerebras ha rivelato che la stragrande maggioranza dei suoi ricavi nel primo semestre del 2024 proveniva da un solo cliente. Questo tipo di dipendenza espone l’azienda a volatilità se i partner chiave cambiano strategia, adottano hardware alternativo o decidono di diversificare i propri fornitori di calcolo.

Le dinamiche regolamentari aggiungono un altro livello di complessità. Cerebras ha presentato in via confidenziale una richiesta di IPO nel 2024, ma l’ha rinviata a causa di recensioni di sicurezza nazionale legate al suo precedente accordo con G42, un’azienda di intelligenza artificiale di Abu Dhabi. I regolatori statunitensi hanno sempre più esaminato gli investimenti e le partnership esteri nel settore dei chip di intelligenza artificiale, complicando il percorso di Cerebras verso i mercati pubblici. Se il nuovo round di finanziamento di 1,1 miliardi di dollari compra tempo, solleva anche aspettative che l’azienda debba presto mostrare una crescita dei ricavi sostenibile e una diversificazione per soddisfare sia gli investitori che i regolatori.

Infine, la concorrenza si sta intensificando. Nvidia continua a innovare rapidamente con le sue GPU Blackwell e il suo ecosistema software. Groq sta guadagnando consensi nell’inferenza in tempo reale. I hyperscaler come Amazon, Microsoft e Google stanno costruendo silicio personalizzato per ridurre la dipendenza da terze parti. Cerebras deve dimostrare che il suo approccio a scala di wafer non è solo più veloce, ma anche scalabile, efficiente in termini di costo e difendibile contro sia gli incumbent che i nuovi entranti.

Calcolo dell’inferenza e il futuro dell’AI

Cerebras ha raccolto fondi per sottolineare un momento cruciale nell’evoluzione dell’AI: lo spostamento dell’attenzione dall’addestramento all’inferenza. L’addestramento determina quanto rapidamente possono emergere nuovi modelli all’avanguardia, ma l’inferenza decide quanto ampiamente e efficientemente possono essere distribuiti. L’hardware di inferenza sta diventando il collo di bottiglia critico – e l’opportunità – per l’industria.

Man mano che i modelli crescono e le loro applicazioni si spostano in domini in tempo reale come il ragionamento, i sistemi agente e la generazione di codice, la velocità e l’efficienza definiranno il vantaggio competitivo. Le aziende che possono fornire inferenza a basso costo, a bassa latenza e su larga scala plasmeranno chi vince nell’AI generativa. Nvidia, Cerebras, Groq e le iniziative di chip personalizzato dei giganti del cloud stanno tutti convergendo su questo spazio, ognuno portando diversi punti di forza.

Il futuro dell’AI non sarà determinato solo da chi addestra i modelli più grandi. Sarà deciso da chi può consegnare quei modelli nel mondo – alimentando aziende, governi e sviluppatori – con le piattaforme di inferenza più veloci, più economiche e più efficienti in termini energetici. Il finanziamento di un miliardo di dollari di Cerebras mostra quanto centrale sia diventata questa corsa.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.