Intelligenza artificiale
La piattaforma di inferenza di Microsoft porta i modelli linguistici di grandi dimensioni a 1 bit sui dispositivi locali

Il 17 ottobre 2024, Microsoft ha annunciato BitNet.cpp, una piattaforma di inferenza progettata per eseguire modelli linguistici di grandi dimensioni (LLM) quantizzati a 1 bit. BitNet.cpp rappresenta un progresso significativo nell’ambito dell’intelligenza artificiale generale, consentendo il deploy efficiente di LLM a 1 bit su CPU standard, senza richiedere costose GPU. Questo sviluppo democratizza l’accesso agli LLM, rendendoli disponibili su una vasta gamma di dispositivi e offrendo nuove possibilità per le applicazioni di intelligenza artificiale sul dispositivo.
Comprendere i modelli linguistici di grandi dimensioni a 1 bit
I modelli linguistici di grandi dimensioni (LLM) hanno tradizionalmente richiesto risorse computazionali significative a causa dell’utilizzo di numeri in virgola mobile ad alta precisione (tipicamente FP16 o BF16) per i pesi del modello. Questa necessità ha reso il deploy degli LLM costoso e intensivo in termini di energia.
In sostanza, i modelli linguistici di grandi dimensioni a 1 bit utilizzano tecniche di quantizzazione estreme per rappresentare i pesi del modello utilizzando solo tre valori possibili: -1, 0 e 1, da cui il termine “1,58 bit” (poiché richiede leggermente più di un bit per codificare tre stati).
Sistema di pesi ternari
Il concetto
La quantizzazione a 1 bit in BitNet.cpp è un sistema di pesi ternari. BitNet opera con solo tre valori possibili per ogni parametro:
- -1 (negativo)
- 0 (neutro)
- 1 (positivo)
Ciò si traduce in una richiesta di archiviazione di circa 1,58 bit per parametro, da cui il nome BitNet b1.58. La riduzione drastica della larghezza del bit dei parametri comporta una riduzione impressionante dell’utilizzo della memoria e della complessità computazionale, poiché la maggior parte delle moltiplicazioni in virgola mobile vengono sostituite con semplici addizioni e sottrazioni.












