Intelligenza artificiale
All’interno di Microsoft’s Phi-3 Mini: un modello di intelligenza artificiale leggero che colpisce al di sopra del suo peso
Microsoft ha recentemente presentato il suo ultimo modello di linguaggio leggero chiamato Phi-3 Mini, dando il via a una serie di modelli di intelligenza artificiale compatti progettati per offrire prestazioni all’avanguardia pur essendo abbastanza piccoli da funzionare efficientemente su dispositivi con risorse di calcolo limitate. Con solo 3,8 miliardi di parametri, Phi-3 Mini è una frazione delle dimensioni dei giganti dell’IA come GPT-4, eppure promette di eguagliare le loro capacità in molte aree chiave.
Lo sviluppo di Phi-3 Mini rappresenta un importante traguardo nella ricerca di democratizzare le capacità avanzate di intelligenza artificiale, rendendole accessibili su una gamma più ampia di hardware. La sua piccola impronta gli consente di essere distribuito localmente su smartphone, tablet e altri dispositivi edge, superando i problemi di latenza e privacy associati ai modelli basati su cloud. Ciò apre nuove possibilità per esperienze intelligenti su dispositivo in vari domini, dalla assistenti virtuali e intelligenza artificiale conversazionale a assistenti di codifica e compiti di comprensione del linguaggio.

- 4-bit quantized phi-3-mini in esecuzione nativa su un iPhone
Sotto il cofano: Architettura e formazione
Al suo nucleo, Phi-3 Mini è un modello decodificatore transformer costruito su un’architettura simile a quella del modello open-source Llama-2. Presenta 32 livelli, 3072 dimensioni nascoste e 32 teste di attenzione, con una lunghezza di contesto predefinita di 4.000 token. Microsoft ha anche introdotto una versione a contesto lungo chiamata Phi-3 Mini-128K, che estende la lunghezza del contesto a 128.000 token utilizzando tecniche come LongRope.
Ciò che distingue Phi-3 Mini, tuttavia, è la sua metodologia di formazione. Invece di affidarsi solo alla forza bruta di enormi set di dati e potenza di calcolo, Microsoft si è concentrata sulla creazione di un set di dati di formazione di alta qualità, denso di ragionamento. Questi dati sono composti da dati web pesantemente filtrati, nonché dati sintetici generati da modelli di linguaggio più grandi.
Il processo di formazione segue un approccio a due fasi. Nella prima fase, il modello viene esposto a una gamma diversificata di fonti web finalizzate a insegnargli conoscenze generali e comprensione del linguaggio. La seconda fase combina dati web ancora più pesantemente filtrati con dati sintetici progettati per impartire abilità di ragionamento logico e competenze di nicchia.
Microsoft si riferisce a questo approccio come “regime di dati ottimali”, una deviazione dal tradizionale “regime di calcolo ottimale” o “regime di sovraformazione” utilizzato da molti grandi modelli di linguaggio. L’obiettivo è calibrare i dati di formazione per farli corrispondere alla scala del modello, fornendo il giusto livello di conoscenza e capacità di ragionamento, lasciando al contempo sufficiente capacità per altre funzionalità.

- Qualità dei nuovi modelli Phi-3, misurata dalle prestazioni sul benchmark Massive Multitask Language Understanding (MMLU)
Questo approccio basato sui dati ha dato i suoi frutti, poiché Phi-3 Mini raggiunge prestazioni notevoli su una vasta gamma di benchmark accademici, spesso rivaleggiando o superando modelli molto più grandi. Ad esempio, ottiene il 69% sul benchmark MMLU per apprendimento e comprensione multitasca e 8,38 sul benchmark MT-bench per ragionamento matematico – risultati che sono alla pari con modelli come Mixtral 8x7B e GPT-3.5.
Sicurezza e robustezza
Accanto alle sue prestazioni impressionanti, Microsoft ha posto un forte accento sulla sicurezza e sulla robustezza nello sviluppo di Phi-3 Mini. Il modello ha subito un rigoroso processo di formazione post-training che include formazione fine (SFT) e ottimizzazione delle preferenze dirette (DPO).
La fase SFT sfrutta dati altamente curati su diversi domini, tra cui matematica, codifica, ragionamento, conversazione, identità del modello e sicurezza. Ciò aiuta a rafforzare le capacità del modello in queste aree, instillando al contempo un forte senso di identità e comportamento etico.
La fase DPO, d’altra parte, si concentra su allontanare il modello da comportamenti indesiderati utilizzando risposte rifiutate come esempi negativi. Questo processo copre dati in formato chat, compiti di ragionamento e sforzi di intelligenza artificiale responsabile (RAI), garantendo che Phi-3 Mini aderisca ai principi di intelligenza artificiale etica e affidabile di Microsoft.
Per ulteriormente migliorare il suo profilo di sicurezza, Phi-3 Mini è stato sottoposto a test estensivi di red teaming e testing automatizzato su decine di categorie di danno RAI. Un team di red team indipendente di Microsoft ha esaminato iterativamente il modello, identificando aree di miglioramento, che sono state poi affrontate attraverso set di dati curati e ritrattamento.
Questo approccio multifase ha ridotto notevolmente l’incidenza di risposte dannose, inesattezze fattuali e pregiudizi, come dimostrato dai benchmark interni RAI di Microsoft. Ad esempio, il modello presenta bassi tassi di difetti per la continuazione di contenuti dannosi (0,75%) e riassunto (10%), nonché un basso tasso di infondamento (0,603), indicando che le sue risposte sono saldamente radicate nel contesto dato.
Applicazioni e casi d’uso
Con le sue prestazioni impressionanti e misure di sicurezza robuste, Phi-3 Mini è ben adatto a una vasta gamma di applicazioni, in particolare in ambienti con risorse limitate e scenari vincolati dalla latenza.
Una delle prospettive più emozionanti è il dispiegamento di assistenti virtuali intelligenti e intelligenza artificiale conversazionale direttamente su dispositivi mobili. Eseguendosi localmente, questi assistenti possono fornire risposte immediate senza la necessità di una connessione di rete, garantendo al contempo che i dati sensibili rimangano sul dispositivo, affrontando le preoccupazioni sulla privacy.
Le forti capacità di ragionamento di Phi-3 Mini lo rendono anche un asset prezioso per l’assistenza alla codifica e la risoluzione di problemi matematici. Sviluppatori e studenti possono trarre vantaggio dall’autocompletamento del codice sul dispositivo, rilevamento dei bug ed explicazioni, semplificando i processi di sviluppo e apprendimento.
Oltre a queste applicazioni, la versatilità del modello apre opportunità in aree come la comprensione del linguaggio, la sintesi del testo e la risposta alle domande. La sua piccola dimensione e l’efficienza lo rendono una scelta attraente per l’integrazione di funzionalità di intelligenza artificiale in una vasta gamma di dispositivi e sistemi, dalle applicazioni domestiche intelligenti ai sistemi di automazione industriale.
Guardando avanti: Phi-3 Small e Phi-3 Medium
Mentre Phi-3 Mini è un risultato notevole di per sé, Microsoft ha piani ancora più ambiziosi per la famiglia Phi-3. La società ha già presentato in anteprima due modelli più grandi, Phi-3 Small (7 miliardi di parametri) e Phi-3 Medium (14 miliardi di parametri), entrambi dei quali sono destinati a spingere i confini delle prestazioni per i modelli di linguaggio compatti.
Phi-3 Small, ad esempio, sfrutta un tokenizer più avanzato (tiktoken) e un meccanismo di attenzione a query raggruppate, insieme a un livello di attenzione blocksparse, per ottimizzare la sua impronta di memoria mantenendo al contempo le prestazioni di recupero del contesto lungo. Incorpora inoltre il 10% di dati multilingui in più, migliorando le sue capacità di comprensione e generazione del linguaggio su più lingue.
Phi-3 Medium, d’altra parte, rappresenta un notevole passo avanti in termini di scala, con 40 livelli, 40 teste di attenzione e una dimensione di incorporamento di 5.120. Sebbene Microsoft noti che alcuni benchmark possano richiedere ulteriori raffinamenti della miscela di dati di formazione per sfruttare appieno questa maggiore capacità, i risultati iniziali sono promettenti, con miglioramenti sostanziali rispetto a Phi-3 Small su compiti come MMLU, TriviaQA e HumanEval.
Limitazioni e direzioni future
Nonostante le sue capacità impressionanti, Phi-3 Mini, come tutti i modelli di linguaggio, non è senza limitazioni. Una delle debolezze più note è la sua capacità relativamente limitata di archiviazione di conoscenze fattuali, come evidenziato dalle sue prestazioni più basse sui benchmark come TriviaQA.
Tuttavia, Microsoft ritiene che questa limitazione possa essere mitigata aumentando il modello con funzionalità di motore di ricerca, consentendogli di recuperare e ragionare su informazioni rilevanti su richiesta. Questo approccio è dimostrato nell’interfaccia di chat di Hugging Face, dove Phi-3 Mini può sfruttare la ricerca per migliorare le sue risposte.
Un’altra area di miglioramento è la capacità multilingue del modello. Sebbene Phi-3 Small abbia fatto i primi passi incorporando dati multilingui aggiuntivi, ulteriori lavori sono necessari per sbloccare appieno il potenziale di questi modelli compatti per applicazioni cross-linguistiche.
Guardando avanti, Microsoft è impegnata a continuare ad avanzare la famiglia di modelli Phi, affrontando le loro limitazioni e ampliando le loro capacità. Ciò potrebbe coinvolgere ulteriori raffinamenti dei dati di formazione e della metodologia, nonché l’esplorazione di nuove architetture e tecniche specificamente progettate per modelli di linguaggio compatti e ad alte prestazioni.
Conclusione
Il Phi-3 Mini di Microsoft rappresenta un notevole balzo in avanti nella democratizzazione delle capacità avanzate di intelligenza artificiale. Fornendo prestazioni all’avanguardia in un pacchetto compatto ed efficiente in termini di risorse, apre nuove possibilità per esperienze intelligenti su dispositivo in una vasta gamma di applicazioni.
L’approccio innovativo di formazione del modello, che enfatizza dati di alta qualità e densi di ragionamento rispetto alla pura potenza di calcolo, si è rivelato un gioco-changer, consentendo a Phi-3 Mini di colpire al di sopra della sua categoria di peso. Combinato con le sue solide misure di sicurezza e gli sforzi di sviluppo in corso, la famiglia di modelli Phi-3 è pronta a svolgere un ruolo cruciale nella formazione del futuro dei sistemi intelligenti, rendendo l’intelligenza artificiale più accessibile, efficiente e affidabile che mai.
Mentre l’industria tecnologica continua a spingere i confini di ciò che è possibile con l’IA, l’impegno di Microsoft per modelli leggeri e ad alte prestazioni come Phi-3 Mini rappresenta una piacevole deviazione dalla saggezza convenzionale per cui “più grande è meglio”. Dimostrando che le dimensioni non sono tutto, Phi-3 Mini ha il potenziale per ispirare una nuova ondata di innovazione focalizzata sul massimizzare il valore e l’impatto dell’IA attraverso la cura intelligente dei dati, la progettazione del modello pensata e pratiche di sviluppo responsabili.












