Intelligenza artificiale
Perché il modello di intelligenza artificiale Orca-2 di Microsoft segna un passo significativo verso un’intelligenza artificiale sostenibile?

Nonostante i notevoli progressi compiuti dall’intelligenza artificiale nell’ultimo decennio, che includono la sconfitta dei campioni umani in giochi strategici come Scacchi e GO e la previsione della struttura tridimensionale delle proteine, l’adozione diffusa di modelli linguistici di grandi dimensioni (LLM) segna un cambiamento di paradigma. Questi modelli, pronti a trasformare le interazioni uomo-computer, sono diventati indispensabili in vari settori, tra cui istruzione, servizi clienti, recupero di informazioni, sviluppo software, media e sanità. Mentre questi progressi tecnologici sbloccano scoperte scientifiche e alimentano la crescita industriale, esiste un notevole svantaggio per il pianeta.
Il processo di formazione e utilizzo di LLM consuma una quantità enorme di energia, risultando in un impatto ambientale sostanziale segnato da un aumento dell’impronta carbonica e delle emissioni di gas serra. Uno studio recente del College of Information and Computer Sciences dell’Università del Massachusetts Amherst ha rivelato che la formazione di LLM può emettere oltre 626.000 libbre di anidride carbonica, grossomodo equivalente alle emissioni di cinque auto durante la loro vita. Hugging Face, una startup di intelligenza artificiale, ha scoperto che la formazione di BLOOM, un modello linguistico di grandi dimensioni lanciato all’inizio dell’anno, ha portato a 25 tonnellate metriche di emissioni di anidride carbonica. Allo stesso modo, il modello di intelligenza artificiale di Facebook, Meena, accumula un’impronta carbonica paragonabile all’impatto ambientale di guidare un’auto per più di 240.000 miglia durante il suo processo di formazione.
Nonostante la formazione di LLM, la domanda di calcolo cloud, cruciale per LLM, contribuisce ora a più emissioni dell’intero settore aereo. Un singolo data center può consumare quanto 50.000 case. Un altro studio sottolinea che la formazione di un singolo modello linguistico di grandi dimensioni può rilasciare tanto CO2 quanto cinque auto che utilizzano energia durante tutta la loro vita. Le previsioni suggeriscono che le emissioni di intelligenza artificiale aumenteranno del 300% entro il 2025, sottolineando l’urgenza di bilanciare i progressi dell’intelligenza artificiale con la responsabilità ambientale e sollecitando iniziative per rendere l’intelligenza artificiale più ecologica. Per affrontare l’impatto ambientale negativo dei progressi dell’intelligenza artificiale, l’intelligenza artificiale sostenibile sta emergendo come un campo di studio cruciale.
Intelligenza artificiale sostenibile
L’intelligenza artificiale sostenibile rappresenta un cambiamento di paradigma nello sviluppo e nella distribuzione di sistemi di intelligenza artificiale, concentrandosi sulla minimizzazione dell’impatto ambientale, sulle considerazioni etiche e sui benefici sociali a lungo termine. L’approccio mira a creare sistemi intelligenti che siano efficienti in termini energetici, responsabili ambientalmente e allineati con i valori umani. L’intelligenza artificiale sostenibile si concentra sull’uso di energia pulita per i computer, algoritmi intelligenti che utilizzano meno potenza e seguendo linee guida etiche per garantire decisioni eque e trasparenti. È importante notare che esiste una differenza tra intelligenza artificiale per la sostenibilità e intelligenza artificiale sostenibile; il primo potrebbe coinvolgere l’uso di intelligenza artificiale per ottimizzare i processi esistenti senza necessariamente considerare le conseguenze ambientali o sociali, mentre il secondo integra attivamente i principi di sostenibilità in ogni fase dello sviluppo di intelligenza artificiale, dalla progettazione alla distribuzione, per creare un impatto positivo e duraturo sul pianeta e sulla società.
Dai modelli linguistici di grandi dimensioni ai modelli linguistici di piccole dimensioni (SLM)
Nella ricerca di un’intelligenza artificiale sostenibile, Microsoft sta lavorando allo sviluppo di modelli linguistici di piccole dimensioni (SLM) per allinearsi con le capacità dei modelli linguistici di grandi dimensioni (LLM). In questo sforzo, hanno recentemente introdotto Orca-2, progettato per ragionare come GPT-4. A differenza del suo predecessore, Orca-1, che vanta 13 miliardi di parametri, Orca-2 contiene 7 miliardi di parametri utilizzando due tecniche chiave.
- Instruction Tuning: Orca-2 migliora imparando da esempi, migliorando la qualità del contenuto, le capacità zero-shot e le abilità di ragionamento in vari compiti.
- Explanation Tuning: Riconoscendo le limitazioni dell’istruzione di tuning, Orca-2 introduce Explanation Tuning. Ciò comporta la creazione di spiegazioni dettagliate per i modelli insegnanti, arricchendo i segnali di ragionamento e migliorando la comprensione generale.
Orca-2 utilizza queste tecniche per raggiungere un ragionamento altamente efficiente, paragonabile a ciò che i LLM raggiungono con molti più parametri. L’idea principale è quella di consentire al modello di scoprire il modo migliore per risolvere un problema, sia che si tratti di fornire una risposta rapida o di pensare passo dopo passo. Microsoft chiama questo “Ragionamento cauto”.
Per addestrare Orca-2, Microsoft costruisce un nuovo set di dati di addestramento utilizzando annotazioni FLAN, Orca-1 e il set di dati Orca-2. Iniziano con domande facili, aggiungono alcune domande difficili e poi utilizzano dati da modelli di conversazione per renderlo ancora più intelligente.
Orca-2 subisce una valutazione approfondita, coprendo ragionamento, completamento di testo, fondamento, veridicità e sicurezza. I risultati mostrano il potenziale di migliorare il ragionamento SLM attraverso un addestramento specializzato su dati sintetici. Nonostante alcune limitazioni, i modelli Orca-2 mostrano promesse per future migliorie nel ragionamento, nel controllo e nella sicurezza, dimostrando l’efficacia dell’applicazione di dati sintetici in modo strategico nel raffinare il modello dopo l’addestramento.
Importanza di Orca-2 per l’intelligenza artificiale sostenibile
Orca-2 rappresenta un balzo significativo verso l’intelligenza artificiale sostenibile, sfidando la convinzione prevalente che solo modelli più grandi, con il loro consumo energetico sostanziale, possano veramente avanzare le capacità dell’intelligenza artificiale. Questo modello linguistico di piccole dimensioni presenta una prospettiva alternativa, suggerendo che raggiungere l’eccellenza nei modelli linguistici non richiede necessariamente enormi set di dati e potenza di calcolo estensiva. Invece, sottolinea l’importanza della progettazione intelligente e dell’integrazione efficace.
Questo progresso apre nuove possibilità, sostenendo un cambiamento di focus – da semplicemente ingrandire l’intelligenza artificiale a concentrarsi su come la progettiamo. Ciò segna un passo cruciale nel rendere l’intelligenza artificiale avanzata più accessibile a un pubblico più ampio, assicurando che l’innovazione sia inclusiva e raggiunga un’ampia gamma di persone e organizzazioni.
Orca-2 ha il potenziale di avere un impatto significativo sullo sviluppo di futuri modelli linguistici. Che si tratti di migliorare compiti relativi all’elaborazione del linguaggio naturale o di abilitare applicazioni di intelligenza artificiale più sofisticate in vari settori, questi modelli più piccoli sono pronti a portare cambiamenti positivi sostanziali. Inoltre, agiscono come pionieri nella promozione di pratiche di intelligenza artificiale più sostenibili, allineando il progresso tecnologico con un impegno per la responsabilità ambientale.
Riepilogo:
Il modello Orca-2 di Microsoft rappresenta un passo innovativo verso l’intelligenza artificiale sostenibile, sfidando la convinzione che solo i modelli più grandi possano avanzare l’intelligenza artificiale. Prioritizzando la progettazione intelligente rispetto alle dimensioni, Orca-2 apre nuove possibilità, offrendo un approccio più inclusivo e responsabile ambientalmente allo sviluppo di intelligenza artificiale avanzata. Questo cambiamento segna un passo significativo verso un nuovo paradigma nella progettazione di sistemi intelligenti.












