Leader del pensiero
Ripensare l'open source nell'era dell'intelligenza artificiale generativa

Il modello open source – un'etica di sviluppo software in cui il codice sorgente viene reso disponibile gratuitamente per la ridistribuzione o la modifica al pubblico – è da tempo un catalizzatore di innovazione. L'ideale nacque nel 1983, quando Richard Stallman, uno sviluppatore di software, si sentì frustrato dal malfunzionamento della sua stampante closed source, che sembrava una scatola nera.
La sua visione ha dato il via al movimento del software libero, aprendo la strada all'ecosistema open source che alimenta gran parte dell'attuale innovazione di Internet e del software.
Ma questo è successo più di 40 anni fa.
Oggi, l'intelligenza artificiale generativa, con le sue sfide tecniche ed etiche uniche, sta rimodellando il significato di "apertura", chiedendoci di rivisitare e ripensare il paradigma open source, non per abbandonarlo, ma per adattarlo.
L'intelligenza artificiale e le libertà open source
Le quattro libertà fondamentali del software open source: la capacità di eseguire, studiare, modificare e ridistribuire qualsiasi codice software – sono in contrasto con la natura dell'intelligenza artificiale generativa in diversi modi:
- Esegui: I modelli di intelligenza artificiale richiedono spesso costi infrastrutturali e computazionali molto elevati, che limitare accesso a causa di limitazioni di risorse.
- Studia e modifica: I modelli di intelligenza artificiale sono incredibilmente complessi, quindi comprenderli e modificarli senza accesso sia al codice che ai dati che lo informano è una sfida significativa.
- ridistribuzione: Molti modelli di intelligenza artificiale limitare la ridistribuzione in base alla progettazione, in particolare quelli con pesi addestrati e set di dati proprietari di proprietà del fornitore della piattaforma.
L'erosione di questi principi fondamentali non è dovuta a intenzioni malevole, ma piuttosto all'enorme complessità e ai costi dei moderni sistemi di intelligenza artificiale. In effetti, le esigenze finanziarie per l'addestramento di modelli di intelligenza artificiale all'avanguardia sono aumentate drasticamente negli ultimi anni: il GPT-4 di OpenAI avrebbe comportato costi di addestramento pari a fino a $ 78 milioni, esclusi gli stipendi del personale, con spese totali superiore $100 milioni.
La complessità dell’intelligenza artificiale “open source”
Un modello di intelligenza artificiale veramente aperto richiederebbe la totale trasparenza del codice sorgente di inferenza, del codice sorgente di addestramento, dei pesi del modello e dei dati di addestramento. Tuttavia, molti modelli etichettati come "aperti" rilasciano solo codice di inferenza o pesi parziali, mentre altri offrono licenze limitate o ne limitano completamente l'uso commerciale.
Questa imparziale apertura crea l'illusione dei principi open source, ma nella pratica risulta carente.
Si consideri che un'analisi condotta dall'Open Source Initiative (OSI) ha rilevato che diversi modelli linguistici di grandi dimensioni molto diffusi affermando di essere open source – tra cui Llama2 e Llama 3.x (sviluppati da Meta), Grok (X), Phi-2 (Microsoft) e Mixtral (Mistral AI) – sono strutturalmente incompatibili con i principi open source.
Sfide di sostenibilità e incentivazione
La maggior parte del software open source è stata sviluppata grazie a sforzi volontari o finanziati da sovvenzioni, piuttosto che su infrastrutture ad alta intensità di calcolo e costose. I modelli di intelligenza artificiale, d'altra parte, sono costosi da addestrare e mantenere, e si prevede che i costi aumenteranno. Il CEO di Anthropic, Dario Amodei, prevede che alla fine potrebbe arrivare a costare fino a $100 miliardi per formare un modello all'avanguardia.
Senza un modello di finanziamento sostenibile o una struttura di incentivi, gli sviluppatori si trovano a dover scegliere tra limitare l'accesso tramite licenze closed-source o non commerciali o rischiare il collasso finanziario.
Idee sbagliate sui “pesi aperti” e sulle licenze
L'accessibilità dei modelli di intelligenza artificiale è diventata sempre più confusa, con molte piattaforme che si pubblicizzano come "aperte" mentre impongono restrizioni che contraddicono fondamentalmente i veri principi dell'open source. Questo "gioco di prestigio" si manifesta in molteplici modi:
- I modelli etichettati come "pesi aperti" potrebbero proibirne completamente l'uso commerciale, rimanendo più curiosità accademiche che strumenti pratici da esplorare e sviluppare per il pubblico.
- Alcuni provider offrono l'accesso a modelli pre-addestrati, ma custodiscono gelosamente i loro set di dati e le loro metodologie di addestramento, rendendo impossibile riprodurre o verificare i loro risultati in modo significativo.
- Molte piattaforme impongono restrizioni di ridistribuzione che impediscono agli sviluppatori di sviluppare o migliorare i modelli per le loro community, anche se possono "accedere" completamente al codice.
In questi casi, "aperto alla ricerca" è solo un doppio senso per "chiuso al commercio". Il risultato è una forma disonesta di vendor lock-in, in cui le organizzazioni investono tempo e risorse in piattaforme che sembrano accessibili a tutti, per poi scoprire limiti critici nel tentativo di scalare o commercializzare le applicazioni.
La confusione che ne deriva non solo frustra gli sviluppatori, ma mina attivamente la fiducia nell'ecosistema dell'IA. Crea aspettative irrealistiche tra gli stakeholder, che ragionevolmente presumono che l'IA "aperta" sia paragonabile alle comunità del software open source, dove trasparenza, diritti di modifica e libertà commerciale sono garantiti.
Ritardo legale
Il rapido progresso di GenAI sta già superando lo sviluppo di quadri giuridici adeguati, creando una complessa rete di sfide in materia di proprietà intellettuale che aggravano le preoccupazioni preesistenti.
Il primo grande campo di battaglia legale riguarda l'uso dei dati di addestramento. I modelli di deep learning estraggono grandi set di dati da Internet, come immagini disponibili al pubblico e il testo delle pagine web. Questa massiccia raccolta di dati ha acceso accesi dibattiti sui diritti di proprietà intellettuale. Le aziende tecnologiche sostengono che i loro sistemi di intelligenza artificiale studino e apprendano da materiali protetti da copyright per creare contenuti nuovi e trasformativi. I titolari dei diritti d'autore, tuttavia, sostengono che queste aziende di intelligenza artificiale copino illegalmente le loro opere, generando contenuti concorrenti che minacciano i loro mezzi di sostentamento.
La proprietà delle opere derivate generate dall'IA rappresenta un'ulteriore ambiguità giuridica. Nessuno sa con certezza come classificare i contenuti generati dall'IA, fatta eccezione per l'Ufficio per il Copyright degli Stati Uniti, che afferma che "se l'IA genera interamente contenuti, questi non possono essere protetti dal diritto d'autore".
L'incertezza giuridica che circonda la GenAI, in particolare per quanto riguarda la violazione del copyright, la proprietà delle opere generate dall'IA e i contenuti senza licenza nei dati di formazione, diventa ancora più tesa man mano che i modelli fondamentali dell'IA emergono come strumenti di importanza geopolitica: le nazioni che competono per sviluppare capacità di IA superiori potrebbero essere meno inclini a limitare l'accesso ai dati, mettendo i paesi con protezioni della proprietà intellettuale più severe in una situazione di svantaggio competitivo.
Cosa deve diventare l'open source nell'era dell'intelligenza artificiale
Il treno della GenAI ha già lasciato la stazione e non mostra segni di rallentamento. Speriamo di costruire un futuro in cui l'IA incoraggi l'innovazione, anziché soffocarla. In tal caso, i leader tecnologici hanno bisogno di un quadro normativo che garantisca un utilizzo commerciale sicuro e trasparente, promuova l'innovazione responsabile, affronti la questione della proprietà e delle licenze dei dati e distingua tra "open" e "free".
Un concetto emergente, il Licenza Open Commercial Source, potrebbe offrire una via d'uscita proponendo l'accesso gratuito per uso non commerciale, l'accesso con licenza per uso commerciale e il riconoscimento e il rispetto della provenienza e della proprietà dei dati.
Per adattarsi a questa nuova realtà, la comunità open source deve sviluppare modelli di licenza aperti specifici per l'intelligenza artificiale, formare partnership pubblico-private per finanziare tali modelli e stabilire standard affidabili per la trasparenza, la sicurezza e l'etica.
L'open source ha cambiato il mondo una volta. L'intelligenza artificiale generativa lo sta cambiando di nuovo. Per preservare lo spirito di apertura, dobbiamo evolvere la lettera della sua legge, riconoscendo le esigenze specifiche dell'intelligenza artificiale e affrontando le sfide a testa alta per creare un ecosistema inclusivo e sostenibile.