Connect with us

Leader di pensiero

Rivedere l’Open Source nell’Era dell’Intelligenza Artificiale Generativa

mm

Il modello open-source – un’etica di sviluppo software in cui il codice sorgente è reso disponibile gratuitamente per la ridistribuzione pubblica o la modifica – è stato a lungo un catalizzatore per l’innovazione. L’ideale è nato nel 1983 quando Richard Stallman, uno sviluppatore software, si è frustrato per la natura di “scatola nera” della sua stampante a sorgente chiusa.

La sua visione ha acceso il movimento del software libero, aprendo la strada all’ecosistema open-source che alimenta gran parte di Internet e dell’innovazione software di oggi.

Ma questo è successo oltre 40 anni fa.

Oggi, l’Intelligenza Artificiale Generativa, con le sue uniche sfide tecniche ed etiche, sta ridefinendo il significato di “apertura”, richiedendo che rivediamo e ripensiamo al paradigma open-source – non per abbandonarlo, ma per adattarlo.

AI e le Libertà Open-Source

Le quattro libertà fondamentali del software open-source – la capacità di eseguire, studiare, modificare e ridistribuire qualsiasi codice software – sono in contrasto con la natura dell’intelligenza artificiale generativa in diversi modi:

  • Eseguire: I modelli AI richiedono spesso elevate infrastrutture e costi computazionali, che limitano l’accesso a causa di vincoli di risorse.
  • Studiare e modificare: I modelli AI sono incredibilmente complessi, quindi comprenderli e modificarli senza accesso sia al codice che ai dati che lo informano è una sfida significativa.
  • Ridistribuire: Molti modelli AI restringono la ridistribuzione per design, in particolare quelli con pesi allenati e set di dati proprietari di proprietà del fornitore della piattaforma.

L’erosione di questi principi fondamentali non è dovuta a intenti maliziosi, ma piuttosto alla complessità e ai costi della moderna intelligenza artificiale. In effetti, le richieste finanziarie per l’allenamento di modelli AI all’avanguardia sono aumentate drasticamente negli ultimi anni – si ritiene che OpenAI’s GPT-4 abbia richiesto costi di allenamento di fino a 78 milioni di dollari, esclusi i salari del personale, con spese totali superiori a 100 milioni di dollari. ​

La Complessità dell’AI “Open Source”

Un modello AI veramente aperto richiederebbe la trasparenza totale del codice sorgente dell’inferenza, del codice sorgente dell’allenamento, dei pesi del modello e dei dati di allenamento. Tuttavia, molti modelli etichettati come “aperti” rilasceranno solo il codice di inferenza o pesi parziali, mentre altri offrono licenze limitate o restringono l’uso commerciale nel suo complesso.

Questa apertura imparziale crea l’illusione dei principi open-source, mentre in pratica non soddisfa appieno.

Considera che un’analisi dell’Open Source Initiative (OSI) ha scoperto che diversi modelli linguistici grandi e popolari che affermano di essere open source – tra cui Llama2 e Llama 3.x (sviluppati da Meta), Grok (X), Phi-2 (Microsoft) e Mixtral (Mistral AI) – sono strutturalmente incompatibili con i principi open-source.

Sfide di Sostenibilità e Incentivazione

La maggior parte del software open-source è stata costruita su sforzi guidati da volontari o finanziati da sovvenzioni, piuttosto che su infrastrutture costose e intensive in termini di calcolo. I modelli AI, d’altra parte, sono costosi da allenare e mantenere, e i costi sono destinati ad aumentare. Il CEO di Anthropic, Dario Amodei, prevede che potrebbe eventualmente costare fino a $100 miliardi per allenare un modello all’avanguardia.

Senza un modello di finanziamento sostenibile o una struttura di incentivazione, gli sviluppatori devono scegliere tra restringere l’accesso attraverso licenze closed-source o non commerciali o rischiare il collasso finanziario.

Malintesi su “Pesi Aperti” e Licenze

L’accessibilità dei modelli AI è diventata sempre più confusa, con molte piattaforme che si pubblicizzano come “aperte” mentre impongono restrizioni che contraddicono fondamentalmente i principi open-source veri. Questo “gioco di mano” si manifesta in diversi modi:

  • I modelli etichettati come “pesi aperti” possono proibire completamente l’uso commerciale, mantenendoli più come curiosità accademiche che come strumenti aziendali pratici per il pubblico da esplorare e sviluppare.
  • Alcuni fornitori offrono l’accesso a modelli pre-addestrati, ma custodiscono gelosamente i loro set di dati di allenamento e le loro metodologie, rendendo impossibile riprodurre o verificare i loro risultati in modo significativo.
  • Molte piattaforme impongono restrizioni alla ridistribuzione che impediscono agli sviluppatori di costruire o migliorare i modelli per le loro comunità, anche se possono accedere completamente al codice.

In questi casi, “aperto per la ricerca” è solo un eufemismo per “chiuso per attività commerciali”. Il risultato è una forma di vendor lock-in disonesta, in cui le organizzazioni investono tempo e risorse in piattaforme che appaiono apertamente accessibili, solo per scoprire limitazioni critiche quando tentano di scalare o commercializzare le applicazioni.

La confusione risultante non frustra solo gli sviluppatori. Attivamente mina la fiducia nell’ecosistema AI. Crea aspettative irrealistiche tra gli stakeholder che ragionevolmente suppongono che l’AI “aperta” sia paragonabile alle comunità del software open-source, dove la trasparenza, i diritti di modifica e la libertà commerciale sono mantenuti.

Ritardo Legale

L’avanzamento rapido della GenAI sta già superando lo sviluppo di quadri legali appropriati, creando una complessa rete di sfide relative alla proprietà intellettuale che aggravano le preoccupazioni preesistenti.

Il primo grande campo di battaglia legale si concentra sull’uso dei dati di allenamento. I modelli di apprendimento profondo attingono a grandi set di dati da Internet, come immagini e testi di pagine web disponibili pubblicamente. Questa vasta raccolta di dati ha acceso accesi dibattiti sui diritti di proprietà intellettuale. Le società tecnologiche sostengono che i loro sistemi AI studiano e apprendono da materiali protetti da copyright al fine di creare nuovo contenuto trasformativo. I titolari del copyright, tuttavia, sostengono che queste società AI copiano illegalmente le loro opere, generando contenuto concorrente che minaccia i loro mezzi di sussistenza.

La proprietà di opere derivate generate da AI rappresenta un’altra ambiguità legale. Nessuno sa ancora come classificare il contenuto generato da AI, tranne che per l’Ufficio del Copyright degli Stati Uniti, che afferma che “se l’AI genera interamente il contenuto, non può essere protetto da copyright”.

L’incertezza legale che circonda la GenAI – in particolare riguardo alla violazione del copyright, alla proprietà di opere generate da AI e al contenuto non autorizzato nei dati di allenamento – diventa ancora più problematica man mano che emergono modelli AI fondamentali come strumenti di importanza geopolitica: le nazioni che competono per sviluppare capacità AI superiori potrebbero essere meno inclini a restringere l’accesso ai dati, mettendo le nazioni con protezioni IP più strette in svantaggio competitivo.

Cosa Deve Diventare l’Open Source nell’Era dell’AI

Il treno della GenAI è già partito e non mostra segni di rallentamento. Speriamo di costruire un futuro in cui l’AI incoraggi piuttosto che soffocare l’innovazione. In tal caso, i leader tecnologici necessitano di un quadro che garantisca un uso commerciale sicuro e trasparente, promuova l’innovazione responsabile, affronti la proprietà e la licenza dei dati e differenzi tra “aperto” e “gratuito”.

Un concetto emergente, la Licenza Open Commercial Source, potrebbe offrire un percorso in avanti proponendo l’accesso gratuito per uso non commerciale, l’accesso con licenza per uso commerciale e il riconoscimento e il rispetto della provenienza e della proprietà dei dati.​​

Per adattarsi a questa nuova realtà, la comunità open-source deve sviluppare modelli di licenza open-source specifici per l’AI, formare partnership pubblico-private per finanziare questi modelli e stabilire standard affidabili per la trasparenza, la sicurezza e l’etica.

L’open source ha cambiato il mondo una volta. La GenAI lo sta cambiando di nuovo. Per preservare lo spirito dell’apertura, dobbiamo evolvere la lettera della sua legge, riconoscendo le esigenze uniche dell’AI e affrontando le sfide a viso aperto per creare un ecosistema inclusivo e sostenibile.

Il dottor Yair Adato è il fondatore e amministratore delegato di Bria, l'azienda creata per stabilire una piattaforma di intelligenza artificiale generativa senza rischi. La sua visione era quella di creare una piattaforma di intelligenza artificiale generativa che seguisse i principi di intelligenza artificiale responsabile e ridefinisse i concetti di diritto d'autore e proprietà intellettuale in modo che la proprietà dei dati e l'intelligenza artificiale generativa possano coesistere.

Un visionario nel suo campo, il dottor Adato possiede un dottorato in Informatica nel campo della visione artificiale dell'Università Ben-Gurion in collaborazione con l'Università di Harvard. Con oltre 50 brevetti che costruiscono il ponte tra intelligenza artificiale e utilizzo commerciale, il dottor Adato vanta un record notevole di innovazione nell'intelligenza artificiale. Prima di guidare Bria, il dottor Adato ha ricoperto il ruolo di CTO presso Trax Retail, consentendo a Trax di crescere rapidamente da una startup in fase iniziale con 20 dipendenti a un'azienda con un valore di quasi 1000 dipendenti. Ha ricoperto o ricopre il ruolo di membro del consiglio di amministrazione per diverse aziende, tra cui Sparx, Vicomi, Tasq, DataGen e Anima.