Leader di pensiero
La nuova modulistica GPAI della Commissione europea – cosa significa per l’addestramento dell’AI?

A luglio, la Commissione europea (CE) ha pubblicato una nuova modulistica per i fornitori di modelli di intelligenza artificiale generale (GPAI). Ciò significa che i fornitori di AI devono divulgare il contenuto immesso nei modelli per addestrarli. Ciò avviene dopo mesi e mesi di titoli riguardanti creatori che affermano che il contenuto è stato utilizzato senza consenso per addestrare l’AI.
Con questa nuova modulistica, l’UE ha reso chiara la sua posizione: la trasparenza non è più negoziabile. L’addestramento della scatola nera, dove qualcosa viene creato senza rivelare il suo funzionamento interno, non sarà un’opzione per gli sviluppatori di AI. Ciò segna un cambiamento significativo poiché operare in Europa richiederà ora la completa visibilità degli input del modello e della provenienza dei dati di addestramento, costringendo a una rivalutazione della raccolta e dell’utilizzo dei dati.
Molti hanno sottolineato la netta differenza tra questo e il recentemente pubblicato piano d’azione AI degli Stati Uniti, che si concentra fortemente sulla deregolamentazione. Come per ogni nuova legge o regolamento, le aziende devono ora prendere atto e valutare esattamente come la modulistica GPAI impatterà sulle operazioni.
Se operano in più regioni, faranno lo stesso con il piano d’azione AI degli Stati Uniti, confondendo ulteriormente le cose. A causa della natura complessa di questi e del fatto che la regolamentazione dello sviluppo dell’AI in questo modo è un territorio inesplorato, gli output degli sviluppatori saranno probabilmente molto diversi.
Analisi della modulistica del modello di intelligenza artificiale generale
A luglio di quest’anno, la Commissione europea ha pubblicato una modulistica obbligatoria per i fornitori di GPAI in modo che possano pubblicare una sintesi pubblica dei dati utilizzati per addestrare i loro modelli. Come parte del regolamento AI dell’UE, i fornitori devono divulgare categorie di dati come set di dati pubblicamente disponibili, dati privati con licenza, contenuti web raschiati, dati degli utenti e dati sintetici. L’obiettivo è consentire ai titolari del copyright, agli utenti e agli sviluppatori downstream di esercitare i loro diritti legali ai sensi della legge dell’UE.
I GPT sono addestrati con grandi quantità di dati; tuttavia, nel mercato attuale, c’è una limitata informazione disponibile riguardo all’origine di questi dati. La sintesi pubblica che questa modulistica stabilisce fornirà una panoramica completa dei dati utilizzati per addestrare un modello, elencherà le principali raccolte di dati e spiegherà altre fonti utilizzate.
Confronto e contrasto, piano d’azione AI degli Stati Uniti
In confronto, gli Stati Uniti sono fermi nel loro intento di vincere la corsa all’AI e mantenere il loro vantaggio competitivo sulla Cina, poiché l’amministrazione Trump ha annunciato il suo piano d’azione AI all’inizio dell’estate. Questo nuovo quadro per l’AI mira ad accelerare la costruzione di centri di dati ad alta intensità energetica che alimentano i sistemi di intelligenza artificiale, semplificando le norme ambientali. Allo stesso tempo, cerca di aumentare l’esportazione globale di tecnologie di intelligenza artificiale americane. Con 90 raccomandazioni, il piano riflette gli sforzi crescenti degli Stati Uniti per rimanere avanti rispetto ai concorrenti globali.
Il piano si basa su tre pilastri fondamentali – accelerare l’innovazione, costruire l’infrastruttura di intelligenza artificiale dell’America e promuovere il leadership nel settore dell’intelligenza artificiale e della sicurezza internazionale.
Come parte di ciò, un punto chiave del piano sottolinea come l’America spingerà per l’innovazione e l’accessibilità attraverso un approccio “open-source”. Allo stesso tempo, il piano sottolinea come il governo degli Stati Uniti “farà da esempio” quando si tratta di crescita dell’AI – attraverso la formazione, gli scambi di talenti e l’espansione dell’adozione in tutti i settori.
Con questo piano, gli Stati Uniti mirano a semplificare tutte le norme tecnologiche attuali, in particolare quelle ambientali, per assicurarsi che la legislazione non rallenti la crescita, mentre incoraggia una più ampia distribuzione internazionale di software e hardware di intelligenza artificiale americani. Questo approccio “anti-regolatorio” segna un chiaro cambio di direzione rispetto ai quadri precedenti centrati sull’etica, la trasparenza e l’innovazione responsabile – spostandosi verso un piano d’azione più aggressivo “innovazione prima”.
Il pezzo mancante
Vale la pena fare un passo indietro a questo punto e considerare se questi atti, sebbene diversi, potrebbero soffrire degli stessi difetti che porteranno gli sviluppatori a vedere una mancanza di valore nell’aderirvi. Gli approcci dell’UE e degli Stati Uniti lasciano un vuoto critico intorno alla proprietà intellettuale nei set di dati di addestramento dell’AI. Il regolamento AI dell’UE richiede una sintesi dei dati di addestramento e una politica di conformità al copyright, ma non stabilisce un quadro scalabile per l’identificazione o la concessione di licenze di opere protette da copyright.
Negli Stati Uniti, non esistono regole specifiche – lasciando le aziende di intelligenza artificiale a navigare in un quadro giuridico in evoluzione plasmato da sentenze giudiziarie e dispute in corso con i titolari dei diritti. Al di là del testo giuridico, ciò che manca è il lato pratico; nessuno dei due approcci stabilisce metodi pratici e su larga scala per l’industria per rilevare contenuti protetti, verificare l’uso legittimo o semplificare la concessione di licenze. Fino a quando tali soluzioni non saranno definite, l’incertezza intorno al copyright nei set di dati di addestramento dell’AI rimarrà una sfida significativa per l’industria.
Il costo nascosto delle aziende che saltano la tracciabilità dell’AI
Nonostante alcuni dei difetti di queste norme, si supporrà che porteranno gli sviluppatori di AI a concentrarsi fortemente su come rimanere a galla da un punto di vista legale – ma non è sempre il caso. In realtà, la vera divisione nell’AI al momento non è tra la regolamentazione dell’UE e degli Stati Uniti, ma tra le aziende che investono nella tracciabilità oggi e quelle che scommettono che non dovranno farlo. Questo è un ripetersi di ciò che abbiamo visto anni fa con l’attuazione del regolamento generale sulla protezione dei dati (GDPR) – le aziende che hanno costruito la privacy-by-design fin dall’inizio non solo hanno evitato multe, ma hanno anche guadagnato la fiducia dei consumatori e un accesso più fluido ad altri mercati che in seguito hanno riflesso gli standard del GDPR.
Lo stesso modello potrebbe emergere con l’AI. La tracciabilità dei dati di addestramento e delle decisioni del modello probabilmente diventerà una base globale, e le aziende che ritardano dovranno ridisegnare i loro sistemi in futuro. Tornare indietro per aggiungere la documentazione, la tracciabilità della provenienza e le funzionalità di audit a un sistema esistente è molto più costoso e complesso che costruirle fin dall’inizio, distogliendo l’attenzione da costruzioni più focalizzate sul ROI che l’azienda vuole completare.
In altre parole, la tracciabilità e la trasparenza non sono opzioni aggiuntive; devono essere incorporate nei sistemi di intelligenza artificiale fin dall’inizio. Le aziende che le trattano come afterthought rischiano di rallentare l’innovazione, affrontare una reazione normativa e perdere la corsa in modo definitivo.
L’AI etica necessita di unità globale
Da una prospettiva macro, questi approcci polarizzati creano un problema reale per le aziende globali. Le aziende in mercati con regolamentazioni più leggere come gli Stati Uniti possono scalare più velocemente nel breve termine, ma quando decidono di entrare nell’UE, affrontano un muro di conformità: le regole di tracciabilità e documentazione del regolamento AI richiedono capacità che non hanno mai costruito.
Rimontare la tracciabilità della provenienza, la documentazione e le funzionalità di audit in un sistema esistente è costoso, lento e disruptivo, soprattutto perché la tracciabilità è una delle parti più dispendiose della conformità. È lo stesso modello che abbiamo visto con il GDPR, dove i ritardatari nella progettazione della privacy hanno lottato con costosi rifacimenti e ritardi nell’accesso al mercato, mentre i primi ad adottare hanno guadagnato un vantaggio duraturo.












