Connect with us

Intelligenza artificiale

Monetizzare la Ricerca per l’Addestramento dell’AI: I Rischi e le Migliori Pratiche

mm

Mentre la domanda di intelligenza artificiale generativa cresce, aumenta anche la fame di dati di alta qualità per addestrare questi sistemi. Gli editori accademici hanno iniziato a monetizzare il loro contenuto di ricerca per fornire dati di addestramento per grandi modelli linguistici (LLM). Sebbene questo sviluppo stia creando un nuovo flusso di entrate per gli editori e stia potenziando l’intelligenza artificiale generativa per le scoperte scientifiche, solleva domande critiche sull’integrità e l’affidabilità della ricerca utilizzata. Ciò solleva una domanda cruciale: i set di dati che vengono venduti sono affidabili e quali implicazioni ha questa pratica per la comunità scientifica e i modelli di intelligenza artificiale generativa?

L’Ascesa degli Accordi di Ricerca Monetizzati

I principali editori accademici, tra cui Wiley, Taylor & Francis e altri, hanno segnalato entrate sostanziali dalla licenza del loro contenuto alle aziende tecnologiche che sviluppano modelli di intelligenza artificiale generativa. Ad esempio, Wiley ha rivelato oltre 40 milioni di dollari di entrate da tali accordi solo quest’anno. Questi accordi consentono alle aziende di intelligenza artificiale di accedere a dataset scientifici diversi e ampi, migliorando presumibilmente la qualità dei loro strumenti di intelligenza artificiale.

La proposta degli editori è semplice: la licenza garantisce modelli di intelligenza artificiale migliori, beneficiando la società e ricompensando gli autori con i diritti d’autore. Questo modello di business beneficia sia le aziende tecnologiche che gli editori. Tuttavia, la tendenza crescente a monetizzare la conoscenza scientifica comporta rischi, soprattutto quando la ricerca discutibile infiltra questi set di dati di addestramento di intelligenza artificiale.

L’Ombra della Ricerca Falsa

La comunità accademica non è nuova ai problemi di ricerca fraudolenta. Gli studi suggeriscono che molte scoperte pubblicate sono difettose, distorte o semplicemente inaffidabili. Un sondaggio del 2020 ha scoperto che quasi la metà dei ricercatori ha segnalato problemi come la segnalazione selettiva dei dati o studi di campo mal progettati. Nel 2023, oltre 10.000 articoli sono stati ritirati a causa di risultati falsificati o inaffidabili, un numero che continua a salire annualmente. Gli esperti ritengono che questo numero rappresenti la punta dell’iceberg, con innumerevoli studi discutibili in circolazione nelle banche dati scientifiche.

La crisi è stata principalmente causata da “paper mill“, organizzazioni ombra che producono studi falsi, spesso in risposta alle pressioni accademiche in regioni come la Cina, l’India e l’Europa orientale. Si stima che circa il 2% delle presentazioni di riviste a livello globale provenga da paper mill. Questi studi fasulli possono assomigliare a ricerche legittime ma sono pieni di dati fittizi e conclusioni infondate. Inquietantemente, tali articoli sfuggono alla revisione paritaria e finiscono in riviste rispettabili, compromettendo l’affidabilità delle intuizioni scientifiche. Ad esempio, durante la pandemia di COVID-19, studi difettosi sull’ivermectina hanno falsamente suggerito la sua efficacia come trattamento, seminando confusione e ritardando le risposte sanitarie pubbliche efficaci. Questo esempio evidenzia il potenziale danno della diffusione di ricerche inaffidabili, dove risultati difettosi possono avere un impatto significativo.

Conseguenze per l’Addestramento dell’AI e la Fiducia

Le implicazioni sono profonde quando i LLM si addestrano su banche dati che contengono ricerche false o di bassa qualità. I modelli di intelligenza artificiale utilizzano modelli e relazioni all’interno dei loro dati di addestramento per generare output. Se i dati di input sono corrotti, gli output possono perpetuare inesattezze o addirittura amplificarle. Questo rischio è particolarmente alto in campi come la medicina, dove le intuizioni generate dall’intelligenza artificiale potrebbero avere conseguenze letali.
Inoltre, la questione minaccia la fiducia del pubblico nell’ambito accademico e nell’intelligenza artificiale. Mentre gli editori continuano a stipulare accordi, devono affrontare le preoccupazioni sulla qualità dei dati che vengono venduti. Il fallimento nel farlo potrebbe danneggiare la reputazione della comunità scientifica e minare i potenziali benefici sociali dell’intelligenza artificiale.

Garantire Dati Affidabili per l’AI

Ridurre i rischi di ricerche difettose che disturbano l’addestramento dell’AI richiede uno sforzo congiunto da parte degli editori, delle aziende di intelligenza artificiale, degli sviluppatori, dei ricercatori e della comunità più ampia. Gli editori devono migliorare il loro processo di revisione paritaria per catturare gli studi inaffidabili prima che entrino nei set di dati di addestramento. Offrire migliori ricompense per i revisori e stabilire standard più alti può aiutare. Un processo di revisione aperto è fondamentale qui. Porta più trasparenza e responsabilità, aiutando a costruire fiducia nella ricerca.
Le aziende di intelligenza artificiale devono essere più caute su chi lavorano quando cercano ricerche per l’addestramento dell’AI. Scegliere editori e riviste con una solida reputazione per ricerche di alta qualità, ben revisionate, è fondamentale. In questo contesto, vale la pena esaminare attentamente il record di un editore – come ad esempio quante volte ritirano articoli o quanto sono aperti sul loro processo di revisione. Essere selettivi migliora l’affidabilità dei dati e costruisce fiducia all’interno delle comunità di intelligenza artificiale e di ricerca.

Gli sviluppatori di intelligenza artificiale devono assumersi la responsabilità dei dati che utilizzano. Ciò significa lavorare con esperti, controllare attentamente la ricerca e confrontare i risultati di più studi. Gli strumenti di intelligenza artificiale possono anche essere progettati per identificare dati sospetti e ridurre i rischi di diffusione di ricerche discutibili.

La trasparenza è anche un fattore essenziale. Gli editori e le aziende di intelligenza artificiale dovrebbero condividere apertamente i dettagli su come viene utilizzata la ricerca e dove vanno i diritti d’autore. Strumenti come il Generative AI Licensing Agreement Tracker mostrano promesse ma necessitano di una più ampia adozione. I ricercatori dovrebbero anche avere voce in capitolo su come viene utilizzato il loro lavoro. Le politiche di opt-in, come quelle di Cambridge University Press, offrono agli autori il controllo sui loro contributi. Ciò costruisce fiducia, garantisce equità e fa partecipare attivamente gli autori a questo processo.

Inoltre, l’accesso aperto a ricerche di alta qualità dovrebbe essere incoraggiato per garantire inclusività e equità nello sviluppo dell’AI. I governi, le organizzazioni non profit e i giocatori dell’industria possono finanziare iniziative di accesso aperto, riducendo la dipendenza dagli editori commerciali per set di dati di addestramento critici. Inoltre, l’industria dell’AI necessita di regole chiare per l’acquisizione di dati in modo etico. Concentrandoci su ricerche affidabili e ben revisionate, possiamo costruire strumenti di intelligenza artificiale migliori, proteggere l’integrità scientifica e mantenere la fiducia del pubblico nella scienza e nella tecnologia.

Il Punto Chiave

Monetizzare la ricerca per l’addestramento dell’AI presenta sia opportunità che sfide. Sebbene la licenza del contenuto accademico consenta lo sviluppo di modelli di intelligenza artificiale più potenti, solleva anche preoccupazioni sull’integrità e l’affidabilità dei dati utilizzati. La ricerca difettosa, inclusa quella proveniente da “paper mill”, può corrompere i set di dati di addestramento dell’AI, portando a inesattezze che potrebbero minare la fiducia del pubblico e i potenziali benefici dell’AI. Per garantire che i modelli di intelligenza artificiale siano costruiti su dati affidabili, gli editori, le aziende di intelligenza artificiale e gli sviluppatori devono lavorare insieme per migliorare i processi di revisione paritaria, aumentare la trasparenza e dare priorità a ricerche di alta qualità e ben verificate. Facendo ciò, possiamo salvaguardare il futuro dell’AI e mantenere l’integrità della comunità scientifica.

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.