Etica
Ricercatori Sviluppano Algoritmi Finalizzati a Prevenire Comportamenti Indesiderabili nell’Intelligenza Artificiale

Insieme a tutti i progressi e i vantaggi che l’intelligenza artificiale ha esibito finora, ci sono stati anche rapporti di effetti collaterali indesiderabili come pregiudizi razziali e di genere nell’IA. Quindi, come sciencealert.com pone la domanda “come possono gli scienziati assicurare che i sistemi di pensiero avanzati possano essere equi, o addirittura sicuri?”
La risposta potrebbe essere nel rapporto dei ricercatori di Stanford e della University of Massachusetts Amherst, intitolato Prevenire il comportamento indesiderabile delle macchine intelligenti. Come eurekaalert.org nota nella sua storia su questo rapporto, l’IA sta iniziando a gestire compiti sensibili, quindi “i responsabili delle politiche stanno insistendo perché gli scienziati informatici offrano garanzie che i sistemi automatizzati siano stati progettati per minimizzare, se non evitare completamente, esiti indesiderabili come rischi eccessivi o pregiudizi razziali e di genere.”
Il rapporto presentato da questo team di ricercatori “delinea una nuova tecnica che traduce un obiettivo vago, come evitare i pregiudizi di genere, in criteri matematici precisi che consentirebbero a un algoritmo di apprendimento automatico di addestrare un’applicazione IA per evitare quel comportamento.”
Lo scopo era, come Emma Brunskill, professoressa assistente di scienze informatiche a Stanford e autrice principale del documento sottolinea “vogliamo avanzare l’IA che rispetta i valori dei suoi utenti umani e giustifica la fiducia che riponiamo nei sistemi autonomi.”
L’idea era quella di definire “pericolosi” o “ingiusti” esiti o comportamenti in termini matematici. Ciò, secondo i ricercatori, renderebbe possibile “creare algoritmi che possano imparare dai dati su come evitare questi risultati indesiderabili con alta fiducia.”
Il secondo obiettivo era quello di “sviluppare un set di tecniche che rendano facile per gli utenti specificare quali tipi di comportamenti indesiderabili vogliono limitare e consentire ai progettisti di apprendimento automatico di prevedere con fiducia che un sistema addestrato con dati passati possa essere affidabile quando viene applicato in circostanze del mondo reale.”
ScienceAlert afferma che il team ha chiamato questo nuovo sistema algoritmi ‘Seldoniani’, dal personaggio centrale della famosa serie di romanzi di fantascienza Foundation di Isaac Asimov. Philip Thomas, professoressa assistente di scienze informatiche all’Università del Massachusetts Amherst e autore principale del documento, sottolinea, “Se utilizzo un algoritmo Seldoniano per il trattamento del diabete, posso specificare che un comportamento indesiderabile significa ipoglicemia pericolosamente bassa o ipoglicemia.”
“Posso dire alla macchina, ‘Mentre cerchi di migliorare il controllore nella pompa di insulina, non apportare modifiche che aumentino la frequenza dell’ipoglicemia.’ La maggior parte degli algoritmi non ti dà un modo per imporre questo tipo di vincolo sul comportamento; non era incluso nei progetti iniziali.”
Thomas aggiunge che “questo framework Seldoniano renderà più facile per i progettisti di apprendimento automatico costruire istruzioni di evitamento del comportamento in tutti i tipi di algoritmi, in un modo che consenta loro di valutare la probabilità che i sistemi addestrati funzionino correttamente nel mondo reale.”
Per quanto la riguarda, Emma Brunskill sottolinea anche che “pensare a come possiamo creare algoritmi che rispettino al meglio i valori come la sicurezza e l’equità è essenziale mentre la società si affida sempre più all’IA.”
