Intelligenza artificiale

L’IA può evitare comportamenti indesiderati specifici con nuovi algoritmi

Published November 23, 2019

Updated April 5, 2026

Daniel Nelson

Man mano che gli algoritmi e i sistemi di intelligenza artificiale diventano più sofisticati e assumono responsabilità più grandi, diventa sempre più importante assicurarsi che i sistemi di IA evitino comportamenti pericolosi e indesiderati. Recentemente, un team di ricercatori dell’Università del Massachusetts Amherst e di Stanford ha pubblicato un articolo che dimostra come i comportamenti specifici dell’IA possano essere evitati attraverso l’utilizzo di una tecnica che fornisce istruzioni matematiche precise che possono essere utilizzate per regolare il comportamento di un’IA.

Secondo TechXplore, la ricerca si basava sull’ipotesi che i comportamenti ingiusti/pericolosi possano essere definiti con funzioni e variabili matematiche. Se questo è vero, allora dovrebbe essere possibile per i ricercatori addestrare i sistemi a evitare questi comportamenti specifici. Il team di ricerca ha mirato a sviluppare un toolkit che potesse essere utilizzato dagli utenti dell’IA per specificare quali comportamenti volevano che l’IA evitasse, e abilitare gli ingegneri di IA a addestrare in modo affidabile un sistema che avrebbe evitato azioni indesiderate quando utilizzato in scenari del mondo reale.

Phillip Thomas, il primo autore dell’articolo e professore assistente di scienze informatiche alla U di Michigan Amherst, ha spiegato che il team di ricerca mira a dimostrare che i progettisti di algoritmi di apprendimento automatico possono rendere più facile per gli utilizzatori di IA descrivere i comportamenti indesiderati e avere una alta probabilità che il sistema di IA li eviti.

Il team di ricerca ha testato la loro tecnica applicandola a un problema comune nella scienza dei dati, la discriminazione di genere. Il team di ricerca ha mirato a rendere gli algoritmi utilizzati per prevedere il GPA degli studenti universitari più equi riducendo la discriminazione di genere. Il team di ricerca ha utilizzato un set di dati sperimentali e ha istruito il loro sistema di IA a evitare la creazione di modelli che sottovalutassero/sopravvalutassero i GPA per un genere. Come risultato delle istruzioni del ricercatore, l’algoritmo ha creato un modello che ha previsto meglio i GPA degli studenti e ha avuto una discriminazione di genere sistemica sostanzialmente inferiore rispetto ai modelli esistenti. I precedenti modelli di previsione del GPA soffrivano di pregiudizi perché i modelli di riduzione del pregiudizio erano spesso troppo limitati per essere utili, o non veniva utilizzato alcun modello di riduzione del pregiudizio.

Un algoritmo diverso è stato sviluppato anche dal team di ricerca. Questo algoritmo è stato implementato in una pompa di insulina automatica, e l’algoritmo era destinato a bilanciare sia le prestazioni che la sicurezza. Le pompe di insulina automatiche devono decidere quale dose di insulina debba essere somministrata a un paziente. Dopo aver mangiato, la pompa dovrebbe idealmente somministrare una dose di insulina sufficiente a mantenere i livelli di zucchero nel sangue sotto controllo. Le dosi di insulina somministrate devono essere né troppo grandi né troppo piccole.

Gli algoritmi di apprendimento automatico sono già proficienti nell’identificare modelli nella risposta di un individuo alle dosi di insulina, ma questi metodi di analisi esistenti non possono permettere ai medici di specificare risultati che dovrebbero essere evitati, come le crisi di ipoglicemia. Al contrario, il team di ricerca è stato in grado di sviluppare un metodo che potrebbe essere addestrato a somministrare dosi di insulina che rimangano entro i due estremi, prevenendo sia la somministrazione eccessiva che la somministrazione insufficiente. Sebbene il sistema non sia pronto per essere testato su pazienti reali, un’IA più sofisticata basata su questo approccio potrebbe migliorare la qualità della vita per coloro che soffrono di diabete.

Nell’articolo di ricerca, i ricercatori si riferiscono all’algoritmo come un algoritmo “Seledonian”. Ciò si riferisce alle tre leggi della robotica descritte dall’autore di fantascienza Isaac Asimov. L’implicazione è che il sistema di IA “non può danneggiare un essere umano o, attraverso l’inazione, permettere a un essere umano di subire danni”. Il team di ricerca spera che la loro struttura possa consentire ai ricercatori e agli ingegneri di IA di creare una varietà di algoritmi e sistemi che evitino comportamenti pericolosi. Emma Brunskill, autore senior dell’articolo e professore assistente di scienze informatiche alla Stanford, ha spiegato a TechXplore:

“Vogliamo avanzare l’IA che rispetta i valori dei suoi utenti umani e giustifica la fiducia che riponiamo nei sistemi autonomi.”

Unite.AI

L’IA può evitare comportamenti indesiderati specifici con nuovi algoritmi

You may like