taló La IA pot evitar comportaments no desitjats específics amb nous algorismes - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

La IA pot evitar comportaments no desitjats específics amb nous algorismes

mm

publicat

 on

A mesura que els algorismes i sistemes d'intel·ligència artificial es tornen més sofisticats i assumeixen responsabilitats més grans, cada cop és més important assegurar-se que els sistemes d'IA eviten comportaments perillosos i no desitjats. Recentment, un equip d'investigadors de la Universitat de Massachusetts Amherst i Stanford va publicar un article que demostra com es pot evitar un comportament específic de la IA mitjançant l'ús d'una tècnica que produeix instruccions matemàtiques precises que es poden utilitzar per modificar el comportament d'una IA.

Segons TechXplore, la investigació es va basar en el supòsit que els comportaments injustos/insegurs es poden definir amb funcions i variables matemàtiques. Si això és cert, els investigadors haurien de ser possibles entrenar sistemes per evitar aquests comportaments específics. L'equip d'investigació pretenia desenvolupar un conjunt d'eines que poguessin utilitzar els usuaris de la IA per especificar quins comportaments volen que la IA eviti i permetre als enginyers d'IA entrenar de manera fiable un sistema que evitarà accions no desitjades quan s'utilitzi en escenaris del món real.

Phillip Thomas, el primer autor del document i professor adjunt d'informàtica a la Universitat de Michigan Amherst, va explicar que l'equip d'investigació pretén demostrar que els dissenyadors d'algoritmes d'aprenentatge automàtic poden facilitar que els usuaris d'IA descriguin comportaments no desitjats i que siguin altament. és probable que el sistema d'IA evitarà el comportament.

L'equip de recerca va provar la seva tècnica aplicant-la a un problema comú en la ciència de dades, el biaix de gènere. L'equip d'investigació pretenia fer que els algorismes utilitzats per predir el GPA dels estudiants universitaris siguin més justos reduint el biaix de gènere. L'equip d'investigació va utilitzar un conjunt de dades experimental i va instruir el seu sistema d'IA per evitar la creació de models que, en general, subestimaven/sobreestimaven els GPA per a un gènere. Com a resultat de les instruccions de l'investigador, l'algoritme va crear un model que va predir millor els GPA dels estudiants i tenia un biaix de gènere substancialment menys sistemàtic que els models existents anteriorment. Els models de predicció de GPA anteriors patien biaix perquè els models de reducció de biaix sovint eren massa limitats per ser útils o no es va utilitzar cap reducció de biaix.

L'equip de recerca també va desenvolupar un algorisme diferent. Aquest algorisme es va implementar en una bomba d'insulina automatitzada i l'algorisme pretenia equilibrar el rendiment i la seguretat. Les bombes d'insulina automatitzades han de decidir quina dosi d'insulina s'ha de donar a un pacient. Després de dinar, l'ideal és que la bomba lliurarà una dosi d'insulina prou gran com per mantenir els nivells de sucre en sang controlats. Les dosis d'insulina que s'administraran no han de ser ni massa grans ni massa petites.

Els algorismes d'aprenentatge automàtic ja són capaços d'identificar patrons en la resposta d'una persona a les dosis d'insulina, però aquests mètodes d'anàlisi existents no poden permetre que els metges especifiquen resultats que s'han d'evitar, com ara accidents de sucre en sang baixos. En canvi, l'equip d'investigació va poder desenvolupar un mètode que es podria entrenar per administrar dosis d'insulina que es mantenen dins dels dos extrems, evitant la subdosi o la sobredosi. Tot i que el sistema encara no està preparat per fer proves en pacients reals, una IA més sofisticada basada en aquest enfocament podria millorar la qualitat de vida dels que pateixen diabetis.

En el document de recerca, els investigadors es refereixen a l'algorisme com un algorisme "seledonià". Això fa referència a les tres lleis de la robòtica descrites per l'autor de ciència-ficció Isaac Asimov. La implicació és que el sistema d'IA "no pot fer mal a un ésser humà ni, per inacció, permetre que un ésser humà faci mal". L'equip d'investigació espera que el seu marc permeti als investigadors i enginyers d'IA crear una varietat d'algoritmes i sistemes que evitin comportaments perillosos. Emma Brunskill, autora principal de l'article i professora assistent d'informàtica de Stanford, va explicar a TechXplore:

"Volem avançar en una IA que respecti els valors dels seus usuaris humans i justifiqui la confiança que dipositem en els sistemes autònoms".