Kunstig intelligens

AI Kan Unngå Bestemte Uønskede Atferder Med Nye Algoritmer

Published November 23, 2019

Updated April 5, 2026

Daniel Nelson

Ettersom kunstig intelligens-algoritmer og -systemer blir mer avanserte og tar på seg større ansvar, blir det viktigere og viktigere å sikre at AI-systemer unngår farlig, uønsket atferd. Nylig publiserte et team av forskere fra University of Massachusetts Amherst og Stanford en artikkel som demonstrerer hvordan bestemt AI-atferd kan unngås, gjennom bruk av en teknikk som fremkaller presise matematiske instruksjoner som kan brukes til å justere atferden til en AI.

Ifølge TechXplore, forskningen var basert på antagelsen at ufornuftig/ufornuftig atferd kan defineres med matematiske funksjoner og variabler. Hvis dette er sant, bør det være mulig for forskere å trene systemer til å unngå disse bestemte atferdene. Forskergruppen hadde som mål å utvikle en verktøykasse som kunne brukes av AI-brukerne til å spesifisere hvilke atferd de ønsker at AI skal unngå, og muliggjøre at AI-ingeniører kan pålitelig trene et system som vil unngå uønskede handlinger når de brukes i virkelige scenarier.

Phillip Thomas, den første forfatteren på artikkelen og assistent professor i datavitenskap ved U of Michigan Amherst, forklarte at forskergruppen hadde som mål å demonstrere at designerne av maskinlæringsalgoritmer kan gjøre det lettere for AI-brukerne å beskrive uønskede atferd og at det er svært sannsynlig at AI-systemet vil unngå atferden.

Forskergruppen testet sin teknikk ved å bruke den på et vanlig problem i datavitenskap, kjønnsbias. Forskergruppen hadde som mål å gjøre algoritmene som brukes til å forutsi studenters GPA mer rettferdige ved å redusere kjønnsbias. Forskergruppen brukte en eksperimentell datasett og instruerte sin AI-system til å unngå å lage modeller som systematisk undervurderte / overvurderte GPA for ett kjønn. Som resultat av forskerens instruksjoner, skapte algoritmen en modell som bedre forutså studenters GPA og hadde betydelig mindre systematisk kjønnsbias enn tidligere eksisterende modeller. Tidligere GPA-forutsigelsesmodeller led av bias fordi biasreduksjonsmodellene ofte var for begrensede til å være nyttige, eller ingen biasreduksjon ble brukt i det hele tatt.

En annen algoritme ble også utviklet av forskergruppen. Denne algoritmen ble implementert i en automatisk insulinpumpe, og algoritmen var ment å balansere både ytelse og sikkerhet. Automatiske insulinpumper må bestemme hvor stor en insulin-dose en pasient bør få Etter å ha spist, vil pumpen ideelt sett levere en dose insulin som er stor nok til å holde blodsukkernivået i sjakk. Insulin-dosene som leveres må hverken være for store eller for små.

Maskinlæringsalgoritmer er allerede dyktige til å identifisere mønster i en persons reaksjon på insulin-doser, men disse eksisterende analysemetodene kan ikke la legene spesifisere resultater som bør unngås, som for eksempel lavt blodsukkerkrasj. I stedet var forskergruppen i stand til å utvikle en metode som kunne trenes til å levere insulin-doser som holder seg innenfor de to ekstremene, og forhindrer både underdosing eller overdosing. Selv om systemet ikke er klar for testing på virkelige pasienter enda, kan en mer avansert AI basert på denne tilnærmingen forbedre livskvaliteten for de som lider av diabetes.

I forskningsartikkelen refererer forskerne til algoritmen som en “Seledonian”-algoritme. Dette er i henvisning til de tre lovene om robotikk beskrevet av science fiction-forfatteren Isaac Asimov. Implikasjonen er at AI-systemet “ikke må skade et menneske eller, gjennom uvirksomhet, tillate et menneske å komme til skade.” Forskergruppen håper at deres rammeverk vil tillate AI-forskere og -ingeniører å skape en rekke algoritmer og systemer som unngår farlig atferd. Emma Brunskill, seniorforfatter av artikkelen og Stanford-assistent professor i datavitenskap, forklarte til TechXplore:

“Vi ønsker å fremme AI som respekterer verdiene til sine menneskelige brukere og rettferdiggjør tilliten vi har til autonome systemer.”

Unite.AI

AI Kan Unngå Bestemte Uønskede Atferder Med Nye Algoritmer

You may like