Etikk

Forskere Utvikler Algoritmer Med Mål Om Å Forhindre Dårlig Atferd i AI

Published November 26, 2019

Updated April 5, 2026

Ljubinko Zivkovic

I tillegg til alle fremgangene og fordelen kunstig intelligens har vist hittil, har det også vært rapporter om uønskede bieffekter som rasistiske og kjønnsbasert bias i AI. Så som sciencealert.com stiller spørsmålet “hvordan kan forskerne sikre at avanserte tenkende systemer kan være rettferdige, eller til og med trygge?”

Svaret kan ligge i rapporten fra forskere ved Stanford og University of Massachusetts Amherst, med tittelen Forebygging av uønsket atferd hos intelligente maskiner. Som eurekaalert.org bemerker i sin historie om denne rapporten, håndterer AI nå følsomme oppgaver, så “beslutningstakere insisterer på at datavitenskapsmenn tilbyr garantier for at automatiserte systemer er designet for å minimere, hvis ikke helt unngå, uønskede resultater som eksessiv risiko eller rasistiske og kjønnsbasert bias.”

Rapporten denne forskergruppen presenterte “omtaler en ny teknikk som oversetter et uklart mål, som å unngå kjønnsbias, til presise matematiske kriterier som ville tillate en maskinlæring-algoritme å trene en AI-applikasjon til å unngå denne atferden.”

Formålet var, som Emma Brunskill, en assistentprofessor i datavitenskap ved Stanford og hovedforfatter av artikkelen påpeker “vi ønsker å fremme AI som respekterer verdiene til sine menneskelige brukere og berettiger tilliten vi har til autonome systemer.”

Idéen var å definere “usikre” eller “urettferdige” resultater eller atferd i matematiske termer. Dette ville, ifølge forskerne, gjøre det mulig “å skape algoritmer som kan lære fra data på hvordan man unngår disse uønskede resultater med høy tillit.”

Det andre målet var å “utvikle en rekke teknikk som ville gjøre det enkelt for brukerne å spesifisere hvilke typer uønsket atferd de ønsker å begrense og muliggjøre maskinlæring-designere å forutsi med tillit at et system trent med tidligere data kan pålitte når det brukes i virkelige omstendigheter.”

ScienceAlert sier at teamet kalte dette nye systemet ‘Seldonian’ algoritmer, etter hovedkarakteren i Isaac Asimovs berømte Foundation-serie av sci-fi-romaner. Philip Thomas, en assistentprofessor i datavitenskap ved University of Massachusetts Amherst og hovedforfatter av artikkelen, påpeker, “Hvis jeg bruker en Seldonian-algoritme for diabetes-behandling, kan jeg spesifisere at uønsket atferd betyr farlig lavt blodsukker eller hypoglykemi.”

“Jeg kan si til maskinen, ‘Mens du prøver å forbedre kontrolleren i insulinpumpen, gjør ikke endringer som ville øke hyppigheten av hypoglykemi.’ De fleste algoritmer gir deg ikke en måte å legge denne typen begrensning på atferd; det var ikke inkludert i tidlige design.”

Thomas legger til at “dette Seldonian-rammeverket vil gjøre det enklere for maskinlæring-designere å bygge atferd-unngåelses-instruksjoner inn i alle typer algoritmer, på en måte som kan muliggjøre dem å vurdere sannsynligheten for at trenede systemer vil fungere riktig i den virkelige verden.”

For hennes del bemerker Emma Brunskill også at “å tenke på hvordan vi kan skape algoritmer som best respekterer verdier som sikkerhet og rettferdighet, er essensielt når samfunnet stadig mer avhenger av AI.”

Unite.AI

Forskere Utvikler Algoritmer Med Mål Om Å Forhindre Dårlig Atferd i AI

You may like