Kunstig intelligens

MIT-forskningsgruppe designer AI-nettverk for å motstå adversarial eksempler

Published March 14, 2021

Updated April 5, 2026

Daniel Nelson

Et team av forskere fra MIT har utviklet en dyp-læringsalgoritme som er ment å hjelpe AI-er å håndtere “adversarial” eksempler, som kan forårsake at en AI tar feil beslutninger og utfører feil handlinger. Algoritmen designet av MIT-teamet kan hjelpe AI-systemer å opprettholde sin nøyaktighet og unngå å gjøre feil når de møter forvirrende datapunkter.

AI-systemer analyserer inndata-egenskapene til en hendelse for å bestemme hvordan de skal reagere på hendelsen. En AI som er ansvarlig for å manøvrere et autonomt kjøretøy, må ta data fra kjøretøyets kamere og bestemme hva de skal gjøre basert på dataene i disse bildene. Imidlertid er det en mulighet for at bilde-dataene som analyseres av AI-en ikke er en nøyaktig representasjon av den virkelige verden. En feil i kamera-systemet kan endre noen av pikslene, noe som fører til at AI-en trekker feil konklusjoner om den riktige kursen.

“Adversarial inndata” er som optiske illusjoner for et AI-system. De er inndata som forvirrer en AI på en eller annen måte. Adversarial inndata kan være konstruert med det uttrykte målet om å forårsake at en AI tar feil, ved å representere data på en måte som gjør at AI-en tror at innholdet i et eksempel er en ting i stedet for en annen. For eksempel er det mulig å lage et adversarial eksempel for et datavisjonssystem ved å gjøre små endringer i bilder av katter, noe som får AI-en til å feilkategorisere bildene som datamonitorer. MIT-forskningsgruppen designet en algoritme for å hjelpe med å beskytte mot adversarial eksempler ved å la modellen opprettholde en viss grad av “skeptisisme” om inndataene den mottar.

MIT-forskerne kalte sin tilnærming “Certified Adversarial Robustness for Deep Reinforcement Learning”, eller CARRL. CARRL består av et forsterkingslæringsnettverk og et tradisjonelt dyp nevralnettverk som er koblet sammen. Forsterkingslæring bruker konseptet “belønninger” for å trene en modell, og gir modellen proporsjonalt mer belønning jo nærmere den kommer målet. Forsterkingslæringsmodellen brukes til å trene en Deep Q-Nettverk, eller DQN. DQN-er fungerer som tradisjonelle nevralnettverk, men de assosierer også inndata-verdier med en belønningsnivå, på samme måte som forsterkingslærings-systemer.

CARRL opererer ved å modellere en rekke forskjellige mulige verdier for inndata.

Anta at AI-en prøver å spore posisjonen til en prikk innenfor et større bilde, AI-en antar at prikkens posisjon kan være resultatet av adversarial påvirkning og vurderer områder hvor prikken kan være i stedet. Nettverket tar deretter beslutninger basert på worst-case-scenariet for prikkens posisjon, og velger handlingen som ville produsere den høyeste belønningen i dette worst-case-scenariet.

Den typiske metoden for å beskytte mot adversarial eksempler innebærer å kjøre lett endrede versjoner av inndata-bildet gjennom AI-nettverket for å se om samme beslutning alltid tas. Hvis endringer i bildet ikke dramatisk påvirker utfallet, er det en god sjanse for at nettverket er motstående mot adversarial eksempler. Imidlertid er dette ikke en gjennomførbar strategi for scenarier hvor raske beslutninger må tas, da disse er tidskrevende og komputasjonskrevende metoder for testing. Av denne grunn satte MIT-teamet ut å lage et nevralnettverk som kunne ta beslutninger basert på worst-case-antagelser, ett som kunne operere i scenarier hvor sikkerhet er kritisk.

MIT-forskerne testet sine algoritmer ved å la AI-en spille et spill av Pong. De inkluderte adversarial eksempler ved å mate AI-en instanser hvor ballen var vist litt lenger ned på skjermen enn den faktisk var. Ettersom påvirkningen av adversarial eksemplene økte, begynte standard-korrektive teknikker å svikte, mens CARRL var i stand til å vinne flere spill i sammenligning. CARRL ble også testet på en kollisjonsunngåelse-oppgave. Oppgaven utspilte seg i en virtuell miljø hvor to forskjellige agenter prøvde å bytte plasser uten å kollidere med hverandre. Forskningsgruppen endret den første agentens persepsjon av den andre agenten, og CARRL var i stand til å suksessfullt styre den første agenten rundt den andre agenten, selv i tilfeller med høy usikkerhet, selv om det kom en punkt hvor CARRL ble for forsiktig og endte opp med å unngå sin destinasjon helt.

Uansett, MIT Department of Aeronautics and Astronautics Postdoc Michael Everett, som ledet studien, forklarte at forskningen kunne ha implikasjoner for evnen til roboter å håndtere uforutsigbare situasjoner. Som Everett forklarte via MIT News:

“Mennesker kan være adversarial, som å komme foran en robot for å blokkere dens sensorer, eller interagere med dem, ikke nødvendigvis med de beste intensjoner,” sier Everett. “Hvordan kan en robot tenke på alle ting mennesker måtte prøve å gjøre, og prøve å unngå dem? Hva slags adversarial modeller ønsker vi å forsvare mot? Det er noe vi tenker på hvordan å gjøre.”

Daniel Nelson

Blogger og programmerer med spesialområder i Machine Learning og Deep Learning emner. Daniel håper å hjelpe andre med å bruke kraften av AI for sosialt godt.

Unite.AI

MIT-forskningsgruppe designer AI-nettverk for å motstå adversarial eksempler

You may like