stub AI-forskere udvikler hurtig metode til beregning af konfidensintervaller, rapportering, hvornår modellen ikke bør stole på - Unite.AI
Følg os

Kunstig intelligens

AI-forskere udvikler hurtig metode til beregning af konfidensintervaller, rapportering, når modellen ikke bør stole på

mm

Udgivet

 on

Forskere fra MIT har for nylig udviklet en teknik som gør det muligt for deep learning-netværksmodeller hurtigt at beregne konfidensniveauer, hvilket kan hjælpe dataforskere og andre AI-brugere med at vide, hvornår de skal stole på forudsigelserne fra en model.

AI-systemer baseret på kunstige neurale netværk er ansvarlige for flere og flere beslutninger i disse dage, herunder mange beslutninger, der involverer menneskers sundhed og sikkerhed. På grund af dette bør neurale netværk have en eller anden metode til at estimere tilliden til deres output, hvilket gør det muligt for dataforskere at fortælle, hvor troværdige deres forudsigelser er. For nylig har et team af forskere fra Harvard og MIT designet en hurtig måde for neurale netværk til at generere en indikation af en models tillid sammen med dens forudsigelser.

Deep learning-modeller er blevet mere og mere sofistikerede i løbet af det sidste årti, og nu kan de nemt udkonkurrere mennesker på dataklassificeringsopgaver. Deep learning-modeller bliver brugt på områder, hvor folks sundhed og sikkerhed kan være i fare, hvis de fejler, kører autonome køretøjer og diagnosticerer medicinske tilstande fra scanninger. I disse tilfælde er det ikke nok, at en model er 99 % nøjagtig, de 1 % af gange, som modellen fejler, har potentiale til at føre til katastrofe. Som et resultat skal der være en måde, hvorpå dataforskere kan bestemme, hvor troværdig en given forudsigelse er.

Der er en håndfuld måder, hvorpå et konfidensinterval kan genereres sammen med forudsigelserne af neurale netværk, men traditionelle metoder til at estimere usikkerhed for et neuralt netværk er ret langsomme og beregningsmæssigt dyre. Neurale netværk kan være utroligt store og komplekse, fyldt med milliarder af parametre. Bare det at generere forudsigelser kan være beregningsmæssigt dyrt og tage en betydelig mængde tid, og det tager endnu længere tid at generere et konfidensniveau for forudsigelserne. De fleste tidligere metoder til at kvantificere usikkerhed har været afhængige af sampling eller drift af et netværk igen og igen for at få et skøn over dets tillid. Dette er ikke altid muligt for applikationer, der kræver højhastighedstrafik.

Som rapporteret af MIT News, Alexander Amini leder den kombinerede gruppe af forskere fra MIT og Harvard, og ifølge Amini fremskynder metoden udviklet af deres forskere processen med at generere usikkerhedsestimater ved hjælp af en teknik kaldet "deep evidential regression". Amini forklarede via MIT, at dataforskere kræver både højhastighedsmodeller og pålidelige skøn over usikkerhed, så utroværdige modeller kan skelnes. For at bevare både modellens hastighed og generere et usikkerhedsestimat, designede forskerne en måde at estimere usikkerheden fra blot en enkelt kørsel af modellen.

Forskerne designede den neurale netværksmodel på en sådan måde, at en probabilistisk fordeling blev genereret ved siden af ​​hver beslutning. Netværket holder på beviser for sine beslutninger under træningsprocessen og genererer en sandsynlighedsfordeling baseret på beviserne. Den bevismæssige fordeling repræsenterer modellens tillid, og den repræsenterer usikkerhed for både modellens endelige beslutning og de oprindelige inputdata. Det er vigtigt at fange usikkerhed for både inputdata og beslutninger, da reduktion af usikkerheden er afhængig af at kende kilden til usikkerheden.

Forskerne testede deres teknik til estimering af usikkerhed ved at anvende den på en computervisionsopgave. Efter at modellen var blevet trænet på en række billeder, genererede den både forudsigelser og usikkerhedsestimater. Netværket forventede korrekt høj usikkerhed i tilfælde, hvor den forkerte forudsigelse blev foretaget. "Det var meget kalibreret til de fejl, som netværket laver, hvilket vi mener var en af ​​de vigtigste ting i bedømmelsen af ​​kvaliteten af ​​en ny usikkerhedsestimator," sagde Amini om modellens testresultater.

Forskerholdet fortsatte med at udføre flere test med deres netværksarkitektur. For at stressteste teknikken testede de også dataene på "uden for distribution" data, datasæt bestående af objekter, netværket aldrig havde set før. Som forventet rapporterede netværket højere usikkerhed for disse usete objekter. Når det blev trænet i indendørs miljøer, viste netværket høj usikkerhed, når det blev testet på billeder fra udendørs miljøer. Testene viste, at netværket kunne fremhæve, hvornår dets beslutninger var behæftet med høj usikkerhed og ikke burde have tillid til under visse højrisiko-omstændigheder.

Forskerholdet rapporterede endda, at netværket kunne skelne, hvornår billeder var blevet behandlet. Da forskerholdet ændrede billeder med modstridende støj, mærkede netværket de nyligt ændrede billeder med høje usikkerhedsestimater, på trods af at effekten var for subtil til at kunne ses af den gennemsnitlige menneskelige observatør.

Hvis teknikken viser sig pålidelig, kan dyb bevisregression forbedre sikkerheden for AI-modeller generelt. Ifølge Amini kunne dyb bevismæssig regression hjælpe folk med at træffe forsigtige beslutninger, når de bruger AI-modeller i risikable situationer. Som Amini forklarede via MIT News:

"Vi er begyndt at se mange flere af disse [neurale netværk]-modeller sive ud af forskningslaboratoriet og ind i den virkelige verden, ind i situationer, der berører mennesker med potentielt livstruende konsekvenser. Enhver bruger af metoden, uanset om det er en læge eller en person på passagersædet i et køretøj, skal være opmærksom på enhver risiko eller usikkerhed forbundet med denne beslutning."