Kunstig intelligens
Google-forskere oppdager underspesifikasjonsproblem som holder tilbake mange AI-modeller

Nylig har et team av forskere fra Google identifisert en vanlig årsak til feilene i AI-modellene, og peker på underspesifikasjon som en av de primære grunnene til at maskinlæringsmodeller ofte oppfører seg ganske annerledes i den virkelige verden enn de gjør under testing og utvikling.
Maskinlæringsmodeller feiler ofte når de håndterer oppgaver i en virkelig setting, selv om modellene utfører optimalt i laboratoriet. Det finnes mange grunner til at mismatchet mellom trening/utvikling og virkelig verden oppstår. En av de vanligste grunnene til at AI-modeller feiler under virkelige oppgaver er et konsept kjent som dataforflytning. Dataforflytning refererer til en grunnleggende forskjell mellom typen data som brukes til å utvikle en maskinlæringsmodell og data som mates inn i modellen under anvendelse. Som et eksempel vil datavisjonsmodeller som er trent på høykvalitetsbildata slite med å utføre når de mates data fanget av lavkvalitetskameraer funnet i modellens dag-til-dag-miljø.
Ifølge MIT Technology Review, har et team på 40 forskjellige forskere ved Google identifisert en annen grunn til at ytelsen til en maskinlæringsmodell kan variere så drastisk. Problemet er “underspesifikasjon”, et statistisk konsept som beskriver problemer der observerte fenomener har mange mulige årsaker, ikke alle av dem er tatt med i modellen. Ifølge studiens leder Alex D’Amour, er problemet å se i mange maskinlæringsmodeller, og sier at fenomenet “skjer overalt”.
Den typiske metoden for å trene en maskinlæringsmodell innebærer å mate modellen en stor mengde data som den kan analysere og trekke ut relevante mønster fra. Deretter mates modellen eksempler den ikke har sett og bedt om å forutsi naturen til disse eksemplene basert på funksjonene den har lært. Når modellen har oppnådd en viss nivå av nøyaktighet, regnes treningen vanligvis som fullført.
Ifølge Google-forskingsteamet, må mer gjøres for å sikre at modellene kan virkelig generalisere til ikke-treningdata. Den klassiske metoden for å trene maskinlæringsmodeller vil produsere forskjellige modeller som alle kan bestå testene, men disse modellene vil variere på små måter som kan synes ubetydelige, men ikke er det. Forskjellige noder i modellene vil ha forskjellige tilfeldige verdier tildelt, eller treningdata kan være valgt eller representert på forskjellige måter. Disse variasjonene er små og ofte tilfeldige, og hvis de ikke har en stor innvirkning på hvordan modellene utfører under trening, er de lett å overse. Men når effekten av alle disse små endringene akkumuleres, kan de føre til store variasjoner i virkelig ytelse.
Dette underspesifikasjonsproblemet er problematisk fordi det betyr at, selv om treningsprosessen er i stand til å produsere gode modeller, kan den også produsere en dårlig modell, og forskjellen ville ikke bli oppdaget før modellen forlot produksjon og gikk inn i bruk.
For å vurdere effekten av underspesifikasjon, undersøkte forskningsteamet en rekke forskjellige modeller. Hver modell ble trent ved hjelp av samme treningprosess, og deretter ble modellene utsatt for en rekke tester for å høyde forskjeller i ytelse. I ett tilfelle ble 50 forskjellige versjoner av et bilde-gjenkjennelsessystem trent på ImageNet-datasettet. Modellene var alle like, bortsett fra neuronnnettverdiene som de ble tilfeldig tildelt under starten av treningen. Stresstestene som ble brukt til å avgjøre forskjeller i modellene, ble utført ved hjelp av ImageNet-C, en variasjon av det opprinnelige datasettet bestående av bilder endret gjennom kontrast- eller lysjustering. Modellene ble også testet på ObjectNet, en serie bilder som viser hverdagsobjekter i uvanlige orienteringer og sammenhenger. Selv om alle 50 modellene hadde omtrent samme ytelse på treningdatasettet, varierte ytelsen sterkt når modellene ble kjørt gjennom stresstestene.
Forskingsteamet fant lignende resultater da de trente og stresstestet to forskjellige NLP-systemer, samt da de testet forskjellige datavisjonsmodeller. I hver enkelt tilfelle avvikte modellene sterkt fra hverandre, selv om treningprosessen for alle modellene var den samme.
Ifølge D’Amour, må maskinlæringsforskere og -ingeniører gjøre mye mer stresstesting før de slipper modellene ut i det ville. Dette kan være vanskelig å gjøre, ettersom stresstestene må tilpasses bestemte oppgaver ved hjelp av data fra den virkelige verden, data som kan være vanskelig å komme over for bestemte oppgaver og sammenhenger. En mulig løsning på underspesifikasjonsproblemet er å produsere mange modeller på en gang og deretter teste modellene på en rekke virkelige oppgaver, og velge modellen som konsekvent viser de beste resultater. Å utvikle modeller på denne måten tar mye tid og ressurser, men avkastningen kan være verdt det, spesielt for AI-modeller som brukes i medisinske sammenhenger eller andre områder der sikkerhet er en primær bekymring. Som D’Amour forklarte via MIT Technology Review:
“Vi må bli bedre til å spesifisere nøyaktig hva våre krav er for våre modeller. For ofte hva som ender opp med å skje, er at vi oppdager disse kravene først etter at modellen har feilet ute i verden.”










