Etik

Forskere søger hjælp fra neuroforskere for at overvinde dataset-bias

mm

Et hold af forskere fra MIT, Harvard University og Fujitsu, Ltd. har undersøgt, hvordan en maskinlæringsmodel kan overvinde dataset-bias. De har brugt en neurovidenskabelig tilgang til at studere, hvordan træningsdata påvirker, om en kunstig neuralt netværk kan lære at genkende objekter, den aldrig har set før.

Forskningen er offentliggjort i Nature Machine Intelligence

Mangfoldighed i træningsdata

Studiets resultater viste, at mangfoldighed i træningsdata påvirker, om et neuralt netværk kan overvinde bias. Men data-mangfoldighed kan også have en negativ indvirkning på netværkets præstation. Forskerne viste også, at måden, en neuralt netværk er trænet på, også kan påvirke, om det kan overvinde et biased dataset.

Xavier Boix er en forskningsvidenskabelig medarbejder i afdelingen for hjernens og kognitionsvitenskab (BCS) og Center for hjerner, sind og maskiner (CBMM). Han er også seniorforfatter på artiklen.

“Et neuralt netværk kan overvinde dataset-bias, hvilket er opmuntrende. Men hovedkonklusionen her er, at vi skal tage hensyn til data-mangfoldighed. Vi skal holde op med at tro, at hvis man bare samler en masse rådata, så vil det føre til noget. Vi skal være meget omhyggelige med, hvordan vi designer datasets fra starten,” siger Boix.

Holdet har brugt en neuroforskers tankegang til at udvikle den nye tilgang. Ifølge Boix er det almindeligt at bruge kontrollerede datasets i eksperimenter, så holdet byggede datasets, der indeholdt billeder af forskellige objekter i forskellige stillinger. De kontrollerede kombinationerne, så nogle datasets var mere mangfoldige end andre. Et dataset med flere billeder, der viser objekter fra kun ét synspunkt, er mindre mangfoldigt, mens et med flere billeder, der viser objekter fra flere synspunkter, er mere mangfoldigt.

Forskerne tog disse datasets og brugte dem til at træne et neuralt netværk til billedklassifikation. De studerede derefter, hvor godt det var til at identificere objekter fra synspunkter, netværket ikke havde set under træningen.

De fandt, at de mere mangfoldige datasets tillader netværket at bedre generalisere nye billeder eller synspunkter, og dette er afgørende for at overvinde bias.

“Men det er ikke, som om mere data-mangfoldighed altid er bedre; der er en spænding her. Når det neurale netværk bliver bedre til at genkende nye ting, den ikke har set før, så bliver det sværere for det at genkende ting, den allerede har set,” siger Boix.

Metoder til træning af neurale netværk

Holdet fandt også, at en model, der er trænet separat for hver opgave, er bedre i stand til at overvinde bias sammenlignet med en model, der er trænet til begge opgaver samtidigt.

“Resultaterne var virkelig slående. Faktisk troede vi, det var en fejl, da vi først gjorde dette eksperiment. Det tog os flere uger at realisere, det var et ægte resultat, fordi det var så uventet,” fortsætter Boix.

En dybere analyse afslørede, at neuronspecialisering er involveret i denne proces. Når det neurale netværk er trænet til at genkende objekter i billeder, opstår to typer af neuroner. En neuron specialiserer sig i at genkende objekt-kategorien, mens den anden specialiserer sig i at genkende synspunktet.

De specialiserede neuroner bliver mere fremtrædende, når netværket er trænet til at udføre opgaver separat. Men når et netværk er trænet til at udføre begge opgaver på samme tid, bliver nogle neuroner udvandet. Dette betyder, at de ikke specialiserer sig i en opgave, og de er mere tilbøjelige til at blive forvirret.

“Men det næste spørgsmål nu er, hvordan disse neuroner kom der? Du træner det neurale netværk, og de opstår fra læreprocessen. Ingen sagde til netværket, at det skulle inkludere disse typer af neuroner i sin arkitektur. Det er det fascinerende,” siger Boix.

Forskerne vil søge at udforske dette spørgsmål i deres fremtidige arbejde samt anvende den nye tilgang til mere komplekse opgaver.

Alex McFarland er en AI-journalist og forfatter, der udforsker de seneste udviklinger inden for kunstig intelligens. Han har samarbejdet med talrige AI-startups og publikationer verden over.