Connect with us

Kunstig intelligens

Kontrollert glemming: Den neste store utfordringen i AI’s minne

mm

I år har AI-feltet fokusert på ett mål: å gjøre systemer bedre til å huske. Vi har trent modeller på massive datasett og forbedret deres evne til å beholde og gjenkalle informasjon. Men nå innser vi en ubehagelig realitet. De samme systemene som aldri glemmer er nå fanget av sin egen minne. Det som en gang syntes som en styrke har blitt en alvorlig svakhet.

Mennesker glemmer naturlig. Vi slipper unna informasjon, tilpasser oss og går videre. AI-systemer fungerer annerledes. De husker alt med mindre vi lærer dem å glemme. Dette skaper reelle problemer. AI sliter med personvernsbrudd, foreldet informasjon, innbygde fordommer og systemer som bryter sammen når de lærer nye oppgaver. Utfordringen fremover er ikke å gjøre AI til å huske mer. Vi må lære AI å glemme klokt.

De to ansiktene av glemming

Glemming i AI viser seg i to forskjellige former, hver med sine egne problemer.

Den første er katastrofalt glemming. Dette skjer når et neuralt nettverk mister tidligere lært kunnskap etter å ha blitt trent på nye oppgaver. For eksempel kan en modell trent til å gjenkjenne katter og hunder glemme denne evnen etter å ha lært å identifisere fugler.

Den andre formen er kontrollert glemming. Dette er bevisst. Det innebærer å bevisst fjerne bestemt informasjon fra trenede modeller. Personvernslover som GDPR gir mennesker “retten til å bli glemt”, som krever at selskaper sletter data på forespørsel. Dette handler ikke om å fikse feilaktige systemer, men om å bevisst fjerne data som aldri burde ha blitt lagret eller må forsvinne på forespørsel.

Disse to problemene trekker i motsatte retninger. Den ene krever at vi stopper glemming, den andre krever at vi gjør glemming mulig. Å håndtere begge samtidig er en av AI’s hardeste utfordringer.

Når minne blir en belastning

AI-forskning har lenge fokusert på å forbedre minnet. Modellene har blitt større, datasett større og kontekstvinduer lengre. Systemer som GPT-4o kan nå håndtere 128 000 tokens av kontekst, og Claude kan nå 200 000. Disse fremgangene har forbedret ytelsen, men også introdusert nye problemer.

Når en modell husker for mye, kan den gjenkalle foreldet eller irrelevant informasjon. Dette ødelegger beregning og kan forvirre brukerne. For eksempel kan en kundesupport-chatbot trent på selskapets kunnskapsbase huske gammel informasjon etter å ha blitt oppdatert. Dette skjer fordi AI ikke kan prioritere minnet korrekt. AI kan ikke skille mellom hva som er aktuelt og hva som er gammelt.

Personvernslover gjør det hardere. Under GDPR, når en bruker ber om å få slettet sine data, må selskaper fjerne dem. Men å slette data fra en AI-modell er ikke som å slette en fil fra en datamaskin. Når personlige data blir en del av modellens parametre, spres de over millioner av forbindelser inni nettverket. Å trene hele systemet på nytt for å fjerne disse dataene er dyrt og ofte umulig. Forskning viser at større modeller er mer sårbare for cyberangrep. Jo større modellen er, jo mer tenderer den til å huske og kan gjenskape private data når de blir bedt om det gjennom nøye utformede forespørsler. Angripere kan trekke ut informasjon som de aldri burde ha nådd.

Hva som gjør glemming vanskelig

AI-modeller lagrer ikke treningseksempler som filer i en mappe. De komprimerer og blandet treninginformasjon inn i vekter og aktiveringer. Å fjerne ett stykke data uten å forstyrre alt annet er ekstremt vanskelig. Dessuten kan vi ikke enkelt spore hvordan bestemt treningdata påvirker modellens interne vekter. Når en modell lærer av data, sprenger denne kunnskapen seg gjennom parametrene på måter som er vanskelige å spore.

Å trene modeller fra scratch etter hver slettingforespørsel er ikke gjennomførbart. Når noen ber om å få slettet sine personlige data under GDPR, må du fjerne dem fra AI-systemet. Men å trene en modell fra scratch hver gang er for dyrt og tregt i de fleste produksjonsmiljøer. For store språkmodeller trent på milliarder av datapunkter ville dette være forbudt dyrt og tidskrevende.

Verifisering av glemming stiller en annen utfordring. Hvordan kan vi bevise at data faktisk er glemt? Selskaper trenger eksterne auditor for å vise at de har slettet informasjon. Uten pålitelige verifiseringsmetoder kan bedrifter ikke bevise overholdelse, og brukerne kan ikke stole på at deres data faktisk er borte.

Disse utfordringene har ført til et nytt felt som kalles maskinell glemming. Det fokuserer på teknikker for å fjerne innflytelsen av bestemt data fra trenede modeller. Men disse metodene er fortsatt i tidlige stadier. Nøyaktig glemming krever ofte å trene modellen på nytt, mens approksimative metoder kan etterlate spor av den slettede informasjonen.

Stabilitets-plastisitetsdilemmaet

Den grundleggende utfordringen vi må adresse er å forhindre katastrofalt glemming samtidig som vi muliggjør kontrollert glemming. Dette fører oss til en nøkkelutfordring AI står overfor: stabilitets-plastisitetsdilemmaet. Modeller må være fleksible nok til å lære ny informasjon, men stabile nok til å beholde gammel kunnskap. Hvis vi skyver modellen for langt mot stabilitet, kan den ikke tilpasse seg. På den andre siden, hvis vi skyver den for langt mot fleksibilitet, kan den glemme alt den en gang lærte.

Menneskets minne gir nyttige hint for å håndtere dette dilemmaet. Nevrovitenskap forteller oss at glemming ikke er en feil. Det er en aktiv prosess. Hjernen glemmer med vilje for å gjøre læringen bedre. Den fjerner eller undertrykker gammel eller lavverdiinformasjon, så nye minner forblir tilgjengelige. Når mennesker lærer et nytt språk, sletter de ikke det gamle. Men hvis de slutter å bruke det, blir gjenkallingen vanskeligere. Informasjonen er fortsatt der, bare prioritet senket. Hjernen bruker selektiv undertrykking, ikke sletting.

AI-forskere begynner å adoptere lignende ideer. Generativ gjenspill-teknikker etterligner hvordan hjernen lagrer minner. De skaper abstrakte representasjoner av tidligere kunnskap i stedet for å lagre rådata. Dette reduserer katastrofalt glemming og holder minnet kompaktt. En annen løftende idé er intelligent nedbryting. Lagrede minner får en score basert på hvor nyttige de er, hvor relevante de er og hvor nyttige de er. Mindre viktige minner mister gradvis prioritet og hentes sjeldnere. Dette holder informasjonen tilgjengelig, men skjult hvis den ikke trengs. AI-systemer kan håndtere store kunnskapsbasier uten å kaste vekk potensielt verdifull informasjon.

Målet er ikke å slette, men å balansere husking og glemming intelligent.

Hva fremtiden ser ut

Industrien beveger seg i tre hovedretninger.

Først er hybridminnearkitekturer i ferd med å dukke opp. Disse systemene kombinerer episodisk minne (spesifikke erfaringer) med semantisk minne (generell kunnskap). De bruker rangering og beskjæringmekanismer for å beholde viktig informasjon samtidig som de toner ned det som er mindre relevant. Vektordatabaser som Pinecone og Weaviate hjelper med å håndtere og hente slike minner effektivt.

Andre er personvernsforbedringer teknologier som vinner terreng. Teknikker som federated learning, differential privacy og homomorphic encryption reduserer behovet for sensitive personlige data. Disse metodene tillater modeller å trene samarbeidende eller sikker uten å samle inn sensitive brukerdata. De løser ikke glemming direkte, men de reduserer mengden personlige data som trengs å glemmes senere.

Tredje er maskinell glemming som forbedres. Nye metoder kan justere modellparametre knyttet til bestemt data uten fullstendig om-trening. Disse tilnærmingene er i tidlige stadier, men de beveger seg mot å oppfylle kravene til datasletting. Likevel forblir verifisering av at glemming faktisk fjerner alle spor av data vanskelig. Forskere utvikler tester for å måle hvor godt det fungerer.

Bunnpunktet

AI-systemer har blitt utmerkede til å huske. Men de er fortsatt dårlige til å glemme. Denne gapen blir vanskeligere å ignorere. Ettersom AI vokser mer kraftig og reguleringskravene blir strengere, vil evnen til å glemme klokt bli like viktig som evnen til å huske. For å gjøre AI tryggere, mer tilpasningsdyktig og mer personvernsbevisst, må vi lære det å glemme omsorgsfullt, selektivt og intelligent. Kontrollert glemming vil ikke bare beskytte datapersonvern, men også hjelpe AI-systemer å utvikle seg uten å bli fanger av sin egen minne.

Dr. Tehseen Zia er en fast ansatt associate professor ved COMSATS University Islamabad, med en PhD i AI fra Vienna University of Technology, Østerrike. Som spesialist i kunstig intelligens, maskinlæring, datavitenskap og datavisjon, har han gjort betydelige bidrag med publikasjoner i anerkjente vitenskapelige tidsskrifter. Dr. Tehseen har også ledet flere industriprosjekter som hovedundersøker og tjenestegjort som AI-konsulent.