Kunstig intelligens
Hvorfor store sprÄkmodeller glemmer midten: Avdekker AIs skjulte blindsone

Ettersom store sprÄkmodeller (LLM-er) er mye brukt til oppgaver som dokumentoppsummering, juridisk analyse og evaluering av sykehistorie, er det avgjÞrende Ä erkjenne begrensningene til disse modellene. Selv om vanlige problemer som hallusinasjoner og Bias er velkjente, har forskere nylig identifisert en annen betydelig svakhet: nÄr de behandler lange tekster, har LLM-er en tendens til Ä beholde informasjon i begynnelsen og slutten, men forsÞmmer ofte midten.
Dette problemet, omtalt som «tapt-i-midtenâ-fenomenet, kan ha alvorlig innvirkning pĂ„ ytelsen til disse modellene i virkelige applikasjoner. Hvis for eksempel en AI har i oppgave Ă„ oppsummere et langt juridisk dokument, kan det Ă„ utelate kritiske detaljer fra midten fĂžre til misvisende eller ufullstendige sammendrag. I medisinske settinger kan det Ă„ overse informasjon fra midten av en pasients historie fĂžre til unĂžyaktige anbefalinger. Ă forstĂ„ hvorfor dette skjer er fortsatt en utfordrende oppgave for forskere som prĂžver Ă„ bygge tryggere og mer pĂ„litelig AI. Imidlertid har nylig en studere gir noen av de klareste svarene hittil, og avslĂžrer at dette problemet er dypt forankret i arkitekturen til disse modellene.
«Tapt i midten»-problemet
«Lost-in-the-middle»-fenomenet refererer til tendensen til at LLM-er gir mindre oppmerksomhet til informasjon midt i lange inputsekvenser. Det ligner pÄ hvordan mennesker ofte husker det fÞrste og siste elementet i en liste bedre enn de i midten. Denne kognitive skjevheten hos mennesker er ofte kjent som primat- og nyhetseffektFor LLM-er betyr dette at de presterer bedre nÄr nÞkkelinformasjon er i begynnelsen eller slutten av en tekst, men sliter nÄr den er begravd i midten. Dette resulterer i en «U-formet» ytelseskurve, hvor nÞyaktigheten er hÞy i starten, synker betydelig i midten og deretter Þker igjen pÄ slutten.
Dette fenomenet er ikke bare et teoretisk problem. Det har blitt observert i en rekke oppgaver, fra spÞrsmÄlsbesvarelse til dokumentoppsummering. Hvis du for eksempel stiller et LLM-spÞrsmÄl der svaret finnes i de fÞrste avsnittene av en lang artikkel, vil den sannsynligvis svare riktig. Det samme gjelder hvis svaret finnes i de siste avsnittene. Men hvis den kritiske informasjonen er skjult et sted i midten, synker modellens nÞyaktighet kraftig. Dette er en alvorlig begrensning, da det betyr at vi ikke fullt ut kan stole pÄ disse modellene med oppgaver som krever forstÄelse av en lang og kompleks kontekst. Det gjÞr dem ogsÄ sÄrbare for manipulasjon. Noen kan med vilje plassere misvisende informasjon i begynnelsen eller slutten av et dokument for Ä pÄvirke AI-ens utdata.
ForstÄ arkitekturen til LLM-er
For Ä forstÄ hvorfor LLM-er glemmer midten, mÄ vi se pÄ hvordan de er bygget opp. Moderne LLM-er er basert pÄ en arkitektur som kalles TransformatorTransformeren var et gjennombrudd innen kunstig intelligens fordi den introduserte en mekanisme kalt selvoppmerksomhetSelvoppmerksomhet lar modellen veie viktigheten av forskjellige ord i inndatateksten nÄr den behandler et gitt ord. For eksempel, nÄr den behandler setningen «Katten satt pÄ matten», kan selvoppmerksomhetsmekanismen lÊre at «katt» og «satt» er sterkt beslektet. Dette lar modellen bygge en mye rikere forstÄelse av forholdet mellom ord enn tidligere arkitekturer kunne.
En annen nÞkkelkomponent er posisjonell kodingSiden selvoppmerksomhetsmekanismen i seg selv ikke har en iboende sans for ordrekkefÞlge, legges posisjonskodinger til inputen for Ä gi modellen informasjon om posisjonen til hvert ord i sekvensen. Uten dette ville modellen se inputteksten som bare en «pose med ord«uten struktur. Disse to komponentene, selvoppmerksomhet og posisjonskoding, jobber sammen for Ä gjÞre LLM-er mer effektive. Den nye forskningen viser imidlertid at mÄten de samhandler pÄ ogsÄ er kilden til denne skjulte blindsonen.
Hvordan posisjonsskjevhet oppstÄr
En fersk studere bruker en smart tilnĂŠrming for Ă„ forklare dette fenomenet. Den modellerer informasjonsflyten inne i en Transformer som en graf, der hvert ord er en node og oppmerksomhetsforbindelsene er kantene. Dette lar forskerne matematisk spore hvordan informasjon fra forskjellige posisjoner behandles gjennom modellens mange lag.
De avdekket to hovedinnsikter. For det fÞrste, bruken av kausal maskering I mange LLM-er skaper dette iboende en skjevhet mot begynnelsen av sekvensen. Kausal maskering er en teknikk som sikrer at nÄr modellen genererer et ord, kan den bare fokusere pÄ ordene som kom fÞr det, ikke etter. Dette er avgjÞrende for oppgaver som tekstgenerering. Over mange lag skaper dette imidlertid en sammensatt effekt. De fÞrste ordene i en tekst behandles igjen og igjen, og representasjonene deres blir mer og mer innflytelsesrike. I motsetning til dette ser ord i midten alltid tilbake pÄ denne allerede veletablerte konteksten, og deres eget unike bidrag kan drukne i.
For det andre sÄ forskerne pÄ hvordan posisjonskodinger samhandler med denne kausale maskeringseffekten. Moderne LLM-er bruker ofte relative posisjonskodinger, som fokuserer pÄ avstanden mellom ord i stedet for deres absolutte posisjon. Dette hjelper modellen med Ä generalisere til tekster av ulik lengde. Selv om dette virker som en god idé, skaper det et konkurrerende press. Den kausale masken skyver modellens fokus til starten, mens den relative posisjonskodingen oppmuntrer den til Ä fokusere pÄ ord i nÊrheten. Resultatet av denne tautrekkingen er at modellen vier mest oppmerksomhet til selve begynnelsen av teksten og til den umiddelbare lokale konteksten til et gitt ord. Informasjon som er langt unna og ikke i begynnelsen, med andre ord i midten, fÄr minst oppmerksomhet.
De bredere implikasjonene
Fenomenet «tapt i midten» har betydelige konsekvenser for applikasjoner som er avhengige av Ä behandle lange tekster. Forskningen viser at problemet ikke bare er en tilfeldig effekt, men en grunnleggende konsekvens av mÄten vi har designet disse modellene pÄ. Dette betyr at det er usannsynlig at det Ä bare trene dem pÄ mer data vil lÞse problemet. I stedet mÄ vi kanskje revurdere noen av de viktigste arkitektoniske prinsippene til Transformers.
For brukere og utviklere av AI er dette en kritisk advarsel. Vi mÄ vÊre klar over denne begrensningen nÄr vi designer applikasjoner som er avhengige av LLM-er. For oppgaver som involverer lange dokumenter, kan det hende vi mÄ utvikle strategier for Ä redusere denne skjevheten. Dette kan innebÊre Ä dele dokumentet opp i mindre deler eller lage modeller som spesifikt retter modellens oppmerksomhet mot forskjellige deler av teksten. Det fremhever ogsÄ viktigheten av grundig testing. Vi kan ikke anta at en LLM som yter bra pÄ korte tekster, vil vÊre pÄlitelig nÄr den stÄr overfor lengre, mer komplekse input.
Bunnlinjen
AI-utvikling har alltid fokusert pÄ Ä identifisere begrensninger og finne mÄter Ä overvinne dem pÄ. «Lost-in-the-middle»-problemet er en betydelig svakhet i store sprÄkmodeller, der de har en tendens til Ä overse informasjon midt i lange tekstsekvenser. Dette problemet oppstÄr pÄ grunn av skjevheter i Transformer-arkitekturen, spesielt samspillet mellom kausal maskering og relativ posisjonskoding. Selv om LLM-er fungerer bra med informasjon i begynnelsen og slutten av en tekst, sliter de nÄr viktige detaljer plasseres i midten. Denne begrensningen kan redusere nÞyaktigheten til LLM-er i oppgaver som dokumentoppsummering og spÞrsmÄlsbesvarelse, noe som kan ha alvorlige implikasjoner innen felt som jus og medisin. Utviklere og forskere mÄ lÞse dette problemet for Ä forbedre pÄliteligheten til LLM-er i praktiske anvendelser.