Kontakt med oss

Andersons vinkel

Hvorfor sprÄkmodeller gÄr «tapt» i samtaler

mm
ChatGPT-4o og Adobe Firefly.

En ny artikkel fra Microsoft Research og Salesforce viser at selv de dyktigste Store sprÄkmodeller (LLM-er) faller fra hverandre nÄr instruksjoner gis i etapper heller enn alt pÄ én gang. Forfatterne fant at ytelsen synker med gjennomsnittlig 39 prosent pÄ tvers av seks oppgaver nÄr en ledetekst er fordelt over flere runder:

En samtale med én runde (venstre) gir de beste resultatene. En samtale med flere runder (hÞyre) viser at selv de hÞyest rangerte og mest effektive LLM-ene mister den effektive drivkraften i en samtale. Kilde: https://arxiv.org/pdf/2505.06120

En samtale med én runde (venstre) gir de beste resultatene, men er unaturlig for sluttbrukeren. En samtale med flere runder (hÞyre) fÞrer til at selv de hÞyest rangerte og mest effektive LLM-ene mister den effektive drivkraften i en samtale. Kilde: https://arxiv.org/pdf/2505.06120

Mer pÄfallende er det at pÄlitelighet av svarene tar et stup, med prestisjefylte modeller som CatGPT-4.1 og Gemini 2.5 Pro svingende mellom nesten perfekte svar og Äpenbare feil, avhengig av hvordan den samme oppgaven er formulert; dessuten kan konsistensen i produksjonen synke med mer enn halvparten i prosessen.

For Ä utforske denne oppfÞrselen introduserer artikkelen en metode som kalles skjÊring*, som deler opp fullstendig spesifiserte spÞrsmÄl i mindre fragmenter og frigjÞr dem én om gangen i en samtale.

Enkelt sagt tilsvarer dette Ä gi en helhetlig og omfattende enkeltbestilling pÄ en restaurant, slik at servitÞren ikke har noe annet Ä gjÞre enn Ä bekrefte forespÞrselen; eller bestemme seg for Ä angripe saken i fellesskap:

To ekstreme versjoner av en restaurantsamtale (ikke fra den nye avisen, kun for illustrasjonsformÄl).

To ekstreme versjoner av en restaurantsamtale (ikke fra den nye avisen, kun for illustrasjonsformÄl).

For Ă„ understreke dette, setter eksemplet ovenfor kanskje kunden i et negativt lys. Men kjerneideen som er skildret i den andre kolonnen er en transaksjonsutveksling som avklarer et problemsett fĂžr problemene tas opp – tilsynelatende en rasjonell og rimelig mĂ„te Ă„ tilnĂŠrme seg en oppgave pĂ„.

Dette oppsettet gjenspeiles i det nye verkets dryppmatede, knust tilnÊrming til LLM-interaksjon. Forfatterne bemerker at LLM-er ofte genererer altfor lange svar og deretter fortsetter Ä stole pÄ sin egen innsikt selv etter at disse innsiktene har vist seg Ä vÊre feil eller irrelevanteDenne tendensen, kombinert med andre faktorer, kan fÞre til at systemet mister oversikten over utvekslingen fullstendig.

Faktisk legger forskerne merke til hva mange av oss har funnet anekdotisk – at den beste mĂ„ten Ă„ fĂ„ samtalen tilbake pĂ„ sporet er Ă„ starte en ny samtale med juristspesialisten.

«Hvis en samtale med en LLM ikke fÞrte til forventede resultater, kan det Ä starte en ny samtale som gjentar den samme informasjonen gi betydelig bedre resultater enn Ä fortsette en pÄgÄende samtale.»

«Dette er fordi nÄvÊrende LLM-er kan gÄ seg vill i samtalen, og vÄre eksperimenter viser at det er ineffektivt Ä fortsette i en samtale med modellen. I tillegg, siden LLM-er genererer tekst med tilfeldighet, kan en ny samtale fÞre til forbedrede resultater.»

Forfatterne erkjenner at agentsystemer som autogent or Langkjede kan potensielt forbedre resultatene ved Ä fungere som tolkende lag mellom sluttbrukeren og LLM-en, og bare kommunisere med LLM-en nÄr de har samlet nok «shardede» svar til Ä koagulere til én enkelt sammenhengende spÞrring (som sluttbrukeren ikke vil bli eksponert for).

Forfatterne hevder imidlertid at et separat abstraksjonslag ikke burde vĂŠre nĂždvendig, eller at det ellers burde bygges direkte inn i kilde-LLM-en:

«Man kan argumentere for at flerturnfunksjoner ikke er en nÞdvendig funksjon i LLM-er, ettersom de kan overfÞres til agentrammeverket. Med andre ord, trenger vi innebygd flerturnstÞtte i LLM-er nÄr et agentrammeverk kan orkestrere interaksjoner med brukere og kun utnytte LLM-er som enkeltturnoperatorer? ...»

Men etter Ä ha testet pÄstanden pÄ tvers av sine eksempler, konkluderer de:

«[Å stole pĂ„] et agentlignende rammeverk for Ă„ behandle informasjon kan vĂŠre begrensende, og vi argumenterer for at LLM-er bĂžr ha innebygd stĂžtte for interaksjon mellom flere omganger.»

Dette interessant nytt papir har tittelen LLM-er gÄr seg vill i flertrinnssamtaler, og kommer fra fire forskere pÄ tvers av MS Research og Salesforce,

Fragmenterte samtaler

Den nye metoden bryter fĂžrst ned konvensjonelle enkeltrunde-instruksjoner i mindre shards, designet for Ă„ bli introdusert i viktige Ăžyeblikk under en LLM-interaksjon, en struktur som gjenspeiler den utforskende, frem-og-tilbake-stilen for engasjement som sees i systemer som ChatGPT eller Google Gemini.

Hver originale instruksjon er en enkelt, selvstendig ledetekst som leverer hele oppgaven pÄ én gang, og kombinerer et spÞrsmÄl pÄ hÞyt nivÄ, stÞttende kontekst og eventuelle relevante betingelser. Den shard-baserte versjonen deler dette opp i flere mindre deler, der hver shard bare legger til én informasjonsbit:

Parvise instruksjoner som viser (a) en komplett prompt levert i én runde og (b) dens sharded-versjon brukt til Ä simulere en underspesifisert interaksjon med flere runder. Semantisk leverer hver versjon den samme informative nyttelasten.

Parvise instruksjoner som viser (a) en komplett prompt levert i én runde og (b) dens sharded-versjon brukt til Ä simulere en underspesifisert interaksjon med flere runder. Semantisk leverer hver versjon den samme informative nyttelasten.

Den fÞrste sharden introduserer alltid hovedmÄlet med oppgaven, mens resten gir avklarende detaljer. Sammen leverer de det samme innholdet som den opprinnelige prompten, men sprer seg naturlig over flere runder i samtalen.

Hver simulerte samtale utfolder seg mellom tre komponenter: assistent, modellen som evalueres; bruker, en simulert agent med tilgang til hele instruksjonen i sharded-format; og system, som overvÄker og gir poeng i utvekslingen.

Samtalen starter med at brukeren avslÞrer den fÞrste sharden, og assistenten svarer fritt. Systemet klassifiserer deretter svaret i en av flere kategorier, for eksempel en forespÞrsel om avklaring eller forsÞk pÄ fullstendig svar.

Hvis modellen gjÞr forsÞke et svar, trekker en separat komponent ut kun det relevante spennet for evaluering, og ignorerer all omkringliggende tekst. PÄ hver ny tur avslÞrer brukeren én ekstra shard, noe som fÞrer til et nytt svar. Utvekslingen fortsetter til enten modellen fÄr riktig svar eller det ikke er noen shards igjen Ä avslÞre:

Diagram av en sharded samtalesimulering, med den evaluerte modellen uthevet i rĂždt.

Diagram av en sharded samtalesimulering, med den evaluerte modellen uthevet i rĂždt.

Tidlige tester viste at modeller ofte spurte om informasjon som ikke hadde blitt delt ennÄ, sÄ forfatterne droppet ideen om Ä avslÞre shards i en fast rekkefÞlge. I stedet ble en simulator brukt til Ä bestemme hvilken shard som skulle avslÞres neste gang, basert pÄ hvordan samtalen forlÞp.

Brukersimulatoren, implementert med GPT-4o-mini, fikk derfor full tilgang til bÄde hele instruksjonen og samtalehistorikken, med oppgaven Ä bestemme, for hver runde, hvilken shard som skulle avslÞres neste gang, basert pÄ hvordan utvekslingen utfoldet seg.

Brukersimulatoren ogsÄ omformulert hver shard for Ä opprettholde samtaleflyten uten Ä endre meningen. Dette tillot simuleringen Ä gjenspeile «gi og ta» i ekte dialog, samtidig som kontrollen over oppgavestrukturen ble bevart.

FÞr samtalen starter, fÄr assistenten bare den grunnleggende informasjonen som er nÞdvendig for Ä fullfÞre oppgaven, for eksempel et databaseskjema eller en API-referanse. Den fÄr ikke vite at instruksjonene vil bli delt opp, og den blir ikke veiledet mot noen spesifikk mÄte Ä hÄndtere samtalen pÄ. Dette gjÞres med vilje: i bruk i den virkelige verden fÄr modeller nesten aldri vite at en ledetekst vil vÊre ufullstendig eller oppdatert over tid, og Ä utelate denne konteksten hjelper simuleringen med Ä gjenspeile hvordan modellen oppfÞrer seg i en mer realistisk kontekst.

GPT-4o-mini ble ogsÄ brukt til Ä bestemme hvordan modellens svar skulle klassifiseres, og til Ä trekke ut eventuelle endelige svar fra disse svarene. Dette hjalp simuleringen med Ä holde seg fleksibel, men introduserte sporadiske feil: etter Ä ha sjekket flere hundre samtaler for hÄnd fant forfatterne imidlertid at fÊrre enn fem prosent hadde noen problemer, og fÊrre enn to prosent viste endring i utfallet pÄ grunn av dem, og de ansÄ dette som en lav nok feilrate innenfor prosjektets rammer.

Simuleringsscenarier

Forfatterne brukte fem typer simuleringer for Ä teste modellatferd under forskjellige forhold, hver en variant av hvordan og nÄr deler av instruksjonen avslÞres.

pÄ Full innstillingen, mottar modellen hele instruksjonen i én runde. Dette representerer standard referanseformat og fungerer som ytelsesgrunnlinjen.

Ocuco SkjÊrt Innstillingen deler opp instruksjonen i flere deler og leverer dem én om gangen, noe som simulerer en mer realistisk, underspesifisert samtale. Dette er hovedinnstillingen som brukes til Ä teste hvor godt modeller hÄndterer flerturn-input.

pÄ Concat I denne innstillingen settes fragmentene sammen igjen til én liste, og ordlyden bevares, men den trinnvise strukturen fjernes. Dette bidrar til Ä isolere effektene av samtalefragmentering fra omformulering eller tap av innhold.

Ocuco Oppsummering innstillingen gÄr som SkjÊrt, men legger til en siste runde der alle tidligere shards blir omformulert fÞr modellen gir et endelig svar. Dette tester om en sammendragsoppgave kan bidra til Ä gjenopprette tapt kontekst.

Endelig, Snowball gĂ„r videre ved Ă„ gjenta alle tidligere skĂ„r pĂ„ hver tur, slik at hele instruksjonen er synlig mens samtalen utfolder seg – og det gir en mer tilgivende test av evnen til Ă„ kjĂžre flere runder.

Simuleringstyper basert pÄ sharded-instruksjoner. En fullstendig spesifisert ledetekst deles inn i mindre deler, som deretter kan brukes til Ä simulere enten enkeltrunde- (Full, Concat) eller flerrunde- (Sharded, Recap, Snowball) samtaler, avhengig av hvor raskt informasjonen avslÞres.

Simuleringstyper basert pÄ sharded-instruksjoner. En fullstendig spesifisert ledetekst deles inn i mindre deler, som deretter kan brukes til Ä simulere enten enkeltrunde- (Full, Concat) eller flerrunde- (Sharded, Recap, Snowball) samtaler, avhengig av hvor raskt informasjonen avslÞres.

Oppgaver og mÄlinger

Seks generasjonsoppgaver ble valgt for Ä dekke bÄde programmerings- og naturlige sprÄkdomener: kodegenereringsoppgaver ble hentet fra HumanEval og LiveCodeBenchTekst-til-SQL-spÞrringer ble hentet fra SpiderAPI-kall ble konstruert ved hjelp av data fra Toppliste for Berkeley-funksjonskall; elementÊre matematikkoppgaver ble levert av GSM8K; tabellformede tekstingsoppgaver var basert pÄ ToTo; og sammendrag av flere dokumenter ble hentet fra Sammendrag av en hÞystakk datasett.

Modellytelsen ble mÄlt ved hjelp av tre kjerneparametre: gjennomsnittlig ytelse, aptitudeog upÄlitelighet.

Gjennomsnittlig ytelse fanget opp hvor bra en modell gjorde det totalt sett pÄ tvers av flere forsÞk; aptitude reflekterte de beste resultatene en modell kunne oppnÄ, basert pÄ dens toppscorende utganger; og upÄlitelighet mÄlte hvor mye disse resultatene varierte, med stÞrre gap mellom beste og verste utfall som indikerer mindre stabil atferd.

Alle poengsummer ble plassert pĂ„ en skala fra 0–100 for Ă„ sikre konsistens pĂ„ tvers av oppgaver, og mĂ„linger ble beregnet for hver instruksjon – og deretter gjennomsnittet beregnet for Ă„ gi et helhetsbilde av modellens ytelse.

Seks shardede oppgaver brukt i eksperimentene, som dekker bÄde programmering og generering av naturlig sprÄk. Hver oppgave vises med en fullstendig spesifisert instruksjon og dens shardede versjon. Mellom 90 og 120 instruksjoner ble tilpasset fra etablerte referansepunkter for hver oppgave.

Seks shardede oppgaver brukt i eksperimentene, som dekker bÄde programmering og generering av naturlig sprÄk. Hver oppgave vises med en fullstendig spesifisert instruksjon og dens shardede versjon. Mellom 90 og 120 instruksjoner ble tilpasset fra etablerte referansepunkter for hver oppgave.

Konkurrenter og tester

I de fĂžrste simuleringene (med en estimert kostnad pĂ„ $5000) ble 600 instruksjoner som spenner over seks oppgaver shardet og brukt til Ă„ simulere tre samtaletyper: fullt, konkatog knustFor hver kombinasjon av modell, instruksjon og simuleringstype ble det kjĂžrt ti samtaler, noe som produserte over 200,000 XNUMX simuleringer totalt – et skjema som gjorde det mulig Ă„ fange opp bĂ„de total ytelse og dypere mĂ„l pĂ„ egnethet og pĂ„litelighet.

Femten modeller ble testet, som spenner over et bredt spekter av leverandĂžrer og arkitekturer: OpenAI-modellene GPT-4o (versjon 2024-11-20), GPT-4o-mini (2024-07-18), GPT-4.1 (2025-04-14), og tankemodellen o3 (2025-04-16).

Antropiske modeller var Claude 3 Haiku (2024-03-07) og Claude 3.7 sonett (2025-02-19), tilgjengelig via Amazon Bedrock.

Google bidro Gemini 2.5 Flash (forhÄndsvisning-04-17) og Gemini 2.5 Pro (forhÄndsvisning-03-25). Metamodeller var Llama 3.1-8B-Instruksjon og Llama 3.3-70B-Instruksjon, i tillegg til Llama 4 Scout-17B-16E, via Sammen AI.

De andre bidragene var OLMo 2 13B, Phi-4og Kommando-A, alt tilgjengelig lokalt via Ollama eller Cohere API; og Deepseek-R1, tilgjengelig via Amazon Bedrock.

For de to 'tenker' modeller (o3 og R1), symbolske grenser ble hevet til 10,000 XNUMX for Ă„ imĂžtekomme lengre resonneringskjeder:

Gjennomsnittlige ytelsespoeng for hver modell pÄ tvers av seks oppgaver: kode, database, handlinger, data-til-tekst, matematikk og sammendrag. Resultatene vises for tre simuleringstyper: full, concat og sharded. Modeller er sortert etter gjennomsnittlig poengsum for full innstilling. Skyggelegging gjenspeiler graden av ytelsesfall fra full innstilling, der de to siste kolonnene rapporterer gjennomsnittlig nedgang for concat og sharded i forhold til full.

Gjennomsnittlige ytelsespoeng for hver modell pÄ tvers av seks oppgaver: kode, database, handlinger, data-til-tekst, matematikk og sammendrag. Resultatene vises for tre simuleringstyper: full, concat og sharded. Modeller er sortert etter gjennomsnittlig poengsum for full innstilling. Skyggelegging gjenspeiler graden av ytelsesfall fra full innstilling, der de to siste kolonnene rapporterer gjennomsnittlig nedgang for concat og sharded i forhold til full.

AngĂ„ende disse resultatene, sier forfatterne†:

«PÄ et hÞyt nivÄ, hver modell ser ytelsen sin forringes pÄ hver oppgave nÄr man sammenligner FULL og SHARDED ytelse, med en gjennomsnittlig degradering pÄ -39 %. Vi kaller dette fenomenet Tapt i samtalenmodeller som oppnÄr fantastisk ytelse (90 %+) i laboratorielignende omgivelser med fullt spesifisert samtalekamp med én tur pÄ akkurat de samme oppgavene i en mer realistisk setting nÄr samtalen er underspesifisert og gÄr over flere vendinger.

Concat gjennomsnittspoengsummene var 95 prosent av fullt, noe som indikerer at ytelsesfallet i den shardede innstillingen ikke kan forklares med informasjonstap. Mindre modeller som Llama3.1-8B-Instruct, OLMo-2-13B og Claude 3 Haiku viste mer uttalt forringelse under konkat, noe som tyder pÄ at mindre modeller generelt er mindre robuste mot omformulering enn stÞrre.

Forfatterne observerer†:

Overraskende nok, Mer effektive modeller (Claude 3.7 Sonnet, Gemini 2.5, GPT-4.1) gĂ„r like mye tapt i samtalen som mindre modeller (Llama 3.1-8B-Instruct, Phi-4)), med gjennomsnittlige degraderinger pĂ„ 30–40 %. Dette skyldes delvis metriske definisjoner. Siden mindre modeller oppnĂ„r lavere absolutte poengsummer i FULL, de har mindre potensial for degradering enn de bedre modellene.

«Kort sagt, uansett hvor sterk en LLMs ytelse i én turn er, observerer vi store ytelsesforringelser i flerturn-settingen.»

Den fÞrste testen indikerer at noen modeller holdt seg bedre i spesifikke oppgaver: Command-A pÄ handlinger, Claude 3.7 Sonnet og GPT-4.1 pÄ kode; og Gemini 2.5 Pro pÄ data-til-tekst, noe som indikerer at evnen til Ä omdanne flere vendinger varierer etter domene. Resonneringsmodeller som o3 og Deepseek-R1 gjorde det ikke bedre totalt sett, kanskje fordi de lengre svarene deres introduserte flere antagelser, noe som pleide Ä forvirre samtalen.

PÄlitelighet

Forholdet mellom evne og pÄlitelighet, tydelig i simuleringer med én tur, sÄ ut til Ä falle fra hverandre under forhold med flere turner. Mens evnen bare avtok beskjedent, var upÄliteligheten doblet i gjennomsnitt. Modeller som var stabile i fullformat-ledetekster, som GPT-4.1 og Gemini 2.5 Pro, ble like uberegnelige som svakere modeller som Llama3.1-8B-Instruct eller OLMo-2-13B nÄr instruksjonen ble fragmentert.

Oversikt over egnethet og upÄlitelighet vist i et boksplott (a), etterfulgt av pÄlitelighetsutfall fra eksperimenter med femten modeller (b), og resultater fra den gradvise sharding-testen der instruksjoner ble delt inn i én til Ätte shards (c).

Oversikt over egnethet og upÄlitelighet vist i et boksplott (a), etterfulgt av pÄlitelighetsutfall fra eksperimenter med femten modeller (b), og resultater fra den gradvise sharding-testen der instruksjoner ble delt inn i én til Ätte shards (c).

Modellresponsene varierte ofte med sÄ mye som 50 poeng pÄ samme oppgave, selv nÄr ingenting nytt ble lagt til, noe som tyder pÄ at nedgangen i ytelse ikke skyldtes mangel pÄ ferdigheter, men at modellen ble stadig mer ustabil pÄ tvers av runder.

Avisen sier†:

«[Selv om] bedre modeller har en tendens til Ä ha litt hÞyere flerturnevner, har alle modeller en tendens til Ä ha lignende nivÄer av upÄlitelighet. Med andre ord, I flerturns, underspesifiserte innstillinger viser alle modellene vi tester svÊrt hÞy upÄlitelighet, med en ytelsesforringelse pÄ 50 prosentpoeng i gjennomsnitt mellom den beste og verste simulerte kjÞringen for en fast instruksjon.».

For Ä teste om ytelsesforringelse var knyttet til antall runder, kjÞrte forfatterne et gradvis sharding-eksperiment, der de delte hver instruksjon inn i én til Ätte shards (se hÞyre kolonne i bildet ovenfor).

Etter hvert som antallet shards Þkte, Þkte upÄliteligheten jevnt og trutt, noe som bekreftet at Selv smÄ Þkninger i antall turn gjorde modellene mer ustabileEvneverdien forble stort sett uendret, noe som forsterker at problemet ligger i konsistens, ikke evne.

Temperaturkontroll

Et separat sett med eksperimenter testet om upÄlitelighet rett og slett var et biprodukt av tilfeldighet. For Ä gjÞre dette varierte forfatterne temperaturinnstillingen til bÄde assistenten og brukersimulatoren pÄ tvers av tre verdier: 1.0, 0.5 og 0.0.

I enkeltsvingningsformater som fullt og konkat, ved Ä redusere assistentens temperatur forbedret pÄliteligheten betydelig, og variasjonen ble redusert med sÄ mye som 80 prosent; men i knust innstillingen, hadde den samme intervensjonen liten effekt:

UpÄlitelighetspoeng for ulike kombinasjoner av assistent- og brukertemperatur pÄ tvers av fulle, sammenslÄtte og shardede innstillinger, der lavere verdier indikerer stÞrre responskonsistens.

UpÄlitelighetspoeng for ulike kombinasjoner av assistent- og brukertemperatur pÄ tvers av fulle, sammenslÄtte og shardede innstillinger, der lavere verdier indikerer stÞrre responskonsistens.

Selv nÄr bÄde assistenten og brukeren var satt til nulltemperatur, forble upÄliteligheten hÞy, med GPT-4o som viste variasjon rundt 30 prosent, noe som tyder pÄ at ustabiliteten som sees i samtaler med flere runder ikke bare er stokastisk stÞy, men en strukturell svakhet i hvordan modeller hÄndterer fragmentert input.

Implikasjoner

Forfatterne skriver uvanlig langt om implikasjonene av funnene sine i konklusjonen av artikkelen, og argumenterer for at sterk ytelse pÄ én tur ikke garanterer pÄlitelighet pÄ flere turner, og advarer mot Ä stole for mye pÄ fullt spesifiserte referansepunkter nÄr man evaluerer beredskap i den virkelige verden (siden slike referansepunkter maskerer ustabilitet i mer naturlige, fragmenterte interaksjoner).

De antyder ogsÄ at upÄlitelighet ikke bare er et utvalgsartefakt, men en grunnleggende begrensning i hvordan nÄvÊrende modeller behandler utviklende input, og de antyder at dette reiser bekymringer for agentrammeverk, som er avhengige av vedvarende resonnement pÄ tvers av turneer.

Til slutt argumenterer de for at flerturnsevne bĂžr behandles som en kjernefunksjon hos LLM-er, ikke noe som overfĂžres til eksterne systemer.

Forfatterne bemerker at resultatene deres sannsynligvis undervurder problemets sanne omfang, og rette oppmerksomheten mot de ideelle forholdene for testen: brukersimulatoren i oppsettet deres hadde full tilgang til instruksjonen og kunne avslĂžre skjĂŠr i en optimal rekkefĂžlge, noe som ga assistenten en urealistisk gunstig kontekst (i bruk i den virkelige verden gir brukere ofte fragmenterte eller tvetydige ledetekster uten Ă„ vite hva modellen trenger Ă„ hĂžre videre).

I tillegg ble assistenten evaluert umiddelbart etter hver runde, fÞr hele samtalen utfoldet seg, noe som forhindrer at senere forvirring eller selvmotsigelser blir straffet, noe som ellers ville forverret ytelsen. Disse valgene, selv om de er nÞdvendige for eksperimentell kontroll, betyr at pÄlitelighetsgapene som observeres i praksis sannsynligvis vil vÊre enda stÞrre enn de som er rapportert.

De konkluderer med:

«[Vi] mener at gjennomfÞrte simuleringer representerer et gunstig testomrÄde for LLM-multi-turn-kapasiteter. PÄ grunn av de altfor forenklede simuleringsbetingelsene, tror vi at degraderingen observert i eksperimentene mest sannsynlig er en undervurdering av LLM-ens upÄlitelighet, og hvor ofte LLM-er gÄr tapt i samtaler i virkelige omgivelser.'

Konklusjon

Alle som har brukt mye tid pÄ en LLM vil sannsynligvis gjenkjenne problemstillingene som er formulert her, fra praktisk erfaring; og jeg antar at de fleste av oss intuitivt har forlatt «tapte» LLM-samtaler til fordel for nye, i hÄp om at LLM-en kan «starte pÄ nytt» og slutte Ä vÊre besatt av materiale som dukket opp i en lang, kronglete og stadig mer irriterende utveksling.

Det er interessant Ä merke seg at det Ä sette mer kontekst pÄ problemet ikke nÞdvendigvis lÞser det; og faktisk Ä observere at artikkelen reiser flere spÞrsmÄl enn den gir svar (bortsett fra nÄr det gjelder mÄter Ä hoppe over problemet pÄ).

 

* Forvirrende nok er dette ikke relatert til den konvensjonelle betydningen av «sharding» i AI.

† Forfatternes egne dristige vektlegginger.

FĂžrst publisert mandag 12. mai 2025

Forfatter pÄ maskinlÊring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai