Kunstig intelligens

DeepMinds Michelangelo Benchmark: Afslører grænserne for lange-kontekst LLM’er

Published October 17, 2024

Updated April 27, 2026

Dr. Assad Abbas

DeepMind Michelangelo Benchmark LLM limits

Da Kunstig Intelligens (AI) fortsætter med at avancere, bliver evnen til at behandle og forstå lange sekvenser af information mere vital. AI-systemer bruges nu til komplekse opgaver som analyse af lange dokumenter, følge med i udvidede samtaler og behandle store mængder data. Men mange nuværende modeller kæmper med lange-kontekst resonnering. Da input bliver længere, taber de ofte spor af vigtige detaljer, hvilket fører til mindre præcise eller sammenhængende resultater.

Dette problem er særligt problematisk i sundheds-, juridiske og finansielle brancher, hvor AI-værktøjer skal håndtere detaljerede dokumenter eller lange diskussioner, samtidig med at de leverer præcise, kontekstbevidste svar. En almindelig udfordring er kontekst drift, hvor modeller taber sigte på tidligere information, når de behandler ny input, hvilket resulterer i mindre relevante resultater.

For at løse disse begrænsninger udviklede DeepMind Michelangelo Benchmark. Dette værktøj tester rigorøst, hvor godt AI-modeller kan håndtere lange-kontekst resonnering. Inspireret af kunstneren Michelangelo, der er kendt for at afsløre komplekse skulpturer fra marmorblokke, hjælper benchmarken med at afsløre, hvor godt AI-modeller kan udtrække meningsfulde mønstre fra store datasæt. Ved at identificere, hvor nuværende modeller mangler, fører Michelangelo Benchmark til fremtidige forbedringer i AI’s evne til at resonere over lange kontekster.

Forståelse af lange-kontekst resonnering i AI

Lange-kontekst resonnering handler om en AI-models evne til at forblive sammenhængende og præcis over lange tekst-, kode- eller samtalesekvenser. Modeller som GPT-4 og PaLM-2 performer godt med korte eller moderate input. Men de har svært ved med længere kontekster. Da inputlængden øges, taber disse modeller ofte spor af essentielle detaljer fra tidligere dele. Dette fører til fejl i forståelse, sammenfattende eller beslutningstagning. Dette problem er kendt som kontekstvinduebegrænsningen. Modellens evne til at fastholde og behandle information aftager, når konteksten bliver længere.

Dette problem er betydeligt i virkelige applikationer. For eksempel i juridiske services analyserer AI-modeller kontrakter, cases eller reguleringer, der kan være hundredvis af sider lange. Hvis disse modeller ikke kan effektivt fastholde og resonere over sådanne lange dokumenter, kan de måske overse vigtige klausuler eller misfortolke juridiske termer. Dette kan føre til urigtige råd eller analyse. I sundhedssektoren har AI-systemer brug for at syntetisere patientjournaler, medicinske historier og behandlingsplaner, der kan strække sig over år eller endda årtier. Hvis en model ikke kan nøjagtigt huske kritisk information fra tidligere optegnelser, kan den anbefale upassende behandlinger eller misdiagnose patienter.

Selv om der er blevet gjort bestræbelser på at forbedre modellernes token-grænser (som GPT-4, der kan håndtere op til 32.000 tokens, omkring 50 sider tekst), er lange-kontekst resonnering stadig en udfordring. Kontekstvindueproblemet begrænser mængden af input, en model kan håndtere, og påvirker dens evne til at fastholde præcis forståelse hele inputsekvensen. Dette fører til kontekstdrift, hvor modellen langsomt glemmer tidligere detaljer, når nye informationer introduceres. Dette reducerer dens evne til at generere sammenhængende og relevante output.

Michelangelo Benchmark: Koncept og tilgang

Michelangelo Benchmark tackler udfordringerne med lange-kontekst resonnering ved at teste LLM’er på opgaver, der kræver, at de fastholder og behandler information over udstrakte sekvenser. I modsætning til tidligere benchmarks, der fokuserer på korte kontekst opgaver som sætningsslutførelse eller grundlæggende spørgsmål, fokuserer Michelangelo Benchmark på opgaver, der udfordrer modeller til at resonere over lange datasekvenser, ofte inklusive distraktioner eller irrelevant information.

Michelangelo Benchmark udfordrer AI-modeller ved hjælp af Latent Structure Queries (LSQ) framework. Denne metode kræver, at modeller finder meningsfulde mønstre i store datasæt, samtidig med at de filtrerer ud irrelevant information, ligesom mennesker søger gennem komplekse data for at fokusere på, hvad der er vigtigt. Benchmarket fokuserer på to hovedområder: naturlig sprog og kode, og introducerer opgaver, der tester mere end bare datahentning.

En vigtig opgave er Latent List Task. I denne opgave gives modellen en sekvens af Python-listeoperationer, som tilføjer, fjerner eller sorterer elementer, og derefter skal den producere den korrekte endelige liste. For at gøre det sværere inkluderer opgaven irrelevante operationer, som omvendelse af listen eller annullering af tidligere trin. Dette tester modellens evne til at fokusere på kritiske operationer, og simulerer, hvordan AI-systemer skal håndtere store datasæt med blandet relevans.

En anden kritisk opgave er Multi-Round Co-reference Resolution (MRCR). Denne opgave måler, hvor godt modellen kan spore referencer i lange samtaler med overlappende eller uklare emner. Udfordringen er for modellen at linke referencer, der er lavet sent i samtalen, til tidligere punkter, selv når disse referencer er skjult under irrelevante detaljer. Denne opgave reflekterer virkelige diskussioner, hvor emnerne ofte skifter, og AI skal nøjagtigt spore og løse referencer for at fastholde sammenhængende kommunikation.

Derudover indeholder Michelangelo IDK-opgaven, der tester en modells evne til at erkende, når den ikke har nok information til at besvare et spørgsmål. I denne opgave præsenteres modellen for tekst, der måske ikke indeholder den relevante information til at besvare et bestemt spørgsmål. Udfordringen er for modellen at identificere tilfælde, hvor den korrekte respons er “Jeg ved det ikke“, i stedet for at give et plausibelt, men forkert svar. Denne opgave reflekterer en kritisk aspekt af AI-pålidelighed – erkendelse af usikkerhed.

Gennem opgaver som disse flytter Michelangelo sig ud over simpel hentning til at teste en modells evne til at resonere, syntetisere og håndtere lange-kontekst input. Den introducerer en skalerbar, syntetisk og ulækaget benchmark for lange-kontekst resonnering, og giver en mere præcis måling af LLM’ers nuværende tilstand og fremtidige potentiale.

Konsekvenser for AI-forskning og udvikling

Resultaterne fra Michelangelo Benchmark har betydelige konsekvenser for, hvordan vi udvikler AI. Benchmarket viser, at nuværende LLM’er har brug for bedre arkitektur, især i opmærksomhedsmechanismer og hukommelsessystemer. Lige nu afhænger de fleste LLM’er af selvopmærksomhedsmechanismer. Disse er effektive til korte opgaver, men kæmper, når konteksten bliver længere. Her ser vi problemet med kontekstdrift, hvor modeller glemmer eller blandes tidligere detaljer. For at løse dette udforsker forskere hukommelsesforstærkede modeller. Disse modeller kan gemme vigtig information fra tidligere dele af en samtale eller dokument, og tillade AI at huske og bruge den, når det er nødvendigt.

En anden lovende tilgang er hierarkisk proces. Denne metode giver AI mulighed for at bryde lange input ned i mindre, håndterbare dele, hvilket hjælper den med at fokusere på de mest relevante detaljer på hvert trin. Denne måde kan modellen håndtere komplekse opgaver bedre uden at blive overvældet af for meget information på én gang.

Forbedring af lange-kontekst resonnering vil have en betydelig indvirkning. I sundhedssektoren kunne det betyde bedre analyse af patientjournaler, hvor AI kan spore en patients historie over tid og give mere præcise behandlingsanbefalinger. I juridiske services kunne disse fremskridt føre til AI-systemer, der kan analysere lange kontrakter eller retssager med større nøjagtighed, og give mere pålidelige indsigt for advokater og juridiske fagfolk.

Men med disse fremskridt kommer kritiske etiske bekymringer. Da AI bliver bedre til at fastholde og resonere over lange kontekster, er der en risiko for at afsløre følsom eller privat information. Dette er en reel bekymring for brancher som sundhedssektoren og kundeservice, hvor fortrolighed er kritisk.

Hvis AI-modeller fastholder for meget information fra tidligere interaktioner, kan de måske ufrivilligt afsløre personlige detaljer i fremtidige samtaler. Derudover kan AI, da det bliver bedre til at generere overbevisende lange-form indhold, bruges til at skabe mere avanceret misinformation eller desinformation, hvilket yderligere komplicerer udfordringerne omkring AI-regulering.

Bottom Line

Michelangelo Benchmark har afsløret indsigt i, hvordan AI-modeller håndterer komplekse, lange-kontekst opgaver, og har fremhævet deres styrker og begrænsninger. Denne benchmark fremmer innovation, da AI udvikles, og opmuntrer til bedre modelarkitektur og forbedrede hukommelsessystemer. Potentialet for at forvandle brancher som sundhedssektoren og juridiske services er spændende, men kommer med etiske ansvar.

Privatliv, misinformation og fairness-bekymringer må håndteres, da AI bliver mere dygtig til at håndtere store mængder information. AI’s vækst må forblive fokuseret på at gavne samfundet omhyggeligt og ansvarligt.

Dr. Assad Abbas

Dr. Assad Abbas, en fast ansat lektor ved COMSATS University Islamabad, Pakistan, har erhvervet sin ph.d. fra North Dakota State University, USA. Hans forskning fokuserer på avancerede teknologier, herunder cloud, fog og edge computing, big data analytics og AI. Dr. Abbas har leveret væsentlige bidrag med publikationer i anerkendte videnskabelige tidsskrifter og konferencer. Han er også grundlægger af MyFastingBuddy.