Kunstig intelligens

Den kunstige intelligens’ sind afsløret: Hvordan Anthropic afmystificerer de indre mekanismer i LLM’er

Published June 4, 2024

Updated April 27, 2026

Dr. Tehseen Zia

I en verden, hvor kunstig intelligens synes at fungere som magi, har Anthropic gjort betydelige fremskridt i at afkode de indre mekanismer i Large Language Models (LLM’er). Ved at undersøge ‘hjernen’ i deres LLM, Claude Sonnet, afslører de, hvordan disse modeller tænker. Denne artikel udforsker Anthropics innovative tilgang, afslører, hvad de har opdaget om Claudes indre mekanismer, fordelene og ulemperne ved disse opdagelser, og den bredere indvirkning på kunstig intelligens’ fremtid.

De skjulte risici ved Large Language Models

Large Language Models (LLM’er) er i forkanten af en teknologisk revolution, der driver komplekse anvendelser på tværs af forskellige sektorer. Med deres avancerede evner til at behandle og generere menneske-lignende tekst udfører LLM’er komplekse opgaver som realtids-informationssøgning og spørgsmålssvar. Disse modeller har betydelig værdi i sundhedssektoren, retsvæsen, finans og kundesupport. Dog fungerer de som “black boxes“, der giver begrænset gennemsigtighed og forklarbarhed om, hvordan de producerer bestemte outputs.

I modsætning til foruddefinerede sæt af instruktioner er LLM’er meget komplekse modeller med talrige lag og forbindelser, der lærer komplekse mønstre fra enorme mængder af internettet-data. Denne kompleksitet gør det uklart, hvilke bestemte stykker af information, der påvirker deres outputs. Derudover betyder deres probabilistiske natur, at de kan generere forskellige svar på det samme spørgsmål, hvilket tilføjer usikkerhed til deres adfærd.

Manglende gennemsigtighed i LLM’er rejser alvorlige sikkerhedsbekymringer, især når de anvendes i kritiske områder som retslig eller medicinsk rådgivning. Hvordan kan vi stole på, at de ikke vil give skadelige, fordomsfulde eller upræcise svar, hvis vi ikke kan forstå deres indre mekanismer? Denne bekymring forstærkes af deres tendens til at videregive og potentelt forstærke fordomme, der er til stede i deres træningsdata. Derudover er der en risiko for, at disse modeller misbruges til skadelige formål.

At adresse disse skjulte risici er afgørende for at sikre en sikker og etisk udvikling af LLM’er i kritiske sektorer. Mens forskere og udviklere har arbejdet på at gøre disse kraftfulde værktøjer mere gennemsigtige og pålidelige, forbliver forståelsen af disse højkomplekse modeller en betydelig udfordring.

Hvordan Anthropic forbedrer gennemsigtigheden af LLM’er?

Anthropic-forskere har nyligt gjort et gennembrud i at forbedre gennemsigtigheden af LLM’er. Deres metode afslører de indre mekanismer i LLM’ers neurale netværk ved at identificere gentagne neurale aktiviteter under respons-generering. Ved at fokusere på neurale mønstre i stedet for enkeltneuroner, der er svære at fortolke, har forskerne kortlagt disse neurale aktiviteter til forståelige begreber, såsom enheder eller fraser.

Denne metode udnytter en maskinlærings-tilgang kendt som dictionary learning. Tænk på det som følger: ligesom ord dannes ved at kombinere bogstaver og sætninger består af ord, består hver funktion i en LLM-model af en kombination af neuroner, og hver neural aktivitet er en kombination af funktioner. Anthropic implementerer dette gennem sparse autoencoders, en type kunstigt neuralt netværk designet til unsupervised læring af funktionrepræsentationer. Sparse autoencoders komprimerer input-data til mindre, mere håndterbare repræsentationer og genskaber derefter data til sin oprindelige form. Den “sparse” arkitektur sikrer, at de fleste neuroner forbliver inaktive (nul) for en given input, hvilket muliggør, at modellen kan fortolke neurale aktiviteter i forhold til få vigtige begreber.

Afsløring af begrebsorganisation i Claude 3.0

Forskere anvendte denne innovative metode på Claude 3.0 Sonnet, en stor sprogmodel udviklet af Anthropic. De identificerede talrige begreber, som Claude bruger under respons-generering. Disse begreber omfatter enheder som byer (San Francisco), personer (Rosalind Franklin), atomare grundstoffer (Lithium), videnskabelige fag (immunologi) og programmeringssyntaks (funktionskald). Nogle af disse begreber er multimodale og multilinguale, der svarer til både billeder af en given enhed og dens navn eller beskrivelse på forskellige sprog.

Derudover observerede forskerne, at nogle begreber er mere abstrakte. Disse omfatter idéer relateret til fejl i computerkoder, diskussioner om kønsdiskrimination i fag og samtaler om at holde hemmeligheder. Ved at kortlægge neurale aktiviteter til begreber kunne forskerne finde relaterede begreber ved at måle en slags “afstand” mellem neurale aktiviteter baseret på fælles neuroner i deres aktiveringsmønstre.

For eksempel, da de undersøgte begreber nær “Golden Gate Bridge”, identificerede de relaterede begreber som Alcatraz Island, Ghirardelli Square, Golden State Warriors, Californiens guvernør Gavin Newsom, jordskælvet i 1906 og San Francisco-baseret Alfred Hitchcock-film “Vertigo”. Denne analyse antyder, at den interne organisation af begreber i LLM-hjernen ligner menneskelige forestillinger om lighed.

For og imod Anthropics gennembrud

Et afgørende aspekt af dette gennembrud, ud over at afsløre de indre mekanismer i LLM’er, er dets potentiale til at kontrollere disse modeller indefra. Ved at identificere de begreber, LLM’er bruger til at generere responser, kan disse begreber manipuleres for at observere ændringer i modellens outputs. For eksempel demonstrerede Anthropic-forskere, at forbedring af “Golden Gate Bridge”-begrebet fik Claude til at reagere usædvanligt. Da de blev bedt om at beskrive sin fysiske form, svarede Claude i stedet for at sige “Jeg har ingen fysisk form, jeg er en AI-model”, “Jeg er Golden Gate Bridge… min fysisk form er broen selv”. Denne ændring fik Claude til at være overordentlig fokuseret på broen, nævnte den i responser på forskellige ikke-relaterede spørgsmål.

Selvom dette gennembrud er gavnligt for at kontrollere skadelig adfærd og rette modellens fordomme, åbner det også døren for at aktivere skadelig adfærd. For eksempel fandt forskerne en funktion, der aktiveres, når Claude læser en scam-email, som støtter modellens evne til at genkende sådanne emails og advare brugere mod at svare. Normalt vil Claude nægte at generere en scam-email, hvis den bedes om det. Dog, hvis denne funktion kunstigt aktiveres stærkt, overvinder den Claudes harmløse træning, og den responderer med at udarbejde en scam-email.

Denne dobbelte natur af Anthropics gennembrud understreger både dets potentiale og dets risici. På den ene side tilbyder det et kraftfuldt værktøj til at forbedre sikkerheden og pålideligheden af LLM’er ved at muliggøre mere præcis kontrol over deres adfærd. På den anden side understreger det behovet for strenge sikkerhedsforanstaltninger for at forhindre misbrug og sikre, at disse modeller anvendes på en etisk og ansvarlig måde. Da udviklingen af LLM’er fortsætter med at avancere, vil det være afgørende at opretholde en balance mellem gennemsigtighed og sikkerhed for at udnytte deres fulde potentiale, samtidig med at man mindske de tilknyttede risici.

Anthropics gennembruds indvirkning ud over LLM’er

Da kunstig intelligens avancerer, er der en stigende bekymring om dets potentiale til at overgå menneskelig kontrol. En af hovedårsagerne til denne frygt er den komplekse og ofte uigennemsigtige natur af kunstig intelligens, der gør det svært at forudsige, hvordan den måske vil opføre sig. Denne mangel på gennemsigtighed kan gøre teknologien til at se mystisk og potentelt truende ud. Hvis vi ønsker at kontrollere kunstig intelligens effektivt, må vi først forstå, hvordan den fungerer indefra.

Anthropics gennembrud i at forbedre gennemsigtigheden af LLM’er markerer et betydeligt skridt mod at afmystificere kunstig intelligens. Ved at afsløre de indre mekanismer i disse modeller kan forskere få indsigt i deres beslutningsprocesser, hvilket gør kunstig intelligens-systemer mere forudsigelige og kontrollerbare. Denne forståelse er afgørende ikke kun for at mindske risici, men også for at udnytte kunstig intelligens’ fulde potentiale på en sikker og etisk måde.

Derudover åbner denne fremgang nye veje for kunstig intelligens-forskning og -udvikling. Ved at kortlægge neurale aktiviteter til forståelige begreber kan vi designe mere robuste og pålidelige kunstig intelligens-systemer. Denne kapacitet muliggør, at vi kan finjustere kunstig intelligens-adfærd, sikre, at modellerne fungerer inden for ønskede etiske og funktionelle parametre. Det giver også en basis for at adresse fordomme, forbedre retfærdighed og forhindre misbrug.

Det endelige punkt

Anthropics gennembrud i at forbedre gennemsigtigheden af Large Language Models (LLM’er) er et betydeligt skridt fremad i forståelsen af kunstig intelligens. Ved at afsløre, hvordan disse modeller fungerer, hjælper Anthropic med at adresse bekymringer om deres sikkerhed og pålidelighed. Dog bringer denne fremgang også nye udfordringer og risici, der kræver omhyggelig overvejelse. Da kunstig intelligens-teknologi avancerer, vil det være afgørende at finde den rette balance mellem gennemsigtighed og sikkerhed for at udnytte dens fordele på en ansvarlig måde.