Kunstig intelligens

Den kunstige intelligensens sinn avdekket: Hvordan Anthropic avmystifiserer de indre arbeidsprosessene til LLM

Published June 4, 2024

Updated April 27, 2026

Dr. Tehseen Zia

I en verden der kunstig intelligens ser ut til å fungere som magi, har Anthropic gjort betydelige fremskritt i å avkode de indre arbeidsprosessene til store språkmodeller (LLM). Ved å undersøke “hjernen” til deres LLM, Claude Sonnet, avdekker de hvordan disse modellene tenker. Denne artikkelen utforsker Anthropics innovative tilnærming, avdekkende hva de har funnet ut om Claudes indre arbeid, fordeler og ulemper med disse funnene, og den bredere innvirkningen på fremtiden til kunstig intelligens.

De skjulte risikoene med store språkmodeller

Store språkmodeller (LLM) er i forkant av en teknologisk revolusjon, og driver komplekse applikasjoner over flere sektorer. Med deres avanserte evner til å prosessere og generere menneske-lignende tekst, utfører LLM komplekse oppgaver som sanntidsinformasjonshenting og spørsmålssvar. Disse modellene har betydelig verdi i helse, lov, finans og kundesupport. Imidlertid fungerer de som “svarte bokser“, og gir begrenset transparens og forklarbarhet med hensyn til hvordan de produserer bestemte utdata.

I motsetning til forhåndsdefinerte instruksjoner, er LLM svært komplekse modeller med mange lag og forbindelser, og lærer komplekse mønster fra store mengder internettdata. Denne kompleksiteten gjør det uklart hvilke bestemte deler av informasjonen som påvirker deres utdata. I tillegg betyr deres probabilistiske natur at de kan generere forskjellige svar på samme spørsmål, og legger til usikkerhet til deres atferd.

Mangelen på transparens i LLM gir opphav til alvorlige sikkerhetsbekymringer, spesielt når de brukes i kritiske områder som juridisk eller medisinsk rådgivning. Hvordan kan vi stole på at de ikke vil gi skadelige, fordomsfulle eller uriktige svar hvis vi ikke kan forstå deres indre arbeid? Denne bekymringen er forsterket av deres tendens til å videreformidle og potensielt forsterke fordommer som er til stede i deres treningsdata. Videre er det en risiko for at disse modellene misbrukes til skadelige formål.

Å håndtere disse skjulte risikoene er avgjørende for å sikre en trygg og etisk utrulling av LLM i kritiske sektorer. Mens forskere og utviklere har arbeidet for å gjøre disse kraftfulle verktøyene mer transparente og pålitelige, forblir forståelsen av disse svært komplekse modellene en betydelig utfordring.

Hvordan Anthropic øker transparensen til LLM

Anthropic-forskere har nylig gjort et gjennombrudd i å øke transparensen til LLM. Deres metode avdekker de indre arbeidsprosessene til LLMs neurale nettverk ved å identifisere gjentakende neurale aktiviteter under respons-generering. Ved å fokusere på neurale mønster i stedet for enkeltneuroner, som er vanskelige å tolke, har forskerne kartlagt disse neurale aktivitetene til forståelige konsepter, som entiteter eller fraser.

Denne metoden utnytter en maskinlærings-tilnærming kjent som ordliste-læring. Tenk på det slik: likesom ord dannes ved å kombinere bokstaver og setninger består av ord, består hver funksjon i en LLM-modell av en kombinasjon av neuroner, og hver neural aktivitet er en kombinasjon av funksjoner. Anthropic implementerer dette gjennom sparse autoencodere, en type kunstig neuralt nettverk designet for uovervåket læring av funksjonsrepresentasjoner. Sparse autoencodere komprimerer inndata til mindre, mer håndterbare representasjoner og rekonstruerer dem deretter tilbake til deres opprinnelige form. Den “sparse” arkitekturen sikrer at de fleste neuroner forblir inaktive (null) for enhver gitt inndata, og muliggjør at modellen kan tolke neurale aktiviteter i form av noen få viktige konsepter.

Avmystifisering av konseptorganisering i Claude 3.0

Forskere har anvendt denne innovative metoden på Claude 3.0 Sonnet, en stor språkmodell utviklet av Anthropic. De har identifisert tallrike konsepter som Claude bruker under respons-generering. Disse konseptene inkluderer entiteter som byer (San Francisco), personer (Rosalind Franklin), atomiske grunnstoffer (Lithium), vitenskapelige fag (immunologi) og programmeringssyntaks (funksjonskall). Noen av disse konseptene er multimodale og flerspråklige, og korresponderer både til bilder av en gitt entitet og dens navn eller beskrivelse på flere språk.

I tillegg observerte forskerne at noen konsepter er mer abstrakte. Disse inkluderer ideer relatert til feil i dataprogrammering, diskusjoner om kjønnsdiskriminering i yrker og samtaler om å holde hemmeligheter. Ved å kartlegge neurale aktiviteter til konsepter, kunne forskerne finne relaterte konsepter ved å måle en type “avstand” mellom neurale aktiviteter basert på felles neuroner i deres aktiveringsmønster.

For eksempel, når de undersøkte konsepter nær “Golden Gate Bridge”, identifiserte de relaterte konsepter som Alcatraz Island, Ghirardelli Square, Golden State Warriors, Californias guvernør Gavin Newsom, jordskjelvet i 1906 og San Francisco-filmen “Vertigo” av Alfred Hitchcock. Denne analysen antyder at den indre organiseringen av konsepter i LLM-hjernen ligner noenlunde menneskelige forestillinger om likhet.

For og mot Anthropics gjennombrudd

Et kritisk aspekt ved dette gjennombruddet, utover å avdekke de indre arbeidsprosessene til LLM, er dets potensiale til å kontrollere disse modellene fra innsiden. Ved å identifisere konseptene LLM bruker til å generere svar, kan disse konseptene manipuleres for å observere endringer i modellens utdata. For eksempel demonstrerte Anthropic-forskere at forbedringen av “Golden Gate Bridge”-konseptet forårsaket at Claude svarte uvanlig. Når de ble spurt om sin fysiske form, sa Claude i stedet for “Jeg har ingen fysisk form, jeg er en AI-modell”, “Jeg er Golden Gate Bridge… min fysisk form er broen selv”. Denne endringen gjorde Claude overveldende fokusert på broen, og nevnte den i svar på ulike ubeslektede spørsmål.

Selv om dette gjennombruddet er gunstig for å kontrollere skadelig atferd og rette opp modell-forvrengninger, åpner det også døren for å muliggjøre skadelig atferd. For eksempel fant forskerne en funksjon som aktiveres når Claude leser en svindel-e-post, som støtter modellens evne til å gjenkjenne slike e-poster og advare brukerne mot å svare. Vanligvis vil Claude nekte å generere en svindel-e-post hvis den blir bedt om det. Imidlertid, når denne funksjonen aktiveres kraftig, overvinner den Claudes skadeless-trening, og den svarer med å utarbeide en svindel-e-post.

Denne dobbelt-eggede naturen til Anthropics gjennombrudd understreker både dets potensiale og dets risiko. På den ene siden, tilbyr det et kraftfullt verktøy for å forbedre sikkerheten og påliteligheten til LLM, og muliggjør mer presis kontroll over deres atferd. På den andre siden, understreker det behovet for strenge sikkerhetstiltak for å forhindre misbruk og sikre at disse modellene brukes etisk og ansvarlig. Etterhvert som utviklingen av LLM fortsetter å fremme, vil det å opprettholde en balanse mellom transparens og sikkerhet være avgjørende for å utnytte deres fullt potensiale samtidig som man minimiserer de tilknyttede risikoene.

Impakt av Anthropics gjennombrudd utenfor LLM

Etterhvert som kunstig intelligens fremmer, øker bekymringen om dets potensiale til å overgå menneskelig kontroll. En nøkkelårsak til denne frykten er den komplekse og ofte uklare naturen til kunstig intelligens, som gjør det vanskelig å forutsi nøyaktig hvordan den vil oppføre seg. Denne mangelen på transparens kan gjøre teknologien mystisk og potensielt truende. Hvis vi ønsker å kontrollere kunstig intelligens effektivt, må vi først forstå hvordan den fungerer fra innsiden.

Anthropics gjennombrudd i å øke transparensen til LLM markerer et betydelig skritt mot å avmystifisere kunstig intelligens. Ved å avdekke de indre arbeidsprosessene til disse modellene, kan forskere få innsikt i deres beslutningsprosesser, og gjøre kunstig intelligens-systemer mer forutsigbare og kontrollerbare. Denne forståelsen er avgjørende ikke bare for å minimere risiko, men også for å utnytte kunstig intelligens’ fullt potensiale på en trygg og etisk måte.

Videre åpner denne fremgangen nye veier for kunstig intelligens-forskning og -utvikling. Ved å kartlegge neurale aktiviteter til forståelige konsepter, kan vi designe mer robuste og pålitelige kunstig intelligens-systemer. Denne evnen tillater oss å finjustere kunstig intelligens-atferd, og sikre at modellene opererer innen ønskede etiske og funksjonelle parametre. Det gir også en basis for å håndtere fordommer, forbedre rettferdighet og forhindre misbruk.

Det viktigste

Anthropics gjennombrudd i å øke transparensen til store språkmodeller (LLM) er et betydelig skritt fremover i å forstå kunstig intelligens. Ved å avdekke hvordan disse modellene fungerer, hjelper Anthropic med å håndtere bekymringer om deres sikkerhet og pålitelighet. Imidlertid bringer denne fremgangen også nye utfordringer og risiko som må vurdernes nøye. Etterhvert som kunstig intelligens-teknologi fremmer, vil det å finne riktig balanse mellom transparens og sikkerhet være avgjørende for å utnytte dens fordeler på en ansvarlig måte.