Connect with us

Kunstig intelligens

Hvordan tenker Claude? Anthropics søken etter å låse opp AI sin svarte boks

mm

Store språkmodeller (LLM) som Claude har endret måten vi bruker teknologi på. De driver verktøy som chatbots, hjelper med å skrive essayer og kan til og med lage poesi. Men til tross for deres fantastiske evner, er disse modellene fortsatt en mysterium på mange måter. Folk kaller ofte dem en “svart boks” fordi vi kan se hva de sier, men ikke hvordan de kommer frem til det. Dette manglet av forståelse skaper problemer, spesielt i viktige områder som medisin eller lov, der feil eller skjulte fordommer kan forårsake virkelig skade.

Å forstå hvordan LLM fungerer er essensielt for å bygge tillit. Hvis vi ikke kan forklare hvorfor en modell gav et bestemt svar, er det vanskelig å stole på dens resultater, spesielt i følsomme områder. Forklarbarhet hjelper også med å identifisere og korrigere fordommer eller feil, og sikrer at modellene er trygge og etiske. For eksempel, hvis en modell konsekvent favoriserer bestemte synspunkter, kan å vite hvorfor hjelpe utviklere med å korrigere det. Behovet for klarhet er hva som driver forskning innen å gjøre disse modellene mer transparente.

Anthropic, selskapet bak Claude, har arbeidet for å åpne denne svarte boksen. De har gjort spennende fremgang i å forstå hvordan LLM tenker, og denne artikkelen utforsker deres gjennombrudd i å gjøre Claudes prosesser lettere å forstå.

Å kartlegge Claudes tanker

I midten av 2024 gjorde Anthropics team et spennende gjennombrudd. De skapte en grundig “kart” over hvordan Claude prosesserer informasjon. Ved å bruke en teknikk kalt dictionary learning, fant de millioner av mønster i Claudes “hjerne” – dens neurale nettverk. Hvert mønster, eller “egenskap”, knytter seg til en bestemt idé. For eksempel hjelper noen egenskaper Claude med å spore byer, berømte personer eller kodfeil. Andre knytter seg til vanskeligere emner, som kjønnsfordommer eller hemmelighold.

Forskerne oppdaget at disse idéene ikke er isolert innenfor enkeltneuroner. I stedet er de spredt over mange neuroner i Claudes nettverk, med hver neuron som bidrar til flere idéer. Denne overlappende gjorde det vanskelig for Anthropic å forstå disse idéene fra første sted. Men ved å spore disse gjentakende mønstrene, begynte Anthropics forskere å avkode hvordan Claude organiserer sine tanker.

Å spore Claudes resonnering

Neste skritt ønsket Anthropic å se hvordan Claude bruker disse tankene til å fatte beslutninger. De bygde nylig et verktøy kalt attribution graphs, som fungerer som en steg-for-steg guide til Claudes tenketankingsprosess. Hvert punkt på grafen er en idé som lyser opp i Claudes sinn, og pilene viser hvordan en idé flyter inn i den neste. Denne grafen lar forskerne spore hvordan Claude omgjør et spørsmål til et svar.

For å bedre forstå hvordan attribution graphs fungerer, kan man betrakte dette eksemplet: når man spør “Hva er hovedstaden i staten med Dallas?”, må Claude innse at Dallas ligger i Texas, og deretter huske at Texas’ hovedstad er Austin. Attribution-grafen viste denne eksakte prosessen – en del av Claude flagget “Texas”, som ledet til en annen del som valgte “Austin”. Teamet testet det også ved å justere “Texas”-delen, og til og med endret svaret. Dette viser at Claude ikke bare gjetter – det arbeider gjennom problemet, og nå kan vi se det skje.

Hvorfor dette betyr noe: En analogi fra biologiske vitenskaper

For å se hvorfor dette betyr noe, er det nyttig å tenke på noen store utviklinger i biologiske vitenskaper. Like som oppfinnelsen av mikroskopet lot forskere oppdage celler – de skjulte byggeklossene i livet – lar disse forklarbarhetsteknologiene AI-forskere oppdage byggeklossene i tenkning innen modeller. Og like som kartlegging av neurale kredsløp i hjernen eller sekvensering av genomet åpnet vei for gjennombrudd i medisin, kan kartlegging av de indre prosessene i Claude åpne vei for mer pålitelig og kontrollerbar maskinintelligens. Disse forklarbarhetsteknologiene kan spille en vital rolle, og hjelpe oss med å kikke inn i tenketankingsprosessen til AI-modeller.

Utfordringene

Til tross for all denne fremgangen, er vi fortsatt langt ifra å fullstendig forstå LLM som Claude. For øyeblikket kan attribution graphs bare forklare omtrent en av fire av Claudes beslutninger. Mens kartet over dens egenskaper er imponerende, dekker det bare en del av hva som skjer innen Claudes hjerne. Med milliarder av parametre, utfører Claude og andre LLM uendelige beregninger for hver oppgave. Å spore hver enkelt for å se hvordan et svar formas er som å følge hver enkelt neuron som fyres i en menneskehjerne under en enkelt tanke.

Det er også utfordringen med “hallusinasjon“. Noen ganger genererer AI-modeller svar som lyder plausibelt, men er faktisk feil – som å hevde en feil faktum med sikkerhet. Dette skjer fordi modellene baserer seg på mønster fra deres treningsdata i stedet for en sann forståelse av verden. Å forstå hvorfor de avviker inn i fabrikasjon er et vanskelig problem, og understreker hull i vår forståelse av deres indre prosesser.

Forfordom er en annen betydelig hindring. AI-modeller lærer fra enorme datasett skrapet fra internettet, som inneholder menneskelige fordommer – stereotyper, fordommer og andre samfunnsfeil. Hvis Claude plukker opp disse fordommene fra sin treningsdata, kan den reflektere dem i sine svar. Å pakke ut hvor disse fordommene oppstår og hvordan de påvirker modellens resonnering er en kompleks utfordring som krever både tekniske løsninger og omsorgsfull vurdering av data og etikk.

Bunnen av saken

Anthropics arbeid med å gjøre store språkmodeller (LLM) som Claude mer forståelige er et viktig skritt fremover i AI-gjennomsiktighet. Ved å avsløre hvordan Claude prosesserer informasjon og fattar beslutninger, går de fremover mot å løse nøkkelbekymringer om AI-ansvarlighet. Denne fremgangen åpner døren for trygg integrering av LLM i kritiske sektorer som helse og lov, der tillit og etikk er avgjørende.

Ettersom metoder for å forbedre forklarbarhet utvikles, kan industrier som har vært forsiktige med å adoptere AI nå omvurdere. Gjennomsiktige modeller som Claude tilbyr en klar vei til AI fremtid – maskiner som ikke bare repliserer menneskelig intelligens, men også forklarer sin resonnering.

Dr. Tehseen Zia er en fast ansatt associate professor ved COMSATS University Islamabad, med en PhD i AI fra Vienna University of Technology, Østerrike. Som spesialist i kunstig intelligens, maskinlæring, datavitenskap og datavisjon, har han gjort betydelige bidrag med publikasjoner i anerkjente vitenskapelige tidsskrifter. Dr. Tehseen har også ledet flere industriprosjekter som hovedundersøker og tjenestegjort som AI-konsulent.