Kunstig intelligens
Den sorte boks-problematik i LLM’er: Udfordringer og fremvoksende løsninger

Maskinlæring, en undergruppe af AI, indebærer tre komponenter: algoritmer, træningsdata og den resulterende model. En algoritme, essentielt en samling af procedurer, lærer at identificere mønstre fra en stor samling af eksempler (træningsdata). Kulminationen af denne træning er en maskinlæringsmodel. For eksempel ville en algoritme trænet med billeder af hunde resultere i en model, der kan identificere hunde på billeder.
Den sorte boks i maskinlæring
I maskinlæring kan enhver af de tre komponenter – algoritme, træningsdata eller model – være en sorte boks. Selvom algoritmer ofte er offentligt kendte, kan udviklere vælge at holde modellen eller træningsdataen hemmelig for at beskytte immaterielle rettigheder. Denne uigennemsigtighed gør det vanskeligt at forstå AI’s beslutningsproces.
AI-sorte bokse er systemer, hvis interne arbejdsgang forbliver uigennemskuelig eller usynlig for brugere. Brugere kan indtaste data og modtage output, men logikken eller koden, der producerer output, forbliver skjult. Dette er en almindelig karakteristika i mange AI-systemer, herunder avancerede generative modeller som ChatGPT og DALL-E 3.
LLM’er som GPT-4 stiller en betydelig udfordring: deres interne arbejdsgang er i høj grad uigennemskuelig, hvilket gør dem til “sorte bokse”. Denne uigennemskuelighed er ikke kun en teknisk puslespil; den stiller reelle sikkerheds- og etiske bekymringer. For eksempel, hvis vi ikke kan afgøre, hvordan disse systemer når til konklusioner, kan vi stole på dem i kritiske områder som medicinske diagnoser eller finansielle vurderinger?
Størrelsen og kompleksiteten af LLM’er
Størrelsen af disse modeller bidrager til deres kompleksitet. Tag GPT-3, for eksempel, med dets 175 milliarder parametre, og nyere modeller med billioner. Hver parameter interagerer på intrikate måder inden for neuralt netværk, og bidrager til emergente evner, der ikke kan forudses ved at undersøge enkelt komponenter alene. Denne størrelse og kompleksitet gør det næsten umuligt at fuldt ud forstå deres interne logik, og stiller en hindring i at diagnosticere fordomme eller uønskede adfærd i disse modeller.
Kompromisset: Størrelse vs. fortolkning
At reducere størrelsen af LLM’er kunne forbedre fortolkningen, men til en pris for deres avancerede evner. Størrelsen er det, der muliggør adfærd, som mindre modeller ikke kan opnå. Dette stiller et indbygget kompromis mellem størrelse, evne og fortolkning.
Indvirkningen af LLM-sorte-boks-problemet
1. Fejlbeslutninger
Uigennemskueligheden i beslutningsprocessen for LLM’er som GPT-3 eller BERT kan føre til uopdagede fordomme og fejl. I områder som sundhedsvesen eller retfærdighed, hvor beslutninger har langtrækkende konsekvenser, er evnen til at auditerer LLM’er for etisk og logisk sundhed en stor bekymring. For eksempel kan en medicinsk diagnose-LLM, der afhænger af forældede eller fordomsfulde data, give skadelige anbefalinger. LLM’er i rekrutteringsprocesser kan også utilsigtet fastholde kønsforbud. Den sorte boks-natur skjuler ikke kun fejl, men kan potentielt forstærke dem, og kræver en proaktiv tilgang til at forbedre gennemsigtighed.
2. Begrænset tilpasning i diverse sammenhænge
Mangel på indsigt i de interne arbejdsgange for LLM’er begrænser deres tilpasning. For eksempel kan en rekrutterings-LLM være ineffektiv til at evaluere kandidater til en rolle, der værdsætter praktiske færdigheder over akademiske kvalifikationer, på grund af dens evne til at tilpasse sine vurderingskriterier. En medicinsk LLM kan også have svært ved at diagnosticere sjældne sygdomme på grund af data-ubalancer. Denne infleksibilitet understreger behovet for gennemsigtighed for at omkalibrere LLM’er til bestemte opgaver og sammenhænge.
3. Fordomme og viden-lukker
LLM’er behandling af store træningsdata er underlagt begrænsningerne, der påligger af deres algoritmer og modelarkitekturer. For eksempel kan en medicinsk LLM vise demografiske fordomme, hvis den er trænet på ubalancerede datasæt. En LLM’s dygtighed i niche-emner kan også være misvisende, og føre til overmodige, forkerte output. At adressere disse fordomme og viden-lukker kræver mere end blot yderligere data; det kræver en undersøgelse af modellens behandlingsmekanik.
4. Juridisk og etisk ansvar
Den uigennemskuelige natur af LLM’er skaber en juridisk gråzone med hensyn til ansvar for eventuel skade forårsaget af deres beslutninger. Hvis en LLM i et medicinsk sammenhæng giver fejlbeslutninger, der fører til patient-skade, bliver det vanskeligt at bestemme ansvar på grund af modellens uigennemskuelighed. Denne juridiske usikkerhed stiller risici for enheder, der implementerer LLM’er i følsomme områder, og understreger behovet for klar regulerings- og gennemsigtighed.
5. Tillidsproblemer i følsomme anvendelser
For LLM’er, der anvendes i kritiske områder som sundhedsvesen og finans, underminerer manglen på gennemsigtighed deres troværdighed. Brugere og regulatører må sikre, at disse modeller ikke har fordomme eller træffer beslutninger baseret på uretfærdige kriterier. At verificere fraværet af fordomme i LLM’er kræver en forståelse af deres beslutningsprocesser, og understreger vigtigheden af forklarbarhed for etisk implementering.
6. Risici med personlige data
LLM’er kræver omfattende træningsdata, der kan inkludere følsomme personlige oplysninger. Den sorte boks-natur af disse modeller rejser bekymringer om, hvordan disse data behandles og anvendes. For eksempel rejser en medicinsk LLM, der er trænet på patientjournaler, spørgsmål om data-integritet og -anvendelse. At sikre, at personlige data ikke misbruges eller udnyttes, kræver gennemsigtige data-behandlingsprocesser inden for disse modeller.
Fremvoksende løsninger for fortolkning
For at adressere disse udfordringer udvikles nye teknikker. Disse inkluderer kontrafaktiske (CF) approksimationsmetoder. Den første metode indebærer at fremkalde en LLM til at ændre et bestemt tekstkoncept, mens andre koncepter forbliver konstante. Denne tilgang, selvom effektiv, er ressourcekrævende på inferenstidspunktet.
Den anden tilgang indebærer at oprette en dedikeret indlejringsspace, der vejledes af en LLM under træning. Denne space er i overensstemmelse med en kausal graf og hjælper med at identificere match, der approksimerer CF’er. Denne metode kræver færre ressourcer på testtidspunktet og har vist sig at kunne forklare modelforudsigelser effektivt, selv i LLM’er med billioner af parametre.
Disse tilgange understreger vigtigheden af kausale forklaringer i NLP-systemer for at sikre sikkerhed og etablere tillid. Kontrafaktiske approksimationer giver en måde at forestille sig, hvordan en given tekst ville ændre sig, hvis et bestemt koncept i dens generative proces var anderledes, og hjælper med at estimere kausale effekter af højniveauforhold på NLP-modeller.
Dybt dyk: Forklaringsmetoder og kausalitet i LLM’er
Prøvning og funktion-vigtigheds-værktøjer
Prøvning er en teknik, der bruges til at afkode, hvad interne repræsentationer i modeller indekoderer. Det kan være enten overvåget eller uovervåget og er rettet mod at bestemme, om bestemte koncepter er indekoderet på bestemte steder i et netværk. Selvom effektiv til en vis udstrækning, mangler prøvningerne kausale forklaringer, som fremhæves af Geiger et al. (2021).
Funktion-vigtigheds-værktøjer, en anden form for forklaringsmetode, fokuserer ofte på indtastningsfunktioner, selvom nogle gradient-baserede metoder udvider dette til skjulte tilstande. Et eksempel er Integrated Gradients-metoden, der giver en kausal fortolkning ved at udforske baseline (kontrafaktiske, CF) indtastninger. Trods deres nyttighed kæmper disse metoder stadig med at forbinde deres analyser med virkelige koncepter ud over simple indtastningsegenskaber.
Interventions-baserede metoder
Interventions-baserede metoder indebærer at ændre indtastninger eller interne repræsentationer for at studere effekter på modellens adfærd. Disse metoder kan oprette kontrafaktiske tilstande for at estimere kausale effekter, men de genererer ofte uvirkelige indtastninger eller netværks-tilstande, medmindre de kontrolleres nøje. Den kausale proxy-model (CPM), inspireret af S-learner-konceptet, er en ny tilgang i dette område, der efterligner adfærden af den forklarede model under kontrafaktiske indtastninger. Dog er behovet for en separat forklarer for hver model en stor begrænsning.
Approksimering af kontrafaktiske
Kontrafaktiske er bredt anvendt i maskinlæring til data-forstærkning, der indebærer perturbationer af forskellige faktorer eller mærker. Disse kan genereres gennem manuel redigering, heuristisk nøgleords-erstatning eller automatiseret tekst-omskrivning. Selvom manuel redigering er præcis, er det også ressourcekrævende. Nøgle-baserede metoder har deres begrænsninger, og generative tilgange tilbyder en balance mellem flydende og dækning.
Trofast forklaring
Trofasthed i forklaringer refererer til at afbilde den underliggende reasoning af modellen nøjagtigt. Der er ingen universelt accepteret definition af trofasthed, hvilket fører til dets karakterisering gennem forskellige metrikker som Følsomhed, Konsistens, Funktion-vigtigheds-enighed, Robusthed og Simulerbarhed. De fleste af disse metoder fokuserer på funktion-niveau-forklaringer og ofte forveksler korrelation med kausalitet. Vores arbejde sigter mod at give højniveauforhold-forklaringer, der udnytter kausalitetslitteraturen til at foreslå et intuitivt kriterium: Orden-Trofasthed.
Vi har dykket ned i de indbyggede kompleksiteter af LLM’er, og forstået deres ‘sorte boks’-natur og de betydelige udfordringer, det stiller. Fra risikoen for fejlbeslutninger i følsomme områder som sundhedsvesen og finans til de etiske dilemmaer omkring fordomme og retfærdighed, er behovet for gennemsigtighed i LLM’er aldrig været mere tydeligt.
Fremtiden for LLM’er og deres integration i vores daglige liv og kritiske beslutningsprocesser afhænger af vores evne til at gøre disse modeller ikke kun mere avancerede, men også mere forståelige og ansvarlige. Forfølgelsen af forklarbarhed og fortolkning er ikke kun en teknisk opgave, men en grundlæggende aspekt af at bygge tillid til AI-systemer. Da LLM’er bliver mere integreret i samfundet, vil kravet om gennemsigtighed vokse, ikke kun fra AI-praktikere, men fra hver bruger, der interagerer med disse systemer.















