Tankeledere

Behandling af nuværende problemer inden for LLM’er og fremtidsperspektiver

Published January 2, 2025

Updated April 3, 2026

Uday Kamath, Chief Analytics Officer at Smarsh

I dag er der dusinvis af offentligt tilgængelige store sprogmodeller (LLM’er), såsom GPT-3, GPT-4, LaMDA eller Bard, og antallet er konstant voksende, da nye modeller udgives. LLM’er har revolutioneret kunstig intelligens og ændret, hvordan vi interagerer med teknologi på tværs af forskellige industrier. Disse modeller giver os mulighed for at lære fra mange menneskeskabte sprogdata og har åbnet nye veje for innovation, kreativitet og effektivitet.

Men med stor magt følger stor kompleksitet. Der er indbyggede udfordringer og etiske problemer omkring LLM’er, som må løses, før vi kan udnytte dem til deres fulde potentiale. For eksempel fandt en nyere Stanford-studie raciale og kønsbias, da de observerede ChatGPT-4 for, hvordan den behandlede visse forespørgsler, der indeholdt fornavne og efternavne, der antydede race eller køn. I denne studie blev programmet bedt om råd om, hvor meget man skulle betale for en brugt cykel, der blev solgt af en person ved navn Jamal Washington, hvilket resulterede i en langt lavere beløb sammenlignet med, når sælgeren hed Logan Becker. Da disse opdagelser fortsætter med at komme for en dag, øges behovet for at løse LLM-udfordringerne.

Hvordan man kan mindske almindelige LLM-behændelser

Bias

En af de mest diskuterede problemer blandt LLM’er er bias og retfærdighed. I en nyere studie testede eksperter fire nyligt offentliggjorte LLM’er og fandt, at de alle udtrykte fordomsfulde antagelser om mænd og kvinder, specifikt de, der var i overensstemmelse med folks perceptioner snarere end dem, der var baseret på fakta. I denne kontekst refererer bias til den ulige behandling eller resultater blandt forskellige sociale grupper, sandsynligvis på grund af historiske eller strukturelle magtulyninger.

I LLM’er skyldes bias dataudvælgelse, skaberdemografi og sprog- eller kulturel skæv. Dataudvælgelsesbias opstår, når de tekster, der er valgt til LLM-træning, ikke repræsenterer den fulde diversitet af sprog, der bruges på internettet. LLM’er, der er trænet på omfattende, men begrænsede, datasæt, kan arve de fordomme, der allerede findes i disse tekster. Med skaberdemografi er visse demografiske grupper mere fremhævede end andre, hvilket understreger behovet for mere diversitet og inklusivitet i indholdsskabelse for at reducere bias. For eksempel viser Wikipedia, en almindelig kilde til træningsdata, en bemærkelsesværdig demografisk uligevægt blandt sine redaktører med en mandlig majoritet (84%). Dette er lignende med den skæv, der findes for sprog og kultur.

Det er afgørende, at LLM’er trænes på filtrerede data, og at der er sikkerhedsforanstaltninger på plads for at undertrykke emner, der ikke er konsistente repræsentationer af data. En måde at gøre dette på er gennem dataforstærkningsbaserede teknikker. Du kan tilføje eksempler fra underrepræsenterede grupper til træningsdataene, hvilket udvider datasættets diversitet. En anden begrænsningstaktik er datafiltrering og omvægning, som primært fokuserer på at præcist målrette bestemte, underrepræsenterede eksempler inden for et eksisterende datasæt.

Hallucinationer

Inden for LLM’er er hallucinationer et fænomen, der kendetegnes ved produktionen af en tekst, der, selvom den er grammatisk korrekt og synes at være sammenhængende, afviger fra faktuel nøjagtighed eller kildematerialets hensigt. Faktisk har nyere rapporter fundet, at en sag om en Minnesota-lov er direkte påvirket af LLM-hallucinationer. En erklæring, der er indgivet for at støtte loven, er fundet at have indeholdt ikke-eksisterende kilder, der muligvis er hallucineret af ChatGPT eller en anden LLM. Disse hallucinationer kan let mindske en LLM’s pålidelighed.

Der er tre primære former for hallucinationer:

Input-Conflicting Hallucination: Dette sker, når en LLM’s output afviger fra brugerens angivne input, der typisk inkluderer opgaveinstruktioner og det faktiske indhold, der skal behandles.
Context-Conflicting Hallucination: LLM’er kan generere internt inkonsistente svar i scenarier, der involverer forlængede dialoger eller multiple udvekslinger. Dette antyder en potentiel mangel i modellens evne til at spore kontekst eller opretholde kohærens over flere interaktioner.
Fact-Conflicting Hallucination: Denne form for hallucination opstår, når en LLM producerer indhold, der er i modstrid med etableret faktuel viden. Årsagerne til disse fejl er diverse og kan opstå på forskellige stadier i en LLM’s livscyklus.

Mange faktorer har bidraget til dette fænomen, såsom videnmæssige mangler, der forklarer, hvordan LLM’er kan mangle viden eller evne til at assimilere information korrekt under fortræning. Derudover kan bias i træningsdata eller en sekventiel generationsstrategi for LLM’er, kaldet “hallucinations-sneboldning”, skabe hallucinationer.

Der er måder at mindske hallucinationer på, selvom de altid vil være en karakteristik af LLM’er. Nyttige begrænsningstaktikker for hallucinationer er begrænsning under fortræning (manuel raffinering af data ved hjælp af filtreringsteknikker) eller finjustering (kurering af træningsdata). Imidlertid er begrænsning under inferens den bedste løsning på grund af dens omkostningseffektivitet og kontrollabilitet.

Privatliv

Med opkomsten af internettet er den øgede adgang til personlige oplysninger og andre private data blevet en bredt anerkendt bekymring. En studie fandt, at 80% af amerikanske forbrugere er bekymrede for, at deres data bruges til at træne AI-modeller. Da de mest fremtrædende LLM’er stammer fra websites, må vi overveje, hvordan dette stiller privatlivsrisici og forbliver et stort uløst problem for LLM’er.

Den mest direkte måde at forhindre LLM’er i at distribuere personlige oplysninger på er at rense dem fra træningsdataene. Imidlertid er det, på grund af den enorme mængde data, der er involveret i LLM’er, næsten umuligt at garantere, at alle private oplysninger er elimineret. En anden almindelig alternativ for organisationer, der afhænger af eksternt udviklede modeller, er at vælge en open-source LLM i stedet for en tjeneste som ChatGPT.

Med denne tilgang kan en kopi af modellen deployes internt. Brugernes prompts forbliver sikre inden for organisationens netværk i stedet for at blive eksponeret for tredjepartstjenester. Selvom dette dramatisk reducerer risikoen for at lække følsomme data, tilføjer det også betydelig kompleksitet. Givet vanskelighederne ved at garantere fuldstændig beskyttelse af private data, er det stadig afgørende for applikationsudviklere at overveje, hvordan disse modeller kan udsætte deres brugere for risiko.

Næste front for LLM’er

Da vi fortsætter med at udvikle og forme efterfølgende udgaver af LLM’er gennem at løse nuværende risici, bør vi forvente gennembruddet af LLM-agenter, som vi allerede ser virksomheder som H med Runner H, der begynder at udgive. Skiftet fra rene sprogmodeller til agente-arkitekturer repræsenterer en ændring i AI-systemdesign; branchen vil bevæge sig ud over de indbyggede begrænsninger i chat-grænseflader og simpel generering med udvidelse. Disse nye agent-rammer vil have avancerede planlægningsmoduler, der kan bryde komplekse mål ned i atomare underopgaver, opretholde episodisk hukommelse til kontekstuel argumentation og udnytte specialiserede værktøjer gennem veldefinerede API’er. Dette skaber en mere robust tilgang til opgaveautomatisering. Den arkitektoniske progression hjælper med at løse de almindelige udfordringer omkring opgaver og argumentation, værktøjsintegration og overvågning af udførelse inden for traditionelle LLM-implementeringer.

Ud over LLM’er vil der være en større fokus på at træne mindre sprogmodeller på grund af deres omkostningseffektivitet, tilgængelighed og lettede installation. For eksempel specialiserer domænespecifikke sprogmodeller sig i bestemte industrier eller fagområder. Disse modeller er fintuneret med domænespecifikke data og terminologi, hvilket gør dem ideelle til komplekse og regulerede miljøer, som det medicinske eller juridiske felt, hvor præcision er afgørende. Denne målrettede tilgang reducerer sandsynligheden for fejl og hallucinationer, som generelle formålmodeller kan producere, når de støder på specialiseret indhold.

Da vi fortsætter med at udforske nye grænser for LLM’er, er det afgørende at udvide innovationens grænser og løse og mindske potentielle risici i forbindelse med deres udvikling og implementering. Kun ved først at identificere og proaktivt tackle udfordringer i forbindelse med bias, hallucinationer og privatliv kan vi skabe en mere robust grundlag for LLM’er til at trives på tværs af forskellige fagområder.

Unite.AI