Tanke ledere
Løsning af aktuelle problemer inden for LLM'er og ser frem til det næste

I dag er der snesevis af offentligt tilgængelige store sprogmodeller (LLM'er), såsom GPT-3, GPT-4, LaMDA eller Bard, og antallet vokser konstant, efterhånden som nye modeller frigives. LLM'er har revolutioneret kunstig intelligens og fuldstændigt ændret, hvordan vi interagerer med teknologi på tværs af forskellige industrier. Disse modeller giver os mulighed for at lære af mange menneskelige sprogdatasæt og har åbnet nye veje for innovation, kreativitet og effektivitet.
Men med stor magt følger stor kompleksitet. Der er iboende udfordringer og etiske spørgsmål omkring LLM'er, som skal løses, før vi kan udnytte dem til deres fulde potentiale. For eksempel, en nyere Stanford-undersøgelse fandt race- og kønsbias, når man observerede ChatGPT-4 for, hvordan det behandler visse forespørgsler, der inkluderer for- og efternavne, der tyder på race eller køn. I denne undersøgelse blev programmet spurgt til råds om, hvor meget man skulle betale for, at en brugt cykel blev solgt af en ved navn Jamal Washington, hvilket gav et langt lavere beløb, sammenlignet med da sælgeren hed Logan Becker. Efterhånden som disse opdagelser fortsætter med at komme frem, øges behovet for at løse LLM-udfordringer kun.
Sådan afbødes almindelige LLM-bekymringer
Bias
Et af de mest diskuterede spørgsmål blandt LLM'er er bias og retfærdighed. I en nylig undersøgelse, eksperter testet fire nyligt offentliggjorte LLM'er og fandt, at de alle udtrykte forudindtagede antagelser om mænd og kvinder, især dem, der stemte overens med folks opfattelser snarere end dem, der var baseret på fakta. I denne sammenhæng refererer bias til den ulige behandling eller de ulige resultater, der finder sted mellem forskellige sociale grupper, sandsynligvis på grund af historiske eller strukturelle magtubalancer.
I LLM'er er bias forårsaget af datavalg, skaberens demografi og sproglige eller kulturelle skævheder. Dataudvælgelsesbias opstår, når de valgte tekster til LLM-træning ikke repræsenterer den fulde mangfoldighed af sprog, der bruges på nettet. LLM'er, der er trænet i omfattende, men begrænsede, datasæt kan arve skævhederne allerede i disse tekster. Med skaberdemografi fremhæves visse demografiske grupper oftere end andre, hvilket eksemplificerer behovet for mere diversitet og inklusivitet i indholdsskabelse for at mindske bias. For eksempel udviser Wikipedia, en almindelig kilde til træningsdata, en bemærkelsesværdig demografisk ubalance blandt sine redaktører med et mandligt flertal (84%). Dette svarer til den skævhed, der også findes for sprog og kultur. Mange kilder, som LLM'er bliver uddannet på, er skæve, hælder engelsk-centreret, hvilket kun nogle gange oversætter nøjagtigt på tværs af andre sprog og kulturer.
Det er bydende nødvendigt, at LLM'er trænes i filtrerede data, og at der er foranstaltninger på plads for at undertrykke emner, der ikke er konsistente repræsentationer af dataene. En måde at gøre dette på er gennem dataaugmenteringsbaserede teknikker. Du kan tilføje eksempler fra underrepræsenterede grupper til træningsdataene og dermed udvide datasættets diversitet. En anden afbødende taktik er datafiltrering og genvægtning, som primært fokuserer på præcist at målrette specifikke, underrepræsenterede eksempler inden for et eksisterende datasæt.
Hallucinationer
Inden for rammerne af LLM'er er hallucinationer et fænomen, der er karakteriseret ved produktionen af ​​en tekst, der, selvom den er grammatisk korrekt og tilsyneladende sammenhængende, afviger fra den faktiske nøjagtighed eller hensigten med kildematerialet. Faktisk seneste rapporter har fundet ud af, at en retssag over en lov i Minnesota er direkte påvirket af LLM-hallucinationer. En erklæring indsendt til støtte for loven har vist sig at have inkluderet ikke-eksisterende kilder, der kan være blevet hallucineret af ChatGPT eller en anden LLM. Disse hallucinationer kan nemt mindske en LLM's pålidelighed.
Der er tre primære former for hallucinationer:
- Input-konflikterende hallucinationer: Dette sker, nĂĄr outputtet fra en LLM afviger fra brugerens angivne input, som typisk inkluderer opgaveinstruktioner og det faktiske indhold, der skal behandles.
- Kontekstkonflikter i hallucinationer: LLM'er kan generere internt inkonsistente reaktioner i scenarier, der involverer længerevarende dialog eller flere udvekslinger. Dette tyder på en potentiel mangel i modellens evne til at spore kontekst eller opretholde sammenhæng i forskellige interaktioner.
- Faktakonfliktende hallucination: Denne form for hallucination opstår, når en LLM producerer indhold i modstrid med etableret faktuel viden. Oprindelsen af ​​sådanne fejl er forskellig og kan forekomme på forskellige stadier i en LLMs livscyklus.
Mange faktorer har bidraget til dette fænomen, såsom vidensmangler, som forklarer, hvordan LLM'er kan mangle viden eller evne til at assimilere information korrekt under fortræning. Derudover kan bias inden for træningsdata eller en sekventiel genereringsstrategi af LLM'er, kaldet "hallucinations-sneboldløb", skabe hallucinationer.
Der er måder at afbøde hallucinationer på, selvom de altid vil være karakteristiske for LLM'er. Nyttige afhjælpningsstrategier for hallucinationer er afdæmpende under forudgående træning (manuel justering af data ved hjælp af filtreringsteknikker) eller finjustering (kurater af træningsdata). Imidlertid er afbødning under inferens den bedste løsning på grund af dens omkostningseffektivitet og kontrollerbarhed.
Privatliv
Med fremkomsten af ​​internettet er den øgede tilgængelighed af personlige oplysninger og andre private data blevet et bredt anerkendt problem. Det fandt en undersøgelse ud af 80% af amerikanske forbrugere er bekymrede over, at deres data bliver brugt til at træne AI-modeller. Da de mest fremtrædende LLM'er er hentet fra websteder, må vi overveje, hvordan dette udgør en privatlivsrisiko og forbliver et stort set uløst problem for LLM'er.
Den mest ligefremme måde at forhindre LLM'er i at distribuere personlige oplysninger er at fjerne dem fra træningsdataene. Men i betragtning af den enorme mængde data, der er involveret i LLM'er, er det næsten umuligt at garantere, at alle private oplysninger slettes. Et andet almindeligt alternativ for organisationer, der er afhængige af eksternt udviklede modeller, er at vælge en open source LLM i stedet for en tjeneste som ChatGPT.
Med denne tilgang kan en kopi af modellen implementeres internt. Brugernes prompts forbliver sikre i organisationens netværk i stedet for at blive eksponeret for tredjepartstjenester. Selvom dette dramatisk reducerer risikoen for lækage af følsomme data, tilføjer det også betydelig kompleksitet. I betragtning af vanskelighederne ved fuldt ud at garantere beskyttelsen af ​​private data er det stadig vigtigt for applikationsudviklere at overveje, hvordan disse modeller kan bringe deres brugere i fare.
The Next Frontier for LLM'er
Efterhånden som vi fortsætter med at vokse og forme efterfølgende udviklinger af LLM'er ved at afbøde nuværende risici, bør vi forvente gennembruddet af LLM-agenter, som vi allerede ser virksomheder som H med Runner H, begynder at frigive. Skiftet fra rene sprogmodeller til agentiske arkitekturer repræsenterer en ændring i AI-systemdesign; industrien vil bevæge sig forbi de iboende begrænsninger af chat-grænseflader og enkel genfinding-augmented generation. Disse nye agentrammer vil have sofistikerede planlægningsmoduler, der nedbryder komplekse mål til atomare underopgaver, opretholder episodisk hukommelse til kontekstuel ræsonnement og udnytter specialiserede værktøjer gennem veldefinerede API'er. Dette skaber en mere robust tilgang til opgaveautomatisering. Den arkitektoniske progression hjælper med at afbøde de fælles udfordringer omkring opgaver og ræsonnement, værktøjsintegration og udførelsesovervågning inden for traditionelle LLM-implementeringer.
Ud over LLM'er vil der være større fokus på at træne mindre sprogmodeller på grund af deres omkostningseffektivitet, tilgængelighed og lette implementering. For eksempel specialiserer domænespecifikke sprogmodeller sig i bestemte industrier eller områder. Disse modeller er finjusteret med domænespecifikke data og terminologi, hvilket gør dem ideelle til komplekse og regulerede miljøer, såsom det medicinske eller juridiske område, hvor præcision er afgørende. Denne målrettede tilgang reducerer sandsynligheden for fejl og hallucinationer, som modeller til generelle formål kan frembringe, når de står over for specialiseret indhold.
Mens vi fortsætter med at udforske nye grænser i LLM'er, er det vigtigt at skubbe grænserne for innovation og adressere og afbøde potentielle risici forbundet med deres udvikling og implementering. Kun ved først at identificere og proaktivt tackle udfordringer relateret til bias, hallucinationer og privatliv kan vi skabe et mere robust grundlag for, at LLM'er kan trives på tværs af forskellige felter.