Tankeledare
Att adressera nuvarande frÄgor inom LLM och se framÄt mot vad som kommer hÀrnÀst
Idag finns det dussintals offentligt tillgängliga stora språkmodeller (LLM), såsom GPT-3, GPT-4, LaMDA eller Bard, och antalet ökar ständigt när nya modeller släpps. LLM har revolutionerat artificiell intelligens och har helt förändrat hur vi interagerar med teknologi inom olika branscher. Dessa modeller tillåter oss att lära av många mänskliga språkdatabaser och har öppnat nya vägar för innovation, kreativitet och effektivitet.
Men med stor makt följer stor komplexitet. Det finns inherenta utmaningar och etiska frågor som omger LLM som måste adresseras innan vi kan utnyttja dem till deras fulla potential. Till exempel fann en nylig studie från Stanford ras- och könsbias när de observerade ChatGPT-4 för hur den behandlade vissa frågor som innehöll för- och efternamn som antydde ras eller kön. I denna studie bad programmet om råd om hur mycket man borde betala för en begagnad cykel som såldes av någon som hette Jamal Washington, vilket resulterade i ett avsevärt lägre belopp jämfört med när säljaren hette Logan Becker. Medan dessa upptäckter fortsätter att komma till ljuset, ökar behovet av att adressera LLM-utmaningarna.
Hur man mildrar vanliga LLM-bekymmer
Bias
En av de mest diskuterade frågorna bland LLM är bias och rättvisa. I en nylig studie testade experter fyra nyligen publicerade LLM och fann att de alla uttryckte partiska antaganden om män och kvinnor, särskilt de som stämde överens med människors uppfattningar snarare än de som grundades på fakta. I detta sammanhang avser bias ojämlikt behandling eller utfall bland olika sociala grupper, troligen på grund av historiska eller strukturella obalanser i makt.
Inom LLM orsakas bias av dataselektion, skapar-demografi och språk- eller kulturell snedvridning. Dataselektionsbias uppstår när texterna som valts för LLM-utbildning inte representerar den fulla mångfalden av språk som används på webben. LLM som tränats på omfattande men begränsade datamängder kan ärva de bias som redan finns i dessa texter. Med skapar-demografi är vissa demografiska grupper mer framträdande än andra, vilket exemplifierar behovet av mer mångfald och inklusivitet i innehållsskapande för att minska bias. Till exempel visar Wikipedia, en vanlig källa för utbildningsdata, en anmärkningsvärd demografisk obalans bland dess redaktörer med en manlig majoritet (84%). Detta liknar den snedvridning som finns för språk och kultur också. Många källor som LLM tränas på är snedvridna, med en engelsk centrerad inriktning, som bara ibland översätter korrekt till andra språk och kulturer.
Det är av yttersta vikt att LLM tränas på filtrerade data, och att skyddsmekanismer finns på plats för att undertrycka ämnen som inte är konsekventa representationer av data. Ett sätt att göra detta är genom dataaugmenteringsbaserade tekniker. Du kan lägga till exempel från underrepresenterade grupper i utbildningsdata, vilket breddar datamängdens mångfald. En annan mildrande taktik är datafiltrering och omviktning, som i huvudsak fokuserar på att exakt målmedvetet rikta sig mot specifika, underrepresenterade exempel inom en befintlig datamängd.
Hallucinationer
Inom LLM är hallucinationer ett fenomen som kännetecknas av produktionen av en text som, trots att den är grammatiskt korrekt och tycks vara sammanhängande, avviker från faktisk korrekthet eller avsändarens avsikt. Faktum är att nya rapporter har funnit att en stämningsansökan om en Minnesota-lag direkt påverkas av LLM-hallucinationer. En avsiktshandling som lämnats in för att stödja lagen har visat sig innehålla icke-existerande källor som kan ha hallucinerats av ChatGPT eller en annan LLM. Dessa hallucinationer kan lätt minska en LLM:s tillförlitlighet.
Det finns tre primära former av hallucinationer:
- Input-Conflicting Hallucination: Detta inträffar när en LLM:s utdata avviker från användarens tillhandahållna indata, som vanligtvis inkluderar uppgiftsinstruktioner och den faktiska innehållet som behöver bearbetas.
- Context-Conflicting Hallucination: LLM kan generera interna inkonsekventa svar i scenarier som involverar förlängda dialoger eller flera utbyten. Detta antyder en potentiell brist i modellens förmåga att spåra kontext eller upprätthålla sammanhängande över olika interaktioner.
- Fact-Conflicting Hallucination: Denna form av hallucination uppstår när en LLM producerar innehåll som strider mot etablerad faktisk kunskap. Ursprunget till sådana fel är diversifierat och kan uppstå vid olika stadier i en LLM:s livscykel.
Många faktorer har bidragit till detta fenomen, såsom kunskapsbrister, som förklarar hur LLM kan sakna kunskap eller förmåga att assimilera information korrekt under förträning. Dessutom kan bias inom utbildningsdata eller en sekventiell genereringsstrategi för LLM, kallad “hallucinations-snowballing”, skapa hallucinationer.
Det finns sätt att mildra hallucinationer, även om de alltid kommer att vara en egenskap hos LLM. Hjälpsamma mildrande strategier för hallucinationer är mildring under förträning (manuell raffinering av data med filtreringstekniker) eller finjustering (kurering av utbildningsdata). Men mildring under inferens är den bästa lösningen på grund av dess kostnadseffektivitet och kontroll.
Privatliv
Med internetns ökade tillgänglighet har den ökade tillgängligheten av personlig information och annan privat data blivit en allmänt erkänd fråga. En studie fann att 80% av amerikanska konsumenter är oroliga för att deras data används för att träna AI-modeller. Eftersom de mest framträdande LLM är källor från webbplatser, måste vi överväga hur detta utgör privata risker och förblir ett i stort sett olöst problem för LLM.
Det enklaste sättet att förhindra att LLM distribuerar personlig information är att rensa den från utbildningsdata. Men med tanke på den stora mängden data som är involverad i LLM, är det nästan omöjligt att garantera att all privat information är utplånad. En annan vanlig alternativ för organisationer som förlitar sig på externt utvecklade modeller är att välja en öppen källkods-LLM istället för en tjänst som ChatGPT.
Med detta tillvägagångssätt kan en kopia av modellen distribueras internt. Användarnas prompter förblir säkra inom organisationens nätverk snarare än att utsättas för tredjepartstjänster. Medan detta dramatiskt minskar risken för att läcka känslig data, lägger det också till betydande komplexitet. Med tanke på svårigheterna att fullständigt garantera skyddet av privat data, är det fortfarande av yttersta vikt för applikationsutvecklare att överväga hur dessa modeller kan utsätta deras användare för risk.
Nästa frontier för LLM
Medan vi fortsätter att växa och forma efterföljande evolutioner av LLM genom att mildra nuvarande risker, bör vi förvänta oss genombrottet av LLM-agenter, som vi redan ser företag som H med Runner H, börjar släppa. Övergången från rena språkmodeller till agenter-arkitektur representerar en förändring i AI-systemdesign; branschen kommer att gå förbi de inherenta begränsningarna för chatt-gränssnitt och enkel återvinning-augmenterad generering. Dessa nya agent-ramverk kommer att ha avancerade planeringsmoduler som bryter ned komplexa mål i atomära underuppgifter, upprätthåller episodisk minnesförklaring för kontextuell resonemang och utnyttjar specialiserade verktyg genom väldefinierade API:er. Detta skapar en mer robust tillvägagångssätt för uppgiftsautomatisering. Den arkitektoniska progressionen hjälper till att mildra de vanliga utmaningarna kring uppgifter och resonemang, verktygsintegration och övervakning av utförande inom traditionella LLM-implementeringar.
Förutom LLM kommer det att finnas en större fokus på att träna mindre språkmodeller på grund av deras kostnadseffektivitet, tillgänglighet och lätthet att distribuera. Till exempel specialiserar sig domänspecifika språkmodeller på specifika branscher eller områden. Dessa modeller är finjusterade med domänspecifik data och terminologi, vilket gör dem idealiska för komplexa och reglerade miljöer, som den medicinska eller juridiska sektorn, där precision är av yttersta vikt. Detta riktade tillvägagångssätt minskar sannolikheten för fel och hallucinationer som allmänna modeller kan producera när de ställs inför specialiserat innehåll.
Medan vi fortsätter att utforska nya gränser inom LLM, är det av yttersta vikt att driva innovationsgränserna och adressera och mildra potentiella risker som är associerade med deras utveckling och distribution. Bara genom att först identifiera och proaktivt tackla utmaningar relaterade till bias, hallucinationer och privatliv kan vi skapa en mer robust grund för LLM att blomstra inom olika fält.












