Connect with us

Tankeledere

Å håndtere nåværende problemer innen LLM og se fremover mot hva som kommer

mm

I dag finnes det dusinvis av offentlig tilgjengelige store språkmodeller (LLM), som GPT-3, GPT-4, LaMDA eller Bard, og antallet øker stadig når nye modeller utgis. LLM har revolusjonert kunstig intelligens og endret hvordan vi samhandler med teknologi over ulike bransjer. Disse modellene lar oss lære fra mange menneskespråksdatasett og har åpnet nye veier for innovasjon, kreativitet og effisiens.

Men med stor makt kommer stor kompleksitet. Det finnes innebygde utfordringer og etiske problemer omkring LLM som må håndteres før vi kan utnytte dem til deres fulle potensiale. For eksempel fant en nylig Stanford-studie rasistiske og kjønnsbaserte fordommer når de observerte ChatGPT-4 for hvordan den behandlet visse spørsmål som inkluderte for- og etternavn som antydet rase eller kjønn. I denne studien ble programmet bedt om råd om hvor mye en skulle betale for en brukt sykkel som ble solgt av noen som het Jamal Washington, som resulterte i en mye lavere sum sammenlignet med når selgeren het Logan Becker. Ettersom disse oppdagelsene fortsatt kommer til lyset, øker behovet for å håndtere LLM-utfordringer.

Hvordan minimere vanlige LLM-behov

Forutinntakthet

En av de mest diskuterte problemene blant LLM er forutinntakthet og rettferdighet. I en nylig studie testet eksperter fire nylig publiserte LLM og fant at de alle uttrykte forutinntatte antagelser om menn og kvinner, spesielt de som var i samsvar med folks oppfatninger snarere enn de som var grunnlagt i fakta. I denne sammenhengen refererer forutinntakthet til ulik behandling eller resultater blant ulike sosiale grupper, mest sannsynlig på grunn av historiske eller strukturelle maktubalanser.

I LLM skyldes forutinntakthet dataseleksjon, skaperdemografi og språk- eller kulturell skjevhet. Dataseleksjonsforutinntakthet oppstår når tekstene valgt for LLM-trening ikke representerer den fullstendige mangfoldet av språk som brukes på nettet. LLM som er trenet på omfattende, men begrensede, datasett kan arve forutinntakthetene som allerede finnes i disse tekstene. Med skaperdemografi er visse demografiske grupper mer fremtredende enn andre, hvilket eksemplifiserer behovet for mer mangfold og inklusivitet i innholdsskapning for å redusere forutinntakthet. For eksempel viser Wikipedia, en vanlig kilde for treningdata, en merkbart demografisk ubalanse blant sine redaktører med en mannlig majoritet (84%). Dette er lignende skjevheter som finnes for språk og kultur også. Mange kilder som LLM er trenet på er skjevheter, som heller engelsk-sentriske, som bare noen ganger oversettes nøyaktig over andre språk og kulturer.

Det er avgjørende at LLM er trenet på filtrert data, og at det er sikkerhetsskiller på plass for å undertrykke emner som ikke er konsistente representasjoner av data. En måte å gjøre dette på er gjennom dataforbedringsbaserte tekniker. Du kan legge til eksempler fra underrepresenterte grupper til treningdata, og dermed utvide datasettets mangfold. En annen mitigasjonstaktikk er datafiltrering og omveiing, som primært fokuserer på å målrette bestemte, underrepresenterte eksempler innen en eksisterende datasett.

Hallusinasjoner

Innenfor sammenhengen av LLM er hallusinasjoner et fenomen karakterisert av produksjon av tekst som, selv om den er grammatisk korrekt og ser ut til å være sammenhengende, avviker fra faktisk nøyaktighet eller hensikten med kildematerialet. I virkeligheten har nye rapporter funnet at en søksmål om en Minnesota-lov er direkte berørt av LLM-hallusinasjoner. En erklæring som ble levert for å støtte loven, har blitt funnet å inneholde ikke-eksisterende kilder som kan ha blitt hallusinert av ChatGPT eller en annen LLM. Disse hallusinasjonene kan lett redusere en LLMs pålitelighet.

Det finnes tre primære former for hallusinasjoner:

  1. Input-konflikt-hallusinasjon: Dette skjer når utdata fra en LLM avviker fra brukerens angitte input, som vanligvis inkluderer oppgaveinstruksjoner og den faktiske innholdet som må behandles.
  2. Kontekst-konflikt-hallusinasjon: LLM kan generere intern inkonsistent respons i scenarioer som involverer utvidet dialog eller flere utvekslinger. Dette antyder en potensiell mangelfullhet i modellens evne til å spore kontekst eller opprettholde kohens over flere interaksjoner.
  3. Faktum-konflikt-hallusinasjon: Denne formen for hallusinasjon oppstår når en LLM produserer innhold som er i motstrid med etablert faktisk kunnskap. Opphavet til slike feil er mangfoldige og kan oppstå på ulike stadier i livssyklusen til en LLM.

Mange faktorer har bidratt til dette fenomenet, som kunnskapsmangler, som forklarer hvordan LLM kan mangle kunnskap eller evne til å assimilere informasjon korrekt under forhåndstrening. I tillegg kan forutinntakthet i treningdata eller en sekvensiell genereringsstrategi for LLM, kalt “hallusinasjons-snowballing”, skape hallusinasjoner.

Det finnes måter å minimere hallusinasjoner, selv om de alltid vil være et karakteristisk trekk ved LLM. Hjelpsomme mitigasjonstrategier for hallusinasjoner er å minimere under forhåndstrening (manuell raffinering av data ved hjelp av filterteknikker) eller finjustering (kurering av treningdata). Imidlertid er mitigasjon under inferens den beste løsningen på grunn av dens kostnadseffektivitet og kontroll.

Personvern

Med økt tilgjengelighet av personlig informasjon og andre private data på internett, har dette blitt en vidt anerkjent bekymring. En studie fant at 80% av amerikanske forbrukere er bekymret for at deres data brukes til å trene AI-modeller. Ettersom de mest fremtredende LLM er kilder fra nettsteder, må vi vurdere hvordan dette stiller personvernrisiko og forblir et stort ubesvart problem for LLM.

Den enkleste måten å forhindre LLM fra å distribuere personlig informasjon er å rense det fra treningdata. Imidlertid, gitt den enorme mengden data som er involvert i LLM, er det nesten umulig å garantere at all personlig informasjon er utryddet. En annen vanlig alternativ for organisasjoner som avhenger av eksternt utviklede modeller er å velge en åpen kilde LLM i stedet for en tjeneste som ChatGPT.

Med denne tilnærmingen kan en kopi av modellen deployes internt. Brukerens forespørsler forblir sikre innen organisasjonens nettverk i stedet for å bli eksponert for tredjepartstjenester. Selv om dette dramatisk reduserer risikoen for å lekke sensitive data, legger det også til betydelig kompleksitet. Gitt vanskelighetene med å fullstendig garantere beskyttelsen av private data, er det likevel avgjørende for applikasjonsutviklere å vurdere hvordan disse modellene kan sette deres brukere i risiko.

Neste grense for LLM

Ettersom vi fortsetter å vokse og forme påfølgende evolusjoner av LLM gjennom å minimere nåværende risiko, bør vi forvente gjennombruddet av LLM-agenter, som vi allerede ser selskaper som H med Runner H, starter å utgi. Skiftet fra rene språkmodeller til agente-arkitekturer representerer en endring i AI-systemdesign; industrien vil bevege seg forbi de innebygde begrensningene til chat-grensesnitt og enkel generering-augmentering. Disse nye agent-rammeverkene vil ha sofistikerte planleggingsmoduler som bryter ned komplekse mål til atomiske underoppgaver, opprettholder episodisk minne for kontekstuell resonnering og utnytter spesialiserte verktøy gjennom godt definerte API-er. Dette skaper en mer robust tilnærming til oppgaveautomatisering. Arkitekturprogresjonen hjelper med å minimere de vanlige utfordringene rundt oppgaver og resonnering, verktøy-integrasjon og overvåking av utførelse innen tradisjonelle LLM-implementeringer.

I tillegg til LLM, vil det være en større fokus på å trene mindre språkmodeller på grunn av deres kostnadseffektivitet, tilgjengelighet og enkelhet i deployering. For eksempel specialiserer domenespesifikke språkmodeller seg på bestemte bransjer eller felt. Disse modellene er finjustert med domenespesifikke data og terminologi, og gjør dem ideelle for komplekse og regulerte miljøer, som det medisinske eller juridiske felt, hvor nøyaktighet er essensiell. Denne målrettede tilnærmingen reduserer sannsynligheten for feil og hallusinasjoner som generelle modeller kan produsere når de møter spesialisert innhold.

Ettersom vi fortsetter å utforske nye grenser i LLM, er det avgjørende å drive grensene for innovasjon og håndtere og minimere potensielle risikoer forbundet med deres utvikling og deployering. Bare ved å først identifisere og proaktivt takle utfordringer relatert til forutinntakthet, hallusinasjoner og personvern, kan vi skape en mer robust grunnlag for LLM å trives over diverse felt.

Uday Kamath er Chief Analytics Officer i Smarsh, den globale lederen innen kommunikasjonsdata og intelligens. Hans rolle omfatter å lede datavitenskap og forskning i konversasjons-AI. Med over 25 års erfaring i analytisk utvikling og en Ph.D. i skalerbar maskinlæring, omfatter Kamaths betydelige bidrag tallrike tidsskrifter, konferanser, bøker og patenter. Han er også en aktiv medlem av styret for enheter, inkludert kommersielle selskaper som Falkonry og akademiske institusjoner som Center for Human-Machine Partnership ved GMU.