Andersons vinkel

Forebygging ‘hallusinasjon’ i GPT-3 og andre komplekse språkmodeller

mm

En karakteristisk egenskap ved ‘falske nyheter’ er at de ofte presenterer feilinformasjon i en kontekst av faktisk korrekte opplysninger, med at de usanne dataene får en oppfattet autoritet gjennom en litterær osmos – et bekymringsverdig demonstrasjon av halv-sannheters kraft.

Sofistikerte generative naturlige språkbehandlingsmodeller (NLP) som GPT-3 har også en tendens til å hallusinere denne type bedrageriske data. Dette skyldes delvis at språkmodellene må kunne omformulere og sammenfatte lange og ofte labyrintiske tekststykker uten noen arkitektoniske begrensninger som kan definere, innkapsle og “forsegle” hendelser og fakta slik at de beskyttes mot prosessen med semantisk rekonstruksjon.

Faktene er derfor ikke hellige for en NLP-modell; de kan lett bli behandlet i konteksten av “semantiske Lego-brikker”, spesielt der kompleks grammatikk eller arkaisk kildeinformasjon gjør det vanskelig å skille discrete enheter fra språkstrukturen.

En observasjon av hvordan torturert formulert kildeinformasjon kan forvirre komplekse språkmodeller som GPT-3. Kilde: Paraphrase Generation Using Deep Reinforcement Learning

En observasjon av hvordan torturert formulert kildeinformasjon kan forvirre komplekse språkmodeller som GPT-3. Kilde: Paraphrase Generation Using Deep Reinforcement Learning

Dette problemet spiller over fra tekstbasert maskinlæring til datavisjonsforskning, spesielt i sektorer som bruker semantisk diskriminering for å identifisere eller beskrive objekter.

Hallusinasjon og uriktig 'kosmetisk' reinterpretasjon påvirker også datavisjonsforskning.

Hallusinasjon og uriktig ‘kosmetisk’ reinterpretasjon påvirker også datavisjonsforskning.

I tilfelle GPT-3 kan modellen bli frustrert med gjentakende spørsmål om et tema den allerede har behandlet så godt den kan. I beste fall vil den innrømme nederlag:

Et nylig eksperiment av mine med den grunnleggende Davinci-motoren i GPT-3. Modellen får svaret riktig på første forsøk, men blir irritert over å bli spurt spørsmålet en gang til. Ettersom den beholder en kortvarig minne av det forrige svaret og behandler det gjentakende spørsmålet som en avvisning av det svaret, innrømmer den nederlag. Kilde: https://www.scalr.ai/post/business-applications-for-gpt-3

Et nylig eksperiment av mine med den grunnleggende Davinci-motoren i GPT-3. Modellen får svaret riktig på første forsøk, men blir irritert over å bli spurt spørsmålet en gang til. Ettersom den beholder en kortvarig minne av det forrige svaret og behandler det gjentakende spørsmålet som en avvisning av det svaret, innrømmer den nederlag. Kilde: https://www.scalr.ai/post/business-applications-for-gpt-3

DaVinci og DaVinci Instruct (Beta) gjør det bedre i denne henseende enn andre GPT-3-modeller som er tilgjengelige via API-et. Her gir Curie-modellen feil svaret, mens Babbage-modellen utvider selv med et like feil svart:

Ting Einstein Aldri Sa

Når man ber GPT-3 DaVinci Instruct-motoren (som for øyeblikket ser ut til å være den mest kapable) om Einsteins berømte sitat ‘Gud spiller ikke terning med universet’, mislykkes DaVinci Instruct i å finne sitatet og oppfinner et ikke-sitat, og går videre til å hallusinere tre andre relativt troverdige og fullstendig ikke-eksisterende sitater (av Einstein eller noen andre) i respons til lignende spørsmål:

GPT-3 produserer fire troverdige sitater fra Einstein, ingen av dem gir noen resultater i en fulltekst Internett-søk, selv om noen utløser andre (ekte) sitater fra Einstein om temaet ‘fantasi’.

Hvis GPT-3 var konsekvent feil i å sitere, ville det være lettere å avvise disse hallusinasjonene programmatisk. Imidlertid, jo mer diffus og berømt et sitat er, jo mer sannsynlig er det at GPT-3 får sitatet riktig:

GPT-3 ser ut til å finne korrekte sitater når de er godt representert i bidragsdataene.

GPT-3 ser ut til å finne korrekte sitater når de er godt representert i bidragsdataene.

Et annet problem kan oppstå når GPT-3s sesjonshistorikk-data blør inn i et nytt spørsmål:

Einstein ville sannsynligvis bli skandalisert over å ha dette sitatet tilskrevet seg. Sitatet ser ut til å være en meningsløs hallusinasjon av et virkelig Winston Churchill aphorisme. Det forrige spørsmålet i GPT-3-sesjonen relaterte til Churchill (ikke Einstein), og GPT-3 ser ut til å ha feilaktig brukt denne sesjonstoken til å informere svaret.

Å Tackle Hallusinasjon Økonomisk

Hallusinasjon er et betydelig hinder for å adoptere sofistikerte NLP-modeller som forskningsverktøy – enda mer som outputen fra disse motorene er høyt abstrahert fra kildeinformasjonen som dannet den, så at å etablere sannhetsgehalten av sitater og fakta blir problematisk.

Derfor er en av de nåværende generelle forskningsutfordringene i NLP å etablere en måte å identifisere hallusinerte tekster uten å måtte forestille seg helt nye NLP-modeller som inkorporerer, definerer og autentiserer fakta som discrete enheter (et lengre sikt-mål i en rekke bredere dataspørsmål).

Identifisere Og Generere Hallusinert Innhold

Et nytt samarbeid mellom Carnegie Mellon University og Facebook AI Research tilbyr en ny tilnærming til hallusinasjonsproblemet, ved å formulere en metode for å identifisere hallusinert output og bruke syntetisk hallusinert tekst til å skape en datasett som kan brukes som en basis for fremtidige filtre og mekanismer som kan bli en del av NLP-arkitekturer.

Kilde: https://arxiv.org/pdf/2011.02593.pdf

Kilde: https://arxiv.org/pdf/2011.02593.pdf

I ovenstående bilde er kildeinformasjonen blitt segmentert på en per-ord-basis, med ‘0’-merket tildelt korrekte ord og ‘1’-merket tildelt hallusinerte ord. Under ser vi et eksempel på hallusinert output som er relatert til innputtinformasjonen, men er utvidet med ikke-ekte data.

Systemet bruker en forhånds-trent støyautoencoder som kan kartlegge en hallusinert streng tilbake til den opprinnelige teksten fra hvilken den korrupte versjonen ble produsert (tilsvarende mine eksempler ovenfor, hvor Internett-søk avslørte proveniens av feil sitater, men med en programmatisk og automatisert semantisk metode). Spesifikt brukes Facebooks BART-autoencoder-modell til å produsere de korrupte setningene.

Merketildeling.

Merketildeling.

Prosessen med å kartlegge hallusinasjonen tilbake til kildeinformasjonen, som ikke er mulig i vanlige høynivå NLP-modeller, tillater en algoritme-basert tilnærming til å identifisere hallusinert innhold.

Forskerne fant at systemet også kan generalisere godt når det ikke har tilgang til referansemateriale som var tilgjengelig under trening, hvilket tyder på at konseptmodellen er solid og bredt reproduserbar.

Å Tackle Overfitting

For å unngå overfitting og nå en bredt distribuerbar arkitektur, droppet forskerne tilfeldig token fra prosessen, og brukte også omformulering og andre støyfunksjoner.

Maskinoversettelse (MT) er også en del av denne forvrengningsprosessen, ettersom oversettelse av tekst over språk er sannsynlig å bevare mening robust og forhindre over-fitting. Derfor ble hallusinasjoner oversatt og identifisert for prosjektet av tospråklige talere i en manuell annoteringslag.

Initiativet oppnådde nye beste resultater i en rekke standard sektor-tester, og er den første til å oppnå akseptable resultater ved å bruke data som overstiger 10 millioner token.

Koden for prosjektet, med tittelen Detecting Hallucinated Content in Conditional Neural Sequence Generation, er blitt utgitt på GitHub, og tillater brukerne å generere deres eget syntetisk data med BART fra enhver tekstkorpus. Det er også lagt til bestemmelser for den påfølgende generering av hallusinasjonsdeteksjonsmodeller.

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.