Kontakt med oss

Kunstig intelligens

Google ser for seg et GPT-3-lignende spørresystem, uten søkeresultater

mm

En ny artikkel fra fire Google-forskere foreslår et "ekspert"-system som er i stand til autoritativt å svare på brukernes spørsmål uten å presentere en liste over mulige søkeresultater, likt spørsmål og svar-paradigmet som har blitt kjent med offentligheten gjennom bruken av GPT-3 i det siste år.

Ocuco papir, har krav på Rethinking Search: Å gjøre eksperter ut av dilettanter, antyder at den nåværende standarden for å presentere brukeren en liste over søkeresultater som svar på en forespørsel er en "kognitiv byrde", og foreslår forbedringer i evnen til et naturlig språkbehandlingssystem (NLP) til å gi et autoritativt og definitivt svar .

Under den foreslåtte modellen av et "ekspert" orakel på tvers av domener, vil de tusenvis av mulige søkeresultatkilder bli bakt inn i en språkmodell i stedet for å være eksplisitt tilgjengelig som en utforskende ressurs for brukere å evaluere og navigere selv. Kilde: https://arxiv.org/pdf/2105.02274.pdf

Under den foreslåtte modellen av et "ekspert" orakel på tvers av domener, vil de tusenvis av mulige søkeresultatkilder bli bakt inn i en språkmodell i stedet for å være eksplisitt tilgjengelig som en utforskende ressurs for brukere å evaluere og navigere selv. Kilde: https://arxiv.org/pdf/2105.02274.pdf

Artikkelen, ledet av Donald Metzler ved Google Research, foreslår forbedringer i typen orakelsvar med flere domener som for tiden kan oppnås fra autoregressive språkmodeller for dyp læring som GPT-3. De viktigste forbedringene som er sett for seg er a) at modellen vil være i stand til nøyaktig å sitere kildene som informerte svaret, og b) at modellen ville bli forhindret fra 'hallusinerende' svar eller å finne opp ikke-eksisterende kildemateriale, som for tiden er et problem med slike arkitekturer.

Multi-domene opplæring og evner

I tillegg vil den foreslåtte språkmodellen, karakterisert i oppgaven som 'En enkelt modell for alle informasjonsinnhentingsoppgaver', bli trent på en rekke domener, inkludert bilder og tekst. Det vil også trenge en forståelse om opprinnelsen til kunnskap, som mangler i GPT-3-stilarkitekturer.

«For å erstatte indekser med en enkelt enhetlig modell, må det være mulig for modellen selv å ha kunnskap om universet av dokumentidentifikatorer, på samme måte som tradisjonelle indekser gjør. En måte å oppnå dette på er å gå bort fra tradisjonelle LM-er og mot korpusmodeller som i fellesskap modellerer term-term, term-dokument og dokument-dokument-relasjoner.'

I bildet over, fra oppgaven, tre tilnærminger som svar på en brukerforespørsel: til venstre, språkmodellene implisitt i Googles algoritmiske søkeresultater har valgt og prioritert et 'beste svar', men har forlatt det som toppresultatet av mange. Center, et samtalesvar i GPT-3-stil, som snakker med autoritet, men som ikke rettferdiggjør påstandene eller siterer kilder. Høyre, det foreslåtte ekspertsystemet inkorporerer den "beste responsen" fra de rangerte søkeresultatene direkte i et didaktisk svar, med akademisk fotnote-sitering (ikke avbildet i originalbildet) som indikerer kildene som informerer svaret.

Fjerning av giftige og unøyaktige resultater

Forskerne bemerker at den dynamiske og konstant oppdaterte naturen til søkeindekser er en utfordring å replikere fullstendig i en maskinlæringsmodell av denne typen. For eksempel, der en en gang pålitelig kilde har blitt trent direkte inn i modellens forståelse av verden, kan det være vanskeligere å fjerne dens innflytelse (for eksempel etter at den er miskreditert) enn bare å fjerne en URL fra SERP-er, siden datakonsepter kan bli abstrakt og bredt representert under assimilering i trening.

I tillegg vil en slik modell måtte trenes kontinuerlig for å gi samme nivå av respons til nye artikler og publikasjoner som for tiden tilbys av Googles konstante spidering av kilder. Dette betyr i praksis kontinuerlig og automatisert utrulling, i motsetning til dagens regime, hvor det gjøres mindre endringer i vektene og innstillingene for søkealgoritmen i friform, men selve algoritmen oppdateres vanligvis bare sjelden.

Angrepsoverflater for et sentralisert ekspertorakel

En sentralisert modell som stadig assimilerer og generaliserer nye data kan transformere angrepsoverflaten for søkeforespørsler.

For øyeblikket kan en angriper oppnå fordeler ved å oppnå høy rangering for domener eller sider som enten inneholder feilinformasjon eller ondsinnet kode. I regi av et mer ugjennomsiktig «ekspert»-orakel, er muligheten for å omdirigere brukere til å angripe domener sterkt redusert, men muligheten for å injisere giftige dataangrep økes kraftig.

Dette er fordi det foreslåtte systemet ikke eliminerer søkerangeringsalgoritmen, men skjuler den for brukeren, og automatiserer effektivt prioriteten til toppresultatene og baker den (eller dem) til en didaktisk uttalelse. Ondsinnede brukere har lenge vært i stand til å orkestrere angrep mot Googles søkealgoritme, til selge falske produkter, direkte brukere til domener som sprer skadelig programvare, eller med det formål politisk manipulasjon, blant mange andre brukstilfeller.

Ikke AGI

Forskerne understreker at et slikt system neppe vil kvalifisere som Artificial General Intelligence (AGI), og plassere utsiktene til en universell ekspertresponser i sammenheng med naturlig språkbehandling, underlagt alle utfordringene som slike modeller for tiden står overfor.

Oppgaven skisserer fem krav for et "høykvalitets"-svar:

1: Myndighet
Som med gjeldende rangeringsalgoritmer, ser 'autoritet' ut til å være avledet fra sitering fra høykvalitetsdomener som anses som autoritative i seg selv. Forskerne observerer:

«Svar bør generere innhold ved å hente fra svært autoritative kilder. Dette er en annen grunn til at det er så viktig å etablere mer eksplisitte forbindelser mellom sekvenser av termer og dokumentmetadata. Hvis alle dokumentene i et korpus er annotert med en autoritativ poengsum, bør denne poengsummen tas i betraktning når du trener modellen, genererer svar eller begge deler.'

Selv om forskerne ikke antyder at tradisjonelle SERP-resultater ville bli utilgjengelige hvis et ekspertorakel av denne typen ble funnet å være presterende og populært, presenterer hele artikkelen det tradisjonelle rangeringssystemet og søkeresultatlistene i lys av flere tiår. gammelt og utdatert informasjonsinnhentingssystem.

"Selve det faktum at rangering er en kritisk komponent i dette paradigmet er et symptom på at gjenfinningssystemet gir brukerne et utvalg av potensielle svar, noe som induserer en ganske betydelig kognitiv belastning på brukeren. Ønsket om å returnere svar i stedet for rangerte resultatlister var en av motivasjonsfaktorene for å utvikle spørsmålssvarsystemer. '

2: Åpenhet
Forskerne kommenterer:

«Når det er mulig, bør opprinnelsen til informasjonen som presenteres for brukeren gjøres tilgjengelig for dem. Er dette den primære informasjonskilden? Hvis ikke, hva er den primære kilden?'

3: Håndtering Bias
Artikkelen bemerker at ferdigtrente språkmodeller ikke er utformet for å evaluere empirisk sannhet, men for å generalisere og prioritere dominerende trender i dataene. Den innrømmer at dette direktivet åpner modellen for angrep (som skjedde med Microsofts utilsiktet rasistisk chatbot i 2016), og at tilleggssystemer vil være nødvendig for å sikre seg mot slike partiske systemresponser.

4: Muliggjør ulike synspunkter
Artikkelen foreslår også mekanismer for å sikre et mangfold av synspunkter:

«Genererte svar bør representere en rekke ulike perspektiver, men bør ikke være polariserende. For eksempel, for spørsmål om kontroversielle emner, bør begge sider av emnet dekkes på en rettferdig og balansert måte. Dette har åpenbart nære sammenhenger med modellbias.'

5: Tilgjengelig språk
I tillegg til å gi nøyaktige oversettelser i tilfeller der det antatte autoritative svaret er på et annet språk, foreslår papiret at innkapslede svar bør "skrives i så enkle termer som mulig".

 

Forfatter på maskinlæring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai