stub Google forestiller sig et GPT-3-lignende forespørgselssystem uden søgeresultater - Unite.AI
Følg os

Kunstig intelligens

Google forestiller sig et GPT-3-lignende forespørgselssystem uden søgeresultater

mm
Opdateret on

Et nyt papir fra fire Google-forskere foreslår et "ekspert"-system, der er i stand til autoritativt at besvare brugernes spørgsmål uden at præsentere en liste over mulige søgeresultater, svarende til det Q&A-paradigme, der er blevet offentligt opmærksom på gennem fremkomsten af ​​GPT-3 i fortiden år.

papir, berettiget Rethinking Search: At gøre eksperter ud af dilettanter, foreslår, at den nuværende standard for at præsentere brugeren for en liste over søgeresultater som svar på en forespørgsel er en 'kognitiv byrde', og foreslår forbedringer i et naturligt sprogbehandlingssystems (NLP) evne til at give et autoritativt og endeligt svar .

Under den foreslåede model af et 'ekspert' orakel på tværs af domæner, vil de tusindvis af mulige søgeresultatkilder blive indbygget i en sprogmodel i stedet for at være eksplicit tilgængelig som en udforskende ressource, som brugerne selv kan evaluere og navigere i. Kilde: https://arxiv.org/pdf/2105.02274.pdf

Under den foreslåede model af et "ekspert" orakel på tværs af domæner, vil de tusindvis af mulige søgeresultatkilder blive indbygget i en sprogmodel i stedet for at være eksplicit tilgængelig som en udforskende ressource, som brugerne selv kan evaluere og navigere i. Kilde: https://arxiv.org/pdf/2105.02274.pdf

Papiret, ledet af Donald Metzler ved Google Research, foreslår forbedringer i den type orakelsvar med flere domæner, som i øjeblikket kan opnås fra autoregressive sprogmodeller for dyb indlæring, såsom GPT-3. De vigtigste forudsete forbedringer er a) at modellen ville være i stand til nøjagtigt at citere de kilder, der informerede svaret, og b) at modellen ville blive forhindret i athallucinerende' svar eller opfinde ikke-eksisterende kildemateriale, hvilket i øjeblikket er et problem med sådanne arkitekturer.

Multi-domæne træning og muligheder

Derudover vil den foreslåede sprogmodel, der i papiret karakteriseres som 'En enkelt model for alle informationssøgningsopgaver', blive trænet på en række forskellige domæner, herunder billeder og tekst. Det ville også have brug for en forståelse af oprindelsen af ​​viden, som mangler i GPT-3 stilarkitekturer.

»For at erstatte indekser med en enkelt, samlet model, skal det være muligt for modellen selv at have viden om universet af dokumentidentifikatorer, på samme måde som traditionelle indekser har. En måde at opnå dette på er at bevæge sig væk fra traditionelle LM'er og hen imod korpusmodeller, der i fællesskab modellerer term-term, term-dokument og dokument-dokument relationer.'

På billedet ovenfor, fra papiret, tre tilgange som svar på en brugerforespørgsel: Til venstre har sprogmodellerne implicit i Googles algoritmiske søgeresultater valgt og prioriteret et 'bedste svar', men har efterladt det som det øverste resultat af mange. Center, en GPT-3 stil samtalesvar, som taler med autoritet, men ikke retfærdiggør sine påstande eller citerer kilder. Til højre, det foreslåede ekspertsystem inkorporerer det 'bedste svar' fra de rangerede søgeresultater direkte i et didaktisk svar, med fodnotecitater i akademisk stil (ikke afbildet på det originale billede), der angiver de kilder, der informerer svaret.

Fjernelse af giftige og unøjagtige resultater

Forskerne bemærker, at den dynamiske og konstant opdaterede karakter af søgeindekser er en udfordring at replikere fuldstændigt i en maskinlæringsmodel af denne art. For eksempel, hvor en engang betroet kilde er blevet trænet direkte i modellens forståelse af verden, kan det være vanskeligere at fjerne dens indflydelse (for eksempel efter at den er blevet miskrediteret) end blot at fjerne en URL fra SERP'er, da datakoncepter kan blive abstrakt og bredt repræsenteret under assimilering i træning.

Derudover skal en sådan model løbende trænes for at give samme niveau af lydhørhed over for nye artikler og publikationer, som i øjeblikket leveres af Googles konstante spidering af kilder. Dette betyder reelt en kontinuerlig og automatiseret udrulning, i modsætning til det nuværende regime, hvor der foretages mindre ændringer af vægte og indstillinger af fri-form søgealgoritmen, men selve algoritmen opdateres normalt kun sjældent.

Angrebsoverflader for et centraliseret ekspert-orakel

En centraliseret model, der konstant assimilerer og generaliserer nye data, kunne transformere angrebsoverfladen til søgeforespørgsler.

I øjeblikket kan en angriber opnå fordele ved at opnå høj rangering for domæner eller sider, der enten indeholder misinformation eller ondsindet kode. I regi af et mere uigennemskueligt 'ekspert'-orakel er muligheden for at omdirigere brugere til angrebsdomæner stærkt formindsket, men muligheden for at injicere giftige dataangreb øges markant.

Dette skyldes, at det foreslåede system ikke eliminerer søgerangeringsalgoritmen, men skjuler den for brugeren, hvilket effektivt automatiserer prioriteringen af ​​topresultaterne og bager det (eller dem) til en didaktisk erklæring. Ondsindede brugere har længe været i stand til at orkestrere angreb mod Googles søgealgoritme, til sælge falske produkter, direkte brugere til malware-spredningsdomæner, eller med henblik på politisk manipulationblandt mange andre use cases.

Ikke AGI

Forskerne understreger, at et sådant system næppe vil kvalificere sig som Artificial General Intelligence (AGI), og placere udsigten til en universel ekspertresponder i sammenhæng med naturlig sprogbehandling, underlagt alle de udfordringer, som sådanne modeller i øjeblikket står over for.

Papiret skitserer fem krav til et "højkvalitets"-svar:

1: Myndighed
Som med nuværende rangordningsalgoritmer ser 'autoritet' ud til at være afledt af citering fra domæner af høj kvalitet, der anses for autoritative i sig selv. Forskerne observerer:

'Svar skal generere indhold ved at hente fra meget autoritative kilder. Dette er endnu en grund til, at det er så afgørende at etablere mere eksplicitte forbindelser mellem sekvenser af termer og dokumentmetadata. Hvis alle dokumenterne i et korpus er annoteret med en autoritativ karakter, skal denne score tages i betragtning, når modellen trænes, genereres svar eller begge dele.'

Selvom forskerne ikke antyder, at traditionelle SERP-resultater ville blive utilgængelige, hvis et ekspertorakel af denne type blev fundet at være performant og populært, præsenterer hele papiret det traditionelle rangeringssystem og søgeresultatlister i lyset af 'årtier gammelt og forældet informationssøgningssystem.

"Selve det faktum, at rangering er en kritisk komponent i dette paradigme, er et symptom på, at genfindingssystemet giver brugerne et udvalg af potentielle svar, hvilket inducerer en ret betydelig kognitiv byrde for brugeren. Ønsket om at returnere svar i stedet for rangordnede resultatlister var en af ​​de motiverende faktorer for at udvikle spørgsmålsbesvarelsessystemer. '

2: Gennemsigtighed
Forskerne kommenterer:

»Når det er muligt, bør herkomsten af ​​de oplysninger, der præsenteres for brugeren, stilles til rådighed for dem. Er dette den primære kilde til information? Hvis ikke, hvad er den primære kilde?'

3: Håndtering Bias
Papiret bemærker, at præ-trænede sprogmodeller ikke er designet til at evaluere empirisk sandhed, men til at generalisere og prioritere dominerende tendenser i dataene. Den indrømmer, at dette direktiv åbner modellen for angreb (som det skete med Microsofts utilsigtet racistisk chatbot i 2016), og at hjælpesystemer vil være nødvendige for at sikre mod sådanne partiske systemreaktioner.

4: Muliggør forskellige synspunkter
Papiret foreslår også mekanismer til at sikre en flerhed af synspunkter:

'Genererede svar bør repræsentere en række forskellige perspektiver, men bør ikke være polariserende. For forespørgsler om kontroversielle emner bør begge sider af emnet dækkes på en retfærdig og afbalanceret måde. Dette har åbenbart tætte sammenhænge med modelbias.'

5: Tilgængeligt sprog
Udover at give nøjagtige oversættelser i tilfælde, hvor det vurderede autoritative svar er på et andet sprog, foreslår papiret, at indkapslede svar skal "skrives i så almindelige termer som muligt".