Connect with us

Kunstig intelligens

At få NLP til at udfordre misinformerende spørgsmål

mm

Nogle spørgsmål er ubesvarelige, fordi de indeholder forkert information – antagelser, som den person, der hører spørgsmålet, må filtrere og afvise. Dette antager naturligvis, at lytteren har tilstrækkelig korrekt information til at udfordre spørgsmålet, snarere end at bruge spørgsmålet selv som kilde til (forkert) information.

Dette er en udfordring for Natural Language Processing (NLP)-systemer som GPT-3, der har en tendens til at ‘hallucinere’ information for at opretholde dialogen.

I øjeblikket vil spørgsmålet “Hvornår opfandt Marie Curie Uran?” sandsynligvis give svaret “Marie Curie opfandt Uran i 1898”.

Kilde: https://beta.openai.com/playground (Da Vinci instruct beta).

Kilde: https://beta.openai.com/playground (Da Vinci instruct beta).

I virkeligheden blev Uran opdaget i 1789 af den tyske kemiker Martin Heinrich Klaproth, mens Curies’ 1898-opdagelse var isolation af radium.

Problemet med, at NLP-systemer ignorerer forkerte antagelser, er kommet i fokus i en række offentlige udtalelser i år, herunder måden, hvorpå Googles AI-baserede søgeresultater ignorerer forkert information i spørgsmålet “Hvornår satte Neil Armstrong fod på Mars?” – en fejl, der stadig vises på tidspunktet for denne artikels skrivning, og som ligeledes gælder for Toy Story‘s Buzz Lightyear, der angiveligt landede på Månen den 21. juli 1969.

Tom Hanks, en anden Toy Story-alumnus, bliver også krediteret af Google for at have sat fod på Månen i 1970, på trods af, at hans Apollo 13-karakter, astronaut Jim Lovell, er mest berømt for ikke at have opnået dette.

At løse antagelsesproblemer i NLP-udvekslinger

Nu undersøger Google Research, sammen med forskere fra John Hopkins University og Brown University, nye maskinlæringsmetoder, som kan gøre det muligt for NLP-systemer at udfordre faktisk forkerte spørgsmål på samme måde, som det er essentiel for menneskelige lærere at gøre under samtaler med elever.

Den seneste artikel Hvem opfandt lyspæren? Antagelsesverifikation til spørgsmål-svar omhandler en samlet indsats for at udvikle et nyt system til at identificere antagelser og vurderer deres sandhed, før udvekslingen fortsætter

Den nye algoritme forarbejder spørgsmål, før den returnerer til samtalen, og bryder ‘autentificeringen’ af spørgsmålet ned i en tre-del-proces.

Det ikke compute! Til venstre, 'vejspærringen', der opstår, selv når et avanceret NLP-system har kunnet identificere, at spørgsmålet ikke giver mening. Til højre, en nedbrydning af en foreslået algoritme, der forsøger at rette kildefejlen.

Det ikke compute! Til venstre, ‘vejspærringen’, der opstår, selv når et avanceret NLP-system har kunnet identificere, at spørgsmålet ikke giver mening. Til højre, en nedbrydning af en foreslået algoritme, der forsøger at rette kildefejlen. Kilde: https://arxiv.org/pdf/2101.00391.pdf

Selv om det synes at være en simpel verifikationsrutine, der burde være indbygget i videnssystemer fra begyndelsen, lærer de fleste NLP-baserede træningsrutiner information med en uretfærdig høj tillid til kilde-data, herunder diskurs (som f.eks. falske nyheder), der måske er blevet offentliggjort på tidligere ’tillidsværdige’ kanaler.

Derfor er et nøgleproblem at identificere en pålidelig kilde til fakta i en klima, hvor spredningen af forkert ‘nyheder’ gennem sociale medier ville, som standard, give dem autoritet under maskinlæringsgeneraliseringens logik. Sidstnævnte har tendens til at bruge mængden eller gentagelsen af data som en proxy for nøjagtighed, i hvert fald indtil fænomenet med falske nyheder blev et kritisk område af interesse i feltet i de seneste år.

At bestemme den bedste tilgang til ubesvarelige spørgsmål

For at bestemme en passende tilgang til at løse et spørgsmål, der indeholder misinformationsindhold, kørte forskerne 100 sådanne forespørgsler gennem fire forskellige Q&A-modeller og bad menneskelige deltagere om at vælge den bedste eller mindst problematiske løsning, som modellerne genererede.

De fire mulige arkitektoniske resultater for det ‘dårlige’ spørgsmål var: ‘Ubesvareligt’ – hvor et lukket bog Q&A-system effektivt lukker spørgsmålet uden yderligere forklaring; ‘Antagelsesfejl-baseret forklaring’ – hvor systemet ikke kan verificere den forkerte antagelse, effektivt en ‘ubesvarelig’ respons, med en tilføjet forklaring; ‘Ekstraktiv forklaring’ – hvor systemet henter en topisk relateret Wikipedia-citater og føjer det til den indledende ‘Dette spørgsmål er ubesvareligt, fordi…’; og ‘Åben domæne-omskrivning’ – hvor et konkurrerende system søger efter yderligere kilder fra Wikipedia.

Dette eksempel på fire mulige svar på et tilsyneladende 'ubesvareligt' spørgsmål illustrerer kompleksiteten ved at forsøge en konkurrencedygtig domænebaseret løsning på problemet.

Dette eksempel på fire mulige svar på et tilsyneladende ‘ubesvareligt’ spørgsmål illustrerer kompleksiteten ved at forsøge en konkurrencedygtig domænebaseret løsning på problemet.

Over testernes forløb foretrak de fem deltagere (rekrutteret på et internt Google crowdsourcing-platform) antagelsesbaserede svar, hvilket fik forskerne til at udvikle en ny ramme til at dekonstruere og verificere spørgsmål.

I det nye system erhverves sproglige udløsere fra spørgsmålet af en regelbaseret generator, der dekonstruerer sætningen i formodede faktiske udsagn. Hvis der er flere antagelser, der er afledt af spørgsmålet, undersøges hver enkelt, og vil bidrage til den endelige respons, hvis de adresserer fejlagtige antagelser fra det oprindelige spørgsmål.

Datasæt

De antagelser, der blev genereret i den første fase, blev manuelt ændret for at oprette en verifikationsdatasæt med ‘guld’-antagelser. Enhver antagelse, der opstod fra afgreningen af spørgsmålet, men som ikke var til stede i de oprindelige spørgsmål, blev fjernet.

To af artiklens forfattere annoterede derefter manuelt 462 antagelser i forhold til ja/nej-verificerbarhed, baseret på en relevant Wikipedia-side associeret med hvert spørgsmål. Tilfælde af uenighed blev løst i efterfølgende diskussion, før de blev tilføjet datasættet.

Forskerne brugte zero-shot NLI, en præmis/hypotese-klassificeringstask, der krævede dekonstruktion af Wikipedia-artikler relateret til spørgsmålene. Da denne proces resulterer i mange flere par end spørgsmålet måtte medføre eller modellen understøtte, blev de filtrerede resultater derefter aggregateret og mærket.

Resultater og responsformulering

De mest effektive resultater blev opnået af den mest arbejdskrævende løsning: en finjusteret, regelbaseret/NLI-hybrid genereret fra ALBERT QNLI med Wiki-sætninger og antagelser.

Præstationen af verifikationsmodellerne, hvor 'Wiki-sætninger' bruger sætninger, der er hentet fra spørgsmålsrelaterede Wikipedia-artikler, og 'Wiki-antagelser' er genererede antagelser fra disse sætninger.

Præstationen af verifikationsmodellerne, hvor ‘Wiki-sætninger’ bruger sætninger, der er hentet fra spørgsmålsrelaterede Wikipedia-artikler, og ‘Wiki-antagelser’ er genererede antagelser fra disse sætninger.

Med denne formulering udviklede forskerne et templatesystem, hvor en negativ faktum fra Wikipedia blev føjet til ‘Dette spørgsmål er ubesvareligt, fordi…’ og lignende fraser. Selv om det ikke er en ideel løsning, foreslår forfatterne, at responser baseret på uverificerbarhed sandsynligvis vil reducere forekomsten af falske negativer.

Systemet blev endelig implementeret i en Extended Transformer Construction (ETC)-model.

Konsekvenser

Afhængigt af dens endelige præstation i den virkelige verden, kan det argumenteres, at denne tilgang sandsynligvis vil føre til en substitution af ‘uverificerbare’ for ‘ubesvarelige’, i tilfælde, hvor det understøttende forskningssystem ikke kan evaluere en nyttig korrektion for et spørgsmåls fejlagtige antagelse. Effektivt synes det at være ved at lægge infrastrukturen for fremtidige og bedre verifikationssystemer.

Forskerne indrømmer allerede, at omkostningerne ved token-baserede API-anmodninger er en begrænsende faktor, når de formulerer de længere svar, som dette system vil generere, og det må antages, at den ekstra overhæng af ‘live’-forskning i et spørgsmål sandsynligvis vil tilføje latency, selv til store skala systemer som GPT-3, da responsiviteten af sådanne systemer hidtil har afhængigt af den generelle inkorporering af viden på træningstidspunktet, snarere end omfattende, netbaserede verifikationsrutiner.

Derudover bemærker forskerne, at systemet i øjeblikket har begrænsninger relateret til parsing af semantiske aspekter af teksten:

For eksempel, hvem pip tror er estellas mor har en indbygget besiddelse under en nonfaktisk verbum tro, men vores generator ville alligevel generere ‘estella har ‘mor‘.

Ikke desto mindre forestiller holdet sig nye og mere fleksible spørgsmål-svar-systemer, der vil blive udviklet på baggrund af denne forskning:

I fremtiden planlægger vi at bygge videre på dette arbejde ved at foreslå QA-systemer, der er mere robuste og samarbejdende. For eksempel kunne forskellige typer af antagelsesfejl blive adresseret af mere flydende svarstrategier – f.eks. kunne krænkelse af unik antagelse bedre håndteres ved at give alle mulige svar, snarere end at sige, at unik antagelse var krænket.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.