stub Hovedforsker for Amazon Alexa hevder at Turing-testen er foreldet - Unite.AI
Kontakt med oss

Kunstig generell intelligens

Hovedforsker for Amazon Alexa hevder at Turing-testen er foreldet

mm
oppdatert on

Rohit Prasad, visepresident og hovedforsker for Alexa hos Amazon, nylig hevdet at Turing test, lenge brukt til å måle sofistikeringen til AI-modeller, bør trekkes tilbake som en benchmark for AI.

Dataforsker og matematiker Alan Turing introduserte opprinnelig konseptet med Turing-testen for mer enn 70 år siden. Intensjonen med Turing-testen var å hjelpe til med å svare på spørsmålet om maskinintelligens, og avgjøre om en maskin var i stand til å "tenke" i menneskelig forstand. For å svare på dette spørsmålet hevdet Turing at hvis maskiner kunne vise samtaleatferd så sofistikert at en menneskelig observatør ikke kunne skille mellom datamaskinens dialog og et menneskes dialog, burde maskinen betraktes som i stand til å tenke.

Turing testbegrensninger

Prasad hevdet at Turing-testen er begrenset på mange måter, og at Turing selv bemerket noen av disse begrensningene i sin første artikkel. Ettersom AI har blitt mer og mer integrert i alle fasetter av livene våre, bryr folk seg mindre om at det ikke kan skilles fra et menneske og mer at deres interaksjoner med AI er sømløse, hevder Prasad. Av denne grunn bør Turing-testen betraktes som foreldet og erstattet med mer nyttige benchmarks.

Prasad bemerket at mange tidlige chatboter ble designet med tanke på å bestå Turing-testen, og de siste årene har noen chatbots konsekvent klart å lure mer enn en tredjedel av menneskelige dommere (baren som var nødvendig for å bestå Turing-testen). Men å være i stand til å etterligne talemønstre til mennesker betyr ikke at en maskin virkelig kan betraktes som "intelligent". AI-modeller kan være ekstremt dyktige på ett område og ekstremt mangelfulle på andre, uten å ha noen form for generell intelligens. Til tross for dette er Turing-testen fortsatt en vanlig målestokk for chatboter og digitale assistenter, med Prasad som bemerker at bedriftsledere og journalister stadig spør når Alexa vil være i stand til å bestå Turing-testen.

I følge Prasad er et av hovedproblemene med å bruke Turing-testen for å vurdere maskinintelligens at den nesten utelukker muligheten til maskiner til å søke etter informasjon og utføre lynraske beregninger. AI-programmer injiserer kunstige pauser som svar på kompliserte matematikk- og geografispørsmål for å lure mennesker, men de har svar på slike spørsmål nesten umiddelbart. Utover dette tar ikke Turing-testen AIs økende evne til å bruke data samlet inn av eksterne sensorer i betraktning, og ignorerer hvordan AI-er kan samhandle med verden rundt seg gjennom syn og bevegelsesalgoritmer, kun avhengig av tekstkommunikasjon.

Opprette nye benchmarks

Prasad argumenterte for at det burde lages nye former for måling av intelligens, metoder som er bedre egnet til å vurdere en generell type intelligens. Disse testene bør gjenspeile hvordan AI faktisk brukes i det moderne samfunn og folks mål for å bruke det. Testene skal kunne fastslå hvor godt en AI forsterker menneskelig intelligens og hvor godt AI forbedrer folks daglige liv. Videre bør en test forstå hvordan en AI manifesterer menneskelignende trekk ved intelligens, inkludert språkkunnskaper, selvtilsyn og «sunn fornuft».

De nåværende og viktige feltene innen AI-forskning, som resonnement, rettferdighet, samtale og sensorisk forståelse blir ikke evaluert av Turing-testen, men de kan måles på en rekke måter. Prasad forklarte at en måte å måle disse funksjonene ved intelligens er ved å dele utfordringer ned i konstituerende oppgaver. En annen metode for å evaluere er å skape en storstilt utfordring i den virkelige verden for interaksjon mellom mennesker og datamaskiner.

Da Amazon opprettet Alexa-prisen, skapte den en rubrikk som krevde at sosiale roboter snakket med et menneske i 20 minutter. Robotene vil bli vurdert på deres evne til å snakke sammenhengende om et bredt spekter av emner som teknologi, sport, politikk og underholdning. Kundene var ansvarlige for å skåre robotene under utviklingsfasen, og tilordne dem poeng basert på deres ønske om å chatte med boten igjen. Under siste runde var uavhengige dommere ansvarlige for å rangere robotene ved å bruke en 5-punkts skala. Rubrikken som ble brukt av dommerne var avhengig av metoder som lar AI-er vise viktige menneskelige egenskaper som empati der det var hensiktsmessig.

Til syvende og sist hevdet Prasad at den økende spredningen av AI-drevne enheter som Alexa representerer en viktig mulighet til å måle fremdriften til AI, men vi vil trenge forskjellige beregninger for å dra nytte av denne nye muligheten.

"Slike AI-er må være eksperter på et stort, stadig økende antall oppgaver, noe som bare er mulig med mer generalisert læringsevne i stedet for oppgavespesifikk intelligens," forklarte Prasad. "Derfor, i det neste tiåret og utover, er nytten av AI-tjenester, med deres samtale- og proaktive assistanseevner på omgivende enheter, en verdig test."

 

Blogger og programmerer med spesialiteter innen Maskinlæring og Dyp læring emner. Daniel håper å hjelpe andre å bruke kraften til AI til sosialt gode.