Kunstig intelligens

Forskningssjef for Amazon Alexa hevder at Turing-testen er foreldet

mm

Rohit Prasad, visepresident og sjefsforsker for Alexa i Amazon, hevdet nylig at Turing-testen, som lenge har blitt brukt til å måle kompleksiteten til AI-modeller, bør pensjoneres som en målestokk for AI.

Dataviter og matematiker Alan Turing innførte opprinnelig konseptet om Turing-testen for over 70 år siden. Hensikten med Turing-testen var å hjelpe til å besvare spørsmålet om maskinintelligens, og bestemme om en maskin var i stand til “tenkning” i menneskelig forstand. For å besvare dette spørsmålet, hevdet Turing at hvis maskiner kunne vise konversasjonsatferd så sofistikert at en menneskelig observatør ikke kunne skille mellom datamaskinens dialog og en menneskelig dialog, burde maskinen regnes som i stand til tenkning.

Turing-testens begrensninger

Prasad hevdet at Turing-testen er begrenset på mange måter, og at Turing selv også kommenterte på noen av disse begrensningene i sin opprinnelige artikkel. Ettersom AI har blitt mer og mer integrert i alle aspekter av våre liv, bryr folk seg mindre om at det er umulig å skille fra et menneske, og mer om at deres interaksjoner med AI er ubrutt, hevder Prasad. Av denne grunn bør Turing-testen regnes som foreldet og erstattes med mer nyttige målestokker.

Prasad noterte at mange tidlige chatboter var designet med tanke på å bestå Turing-testen, og at noen chatboter i de senere år har klart å lure mer enn en tredjedel av menneskelige dommere (kravet for å bestå Turing-testen). Men å kunne etterligne talemodellene til mennesker betyr ikke at en maskin kan regnes som “intelligent”. AI-modeller kan være ekstremt dyktige i ett område og ekstremt mangelfulle i andre, uten noen form for generell intelligens. Likevel forblir Turing-testen en vanlig brukt målestokk for chatboter og digitale assistenter, med Prasad som påpeker at næringslivsledere og journalister stadig spør når Alexa vil være i stand til å bestå Turing-testen.

Ifølge Prasad er ett av de primære problemene med å bruke Turing-testen til å vurdere maskinintelligens at den nesten fullstendig ignorerer maskinens evne til å søke opp informasjon og utføre lynraske beregninger. AI-programmer setter inn kunstige pauser i respons til kompliserte matematikk- og geografi-spørsmål for å lure mennesker, men de har svaret på slike spørsmål nesten umiddelbart. Utenfor dette tar Turing-testen ikke AIens økende evne til å bruke data samlet inn av ytre sensorer med i betraktning, og ignorerer hvordan AI kan samhandle med verden rundt seg gjennom visjon og bevegelsesalgoritmer, og bare baserer seg på tekstkommunikasjon.

Opprettelse av nye målstokker

Prasad hevdet at nye måter å måle intelligens bør opprettes, metoder som er bedre egnet til å vurdere en generell type intelligens. Disse testene bør reflektere hvordan AI faktisk brukes i moderne samfunn og menneskers mål for å bruke det. Testene bør kunne fastslå hvor godt en AI supplere menneskelig intelligens og hvor godt AIen forbedrer menneskers daglige liv. Videre bør en test kunne forstå hvordan en AI manifestere menneskelige intelligens-trekk, inkludert språkferdighet, selvovervåking og “sunne menneskelige instinkter”.

De nåværende og viktige feltene for AI-forskning, som resonnering, rettferdighet, samtale og sanselig forståelse, blir ikke vurdert av Turing-testen, men de kan måles på ulike måter. Prasad forklarte at en måte å måle disse intelligens-trekke på er å bryte utfordringer ned i mindre oppgaver. En annen metode for å vurdere er å opprette en stor skala-verdenlig utfordring for menneske-datamaskin-interaksjon.

Når Amazon opprettet Alexa-prisen, opprettet de en rubrik som krevde at sosiale boter skulle snakke med et menneske i 20 minutter. Botene ville bli vurdert på deres evne til å konversere sammenhengende på en rekke emner som teknologi, idrett, politikk og underholdning. Kunder var ansvarlige for å score botene under utviklingsfasen, og tildelte dem poeng basert på deres ønske om å snakke med boten igjen. Under den endelige runden var uavhengige dommere ansvarlige for å vurdere botene ved hjelp av en 5-punkts skala. Rubrikken som dommerne brukte, baserte seg på metoder som lot AI vise viktige menneskelige egenskaper som empati når det var aktuelt.

Til slutt hevdet Prasad at den økende spredningen av AI-drevne enheter som Alexa representerer en viktig mulighet til å måle fremgangen til AI, men vi vil trenge andre målestokker for å dra nytte av denne nye muligheten.

“Slike AIer må være ekspert i et stort, stadig økende antall oppgaver, noe som bare er mulig med en mer generalisert læringskapasitet i stedet for oppgave-spesifikk intelligens,” forklarte Prasad. ”Derfor, for det neste tiåret og utover, er nyttelsen av AI-tjenester, med deres konversasjonelle og proaktive hjelpeevner på omgivelsesenheter, en verdig test.”

Blogger og programmerer med spesialområder i Machine Learning og Deep Learning emner. Daniel håper å hjelpe andre med å bruke kraften av AI for sosialt godt.