Mākslīgais intelekts

DeepMind: AI var mantot cilvēka kognitīvos ierobežojumus, kas varētu gūt labumu no “formālās izglītības”

Atjaunināts on Decembris 9, 2022

Jaunā DeepMind un Stenfordas universitātes sadarbība liecina, ka mākslīgais intelekts bieži vien nav labāks abstraktā spriešanā nekā cilvēki, jo mašīnmācīšanās modeļi iegūst savu spriešanas arhitektūru no reāliem, cilvēku piemēriem, kas ir balstīti praktiskā kontekstā (ko AI nevar piedzīvot). ), bet tos kavē arī mūsu pašu kognitīvie trūkumi.

Ir pierādīts, ka tas varētu būt šķērslis izcilajai “zilo debesu” domāšanai un intelektuālās izcelšanās kvalitātei, ko daudzi cer uz mašīnmācīšanās sistēmām, un ilustrē to, cik lielā mērā AI atspoguļo cilvēka pieredzi un ir nosliece uz domāšanu (un saprātu). cilvēku robežās, kas to ir informējušas.

Pētnieki norāda, ka mākslīgā intelekta modeļi varētu gūt labumu no iepriekšējas apmācības abstraktā spriešanā, pielīdzinot to "formālajai izglītībai", pirms tie tiek sākti strādāt ar reāliem uzdevumiem.

Darbā teikts:

“Cilvēki ir nepilnīgi prātotāji. Mēs visefektīvāk spriežam par entītijām un situācijām, kas atbilst mūsu izpratnei par pasauli.

"Mūsu eksperimenti liecina, ka valodas modeļi atspoguļo šos uzvedības modeļus. Valodas modeļi nevainojami veic loģiskās spriešanas uzdevumus, taču šī veiktspēja ir atkarīga no satura un konteksta. Īpaši svarīgi ir tas, ka šādi modeļi bieži neizdodas situācijās, kad cilvēkiem neizdodas — kad stimuli kļūst pārāk abstrakti vai konfliktē ar iepriekšēju izpratni par pasauli.

Lai pārbaudītu, cik lielā mērā šādi ierobežojumi varētu ietekmēt GPT līmeņa dabiskās valodas apstrādes (NLP) modeļus, pētnieki veica trīs testu sēriju ar piemērotu modeli, secinot*:

Mēs atklājam, ka vismodernākie lielie valodu modeļi (ar 7 vai 70 miljardiem parametri).

"Mūsu atklājumi ietekmē gan šo kognitīvo efektu, gan faktoru izpratni, kas veicina valodas modeļa veiktspēju."

Rakstā norādīts, ka spriešanas prasmju radīšana AI, nedodot tai labumu no reālās pasaules, ķermeņa pieredzes, kas šīs prasmes iekļauj kontekstā, varētu ierobežot šādu sistēmu potenciālu, ievērojot, ka 'pamatota pieredze..., iespējams, ir dažu cilvēku uzskatu un argumentāciju pamatā'.

Autori uzskata, ka mākslīgais intelekts valodu piedzīvo pasīvi, turpretim cilvēki to izjūt kā aktīvu un centrālu sociālās komunikācijas sastāvdaļu un ka šāda veida aktīva līdzdalība (kas ietver parastās sociālās sodu un atlīdzības sistēmas) varētu būt “atslēga”, lai izprastu jēgu. tāpat kā cilvēki.

Pētnieki novēro:

"Tāpēc dažas atšķirības starp valodas modeļiem un cilvēkiem var rasties no atšķirībām starp bagāto, pamatoto, interaktīvo cilvēku pieredzi un modeļu nabadzīgo pieredzi."

Viņi ierosina, ka viens no risinājumiem varētu būt “pirmsapmācības” periods, līdzīgi kā cilvēkiem ir pieredze skolu un universitāšu sistēmā, pirms apmācības par pamatdatiem, kas galu galā izveidos noderīgu un daudzpusīgu valodas modeli.

Šis “formālās izglītības” periods (kā pētnieki analoģizē) atšķirtos no parastās mašīnmācīšanās priekšapmācības (kas ir metode, kā samazināt apmācības laiku, atkārtoti izmantojot daļēji apmācītus modeļus vai importējot svarus no pilnībā apmācītiem modeļiem, kā “pastiprinātājs”, lai sāktu treniņu procesu).

Tas drīzāk nozīmētu ilgstošas mācīšanās periodu, kas paredzēts, lai tīri abstraktā veidā attīstītu AI loģiskās domāšanas prasmes un attīstītu kritiskās spējas tādā pašā veidā, kā universitātes students tiks mudināts veikt grāda iegūšanas laikā. .

"Vairāki rezultāti," norāda autori, "norāda, ka tas var nebūt tik tālu, kā izklausās."

Jūsu darbs IR Klientu apkalpošana papīrs tiek nosaukts Valodas modeļi parāda cilvēkam līdzīgu satura ietekmi uz argumentāciju, un nāk no sešiem DeepMind pētniekiem, un viens ir saistīts gan ar DeepMind, gan Stenfordas universitāti.

Testi

Cilvēki apgūst abstraktus jēdzienus, izmantojot praktiskus piemērus, izmantojot to pašu “netiešās nozīmes” metodi, kas bieži vien palīdz valodu apguvējiem iegaumēt vārdu krājumu un valodas noteikumus, izmantojot mnemoniku. Vienkāršākais piemērs tam ir neskaidru fizikas principu mācīšana uzburt "ceļošanas scenārijus" vilcieniem un automašīnām.

Lai pārbaudītu hiperskalas valodas modeļa abstraktās spriešanas spējas, pētnieki izstrādāja trīs lingvistisko/semantisko testu kopumu, kas var būt izaicinājums arī cilvēkiem. Testi tika izmantoti "nulles šāvienu" (bez atrisinātiem piemēriem) un "pieci šāvieni" (ar pieciem iepriekš atrisinātiem piemēriem).

Pirmais uzdevums ir saistīts ar dabiskās valodas secinājumu (NLI), kur subjekts (persona vai šajā gadījumā valodas režīms) saņem divus teikumus, “premisu” un “hipotēzi”, kas, šķiet, ir izsecināta no premisas. Piemēram X ir mazāks par Y, hipotēze: Y ir lielāks par X (ar to saistīts).

Dabiskās valodas secinājumu uzdevumam pētnieki novērtēja valodu modeļus šinšilla (70 miljardu parametru modelis) un 7B (tā paša modeļa versija ar 7 miljardiem parametru), konstatējot, ka konsekventiem piemēriem (ti, tiem, kas nebija muļķīgi), tikai lielākais Šinšillas modelis ieguva rezultātus, kas bija augstāki nekā iespēja; un viņi atzīmē:

"Tas norāda uz spēcīgu satura novirzi: modeļi dod priekšroku teikuma pabeigšanai tādā veidā, kas atbilst iepriekšējām cerībām, nevis veidā, kas atbilst loģikas noteikumiem."

Šinšillas 70 miljardu parametru veiktspēja NLI uzdevumā. Pēc pētnieku domām, gan šim modelim, gan tā plānākajai versijai 7B bija “būtisks pārliecības aizspriedums”. Avots: https://arxiv.org/pdf/2207.07051.pdf

Siloģismi

Otrais uzdevums piedāvā sarežģītāku izaicinājumu, siloģismus – argumentus, kur divi patiesi apgalvojumi šķietami nozīmē trešo apgalvojumu (kas var būt vai nebūt loģisks secinājums, kas izriet no iepriekšējiem diviem apgalvojumiem):

No darba pārbaudes materiāla dažādi "reālistiski" un paradoksāli vai bezjēdzīgi siloģismi.

Šeit cilvēki ir ārkārtīgi maldīgi, un konstrukcija, kas izstrādāta, lai parādītu loģisku principu, gandrīz nekavējoties (un, iespējams, uz visiem laikiem) tiek sapinta un sajaukta ar cilvēka "ticību" par to, kāda ir pareizā atbilde. vajadzēja būt.

Autori atzīmē, ka a pētījums no 1983. gada parādīja, ka dalībnieki bija neobjektīvi, vai siloģisma secinājums atbilst viņu pašu uzskatiem, ievērojot:

"Dalībnieki daudz biežāk (90% gadījumu) kļūdaini teica, ka nederīgs siloģisms ir derīgs, ja secinājums bija ticams, un tādējādi lielākoties paļāvās uz pārliecību, nevis abstraktu spriešanu."

Pārbaudot šinšillu pret dažādiem siloģismiem, no kuriem daudzi beidzās ar nepatiesām sekām, pētnieki atklāja, ka "ticības aizspriedumi nosaka gandrīz visus nulles lēmumus". Ja valodas modelis konstatē, ka secinājums neatbilst realitātei, modelis, pēc autoru domām, ir “spēcīgi neobjektīvs”, lai galīgo argumentu pasludinātu par nederīgu, pat ja pēdējais arguments ir iepriekšējo apgalvojumu loģisks rezultāts.

Nulles šāviena rezultāti šinšillai (nulles šāviens ir veids, kā lielākā daļa testa subjektu uztver šos izaicinājumus pēc vadošā noteikuma skaidrojuma), kas ilustrē milzīgo plaisu starp datora skaitļošanas jaudu un NLP modeļa spēju orientēties šāda veida topošajā loģikā. izaicinājums.

Nulles šāviena rezultāti šinšillai (nulles šāviens ir veids, kā lielākā daļa testa subjektu uztver šos izaicinājumus pēc vadošā noteikuma izskaidrošanas), kas ilustrē milzīgo plaisu starp datora skaitļošanas jaudu un NLP modeļa spēju orientēties šāda veida "topošā" loģikas izaicinājums.

Vasona atlases uzdevums

Trešajam pārbaudījumam vēl grūtāks Vasona atlases uzdevums loģikas problēma tika pārformulēta vairākās dažādās iterācijās, lai valodas modelis varētu atrisināt.

Izstrādāts Vasona uzdevums jo 1968, šķiet ļoti vienkāršs: dalībniekiem tiek parādītas četras kārtis un pateikts patvaļīgs noteikums, piemēram, “Ja kartītes vienā pusē ir “D”, tad otrā pusē ir “3”. Uz četrām redzamajām kartīšu virsmām ir “D”, “F”, “3” un “7”.

Pēc tam subjektiem tiek jautāts, kuras kārtis viņiem ir jāapgriež, lai pārbaudītu, vai noteikums ir patiess vai nepatiess.

Pareizais risinājums šajā piemērā ir apgriezt kārtis “D” un “7”. Sākotnējās pārbaudēs tika konstatēts, ka, lai gan lielākā daļa (cilvēku) subjektu pareizi izvēlētos “D”, viņi biežāk izvēlētos “3”, nevis “7”, tādējādi mulsinot kontrapozitīvs noteikuma (“nevis 3 nozīmē, ka nav D”) ar sarunāties ("3" nozīmē "D", kas nav loģiski netiešs).

Autori atzīmē, ka iepriekšēja pārliecība var iejaukties loģiskajā procesā cilvēku priekšmetos, kā arī atzīmē, ka pat akadēmiskie matemātiķi un bakalaura matemātiķi šajā uzdevumā kopumā ieguva mazāk nekā 50%.

Tomēr, ja Vasona uzdevuma shēma kaut kādā veidā atspoguļo cilvēka praktisko pieredzi, sniegums tradicionāli attiecīgi palielinās.

Autori, atsaucoties uz iepriekšējiem eksperimentiem, atzīmē:

“[Ja] kartītēs ir norādīts vecums un dzērieni, un noteikums ir “ja viņi lieto alkoholu, tad viņiem ir jābūt vismaz 21 gadus vecam” un tiek rādītas kartītes ar “alus”, “soda”, “25”, “16”, lielākā daļa dalībnieku pareizi izvēlas pārbaudīt kartītes, kurās redzams “alus” un “16”.

Lai pārbaudītu valodas modeļa veiktspēju Vāsona uzdevumos, pētnieki izveidoja dažādus reālistiskus un patvaļīgus noteikumus, dažos no kuriem bija “muļķīgi” vārdi, lai noskaidrotu, vai mākslīgais intelekts spēj iekļūt satura kontekstā, lai noteiktu, kuras “virtuālās kartes” apgāzt.

Dažas no daudzajām Vasona atlases uzdevumu mīklām, kas tika prezentētas testos.

Vasona testos modelis veica salīdzināmu rezultātu ar cilvēkiem, veicot “reālistiskus” (nevis muļķīgus) uzdevumus.

Nulles šāviena Wason atlases uzdevuma rezultāti šinšillai, un modeļa veiktspēja ievērojami pārsniedz iespēju, vismaz attiecībā uz “reālistiskajiem” noteikumiem.

Papīrs komentē:

"Tas atspoguļo atklājumus cilvēku literatūrā: cilvēki daudz precīzāk atbild uz Vasona uzdevumu, ja tas ir formulēts reālistisku situāciju izteiksmē, nekā patvaļīgi noteikumi par abstraktiem atribūtiem."

Formālā izglītība

Raksta atklājumi nosaka hipermēroga NLP sistēmu spriešanas potenciālu mūsu pašu ierobežojumu kontekstā, kurus mēs, šķiet, pārejam uz modeļiem, izmantojot uzkrātās reālās pasaules datu kopas, kas tos nodrošina. Tā kā lielākā daļa no mums nav ģēniji, tādi nav arī modeļi, kuru parametrus nosaka mēs paši.

Turklāt jaunais darbs secina, ka mums vismaz ir priekšrocības, ko sniedz ilgstošs veidojošās izglītības periods un papildu sociālā, finansiālā un pat seksuālā motivācija, kas veido cilvēka imperatīvu. Viss, ko var iegūt NLP modeļi, ir šo vides faktoru izrietošās darbības, un šķiet, ka tās atbilst vispārīgajam, nevis ārkārtējam cilvēkam.

Autori norāda:

"Mūsu rezultāti liecina, ka satura efekti var rasties, vienkārši apmācot lielu transformatoru, lai atdarinātu valodu, ko rada cilvēka kultūra, neiekļaujot šos cilvēkiem raksturīgos iekšējos mehānismus.

Citiem vārdiem sakot, gan valodas modeļi, gan cilvēki nonāk pie šīm satura novirzēm, taču šķietami ļoti atšķirīgas arhitektūras, pieredzes un apmācības mērķu dēļ.

Tādējādi viņi ierosina sava veida "ievadīšanas apmācību" tīrā spriešanā, kas ir bijis parādīts uzlabot modeļa veiktspēju matemātikas un vispārējās argumentācijas jomā. Viņi arī atzīmē, ka valodu modeļi ir arī apmācīti vai pielāgoti lai labāk ievērotu norādījumus abstraktā vai vispārinātā līmenī, un uz pārbaudīt, labot vai novirzīt savu produkciju.

* Mana iekļauto citātu pārvēršana par hipersaitēm.

Pirmo reizi publicēts 15. gada 2022. jūlijā.

Nākošais

Pētnieki identificē dziļo viltojumu noturīgu iezīmi, kas varētu palīdzēt ilgtermiņa noteikšanā

Nepalaidiet garām

AI vadīts neobjektivitātes pārbaudītājs ziņu rakstiem, pieejams Python

Mārtiņš Andersons

Rakstnieks par mašīnmācību, mākslīgo intelektu un lielajiem datiem.
Personīgā vietne: Martinanderson.ai
Sazinieties ar: [e-pasts aizsargāts]
Twitter: @manders_ai