Spojte se s námi

Umělá inteligence

DeepMind: AI může zdědit lidská kognitivní omezení, mohla by těžit z „formálního vzdělávání“

mm

Nová spolupráce DeepMind a Stanfordské univerzity naznačuje, že AI nemusí být často o nic lepší v abstraktním uvažování než lidé, protože modely strojového učení získávají svou architekturu uvažování z reálných, lidských příkladů, které jsou založeny na praktickém kontextu (který AI nemůže zažít. ), ale také nám brání naše vlastní kognitivní nedostatky.

Prokázané je, že by to mohlo představovat překážku pro nadprůměrné myšlení a kvalitu intelektuální tvorby, v kterou mnozí doufají od systémů strojového učení, a ilustruje, do jaké míry umělá inteligence odráží lidské zkušenosti a je náchylná k přemýšlení (a uvažování) v rámci lidských hranic, které ji formovaly.

Výzkumníci naznačují, že modely umělé inteligence by mohly těžit z předběžného školení v abstraktním uvažování, které by se přirovnalo k „formálnímu vzdělávání“, než by mohly být nastaveny na práci s reálnými úkoly.

Článek uvádí:

"Lidé jsou nedokonalí rozumní lidé." Nejefektivněji uvažujeme o entitách a situacích, které jsou v souladu s naším chápáním světa.

„Naše experimenty ukazují, že jazykové modely tyto vzorce chování odrážejí. Jazykové modely nefungují dokonale v úlohách logického uvažování, ale tento výkon závisí na obsahu a kontextu. Nejvíce takové modely selhávají v situacích, kde selhávají lidé – když se podněty stanou příliš abstraktními nebo jsou v rozporu s předchozím chápáním světa.“

Aby vědci otestovali, do jaké míry mohou být těmito omezeními ovlivněny modely zpracování přirozeného jazyka na úrovni GPT (NLP), provedli vědci sérii tří testů na vhodném modelu, se závěrem*:

„Zjistili jsme, že nejmodernější modely velkých jazyků (se 7 nebo 70 miliardami Parametry) odrážejí mnoho stejných vzorců pozorovaných u lidí napříč těmito úkoly – stejně jako lidé, modely uvažují efektivněji o uvěřitelných situacích než o nerealistických nebo abstraktních.

„Naše zjištění mají důsledky pro pochopení jak těchto kognitivních efektů, tak faktorů, které přispívají k výkonu jazykového modelu.“

Článek naznačuje, že vytváření rozumových dovedností v AI, aniž by jí bylo poskytnuto užitek z reálného světa, tělesné zkušenosti, která dává takové dovednosti do kontextu, by mohlo omezit potenciál takových systémů. „uzemněná zkušenost…pravděpodobně je základem některých lidských přesvědčení a uvažování“.

Autoři předpokládají, že umělá inteligence vnímá jazyk pasivně, zatímco lidé jej vnímají jako aktivní a ústřední složku sociální komunikace, a že tento druh aktivní účasti (která s sebou nese konvenční sociální systémy trestů a odměn) by mohl být „klíčem“ k pochopení významu stejným způsobem jako lidé.

Výzkumníci pozorují:

„Některé rozdíly mezi jazykovými modely a lidmi proto mohou pramenit z rozdílů mezi bohatou, uzemněnou a interaktivní zkušeností lidí a chudou zkušeností modelů.“

Navrhují, že jedním z řešení by mohlo být období „předškolení“, podobného tomu, jaké lidé zažívají ve školním a univerzitním systému, před školením na základních datech, která nakonec vybudují užitečný a všestranný jazykový model.

Toto období „formálního vzdělávání“ (jak to vědci analogizují) by se lišilo od konvenčního předtrénování strojového učení (což je metoda zkrácení doby trénování opětovným použitím částečně trénovaných modelů nebo importem vah z plně trénovaných modelů jako „posilovače“ pro nastartování tréninkového procesu).

Spíše by to představovalo období soustavného učení, jehož cílem je rozvíjet logické uvažování umělé inteligence čistě abstraktním způsobem a rozvíjet kritické schopnosti podobným způsobem, jakým je vysokoškolský student veden v průběhu svého studia.

„Několik výsledků,“ uvádějí autoři, „naznačuje, že to nemusí být tak přitažené za vlasy, jak se zdá.“

Jedno papír je s názvem Jazykové modely ukazují účinky obsahu na uvažování jako u lidía pochází od šesti výzkumníků z DeepMind a jednoho přidruženého k DeepMind i Stanfordské univerzitě.

Zkoušky

Lidé se učí abstraktní pojmy prostřednictvím praktických příkladů, podobně jako metodou „implicitní důležitosti“, která často pomáhá studentům jazyků zapamatovat si slovní zásobu a jazyková pravidla, a to pomocí mnemotechnických pomůcek. Nejjednodušším příkladem je výuka složitých principů ve fyzice pomocí mnemotechnických pomůcek. vymýšlení „cestovních scénářů“ pro vlaky a auta.

Pro otestování schopností abstraktního uvažování v hyperškálovém jazykovém modelu vědci navrhli sadu tří lingvistických/sémantických testů, které mohou být náročné i pro lidi. Testy byly aplikovány „nulovým pokusem“ (bez jakýchkoli vyřešených příkladů) a „pěti pokusy“ (s pěti předchozími vyřešenými příklady).

První úkol se týká inference z přirozeného jazyka (NLI), kde subjekt (osoba nebo v tomto případě jazykový modus) obdrží dvě věty, „premisu“ a „hypotézu“, která se zdá být odvozena z premisy. Například X je menší než Y, hypotéza: Y je větší než X (s tím souvisí).

Pro úlohu odvození přirozeného jazyka výzkumníci vyhodnotili jazykové modely Činčila (model se 70 miliardami parametrů) a 7B (verze stejného modelu se 7 miliardami parametrů), přičemž zjistili, že pro konzistentní příklady (tj. ty, které nebyly nesmyslné), pouze větší model činčily získal výsledky vyšší než pouhá náhoda; a poznamenávají:

„To naznačuje silnou obsahovou zkreslenost: modely dávají přednost dokončení věty způsobem, který je v souladu s předchozími očekáváními, spíše než způsobem, který je v souladu s pravidly logiky.“

Výkon 70 miliard parametrů činčily v úloze NLI. Jak tento model, tak jeho štíhlejší verze 7B podle výzkumníků vykazovaly „podstatné zkreslení přesvědčení“.

Činčila dosáhla v úloze NLI výkonu 70 miliard parametrů. Podle výzkumníků jak tento model, tak i jeho štíhlejší verze 7B vykazovaly „značné zkreslení přesvědčení“. Zdroj: https://arxiv.org/pdf/2207.07051.pdf

Sylogismy

Druhý úkol představuje složitější výzvu, sylogismy – argumenty, kde dvě pravdivá tvrzení zjevně implikují třetí tvrzení (což může, ale nemusí být logický závěr odvozený z předchozích dvou tvrzení):

Z testovacího materiálu článku, různé „realistické“ a paradoxní nebo nesmyslné sylogismy.

Zde jsou lidé nesmírně omylní a konstrukt určený k ilustraci logického principu se téměř okamžitě (a možná i trvale) zaplete a zmate lidskou „vírou“ v to, jaká je správná odpověď. měl být.

Autoři poznamenávají, že a studie z roku 1983 prokázali, že účastníci byli zaujatí tím, zda závěr sylogismu odpovídá jejich vlastním přesvědčením, přičemž pozorovali:

„Účastníci mnohem častěji (v 90 % případů) mylně prohlásili neplatný sylogismus za platný, pokud byl závěr věrohodný, a proto se většinou spoléhali spíše na přesvědčení než na abstraktní uvažování.“

Při testování činčily proti kolu různých sylogismů, z nichž mnohé byly zakončeny falešnými důsledky, vědci zjistili, že „Téměř všechna rozhodnutí s nulovou šancí jsou řízena zkreslením přesvědčení“Pokud jazykový model shledá závěr v rozporu s realitou, autoři uvádějí, že je „silně zaujatý“ směrem k prohlášení posledního argumentu za neplatný, a to i v případě, že poslední argument je logickým důsledkem předchozích tvrzení.

Výsledky nulového výstřelu pro Činčilu (nulový výstřel je způsob, jakým by většina testovaných subjektů obdržela tyto výzvy, po vysvětlení hlavního pravidla), ilustrující obrovskou propast mezi výpočetní kapacitou počítače a schopností modelu NLP procházet tímto druhem rodící se logiky. výzva.

Výsledky nulového pokusu o činčilu (nulový pokus je způsob, jakým by většina testovaných subjektů tyto výzvy přijala po vysvětlení základního pravidla), ilustrují obrovský rozdíl mezi výpočetní kapacitou počítače a schopností modelu NLP orientovat se v tomto druhu výzvy „rodící se logiky“.

Úkol výběru Wason

U třetího testu ještě náročnější Úkol výběru Wason logický problém byl přeformulován do řady různých iterací, které měl jazykový model vyřešit.

Wasonův úkol, vymyšlený v 1968, je zdánlivě velmi jednoduchý: účastníkům jsou ukázány čtyři karty a je jim řečeno libovolné pravidlo, například „Pokud má karta na jedné straně „D“, pak má na druhé straně „3“. Čtyři viditelné strany karty ukazují „D“, „F“, „3“ a „7“.

Subjekty jsou poté dotázány, které karty musí otočit, aby ověřily, zda je pravidlo pravdivé nebo nepravdivé.

Správným řešením v tomto příkladu je otočit karty „D“ a „7“. V raných testech se zjistilo, že ačkoli většina (lidských) subjektů by správně vybrala „D“, s větší pravděpodobností si vybrali „3“ než „7“, což by mohlo způsobit zmatek. kontrapozitivní pravidla („ne 3 znamená ne D“) s konverzovat („3“ implikuje „D“, což logicky nevyplývá).

Autoři poznamenávají, že potenciál předchozí víry zasahovat do logického procesu u lidských subjektů, a dále poznamenávají, že dokonce i akademičtí matematici a vysokoškolští matematici obecně dosáhli v tomto úkolu méně než 50 %.

Když však schéma Wasonova úkolu nějakým způsobem odráží lidskou praktickou zkušenost, výkon tradičně podle toho stoupá.

Autoři pozorují s odkazem na dřívější experimenty:

„[Pokud] karty ukazují věk a počet nápojů a pravidlo zní ‚pokud pijí alkohol, musí jim být 21 let nebo více‘ a jsou jim ukázány karty s nápisy ‚pivo‘, ‚limonáda‘, ‚25‘, ‚16‘, drtivá většina účastníků se správně rozhodne zaškrtnout karty s nápisy ‚pivo‘ a ‚16‘.“

Pro testování výkonnosti jazykového modelu v úlohách Wason vědci vytvořili různá realistická a libovolná pravidla, z nichž některá obsahovala „nesmyslná“ slova, aby zjistili, zda umělá inteligence dokáže proniknout kontextem obsahu a uhodnout, které „virtuální karty“ má otočit.

Některé z mnoha hádanek Wason Selection Task prezentovaných v testech.

Některé z mnoha hádanek Wason Selection Task prezentovaných v testech.

V Wasonových testech si model vedl srovnatelně s lidmi u „realistických“ (nikoliv nesmyslných) úkolů.

Výsledek úkolu výběru Wasona s nulovým záběrem pro Činčilu, s modelem, který se choval výrazně nad náhodou, alespoň pro „realistická“ pravidla.

Výsledky úlohy výběru Wasona s nulovým počtem pokusů pro činčilu, přičemž model si vedl výrazně nad úrovní náhody, alespoň pro „realistická“ pravidla.

List komentuje:

„To odráží zjištění v literatuře o lidech: lidé jsou mnohem přesnější v řešení Wasonova úkolu, když je formulován z hlediska realistických situací než libovolných pravidel o abstraktních atributech.“

Formální vzdělání

Zjištění článku rámují potenciál hyperškálovaných NLP systémů pro uvažování v kontextu našich vlastních omezení, která, jak se zdá, přenášíme do modelů prostřednictvím nashromážděných datových sad z reálného světa, které je pohánějí. Vzhledem k tomu, že většina z nás není géniové, nejsou géniové ani modely, jejichž parametry jsou formovány našimi vlastními.

Kromě toho nová práce uzavírá, že máme alespoň výhodu trvalého období formativního vzdělávání a dalších sociálních, finančních a dokonce sexuálních motivací, které tvoří lidský imperativ. Vše, co modely NLP mohou získat, jsou výsledné akce těchto faktorů prostředí a zdá se, že jsou v souladu s obecným spíše než s výjimečným člověkem.

Autoři uvádějí:

„Naše výsledky ukazují, že efekty obsahu se mohou objevit z pouhého trénování velkého transformátoru k napodobování jazyka produkovaného lidskou kulturou, aniž by byly začleněny tyto lidské specifické vnitřní mechanismy.

„Jinými slovy, jazykové modely i lidé k těmto obsahovým zkreslením dospívají – ale ze zdánlivě velmi odlišných architektur, zkušeností a cílů školení.“

Navrhují tedy jakýsi „úvodní trénink“ v čistém uvažování, který má bylo ukáže zlepšit výkon modelu pro matematiku a obecné uvažování. Dále poznamenávají, že jazykové modely byly také trénovány nebo vyladěny abyste se lépe řídili pokyny na abstraktní nebo zobecněné úrovni a na ověřit, opravit nebo zpochybnit jejich vlastní výstup.

 

* Můj převod inline citací na hypertextové odkazy.

Poprvé publikováno 15. července 2022.