Connect with us

Jak LLMs nutí nás předefinovat inteligenci

Umělá inteligence

Jak LLMs nutí nás předefinovat inteligenci

mm

Existuje staré přísloví: Pokud to vypadá jako kachna, plavá jako kachna a kváká jako kachna, pak to pravděpodobně je kachna. Tento jednoduchý způsob uvažování, často spojovaný s indianským básníkem Jamesem Whitcombem Rileyem, formoval naše myšlení o umělých inteligencích po desetiletí. Nápad, že chování stačí k identifikaci inteligence, inspiroval Alana Turinga ke slavné “Imitační hře”, nyní nazývané Turingův test.

Turing navrhl, že pokud člověk nemůže rozlišit, zda komunikuje se strojem nebo s jiným člověkem, pak lze stroj považovat za inteligentní. Oba testy kachny a Turingův test naznačují, že důležité není to, co je uvnitř systému, ale jak se chová. Po desetiletí tento test vedl pokroky v oblasti AI. Ale s příchodem velkých jazykových modelů (LLM) se situace změnila. Tyto systémy mohou psát plynulý text, vést konverzace a řešit úkoly způsobem, který se zdá pozoruhodně lidský. Otázka již není, zda stroje mohou napodobovat lidskou konverzaci, ale zda tato imitace je skutečná inteligence. Pokud může systém psát jako my, uvažovat jako my a dokonce tvořit jako my, měli bychom ho nazvat inteligentním? Nebo zda chování samo o sobě již nestačí k měření inteligence?

Evolve strojové inteligence

Velké jazykové modely změnily, jak přemýšlíme o AI. Tyto systémy, dříve omezené na generování základních textových odpovědí, mohou nyní řešit logické problémy, psát počítačový kód, vytvářet příběhy a dokonce asistovat při tvůrčích úkolech, jako je psaní scénářů. Jedním z klíčových vývojů v tomto pokroku je jejich schopnost řešit složité problémy pomocí krok za krokem uvažování, metody nazývané Chain-of-thought uvažování. Rozdělením problému na menší části může LLM řešit složité matematické problémy nebo logické hádanky způsobem, který se podobá lidskému řešení problémů. Tato schopnost jim umožnila dosáhnout nebo dokonce překonat lidské výkony v pokročilých testech, jako je MATH nebo GSM8K. Dnes LLM také disponují multimodálními schopnostmi. Mohou pracovat s obrázky, interpretovat lékařské snímky, vysvětlovat vizuální hádanky a popisovat složité diagramy. S těmito pokroky je otázkou již není, zda LLM mohou napodobovat lidské chování, ale zda toto chování odráží skutečné porozumění.

Stopy lidského myšlení

Úspěch LLM je předefinuje, jak rozumíme inteligenci. Zaměření se přesouvá z přizpůsobení chování AI lidem, jak navrhoval Turingův test, k prozkoumání, jak úzce LLM odrážejí lidské myšlení v tom, jak zpracovávají informace (tj. skutečné lidské myšlení). Například v nedávné studii výzkumníci srovnávali vnitřní fungování AI modelů s lidskou mozkovou aktivitou. Studie zjistila, že LLM s více než 70 miliardami parametrů nejen dosáhly lidské přesnosti, ale také organizovaly informace vnitřně způsobem, který odpovídal lidským mozkovým vzorcům.

Když lidé i AI modely pracovali na úkolech rozpoznávání vzorců, mozkové snímky ukázaly podobné aktivity u lidských účastníků a odpovídající výpočetní vzorce v AI modelech. Modely seskupovaly abstraktní koncepty ve svých vnitřních vrstvách způsobem, který přímo odpovídal lidské mozkové aktivitě. To naznačuje, že úspěšné uvažování může vyžadovat podobné organizační struktury, ať už v biologických nebo umělých systémech.

Výzkumníci jsou však opatrní a zdůrazňují omezení této práce. Studie zahrnovala relativně malé množství lidských účastníků a lidé a stroje se lišili ve svém přístupu k úkolu. Lidé pracovali s vizuálními vzorci, zatímco AI modely zpracovávaly textové popisy. Korelace mezi lidským a strojovým zpracováním je fascinující, ale neprokazuje, že stroje chápou koncepty stejným způsobem jako lidé.

Existují také zřejmé rozdíly ve výkonu. Zatímco nejlepší AI modely dosáhly lidské přesnosti u jednoduchých vzorců, ukázaly dramatické poklesy ve výkonu u nejsložitějších úkolů ve srovnání s lidskými účastníky. To naznačuje, že navzdory podobnostem v organizaci mohou existovat fundamentální rozdíly v tom, jak lidé a stroje zpracovávají obtížné abstraktní koncepty.

Skeptický pohled

Navzdory těmto působivým zjištěním existuje silný argument, že LLM jsou pouze velmi zruční napodobitelé. Tento názor pochází z Johna Searleova myšlenkového experimentu “čínská místnost“, který ilustruje, proč chování nemusí být rovnocenné s porozuměním.

V tomto myšlenkovém experimentu Searle žádá, abychom si představili osobu uzamčenou v místnosti, která mluví pouze anglicky. Osoba dostává čínské symboly a používá anglickou příručku, aby manipulovala těmito symboly a produkovala odpovědi. Z venku místnosti vypadají její odpovědi přesně jako odpovědi rodilého čínského mluvčího. Searle však argumentuje, že osoba nic nerozumí čínštině. Pouze následuje pravidla bez skutečného porozumění.

Kritici aplikují stejnou logiku na LLM. Argumentují, že tyto systémy jsou “stochastickými papoušky“, které generují odpovědi na základě statistických vzorců ve svých trénovacích datech, nikoli na základě skutečného porozumění. Termín “stochastický” odkazuje na jejich pravděpodobnostní povahu, zatímco “papoušek” zdůrazňuje jejich napodobovací chování bez skutečného porozumění.

Několik technických omezení LLM také podporuje tento argument. LLM často generují “halucinace“; odpovědi, které vypadají přesvědčivě, ale jsou zcela nesprávné, zavádějící a nesmyslné. To se stává, protože vybírají statisticky pravděpodobná slova, nikoli konzultují vnitřní znalostní bázi nebo nerozumí pravdě a nepravdě. Tyto modely také reprodukují lidské chyby a předpojatosti. Zmatou se irelevantními informacemi, které lidé snadno ignorují. Výrazně projevují rasové a genderové stereotypy, protože se učily z dat, která obsahovala tyto předpojatosti. Další zjevné omezení je “pozicionální předpojatost”, kdy modely přehánějí informace na začátku nebo konci dlouhých dokumentů a zanedbávají střední obsah. Tento “ztracený uprostřed” jev naznačuje, že tyto systémy zpracovávají informace velmi odlišně od lidí, kteří mohou udržet pozornost napříč celými dokumenty.

Tyto omezení zdůrazňují centrální výzvu: zatímco LLM vynikají v rozpoznávání a reprodukci jazykových vzorců, toto ještě neznamená, že skutečně rozumí významu nebo reálnému kontextu. Daří se jim zvládat syntaxi, ale zůstávají omezené, pokud jde o sémantiku.

Co se počítá jako inteligence?

Debata nakonec spočívá v tom, jak definujeme inteligenci. Pokud inteligence znamená schopnost generovat srozumitelný jazyk, řešit problémy a přizpůsobit se novým situacím, pak LLM již splňují tento standard. Pokud však inteligence vyžaduje sebeuvědomění, skutečné porozumění nebo subjektivní zkušenost, tyto systémy stále zaostávají.

Obtíž spočívá v tom, že postrádáme jasný nebo objektivní způsob, jak měřit kvality, jako je porozumění nebo vědomí. U lidí i strojů je inferujeme z chování. Test kachny a Turingův test dříve poskytovaly elegantní odpovědi, ale v éře LLM již možná nejsou dostatečné. Jejich schopnosti nás nutí přehodnotit, co skutečně znamená inteligence, a zda naše tradiční definice držely krok s technologickou realitou.

Závěr

Velké jazykové modely zpochybňují, jak definujeme umělou inteligenci. Mohou napodobovat uvažování, generovat nápady a plnit úkoly, které byly dříve považovány za výlučně lidské. Přesto jim chybí vědomí a zakotvení, které formují skutečné lidské myšlení. Jejich vzestup nás nutí klást otázky, zda stroje jednají inteligentně, ale také, co inteligence sama o sobě skutečně znamená.

Dr. Tehseen Zia je docent s trvalým úvazkem na COMSATS University Islamabad, držitel titulu PhD v oblasti AI z Vienna University of Technology, Rakousko. Specializuje se na umělou inteligenci, strojové učení, datové vědy a počítačové vidění, a významně přispěl publikacemi v renomovaných vědeckých časopisech. Dr. Tehseen také vedl různé průmyslové projekty jako hlavní výzkumník a působil jako konzultant pro umělou inteligenci.