Umělá obecná inteligence
Spojování bodů: Odhalení údajného modelu Q-Star od OpenAI

V poslední době se v komunitě umělé inteligence objevily značné spekulace ohledně údajného projektu Q-star od OpenAI. Navzdory omezeným informacím dostupným o této záhadné iniciativě se říká, že představuje významný krok k dosažení obecné umělé inteligence – úrovně inteligence, která buď odpovídá lidským schopnostem, nebo je překračuje. Zatímco se velká část diskusí zaměřovala na potenciální negativní důsledky tohoto vývoje pro lidstvo, bylo vynaloženo relativně málo úsilí na odhalení podstaty Q-star a potenciálních technologických výhod, které může přinést. V tomto článku zvolím průzkumný přístup a pokusím se tento projekt rozluštit především od jeho názvu, který podle mého názoru poskytuje dostatek informací k získání nových poznatků o něm.
Pozadí záhady
Všechno to začalo, když se náhle rada guvernérů OpenAI sesadil Sam Altman, generální ředitel a spoluzakladatel. Ačkoli byl Altman později znovu jmenován, otázky ohledně událostí přetrvávají. Někteří to vnímají jako boj o moc, zatímco jiní to připisují Altmanovu zaměření na jiné podniky, jako je Worldcoin. Děj se však zamotává, když agentura Reuters informuje, že hlavním důvodem dramatu by mohl být tajný projekt s názvem Q-star. Podle agentury Reuters představuje Q-Star významný krok k dosažení cíle OpenAI v oblasti obecné umělé inteligence, což je problém, který správní radě sdělili pracovníci OpenAI. Objevení této zprávy vyvolalo záplavu spekulací a obav.
Stavební kameny puzzle
V této části jsem představil některé stavební kameny, které nám pomohou tuto záhadu rozluštit.
- Q Learning: Posílení učení je typ strojového učení, kde se počítače učí interakcí s prostředím a přijímají zpětnou vazbu ve formě odměn nebo penalizací. Q-učení je specifická metoda v rámci posilovacího učení, která pomáhá počítačům činit rozhodnutí tím, že se učí kvalitu (Q-hodnotu) různých akcí v různých situacích. Je široce používáno ve scénářích, jako jsou hraní her a robotika, kde umožňuje počítačům naučit se optimální rozhodování procesem pokus-omyl.
- Vyhledávání hvězd: A-star je vyhledávací algoritmus, který pomáhá počítačům prozkoumat možnosti a najít nejlepší řešení k vyřešení problému. Algoritmus je zvláště pozoruhodný svou účinností při hledání nejkratší cesty od výchozího bodu k cíli v grafu nebo mřížce. Jeho klíčová síla spočívá v chytrém zvážení nákladů na dosažení uzlu oproti odhadovaným nákladům na dosažení celkového cíle. V důsledku toho je A-star široce používán při řešení problémů souvisejících s hledáním cest a optimalizací.
- AlphaZero: Alpha Zero, pokročilý systém AI od DeepMind, kombinuje Q-učení a vyhledávání (tj. Monte Carlo Tree Search) pro strategické plánování v deskových hrách, jako jsou šachy a Go. Učí se optimální strategie prostřednictvím vlastní hry, vedené neuronovou sítí pro vyhodnocování tahů a pozic. Algoritmus Monte Carlo Tree Search (MCTS) vyvažuje průzkum a využití při zkoumání herních možností. Iterativní proces vlastní hry, učení a vyhledávání AlphaZero vede k neustálému zlepšování, umožňuje nadlidský výkon a vítězství nad lidskými šampiony, což demonstruje jeho efektivitu ve strategickém plánování a řešení problémů.
- Jazykové modely: Velké jazykové modely (LLMs), jako GPT-3, jsou formou umělé inteligence navrženou pro porozumění a generování lidského textu. Procházejí školením o rozsáhlých a různorodých internetových datech, které pokrývají široké spektrum témat a stylů psaní. Význačným rysem LLM je jejich schopnost předpovídat další slovo v sekvenci, známé jako jazykové modelování. Cílem je předat porozumění tomu, jak se slova a fráze propojují, a umožnit tak modelu vytvářet koherentní a kontextově relevantní text. Díky rozsáhlému školení jsou LLM zdatní v porozumění gramatice, sémantice a dokonce i nuancím aspektů používání jazyka. Po proškolení lze tyto jazykové modely vyladit pro konkrétní úkoly nebo aplikace, což z nich činí univerzální nástroje zpracování přirozeného jazyka, chatboty, generování obsahu a další.
- Umělá obecná inteligence: Umělá obecná inteligence (AGI) je typ umělé inteligence se schopností chápat, učit se a provádět úkoly v různých oblastech na úrovni, která odpovídá nebo překračuje lidské kognitivní schopnosti. Na rozdíl od úzké nebo specializované AI má AGI schopnost autonomně se přizpůsobovat, uvažovat a učit se, aniž by byla omezena na konkrétní úkoly. AGI umožňuje systémům AI předvést nezávislé rozhodování, řešení problémů a kreativní myšlení, které odráží lidskou inteligenci. AGI v podstatě ztělesňuje myšlenku stroje schopného vykonávat jakýkoli intelektuální úkol prováděný lidmi, přičemž zdůrazňuje všestrannost a přizpůsobivost v různých oblastech.
Klíčová omezení LLM při dosahování AGI
Velké jazykové modely (LLM) mají omezení při dosahování umělé obecné inteligence (AGI). I když jsou zběhlí ve zpracování a generování textu na základě naučených vzorů z rozsáhlých dat, mají problém porozumět skutečnému světu, což brání efektivnímu využití znalostí. AGI vyžaduje zdravý rozum uvažování a schopnosti plánování pro řešení každodenních situací, což LLM považují za náročné. Přestože produkují zdánlivě správné odpovědi, postrádají schopnost systematicky řešit složité problémy, například matematické.
Nové studie naznačují, že LLM (Managementy pro lidský život) dokáží napodobit jakýkoli výpočet podobně jako univerzální počítač, ale jsou omezeny potřebou rozsáhlé externí paměti. Zvyšování objemu dat je pro zlepšení LLM klíčové, ale na rozdíl od energeticky úsporného lidského mozku vyžaduje značné výpočetní zdroje a energii. To představuje výzvy pro široké zpřístupnění a škálovatelnost LLM pro AGI. Nedávný výzkum naznačuje, že pouhé přidání dalších dat ne vždy zlepší výkon, což vyvolává otázku, na co dalšího se na cestě k AGI zaměřit.
Connecting Dots
Mnoho odborníků na umělou inteligenci se domnívá, že problémy s velkými jazykovými modely (LLM) pocházejí z jejich hlavního zaměření na předpovídání dalšího slova. To omezuje jejich chápání jazykových nuancí, uvažování a plánování. Aby se s tím výzkumníci vypořádali, rádi Yann LeCun doporučuji vyzkoušet různé tréninkové metody. Navrhují, aby LLM aktivně plánovaly předvídání slov, nejen dalšího tokenu.
Myšlenka „Q-star“, podobná strategii AlphaZero, může zahrnovat instrukce pro LLM, aby aktivně plánovali predikci tokenů, nikoli pouze predikci dalšího slova. To vnáší do jazykového modelu strukturované uvažování a plánování a jde nad rámec obvyklého zaměření na predikci dalšího tokenu. Pomocí plánovacích strategií inspirovaných AlphaZero mohou LLM lépe porozumět jazykovým nuancím, zlepšit uvažování a vylepšit plánování, čímž řeší omezení běžných metod trénování LLM.
Taková integrace vytváří flexibilní rámec pro reprezentaci a manipulaci se znalostmi a pomáhá systému přizpůsobit se novým informacím a úkolům. Tato přizpůsobivost může být zásadní pro umělou obecnou inteligenci (AGI), která potřebuje zvládnout různé úkoly a domény s různými požadavky.
AGI potřebuje selský rozum a školení LLM v uvažování jim může poskytnout komplexní pochopení světa. Školení LLM, jako je AlphaZero, jim také může pomoci naučit se abstraktní znalosti, zlepšit transferové učení a zobecnění v různých situacích, což přispívá k silné výkonnosti AGI.
Kromě názvu projektu tuto myšlenku podporuje i zpráva agentury Reuters, která zdůrazňuje schopnost Q-star úspěšně řešit specifické matematické a logické problémy.
Bottom Line
Q-Star, tajný projekt OpenAI, dělá v oblasti umělé inteligence velký rozruch a usiluje o inteligenci nad rámec lidské. Uprostřed diskusí o jeho potenciálních rizicích se tento článek ponořuje do skládačky a propojuje body od Q-learningu s AlphaZero a modely velkých jazyků (LLM).
Myslíme si, že „Q-star“ znamená chytrou fúzi učení a hledání, což LLM poskytuje podporu v plánování a uvažování. S prohlášením agentury Reuters, že se dokáže vypořádat se složitými matematickými a uvažovacími problémy, to naznačuje velký pokrok. To vyžaduje, abychom se blíže podívali na to, kam by se učení AI mohlo v budoucnu ubírat.