Spojte se s námi

Umělá obecná inteligence

Další zákon škálování umělé inteligence: Ne více dat, ale lepší modely světa

mm

Po léta se odvětví umělé inteligence řídilo jednoduchým, krutým pravidlem: větší je lepší. Trénovali jsme modely na masivních datových sadách, zvyšovali počet parametrů a na problém jsme vrhli obrovský výpočetní výkon. Tento vzorec fungoval po většinu času. Od GPT-3 po GPT-4 a od primitivních chatbotů po logické enginy, „zákon škálování„naznačoval, že kdybychom stroji neustále dodávali více textu, nakonec by se stal inteligentním.“

Ale teď jsme narážení do zdiInternet je omezený. Vysoce kvalitní veřejná data se vyčerpávají a výnosy z pouhého zvětšování modelů jsou... klesajícíPřední výzkumníci v oblasti umělé inteligence argumentovat že další velký skok v oblasti umělé inteligence nepřijde jen z přečtení většího množství textu. Přijde z pochopení reality, která se za textem skrývá. Toto přesvědčení signalizuje zásadní posun v zaměření umělé inteligence a uvádí éru světového modelu.

Limity predikce dalšího tokenu

Abychom pochopili, proč potřebujeme nový přístup, musíme se nejprve podívat na to, co současné systémy umělé inteligence skutečně dělají. Navzdory svým působivým schopnostem jsou modely jako ChatGPT nebo Claude v zásadě statistické nástrojePředpovídají další slovo v posloupnosti na základě pravděpodobnosti toho, co se stalo předtím. Nechápou, že upuštěná sklenice se rozbije; jednoduše vědí, že v milionech příběhů slovo „rozbít“ často následuje po frázi „upuštěná sklenice“.

Tento přístup, známý jako autoregresní modelování, má zásadní vadu. Spoléhá se výhradně na korelaci, nikoli na kauzalitu. Pokud trénujete LLM na tisíci popisech autonehody, naučí se jazyk nehod. Nikdy se však nenaučí fyziku hybnosti, tření nebo křehkosti. Je divákem, nikoli účastníkem.

Toto omezení se stává „Datová zeď„Téměř jsme zničili celý veřejný internet. Pro další škálování pomocí současné metody bychom potřebovali exponenciálně více dat, než kolik jich existuje. Syntetická data (tj. text generovaný umělou inteligencí) nabízejí dočasné řešení, ale často vedou k „kolaps modelu„,“ kde systém zesiluje svá vlastní zkreslení a chyby. Nemůžeme se škálovat k umělé obecné inteligenci (AGI) pouze pomocí textu, protože text je nízkopásmovou kompresí světa. Popisuje realitu, ale není to realita samotná.

Proč jsou světové modely důležité

AI vedoucí Stejně jako Yann LeCun dlouhodobě tvrdí, že současným systémům umělé inteligence chybí základní aspekt lidského poznávání, který přirozeně disponují i ​​malé děti. Tím je naše schopnost udržovat si vnitřní model fungování světa, který běžně označují jako Světový modelModel světa nejen předpovídá další slovo; vytváří vnitřní mentální mapu fungování fyzického prostředí. Když vidíme míč kutálet se za pohovkou, víme, že tam stále je. Víme, že se objeví na druhé straně, pokud ho nezastavíme. Abychom tomu porozuměli, nemusíme číst učebnici; spouštíme mentální simulaci založenou na našem vnitřním „modelu světa“ fyziky a trvalosti objektů.

Aby umělá inteligence mohla pokračovat, musí přejít od statistické imitace k tomuto typu interní simulace. Musí rozumět základním příčinám událostí, nejen jejich textovým popisům.

Jedno Společná prediktivní architektura pro vkládání (JEPA) je ukázkovým příkladem tohoto paradigmatického posunu. Na rozdíl od LLM, které se snaží předpovědět každý jednotlivý pixel nebo slovo (proces, který je výpočetně náročný a hlučný), JEPA předpovídá abstraktní reprezentace. Ignoruje nepředvídatelné detaily, jako je pohyb jednotlivých listů na stromě, a zaměřuje se na koncepty na vysoké úrovni, jako je strom, vítr a roční období. Tím, že se umělá inteligence učí předpovídat, jak se tyto stavy na vysoké úrovni v čase mění, se učí struktuře světa spíše než povrchním detailům.

Od predikce k simulaci

První náznaky tohoto přechodu v modelech generování videa již vidíme. Když OpenAI vydala Soru, popsala ji nejen jako nástroj pro tvorbu videa, ale jako „…simulátor světa. "

Toto rozlišení je zásadní. Standardní generátor videa by mohl vytvořit video osoby, která jde, na základě predikce, které barevné pixely se obvykle nacházejí vedle sebe. Simulátor světa se však snaží zachovat 3D konzistenci, osvětlení a stálost objektu v čase. „Chápe“, že pokud osoba jde za zdí, neměla by zmizet z existence.

I když současné video modely stále zdaleka nejsou dokonalé, představují nové cvičiště. Fyzický svět obsahuje výrazně více informací než textový svět. Jedna sekunda videa obsahuje miliony vizuálních datových bodů týkajících se fyziky, světla a interakce. Trénováním modelů na této vizuální realitě můžeme umělou inteligenci naučit „selský rozum“, který v současné době LLM chybí.

Tím se vytváří nový zákon škálování. Úspěch se již nebude měřit počtem bilionů tokenů, které model přečetl. Bude se měřit věrností simulace a schopností předpovídat budoucí stavy prostředí. Umělá inteligence, která dokáže přesně simulovat důsledky akce, aniž by ji musela provést, je umělá inteligence, která dokáže plánovat, uvažovat a jednat bezpečně.

Efektivita a cesta k AGI

Tato změna se také zabývá neudržitelností náklady na energii současné umělé inteligence. LLM jsou neefektivní, protože musí předvídat každý detail, aby generovaly ucelený výstup. Světový model je efektivnější, protože je selektivní. Stejně jako se lidský řidič soustředí na silnici a ignoruje strukturu mraků na obloze, světový model se zaměřuje na relevantní kauzální faktory úkolu.

LeCun argumentoval, že tento přístup umožňuje modelům učit se mnohem rychleji. Systém jako V-JEPA (Video-Joint Embedding Predictive Architecture) ukázala, že dokáže konvergovat k řešení s mnohem menším počtem trénovacích iterací než tradiční metody. Tím, že se světové modely učí „tvar“ dat, spíše než si je pamatují, vytvářejí robustnější formu inteligence, která se lépe zobecňuje na nové, dosud neznámé situace.

Toto je chybějící článek pro AGI. Skutečná inteligence vyžaduje navigaci. Vyžaduje, aby se agent podíval na cíl, simuloval různé cesty k jeho dosažení pomocí svého interního modelu světa a poté zvolil cestu s nejvyšší pravděpodobností úspěchu. Generátory textu to nedokážou; dokážou pouze napsat plán, nemohou pochopit omezení jeho provedení.

Bottom Line

Odvětví umělé inteligence se nachází v bodě zlomu. Strategie „prostě přidávejte další data“ se blíží ke svému logickému konci. Přecházíme z věku chatbotů do věku simulátorů.

Příští generace škálování umělé inteligence nebude o čtení celého internetu. Bude o pozorování světa, pochopení jeho pravidel a budování vnitřní architektury, která odráží realitu. Nejde jen o technický upgrade; je to zásadní změna v tom, co považujeme za „učení“.

Pro podniky a výzkumníky se musí pozornost přesunout. Musíme přestat být posedlí počítáním parametrů a začít vyhodnocovat, jak dobře naše systémy chápou příčinu a následek. Umělá inteligence budoucnosti vám nejen řekne, co se stalo; ukáže vám, co by se mohlo stát a proč. To je slib světových modelů a je to jediná cesta vpřed.

Dr. Tehseen Zia je docentem na univerzitě COMSATS v Islámábádu a má doktorát v oboru AI na Vídeňské technologické univerzitě v Rakousku. Specializuje se na umělou inteligenci, strojové učení, datovou vědu a počítačové vidění a významně přispěl publikacemi v renomovaných vědeckých časopisech. Dr. Tehseen také vedl různé průmyslové projekty jako hlavní řešitel a sloužil jako konzultant AI.