Sztuczna inteligencja ogólna
Kolejne prawo skalowania sztucznej inteligencji: nie więcej danych, lecz lepsze modele świata

Przez lata branża sztucznej inteligencji kierowała się prostą, brutalną zasadą: im większe, tym lepsze. Trenowaliśmy modele na ogromnych zbiorach danych, zwiększaliśmy liczbę parametrów i wykorzystywaliśmy ogromną moc obliczeniową do rozwiązania problemu. Ta formuła działała przez większość czasu. Od GPT-3 do GPT-4, od prymitywnych chatbotów po silniki wnioskowania, „prawo skalowania” zasugerował, że jeśli będziemy po prostu karmić maszynę większą ilością tekstu, to w końcu stanie się inteligentna.
Ale teraz jesteśmy uderzenie w ścianęInternet jest skończony. Wysokiej jakości dane publiczne wyczerpują się, a korzyści z prostego powiększania modeli są zmniejsza sięWiodący badacze sztucznej inteligencji argumentować że kolejny wielki skok w dziedzinie sztucznej inteligencji nie nastąpi wyłącznie dzięki czytaniu większej ilości tekstu. Będzie on wynikiem zrozumienia rzeczywistości stojącej za tekstem. To przekonanie sygnalizuje fundamentalną zmianę w podejściu AI, zapoczątkowując erę Modelu Świata.
Granice przewidywania następnego tokena
Aby zrozumieć, dlaczego potrzebujemy nowego podejścia, musimy najpierw przyjrzeć się temu, co tak naprawdę robią obecne systemy sztucznej inteligencji. Pomimo imponujących możliwości, modele takie jak ChatGPT czy Claude są zasadniczo silniki statystycznePrzewidują kolejne słowo w sekwencji na podstawie prawdopodobieństwa wystąpienia poprzedniego. Nie rozumieją, że upuszczona szklanka się stłucze; po prostu wiedzą, że w milionach opowieści słowo „stłucze” często następuje po wyrażeniu „upuszczona szklanka”.
To podejście, znane jako modelowanie autoregresyjne, ma poważną wadę. Opiera się wyłącznie na korelacji, a nie na związku przyczynowo-skutkowym. Jeśli przeszkolisz LLM na tysiącu opisów wypadków samochodowych, nauczy się on języka wypadków. Ale nigdy nie nauczy się fizyki pędu, tarcia ani kruchości. Jest obserwatorem, a nie uczestnikiem.
To ograniczenie staje się „Ściana danych”. Przeszukaliśmy niemal cały publiczny internet. Aby skalować dalej, korzystając z obecnej metody, potrzebowalibyśmy wykładniczo więcej danych niż istnieje. Dane syntetyczne (tj. tekst generowany przez sztuczną inteligencję) oferują tymczasowe rozwiązanie, ale często prowadzą do „upadek modelu”, gdzie system wzmacnia własne uprzedzenia i błędy. Nie możemy skalować się do Sztucznej Inteligencji Ogólnej (AGI) za pomocą samego tekstu, ponieważ tekst jest kompresją świata o niskiej przepustowości. Opisuje rzeczywistość, ale nie jest samą rzeczywistością.
Dlaczego modele świata są ważne
AI Przywódcy Podobnie jak Yann LeCun, od dawna argumentują, że obecnym systemom sztucznej inteligencji brakuje fundamentalnego aspektu ludzkiego poznania, który nawet małe dzieci posiadają naturalnie. Chodzi o naszą zdolność do utrzymania wewnętrznego modelu działania świata, który potocznie nazywają… Model świataModel świata nie tylko przewiduje następne słowo; buduje wewnętrzną mapę mentalną działania środowiska fizycznego. Kiedy widzimy piłkę toczącą się za kanapą, wiemy, że nadal tam jest. Wiemy, że pojawi się po drugiej stronie, chyba że zostanie zatrzymana. Nie musimy czytać podręcznika, aby to zrozumieć; przeprowadzamy symulację mentalną opartą na naszym wewnętrznym „modelu świata” fizyki i trwałości obiektów.
Aby SI mogła się rozwijać, musi przejść od imitacji statystycznej do tego typu symulacji wewnętrznej. Musi zrozumieć ukryte przyczyny zdarzeń, a nie tylko ich opisy tekstowe.
Wspólne osadzanie architektury predykcyjnej (JEPA) jest doskonałym przykładem tej zmiany paradygmatu. W przeciwieństwie do modeli LLM, które próbują przewidzieć każdy piksel lub słowo (proces wymagający dużych nakładów obliczeniowych i obarczony szumem), JEPA przewiduje abstrakcyjne reprezentacje. Ignoruje nieprzewidywalne szczegóły, takie jak ruch poszczególnych liści na drzewie, i koncentruje się na koncepcjach wysokiego poziomu, takich jak drzewo, wiatr i pora roku. Ucząc się przewidywać, jak te stany wysokiego poziomu zmieniają się w czasie, sztuczna inteligencja poznaje strukturę świata, a nie szczegóły na poziomie powierzchownym.
Od prognozy do symulacji
Widzimy już pierwsze przebłyski tej transformacji w modelach generowania wideo. Kiedy OpenAI wydało Sorę, opisało ją nie tylko jako narzędzie do wideo, ale także jako „symulator świata".
To rozróżnienie jest kluczowe. Standardowy generator wideo może stworzyć film przedstawiający idącą osobę, przewidując, które kolorowe piksele zazwyczaj znajdują się obok siebie. Symulator świata stara się jednak zachować spójność 3D, oświetlenie i niezmienność obiektów w czasie. „Rozumie”, że jeśli osoba przejdzie za ścianą, nie powinna zniknąć z istnienia.
Choć obecne modele wideo wciąż dalekie są od doskonałości, stanowią one nowy poligon doświadczalny. Świat fizyczny zawiera znacznie więcej informacji niż świat tekstowy. Jedna sekunda filmu zawiera miliony wizualnych danych dotyczących fizyki, światła i interakcji. Trenując modele w oparciu o tę rzeczywistość wizualną, możemy nauczyć sztuczną inteligencję „zdrowego rozsądku”, którego obecnie brakuje inżynierom LLM.
To tworzy nowe prawo skalowania. Sukces nie będzie już mierzony bilionami tokenów odczytanych przez model. Będzie mierzony dokładnością symulacji i zdolnością do przewidywania przyszłych stanów środowiska. Sztuczna inteligencja, która potrafi precyzyjnie symulować konsekwencje działania bez konieczności jego podejmowania, to sztuczna inteligencja, która potrafi planować, rozumować i działać bezpiecznie.
Efektywność i droga do AGI
Ta zmiana dotyczy również niezrównoważonego koszty energii obecnej sztucznej inteligencji. Modele LLM są nieefektywne, ponieważ muszą przewidywać każdy szczegół, aby wygenerować spójny wynik. Model świata jest bardziej efektywny, ponieważ jest selektywny. Tak jak kierowca koncentruje się na drodze i ignoruje układ chmur na niebie, model świata koncentruje się na istotnych czynnikach przyczynowych zadania.
LeCun argumentował, że takie podejście pozwala modelom uczyć się znacznie szybciej. System taki jak V-JEPA (Video-Joint Embedding Predictive Architecture) wykazało, że może ono konwergować do rozwiązania przy znacznie mniejszej liczbie iteracji treningowych niż tradycyjne metody. Ucząc się „kształtu” danych, zamiast zapamiętywać je same, modele światów budują bardziej niezawodną formę inteligencji, która lepiej generalizuje się w nowych, nieznanych sytuacjach.
To brakujące ogniwo sztucznej inteligencji (AGI). Prawdziwa inteligencja wymaga nawigacji. Wymaga od agenta, aby spojrzał na cel, zasymulował różne ścieżki prowadzące do jego osiągnięcia, wykorzystując swój wewnętrzny model świata, a następnie wybrał ścieżkę o największym prawdopodobieństwie sukcesu. Generatory tekstu nie potrafią tego zrobić; potrafią jedynie napisać plan, nie rozumiejąc ograniczeń związanych z jego realizacją.
Bottom Line
Branża sztucznej inteligencji (AI) znajduje się w punkcie zwrotnym. Strategia „po prostu dodaj więcej danych” zbliża się do swojego logicznego kresu. Przechodzimy z ery chatbotów do ery symulatorów.
Następna generacja skalowania sztucznej inteligencji nie będzie polegała na czytaniu całego internetu. Będzie polegała na obserwowaniu świata, rozumieniu jego reguł i budowaniu wewnętrznej architektury odzwierciedlającej rzeczywistość. To nie tylko ulepszenie techniczne; to fundamentalna zmiana w tym, co uważamy za „uczenie się”.
Przedsiębiorstwa i badacze muszą zmienić punkt ciężkości. Musimy przestać obsesyjnie skupiać się na liczbie parametrów i zacząć oceniać, jak dobrze nasze systemy rozumieją związek przyczynowo-skutkowy. Sztuczna inteligencja przyszłości nie tylko powie, co się wydarzyło, ale pokaże, co mogłoby się wydarzyć i dlaczego. To obietnica modeli świata i jedyna droga naprzód.












