AGI

Următoarea Lege de Scalare a Inteligenței Artificiale: Nu Mai Multe Date, ci Mai Bune Modele ale Lumii

mm

De ani de zile, industria inteligenței artificiale a urmat o regulă simplă și brutală: mai mare este mai bine. Am antrenat modele pe seturi masive de date, am crescut numărul de parametri și am aruncat o putere computațională imensă la problema respectivă. Această formulă a funcționat pentru cea mai mare parte a timpului. De la GPT-3 la GPT-4 și de la chatbot-urile primitive la motoarele de raționament, “legea de scalare” a sugerat că, dacă vom continua să hrănim mașina cu mai mult text, va deveni în cele din urmă inteligentă.

Dar acum lovim un zid. Internetul este finit. Datele publice de calitate sunt pe cale de a se epuiza, iar randamentele de a face simple modele mai mari sunt în scădere. Cercetătorii de vârf ai inteligenței artificiale susțin că următorul salt mare în inteligența artificială nu va veni din citirea mai multor texte; va veni din înțelegerea realității din spatele textului. Această credință semnalează o schimbare fundamentală în focalizarea inteligenței artificiale, marcând începutul erei Modelului Lumii.

Limitările Predicției Următorului Token

Pentru a înțelege de ce avem nevoie de o abordare nouă, trebuie să examinăm mai întâi ce fac sistemele actuale de inteligență artificială. În ciuda capacităților lor impresionante, modele precum ChatGPT sau Claude sunt, în esență, motoare statistice. Ei prezic următorul cuvânt dintr-o secvență pe baza probabilității evenimentelor anterioare. Ei nu înțeleg că un pahar căzut se va sparge; ei știu doar că, în milioane de povești, cuvântul “spargere” urmează adesea fraza “pahar căzut.”

Această abordare, cunoscută sub numele de modelare autoregresivă, are o eroare critică. Se bazează în întregime pe corelație, nu pe cauzalitate. Dacă antrenați un LLM pe o mie de descrieri ale unui accident de mașină, el învață limba accidentelor. Dar el nu învață niciodată fizica impulsului, a fricțiunii sau a fragilității. El este un spectator, nu un participant.

Această limitare devine “Zidul Datelor“. Am scos aproape întregul internet public. Pentru a scala mai departe folosind metoda actuală, am avea nevoie de cantități exponențial mai mari de date decât există. Datele sintetice (adică textul generat de inteligența artificială) oferă o soluție temporară, dar adesea duc la “prăbușirea modelului“, unde sistemul amplifică propriile sale prejudecăți și erori. Nu putem scala inteligența noastră artificială către Inteligența Artificială Generală (AGI) folosind doar text, deoarece textul este o compresie de joasă bandă a lumii. El descrie realitatea, dar nu este el însuși realitatea.

De Ce Modelele Lumii Sunt Importante

Liderii inteligenței artificiale, precum Yann LeCun, au susținut de mult timp că sistemele actuale de inteligență artificială lipsesc un aspect fundamental al cogniției umane pe care chiar și copiii mici îl posedă în mod natural. Acesta este capacitatea noastră de a menține un model intern al modului în care funcționează lumea, ceea ce ei numesc adesea Model al Lumii. Un Model al Lumii nu prezice doar următorul cuvânt; el construiește o hartă mentală internă a modului în care funcționează mediul fizic. Când vedem o minge care se rostogolește după canapea, știm că este încă acolo. Știm că va apărea pe partea cealaltă, dacă nu este oprită. Nu avem nevoie să citim un manual pentru a înțelege acest lucru; rulează o simulare mentală pe baza modelului nostru intern al lumii și a permanenței obiectelor.

Pentru ca inteligența artificială să progreseze, ea trebuie să treacă de la imitația statistică la acest tip de simulare internă. Ea trebuie să înțeleagă cauzele subiacente ale evenimentelor, nu doar descrierile lor textuale.

Arhitectura Predictivă de Încorporare Împărtășită (JEPA) este un exemplu primar al acestui schimb de paradigmă. În contrast cu LLM-urile, care încearcă să prezică fiecare pixel sau cuvânt (un proces care este computațional scump și zgomotos), JEPA prezice reprezentări abstracte. El ignoră detalii imprevizibile, cum ar fi mișcarea frunzelor de pe un copac, și se concentrează pe concepte de nivel superior, cum ar fi copacul, vântul și sezonul. Prin învățarea de a prezice cum se schimbă aceste stări de nivel superior în timp, inteligența artificială învață structura lumii, nu doar detaliile de suprafață.

De La Predicție La Simulare

Suntem deja martorii primelor schițe ale acestei tranziții în modelele de generare a videourilor. Când OpenAI a lansat Sora, ei au descris-o nu doar ca un instrument de videoclipuri, ci și ca “simulator de lume.”

Această distincție este vitală. Un generator de videoclipuri standard ar putea crea un videoclip cu o persoană care se plimbă, prezicând care pixeli colorați urmează să fie lângă alții. Un simulator de lume, însă, încearcă să mențină consistența 3D, iluminarea și permanența obiectelor în timp. El “înțelege” că, dacă o persoană se plimbă după un zid, nu ar trebui să dispară din existență.

Deși modelele actuale de videoclipuri sunt încă departe de a fi perfecte, ele reprezintă noul teren de antrenament. Lumea fizică conține semnificativ mai multe informații decât lumea textuală. O singură secundă de videoclip conține milioane de puncte de date vizuale despre fizică, lumină și interacțiune. Prin antrenarea modelelor pe această realitate vizuală, putem învăța inteligența artificială “simțul comun” pe care LLM-urile îl lipsesc în prezent.

Acest lucru creează o nouă lege de scalare. Succesul nu va mai fi măsurat de câte trilioane de token-uri a citit un model. Va fi măsurat de fidelitatea simulării sale și de capacitatea sa de a prezice stări viitoare ale mediului. O inteligență artificială care poate simula cu acuratețe consecințele unei acțiuni fără a fi nevoită să ia acea acțiune este o inteligență artificială care poate planifica, raționa și acționa în siguranță.

Eficiența și Calea Către AGI

Această schimbare abordează, de asemenea, costurile energetice nesustenabile ale inteligenței artificiale actuale. LLM-urile sunt ineficiente pentru că trebuie să prezică fiecare detaliu pentru a genera un output coerent. Un Model al Lumii este mai eficient pentru că este selectiv. La fel cum un șofer uman se concentrează pe drum și ignoră modelul norilor din cer, un Model al Lumii se concentrează pe factorii cauzali relevanți ai unei sarcini.

LeCun a susținut că această abordare permite modelelor să învețe mult mai repede. Un sistem precum V-JEPA (Arhitectura Predictivă de Încorporare Împărtășită pentru Videoclipuri) a demonstrat că poate converge către o soluție cu mult mai puține iterații de antrenament decât metodele tradiționale. Prin învățarea “formei” datelor, mai degrabă decât a memora datelor însele, Modelele Lumii construiesc o formă mai robustă de inteligență care generalizează mai bine la situații noi și nevizitate.

Acesta este legătura lipsă pentru AGI. Inteligența adevărată necesită navigare. Ea necesită un agent care să privească un obiectiv, să simuleze diferite căi pentru a atinge acel obiectiv folosind modelul său intern al lumii și apoi să aleagă calea cu cea mai mare probabilitate de succes. Generatoarele de texte nu pot face acest lucru; ele pot doar să scrie un plan, dar nu pot înțelege constrângerile punerii sale în aplicare.

Concluzia

Industria inteligenței artificiale se află la un punct de cotitură. Strategia “doar adăugați mai multe date” ajunge la sfârșitul său logic. Ne mutăm de la epoca chatbot-urilor la epoca simulatorilor.

Următoarea generație de scalare a inteligenței artificiale nu va fi despre citirea întregului internet. Va fi despre observarea lumii, înțelegerea regulilor sale și construirea unei arhitecturi interne care oglindește realitatea. Acesta nu este doar un upgrade tehnic; este o schimbare fundamentală a ceea ce considerăm “învățare”.

Pentru întreprinderi și cercetători, focalizarea trebuie să se schimbe. Trebuie să încetăm să ne obsedăm asupra numărului de parametri și să începem să evaluăm cât de bine sistemele noastre înțeleg cauza și efectul. Inteligența artificială a viitorului nu va spune doar ce s-a întâmplat; va arăta ce ar putea să se întâmple și de ce. Acesta este promisiunea Modelelor Lumii, și este singura cale înainte.

Dr. Tehseen Zia este un profesor asociat titular la Universitatea COMSATS Islamabad, deținând un doctorat în IA de la Universitatea Tehnică din Viena, Austria. Specializându-se în Inteligență Artificială, Învățare Automată, Știință a Datelor și Viziune Computațională, el a făcut contribuții semnificative cu publicații în reviste științifice reputate. Dr. Tehseen a condus, de asemenea, diverse proiecte industriale ca Investigator Principal și a servit ca Consultant IA.