Lideri de opinie
Când IA Gândește Ca Oamenii: Explorarea Minții LLM și a Agenta

Astăzi, LLM și agenții învață, analizează și iau decizii în moduri care pot estompa linia dintre “gândirea” lor algoritmică și mintea umană. Abordările pe care sunt construiți deja imită procesele noastre cognitive, iar scala instruirii lor depășește experiența umană cu ordine de mărime. Acest lucru ridică întrebarea: creăm o unealtă care ne extinde capacitățile sau dăm naștere unei noi tipuri de minte a cărei consecințe sunt încă imposibil de prevăzut?
Cum gândesc modelele
Este important să distingem între conceptele de LLM și agenți. Pentru a trage o analogie cu un calculator, un LLM poate fi comparat cu una dintre componentele sale, de exemplu, procesorul. Un agent, însă, este întregul sistem, o “placă de bază” la care sunt conectate diverse module: memorie, placă grafică și rețea. Similar, un agent este un sistem complex care poate încorpora unul sau mai multe LLM, suplimentate cu mecanisme de luare a deciziilor și unelte pentru interacțiunea cu mediul extern.
Dacă considerăm munca unui singur LLM, totul se reduce la potrivirea modelelor. Cu toate acestea, atunci când un agent lansează multiple LLM, putem spune că “gândește”, deși acest proces este încă construit pe modele. Agentul construiește logica interacțiunii dintre modele: de exemplu, un LLM analizează sarcina, și pe baza acestei analize, agentul determină ce acțiune ar trebui să efectueze alt LLM.
Gândirea umană funcționează într-un mod similar: ne bazăm pe cunoștințele și modelele acumulate, le selectăm la momentul potrivit, le prelucrăm și formulăm concluzii. Acest proces se numește raționament.
ChatGPT, la fel ca un om, are două tipuri de memorie: pe termen scurt și pe termen lung. Diferența este că, la oameni, accesul la aceste niveluri de memorie este mai complex și nu întotdeauna liniar.
Memoria pe termen scurt este informația cu care lucrăm în acest moment. Pentru o persoană, ar putea fi ce ai spus cu cinci minute în urmă: s-ar putea să-și amintească sau nu. GPT, însă, ia întotdeauna în considerare tot ce se află în “fereastra de context” – nu poate sări sau să ignore aceste date.
Memoria pe termen lung la oameni constă în amintiri care nu sunt întotdeauna active și pot apărea doar cu declanșatori specifici: o amintire din copilărie, un traumatism sau, de exemplu, lucrul cu un psiholog. GPT are o logică similară: nu “recuperează” informații din proprie inițiativă, decât dacă este activat în mod specific. De exemplu, o instrucțiune precum “Niciodată nu mă întreba această întrebare” sau “Întotdeauna adresează-mi vorbirea în mod formal” poate fi stocată în memoria pe termen lung și aplicată în timpul fiecărei sesiuni.
Un alt exemplu de memorie pe termen lung este documentele salvate. Să presupunem că ai încărcat în GPT o instrucțiune pentru efectuarea unui studiu de marketing. Modelul poate stoca informația în memorie, dar acest lucru nu înseamnă că va face referire la acel document la fiecare întrebare. Dacă întrebi “Poți să arunci lumină asupra Lunii?”, GPT va ignora instrucțiunea. Dar dacă solicitarea conține cuvinte cheie care corespund textului documentului, modelul poate “recupera” informația.
Acest mecanism este implementat prin RAG (Retrieval-Augmented Generation), o abordare în care modelul obține acces la informații stocate, declanșate de indicii relevante, prin baze de date vectoriale.
Astfel, se poate spune că modelul are, într-adevăr, memorie, dar funcționează conform unei logici mai formalizate, distincte de memoria umană.
De ce o conversație cu IA poate fi, uneori, terapeutică, iar alteori rece și robotică?
Modelele lingvistice moderne sunt extrem de mari: stochează o cantitate uriașă de date, cunoștințe și context. Toate aceste informații sunt organizate în așa-numite “cluster”, domenii tematice și semantice. Modelul a fost instruit pe surse diverse, de la ficțiune și articole științifice până la comentarii de pe YouTube.
Atunci când interacționați cu IA, solicitarea dvs. (prompt) direcționează, în esență, modelul către un anumit cluster.
De exemplu, dacă scrieți: “Ești un avocat imobiliar în New York, cu 20 de ani de experiență, ajută-mă să cumpăr un apartament”, modelul activează mai multe cluster simultan: avocat → New York → imobiliar. Ca rezultat, primiți un răspuns coerent, relevant și realist, ca și cum ați consulta, într-adevăr, un profesionist experimentat.
Dacă solicitarea se referă la subiecte mai personale sau filosofice, cum ar fi dezvoltarea personală sau emoțiile, modelul “trece” la alte cluster, cum ar fi psihologia, filosofia sau munca interioară. În acest caz, răspunsurile sale pot părea surprinzător de umane și chiar terapeutice.
Cu toate acestea, cu o formulare prea generală sau vagă, modelul “se pierde” în structura sa de cluster și oferă un răspuns implicit, formal, detașat și lipsit de ton emoțional.
Stilul și profunzimea răspunsului IA depind de clusterul pe care îl direcționați cu solicitarea dvs.
Filosofia instruirii modelului și RLHF
Inteligența artificială are diferite abordări ale învățării. Nu este atât de mult o filosofie, cât o strategie.
Opțiunea clasică este învățarea supervizată, în care modelul primește o întrebare și răspunsul corect. Învață prin observarea a ceea ce este considerat corect și, ulterior, reproducerea unor soluții similare în viitor.
Dar o altă abordare este RLHF (Reinforcement Learning from Human Feedback). Acesta este un stil diferit: modelul încearcă ceva, primește o “recompensă” pentru acțiunile reușite și ajustează comportamentul. Treptat, dezvoltă o strategie eficientă.
RLHF poate fi comparat cu procesul de transformare a materiei prime într-un produs finit. Pentru a crea un model care să fie ușor de utilizat, este necesar un volum uriaș de muncă cu feedback uman.
Imaginați-vă că vă arăt un obiect fără a-l numi direct. Vă ezitați: “Este o cutie de cigarette? Un portofel?” Vă ofer doar indicii precum: “Mai aproape”, “Mai departe”, “60% da”. După sute de astfel de iterații, ghiciți: “Ah, este un portofel”.
LLM sunt instruite în acest mod. Oameni, annotatori și profesioniști, în general, evaluează: acest răspuns este bun, acesta este rău, și atribuie scoruri. Companii precum Keymakr, care se specializează în annotarea și validarea datelor de înaltă calitate, joacă un rol cheie în acest proces. Feedback-ul vine și de la utilizatori obișnuiți: aprecieri, reclamații și reacții. Modelul interpretează aceste semnale, formând modele de comportament.
Cum arată instruirea modelului în practică
Un exemplu vivid este experimentul OpenAI de instruire a agenților utilizând învățarea prin întărire în jocul “Ascunde și Caută”.
Două echipe au participat: “căutătorii” (roșu) și “ascunșiții” (albaștri). Regulile erau simple: dacă un căutător prinde un ascunși, primește un punct; dacă nu, pierde un punct. Inițial, agenții aveau doar abilități fizice de bază, alergare și săritură, fără strategii predefinite.
La început, căutătorii acționau haotic, și prinderea adversarilor se întâmpla întâmplător. Dar după milioane de iterații, comportamentul lor a evoluat. Ascunșiții au început să utilizeze obiecte din jur pentru a bloca ușile și a construi bariere. Aceste abilități au apărut fără programare directă, pur și simplu prin încercări repetate și recompense pentru succes.
Ca răspuns, căutătorii au început să utilizeze săritura, o capacitate disponibilă din start, dar anterior ignorată. După o serie de eșecuri, utilizarea aleatorie a săriturii a revelat valoarea sa tactică. Apoi, ascunșiții și-au complicat apărarea și mai mult, îndepărtând obiecte din linia de vedere a căutătorilor și construind adăposturi mai sigure.
Experimentul a demonstrat că, prin miliarde de cicluri de încercare, eroare, recompense și penalități, poate apărea un comportament cooperativ complex fără intervenția dezvoltatorilor. Mai mult, agenții au început să acționeze în coordonare, chiar dacă mecanismele de comunicare nu au fost programate, pur și simplu pentru că lucrul în echipă s-a dovedit a fi mai eficient.
Acesta este valoarea RLHF. Fără ea, un LLM și agenții rămân doar o bibliotecă de texte. Cu ea, devine un partener de conversație capabil să se adapteze, să se corecteze și, în esență, să evolueze.
Ce urmează?
Mulți se întreabă dacă dezvoltarea LLM și a agenților ar putea duce la consecințe nedorite sau chiar periculoase.
Este important să înțelegem că ceea ce vedem astăzi nu este nici măcar o versiune minimă, ci doar un prototip.
Revoluția reală nu va fi despre a ajuta la scrierea unei scrisori frumoase sau a o traduce în franceză. Acestea sunt lucruri mici. Direcția principală este automatizarea micro-întâlnirilor și a proceselor de rutină, lăsând oamenilor doar sarcinile cu adevărat creative, intelectuale sau timpul pentru odihnă.
Inovațiile reale se concentrează în jurul agenților, sistemelor care pot gândi, acționa și lua decizii independent, în locul unei persoane. Acesta este exact punctul în care companii precum OpenAI, Google, Meta și altele își concentrează eforturile astăzi.
Modelele lingvistice mari sunt doar fundația. Viitorul real se află în agenții instruiți să trăiască într-o lume dinamică, să primească feedback și să se adapteze la schimbări.












