Connect with us

Gdy AI myśli jak ludzie: eksploracja umysłu LLM i agentów

Liderzy opinii

Gdy AI myśli jak ludzie: eksploracja umysłu LLM i agentów

mm

Dziś LLM i agenci uczą się, analizują i podejmują decyzje w sposób, który może zacierać granicę między ich algorytmicznym “myśleniem” a ludzkim umysłem. Podejścia, na których są one oparte, już naśladują nasze procesy poznawcze, a skala ich szkolenia przewyższa ludzkie doświadczenie o kilka rzędów wielkości. To podnosi pytanie: czy tworzymy narzędzie, które rozszerza nasze możliwości, czy dajemy początek nowemu typowi umysłu, którego konsekwencje są nadal niemożliwe do przewidzenia?

Jak modele myślą

Ważne jest, aby odróżnić pojęcia LLM i agentów. Aby narysować analogię z komputerem, LLM można porównać do jednego z jego komponentów, na przykład procesora. Agent jest natomiast całym systemem, “płyta główna”, do której podłączonych jest wiele modułów: pamięć, karta graficzna i sieć. Podobnie, agent jest złożonym systemem, który może zawierać jeden lub więcej LLM, uzupełniony o mechanizmy podejmowania decyzji i narzędzia do interakcji ze środowiskiem zewnętrznym.

Jeśli rozważymy pracę pojedynczego LLM, wszystko sprowadza się do dopasowywania wzorców. Jednak gdy agent łączy wiele LLM, możemy powiedzieć, że “myśli”, chociaż ten proces wciąż opiera się na wzorcach. Agent konstruuje logikę interakcji między modelami: na przykład jeden LLM analizuje zadanie, a na podstawie tej analizy agent określa, jakie działanie powinien wykonać inny LLM.

Ludzkie myślenie działa w podobny sposób: polegamy na zgromadzonej wiedzy i wzorcach, wybieramy je w odpowiednim momencie, przetwarzamy i formułujemy wnioski. Ten proces nazywa się rozumowaniem.

ChatGPT, podobnie jak człowiek, ma dwa rodzaje pamięci: krótkotrwałą i długotrwałą. Różnica polega na tym, że u ludzi dostęp do tych poziomów pamięci jest bardziej skomplikowany i nie zawsze liniowy.

Pamięć krótkotrwała to informacje, z którymi pracujemy teraz. Dla osoby może to być to, co powiedziała pięć minut temu: może sobie to przypomnieć lub nie. GPT zawsze jednak bierze pod uwagę wszystko w ramach swojego “okna kontekstowego” – nie może pominąć ani zignorować tych danych.

Pamięć długotrwała u ludzi składa się z wspomnień, które nie zawsze są aktywne i mogą pojawić się tylko pod wpływem konkretnych bodźców: wspomnienie z dzieciństwa, uraz lub, na przykład, praca z psychologiem. GPT ma podobną logikę: nie “przypomina” informacji, chyba że jest to wyraźnie aktywowane. Na przykład, instrukcja “Nigdy nie pytaj mnie o to pytanie” lub “Zawsze zwracaj się do mnie formalnie” może być zapisana w pamięci długotrwałej i stosowana podczas każdej sesji.

Innym przykładem pamięci długotrwałej są zapisane dokumenty. Załóżmy, że przesłałeś do GPT instrukcję dotyczącą prowadzenia badań marketingowych. Model może ją zapisać w pamięci, ale to nie oznacza, że będzie się do niej odnosił przy każdym pytaniu. Jeśli zadasz pytanie: “Czy mogę skierować światło latarki na Księżyc?”, GPT zignoruje instrukcję. Ale jeśli prośba zawiera słowa kluczowe pasujące do tekstu dokumentu, model może ją “przypomnieć”.

Mechanizm ten jest realizowany za pomocą RAG (Retrieval-Augmented Generation), podejścia, w którym model zyskuje dostęp do zapisanych informacji wywołanych odpowiednimi sygnałami za pośrednictwem baz danych wektorowych.

Można więc powiedzieć, że model naprawdę ma pamięć, ale działa ona zgodnie z inną, bardziej sformalizowaną logiką, odrębną od ludzkiej pamięci.

Dlaczego rozmowa z AI czasem wydaje się terapeutyczna, a czasem zimna i sztuczna?

Współczesne modele językowe są niezwykle duże: przechowują ogromną ilość danych, wiedzy i kontekstu. Wszystkie te informacje są zorganizowane w tzw. “klasterach”, obszarach tematycznych i semantycznych. Model został wyszkolony na różnorodnych źródłach, od fikcji i artykułów naukowych po komentarze na YouTube.

Gdy wchodzisz w interakcję z AI, twoje zapytanie (wypowiedź) skutecznie kieruje model do określonego klastra.

Na przykład, jeśli napiszesz: “Jesteś prawnikiem z 20-letnim doświadczeniem w Nowym Jorku, pomóż mi kupić mieszkanie”, model aktywuje kilka klastrów jednocześnie: prawnik → Nowy Jork → nieruchomości. W efekcie otrzymujesz spójną, istotną i realistyczną odpowiedź, jakbyś naprawdę konsultował się z doświadczonym specjalistą.

Jeśli zapytanie dotyczy bardziej osobistych lub filozoficznych tematów, takich jak rozwój osobisty lub emocje, model “przełącza się” na inne klastry, takie jak psychologia, filozofia lub praca wewnętrzna. W tym przypadku jego odpowiedzi mogą wydawać się zaskakująco ludzkie i nawet terapeutyczne.

Jednak w przypadku zbyt ogólnych lub niejasnych sformułowań model “gubi się” w swojej strukturze klastrów i daje domyślną odpowiedź, formalną, oderwaną i pozbawioną tonu emocjonalnego.

Styl i głębia odpowiedzi AI zależą od tego, do którego klastra skierujesz ją swoim zapytaniem.

Filozofia szkolenia modelu i RLHF

Sztuczna inteligencja ma różne podejścia do uczenia się. Nie jest to tak bardzo filozofia, ile strategia.

Klasyczną opcją jest nadzorowane uczenie, gdzie model otrzymuje pytanie i poprawną odpowiedź. Uczy się, obserwując, co uważa się za poprawne, a następnie odtwarza podobne rozwiązania w przyszłości.

Innym podejściem jest RLHF (Reinforcement Learning from Human Feedback). To inny styl: model próbuje czegoś, otrzymuje “nagrodę” za udane działania i dostosowuje swoje zachowanie. Stopniowo rozwija skuteczną strategię.

RLHF można porównać do procesu przekształcania surowca w produkt gotowy. Aby stworzyć model, który jest wygodny w użyciu, wymagana jest ogromna ilość pracy z ludzką informacją zwrotną.

Wyobraź sobie, że pokazuję ci obiekt bez jego nazwy. Wahasz się: “Czy to etui na papierosy? Przechowywacz kart?” Daję tylko wskazówki, takie jak: “Bliżej”, “Dalej”, “60% tak”. Po setkach takich iteracji zgadujesz: “Ach, to portfel”.

LLM są szkolone w ten sposób. Ludzie, anotatorzy i specjaliści oceniają: ta odpowiedź jest dobra, ta zła, i przydzielają punkty. Firmy takie jak Keymakr, które specjalizują się w wysokiej jakości anotacji danych i walidacji, odgrywają kluczową rolę w tym procesie. Informacja zwrotna pochodzi również od zwykłych użytkowników: polubień, skarg i reakcji. Model interpretuje te sygnały, tworząc wzorce zachowań.

Jak wygląda szkolenie modelu w praktyce

Jasnym przykładem jest eksperyment OpenAI szkolenia agentów przy użyciu uczenia się wzmocnionego w grze “Hide and Seek”.

Wzięły w nim udział dwie drużyny: “szukający” (czerwoni) i “ukrywający się” (niebiescy). Zasady były proste: jeśli szukający złapie ukrywającego się, zdobywa punkt; jeśli nie, traci jeden. Początkowo agenci mieli tylko podstawowe zdolności fizyczne, bieganie i skakanie, bez żadnych wstępnie zdefiniowanych strategii.

Na początku szukający działali chaotycznie, a złapanie przeciwników następowało przypadkowo. Ale po milionach iteracji ich zachowanie ewoluowało. Ukrywający się zaczęli używać otaczających obiektów, aby zablokować drzwi i zbudować barykady. Te umiejętności pojawiły się bez bezpośredniego programowania, wyłącznie poprzez powtarzające się próby i nagrody za sukces.

W odpowiedzi szukający zaczęli używać skakania, zdolności dostępnej od samego początku, ale wcześniej ignorowanej. Po serii niepowodzeń losowe używanie skakania ujawniło jego taktyczną wartość. Następnie ukrywający się skomplikowali swoją obronę, usuwając obiekty z pola widzenia szukających i budując bardziej niezawodne schrony.

Eksperyment pokazał, że poprzez miliardy cykli prób, błędów, nagród i kar, może powstać złożone współpracujące zachowanie bez interwencji deweloperów. Co więcej, agenci zaczęli działać w koordynacji, chociaż mechanizmy komunikacyjne nie były programowane, po prostu dlatego, że współpraca okazała się bardziej skuteczna.

To samo dotyczy dużych modeli językowych. Nie jest możliwe napisanie wszystkich scenariuszy: istnieje zbyt wiele sytuacji i zbyt duża zmienność na świecie. Dlatego nie uczymy modelu określonych reguł; uczymy go, jak się uczyć.

To jest wartość RLHF. Bez niej LLM i agenci pozostają tylko biblioteką tekstów. Z nią stają się partnerem rozmowy, który może dostosowywać się, poprawiać i ewoluować.

Co dalej?

Wielu ludzi zastanawia się, czy rozwój LLM i agentów może prowadzić do niepożądanych lub nawet niebezpiecznych konsekwencji.

Ważne jest, aby zrozumieć, że to, co widzimy dzisiaj, to nie nawet wersja MVP, a jedynie prototyp.

Prawdziwa rewolucja nie będzie dotyczyła pomocy w napisaniu pięknego listu lub jego przetłumaczeniu na język francuski. To są rzeczy mniejszej wagi. Głównym kierunkiem jest automatyzacja mikrozadań i rutynowych procesów, pozostawiając ludziom tylko prawdziwie kreatywne, intelektualne zadania lub czas na wypoczynek.

Prawdziwe innowacje koncentrują się wokół agentów, systemów, które mogą samodzielnie myśleć, działać i podejmować decyzje zamiast człowieka. To właśnie tam firmy takie jak OpenAI, Google, Meta i inne koncentrują swoje wysiłki dzisiaj.

Duże modele językowe są tylko podstawą. Prawdziwa przyszłość leży w agentach szkolonych do życia w dynamicznym świecie, otrzymywania informacji zwrotnej i adaptacji do zmian.

Michael Abramov jest założycielem i dyrektorem generalnym Introspector, przynosząc ponad 15+ lat doświadczenia w inżynierii oprogramowania i systemach sztucznej inteligencji wizji komputerowej do tworzenia narzędzi do oznaczania danych na poziomie przedsiębiorstw.

Michael rozpoczął swoją karierę jako inżynier oprogramowania i kierownik badań i rozwoju, tworząc skalowalne systemy danych i zarządzając zespołami inżynierskimi o charakterze międzyfunkcyjnym. Do 2025 roku pełnił funkcję dyrektora generalnego Keymakr, firmy świadczącej usługi oznaczania danych, gdzie był pionierem w zakresie workflow z ludzkim uczestnictwem, zaawansowanych systemów QA i specjalistycznych narzędzi w celu wsparcia dużych potrzeb danych wizji komputerowej i autonomii.

Posiada tytuł licencjata nauk komputerowych oraz wykształcenie w dziedzinie inżynierii i sztuk creative, co pozwala mu przyjmować multidyscyplinarną perspektywę w rozwiązywaniu trudnych problemów. Michael żyje na przecięciu innowacji technologicznych, strategicznego przywództwa produktowego i realnego wpływu, napędzając rozwój następnego etapu systemów autonomicznych i inteligentnej automatyki.