Liderzy opinii
Nadchodząca „ewolucja” AI

Dziś, będąc na granicy linii uskoku technologicznego, obserwujemy podróż od LLM do agentów, a ostatecznie do AI agenticznej i AGI, i nie chodzi tylko o większe modele lub szybsze odpowiedzi. Chodzi również o to, że maszyny przechodzą od biernych asystentów do aktywnych współpracowników, a może nawet, pewnego dnia, niezależnych myślicieli.
Śledźmy tę ścieżkę i zbadajmy, co to oznacza dla pracy, ekspertyzy i samej roli ludzi w kształtowaniu inteligencji jutra.
Różnica między LLM, systemami opartymi na agentach a AI agenticzną
Aby lepiej zrozumieć różnicę, oto przykład. Jeśli zapytam LLM o coś w rodzaju: „Chcę podróżować z Chicago do Austin, nie jeździć więcej niż cztery godziny dziennie i zatrzymywać się w malowniczych miejscach”, zwykły LLM zwróci statyczną odpowiedź w formacie tekstowym na podstawie generacji języka. Prawdopodobnie po prostu odpowie na żądanie bez przeprowadzania dogłębnej analizy.
Agent najpierw zaklasyfikuje żądanie jako związane z podróżami. Następnie określi, jakie dane są potrzebne: trasy przy użyciu usług mapowania, informacje o pogodzie, koszty paliwa, hotele, restauracje itp. Po tym agent podzieli żądanie na podzadania i przekieruje je do wyspecjalizowanych modułów lub LLM szkolonych na odpowiednich źródłach. To jest orchestracja i koordynacja wielu modeli i narzędzi pod jednolitą logiką.
Dziś większość głównych systemów, takich jak ChatGPT lub Claude z Anthropic, są podstawowo już agentami. Chociaż może się wydawać użytkownikowi, że wchodzi w interakcję z pojedynczym modelem, za kulisami jest złożona architektura obejmująca wiele modeli i systemów. Mogą one już obsługiwać złożone zapytania, ale ich możliwości są w większości ograniczone do zapewniania informacji; nie podejmują jeszcze działań.
W pełni autonomiczny agent to system, który gromadzi informacje i może, na przykład, niezależnie zarezerwować hotel, kupić bilet lub zainicjować płatność, pod warunkiem, że ma dostęp do odpowiednich API lub danych użytkownika. Tacy agenci są obecnie w wczesnych stadiach rozwoju. Na tym etapie są bardziej jak pół-agenci, zdolni do przetwarzania informacji, ale jeszcze nie wykonujący autonomicznych działań.
Interesującą dziedziną dyskusji w środowisku badawczym jest AI agenticzna. W przeciwieństwie do zwykłego agenta, którego zachowanie jest skryptowane przez deweloperów, AI agenticzna to system, który niezależnie decyduje, jakie zadania wykonać, jakie dane są potrzebne i nawet jak kontynuować własne szkolenie. To wykracza poza wykonywanie instrukcji; obejmuje podejmowanie autonomicznych decyzji. Jednak AI agenticzna pozostaje teoretyczna na tym etapie; takie systemy nie istnieją jeszcze w praktyce.
AGI – nowy horyzont. Ale czy jest osiągalny?
Meta zainwestowała w Scale AI trzy miesiące temu. Celem było połączenie sił na drodze do budowy AGI, Sztucznej Inteligencji Ogólnej, zdolnej do wykonywania każdego zadania na poziomie ludzkim lub nawet przewyższającym go. Jeśli dzisiejszy AI jest rewolucją technologiczną, AGI będzie prawdziwą megarewolucją; czasem nazywam to „ewolucją”, co oznacza „exodus” AI z cienia. Kto pierwszy ją osiągnie, zyska globalną przewagę strategiczną.
Jeśli chodzi o to, jak blisko jesteśmy do rzeczywistej AGI, to zależy głównie od tego, jak ją definiujemy. Zgadzam się z punktem widzenia Ilii Sutskevera: AGI to system zdolny do wykonywania każdego zadania intelektualnego, które może wykonać człowiek. Nie tylko odpowiadania na pytania, ale także rozumowania, podejmowania decyzji, uogólniania i interpretacji w różnych dziedzinach. Prawdziwa AGI jest uniwersalna i nie ograniczona do wąskich granic zadań.
Żaden z obecnych modeli nie osiągnął jeszcze tego poziomu. Poruszamy się w tym kierunku, ale prawdziwa AGI, w teoretycznym sensie, nadal nie istnieje. I może to jest najlepiej. Nadal jesteśmy w fazie aproksymacji, i prawdopodobnie pozostaniemy tam przez dość długi czas.
Fundamentem AGI będzie prawdopodobnie system oparty na agentach. Nie będzie koniecznie opierał się na jednym LLM, ponieważ tak jak żaden pojedynczy człowiek, niezależnie od tego, jak bystry, nie może opanować wszystkich dziedzin wiedzy i umiejętności, żaden pojedynczy LLM nie może samodzielnie obsłużyć pełnego spektrum zadań AGI. Co nam potrzebne, to rodzaj „zbiorowej inteligencji”: architektura zdolna do koordynowania wielu modeli i komponentów.
AGI prawdopodobnie wyłoni się nie tylko jako agent zaprojektowany przez człowieka, ale jako meta-agent. Będzie to system, który jest częściowo rozwijany i ewoluuje z pomocą samej AI. To jest ważne, ponieważ systemy zaprojektowane całkowicie przez ludzi mogą nieść w sobie wrodzone ograniczenia. Włączanie AI do procesu projektowania może pomóc przezwyciężyć te ograniczenia i uczynić system bardziej adaptacyjnym.
AGI najprawdopodobniej nie wyniknie z jednego konkretnego przełomu. Nie szczególnie większych LLM, mądrzejszych agentów lub całkowicie nowych architektur, ale raczej z syntezy wszystkich trzech. Prawdopodobnie coś fundamentalnie nowego, co wykracza poza kategorie, których obecnie używamy.
„Ostatni egzamin ludzkości” i inne punkty odniesienia AGI
„Ostatni egzamin ludzkości” (HLE) to jeden z bardziej ambitnych punktów odniesienia obecnie dyskutowanych w kontekście LLM, agentów i AGI. Podstawowo jest to test składający się z około 2 500 pytań obejmujących szeroki zakres dyscyplin akademickich – matematyki, fizyki, biologii, chemii, inżynierii, nauk komputerowych i nawet szachów. Ideą jest ocena, czy system AI może rozwiązywać problemy na poziomie, który odzwierciedla prawdziwe zrozumienie ludzkie.
Obecne modele językowe wykonują bardzo słabo na HLE, często uzyskując mniej niż 5% dokładności. To jest w wyraźnym kontraście do innych punktów odniesienia, takich jak MMLU lub GPQA, gdzie modele osiągają znacznie wyższe wyniki. Trudności, jakie modele mają z HLE, podkreślają, jak bardzo są one jeszcze oddalone od prawdziwej inteligencji ogólnej.
Ważne jest, aby zauważyć, że dobre wyniki w punktach odniesienia z znanymi lub wąskimi zestawami danych niekoniecznie wskazują na obecność prawdziwej inteligencji ogólnej. Model może być dokształcony lub „wytrenowany do testu”, co może nadmiernie podnieść jego pozorną zdolność. Więc nawet idealny wynik w HLE nie oznaczałby, że osiągnęliśmy AGI; oznaczałoby to tylko, że przeszliśmy jeden konkretny test.
Co napędza AGI
Całkowicie zgadzam się, że podstawowymi filarami AGI są dane, obliczenia i talent. Sytuacja z obliczeniami jest jasna. Kluczowi gracze, tacy jak Meta, próbowali wyprodukować własne chipy, inwestując miliardy w proces rozwoju chipów. Ale firmy nadal silnie polegają na chipach i mocy obliczeniowej innych graczy, takich jak Nvidia, które nie tylko dostarczają niezbędne urządzenia, ale także rozumieją wagę zwiększania produkcji.
Więcej pytań dotyczy danych i talentów. Internet się wyczerpał – nie ma już żadnego kawałka ludzkiego tekstu z otwartych źródeł, który nie zostałby wykorzystany do szkolenia. Całkowita objętość informacji, jakie ludzkość wytworzyła do tej pory, okazuje się zaskakująco mała. Dlatego firmy zaczynają aktywnie współpracować z tymi, którzy mogą generować wysokiej jakości dane ludzkie.
Pełna automatyzacja czy człowiek w pętli?
Inny punkt – spadek popytu na ręczne adnotowanie danych. Kilka lat temu branża rosła w pełnym zakresie. Tysiące adnotatorów było przyjmowanych, aby zaspokoić głód rurociągów AI. Dziś wiele z tego impetu przesunęło się w kierunku automatyzacji. Modele dojrzały, a także narzędzia wokół nich.
Weźmy rozpoznawanie twarzy. Kiedyś było to jednym z głównych czynników napędzających objętość adnotacji obrazu. Ale ta kategoria jest w dużej mierze rozwiązana. Modele takie jak YOLO, SAM i Samurai szybko absorbują rutynową pracę. Te systemy kompresują tygodnie ręcznej pracy w kilka minut, często z zdumiewającą dokładnością. Wdrożyliśmy również wiele narzędzi wspomaganych przez ML w naszej platformie Keylabs. To naprawdę pomaga ciąć rutynowy workflow.
Ale wszystkie te modele są ograniczone przez ich uogólnienie i nadają się do automatyzacji standardowych i jednolitych operacji. Złożone lub unikalne przypadki nadal wymagają uwagi ludzkiej.
Poruszamy się z dala od starego paradygmatu, w którym adnotator był po prostu osobą zwracającą uwagę na szczegóły, która mogła rozpoznać obiekt lub emocję. W nowej rzeczywistości potrzebni są profesjonaliści: lekarze do adnotowania obrazów medycznych, programiści do kodowania, architekci do tworzenia planów, marketerzy do wglądu w klienta, i eksperci wojskowi do scenariuszy obronnych.
Już widzimy przypadki z życia wzięte, takie jak piloci myśliwskich adnotujący dane dla AI i zarabiający 1 000 dolarów za godzinę za swoją ekspertyzę. Ponieważ tacy specjaliści są rzadcy, a ich wiedza jest krytyczna dla szkolenia wysoko wydajnych AI.
Świat się zmienia: coraz więcej ludzi staje się operatorami i „trenerami” sztucznej inteligencji. Tylko wczoraj dostałem wiadomość na LinkedIn, prosząc mnie o sprawdzenie zestawu danych dla aplikacji AI zaprojektowanej dla CEO. W przyszłości każdy z nas może dostać ofertę pracy jako adnotator, nie tylko ktoś klikający przyciski, ale ekspert, którego wiedza kształtuje inteligencję jutra.
Już żyjemy w tej nowej rzeczywistości, świecie adnotacji danych i szkolenia AI. Ci, którzy to rozpoznają i dostosują, zyskają znaczną przewagę.












