Narzędzia AI 101

Poza ChatGPT; Agent AI: Nowy Świat Pracowników

Opublikowano 28 sierpnia 2023

Zaktualizowano 23 maja 2026

Przez

Aayush Mittal Mittal

Wraz z postępami w głębokim uczeniu, przetwarzaniu języka naturalnego (NLP) i sztucznej inteligencji, znajdujemy się w okresie, w którym agenci AI mogą stanowić znaczną część globalnej siły roboczej. Ci agenci AI, wykraczający poza czatboty i asystentów głosowych, kształtują nowy paradygmat dla branż i naszego codziennego życia. Ale co to naprawdę oznacza żyć w świecie uzupełnionym przez tych “pracowników”? Artykuł ten zagłębia się w tę ewoluującą panoramę, oceniając implikacje, potencjał i wyzwania, które leżą przed nami.

Krótkie Podsumowanie: Ewolucja Pracowników AI

Przed zrozumieniem nadchodzącej rewolucji, istotne jest rozpoznanie ewolucji napędzanej przez AI, która już wystąpiła.

Tradycyjne Systemy Komputerowe : Od podstawowych algorytmów komputerowych, rozpoczęła się podróż. Te systemy mogły rozwiązywać zadania określone z wyprzedzeniem, używając ustalonego zestawu reguł.
Czatboty i Wczesne Asystenci Głosowi : Wraz z ewolucją technologii, ewoluowały również nasze interfejsy. Narzędzia takie jak Siri, Cortana i wczesne czatboty uprościły interakcję użytkownika z AI, ale miały ograniczoną zdolność zrozumienia i możliwości.
Sieci Neuronowe i Głębokie Uczenie : Sieci neuronowe oznaczały punkt zwrotny, naśladując funkcje mózgu ludzkiego i ewoluując poprzez doświadczenie. Techniki głębokiego uczenia dalej udoskonaliły to, umożliwiając zaawansowaną rozpoznawalność obrazu i mowy.
Transformatory i Zaawansowane Modele NLP : Wprowadzenie architektur transformatorowych rewolucjonizowało krajobraz NLP. Systemy takie jak ChatGPT od OpenAI, BERT i T5 umożliwiły przełomowe osiągnięcia w komunikacji człowiek-AI. Z ich głębokim zrozumieniem języka i kontekstu, te modele mogą prowadzić znaczące rozmowy, tworzyć treści i odpowiadać na złożone pytania z niezwykłą dokładnością.

Wejdź w Świat Agentów AI: Więcej Niż Tylko Rozmowa

Dzisiejszy krajobraz AI sugeruje coś bardziej rozległego niż tylko narzędzia do rozmowy. Agenci AI, poza funkcjami czatu, mogą teraz wykonywać zadania, uczyć się ze swojego środowiska, podejmować decyzje i nawet wykazywać kreatywność. Nie tylko odpowiadają na pytania; rozwiązują problemy.

Tradycyjne modele oprogramowania działały według wyraźnej ścieżki. Stakeholderzy wyrazili cel oprogramowania menedżerom, którzy następnie zaprojektowali konkretny plan. Inżynierowie wykonali ten plan poprzez linie kodu. Ten “paradygmat dziedzictwa” funkcjonalności oprogramowania był wyraźny, angażując wiele interwencji ludzkich.

Agenci AI jednak działają inaczej. Agent:

Ma cele, których chce osiągnąć.
Może wchodzić w interakcje ze swoim środowiskiem.
Formułuje plan na podstawie tych obserwacji, aby osiągnąć swój cel.
Podejmuje niezbędne działania, dostosowując swój podejście w zależności od zmieniającego się stanu środowiska.

To, co naprawdę odróżnia agenci AI od tradycyjnych modeli, jest ich zdolność do samodzielnego tworzenia planu krok po kroku, aby zrealizować cel. W istocie, podczas gdy wcześniej programista dostarczał plan, dzisiejsi agenci AI wyznaczają swój własny kurs.

Rozważmy codzienny przykład. W tradycyjnym projekcie oprogramowania, program powiadomiłby użytkowników o zadaniach, które minęły termin, na podstawie wcześniej ustalonych warunków. Deweloperzy ustawiliby te warunki na podstawie specyfikacji dostarczonych przez menedżera produktu.

W paradygmacie agenta AI, sam agent decyduje, kiedy i jak powiadomić użytkownika. Oceniłby środowisko (nawyki użytkownika, stan aplikacji) i podjąłby decyzję o najlepszym kursie działania. Proces staje się bardziej dynamiczny, bardziej “w tym momencie”.

ChatGPT oznaczał odejście od swojego tradycyjnego zastosowania poprzez integrację wtyczek, umożliwiając mu korzystanie z zewnętrznych narzędzi do wykonywania wielu żądań. Stał się wczesnym przejawem koncepcji agenta. Jeśli rozważymy prosty przykład: użytkownik zapytujący o pogodę w Nowym Jorku, ChatGPT, wykorzystując wtyczki, mógłby wchodzić w interakcje z zewnętrznym API pogody, interpretować dane i nawet korygować swój kurs na podstawie otrzymanych odpowiedzi.

Aktualny Krajobraz Agentów AI

Agenci AI, w tym Auto-GPT, AgentGPT i BabyAGI, zwiastują nową erę w rozległym wszechświecie AI. Podczas gdy ChatGPT spopularyzował Generative AI wymagając wprowadzania danych przez człowieka, wizja za agentami AI jest taka, aby umożliwić AI funkcjonowanie niezależnie, kierując się celami z minimalnym wpływem ludzkim. Ten transformacyjny potencjał został podkreślony przez meteoriczną ekspansję Auto-GPT, która w ciągu zaledwie sześciu tygodni od powstania zdobyła ponad 107 000 gwiazd na GitHub, co jest bezprecedensowym wzrostem w porównaniu z ugruntowanymi projektami, takimi jak pakiet do nauki danych “pandas”.

Agenci AI vs. ChatGPT

Wiele zaawansowanych agentów AI, takich jak Auto-GPT i BabyAGI, wykorzystuje architekturę GPT. Ich głównym celem jest minimalizowanie potrzeby interwencji człowieka w zadaniach AI. Opisowe terminy, takie jak “GPT w pętli”, charakteryzują działanie modeli, takich jak AgentGPT i BabyAGI. Działają one w iteracyjnych cyklach, aby lepiej zrozumieć żądania użytkowników i udoskonalić swoje dane wyjściowe. Tymczasem Auto-GPT posuwa granice dalej, integrując dostęp do Internetu i możliwości wykonywania kodu, znacznie rozszerzając swój zasięg rozwiązywania problemów.

Innowacje w Agentach AI

Pamięć Długoterminowa : Tradycyjne LLM mają ograniczoną pamięć, zachowując tylko ostatnie segmenty interakcji. Dla zadań kompleksowych, przypomnienie całej rozmowy lub nawet poprzednich staje się kluczowe. Aby pokonać to, agenci AI przyjęli przepływy pracy z osadzaniem, konwertując tekstowe rozmowy w tablice numeryczne, oferując rozwiązanie ograniczeń pamięci.
Możliwości Przeglądania Internetu : Aby pozostać na bieżąco z niedawnymi wydarzeniami, Auto-GPT został wyposażony w możliwości przeglądania, wykorzystując API Google Search. To wywołało debaty w społeczności AI dotyczące zakresu wiedzy AI.
Wykonywanie Kodu : Poza generowaniem kodu, Auto-GPT może wykonywać zarówno polecenia shell, jak i kod Python. Ta bezprecedensowa zdolność pozwala mu na interakcję z innymi oprogramowaniami, rozszerzając tym samym swój obszar operacyjny.

Diagram wizualizuje architekturę systemu AI zasilanego przez Duży Model Językowy i Agentów.

Dane Wejściowe : System otrzymuje dane z różnych źródeł: bezpośrednich poleceń użytkownika, uporządkowanych baz danych, treści internetowych i czujników środowiskowych w czasie rzeczywistym.
LLM i Agenci : W centrum, LLM przetwarza te dane, współpracując z wyspecjalizowanymi agentami, takimi jak Auto-GPT do łańcuchów myślowych, AgentGPT do zadań związanych z internetem, BabyAGI do działań związanych z zadaniami i HuggingGPT do przetwarzania zespołowego.
Dane Wyjściowe : Po przetworzeniu, informacje są przekształcane w przyjazny dla użytkownika format i następnie przekazywane do urządzeń, które mogą działać lub wpływać na otoczenie.
Składniki Pamięci : System zachowuje informacje, zarówno tymczasowo, jak i na stałe, za pomocą pamięci podręcznych i baz danych długoterminowych.
Środowisko : To jest zewnętrzny obszar, który wpływa na czujniki i jest wpływany przez działania systemu.

Zaawansowani Agenci AI: Auto-GPT, BabyAGI i więcej

AutoGPT i AgentGPT

Auto-GPT, dziecko wydane na GitHub w marcu 2023, jest genialną aplikacją opartą na Pythonie, która wykorzystuje potęgę GPT, przełomowego modelu generatywnego OpenAI. To, co odróżnia Auto-GPT od jego poprzedników, to jego autonomia – został zaprojektowany do podjęcia zadań z minimalnym nadzorem ludzkim i ma unikalną zdolność do samodzielnego inicjowania poleceń. Użytkownicy muszą tylko określić ogólny cel, a Auto-GPT tworzy wymagane polecenia, aby osiągnąć ten koniec, czyniąc go potencjalnie rewolucyjnym skokiem w kierunku prawdziwej sztucznej inteligencji ogólnej (AGI).

Z funkcjami, które obejmują łączność internetową, zarządzanie pamięcią i możliwości przechowywania plików przy użyciu GPT-3.5, to narzędzie jest zdolne do obsługi szerokiego spektrum zadań, od konwencjonalnych, takich jak tworzenie e-maili, po zadania skomplikowane, które zwykle wymagałyby znacznie większego zaangażowania ludzkiego.

Z drugiej strony, AgentGPT, również zbudowany na ramach GPT, jest interfejsem użytkownika, który nie wymaga obszernych umiejętności programistycznych do ustawienia i użycia. AgentGPT pozwala użytkownikom na definiowanie celów AI, które następnie rozkłada na zadania do wykonania.

Interfejs AgentGPT

Co więcej, AgentGPT wyróżnia się swoją wszechstronnością. Nie jest ograniczony do tworzenia czatbotów. Platforma rozszerza swoje możliwości na tworzenie różnorodnych aplikacji, takich jak bota Discord, i integruje się bezproblemowo z Auto-GPT. To podejście zapewnia, że nawet osoby bez obszernych umiejętności programistycznych mogą wykonywać zadania, takie jak pełnie autonomiczne kodowanie, generowanie tekstu, tłumaczenie języka i rozwiązywanie problemów.

LangChain jest ramą, która łączy Duże Modele Językowe (LLM) z różnymi narzędziami i wykorzystuje agenci, często postrzegani jako “Bots”, do określania i wykonywania konkretnych zadań, wybierając odpowiednie narzędzie. Ci agenci bezproblemowo integrują się z zewnętrznymi zasobami, podczas gdy baza danych wektorowa w LangChain przechowuje nieustrukturyzowane dane, ułatwiając szybkie pobieranie informacji dla LLM.

BabyAGI

Następnie, jest BabyAGI, uproszczony, lecz potężny agent. Aby zrozumieć możliwości BabyAGI, wyobraź sobie cyfrowego menedżera projektu, który samodzielnie tworzy, organizuje i wykonuje zadania z ostrym uwzględnieniem danych celów. Podczas gdy większość platform AI jest ograniczona przez swoją wstępną wiedzę, BabyAGI wyróżnia się zdolnością do adaptacji i uczenia się z doświadczeń. Posiada głęboką zdolność do rozpoznawania informacji zwrotnej i, podobnie jak ludzie, podejmuje decyzje na podstawie prób i błędów.

Co więcej, podstawowa siła BabyAGI nie leży tylko w jego adaptacyjności, ale także w jego umiejętności wykonywania kodu dla konkretnych celów. Świeci w złożonych dziedzinach, takich jak handel kryptowalutami, robotyka i samochody autonomiczne, czyniąc go wszechstronnym narzędziem w wielu aplikacjach.

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

Proces można podzielić na trzy agenci:

Agent Wykonawczy : Serce systemu, ten agent wykorzystuje API OpenAI do przetwarzania zadań. Dane celu i zadania, agent pobiera wyniki z API OpenAI.
Agent Tworzący Zadania : Ta funkcja tworzy nowe zadania na podstawie wcześniejszych wyników i bieżących celów. Polecenie jest wysyłane do API OpenAI, które zwraca potencjalne zadania, zorganizowane jako lista słowników.
Agent Priorytetowy : Ostateczna faza obejmuje sekwencjonowanie zadań na podstawie priorytetu. Ten agent wykorzystuje API OpenAI do ponownego uporządkowania zadań, zapewniając, że najważniejsze zadania są wykonywane jako pierwsze.

Współpracując z modelem językowym OpenAI, BabyAGI wykorzystuje możliwości Pinecone do przechowywania i pobierania wyników zadań w kontekście.

Poniżej znajduje się demonstracja BabyAGI za pomocą tego linku.

Aby rozpocząć, potrzebne będzie prawidłowe klucze OpenAPI. Dla łatwości dostępu, interfejs użytkownika ma sekcję ustawień, w której można wprowadzić klucz OpenAPI. Dodatkowo, jeśli chcesz zarządzać kosztami, pamiętaj, aby ustawić limit liczby iteracji.

Po skonfigurowaniu aplikacji, przeprowadziłem mały eksperyment. Wysłałem polecenie do BabyAGI: “Stwórz zwięzły wątek tweetów dotyczący podróży rozwoju osobistego, poruszający kamienie milowe, wyzwania i przemieniającą moc ciągłego uczenia się”.

BabyAGI odpowiedział dobrze przemyślanym planem. Nie był to tylko szablon, ale kompleksowa mapa drogowa, która wskazywała, że podstawowy AI rzeczywiście zrozumiał niuanse żądania.

Deepnote AI Copilot

Deepnote AI Copilot zmienia dynamikę eksploracji danych w notesach. Ale co go wyróżnia?

W swojej istocie, Deepnote AI ma na celu uzupełnienie przepływu pracy naukowców danych. W momencie, gdy dostarczysz podstawową instrukcję, AI wkracza do działania, opracowując strategie, wykonując zapytania SQL, wizualizując dane przy użyciu Pythona i prezentując swoje ustalenia w sposób wyrafinowany.

Jedną z sił Deepnote AI jest jego wszechstronne zrozumienie Twojej przestrzeni roboczej. Poprzez zrozumienie schematów integracji i systemów plików, idealnie dopasowuje swoje plany wykonawcze do kontekstu organizacyjnego, zapewniając, że jego spostrzeżenia są zawsze istotne.

Integracja AI z środowiskiem notesu tworzy unikalną pętlę sprzężenia zwrotnego. Aktywnie ocenia dane wyjściowe kodu, sprawiając, że jest on zdolny do samokorekty i zapewniając, że wyniki są zgodne z ustalonymi celami.

Deepnote AI wyróżnia się przejrzystymi operacjami, dostarczając wyraźne spostrzeżenia na temat swoich procesów. Połączenie kodu i danych wyjściowych zapewnia, że jego działania są zawsze odpowiedzialne i odtwarzalne.

CAMEL

CAMEL jest ramą, która dąży do wspierania współpracy między agentami AI, zmierzając do efektywnego wykonania zadań z minimalnym nadzorem ludzkim.

https://github.com/camel-ai/camel

Dzieli swoje operacje na dwa główne typy agentów:

Agent Użytkownika AI określa instrukcje.
Agent Asystenta AI wykonuje zadania na podstawie podanych dyrektyw.

Jednym z celów CAMEL jest rozplątanie złożoności procesów myślowych AI, dążąc do optymalizacji synergii między wieloma agentami. Z funkcjami, takimi jak role-playing i inception prompting, zapewnia, że zadania AI są w pełni zgodne z celami ludzkimi.

Symulacja Westworld: Życie w AI

Pochodząca z inspiracji, takich jak oprogramowanie Unity, i dostosowana w Pythonie, symulacja Westworld jest skokiem w symulowaniu i optymalizowaniu środowisk, w których wiele agentów AI wchodzi w interakcje, niczym cyfrowe społeczeństwo.

Agenci Generatywni

Ci agenci nie są tylko cyfrowymi jednostkami. Symulują wiarygodne zachowania ludzkie, od codziennych rutyn do skomplikowanych interakcji społecznych. Ich architektura rozszerza Duży Model Językowy do przechowywania doświadczeń, refleksji nad nimi i zastosowania ich do dynamicznego planowania zachowań.

Interaktywne środowisko piaskownicy Westworld, przypominające The Sims, ożywia miasteczko zaludnione przez agenci generatywne. Tutaj użytkownicy mogą wchodzić w interakcje, obserwować i kierować tymi agentami przez ich dzień, obserwując zachowania emergentne i skomplikowane dynamiki społeczne.

Symulacja Westworld jest harmonijnym połączeniem mocy obliczeniowej i ludzkich niuansów. Łącząc ogromne modele językowe z symulacjami agentów, toruje drogę ku tworzeniu doświadczeń AI, które są uderzająco nieodróżnialne od rzeczywistości.

Podsumowanie

Agenci AI mogą być niezwykle wszechstronnymi i kształtującymi branże, zmieniającymi przepływy pracy i umożliwiającymi osiągnięcia, które wcześniej wydawały się niemożliwe. Ale jak wszystkie przełomowe innowacje, nie są one pozbawione swoich niedoskonałości.

Podczas gdy mają moc przekształcenia samej tkanki naszego cyfrowego istnienia, ci agenci nadal mierzą się z pewnymi wyzwaniami, niektóre z nich są wewnętrznie ludzkie, takie jak zrozumienie kontekstu w subtelnych sytuacjach lub rozwiązywanie problemów, które leżą poza ich zadanymi zestawami danych.

W następnym artykule, zagłębimy się głębiej w Auto-GPT i GPT Engineer, badając, jak je ustawić i używać. Dodatkowo, będziemy badać powody, dla których ci agenci AI czasami zawodzą, takie jak wpadanie w pętle, wśród innych problemów. Tak więc, pozostańcie naładowani!

Aayush Mittal, Mittal

Przez ostatnie pięć lat zanurzałem się w fascynującym świecie Machine Learning i Deep Learning. Moja pasja i ekspertyza doprowadziły mnie do udziału w ponad 50 różnorodnych projektach inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja nieustanna ciekawość również skierowała mnie w stronę Natural Language Processing, dziedziny, którą chcę dalej eksplorować.

Unite.AI