Liderzy opinii
Czy GPT-4 przybliży nas do prawdziwej rewolucji AI?

Minęło już prawie trzy lata od wprowadzenia GPT-3, które miało miejsce w maju 2020 roku. Od tego czasu model generacji tekstu AI wzbudził duże zainteresowanie ze względu na swoją zdolność tworzenia tekstu, który wygląda i brzmi jakby został napisany przez człowieka. Teraz wydaje się, że następna iteracja oprogramowania, GPT-4, jest już na horyzoncie, z przewidywaną datą wydania w pierwszej połowie 2023 roku.
Pomimo wysoko oczekiwanego charakteru tej wiadomości AI, dokładne szczegóły dotyczące GPT-4 są dość niejasne. OpenAI, firma odpowiedzialna za GPT-4, nie ujawniła publicznie wiele informacji na temat nowego modelu, takich jak jego funkcje lub możliwości. Niemniej jednak, niedawne postępy w dziedzinie AI, szczególnie w odniesieniu do przetwarzania języka naturalnego (NLP), mogą dostarczyć pewnych wskazówek na temat tego, czego możemy oczekiwać od GPT-4.
Co to jest GPT?
Przed przystąpieniem do szczegółów pomocne jest ustalenie podstawy na temat tego, czym jest GPT. GPT oznacza Generative Pre-trained Transformer i odnosi się do modelu sieci neuronowej głębokiego uczenia, który jest szkolony na danych dostępnych z Internetu w celu tworzenia dużych ilości generowanego przez maszynę tekstu. GPT-3 jest trzecią generacją tej technologii i jest jednym z najbardziej zaawansowanych modeli generacji tekstu AI dostępnych obecnie.
Wyobraź sobie GPT-3 jako działający trochę jak asystenci głosowi, takie jak Siri lub Alexa, tylko w znacznie większej skali. Zamiast prosić Alexa o odtworzenie ulubionej piosenki lub mając Siri wpisać tekst, możesz poprosić GPT-3 o napisanie całej książki elektronicznej w zaledwie kilka minut lub wygenerowanie 100 pomysłów na posty w mediach społecznościowych w mniej niż minutę. Wszystko, co użytkownik musi zrobić, to podać wskazówkę, taka jak “Napisz mi artykuł 500-słowny na temat znaczenia kreatywności”. O ile wskazówka jest jasna i szczegółowa, GPT-3 może napisać niemal wszystko, o co poprosisz.
Od czasu jego wydania dla ogółu GPT-3 znalazł wiele zastosowań biznesowych. Firmy wykorzystują go do podsumowywania tekstu, tłumaczenia języka, generowania kodu i dużej automatyzacji niemal każdego zadania związanego z pisanie.
To powiedziawszy, chociaż GPT-3 jest niewątpliwie bardzo imponujący w swojej zdolności tworzenia bardzo czytelnych, ludzkich tekstów, jest daleko od ideału. Problemy pojawiają się, gdy jest proszony o napisanie dłuższych utworów, szczególnie w przypadku złożonych tematów, które wymagają wglądu. Na przykład wskazówka, aby wygenerować kod komputerowy dla strony internetowej, może zwrócić poprawny, ale nieoptymalny kod, więc człowiek-koder musi jeszcze wejść i wprowadzić ulepszenia. Jest to podobny problem z dużymi dokumentami tekstowymi: im większy volumen tekstu, tym bardziej prawdopodobne, że błędy – czasem zabawne – pojawią się i będą wymagać poprawienia przez ludzkiego pisarza.
Po prostu mówiąc, GPT-3 nie jest pełnym zastępstwem dla ludzkich pisarzy czy kodujących, i nie powinno się go tak traktować. Zamiast tego GPT-3 powinien być postrzegany jako asystent do pisania, który może zaoszczędzić ludziom wiele czasu, gdy muszą generować pomysły na posty na blogu lub szkice do kopii reklamowych lub prasowych.
Czy więcej parametrów oznacza lepiej?
Jedną rzeczą, którą trzeba zrozumieć o modelach AI, jest to, jak wykorzystują one parametry do dokonywania przewidywań. Parametry modelu AI definiują proces uczenia i zapewniają strukturę dla danych wyjściowych. Liczba parametrów w modelu AI została ogólnie użyta jako miara wydajności. Im więcej parametrów, tym bardziej potężny, gładki i przewidywalny jest model, przynajmniej według hipotezy skalowania.
Na przykład, gdy GPT-1 został wydany w 2018 roku, miał 117 milionów parametrów. GPT-2, wydany rok później, miał 1,2 miliarda parametrów, podczas gdy GPT-3 zwiększył liczbę jeszcze wyżej do 175 miliardów parametrów. Według wywiadu z Wired z sierpnia 2021 roku, Andrew Feldman, założyciel i CEO Cerebras, firmy partnerującej z OpenAI, wspomniał, że GPT-4 będzie miał około 100 bilionów parametrów. To sprawiłoby, że GPT-4 jest 100 razy potężniejszy niż GPT-3, skok kwantowy w rozmiarze parametrów, który zrozumiale wywołał wiele entuzjazmu.
Jednak pomimo ambitnych twierdzeń Feldmana, istnieją dobre powody, aby sądzić, że GPT-4 nie będzie miał 100 bilionów parametrów. Im większa liczba parametrów, tym droższy staje się model w szkoleniu i dostosowywaniu ze względu na ogromne ilości mocy obliczeniowej wymaganej.
Ponadto istnieją więcej czynników niż tylko liczba parametrów, które określają skuteczność modelu. Weźmy na przykład Megatron-Turing NLG, model generacji tekstu zbudowany przez Nvidia i Microsoft, który ma ponad 500 miliardów parametrów. Pomimo swojego rozmiaru, MT-NLG nie zbliża się do GPT-3 pod względem wydajności. Innymi słowy, większy niekoniecznie oznacza lepszy.
Prawdopodobnie GPT-4 będzie miał więcej parametrów niż GPT-3, ale pozostaje niejasne, czy ta liczba będzie rzędu wielkości wyższym. Zamiast tego istnieją inne interesujące możliwości, które OpenAI prawdopodobnie realizuje, takie jak lżejszy model, który koncentruje się na jakościowych ulepszeniach w projekcie algorytmicznym i wyrównaniu. Dokładny wpływ takich ulepszeń jest trudny do przewidzenia, ale wiadomo, że model rzadki może zmniejszyć koszty obliczeniowe za pomocą tzw. obliczeń warunkowych, tj. nie wszystkie parametry w modelu AI będą działać cały czas, co jest podobne do tego, jak neurony w ludzkim mózgu działają.
Czy GPT-4 będzie mógł…
Aż OpenAI wyda nowe oświadczenie lub nawet wyda GPT-4, zostajemy zmuszeni do spekulacji na temat tego, jak będzie się różnił od GPT-3. Niezależnie od tego, możemy poczynić pewne przewidywania
Chociaż przyszłość rozwoju głębokiego uczenia AI jest multimodalna, GPT-4 prawdopodobnie pozostanie tylko tekstowy. Jako ludzie, żyjemy w świecie wielozmysłowym, wypełnionym różnymi dźwiękami, wizualnymi i tekstowymi wprowadzeniami. Dlatego jest nieuniknione, że rozwój AI w końcu wyprodukuje model multimodalny, który może uwzględniać różne wprowadzenia.
Jednak dobry model multimodalny jest znacznie trudniejszy do zaprojektowania niż model tylko tekstowy. Technologia po prostu nie jest jeszcze tam i opierając się na tym, co wiemy o ograniczeniach rozmiaru parametrów, jest prawdopodobne, że OpenAI koncentruje się na rozwijaniu i poprawie modelu tylko tekstowego.
Prawdopodobnie GPT-4 będzie mniej zależny od precyzyjnego podpowiadania. Jedną z wad GPT-3 jest to, że tekstowe podpowiadania muszą być starannie napisane, aby uzyskać pożądany wynik. Gdy podpowiadania nie są starannie napisane, można otrzymać dane wyjściowe, które są nieprawdziwe, toksyczne lub nawet odzwierciedlające ekstremistyczne poglądy. To jest część tego, co nazywa się “problemem wyrównania” i odnosi się do wyzwań w tworzeniu modelu AI, który w pełni rozumie intencje użytkownika. Innymi słowy, model AI nie jest wyrównany z celami lub intencjami użytkownika. Ponieważ modele AI są szkolone przy użyciu zbiorów danych tekstowych z Internetu, jest bardzo łatwo, aby ludzkie uprzedzenia, fałsze i uprzedzenia znalazły się w danych wyjściowych.
To powiedziawszy, istnieją dobre powody, aby wierzyć, że deweloperzy robią postępy w rozwiązywaniu problemu wyrównania. Ten optymizm pochodzi z pewnych przełomów w rozwoju InstructGPT, bardziej zaawansowanej wersji GPT-3, która jest szkolona na podstawie ludzkiej opinii, aby śledzić instrukcje i intencje użytkownika. Ludzie-sędziowie stwierdzili, że InstructGPT był znacznie mniej zależny od GPT-3 od dobrych podpowiedzi.
Jednak powinno się zauważyć, że te testy były prowadzone tylko z pracownikami OpenAI, dość jednorodną grupą, która może się nie różnić wiele pod względem płci, religii lub poglądów politycznych. Prawdopodobnie jest to bezpieczna założenie, że GPT-4 będzie przechodził bardziej zróżnicowane szkolenie, które poprawi wyrównanie dla różnych grup, choć w jakim stopniu pozostaje niejasne.
Czy GPT-4 zastąpi ludzi?
Pomimo obietnicy GPT-4, jest mało prawdopodobne, że całkowicie zastąpi potrzebę ludzkich pisarzy i kodujących. Jest jeszcze wiele pracy do wykonania na wszystkim, od optymalizacji parametrów po multimodalność i wyrównanie. Może to potrwać wiele lat, zanim zobaczymy generator tekstu, który może osiągnąć prawdziwe ludzkie zrozumienie złożoności i niuansów prawdziwego doświadczenia.
Nawet tak, istnieją jeszcze dobre powody, aby być podekscytowanym nadchodzącym GPT-4. Optymalizacja parametrów – a nie tylko wzrost parametrów – prawdopodobnie doprowadzi do modelu AI, który ma znacznie więcej mocy obliczeniowej niż jego poprzednik. I poprawione wyrównanie sprawi, że GPT-4 będzie znacznie bardziej przyjazny dla użytkownika.
Ponadto jesteśmy jeszcze tylko na początku rozwoju i przyjęcia narzędzi AI. Coraz więcej przypadków użycia tej technologii jest ciągle odkrywanych, a gdy ludzie zyskają więcej zaufania i komfortu z używaniem AI w miejscu pracy, jest prawie pewne, że zobaczymy powszechne przyjęcie narzędzi AI w niemal każdej branży biznesowej w nadchodzących latach.












