stub GPT-3: Mało możliwości uczenia się w modelu językowym? - Unite.AI
Kontakt z nami

Artificial Intelligence

GPT-3: Mało możliwości uczenia się w modelu językowym?

mm

Opublikowany

 on

W ciągu ostatnich kilku lat branża sztucznej inteligencji i uczenia maszynowego była świadkiem błyskawicznego wzrostu rozwoju i stosowania systemów NLP, ponieważ badaczom udało się wdrożyć praktyki NLP w wysoce elastyczny i niezależny od zadań sposób w celu przekazywania zadań na później. 

Początkowo były to reprezentacje jednowarstwowe, w których wykorzystywano wektory słów, a następnie wprowadzano je do architektury specyficznej dla zadania. Następnie była to architektura RNN, która wykorzystywała reprezentacje wielowarstwowe i stan kontekstowy do tworzenia lepszych reprezentacji. Ostatnio mamy modele języka transferu lub wstępnie wyszkolone modele powtarzalne, które całkowicie wyeliminowały potrzebę tworzenia architektur specyficznych dla zadań poprzez dostrojenie tych sieci. 

Modele języka transferu okazały się głównym punktem zwrotnym w branży NLP, ponieważ zaowocowały ogromnym postępem w trudnych zadaniach, takich jak odpowiadanie na pytania, czytanie ze zrozumieniem lub bloki tekstu, implikacje tekstowe i wiele innych. 

Jednak pomimo swoich zalet modele języka transferu mają poważne ograniczenia, ponieważ wymagają dostrojenia specyficznego dla zadania lub zbioru danych specyficznego dla zadania, aby osiągnąć pożądaną wydajność zadania. Co więcej, modele języka transferu wymagają od programistów dostrojenia zbiorów danych do setek tysięcy przykładów specyficznych dla konkretnego zadania. 

Jest rzeczą oczywistą, że usunięcie wymogu dotyczącego zbioru danych specyficznego dla zadania oraz dostrojenie specyficzne dla zadania będzie wysoce pożądane i korzystne dla branży NLP z wielu powodów. 

Problemy z istniejącymi, wstępnie wyszkolonymi modelami języka transferu lub modelami powtarzalnymi

  • Ograniczenie praktyczności i zastosowania

Przede wszystkim wymóg dużego zbioru danych z oznaczonymi danymi dla każdego zadania ogranicza zastosowanie i praktyczność modeli językowych. Modele językowe znajdują zastosowanie w różnorodnych zadaniach, począwszy od tworzenia opowiadań, poprzez poprawianie błędów gramatycznych, aż po generowanie przykładów koncepcji. Czasami zgromadzenie dużego, nadzorowanego zbioru danych z oznakowanymi danymi jest trudnym zadaniem, zwłaszcza gdy proces musi być powtarzany dla każdego pojedynczego zadania. 

  • Wykorzystywanie fałszywych korelacji w danych szkoleniowych

Ograniczenia i zawężenie rozkładu uczenia w połączeniu z ekspresją modelu mogą skutkować zasadniczym wzrostem potencjału wykorzystania fałszywych korelacji w danych uczących. Potencjał wykorzystania danych szkoleniowych może powodować problemy podczas dostrajania i paradygmatu przedtreningowego, ponieważ modele języka transferu są zaprojektowane w taki sposób, aby absorbować dużą ilość informacji podczas treningu przedszkoleniowego. 

Co więcej, prace nad wcześniejszymi modelami wykazały, że duże modele nie skutkują lepszą dystrybucją za każdym razem. Co więcej, wskazano również, że uogólnienie osiągnięte w ramach takiego paradygmatu może skutkować słabą wydajnością, przede wszystkim dlatego, że model jest wysoce specyficzny dla danych uczących i nie może dobrze działać w sytuacjach wykraczających poza zakres danych uczących. 

  • Porównanie z uczeniem się człowieka

Wreszcie, w porównaniu z modelami języka transferowego, ludzie nie wymagają dużego zbioru danych szkoleniowych, jeśli chodzi o naukę większości zadań językowych. Najczęściej krótka dyrektywa w języku naturalnym danej osoby lub niewielka demonstracja zadania językowego wystarcza, aby człowiek mógł zrozumieć i wykonać zadanie językowe z pewnym poziomem konkurencyjności. 

Zdolność człowieka do adaptacji ma wiele praktycznych zalet, ponieważ pozwala mu przełączać się między różnymi zestawami umiejętności lub mieszać je razem, aby lepiej działać w dialekcie, co wykracza poza możliwości obecnych systemów NLP. 

Rozwiązywanie problemów związanych z Meta Learning i GPT-3

Możliwym rozwiązaniem powyższych wyzwań jest zastosowanie metauczenia się, koncepcji współczesnego uczenia maszynowego, która pozwala modelowi rozwinąć większy i szerszy zestaw umiejętności i zdolności rozpoznawania wzorców podczas szkolenia, a następnie wykorzystuje te wyuczone umiejętności podczas zakłóceń w celu dostosowania szybko lub rozpoznać wymagane zadanie. 

Meta Learning jest wdrażany w architekturze modelu języka za pomocą techniki zwanej „uczenie się w kontekście”, który wykorzystuje wprowadzanie tekstu wstępnie wytrenowanego modelu języka jako specyfikację zadania. W tym procesie model opiera się na instrukcji języka naturalnego i może nawet skorzystać z kilku demonstracji, po czym oczekuje się, że model wykona resztę zadania, przewidując kolejne kroki. 

Jedynym poważnym problemem związanym z Meta Learning jest to, że chociaż wykazała ona pozytywny potencjał, nadal jest gorsza od podejścia dostrajania w architekturze języka naturalnego i wymaga dalszego udoskonalania, aby stała się praktyczną metodą pokonywania zadań językowych. 

Oprócz metauczenia się inną metodą zyskującą na popularności jest zwiększanie możliwości modeli języka transformatorowego. W ciągu ostatnich kilku lat modele transferu zaobserwowały znaczny wzrost ich wydajności w zakresie RNSS18 model ze 100 milionami parametrów, DCLT18 model ze 300 milionami parametrów, RWC19 model z 1.5 miliarda parametrów, SSP19 model z 8 miliarda parametrów, RSR19 model z 11 miliardami parametrów oraz TUR20 model z 17 miliardami parametrów. 

Zwiększanie wydajności modelu lub zwiększanie parametrów w przeszłości powodowało poprawę syntezy tekstu i istnieją przesłanki, że utrata logów, która koreluje z dalszymi zadaniami, również wykazuje płynną tendencję do poprawy wraz ze skalą. 

To prowadzi nas do modelu GPT-3, który ma ponad 175 miliardów parametrów i kiedy został wprowadzony na rynek, był to model języka transferu o największej wydajności. Porozmawiajmy teraz o modelu GPT-3. 

Wprowadzenie do modelu GPT-3

GPT-3 to autoagresywny model języka z ponad 175 miliardami parametrów, który został wydany przez OpenAI w 2020 roku. GPT-3 jest również klasyfikowany jako duży model językowy że podobnie jak jego poprzednik, model GPT-2 jest modelem transformatora głębokiego uczenia się przeznaczonym wyłącznie do dekodera, który wykorzystuje architekturę opartą na splocie do generowania danych tekstowych. 

Model GPT-3 mierzy własne możliwości uczenia się kontekstowego, a model GPT-3 jest oceniany na podstawie ponad dwudziestu zbiorów danych NLP i wielu nowatorskich zadań. Dla każdego indywidualnego zadania model GPT-3 jest oceniany w trzech warunkach:

  • Niewiele uczenia się metodą strzału lub uczenia się w kontekście: W przypadku uczenia się kilkoma strzałami model GPT-3 pozwala na tyle dystrybucji, które dobrze mieszczą się w oknie kontekstowym modelu. 
  • Nauka jednym strzałem: W przypadku uczenia się jednym strzałem model umożliwia tylko jedną demonstrację. 
  • Nauka zerowego strzału: W przypadku uczenia się metodą zerową nie ma demonstracji, a jedynie instrukcje w języku naturalnym wprowadzane do modelu. 

Ogólnie rzecz biorąc, Model GPT-3 osiąga pożądaną wydajność w ustawieniach zerowego i jednorazowego strzału, a w ustawieniu kilku strzałów w większości przypadków przewyższa najnowocześniejsze modele transferu. Co więcej, model GPT-3 dobrze radzi sobie z ustawieniami jednorazowymi i zerowymi w zadaniach z językiem naturalnym, które mają na celu sprawdzenie rozumowania w locie lub wymagają szybkiej uwagi, np. używania nowych słów po zdaniu, rozszyfrowywania słów lub wykonywania obliczeń arytmetycznych. operacje. Z drugiej strony, gdy model GPT-3 działa w trybie kilku zdjęć, generuje syntetyczne artykuły prasowe, które po przejściu przez osoby oceniające przypominają ludzkie pismo. 

Model GPT-3: Podejście

Model GPT-3 wykorzystuje konwencjonalne podejście do treningu przedtreningowego, które obejmuje model, dane i szkolenie, i przypomina proces przedszkoleniowy, po którym następuje model języka transferu RWC-19. Model GPT-3 zwiększa rozmiar modelu, rozmiar zbioru danych, różnorodność zbioru danych i zwiększa długość okresu uczenia. 

Model wykorzystuje również podejście do uczenia się w kontekście, które ponownie przypomina podejście modelu RWC-19, ale nieco poprawia sytuację, systematycznie badając różne ustawienia wzorców uczenia się w kontekście zbioru danych. 

Zacznijmy więc od zbadania tych ustawień i oceńmy, jak model GTP-3 radzi sobie w różnych ustawieniach. 

Strojenie

Dostrajanie modelu było konwencjonalnym podejściem w transferze modele językowe, a to podejście obejmuje aktualizację wag wstępnie wytrenowanego modelu poprzez uczenie modelu na nadzorowanym zestawie danych specyficznym dla żądanego zadania, a w trakcie procesu wykorzystywane są setki tysięcy oznaczonych etykietami przykładów. 

Podejście dostrajające jest korzystne, ponieważ zapewnia dobre wyniki w wielu testach porównawczych. Z drugiej strony, głównym ograniczeniem stosowania podejścia dostrajania jest to, że wymaga ono nowego i dużego zbioru danych dla każdego indywidualnego zadania, może wykorzystywać fałszywe cechy zbioru danych uczących, może potencjalnie skutkować nieuczciwym porównaniem z wydajnością człowieka i słabe uogólnienie dla braku dystrybucji. 

Obecny zakres modelu GPT-3 nie uwzględnia podejścia dostrajania ze względu na jego wydajność niezależną od zadania, chociaż w przyszłości do modelu GPT-3 można zastosować dostrajanie. 

Kilka strzałów

Few Shot to termin odnoszący się do ustawienia, w którym model GPT-3 wykonuje kilka demonstracji wykonania zadania podczas interferencji w ramach kondycjonowania, ale wagi modelu nie są aktualizowane. W przypadku kilku ustawień ujęcia zbiór danych zazwyczaj zawiera przykład z kontekstem i pożądanym uzupełnieniem (na przykład zdanie francuskie i jego tłumaczenie na język angielski). Ustawienie kilku strzałów daje model K przykłady kontekstu i zakończenia, a następnie dostarcza modelowi jeden ostateczny kontekst i oczekuje, że model zapewni uzupełnienie. 

Główną zaletą korzystania z ustawienia kilku strzałów jest to, że znacznie zmniejsza ono zapotrzebowanie na dane specyficzne dla zadania, a także zmniejsza możliwość uczenia się wąskiej dystrybucji na podstawie dużego, precyzyjnie dostrojonego zbioru danych. Z drugiej strony, główną wadą korzystania z uczenia się kilku strzałów jest to, że wyniki uzyskane przy ustawieniu kilku strzałów nie są zadowalające i znacznie słabe w porównaniu z innymi najnowocześniejszymi modelami, które są precyzyjnie dostrojone. 

One Shot

W ustawieniu one shot model wyposażony jest tylko w jedną demonstrację, a reszta przebiega podobnie jak przy ustawieniu kilku shotów. Powodem, dla którego ustawienie jednego strzału jest istotne w modelach języka transferu, jest to, że ze wszystkich trzech ustawień jedno ujęcie najlepiej przypomina sposób, w jaki zadania są przekazywane ludziom. Dzieje się tak dlatego, że w przypadku większości zadań często przedstawia się jedną demonstrację zadania, w przeciwnym razie zrozumienie kontekstu zadania może być trudne. 

Zerowy strzał

W ustawieniu zerowym nie ma demonstracji, a model otrzymuje instrukcję w języku naturalnym opisującą zadanie. Metoda zerowego strzału to metoda zapewniająca maksymalną wygodę, solidna i pozwalająca uniknąć fałszywych korelacji, ale jednocześnie stanowiąca największe wyzwanie ze wszystkich trzech ustawień. Dzieje się tak dlatego, że w niektórych przypadkach nawet nam, ludziom, trudno jest zrozumieć kontekst zadania bez uprzedniego obejrzenia demonstracji. 

Niezależnie od tego, w przypadku niektórych zadań ustawienie zerowe jest tym, które najbardziej przypomina sposób, w jaki ludzie wykonują zadania z językiem naturalnym. 

Powyższy rysunek porównuje ustawienie kilku strzałów, jednego strzału i ustawienia zerowego strzału podczas wykonywania zadania w języku naturalnym polegającego na wzięciu zdania angielskiego i przetłumaczeniu go na francuski. 

GPT-3: Architektura modelu

Model GPT-3 wykorzystuje tę samą architekturę, co model GPT-2 i obejmuje techniki wstępnej normalizacji, zmodyfikowanej inicjalizacji i odwracalnej tokenizacji, tak jak były one stosowane w modelu GPT, z wyjątkiem użycia alternatywnego strategia dla lokalnie pasmowanych wzorców rzadkiej uwagi i naprzemiennych gęstych warstw w warstwach transformatora, podobna do Sparse Transformer. 

Aby zbadać zależność wydajności modelu od rozmiaru modelu, programiści wytrenowali 8 różnych rozmiarów modeli, które wahają się w trzech różnych rzędach wielkości od 125 milionów do ponad 175 miliardów parametrów, przy czym ostatni z nich nazywa się modelem GPT-3 . Wcześniejsze prace związane z modelami LLM wykazały, że skalowanie utraty walidacji przy wystarczającej ilości danych szkoleniowych powinno być w przybliżeniu równaniem gładkiej potęgi w funkcji rozmiaru. Modele szkoleniowe o różnej wielkości pozwalają programistom przetestować hipotezę zarówno pod kątem dalszych zadań językowych, jak i utraty walidacji. 

Powyższy rysunek porównuje rozmiar i architekturę 8 różnych modeli użytych do opracowania GPT-3. Tutaj n(params) definiuje całkowitą liczbę możliwych do wyszkolenia wzorców, n(layers) definiuje całkowitą liczbę warstw w modelu, d(model) określa liczbę jednostek w każdej warstwie wąskiego gardła, a d(head) definiuje wymiary każdej głowy uwagi. Okno kontekstowe dla każdego modelu jest takie samo z 2048 tokenami. 

Ponadto, aby zminimalizować transfer danych pomiędzy węzłami, model jest dzielony pomiędzy procesory graficzne według głębokości i szerokości wymiarów. Parametry architektoniczne każdego modelu zostały wybrane na podstawie wydajności obliczeniowej i równoważenia obciążenia, aby zmaksymalizować precyzję układu modeli na procesorach graficznych. 

Zestawy danych szkoleniowych

Zazwyczaj duże modele językowe wykorzystują zbiory danych, które znacznie się rozszerzyły wraz z ostatnimi zmianami, a ich kulminacją jest zbiór danych Common Crawl, który składa się z ponad biliona różnych słów. Rozmiar zbioru danych jest wystarczający, aby wytrenować model GPT-3 bez wielokrotnego aktualizowania tej samej sekwencji. Jednak badania i analizy wydajności wskazują, że lekko przefiltrowane lub niefiltrowane wersje zbioru danych Common Crawl mają niską jakość w porównaniu z bardziej sprawdzonymi zbiorami danych. 

Aby rozwiązać problem średniej jakości zbioru danych, programiści podjęli 3 kroki w celu poprawy jakości zbioru danych. 

  1. Programiści pobrali i przefiltrowali wersję zbioru danych Common Crawl w oparciu o zakres podobny do wysokiej jakości korpusów referencyjnych. 
  2. Deweloperzy wykonali rozmytą duplikację na poziomie dokumentu w całym zbiorze danych, próbując zachować integralność posiadanego zestawu walidacyjnego jako skuteczną miarę nadmiernego dopasowania, a także aby zapobiec nadmiarowości. 
  3. Programiści dodali także wysokiej jakości korpusy referencyjne do danych szkoleniowych, aby rozszerzyć zbiór danych Common Crawl i jeszcze bardziej zwiększyć jego różnorodność. 

Poniższy rysunek przedstawia ostateczną proporcję lub mieszaninę zbiorów danych wykorzystanych do uczenia modelu GPT-3. Dane Common Crawl składały się z ponad 45 TB zwykłego tekstu przed filtrowaniem, który po filtrowaniu został zredukowany do 570 GB danych, co stanowi przybliżony odpowiednik ponad 400 miliardów tokenów zakodowanych parami bajtów. Warto zauważyć, że zbiory danych w szkoleniu, które są postrzegane jako wyższej jakości, są próbkowane z większą częstotliwością, zamiast próbkowania zbioru danych proporcjonalnie do ich rozmiaru. W rezultacie zbiory danych takie jak Books2 i Common Crawl są próbkowane mniej niż raz podczas szkolenia, podczas gdy inne zbiory danych są próbkowane wielokrotnie. Pozwala to modelowi zaakceptować niewielką ilość nadmiernego dopasowania w zamian za trenowanie danych uczących o wyższej jakości. 

Istotnym problemem związanym z dużymi modelami językowymi, które są wstępnie szkolone na dużej ilości danych internetowych i zdolnymi do zapamiętywania i uczenia się dużej ilości treści, jest potencjalne zanieczyszczenie dalszych zadań poprzez oglądanie ich zestawów rozwojowych lub testowych podczas wstępnego proces szkoleniowy. Aby zmniejszyć takie potencjalne zanieczyszczenie, programiści szukali wszelkich pokrywających się zestawów testowych i rozwojowych benchmarków badanych dla GPT-3 i próbowali je usunąć. 

Powyższy obraz przedstawia całkowite obliczenia wykorzystane podczas uczenia modelu GPT-3. Model wykorzystuje prawa skalowania dla modeli języka neuronowego do uczenia znacznie większych modeli na mniejszej liczbie tokenów niż zwykle. W rezultacie zarówno model GPT-3, jak i RoBERTa-Large, czyli 10 razy mniejszy niż model GPT-3, wymagały prawie 50 petaflopów dziennie w procesie przedtreningowym. 

Ocena

W przypadku uczenia się przez kilka strzałów model ocenia każdy przykład obecny w zestawie danych ewaluacyjnych, losowo losując K przykładów ze zbioru danych szkoleniowych tego zadania w ramach warunku i ogranicza go 1 lub 2 znakami nowej linii, w zależności od zadania. W przypadku Storycloze i LAMBADA model rysuje przykłady warunkowania ze zbioru rozwojowego i ocenia je na zestawie testowym z powodu niedostępności nadzorowanego zestawu treningowego. Dla Winogradu istnieje tylko jeden zbiór danych, dlatego próbki kondycjonujące pobierane są bezpośrednio z niego. 

K może mieć dowolną wartość z zakresu od 0 do maksymalnej wartości dozwolonej przez okno kontekstowe modelu, czyli next = 2048 dla wszystkich modeli i zazwyczaj pasuje do około 10 do 100 przykładów. Większe wartości K często dają lepsze wyniki, ale nie zawsze, dlatego też, gdy model ma zestaw testowy i dostępny oddzielny zestaw programistyczny, model eksperymentuje na kilku wartościach K w zestawie deweloperskim i na podstawie wyników , uruchamia najlepszą wartość w zestawie testowym. 

Co więcej, w przypadku zadań wymagających wybrania prawidłowego zakończenia spośród wielu opcji programiści podają K przykładów poprawek i uzupełnienia kontekstu, a następnie podają tylko jeden przykład kontekstu, a następnie zadania są porównywane na podstawie prawdopodobieństwa LM każdego zakończenia. W przypadku zadań wymagających klasyfikacji binarnej modele często dają opcje bardziej semantycznie i z bardziej znaczącymi nazwami, a następnie traktują zadanie jako wielokrotnego wyboru, a czasami również formułują zadanie podobnie do tego, co jest wykonywane przez model i architekturę RSR. 

W przypadku zadań wymagających swobodnego wykonania model wykorzystuje wyszukiwanie belek z identycznymi parametrami jak w frameworku RSR, z wiązką o długości 4 i karą 0.6. Model jest następnie oceniany przy użyciu wyniku podobieństwa F1, dokładnego dopasowania lub BLEU, w zależności od standardu zbioru danych. 

Efekt

Powyższy rysunek przedstawia krzywe szkoleniowe dla 8 modeli używanych w architekturze modelu GPT-3, jak opisano w poprzednich sekcjach. Podobnie jak w przypadku modelu języka KMH, działanie modelu GPT-3 jest zgodne z właściwymi prawami przy efektywnym wykorzystaniu obliczeń uczących. Niewielka różnica w stosunku do prawa występuje tylko wtedy, gdy trend zostanie przedłużony o dwa kolejne rzędy wielkości. Ludziom może przyjść do głowy, że poprawa strat w entropii krzyżowej może wynikać z modelowania fałszywych szczegółów korpusu uczącego. Jednakże poprawa utraty entropii krzyżowej prowadzi do stałego wzrostu ogólnej wydajności w szerokim spektrum różnych zadań NLP. 

Przed oceną 8 różnych modeli na podstawie szerokiego zakresu danych szkoleniowych zbiory danych są grupowane w 8 różnych kategorii, które reprezentują podobne zadania. Te kategorie są

  1. Ocena tradycyjnych zadań modelowania języka oraz zadań przypominających modelowanie języka, takich jak zadania Cloze lub zadania uzupełniania zdań/akapitów. 
  2. Ocena zadań polegających na odpowiedzi na pytania „zamkniętej księgi”. 
  3. Ocena zdolności modelu do tłumaczenia między językami (zwłaszcza jednorazowego i kilkukrotnego)
  4. Ocena wydajności modelu w zadaniach typu Winograd Schema. 
  5. Ocenianie zbiorów danych, które wymagają zdroworozsądkowego rozumowania lub odpowiadania na pytania. 
  6. Ocena zadań z czytania ze zrozumieniem. 
  7. Ocena w pakiecie porównawczym SuperGLUE. 
  8. Odkrywanie NLI. 

Zadania modelowania języka, uzupełniania i zamykania

W tej sekcji wydajność modelu GPT-3 jest oceniana w przypadku zadań modelowania języka tradycyjnego, a także zadań wymagających przewidzenia pojedynczego interesującego słowa, uzupełnienia akapitu lub zdania lub uzupełnienia fragmentu tekstu. Omówmy je pokrótce szczegółowo. 

Modelowanie języka

Model GPT-3 oblicza zakłopotanie punktu zerowego w zbiorze danych PTB lub Penn Tree Bank. W modelu pominięto zadania związane z Wikipedią, ponieważ są one już uwzględnione w danych szkoleniowych modelu, a benchmark obejmujący miliard słów również został pominięty, ponieważ powoduje to znaczne tarcie zbioru danych znajdującego się w danych szkoleniowych. Jednak zbiór danych PTB rozwiązuje te problemy, ponieważ może być starszy niż współczesny Internet. Największy model w architekturze modelu GPT-3 osiąga nową SOTA w zbiorze danych PTB z godną uwagi przewagą 15 punktów i osiąga poziom złożoności 20.50. 

LAMBADA

Zbiór danych LAMBADA służy do testowania modelowania modelu na podstawie zależności dalekiego zasięgu w akapitach lub tekstach. Oznacza to, że model proszony jest o przewidzenie ostatniego słowa zdania po przeczytaniu akapitu pod kątem kontekstu. Co więcej, ciągłe skalowanie modeli językowych daje malejące zyski w porównaniu z benchmarkiem. 

Model GPT-3 osiąga 76% dokładności w LAMBADA i jest lepszy o ponad 8% w porównaniu z poprzednimi najlepszymi modelami. Co więcej, model LAMBADA demonstruje elastyczność uczenia się metodą kilku strzałów, ponieważ rozwiązuje problem w sposób klasyczny w przypadku zbioru danych. Dokończeniem zdania w LAMBADA jest zwykle ostatnie słowo zdania, ale ponieważ model językowy nie może tego wiedzieć, przypisuje prawdopodobieństwo nie tylko poprawnemu zakończeniu, ale także innym kontynuacjom w akapicie. 

Co więcej, jeśli przykłady wprowadzone do modelu GPT-3 zostaną w określony sposób zmodyfikowane, model zapewnia dokładność na poziomie ponad 86%, co stanowi wzrost o ponad 18% w porównaniu z poprzednimi modelami. Dodatkowo wyniki wykazały również, że wydajność modelu w ustawieniu kilku strzałów wzrasta proporcjonalnie do wzrostu rozmiaru modelu. Chociaż strategia ta zmniejsza najmniejszy model w architekturze GPT-3 o 20%, zwiększa dokładność podstawowego modelu GPT-3 ze 175 miliardami parametrów o 10%. 

Odpowiedzi na pytania w zamkniętej książce

Odpowiedzi na pytania w zamkniętej książce to próba zmierzenia zdolności modelu GPT-3 do odpowiadania na pytania w oparciu o szeroką wiedzę faktograficzną. Ponieważ takie pytania często zawierają dużą liczbę możliwych zapytań, zadanie jest zwykle realizowane przy użyciu systemu wyszukiwania informacji, który umożliwia modelowi znalezienie odpowiedniego tekstu w połączeniu z modelem, który uczy się generować odpowiedź na odpowiedź na podstawie pobranego tekstu, oraz pytanie. 

Powyższy obraz porównuje wyniki dla modelu GPT-3 w porównaniu z różnymi modelami i działającymi na różnych zbiorach danych. W zbiorze danych TriviaQA model osiąga dokładność na poziomie 64.3% przy ustawieniu zerowym, podczas gdy osiąga dokładność na poziomie 68% i 71.2% odpowiednio przy ustawieniach jednego i kilku strzałów. 

Widać wyraźnie, że model GPT-3 w ustawieniu zero-shot przewyższa dostrojony model T5-11B o ponad 14%. 

Powyższy rysunek pokazuje, że wydajność modelu GPT-3 rośnie płynnie wraz ze wzrostem rozmiaru modelu. Wyniki sugerują, że modele językowe w miarę wzrostu swoich możliwości nadal uczą się na podstawie zbioru danych. 

Final Thoughts

Można śmiało powiedzieć, że GPT-3 był rewolucyjną fazą w branży LLM, ponieważ GPT-3 pomógł w przesunięciu granic możliwości modelu językowego. To postęp i przeszkody pokonane przez GPT-3 utorowały drogę dla najbardziej zaawansowanego i dokładnego modelu wielkojęzykowego jak dotąd, GPT-4. 

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.