Connect with us

Sztuczna inteligencja

GPT-3 : Few Shot Learning for Language Model?

mm

W ciągu ostatnich kilku lat branża AI i ML była świadkiem gwałtownego wzrostu rozwoju i zastosowania systemów NLP, ponieważ badacze byli w stanie wdrożyć praktyki NLP w wysoko elastyczny i niezależny od zadania sposób dla zadań przekazywanych poniżej.

Początkowo były to reprezentacje jednowarstwowe, które wykorzystywały wektory słów i były następnie podawane do architektury specyficznej dla zadania. Następnie była to architektura RNN, która wykorzystywała wielowarstwowe reprezentacje i kontekstowe stany, aby utworzyć lepsze reprezentacje. I najbardziej niedawno, mamy modele językowe przenoszenia lub wstępnie wytrenowane modele rekurencyjne, które całkowicie usunęły potrzebę architektur specyficznych dla zadania, poprzez dostrojenie tych sieci.

Modele językowe przenoszenia okazały się punktem zwrotnym w branży NLP, ponieważ doprowadziły do ogromnego postępu w wyzwaniach takich jak odpowiedzi na pytania, zrozumienie tekstu lub bloków tekstu, implikacja tekstowa i wiele innych.

Jednak pomimo ich zalet, modele językowe przenoszenia mają znaczącą wadę, ponieważ wymagają dostrojenia specyficznego dla zadania lub zestawu danych specyficznego dla zadania, aby osiągnąć pożądaną wydajność w zadaniu. Ponadto, modele językowe przenoszenia wymagają również, aby deweloperzy dostrojili zestawy danych do setek tysięcy przykładów specyficznych dla określonego zadania.

Jasne jest, że usunięcie wymogu zestawu danych specyficznego dla zadania i dostrojenia specyficznego dla zadania będzie bardzo pożądane i korzystne dla branży NLP z wielu powodów.

Problemy z istniejącymi wstępnie wytrenowanymi modelami językowymi przenoszenia lub modelami rekurencyjnymi

  • Ograniczanie praktyczności i stosowalności

Po pierwsze, wymóg dużej ilości danych z oznaczonymi danymi dla każdego zadania ogranicza stosowalność i praktyczność modeli językowych. Modele językowe znajdują swoje zastosowanie w szerokim zakresie zadań, od generowania krótkiej historii, poprzez korektę błędów gramatycznych, po generowanie przykładów na temat pojęcia. Czasami jest to trudne zadanie, aby zebrać duży nadzorowany zestaw danych z oznaczonymi danymi, zwłaszcza gdy proces musi być powtarzany dla każdego indywidualnego zadania.

  • Wykorzystywanie nieprawidłowych korelacji w danych szkoleniowych

Ograniczenia i wąskość dystrybucji szkoleniowej w połączeniu z wyrafinowaniem modelu może spowodować fundamentalny wzrost potencjału do wykorzystania nieprawidłowych korelacji w danych szkoleniowych. Potencjał do wykorzystania danych szkoleniowych może spowodować problemy podczas dostrojenia i wstępnego szkolenia, ponieważ modele językowe przenoszenia są zaprojektowane w taki sposób, aby pochłonąć dużą ilość informacji podczas wstępnego szkolenia.

Ponadto prace nad poprzednimi modelami wskazały, że duże modele nie zawsze prowadzą do lepszych wyników poza dystrybucją każdego razu. Ponadto również wskazano, że uogólnienie osiągnięte w takim paradygmacie może prowadzić do słabej wydajności, głównie dlatego, że model jest bardzo specyficzny dla danych szkoleniowych i nie może działać dobrze w sytuacjach poza zakresem danych szkoleniowych.

  • Porównanie z ludzkim uczeniem

Wreszcie, w porównaniu z modelami językowymi przenoszenia, ludzie nie wymagają dużej ilości danych szkoleniowych, gdy chodzi o naukę większości zadań językowych. Zwykle krótkie polecenie w języku naturalnym lub niewielka demonstracja zadania językowego jest wystarczająca, aby osoba mogła zrozumieć i wykonać zadanie językowe z pewnym poziomem konkurencyjności.

Ludzka zdolność do adaptacji ma wiele praktycznych zalet, ponieważ pozwala im albo przełączać się między różnymi zestawami umiejętności, albo łączyć je, aby lepiej działać podczas dialektu, co wykracza poza możliwości obecnych systemów NLP.

Rozwiązywanie problemów za pomocą uczenia meta i GPT-3

Możliwym rozwiązaniem powyższych wyzwań jest użycie uczenia meta, pojęcia w nowoczesnym ML, które pozwala modelowi rozwinąć szerszy zestaw umiejętności i zdolność do rozpoznawania wzorców podczas szkolenia, a następnie wykorzystuje te nauczone zdolności podczas inferencji, aby szybko dostosować się lub rozpoznać wymagane zadanie.

Uczenie meta jest wdrażane w architekturze modelu językowego za pomocą techniki zwanej „uczeniem w kontekście”, która wykorzystuje dane wejściowe tekstu wstępnie wytrenowanego modelu językowego jako specyfikację zadania. W procesie model warunkuje się na poleceniu języka naturalnego i może nawet wykorzystać kilka demonstracji, a model jest następnie oczekiwany, aby ukończyć resztę zadania, przewidując następne kroki.

Jedynym głównym problemem z uczeniem meta jest to, że chociaż wykazało ono pozytywny potencjał, jest ono nadal gorsze niż podejście dostrojenia w architekturze języka naturalnego, i wymaga dalszych ulepszeń, aby stać się praktyczną metodą pokonywania zadań językowych.

Ponadto, oprócz uczenia meta, inną metodą, która zyskuje na popularności, jest zwiększanie pojemności modeli językowych transformatora. W ciągu ostatnich kilku lat modele przenoszenia świadczyły o znacznym zwiększeniu ich pojemności z modelem RNSS18 z 100 milionami parametrów, modelem DCLT18 z 300 milionami parametrów, modelem RWC19 z 1,5 miliardem parametrów, modelem SSP19 z 8 miliardami parametrów, modelem RSR19 z 11 miliardami parametrów, i modelem TUR20 z 17 miliardami parametrów.

Zwiększanie pojemności modelu lub zwiększanie parametrów historycznie prowadziło do ulepszeń w syntezie tekstu, i było wskazane, że logarytmiczna strata, która koreluje z zadaniami poniżej, również podąża gładkiemu trendowi ulepszania wraz ze skalą.

To prowadzi nas do modelu GPT-3, który ma ponad 175 miliardów parametrów, i gdy został uruchomiony, był modelem językowym przenoszenia o największej pojemności. Porozmawiajmy teraz o modelu GPT-3.

Wprowadzenie do modelu GPT-3

GPT-3 to autoagresywny model językowy z ponad 175 miliardami parametrów, który został wydany przez OpenAI w 2020 roku. GPT-3 jest również klasyfikowany jako duży model językowy, który podobnie jak jego poprzednik model GPT-2 jest modelem transformatora głębokiego uczenia, który wykorzystuje architekturę opartą na splotach do generowania danych tekstowych.

Model GPT-3 mierzy swoje własne zdolności do uczenia się w kontekście, a model GPT-3 jest oceniany na ponad dwóch tuzinach zestawów danych NLP i wielu nowych zadań. Dla każdego indywidualnego zadania model GPT-3 jest oceniany w trzech warunkach,

  • Uczenie się w kilku przypadkach lub uczenie się w kontekście: W uczeniu się w kilku przypadkach model GPT-3 pozwala na tyle dystrybucji, ile może pomieścić okno kontekstu modelu.
  • Uczenie się w jednym przypadku: W uczeniu się w jednym przypadku model pozwala tylko na jedną demonstrację.
  • Uczenie się w zerowym przypadku: W uczeniu się w zerowym przypadku nie ma demonstracji, a jest tylko polecenie w języku naturalnym, które jest podawane do modelu.

Ogólnie rzecz biorąc, model GPT-3 osiąga pożądaną wydajność w ustawieniach zero-shot i one-shot, a w ustawieniu few-shot wyprzedza modele przenoszenia stanu sztuki większości czasu. Ponadto model GPT-3 działa dobrze w ustawieniach one-shot i zero-shot w zadaniach języka naturalnego zaprojektowanych do testowania naocznej argumentacji, lub wymagających szybkiej uwagi, takich jak używanie nowych słów po zdaniu, lub odtwarzanie słów, lub wykonywanie operacji arytmetycznych. Z drugiej strony, gdy działa w ustawieniu few-shot, model GPT-3 generuje syntetyczne artykuły prasowe, które przypominają pisanie ludzkie, gdy są przekazywane przez oceniających ludzkich.

Podejście modelu GPT-3

Model GPT-3 wykorzystuje konwencjonalne podejście wstępnego szkolenia, które składa się z modelu, danych i szkolenia, i przypomina proces wstępnego szkolenia, który został wykonany przez model przenoszenia RWC-19. Model GPT-3 zwiększa rozmiar modelu, rozmiar zestawu danych, różnorodność zestawu danych i zwiększa długość okresu szkolenia.

Model również wykorzystuje podejście uczenia się w kontekście, które jeszcze raz przypomina podejście modelu RWC-19, ale modyfikuje rzeczy, systematycznie eksplorując różne ustawienia dla uczenia się wzorców w kontekście zestawu danych.

Więc, zacznijmy od eksploracji tych ustawień i oceny, jak model GPT-3 działa w różnych ustawieniach.

Dostrojenie

Dostrojenie modelu było konwencjonalnym podejściem w modelach językowych przenoszenia, i to podejście obejmuje aktualizację wag wstępnie wytrenowanego modelu, szkoląc model na nadzorowanym zestawie danych, który jest specyficzny dla pożądanego zadania, i setki tysięcy oznaczonych przykładów są używane podczas procesu.

Podejście dostrojenia jest korzystne, ponieważ daje silną wydajność w wielu benchmarkach. Z drugiej strony, główną wadą podejścia dostrojenia jest to, że wymaga nowego i dużego zestawu danych dla każdego indywidualnego zadania, ma potencjał do wykorzystania nieprawidłowych cech zestawu danych szkoleniowych, może potencjalnie prowadzić do niesprawiedliwego porównania z wydajnością ludzką i słabą uogólnieniem dla danych poza dystrybucją.

Bieżący zakres modelu GPT-3 nie wdraża podejścia dostrojenia ze względu na jego zadaniowo niezależną wydajność, chociaż dostrojenie może być zastosowane do modelu GPT-3 w przyszłości.

Uczenie się w kilku przypadkach

Uczenie się w kilku przypadkach to termin, który odnosi się do ustawienia, w którym model GPT-3 jest podawany kilka demonstracji zadania podczas inferencji jako warunkowanie, ale wagi modelu nie są aktualizowane. W ustawieniu few-shot zestaw danych zwykle ma przykład z kontekstem i pożądanym ukończeniem (na przykład zdanie francuskie i jego tłumaczenie angielskie). Ustawienie few-shot daje modelowi K przykładów kontekstu i ukończenia, a następnie zapewnia modelowi jeden ostatni kontekst i oczekuje, że model dostarczy ukończenie.

Główną zaletą korzystania z ustawienia few-shot jest to, że znacznie redukuje potrzebę danych specyficznych dla zadania i również redukuje potencjał do nauki wąskiej dystrybucji z dużego zestawu danych, który jest dostrojony wąsko. Z drugiej strony, główną wadą korzystania z uczenia się w kilku przypadkach jest to, że wyniki dostarczane w ustawieniu few-shot nie są na poziomie i znacznie gorsze w porównaniu z innymi modelami stanu sztuki, które są dostrojone.

Uczenie się w jednym przypadku

W ustawieniu one-shot model jest podawany tylko jedną demonstrację, a reszta jest podobna do ustawienia few-shot. Powodem, dla którego ustawienie one-shot jest istotne w modelach językowych przenoszenia, jest to, że spośród wszystkich trzech ustawień one-shot jest tym, które najbardziej przypomina sposób, w jaki zadania są komunikowane ludziom. Jest to dlatego, że w większości zadań zwykle podaje się jedną demonstrację zadania, w przeciwnym razie może być trudno zrozumieć kontekst zadania.

Uczenie się w zerowym przypadku

W ustawieniu zero-shot nie ma demonstracji, a model jest podawany polecenie języka naturalnego, które opisuje zadanie. Metoda zero-shot jest tą, która oferuje maksymalną wygodę, jest wytrzymała i również unika nieprawidłowych korelacji, ale jest również najtrudniejszym ze wszystkich trzech ustawień. Jest to dlatego, że w niektórych przypadkach jest nawet trudno dla ludzi rozpoznać kontekst zadania bez zobaczenia demonstracji najpierw.

Niezależnie od tego, dla niektórych zadań ustawienie zero-shot jest tym, które najbardziej przypomina, jak ludzie wykonują zadania języka naturalnego.

Powyższy rysunek porównuje ustawienia few-shot, one-shot i zero-shot podczas wykonywania zadania języka naturalnego, takiego jak tłumaczenie zdania angielskiego na francuski.

Architektura modelu GPT-3

Model GPT-3 wykorzystuje tę samą architekturę, co ta użyta w modelu GPT-2, i obejmuje pre-normalizację, zmodyfikowaną inicjalizację i techniki tokenizacji odwracalnej, tak jak w modelu GPT, z wyjątkiem użycia alternatywnej strategii dla lokalnie pasmowych wzorców uwagi i warstw gęstych w warstwach transformatora, podobnie jak w transformatorze rzadkim.

Aby zbadać zależność wydajności modelu od rozmiaru modelu, deweloperzy wytrenowali 8 różnych rozmiarów modelu, które sięgają ponad trzy różne rzędy wielkości od 125 milionów do ponad 175 miliardów parametrów, a ostatni z nich nazywa się modelem GPT-3. Prace poprzednie związane z modelami LLM wskazały, że skalowanie straty walidacyjnej z wystarczającą ilością danych szkoleniowych powinno być przybliżonym gładkim prawem potęgowym jako funkcja rozmiaru. Szkolenie modeli różnych rozmiarów pozwala deweloperom przetestować hipotezę zarówno dla zadań języka naturalnego, jak i dla straty walidacyjnej.

Powyższy rysunek porównuje rozmiar i architekturę 8 różnych modeli użytych do opracowania modelu GPT-3. Tutaj n(params) definiuje łączną liczbę wzorców trenowalnych, n(layers) definiuje łączną liczbę warstw w modelu, d(model) definiuje liczbę jednostek w każdej warstwie gardła, a d(head) definiuje wymiary każdej głowy uwagi. Okno kontekstu dla każdego modelu jest takie same z 2048 tokenami.

Ponadto, aby zminimalizować transfer danych między węzłami, model jest podzielony na GPU wzdłuż głębokości i szerokości wymiarów. Parametry architektury dla każdego modelu zostały wybrane na podstawie wydajności obliczeniowej i równoważenia obciążenia, aby maksymalizować precyzję w układzie modeli na GPU.

Zestawy danych szkoleniowych

Zwykle duże modele językowe wykorzystują zestawy danych, które znacznie się rozrosły wraz z ostatnimi rozwojem, i kulminują w zestawie danych Common Crawl, który składa się z ponad biliona różnych słów. Rozmiar zestawu danych jest wystarczająco duży, aby wytrenować model GPT-3 bez aktualizacji na tym samym ciągu wiele razy. Jednak studia i analiza wydajności wskazują, że lekko przefiltrowane wersje lub nieprzefiltrowane wersje zestawu danych Common Crawl mają niską jakość w porównaniu z bardziej uważnie wyselekcjonowanymi zestawami danych.

Aby rozwiązać problem średniej jakości zestawu danych, deweloperzy podjęli 3 kroki, aby poprawić jakość zestawu danych.

  1. Deweloperzy pobrali i przefiltrowali wersję zestawu danych Common Crawl na podstawie zakresu podobnego do wysokiej jakości korpusów referencyjnych.
  2. Deweloperzy wykonali rozmytą duplikację na poziomie dokumentu w całym zestawie danych w celu zachowania integralności ich zestawu walidacyjnego jako skutecznej miary nadmiarowości i zapobiegania redundancji.
  3. Deweloperzy również dodali wysokiej jakości korpusy referencyjne do zestawu danych szkoleniowych, aby uzupełnić zestaw danych Common Crawl i dalej zwiększyć różnorodność zestawu danych.

Poniższy rysunek pokazuje ostateczny udział lub mieszaninę zestawów danych użytych do szkolenia modelu GPT-3. Dane Common Crawl składały się z ponad 45 TB danych tekstowych przed filtrowaniem, które zostało zmniejszone do 570 GB danych po filtrowaniu, co jest przybliżonym odpowiednikiem ponad 400 miliardów tokenów zakodowanych w parach bajtów. Warto zauważyć, że zestawy danych w szkoleniu, które są uważane za wyższej jakości, są próbkowane z większą częstotliwością niż próbkowanie proporcjonalne do ich rozmiaru. W rezultacie zestawy danych takie jak Books2 i Common Crawl są próbkowane mniej niż jeden raz podczas szkolenia, podczas gdy inne zestawy danych są próbkowane wiele razy. Pozwala to modelowi zaakceptować niewielką ilość nadmiarowości w zamian za szkolenie na danych szkoleniowych o wyższej jakości.

Istotną kwestią w dużych modelach językowych wstępnie wytrenowanych na dużej ilości danych internetowych z możliwością zapamiętania i nauczenia się dużej ilości treści jest potencjalne zanieczyszczenie zadań poniżej przez to, że ich zestawy rozwojowe lub testowe są widziane podczas wstępnego szkolenia. Aby zmniejszyć takie potencjalne zanieczyszczenie, deweloperzy wyszukali jakiekolwiek nakładania się z zestawami testowymi i rozwojowymi benchmarków badanych dla modelu GPT-3 i próbowali usunąć te nakładania się.

Powyższy obraz pokazuje łączne obliczenia użyte podczas szkolenia modelu GPT-3. Model wykorzystuje prawa skalowania dla modeli językowych neuronowych, aby szkolić znacznie większe modele na mniej tokenów niż typowe. W rezultacie zarówno model GPT-3, jak i model RoBERTa-Large, który jest 10 razy mniejszy niż model GPT-3, wymagały prawie 50 petaflopsów obliczeń dziennie podczas wstępnego szkolenia.

Ocena

Dla uczenia się w kilku przypadkach model ocenia każdy przykład w zestawie danych testowych, losowo wybierając K przykładów z zestawu danych szkoleniowych dla zadania jako warunkowanie i ograniczając je 1 lub 2 nowymi liniami w zależności od zadania. Dla Storycloze i LAMBADA model wybiera przykłady warunkowe z zestawu rozwojowego i ocenia je w zestawie testowym ze względu na brak nadzorowanego zestawu danych szkoleniowych. Dla Winograda istnieje tylko jeden zestaw danych, więc przykłady warunkowe są wybierane bezpośrednio z niego.

K może być dowolną wartością od 0 do maksymalnej ilości dozwolonej przez okno kontekstu modelu, które jest next = 2048 dla wszystkich modeli i zwykle mieści od 10 do 100 przykładów. Większe wartości K często prowadzą do lepszych wyników, ale nie zawsze, dlatego gdy model ma zestaw testowy i oddzielny zestaw rozwojowy, model eksperymentuje z kilkoma wartościami K w zestawie rozwojowym i na podstawie wyników uruchamia najlepszą wartość w zestawie testowym.

Ponadto w zadaniach, które wymagają wyboru poprawnego ukończenia spośród kilku opcji, deweloperzy dostarczają K przykładów poprawnego ukończenia plus kontekstu, a następnie podaje jeden przykład kontekstu tylko, a zadania są porównywane na podstawie prawdopodobieństwa modelu językowego każdego ukończenia. Dla zadań, które wymagają klasyfikacji binarnej, modele często dają opcje bardziej semantycznie i z bardziej znaczącymi nazwami i traktują zadanie jako wybór wielokrotny i czasami również ramują zadanie podobnie jak model RSR i architektura.

Dla zadań, które wymagają swobodnego ukończenia, model wykorzystuje wyszukiwanie wiązek z parametrami identycznymi jak w ramie RSR, z wiązką długości 4 i karą 0,6. Model jest następnie oceniany za pomocą współczynnika podobieństwa F1, dokładnego dopasowania lub BLEU, w zależności od standardu dla zestawu danych.

Wyniki

Powyższy rysunek pokazuje krzywe szkoleniowe dla 8 modeli użytych w architekturze modelu GPT-3, jak opisano w poprzednich sekcjach. Podobnie jak wyniki z modelu językowego KMH, wydajność modelu GPT-3 podąża za prawem, gdy używa skutecznie obliczeń szkoleniowych. Istnieje niewielka różnica od prawa tylko wtedy, gdy trend jest rozszerzony o dwa rządki wielkości. Może się wydawać, że ulepszenia w stracie entropii krzyżowej mogą być wynikiem modelowania nieprawidłowych szczegółów korpusu szkoleniowego. Jednak ulepszenia w stracie entropii krzyżowej prowadzą do ciągłych zysków w ogólnej wydajności w szerokim zakresie zadań NLP.

Przed oceną 8 różnych modeli na szerokim zakresie danych szkoleniowych, zestawy danych są pogrupowane w 8 różnych kategorii, które reprezentują podobne zadania. Te kategorie to

  1. Ocena na tradycyjnych zadaniach modelowania języka i zadaniach, które przypominają modelowanie języka, takich jak zadania Cloze, lub ukończenie zdania/akapitu.
  2. Ocena na „zamkniętych książkach” zadaniach odpowiedzi na pytania.
  3. Ocena zdolności modelu do tłumaczenia między językami (szczególnie w jednym przypadku i kilku przypadkach).
  4. Ocena wydajności modelu w zadaniach podobnych do Winograda.
  5. Ocena na zestawach danych, które obejmują rozumowanie zdroworozsądkowe lub odpowiedzi na pytania.
  6. Ocena na zadaniach zrozumienia tekstu.
  7. Ocena na benchmarku SuperGLUE.
  8. Eksploracja NLI.

Modelowanie języka, ukończenie i zadania Cloze

W tej sekcji wydajność modelu GPT-3 jest oceniana na tradycyjnych zadaniach modelowania języka, a także zadaniach, które wymagają przewidywania jednego słowa interesu, lub ukończenia akapitu lub zdania, lub ukończenia części tekstu. Porozmawiajmy o nich w krótkim szczególe.

Modelowanie języka

Model GPT-3 oblicza perplexity zero-shot na zestawie danych PTB lub Penn Tree Bank. Model pomija zadania związane z Wikipedią, ponieważ są one już uwzględnione w danych szkoleniowych modelu, a benchmark jednego miliarda słów jest również pomijany, ponieważ powoduje znaczną frakcję zestawu danych, który jest w danych szkoleniowych. Jednak zestaw danych PTB rozwiązuje te problemy, ponieważ może poprzedzać nowoczesny internet. Największy model w architekturze modelu GPT-3 ustanawia nowy stan sztuki na zestawie danych PTB o znaczącej przewadze 15 punktów i osiąga perplexity 20,50.

LAMBADA

Zestaw danych LAMBADA jest używany do testowania modelowania modelu na dalekosiężnych zależnościach w akapitach lub tekstach. Oznacza to, że model jest proszony o przewidywanie ostatniego słowa zdania po przeczytaniu akapitu dla kontekstu. Ponadto ciągłe skalowanie modeli językowych prowadzi do malejących zwrotów z benchmarku.

Model GPT-3 osiąga 76% dokładności w LAMBADA i ma zysk ponad 8% w porównaniu z poprzednimi najlepszymi modelami. Ponadto model LAMBADA demonstruje elastyczność uczenia się w kilku przypadkach, ponieważ rozwiązał problem w sposób, który występuje klasycznie z zestawem danych. Ukończenie zdania w LAMBADA jest zwykle ostatnim słowem zdania, ale ponieważ model językowy nie może wiedzieć o tym, przypisuje prawdopodobieństwo nie tylko poprawnemu zakończeniu, ale także innym kontynuacjom w akapicie.

Ponadto, gdy przykłady podane modelowi GPT-3 są zmieniane w pewien sposób, model zwraca dokładność ponad 86%, co stanowi wzrost o ponad 18% w porównaniu z poprzednimi modelami. Dodatkowo wyniki również wskazały, że wydajność modelu w ustawieniu few-shot wzrasta proporcjonalnie ze wzrostem rozmiaru modelu. Chociaż ta strategia redukuje najmniejszy model w architekturze GPT-3 o 20%, zwiększa dokładność podstawowego modelu GPT-3 z 175 miliardami parametrów o 10%.

Odpowiedzi na pytania w zamkniętej książce

Odpowiedzi na pytania w zamkniętej książce to próba pomiaru zdolności modelu GPT-3 do odpowiedzi na pytania na podstawie ogólnej wiedzy faktograficznej. Ponieważ takie pytania często mają dużą ilość możliwych zapytań, zadanie jest zwykle osiągane za pomocą systemu odzyskiwania informacji, który pozwala modelowi znaleźć odpowiedni tekst w połączeniu z modelem, który uczy się generować odpowiedź na pytanie wraz z odzyskanym tekstem i pytaniem.

Powyższy obraz porównuje wyniki dla modelu GPT-3 w porównaniu z różnymi modelami i uruchamianymi na różnych zestawach danych. W zestawie danych TriviaQA model osiąga wynik dokładności 64,3% w ustawieniu zero-shot, podczas gdy osiąga wynik dokładności 68% i 71,2% w ustawieniach one-shot i few-shot odpowiednio.

Można wyraźnie zobaczyć, że model GPT-3 w ustawieniu zero-shot przewyższa dostrojony model T5-11B o ponad 14%.

Powyższy rysunek pokazuje, że wydajność modelu GPT-3 wzrasta gładko wraz ze wzrostem rozmiaru modelu. Wydajność sugeruje, że modele językowe nadal uczą się z zestawu danych, gdy ich pojemność wzrasta.

Końcowe myśli

Bezpiecznie można powiedzieć, że GPT-3 był rewolucyjną fazą w branży LLM, ponieważ GPT-3 pomógł w posunięciu granic tego, co mógł zrobić model językowy. Były to rozwój i pokonanie przeszkód przez GPT-3, które przyprowadziły najbardziej zaawansowany i dokładny duży model językowy do tej pory, GPT-4.

"Inżynier z zawodu, pisarz z serca". Kunal jest technicznym pisarzem z głęboką miłością i zrozumieniem AI i ML, poświęconym uproszczeniu złożonych pojęć w tych dziedzinach poprzez swoje angażujące i informacyjne dokumentacje.