škrbina GPT-3 : Malo učenja za model jezika? - Ujedinite se.AI
Povežite se s nama

Umjetna inteligencija

GPT-3 : Malo učenja za model jezika?

mm

Objavljeno

 on

U proteklih nekoliko godina industrija umjetne inteligencije i strojnog učenja svjedočila je meteorskom usponu u razvoju i primjeni NLP sustava jer su istraživači uspjeli implementirati NLP prakse na vrlo fleksibilne načine koji ne ovise o zadacima za nizvodne zadatke prijenosa. 

U početku su jednoslojni prikazi koristili vektore riječi, a zatim su uneseni u arhitekturu specifičnu za zadatak. Sljedeće, arhitektura RNN koristila je višeslojne prikaze i kontekstualno stanje za stvaranje boljih prikaza. I nedavno, imamo modele jezika prijenosa ili unaprijed obučene rekurentne modele koji su u potpunosti uklonili potrebu za arhitekturama specifičnim za zadatak finim podešavanjem ovih mreža. 

Modeli prijenosnih jezika pokazali su se velikom prekretnicom u NLP industriji budući da su rezultirali golemim napretkom u izazovnim zadacima kao što su odgovaranje na pitanja, razumijevanje čitanja ili blokova teksta, tekstualno uključivanje i još mnogo toga. 

Međutim, unatoč svojim prednostima, modeli jezika prijenosa imaju veliko ograničenje jer zahtijevaju fino podešavanje specifično za zadatak ili skup podataka specifičan za zadatak kako bi se postigla željena izvedba na zadatku. Nadalje, jezični modeli prijenosa također zahtijevaju od programera fino podešavanje skupova podataka na stotine tisuća primjera specifičnih za određeni zadatak. 

Podrazumijeva se da će uklanjanje zahtjeva za skup podataka specifičnih za zadatak i fino podešavanje specifično za zadatak biti vrlo poželjno i korisno za NLP industriju iz brojnih razloga. 

Problemi s postojećim unaprijed obučenim modelima jezika za prijenos ili ponavljajućim modelima

  • Ograničavanje praktičnosti i primjenjivosti

Prvo i najvažnije, zahtjev za velikim skupom podataka s označenim podacima za svaki zadatak ograničava primjenjivost i praktičnost jezičnih modela. Jezični modeli pronalaze svoju primjenu u širokom spektru zadataka, od generiranja kratke priče, do ispravljanja gramatičkih pogrešaka, do generiranja primjera koncepta. Ponekad je izazovan zadatak prikupiti veliki nadzirani skup podataka s označenim podacima, osobito kada se postupak mora ponoviti za svaki pojedinačni zadatak. 

  • Iskorištavanje lažnih korelacija u podacima o obuci

Ograničenja i uskost distribucije obuke zajedno s izražajnošću modela mogu rezultirati temeljnim rastom potencijala za iskorištavanje lažnih korelacija u podacima o obuci. Mogućnost iskorištavanja podataka o obuci može rezultirati problemima tijekom finog podešavanja i paradigme prije obuke jer su modeli jezika prijenosa dizajnirani na način da apsorbiraju veliku količinu informacija tijekom prethodne obuke. 

Nadalje, rad na prethodnim modelima pokazao je da veliki modeli ne rezultiraju boljim izbacivanjem iz distribucije svaki put. Nadalje, također je naznačeno da generalizacija postignuta pod takvom paradigmom može rezultirati lošom izvedbom prvenstveno zato što je model vrlo specifičan za podatke o obuci i ne može dobro funkcionirati u situacijama izvan opsega podataka o obuci. 

  • Usporedba s ljudskim učenjem

Konačno, u usporedbi s modelima prijenosa jezika, ljudima nije potreban veliki skup podataka za obuku kada je u pitanju učenje većine jezičnih zadataka. Najčešće je kratka uputa na nečijem prirodnom jeziku ili mala demonstracija jezičnog zadatka dovoljna da čovjek razumije i izvrši jezični zadatak uz određenu razinu konkurentnosti. 

Ljudska sposobnost prilagodbe ima brojne praktične prednosti jer im omogućuje da se prebacuju između različitih skupova vještina ili ih miješaju kako bi bolje radili tijekom dijalekta, nešto što je izvan mogućnosti trenutnih NLP sustava. 

Rješavanje problema pomoću meta učenja i GPT-3

Moguće rješenje za gore navedene izazove je korištenje meta učenja, koncepta u modernom ML-u koji modelu omogućuje razvoj većeg i šireg skupa vještina i sposobnosti prepoznavanja obrazaca tijekom treninga, a zatim koristi te naučene sposobnosti tijekom interferencije za prilagodbu brzo ili prepoznati traženi zadatak. 

Meta učenje se implementira u arhitekturu jezičnog modela putem tehnike zvane "učenje u kontekstu” koji koristi unos teksta prethodno obučenog jezičnog modela kao specifikaciju zadatka. U tom procesu model uvjetuje instrukcije prirodnog jezika, a možda čak koristi i nekoliko demonstracija, a zatim se od modela očekuje da dovrši ostatak zadatka predviđanjem sljedećih koraka. 

Jedini veliki problem s Meta učenjem je taj što je, iako je pokazalo pozitivan potencijal, još uvijek inferiorno u odnosu na pristup finog podešavanja u arhitekturi prirodnog jezika i potrebno ga je dodatno poboljšati kako bi postalo praktična metoda za prevladavanje jezičnih zadataka. 

Uz meta učenje, još jedna metoda koja dobiva na popularnosti je povećanje kapaciteta transformatorskih jezičnih modela. U posljednjih nekoliko godina, modeli prijenosa svjedočili su značajnom povećanju kapaciteta s RNSS18 model sa 100 milijuna parametara, DCLT18 model sa 300 milijuna parametara, RWC19 model s 1.5 milijardi parametara, SSP19 model s 8 milijardi parametara, RSR19 model s 11 milijardi parametara, i TUR20 model sa 17 milijardi parametara. 

Povećanje kapaciteta modela ili povećanje parametara povijesno je rezultiralo poboljšanjima u sintezi teksta, a postoje naznake da gubitak dnevnika, koji je u korelaciji s nizvodnim zadacima, također slijedi gladak trend poboljšanja s ljestvicom. 

To nas dovodi do modela GPT-3 koji ima preko 175 milijardi parametara, a kada je lansiran, to je bio model jezika za prijenos s najvećim kapacitetom. Razgovarajmo sada o modelu GPT-3. 

Uvod u model GPT-3

GPT-3 je autoagresivni jezični model s preko 175 milijardi parametara koji je objavio OpenAI 2020. GPT-3 je također klasificiran kao veliki jezični model da je baš kao i njegov prethodnik GPT-2 model transformatorski model dubokog učenja samo za dekoder koji koristi arhitekturu temeljenu na konvoluciji za generiranje tekstualnih podataka. 

GPT-3 model mjeri vlastite sposobnosti učenja konteksta, a GPT-3 model se procjenjuje na više od dva tuceta NLP skupova podataka i više novih zadataka. Za svaki pojedinačni zadatak, GPT-3 model se ocjenjuje pod tri uvjeta,

  • Učenje s nekoliko udaraca ili učenje u kontekstu: U nekoliko snimaka učenja, model GPT-3 dopušta onoliko distribucija koje se mogu dobro uklopiti u kontekstni prozor modela. 
  • Jednokratno učenje: U jednom učenju, model dopušta samo jednu demonstraciju. 
  • Učenje bez pokušaja: Kod učenja bez pokušaja nema demonstracija, a postoji samo uputa na prirodnom jeziku koja se šalje modelu. 

Široko govoreći, GPT-3 model postiže željenu izvedbu u postavkama s nultim udarom i postavkama s jednim udarcem, au postavkama s nekoliko pokušaja većinu vremena nadmašuje najsuvremenije prijenosne modele. Nadalje, model GPT-3 ima dobre performanse u jednokratnim i nultim postavkama u zadacima prirodnog jezika koji su osmišljeni za testiranje rasuđivanja u hodu, ili zahtijeva brzu pozornost kao što je korištenje novih riječi nakon rečenice, ili dešifriranje riječi, ili izvođenje aritmetike operacije. S druge strane, kada radi u postavci s nekoliko snimaka, GPT-3 model generira sintetičke novinske članke koji nalikuju ljudskom pisanju kada prolaze kroz ljudske evaluatore. 

GPT-3 Model: Pristup

GPT-3 model koristi konvencionalni pristup prije obuke koji se sastoji od modela, podataka i obuke, i nalikuje procesu prethodne obuke koji slijedi model RWC-19 jezika prijenosa. Model GPT-3 povećava veličinu modela, veličinu skupa podataka, raznolikost skupa podataka i povećava duljinu razdoblja obuke. 

Model također koristi pristup učenja u kontekstu koji ponovno sliči pristupu modela RWC-19, ali malo mijenja stvari sustavnim istraživanjem različitih postavki za obrasce učenja unutar konteksta skupa podataka. 

Dakle, počnimo s istraživanjem ovih postavki i procijenimo kako model GTP-3 radi na različitim postavkama. 

Fino podešavanje

Fino podešavanje modela bio je konvencionalni pristup u prijenosu jezični modeli, a ovaj pristup uključuje ažuriranje težina prethodno uvježbanog modela uvježbavanjem modela na nadziranom skupu podataka koji je specifičan za željeni zadatak, a tijekom procesa koriste se stotine tisuća označenih primjera. 

Pristup finog podešavanja je koristan jer vraća snažne performanse u brojnim referentnim vrijednostima. S druge strane, glavno ograničenje upotrebe pristupa finog podešavanja je to što zahtijeva novi i veliki skup podataka za svaki pojedinačni zadatak, ima potencijal za iskorištavanje lažnih značajki skupa podataka za obuku, potencijalno može rezultirati nepravednom usporedbom s ljudskom izvedbom , i loša generalizacija za izvandistribuciju. 

Trenutačni opseg GPT-3 modela ne implementira pristup finog podešavanja zbog njegovih performansi neovisnih o zadacima, iako se fino podešavanje može primijeniti na model GPT-3 u budućnosti. 

Nekoliko udaraca

Few Shot je pojam koji se odnosi na postavku u kojoj model GPT-3 dobiva nekoliko demonstracija zadatka tijekom ometanja kao uvjetovanja, ali se težine modela ne ažuriraju. U postavkama nekoliko snimaka, skup podataka obično ima primjer s kontekstom i željenim završetkom (na primjer, francuska rečenica i njezin engleski prijevod). Postavka nekoliko snimaka daje model K primjere konteksta i završetka, a zatim modelu daje jedan konačni kontekst i očekuje da model pruži završetak. 

Glavna prednost korištenja postavke nekoliko snimaka je ta što značajno smanjuje potrebu za podacima specifičnim za zadatak, a također smanjuje mogućnost učenja uske distribucije iz velikog skupa podataka koji je fino usko podešen. S druge strane, glavni nedostatak korištenja učenja s nekoliko snimaka je taj što rezultati postignuti u postavci s nekoliko snimaka nisu na visini i značajno su loši u usporedbi s drugim najsuvremenijim modelima koji su fino podešeni. 

One Shot

U postavci za jedan snimak, model ima samo jednu demonstraciju, a ostalo je slično postavci za nekoliko snimaka. Razlog zašto je postavka jedne snimke relevantna u modelima jezika prijenosa je taj što je od sve tri postavke, jedna postavka ona koja najbolje sliči načinu na koji se zadaci komuniciraju s ljudima. To je zato što je u većini zadataka uobičajeno dati jednu demonstraciju zadatka jer bi inače moglo biti teško razumjeti kontekst zadatka. 

Nulti pogodak

U postavci zero shot nema demonstracija, a model dobiva upute na prirodnom jeziku koje opisuju zadatak. Metoda nulte slike je ona koja nudi maksimalnu pogodnost, robusna je i također izbjegava lažne korelacije, ali je i najzahtjevnija od sve tri postavke. To je zato što je u nekim slučajevima čak i nama ljudima teško dokučiti kontekst zadatka bez prethodne demonstracije. 

Bez obzira na to, za neke zadatke zero shot postavka je ona koja je najbliža načinu na koji ljudi obavljaju zadatke prirodnog jezika. 

Gornja slika uspoređuje postavku nekoliko pokušaja, jednog pokušaja i nulte postavke prilikom izvođenja zadatka prirodnog jezika uzimanja engleske rečenice i njenog prijevoda na francuski. 

GPT-3: Arhitektura modela

GPT-3 model koristi istu arhitekturu kao ona korištena u GPT-2 modelu, a uključuje pre-normalizaciju, modificiranu inicijalizaciju i reverzibilne tehnike tokenizacije kao što su korištene na GPT-modelu, uz iznimku korištenja alternativnog strategija za lokalno ograničene prorijeđene uzorke pažnje i izmjenične guste slojeve u slojevima transformatora, slično Sparse Transformeru. 

Kako bi proučili ovisnost performansi modela o veličini modela, programeri su uvježbali 8 različitih veličina modela koje se kreću u tri različita reda veličine od 125 milijuna do preko 175 milijardi parametara, a posljednji od njih nazvan je model GPT-3 . Prethodni rad povezan s LLM modelima pokazao je da bi skaliranje gubitka valjanosti s dovoljnom količinom podataka o obučavanju trebalo biti približan glatki zakon snage kao funkcija veličine. Modeli obuke različitih veličina omogućuju programerima da testiraju hipotezu i za nizvodne jezične zadatke kao i za gubitak valjanosti. 

Gornja slika uspoređuje veličinu i arhitekturu 8 različitih modela korištenih za razvoj GPT-3. Ovdje n(params) definira ukupan broj uzoraka koji se mogu obučiti, n(layers) definira ukupan broj slojeva u modelu, d(model) definira broj jedinica u svakom sloju uskog grla, a d(head) definira dimenzije svake glave za pozornost. Kontekstni prozor za svaki model je isti s 2048 tokena. 

Nadalje, kako bi se smanjio prijenos podataka između čvorova, model je podijeljen na GPU-ove po dubini i širini dimenzija. Arhitektonski parametri za svaki model odabrani su na temelju računalne učinkovitosti i balansiranja opterećenja kako bi se povećala preciznost u rasporedu modela na GPU-u. 

Skupovi podataka za obuku

Tipično, veliki jezični modeli koriste skupove podataka koji su se značajno proširili nedavnim razvojem, a kulminiraju skupom podataka Common Crawl koji se sastoji od više od trilijun različitih riječi. Veličina skupa podataka dovoljno je primjerena za obuku modela GPT-3 bez višestrukog ažuriranja istog niza. Međutim, studije i analiza izvedbe pokazuju da slabo filtrirane verzije ili nefiltrirane verzije skupa podataka Common Crawl imaju nisku kvalitetu u usporedbi s odabranijim skupom podataka. 

Kako bi riješili problem prosječne kvalitete skupa podataka, programeri su poduzeli 3 koraka za povećanje kvalitete skupa podataka. 

  1. Programeri su preuzeli i filtrirali verziju skupa podataka Common Crawl na temelju raspona sličnog referentnim korpusima visoke kvalitete. 
  2. Programeri su izvršili neizrazito dupliciranje na razini dokumenta u cijelom skupu podataka u pokušaju da očuvaju integritet svog zadržanog skupa za provjeru valjanosti kao učinkovitu mjeru prekomjernog opremanja, a također i kako bi spriječili redundanciju. 
  3. Programeri su također dodali visokokvalitetne referentne korpuse podacima za obuku kako bi povećali skup podataka Common Crawl i dodatno povećali raznolikost skupa podataka. 

Sljedeća slika prikazuje konačni udio ili mješavinu skupova podataka korištenih za obuku GPT-3 modela. Podaci Common Crawl-a sastojali su se od preko 45 TB otvorenog teksta prije filtriranja koji je smanjen na 570 GB podataka nakon filtriranja, što je grubi ekvivalent preko 400 milijardi parova bajtova kodiranih tokena. Vrijedno je napomenuti da se skupovi podataka u obuci koji se smatraju kvalitetnijim uzorkuju s većom učestalošću umjesto uzorkovanja omjera skupa podataka prema njihovoj veličini. Kao rezultat toga, skupovi podataka kao što su Books2 & Common Crawl uzorkuju se manje od jednom tijekom obuke, dok se drugi skupovi podataka uzorkuju više puta. Omogućuje modelu da prihvati malu količinu prekomjernog opremanja u zamjenu za obuku na podacima o obuci s višom kvalitetom. 

Značajna zabrinutost kod velikih jezičnih modela koji su unaprijed uvježbani na velikoj količini internetskih podataka sa sposobnošću pamćenja i učenja velike količine sadržaja je potencijalna kontaminacija nizvodnih zadataka tako što se njihov razvoj ili testni skupovi vide tijekom pred- trenažni proces. Kako bi smanjili takvu potencijalnu kontaminaciju, programeri su tražili sva preklapanja s testnim i razvojnim skupovima referentnih vrijednosti proučavanih za GPT-3 i pokušali su ukloniti ta preklapanja. 

Gornja slika prikazuje ukupno računanje korišteno tijekom obuke modela GPT-3. Model koristi zakone skaliranja za modele neuronskih jezika za treniranje mnogo većih modela na manje tokena od uobičajenih. Kao rezultat toga, i GPT-3 i RoBERTa-Large model, koji je 10x manji od modela GPT-3, uzimali su gotovo 50 petaflopa/dan računanja tijekom procesa prije obuke. 

Procjena

Za učenje u nekoliko pokušaja, model procjenjuje svaki primjer prisutan u skupu podataka o procjeni tako što nasumično izvlači K primjera iz skupa podataka za obuku tog zadatka kao uvjetovanje i odvaja ga s 1 ili 2 nova retka, ovisno o zadatku. Za Storycloze i LAMBADA, model izvlači primjere kondicioniranja iz skupa za razvoj i ocjenjuje ih na skupu za testiranje zbog nedostupnosti skupa za obuku pod nadzorom. Za Winograd postoji samo jedan skup podataka, pa se uzorci za kondicioniranje izvlače izravno iz njega. 

K može biti bilo koja vrijednost u rasponu od 0 do maksimalnog iznosa dopuštenog kontekstnim prozorom modela koji je next = 2048 za sve modele, a obično odgovara 10 do 100 primjeraka. Veće vrijednosti K često rezultiraju boljim rezultatima, ali ne uvijek i to je razlog zašto kada model ima testni skup i dostupan odvojeni razvojni skup, model eksperimentira s nekoliko vrijednosti K na razvojnom skupu i na temelju rezultata , ima najbolju vrijednost na ispitnom skupu. 

Nadalje, na zadacima koji zahtijevaju odabir ispravnog dovršetka iz više opcija, razvojni programeri daju K primjera ispravka plus dovršetak konteksta, i prate to pružajući samo jedan primjer konteksta, a zadaci se zatim uspoređuju na temelju LM vjerojatnosti svakog završetka. Za zadatke koji zahtijevaju binarnu klasifikaciju, modeli često daju opcije više semantički i sa smislenijim imenima, a zatim tretiraju zadatak kao višestruki izbor, a ponekad i okvire zadatka slično onome što radi RSR model i arhitektura. 

Za zadatke koji zahtijevaju dovršetak slobodnog oblika, model koristi pretraživanje snopa s identičnim parametrima kao što se koristi u RSR okviru, s snopom duljine 4 i kaznom od 0.6. Model se zatim ocjenjuje korištenjem F1 ocjene sličnosti, točnog podudaranja ili BLEU, ovisno o standardu za skup podataka. 

Rezultati

Gornja slika prikazuje krivulje obuke za 8 modela korištenih u arhitekturi modela GPT-3, kao što je opisano u prethodnim odjeljcima. Slično rezultatima modela jezika KMH, izvedba modela GPT-3 slijedi pravilan zakon kada se učinkovito koristi računanje za obuku. Postoji mala razlika od zakona samo kada se trend produži za još dva reda veličine. Ljudima bi moglo pasti na pamet da bi poboljšanja u unakrsnom gubitku entropije mogla biti rezultat modeliranja lažnih detalja korpusa za obuku. Međutim, poboljšanja u unakrsnom entropijskom gubitku dovode do dosljednih dobitaka u ukupnoj izvedbi u širokom spektru različitih NLP zadataka. 

Prije evaluacije 8 različitih modela na širokom rasponu podataka o obuci, skupovi podataka su grupirani u 8 različitih kategorija koje predstavljaju slične zadatke. Ove kategorije su

  1. Evaluacija zadataka tradicionalnog jezičnog modeliranja i zadataka koji nalikuju jezičnom modeliranju poput Cloze zadataka ili zadataka dovršavanja rečenica/odlomaka. 
  2. Evaluacija zadataka s odgovorima na pitanja iz "zatvorene knjige". 
  3. Procjena sposobnosti modela da prevede s jednog jezika na drugi (posebno jednokratni i nesvakidašnji)
  4. Procjena izvedbe modela na zadacima nalik Winograd shemi. 
  5. Ocjenjivanje skupova podataka koji uključuju zdravorazumsko zaključivanje ili odgovaranje na pitanja. 
  6. Ocjenjivanje zadataka s razumijevanjem pročitanog. 
  7. Procjena na SuperGLUE paketu mjerila. 
  8. Istraživanje NLI-a. 

Jezično modeliranje, dovršavanje i zatvaranje zadataka

U ovom odjeljku, izvedba modela GPT-3 ocjenjuje se na zadacima tradicionalnog jezičnog modeliranja, kao i na zadacima koji zahtijevaju predviđanje jedne riječi od interesa, ili dovršavanje odlomka ili rečenice, ili dovršavanje dijela teksta. Raspravljajmo o njima u kratkim detaljima. 

Modeliranje jezika

GPT-3 model izračunava zero-shot zbunjenost na PTB ili Penn Tree Bank skupu podataka. Model izostavlja zadatke povezane s Wikipedijom jer je već uključen u podatke o obuci modela, a referentna vrijednost od jedne milijarde riječi također je izostavljena jer uzrokuje značajnu količinu trenja skupa podataka unutar podataka za obuku. Međutim, PTB skup podataka rješava te probleme jer može prethoditi modernom internetu. Najveći model u arhitekturi modela GPT-3 postavlja novu SOTA na skupu podataka PTB s značajnom razlikom od 15 bodova i postiže zbunjenost od 20.50. 

LAMBADA

Skup podataka LAMBADA koristi se za testiranje modeliranja modela na dugoročnim ovisnostima u odlomcima ili tekstovima. To znači da se od modela traži da predvidi posljednju riječ rečenice nakon čitanja odlomka radi konteksta. Nadalje, kontinuirano skaliranje jezičnih modela donosi sve manje povrate na referentnu vrijednost. 

GPT-3 model postiže 76% točnosti na LAMBADI, i ima dobitak od preko 8% u odnosu na prijašnje najbolje modele. Nadalje, model LAMBADA demonstrira fleksibilnost učenja u nekoliko koraka budući da je rješavao problem na način koji se klasično javlja sa skupom podataka. Završetak rečenice u LAMBADI obično je posljednja riječ rečenice, ali kako jezični model to ne može znati, on dodjeljuje vjerojatnost ne samo ispravnom završetku, već i ostalim nastavcima u odlomku. 

Nadalje, kada se primjeri dostavljeni GPT-3 modelu modificiraju na određeni način, model vraća točnost od preko 86%, što je povećanje od preko 18% u odnosu na prethodne modele. Osim toga, rezultati su također pokazali da se izvedba modela u postavci s nekoliko snimaka povećava proporcionalno s povećanjem veličine modela. Iako ova strategija smanjuje najmanji model u GPT-3 arhitekturi za 20%, ona povećava točnost primarnog GPT-3 modela sa 175 milijardi parametara za 10%. 

Odgovaranje na pitanja zatvorene knjige

Odgovaranje na pitanja zatvorene knjige pokušaj je mjerenja sposobnosti modela GPT-3 da odgovori na pitanja temeljena na širokom činjeničnom znanju. Budući da takva pitanja često imaju veliki broj mogućih upita, zadatak se obično postiže pomoću sustava za pronalaženje informacija koji omogućuje modelu da pronađe relevantan tekst u kombinaciji s modelom koji uči generirati odgovor na odgovor s obzirom na dohvaćeni tekst, i Pitanje. 

Gornja slika uspoređuje rezultat za GPT-3 model u usporedbi s različitim modelima i radom na različitim skupovima podataka. Na skupu podataka TriviaQA, model postiže ocjenu točnosti od 64.3% u postavci nultog snimanja, dok postiže ocjenu točnosti od 68%, odnosno 71.2% u postavkama jednokratnog, odnosno nekoliko pokušaja. 

Evidentno se može vidjeti da GPT-3 model u zero-shot postavkama nadmašuje fino podešeni model T5-11B za više od 14%. 

Gornja slika pokazuje da performanse modela GPT-3 glatko rastu s povećanjem veličine modela. Izvedba sugerira da jezični modeli nastavljaju učiti iz skupa podataka kako se njihov kapacitet povećava. 

Final Misli

Moglo bi se slobodno reći da je GPT-3 bio revolucionarna faza u LLM industriji jer je GPT-3 pomogao u pomicanju granica onoga što jezični model može učiniti. Učinjeni razvoj i prepreke koje je prevladao GPT-3 utrli su put najnaprednijem i najpreciznijem modelu velikog jezika do danas, GPT-4. 

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.