Brzi inženjering

Obuka poboljšanih tekstualnih umetanja s velikim jezičnim modelima

Objavljeno

Prije 4 mjeseci

11. 2024. XNUMX.

Tekstualni umetci su vektorski prikazi riječi, rečenica, odlomaka ili dokumenata koji hvataju njihovo semantičko značenje. Oni služe kao temeljni blok u mnogim današnjim aplikacijama za obradu prirodnog jezika (NLP), uključujući pronalaženje informacija, odgovaranje na pitanja, semantičko pretraživanje i više.

vektorsko ugrađivanje

Nedavni napredak u velikim jezičnim modelima (LLM) kao što je GPT-3 pokazao je impresivne mogućnosti učenja u nekoliko koraka i generiranja prirodnog jezika. Možemo li iskoristiti LLMs kako bismo također unaprijedili stanje ugrađivanja teksta? U njihovom radu "Poboljšanje ugrađivanja teksta s velikim jezičnim modelima“, istraživači iz Microsofta predlažu novu metodu koja postiže vrhunske rezultate generiranjem sintetičkih podataka o obuci s LLM-ovima i njihovim finim podešavanjem.

Izazovi s postojećim metodama

Tradicionalne tehnike ugrađivanja teksta poput ponderiranih prosjeka vektora riječi ili TF-IDF ne uspijevaju adekvatno uhvatiti bogate kontekstualne informacije u tekstu. Novije metode temeljene na unaprijed obučenim jezičnim modelima poput BERT-a postižu mnogo bolja ugrađivanja svjesna konteksta.

Međutim, oni zahtijevaju složene višestupanjske kanale obuke:

Unaprijed vježbajte na milijardama slabo označenih ili umjetnih parova teksta
Fino prilagodite ograničene ručno odabrane skupove podataka

To zahtijeva goleme računalne resurse i ljudske napore za prikupljanje podataka. Podaci o obuci također su ograničeni raznolikošću i jezičnom pokrivenošću. Na primjer, referentna vrijednost BEIR sadrži skupove podataka za samo 15 zadataka dohvaćanja na engleskom jeziku.

Postojeće metode pretežno koriste manje arhitekture u stilu BERT-a kao model okosnice. Ne mogu iskoristiti prednosti naprednijih LLM-ova i srodnih tehnika.

Metodologija: Generiranje sintetičkih podataka s LLM-om

Kako bi prevladali ta ograničenja, istraživači predlažu novi pristup obuci u jednoj fazi koji koristi LLM-ove kao što su GPT-3 i GPT-4 za generiranje različitih sintetičkih podataka o obuci.

Ključni koraci su:

Taksonomija zadatka: Definirajte taksonomiju koja kategorizira zadatke ugrađivanja teksta u:
- Asimetrični zadaci (upit i dokument koji nisu parafraze, npr. pretraživanje)
- Simetrični zadaci (upit i dokument su parafraze, npr. semantička sličnost)
Brzi dizajn: Stvorite promptne predloške prilagođene svakoj vrsti zadatka koji usmjeravaju LLM da generira relevantne primjere obuke.
Generiranje sintetičkih podataka: Podstaknite LLM s dizajniranim uputama za generiranje stotina tisuća parova (upit, dokument) koji pokrivaju širok raspon semantičkih zadataka na 93 jezika.
Obuka modela: Fino podesite moćan LLM otvorenog koda kao što je Mistral na sintetičkim podacima koristeći kontrastni gubitak.

Ova metodologija omogućuje stvaranje dovoljno podataka za obuku za različite zadatke na više jezika bez ikakvih ljudskih napora označavanja. Iskorištavanjem znanja koje je već ugrađeno u LLM-ove kroz prethodnu obuku na korpusima web-mjere, možemo sintetizirati visokokvalitetne podatke precizno skrojene za ugrađivanje teksta.

Istraživači to pokazuju strategijom poticanja u 2 koraka:

Upitajte GPT-4 da predloži potencijalne zadatke dohvaćanja

Upit za generiranje zadataka dohvaćanja visoke razine

Ponovno ga zatražite da generira (upit, dokument) uzorke na temelju predloženih zadataka

n generirati (upit, pozitivno, teško negativno) trojke

Neki ključni aspekti brzog dizajna:

Prirodni jezik traži intuitivne upute poput ljudskih
Rezervirana mjesta za poticanje raznolikosti (npr. duljina upita, jasnoća, duljina dokumenta)
Kombiniranje podataka iz više predložaka za istu vrstu zadatka
Ponderiranje jezika na temelju dostupnosti resursa

Ukupno su uspjeli generirati 500 tisuća primjera ugrađivanja teksta uz trošak izračunavanja od 180 milijuna tokena. Dominantan jezik bio je engleski (43%), a zatim poljski, japanski, talijanski i drugi.

Za obuku modela odlučili su se za fino podešavanje parametra 7B otvorenog koda mistral model umjesto manjih arhitektura u stilu BERT-a. Budući da je Mistral već bio prethodno obučen za masivne tekstualne korpuse, nije bila potrebna dodatna kontrastivna prethodna obuka. Njegovim dodavanjem dobivena su zanemariva poboljšanja.

Cjelokupno fino ugađanje trajalo je manje od 1 koraka, koristeći kombinaciju sintetičkih podataka i podataka koje su označili ljudi. Ovo pokazuje učinkovitost uzorka predloženog pristupa.

Rezultati

Istraživači su ocijenili svoj model na MTEB benchmarku, koji pokriva različite zadatke kroz klasifikaciju, grupiranje, semantičku sličnost, sažimanje i pronalaženje informacija.

Njihov model nadmašio prethodno stanje tehnike za 2.4 boda u prosječnoj ocjeni, postavljajući nove rekorde za gotovo svaku kategoriju:

Model	Prethodna SOTA	Predloženi model
Klasifikacija	76.0	78.5
grupiranje	46.1	50.3
Klasifikacija po parovima	87.1	88.3
Ponovno rangiranje	60.0	60.2
vađenje	54.3	56.9
STS	83.1	84.6
Sažimanje	31.6	31.4
prosjek	64.2	66.6

Nevjerojatno, čak i bez korištenja bilo kakvih označenih podataka i obuke isključivo na sintetičkim podacima, postigao je konkurentnu točnost – samo 3.5 boda iza potpuno nadziranog modela. Ovo pokazuje održivost generiranja tekstualnih umetanja samo pomoću LLM-a, bez ljudskog napora pri dodavanju komentara.

Istraživači su također procijenili višejezičnu referentnu vrijednost MIRACL koja pokriva 18 jezika. Njihov je model nadmašio prethodne najbolje rezultate na jezicima s velikim resursima, ali je bio slabiji na onima s malim resursima. Pretpostavljaju da bi se to moglo ublažiti opsežnijom prethodnom obukom LLM-a o jezicima s malo resursa.

Ukratko, ugrađivanja teksta obučena na sintetskim podacima koje je generirao LLM uspostavljaju nove vrhunske rezultate, dok koriste jednostavniju i učinkovitiju obuku u usporedbi s prijašnjim pristupima u više faza. S daljnjim istraživanjem brzog inženjeringa i kvalitete sintetičkih podataka, ova bi metodologija mogla uvelike unaprijediti višejezične ugradnje teksta.

Analiza

Ovaj rad nudi nekoliko vrijednih zaključaka:

LLM-ovi kao što su GPT-3 i GPT-4 imaju impresivnu sposobnost generiranja visokokvalitetnih sintetičkih podataka o obuci za različite NLP zadatke kada ih se na odgovarajući način zatraži. To može smanjiti oslanjanje na podatke označene ljudima.
Za ugrađivanje teksta, kontrastivno prethodno uvježbavanje daje zanemarive dobitke u odnosu na samo modele za fino ugađanje kao što je Mistral koji već imaju preduvježbavanje u bilijunima. Ovo je važan uvid u učinkovitost treninga.
Metode generiranja proširenog dohvaćanja omogućuju LLM-ima dinamički pristup vanjskom znanju. Stoga je poboljšanje ugrađivanja teksta vrijedno za poboljšanje ovih LLM-ova.
Postoji značajan prostor za poboljšanje u jezicima s malo resursa. Višejezični LLM-ovi prethodno obučeni na reprezentativnijim podacima mogli bi pomoći u uklanjanju ovog jaza.
Konceptualno, modeliranje jezika i ugrađivanje teksta dvije su strane iste medalje – razumijevanje semantike jezika. S promptom sintetičkih podataka, LLM-ovi se mogu organski fino podesiti u embeddere bez složenih cjevovoda.

Neki obećavajući smjerovi za budući rad uključuju:

Iskorištavanje LLM-a otvorenog koda kao što je GPT-NeoX za generiranje sintetičkih podataka
Istraživanje lagane naknadne obuke za prilagodbu embeddera duljim kontekstima
Razvoj brzih inženjerskih tehnika za kontrolu kvalitete i pokrivanja zadataka
Metode za poboljšanje kašnjenja zaključivanja i troškova pohrane za industrijsku upotrebu

Osim nadmašivanja referentnih vrijednosti, korištenje velikih jezičnih modela za poboljšanje ugrađivanja teksta otvara intrigantne mogućnosti za budućnost. Kako LLM nastavljaju napredovati u svom ovladavanju prirodnim jezikom, vjerojatno će se poboljšati i njihova sposobnost za generiranje sintetičkih podataka visoke vjernosti.

Međutim, ostaju kritični pravci istraživanja kako bi se ovaj potencijal preveo u stvarni učinak.

Prilagodba i kontrola

Ključna prednost sintetičkih podataka je mogućnost programskog generiranja primjera prilagođenih specifičnim potrebama. Kao što je dokument pokazao, brzi inženjering omogućuje stvaranje podataka za obuku za stotine tisuća zadataka ugradnje.

Ipak, trenutačne prakse brzog dizajna ostaju više umjetnost nego znanost. Razvijanje sustavnih, ponovljivih metoda za preciznu kontrolu svojstava generiranih podataka proširilo bi primjenjivost ove tehnike.

Na primjer, tehnike za moduliranje čimbenika poput složenosti, dvosmislenosti i novosti primjera mogle bi pomoći u rješavanju problema robusnosti u nizvodnim zadacima. Dinamičko brzo generiranje koje odgovara distribucijama u stvarnom svijetu koje se razvijaju još je jedan otvoreni izazov.

Obuka u razmjerima

Dok prethodno obučeni LLM već kodiraju značajno lingvističko znanje, njihove vještine generiranja podataka vjerojatno će se dodatno poboljšati s dodatnom ljestvicom. Modeli poput GPT-4 trenirani na trilijunima tokena internetskog teksta pokazuju snažno učenje u nekoliko snimaka, ali nisu posebno optimizirani za sintetiziranje podataka za obuku.

Arhitekture i ciljevi prilagođeni pokretanju samonadziranog generiranja podataka na razini weba mogli bi značajno unaprijediti kvalitetu i učinkovitost ove metodologije. Učinkovita integracija dohvaćenog znanja kako bi se nadopunilo naučeno znanje još je jedan smjer koji obećava.

Višezadaćnost i višejezičnost

Kao što je navedeno u dokumentu, poboljšanje performansi na jezicima s malo resursa ostaje problem. Umjesto prethodnog osposobljavanja jednog masivnog LLM-a, alternativa je osposobljavanje niza manjih stručnih modela koji su specijalizirani za određene modalitete podataka ili jezične domene.

Takav skupni pristup mogao bi poboljšati pokrivenost rijetkim zadacima i jezicima dijeljenjem naučenih reprezentacija između stručnjaka. Kontinuirano učenje kako bi se s vremenom proširilo znanje jezika i zadataka također je uzbudljiva mogućnost.

U zaključku, ovaj rad uvodi inovativni koncept sintetiziranja podataka o obuci iz LLM-a za stvaranje učinkovitih tekstualnih umetanja. Njihovi rezultati pokazuju učinkovitost ove metodologije, nadmašujući prethodna mjerila. Kako LLM i tehnike sintetičkih podataka napreduju, korištenje njihovog znanja za obuku ugrađivača moglo bi postati vrlo obećavajući smjer.

Srodne teme:GPT-4 Mr Microsoft ugrađivanja teksta

Sljedeći

Rješavanje halucinacija u modelima velikih jezika: pregled najsuvremenijih tehnika

Ne propustite

OpenAI-jev brzi inženjerski vodič: Ovladavanje ChatGPT-om za napredne aplikacije

Aayush Mittal

Proteklih pet godina proveo sam uranjajući u fascinantan svijet strojnog i dubokog učenja. Moja strast i stručnost naveli su me da pridonesem više od 50 različitih projekata softverskog inženjeringa, s posebnim fokusom na AI/ML. Moja stalna znatiželja također me povukla prema obradi prirodnog jezika, polju koje jedva čekam dalje istraživati.