Inxhinieri e shpejtë

Trajnim i ngulitjes së tekstit të përmirësuar me modele të mëdha gjuhësore

Publikuar

muaj 4 më parë

Janar 11, 2024

Përfshirjet e tekstit janë paraqitje vektoriale të fjalëve, fjalive, paragrafëve ose dokumenteve që kapin kuptimin e tyre semantik. Ato shërbejnë si një bllok themelor ndërtimi në shumë aplikacione të përpunimit të gjuhës natyrore (NLP) sot, duke përfshirë marrjen e informacionit, përgjigjen e pyetjeve, kërkimin semantik dhe më shumë.

ngulitje vektoriale

Përparimet e kohëve të fundit në modelet e mëdha të gjuhëve (LLM) si GPT-3 kanë treguar aftësi mbresëlënëse në mësimin e paktë dhe gjenerimin e gjuhëve natyrore. A mund të shfrytëzojmë LLM-të për të avancuar gjithashtu gjendjen e ngulitjes së tekstit? Në letrën e tyre "Përmirësimi i ngulitjes së tekstit me modele të mëdha gjuhësore“, studiuesit nga Microsoft propozojnë një metodë të re që arrin rezultate superiore duke gjeneruar të dhëna trajnimi sintetike me LLM dhe duke i rregulluar ato.

Sfidat me metodat ekzistuese

Teknikat tradicionale të futjes së tekstit si mesataret e ponderuara të vektorëve të fjalëve ose TF-IDF nuk arrijnë të kapin në mënyrë adekuate informacionin e pasur kontekstual në tekst. Metodat më të fundit të bazuara në modele gjuhësore të trajnuara paraprakisht, si BERT, marrin përfshirje shumë më të mira të vetëdijshme për kontekstin.

Sidoqoftë, ato kërkojnë tubacione komplekse trajnimi me shumë faza:

Para-stërvituni në miliarda çifte tekstesh të etiketuara dobët ose artificiale
Rregulloni mirë grupet e të dhënave të kufizuara të kuruara me dorë

Kjo kërkon burime masive llogaritëse dhe përpjekje njerëzore për mbledhjen e të dhënave. Të dhënat e trajnimit janë gjithashtu të kufizuara në diversitet dhe mbulim gjuhësor. Për shembull, pikë referimi BEIR përfshin grupe të dhënash për vetëm 15 detyra rikthimi në anglisht.

Metodat ekzistuese kryesisht përdorin arkitektura më të vogla të stilit BERT si model shtyllë. Ata nuk janë në gjendje të përfitojnë nga LLM-të më të avancuara dhe teknikat përkatëse.

Metodologjia: Gjenerimi i të dhënave sintetike me LLM

Për të kapërcyer këto kufizime, studiuesit propozojnë një qasje të re trajnimi me një fazë që përdor LLM si GPT-3 dhe GPT-4 për të gjeneruar të dhëna të ndryshme sintetike të trajnimit.

Hapat kryesorë janë:

Taksonomia e detyrave: Përcaktoni një taksonomi që kategorizon detyrat e futjes së tekstit në:
- Detyrat asimetrike (pyetja dhe dokumenti jo parafrazimi p.sh. kërkimi)
- Detyrat simetrike (pyetja dhe dokumenti janë parafraza p.sh. ngjashmëri semantike)
Dizajni i shpejtë: Krijoni shabllone të shpejtë të përshtatur për çdo lloj detyre që udhëzojnë LLM-në për të gjeneruar shembuj trajnimi përkatës.
Gjenerimi i të dhënave sintetike: Nxisni LLM me kërkesat e dizajnuara për të gjeneruar qindra mijëra çifte (pyetje, dokumente) që mbulojnë një shumëllojshmëri të gjerë detyrash semantike në 93 gjuhë.
Trajnim model: Rregulloni një LLM të fuqishëm me burim të hapur si Mistral në të dhënat sintetike duke përdorur humbje kontrasti.

Kjo metodologji lejon krijimin e të dhënave të bollshme stërvitore për detyra të ndryshme në shumë gjuhë, pa asnjë përpjekje për etiketimin e njerëzve. Duke shfrytëzuar njohuritë e ngulitura tashmë në LLM përmes trajnimit paraprak në korporat e shkallës së internetit, ne mund të sintetizojmë të dhëna me cilësi të lartë të përshtatura saktësisht për futjen e tekstit.

Studiuesit e demonstrojnë këtë me një strategji nxitëse me 2 hapa:

Kërkoni GPT-4 të sugjerojë detyra të mundshme rikthimi

Prompt për gjenerimin e detyrave të rikthimit të nivelit të lartë

Nxiteni sërish të gjenerojë mostra (pyetje, dokumente) bazuar në detyrat e sugjeruara

n gjenerojnë treshe (pyetëse, pozitive, negative).

Disa aspekte kryesore të dizajnit të shpejtë:

Gjuha natyrore kërkon udhëzime intuitive të ngjashme me njeriun
Mbajtësit e vendeve për të inkurajuar diversitetin (p.sh. gjatësia e pyetjes, qartësia, gjatësia e dokumentit)
Kombinimi i të dhënave nga shabllone të shumtë për të njëjtin lloj detyre
Peshimi i gjuhëve bazuar në disponueshmërinë e burimeve

Në total, ata ishin në gjendje të gjeneronin 500 mijë shembuj të ngulitjes së tekstit me një kosto llogaritëse prej 180 milion argumentesh. Gjuha dominuese ishte anglishtja (43%) e ndjekur nga polonishtja, japonishtja, italishtja dhe të tjera.

Për trajnimin e modeleve, ata zgjodhën rregullimin e saktë të parametrit 7B me burim të hapur erë e ftohtë veriu model në vend të arkitekturave më të vogla të stilit BERT. Meqenëse Mistral ishte tashmë i trajnuar paraprakisht në korpora tekstuale masive, nuk nevojitej asnjë para-trajnim shtesë kontrastiv. Shtimi i tij siguroi përmirësime të papërfillshme.

I gjithë rregullimi i imët mori më pak se 1 mijë hapa, duke përdorur një përzierje të të dhënave sintetike dhe të etiketuara nga njeriu. Kjo tregon efikasitetin e mostrës së qasjes së propozuar.

Rezultatet

Studiuesit vlerësuan modelin e tyre në standardin MTEB, i cili mbulon detyra të ndryshme përgjatë klasifikimit, grupimit, ngjashmërisë semantike, përmbledhjes dhe rikthimit të informacionit.

Modeli i tyre ka tejkaluar standardet e mëparshme me 2.4 pikë në rezultatin mesatar, duke vendosur rekorde të reja për pothuajse çdo kategori:

Model	SOTA e mëparshme	Modeli i propozuar
Klasifikim	76.0	78.5
clustering	46.1	50.3
Klasifikimi në çift	87.1	88.3
Rirenditje	60.0	60.2
rikthim	54.3	56.9
STS	83.1	84.6
Përmbledhje	31.6	31.4
mesatare	64.2	66.6

Çuditërisht, edhe pa përdorur asnjë të dhënë të etiketuar dhe pa trajnime vetëm mbi të dhëna sintetike, ai arriti saktësinë konkurruese - vetëm 3.5 pikë prapa modelit të mbikëqyrur plotësisht. Kjo demonstron qëndrueshmërinë e gjenerimit të ngulitjes së tekstit vetëm duke përdorur LLM, pa përpjekje njerëzore për shënime.

Studiuesit vlerësuan gjithashtu standardin shumëgjuhësh MIRACL që mbulon 18 gjuhë. Modeli i tyre ia kalonte më të mirët e mëparshëm në gjuhët me burime të larta, por ishte më i dobët në ato me burime të ulëta. Ata supozojnë se kjo mund të zbutet duke para-trajnuar LLM-të më gjerësisht në gjuhët me burime të ulëta.

Si përmbledhje, futjet e teksteve të trajnuara mbi të dhënat sintetike të krijuara nga LLM krijojnë rezultate të reja të nivelit të artit, duke përdorur trajnime më të thjeshta dhe më efikase në krahasim me qasjet e mëparshme me shumë faza. Me kërkime të mëtejshme në inxhinierinë e shpejtë dhe cilësinë e të dhënave sintetike, kjo metodologji mund të avancojë në masë të madhe futjen e tekstit shumëgjuhësh.

Analizë

Kjo punë ofron disa pika të vlefshme:

LLM si GPT-3 dhe GPT-4 kanë një aftësi mbresëlënëse për të gjeneruar të dhëna trajnimi sintetike me cilësi të lartë për detyra të ndryshme NLP kur kërkohet siç duhet. Kjo mund të zvogëlojë mbështetjen në të dhënat e etiketuara nga njeriu.
Për futjen e tekstit, trajnimi paraprak kontrasiv siguron përfitime të papërfillshme ndaj modeleve thjesht të rregullimit të imët si Mistral që tashmë kanë para-stërvitje në shkallë trilionësh. Ky është një pasqyrë e rëndësishme për efikasitetin e trajnimit.
Metodat e gjenerimit të shtuar të rikthimit po u mundësojnë LLM-ve që të kenë qasje dinamike në njohuritë e jashtme. Prandaj, përmirësimi i futjeve të tekstit është i vlefshëm për përmirësimin e këtyre LLM-ve.
Ka hapësirë të konsiderueshme për përmirësim në gjuhët me burime të ulëta. LLM-të shumëgjuhëshe të para-trajnuara për të dhëna më përfaqësuese mund të ndihmojnë në mbylljen e këtij boshllëku.
Konceptualisht, modelimi i gjuhës dhe futja e tekstit janë dy anët e së njëjtës medalje - të kuptuarit e semantikës gjuhësore. Me nxitjen e të dhënave sintetike, LLM-të mund të akordohen organikisht në embedders pa tubacione komplekse.

Disa udhëzime premtuese për punën e ardhshme përfshijnë:

Përdorimi i LLM-ve me burim të hapur si GPT-NeoX për të gjeneruar të dhëna sintetike
Eksplorimi i lehtë pas trajnimit për të përshtatur ngulitësit në kontekste më të gjata
Zhvillimi i teknikave të shpejta inxhinierike për të kontrolluar cilësinë dhe mbulimin e detyrave
Metodat për të përmirësuar vonesën e konkluzionit dhe kostot e ruajtjes për përdorim industrial

Përtej tejkalimit të standardeve, përdorimi i modeleve të mëdha gjuhësore për të përmirësuar futjen e tekstit hap mundësi intriguese për të ardhmen. Ndërsa LLM-të vazhdojnë të përparojnë në zotërimin e tyre mbi gjuhën natyrore, aftësia e tyre për të gjeneruar të dhëna sintetike me besueshmëri të lartë ka të ngjarë të përmirësohet gjithashtu.

Megjithatë, drejtimet kritike kërkimore mbeten për ta përkthyer këtë potencial në ndikim në botën reale.

Përshtatje dhe kontroll

Një përfitim kryesor i të dhënave sintetike është aftësia për të gjeneruar në mënyrë programore shembuj të përshtatur për nevojat specifike. Siç tregoi dokumenti, inxhinieria e shpejtë lejon krijimin e të dhënave të trajnimit për qindra mijëra detyra të integruara.

Megjithatë, praktikat aktuale të projektimit të menjëhershëm mbeten më shumë një art sesa shkencë. Zhvillimi i metodave sistematike dhe të riprodhueshme për të kontrolluar me saktësi vetitë e të dhënave të krijuara do të zgjeronte zbatueshmërinë e kësaj teknike.

Për shembull, teknikat për të moduluar faktorë si kompleksiteti, paqartësia dhe risia e shembujve mund të ndihmojnë në adresimin e çështjeve të qëndrueshmërisë në detyrat e rrjedhës së poshtme. Gjenerimi dinamik i shpejtë për t'u përshtatur me shpërndarjet në zhvillim në botën reale është një tjetër sfidë e hapur.

Trajnim në shkallë

Ndërsa LLM-të e para-trajnuara tashmë kodojnë njohuri të konsiderueshme gjuhësore, aftësitë e tyre për gjenerimin e të dhënave ka të ngjarë të përmirësohen më tej me shkallë shtesë. Modelet si GPT-4 të trajnuar në triliona argumente të tekstit në internet shfaqin mësim të fortë me pak shkrepje, por nuk janë optimizuar posaçërisht për sintetizimin e të dhënave të trajnimit.

Arkitekturat dhe objektivat e përshtatura për të krijuar gjenerim të vetë-mbikëqyrur të të dhënave në shkallë web mund të avancojnë ndjeshëm cilësinë dhe efikasitetin e kësaj metodologjie. Integrimi efikas i njohurive të marra për të plotësuar njohuritë e mësuara është një tjetër drejtim premtues.

Multitask dhe Multilingual

Siç vuri në dukje gazeta, përmirësimi i performancës në gjuhët me burime të ulëta mbetet një problem. Në vend që të trajnoni paraprakisht një LLM të vetëm masiv, një alternativë është trajnimi i një flote modelesh më të vogla ekspertësh që specializohen në modalitete të veçanta të të dhënave ose fusha gjuhësore.

Një qasje e tillë ansambli mund të ndihmojë në përmirësimin e mbulimit të detyrave dhe gjuhëve të rralla duke ndarë përfaqësimet e mësuara nga ekspertët. Të mësuarit e vazhdueshëm për të zgjeruar gjuhën dhe ekspertizën e detyrave me kalimin e kohës është gjithashtu një perspektivë emocionuese.

Si përfundim, ky punim prezanton një koncept inovativ të sintetizimit të të dhënave të trajnimit nga LLM-të për të krijuar ngulitje të tekstit performues. Rezultatet e tyre tregojnë efektivitetin e kësaj metodologjie, duke tejkaluar standardet e mëparshme. Ndërsa LLM-të dhe teknikat e të dhënave sintetike përparojnë, përdorimi i njohurive të tyre për të trajnuar embeders mund të bëhet një drejtim shumë premtues.

Temat e ngjashme:GPT-4 LLM microsoft ngulitje teksti

E rradhes

Trajtimi i halucinacioneve në modelet e gjuhëve të mëdha: një studim i teknikave të fundit

Mos e humbas

Udhëzuesi i shpejtë inxhinierik i OpenAI: Masterizimi i ChatGPT për aplikacione të avancuara

Aayush Mittal

Kam kaluar pesë vitet e fundit duke u zhytur në botën magjepsëse të Mësimit të Makinerisë dhe Mësimit të Thellë. Pasioni dhe ekspertiza ime më kanë shtyrë të kontribuoj në mbi 50 projekte të ndryshme inxhinierike softuerike, me një fokus të veçantë në AI/ML. Kurioziteti im i vazhdueshëm më ka tërhequr gjithashtu drejt Përpunimit të Gjuhëve Natyrore, një fushë që mezi pres ta eksploroj më tej.