Prompt Engineering

Školení Vylepšené vkládání textu s velkými jazykovými modely

Zveřejněno

4 měsíci

Ledna 11, 2024

Vložení textu jsou vektorové reprezentace slov, vět, odstavců nebo dokumentů, které zachycují jejich sémantický význam. Slouží jako základní stavební blok v mnoha dnešních aplikacích pro zpracování přirozeného jazyka (NLP), včetně vyhledávání informací, odpovídání na otázky, sémantického vyhledávání a dalších.

vektorové vkládání

Nedávné pokroky ve velkých jazykových modelech (LLM), jako je GPT-3, ukázaly působivé schopnosti při výuce několika pokusů a vytváření přirozeného jazyka. Můžeme využít LLM také k vylepšení stavu vkládání textu? V jejich novinách"Vylepšení vkládání textu pomocí velkých jazykových modelů“, výzkumníci z Microsoftu navrhují novou metodu, která dosahuje vynikajících výsledků generováním syntetických tréninkových dat pomocí LLM a jejich doladěním.

Výzvy se stávajícími metodami

Tradiční techniky vkládání textu, jako jsou vážené průměry slovních vektorů nebo TF-IDF, nedokážou adekvátně zachytit bohaté kontextové informace v textu. Novější metody založené na předem trénovaných jazykových modelech, jako je BERT, získávají mnohem lepší kontextové vložení.

Vyžadují však složité vícestupňové vzdělávací kanály:

Předběžně natrénujte miliardy slabě označených nebo umělých textových párů
Dolaďte na omezených ručně spravovaných souborech dat

To vyžaduje masivní výpočetní zdroje a lidské úsilí pro sběr dat. Tréninková data jsou také omezena rozmanitostí a jazykovým pokrytím. Například benchmark BEIR obsahuje datové sady pouze pro 15 vyhledávacích úloh v angličtině.

Stávající metody využívají jako páteřní model převážně menší architektury ve stylu BERT. Nejsou schopni využívat výhod pokročilejších LLM a souvisejících technik.

Metodologie: Generování syntetických dat pomocí LLM

K překonání těchto omezení vědci navrhují nový jednostupňový tréninkový přístup, který využívá LLM jako GPT-3 a GPT-4 k vytváření různých syntetických tréninkových dat.

Klíčové kroky jsou:

Taxonomie úkolu: Definujte taxonomii, která kategorizuje úlohy vkládání textu do:
- Asymetrické úlohy (dotaz a dokument, nikoli parafráze, např. vyhledávání)
- Symetrické úlohy (dotaz a dokument jsou parafráze, např. sémantická podobnost)
Prompt Design: Vytvářejte šablony výzev přizpůsobené každému typu úkolu, které vedou LLM ke generování relevantních příkladů školení.
Generování syntetických dat: Vyzvěte LLM pomocí navržených výzev ke generování stovek tisíc párů (dotazů, dokumentů) pokrývajících širokou škálu sémantických úloh v 93 jazycích.
Modelový trénink: Dolaďte výkonný open-source LLM, jako je Mistral, na syntetických datech pomocí kontrastní ztráty.

Tato metodika umožňuje vytvářet dostatek školicích dat pro různé úkoly ve více jazycích bez jakéhokoli lidského úsilí o označování. Využitím znalostí již vložených do LLM prostřednictvím předběžného školení na korpusech ve webovém měřítku můžeme syntetizovat vysoce kvalitní data přesně přizpůsobená pro vkládání textu.

Výzkumníci to demonstrují pomocí dvoufázové strategie výzvy:

Požádejte GPT-4, aby navrhl potenciální úkoly vyhledávání

Výzva pro generování úkolů vyhledávání na vysoké úrovni

Vyzvěte jej znovu, aby vygeneroval (dotaz, dokument) vzorky na základě navržených úkolů

n generovat (dotazové, kladné, tvrdě záporné) triplety

Některé klíčové aspekty návrhu promptu:

Přirozený jazyk vybízí k intuitivním lidským pokynům
Zástupné symboly pro podporu rozmanitosti (např. délka dotazu, srozumitelnost, délka dokumentu)
Kombinace dat z více šablon pro stejný typ úlohy
Váhové jazyky na základě dostupnosti zdrojů

Celkem dokázali vygenerovat 500 180 příkladů vkládání textu za výpočetní náklady 43 milionů tokenů. Dominantním jazykem byla angličtina (XNUMX %) následovaná polštinou, japonštinou, italštinou a dalšími.

Pro trénink modelu se rozhodli pro jemné doladění open-source parametru 7B Mistral model namísto menších architektur ve stylu BERT. Vzhledem k tomu, že Mistral byl již předtrénován na masivních textových korpusech, nebylo potřeba žádné další kontrastní předtrénování. Jeho přidání přineslo zanedbatelná vylepšení.

Celé jemné doladění zabralo méně než 1 XNUMX kroků pomocí kombinace syntetických a lidmi označených dat. To demonstruje účinnost vzorku navrhovaného přístupu.

výsledky

Výzkumníci vyhodnotili svůj model na benchmarku MTEB, který pokrývá různé úkoly napříč klasifikací, shlukováním, sémantickou podobností, sumarizací a vyhledáváním informací.

Jejich model překonal předchozí stav techniky o 2.4 bodu v průměrném skóre, vytvoření nových rekordů pro téměř každou kategorii:

Model	Předchozí SOTA	Navrhovaný model
Klasifikace	76.0	78.5
Clustering	46.1	50.3
Párová klasifikace	87.1	88.3
Změna pořadí	60.0	60.2
Načítání	54.3	56.9
STS	83.1	84.6
Shrnutí	31.6	31.4
Průměrný	64.2	66.6

Je pozoruhodné, že i bez použití jakýchkoliv označených dat a školení pouze na syntetických datech dosáhlo konkurenční přesnosti – pouze 3.5 bodu za plně kontrolovaným modelem. To demonstruje životaschopnost generování textových vložení pouze pomocí LLM, bez lidského úsilí o poznámky.

Výzkumníci také hodnotili vícejazyčný benchmark MIRACL pokrývající 18 jazyků. Jejich model překonal předchozí nejlepší výkon v jazycích s vysokými zdroji, ale byl slabší v jazycích s nízkými zdroji. Předpokládají, že by to mohlo být zmírněno rozsáhlejším předškolením LLM v jazycích s nízkými zdroji.

Stručně řečeno, vkládání textu trénovaná na syntetických datech generovaných LLM vytváří nové nejmodernější výsledky a přitom využívá jednodušší a efektivnější školení ve srovnání s předchozími vícestupňovými přístupy. Díky dalšímu výzkumu rychlého inženýrství a kvality syntetických dat by tato metodika mohla výrazně posunout vícejazyčné vkládání textu.

Analýza

Tato práce nabízí několik cenných poznatků:

LLM jako GPT-3 a GPT-4 mají působivou schopnost generovat vysoce kvalitní syntetická tréninková data pro různé úkoly NLP, když jsou k tomu patřičně vyzváni. To může snížit spoléhání se na data označená člověkem.
U vkládání textu poskytuje kontrastní předtrénování zanedbatelné zisky oproti pouze dolaďovacím modelům, jako je Mistral, které již mají předtrénování v bilionovém měřítku. To je důležitý pohled na efektivitu tréninku.
Metody rozšířeného generování vyhledávání umožňují LLM dynamicky přistupovat k externím znalostem. Zlepšení vkládání textu je proto cenné pro vylepšení těchto LLM.
V jazycích s nízkými zdroji existuje značný prostor pro zlepšení. Vícejazyčné LLM předem vyškolené na reprezentativnějších datech by mohly pomoci tuto mezeru odstranit.
Koncepčně jsou jazykové modelování a vkládání textu dvě strany téže mince – porozumění sémantice jazyka. Pomocí syntetických datových výzev lze LLM organicky jemně vyladit do embedderů bez složitých potrubí.

Některé slibné směry pro budoucí práci zahrnují:

Využití open-source LLM jako GPT-NeoX k generování syntetických dat
Zkoumání lehkého následného školení k přizpůsobení embedderů delším kontextům
Vývoj technik rychlého inženýrství pro řízení kvality a pokrytí úkolů
Metody pro zlepšení inferenční latence a nákladů na skladování pro průmyslové použití

Kromě překonání srovnávacích testů otevírá využití velkých jazykových modelů pro vylepšení vkládání textu zajímavé možnosti do budoucna. Vzhledem k tomu, že LLM pokračují ve svém zvládnutí přirozeného jazyka, pravděpodobně se zlepší i jejich schopnost generovat vysoce věrná syntetická data.

Zbývají však kritické směry výzkumu, aby se tento potenciál převedl do reálného dopadu.

Přizpůsobení a ovládání

Klíčovou výhodou syntetických dat je schopnost programově generovat příklady přizpůsobené konkrétním potřebám. Jak dokument ukázal, rychlé inženýrství umožňuje vytvářet trénovací data pro stovky tisíc úloh vkládání.

Současné postupy rychlého navrhování však zůstávají spíše uměním než vědou. Vývoj systematických, reprodukovatelných metod k přesné kontrole vlastností generovaných dat by rozšířil použitelnost této techniky.

Například techniky modulace faktorů, jako je složitost, nejednoznačnost a novost příkladů, by mohly pomoci řešit problémy s robustností v následných úkolech. Další otevřenou výzvou je dynamické generování výzev, aby odpovídalo vyvíjejícím se distribucím v reálném světě.

Školení ve Scale

Zatímco předem vyškolení LLM již obsahují značné jazykové znalosti, jejich dovednosti generování dat se pravděpodobně dále rozšíří s dalším rozsahem. Modely jako GPT-4 trénované na bilionech tokenů internetového textu vykazují silné učení několika snímků, ale nebyly speciálně optimalizovány pro syntézu trénovacích dat.

Architektury a cíle šité na míru bootstrapingu samokontrolovaného generování dat ve webovém měřítku by mohly podstatně zlepšit kvalitu a efektivitu této metodiky. Dalším slibným směrem je efektivní integrace získaných znalostí k doplnění naučených znalostí.

Víceúlohový a vícejazyčný

Jak dokument poznamenal, problémem zůstává zlepšení výkonu v jazycích s nízkými zdroji. Namísto předběžného školení jediného masivního LLM je alternativou školení flotily menších expertních modelů, které se specializují na konkrétní datové modality nebo jazykové domény.

Takový souborový přístup by mohl pomoci zlepšit pokrytí vzácných úkolů a jazyků sdílením získaných informací mezi odborníky. Vzrušující vyhlídkou je také neustálé učení s cílem rozšířit znalosti jazyka a úkolů v průběhu času.

Na závěr tento článek představuje inovativní koncept syntézy trénovacích dat z LLM za účelem vytvoření výkonných textových vložení. Jejich výsledky prokazují účinnost této metodiky a překonávají předchozí benchmarky. Jak postupují LLM a syntetické datové techniky, využití jejich znalostí při školení embedderů by se mohlo stát velmi slibným směrem.

Související témata:GPT-4 LLM microsoft vkládání textu

Nahoru Další

Řešení halucinací ve velkých jazykových modelech: Přehled nejmodernějších technik

Nenechte si ujít

Příručka rychlého inženýrství OpenAI: Zvládnutí ChatGPT pro pokročilé aplikace

Aayush Mittal

Posledních pět let jsem strávil ponořením se do fascinujícího světa strojového učení a hlubokého učení. Moje vášeň a odborné znalosti mě vedly k tomu, abych se podílel na více než 50 různých projektech softwarového inženýrství se zvláštním zaměřením na AI/ML. Moje neustálá zvědavost mě také přivedla ke zpracování přirozeného jazyka, což je obor, který bych rád dále prozkoumal.