Prompt engineering
Školení vylepšených textových vnoření s velkými jazykovými modely

Textová vnoření jsou vektorová reprezentace slov, vět, odstavců nebo dokumentů, které zachycují jejich sémantický význam. Slouží jako základní stavební kámen mnoha aplikací zpracování přirozeného jazyka (NLP) dnes, včetně vyhledávání informací, zodpovězení otázek, sémantického vyhledávání a dalšího.
Poslední pokroky ve velkých jazykových modelech (LLM) jako GPT-3 prokázaly působivé schopnosti v few-shot učení a generování přirozeného jazyka. Můžeme využít LLM k dalšímu rozvoji stavu textových vnoření? Ve své práci “Vylepšení textových vnoření s velkými jazykovými modely“, výzkumníci z Microsoftu navrhují novou metodu, která dosahuje lepších výsledků generováním syntetických trénovacích dat s LLM a jemným laděním na nich.
Výzvy stávajících metod
Tradiční techniky textového vnoření, jako jsou váženými průměry vektorů slov nebo TF-IDF, nedokáží dostatečně zachytit bohaté kontextuální informace v textu. Novější metody založené na předtrénovaných jazykových modelech, jako je BERT, získávají mnohem lepší kontextově závislá vnoření.
Nicméně, vyžadují komplexní vícestupňové trénovací procesy:
- Předtréning na miliardách slabě označených nebo umělých textových párů
- Jemné ladění na omezených ručně kurátorovaných datech
To vyžaduje masivní výpočetní zdroje a lidskou snahu pro sběr dat. Trénovací data jsou také omezena v rozmanitosti a jazykovém pokrytí. Například BEIR benchmark zahrnuje datasety pro pouze 15 vyhledávacích úkolů v angličtině.
Stávající metody převážně využívají menší architektury stylu BERT jako základní model. Není možné využít pokročilejších LLM a souvisejících technik.
Metodika: Generování syntetických dat s LLM
Aby se tyto omezení překonala, výzkumníci navrhují novou jednostupňovou trénovací metodu, která využívá LLM, jako je GPT-3 a GPT-4, k generování rozmanitých syntetických trénovacích dat.
Klíčové kroky jsou:
- Taxonomie úkolů: Definujte taxonomii, která kategorizuje úkoly textového vnoření do:
- Asymetrické úkoly (dotaz a dokument nejsou parafrázemi, např. vyhledávání)
- Symetrické úkoly (dotaz a dokument jsou parafrázemi, např. sémantická podobnost)
- Navrhování promptů: Vytvořte prompt šablony přizpůsobené každému typu úkolu, které vedou LLM k generování relevantních trénovacích příkladů.
- Generování syntetických dat: Promptujte LLM navržených promptů k generování stovek tisíc (dotaz, dokument) párů pokrývajících širokou škálu sémantických úkolů napříč 93 jazyky.
- Trénování modelu: Jemně laděte silný open-source LLM, jako je Mistral, na syntetických datech pomocí kontrastivní ztráty.
Tato metodika umožňuje vytvářet dostatečná trénovací data pro rozmanité úkoly v několika jazycích bez jakékoliv lidské označení úsilí. Využíváním znalostí již vložených do LLM prostřednictvím předtrénování na webovém měřítku korpusu lze syntetizovat vysokokvalitní data přesně přizpůsobená pro textová vnoření.
Výzkumníci demonstrují to pomocí 2-krokového promptovací strategie:
- Promptujte GPT-4, aby navrhla potenciální vyhledávací úkoly
- Promptujte ji znovu, aby generovala (dotaz, dokument) vzorky na základě navrhovaných úkolů
Některé klíčové aspekty navrhování promptů:
- Přirozené jazykové prompty pro intuitivní lidské instrukce
- Placeholdery pro podporu rozmanitosti (např. délka dotazu, jasnost, délka dokumentu)
- Kombinování dat z více šablon pro stejný typ úkolu
- Vážení jazyků na základě dostupnosti zdrojů
Celkem se jim podařilo vygenerovat 500k textových vnoření příkladů při výpočetní nákladnosti 180M tokenů. Dominantním jazykem byla angličtina (43%), následovaná polštinou, japonštinou, italštinou a dalšími.
Pro trénování modelu se rozhodli jemně ladit open-source model Mistral o 7B parametrů místo menších architektur stylu BERT. Pоскольку Mistral byl již předtrénován na masivních textových korpusu, nebyl potřebný žádný další kontrastní předtréning. Přidání toho poskytlo zanedbatelná vylepšení.
Celé jemné ladění trvalo méně než 1k kroků, pomocí kombinace syntetických a lidsky označených dat. To demonstruje vzorkovou efektivitu navrhované metody.
Výsledky
Výzkumníci vyhodnotili svůj model na MTEB benchmarku, který pokrývá rozmanité úkoly napříč klasifikací, clusterováním, sémantickou podobností, sumarizací a vyhledáváním informací.
Jejich model překonal předchozí stav umění o 2,4 body v průměrném skóre, stanovil nové rekordy pro téměř každou kategorii:
| Model | Předchozí SOTA | Navrhovaný Model |
|---|---|---|
| Klasifikace | 76.0 | 78.5 |
| Clusterování | 46.1 | 50.3 |
| Párová klasifikace | 87.1 | 88.3 |
| Přeřazení | 60.0 | 60.2 |
| Vyhledávání | 54.3 | 56.9 |
| STS | 83.1 | 84.6 |
| Sumarizace | 31.6 | 31.4 |
| Průměr | 64.2 | 66.6 |
Zajímavě, i bez použití žádných označených dat a trénování pouze na syntetických datech, dosáhl konkurenční přesnosti – pouze 3,5 bodů za plně dohledem modelu. To demonstruje životaschopnost generování textových vnoření pouze pomocí LLM, bez lidského označení úsilí.
Výzkumníci také vyhodnotili na multijazykovém MIRACL benchmarku pokrývajícím 18 jazyků. Jejich model překonal předchozí nejlepší na jazykových zdrojích, ale byl slabší na zdrojích s nízkými zdroji. Hypotetizují, že to by mohlo být zmírněno předtrénováním LLM více na jazycích s nízkými zdroji.
Shrnutím, textová vnoření trénovaná na LLM-generovaných syntetických datech stanovují nové stavové výsledky, zatímco využívají jednodušší a efektivnější trénování ve srovnání s předchozími vícestupňovými přístupy. S dalšími výzkumy do promptování a kvality syntetických dat by tato metodika mohla výrazně pokročit v multijazykových textových vnořeních.
Analýza
Tato práce nabízí několik cenných poznatků:
- LLM, jako je GPT-3 a GPT-4, mají působivou schopnost generovat vysokokvalitní syntetická trénovací data pro rozmanité NLP úkoly, když jsou promptovány vhodně. To může snížit závislost na lidsky označených datech.
- Pro textová vnoření poskytuje kontrastní předtréning zanedbatelná vylepšení oproti jemnému ladění modelů, jako je Mistral, které již mají trillion-scale předtréning. To je důležitý poznatek do trénovací efektivity.
- Metody generování vyhledávání jsou umožňující LLM dynamicky přístup k externím znalostem. Zlepšování textových vnoření je proto cenné pro vylepšení těchto LLM.
- Existuje značný prostor pro zlepšení v jazycích s nízkými zdroji. Multijazykové LLM předtrénované na více reprezentativních datech by mohly pomoci uzavřít tuto mezeru.
- Konceptuálně, jazykové modelování a textová vnoření jsou dvě strany stejné mince – pochopení jazykových sémantik. S syntetickými daty promptováním lze LLM organicky jemně ladit na vnořitele bez komplexních procesů.
Některé slibné směry pro budoucí práci zahrnují:
- Využití open-source LLM, jako je GPT-NeoX, k generování syntetických dat
- Prozkoumání lehkého post-trénování k adaptaci vnořitelů na delší kontexty
- Vývoj promptovací techniky pro kontrolu kvality a pokrytí úkolů
- Metody pro zlepšení inferenční latence a nákladů na úložiště pro průmyslové použití
Mimo překonání benchmarků, využití velkých jazykových modelů ke zlepšení textových vnoření otevírá zajímavé možnosti pro budoucnost. Jak LLM pokračují ve svém rozvoji v ovládnutí přirozeného jazyka, jejich schopnost generovat vysokokvalitní syntetická data se pravděpodobně také zlepší.
Nicméně, kritické výzkumné směry zůstávají, aby se tento potenciál přetvořil v reálný dopad.
Přizpůsobení a kontrola
Klíčovým benefitem syntetických dat je schopnost programově generovat příklady přizpůsobené konkrétním potřebám. Jako ukázala práce, promptovací inženýrství umožňuje vytvářet trénovací data pro stovky tisíc vnořicích úkolů.
Nicméně, současné postupy navrhování promptů zůstávají více uměním než vědou. Vývoj systematických, reprodukovatelných metod pro přesnou kontrolu vlastností generovaných dat by rozšířil aplikovatelnost této techniky.
Například techniky pro modulaci faktorů, jako je složitost, ambiguita a novost příkladů, by mohly pomoci řešit problémy s odolností v následujících úkolech. Dynamická generace promptů pro přizpůsobení se měnícím se reálným distribucím je další otevřenou výzvou.
Trénování ve velkém měřítku
Zatímco předtrénované LLM již zakódují podstatné jazykové znalosti, jejich schopnosti generovat data se pravděpodobně dále zlepší s dalšími měřítky. Modely, jako je GPT-4, trénované na trillions tokenů internetového textu, vykazují silné few-shot učení, ale nebyly optimalizovány specificky pro generování trénovacích dat.
Architektury a objektivy přizpůsobené pro samo-správou generování dat ve webovém měřítku by mohly podstatně pokročit v kvalitě a efektivitě této metodiky. Efektivní integrace získaných znalostí pro doplnění naučených znalostí je další slibnou směr.
Multitask a multijazyk
Jak práce poznamenala, zlepšování výkonu v jazycích s nízkými zdroji zůstává problémem. Místo předtréningu jednoho masivního LLM, alternativou je trénování flotily menších expertních modelů, které se specializují na konkrétní datové modality nebo jazykové domény.
Tento ensemble přístup by mohl pomoci zlepšit pokrytí nad vzácnými úkoly a jazyky sdílením reprezentací naučených napříč experty. Kontinuální učení pro rozšíření jazykových a úkolových znalostí v čase je také zajímavou perspektivou.
Shrnutím, tato práce představuje inovativní koncept syntetizování trénovacích dat z LLM pro vytvoření performantních textových vnoření. Jejich výsledky demonstrují účinnost této metodiky, překonávají předchozí benchmarky. Jak LLM a syntetická data techniky pokročí, využití jejich znalostí pro trénování vnořitelů by se mohlo stát vysoce slibným směrem.













