Prompt engineering
Trening av forbedrede tekst-embeddings med store språkmodeller

Tekst-embeddings er vektorrepresentasjoner av ord, setninger, avsnitt eller dokumenter som fanger deres semantiske mening. De fungerer som en kjernestein i mange naturligspråksbehandlingsapplikasjoner i dag, inkludert informasjonsøk, spørsmålssvar, semantisk søk og mer.
Nylige fremgang i store språkmodeller (LLM) som GPT-3 har vist imponerende evner i few-shot-læring og naturlig språkgenerering. Kan vi utnytte LLM til å fremme også tilstanden for tekst-embeddings? I deres artikkel “Forbedring av tekst-embeddings med store språkmodeller“, foreslår forskere fra Microsoft en ny metode som oppnår overlegne resultater ved å generere syntetisk treningdata med LLM og finjustere på den.
Ufordringer med eksisterende metoder
Tradisjonelle tekst-embedding-teknikker som vektormiddelverdier av ord eller TF-IDF klarer ikke å fange den rike kontekstinformasjonen i tekst. Mer nylige metoder basert på forhånds trenede språkmodeller som BERT får mye bedre kontekstbevisste embeddings.
Men de krever komplekse multi-stegs treningssystemer:
- Forhåndstrening på milliarder av svakt merket eller kunstig tekstpar
- Finjustering på begrensede håndkurerte datasett
Dette krever massive beregningsressurser og menneskelig innsats for datainnsamling. Treningdataene er også begrensede i mangfold og språkdekning. For eksempel består BEIR-benchmark av datasett for bare 15 søkeoppgaver på engelsk.
Eksisterende metoder bruker hovedsakelig mindre BERT-lignende arkitekturer som bakgrunnsmodell. De er ikke i stand til å dra nytte av mer avanserte LLM og relaterte teknikker.
Metodologi: Syntetisk data-generering med LLM
For å overvinne disse begrensningene, foreslår forskerne en ny enkelt-stegs treningstilnærming som utnytter LLM som GPT-3 og GPT-4 til å generere mangfoldig syntetisk treningdata.
De viktigste trinnene er:
- Oppgavetaksonomi: Definer en taksonomi som kategoriserer tekst-embedding-oppgaver i:
- Asymmetriske oppgaver (spørring og dokument ikke er parafraser, f.eks. søk)
- Symmetriske oppgaver (spørring og dokument er parafraser, f.eks. semantisk likhet)
- Prompt-design: Opprett prompt-maler tilpasset hver oppgavetype som guider LLM til å generere relevante treningseksempler.
- Syntetisk data-generering: Prompt LLM med de designede promptene til å generere hundretusener av (spørring, dokument) par som dekker en bred variasjon av semantiske oppgaver på 93 språk.
- Modell-trening: Finjuster en kraftig åpen kilde LLM som Mistral på den syntetiske dataen ved hjelp av kontrastiv tap.
Denne metodologien gjør det mulig å opprette rikelig treningdata for mangfoldige oppgaver på flere språk uten noen menneskelig merkinginnsats. Ved å utnytte kunnskapen som allerede er innbygget i LLM gjennom forhåndstrening på web-skala korpus, kan vi syntetisere høykvalitetsdata nøyaktig tilpasset tekst-embeddings.
Forskerne demonstrerer dette med en 2-trinns prompt-strategi:
- Prompt GPT-4 til å foreslå potensielle søkeoppgaver
- Prompt det igjen til å generere (spørring, dokument) eksempler basert på de foreslåtte oppgavene
Noen nøkkelaspekter ved prompt-design:
- Naturlig språk-prompt for intuitive menneske-lignende instruksjoner
- Pladholdere for å oppmuntre mangfold (f.eks. spørringlengde, klarhet, dokumentlengde)
- Kombinering av data fra flere maler for samme oppgavetype
- Vekting av språk basert på ressurs-tilgjengelighet
Til sammen var de i stand til å generere 500k tekst-embedding-eksempler til en beregningskostnad på 180M token. Den dominerende språket var engelsk (43%) fulgt av polsk, japansk, italiensk og andre.
For modell-trening, valgte de å finjustere den åpne kilde 7B parameter Mistral-modellen i stedet for mindre BERT-lignende arkitekturer. Ettersom Mistral allerede var forhåndstrent på massive tekst-korpus, var det ikke nødvendig med ytterligere kontrastiv forhåndstrening. Tillegg av det ga ubetydelige forbedringer.
Hele finjusteringen tok mindre enn 1k trinn, ved hjelp av en blanding av syntetisk og menneske-merket data. Dette demonstrerer prøveeffektiviteten til den foreslåtte tilnærmingen.
Resultater
Forskerne evaluerte deres modell på MTEB-benchmark, som dekker mangfoldige oppgaver over klassifisering, klustering, semantisk likhet, sammenfatting og informasjonsøk.
Deres modell overgikk tidligere stat-of-the-art med 2,4 poeng i gjennomsnittscore, og etablerte nye rekorder for nesten hver kategori:
| Modell | Tidligere SOTA | Forslagt Modell |
|---|---|---|
| Klassifisering | 76,0 | 78,5 |
| Klustering | 46,1 | 50,3 |
| Parvis klassifisering | 87,1 | 88,3 |
| Reranking | 60,0 | 60,2 |
| Retrieval | 54,3 | 56,9 |
| STS | 83,1 | 84,6 |
| Sammenfatting | 31,6 | 31,4 |
| Gjennomsnitt | 64,2 | 66,6 |
Merkelig nok, selv uten å bruke noen merket data og kun trening på syntetisk data, oppnådde den konkurranse-aksurat – bare 3,5 poeng bak den fullt overvåkte modellen. Dette demonstrerer muligheten for å generere tekst-embeddings bare ved hjelp av LLM, uten menneskelig merkinginnsats.
Forskerne evaluerte også på den flerspråklige MIRACL-benchmark, som dekker 18 språk. Deres modell overgikk tidligere beste på høyt-ressurs-språk, men var svakere på lavt-ressurs-språk. De hypotetiserer at dette kunne mildnes ved å forhåndstreine LLM mer omfattende på lavt-ressurs-språk.
I sammenfatting, tekst-embeddings trenet på LLM-generert syntetisk data etablere nye stat-of-the-art-resultater, mens de bruker enklere og mer effektiv trening sammenlignet med tidligere multi-stegs-tilnærminger. Med videre forskning i prompt-ingeniørkunst og syntetisk datakvalitet, kunne denne metodologien fremme multilinguale tekst-embeddings betydelig.
Analyse
Dette arbeidet tilbyr flere verdifulle takeaways:
- LLM som GPT-3 og GPT-4 har en imponerende evne til å generere høykvalitets syntetisk treningdata for mangfoldige NLP-oppgaver når de promptes riktig. Dette kan redusere avhengigheten av menneske-merket data.
- For tekst-embeddings, gir kontrastiv forhåndstrening ubetydelige forbedringer sammenlignet med bare finjustering av modeller som Mistral som allerede har trillion-skala forhåndstrening. Dette er en viktig innsikt i treningseffektivitet.
- Søke-genereringsmetoder gjør det mulig for LLM å dynamisk aksessere eksternt kunnskap. Derfor er forbedring av tekst-embeddings verdifullt for å forbedre disse LLM.
- Det er betydelig rom for forbedring på lavt-ressurs-språk. Flerspråklige LLM pre-trent på mer representative data kunne hjelpe med å lukke denne gapen.
- Konseptuelt, språkmodellering og tekst-embeddings er to sider av samme mynt – forståelse av språksemantikk. Med syntetisk dataprompting, kan LLM bli organisk finjustert til embeddere uten komplekse rørledninger.
Noen lovende retninger for fremtidig arbeid inkluderer:
- Utnytting av åpne kilde LLM som GPT-NeoX til å generere syntetisk data
- Utforskning av lett post-trening for å tilpasse embeddere til lengre kontekster
- Utvikling av prompt-ingeniørteknikker for å kontrollere kvalitet og oppgave-dekning
- Metoder for å forbedre inferens-forsinkelse og lagringskostnader for industriell bruk
Utenfor å slå benchmark, å bruke store språkmodeller til å forbedre tekst-embeddings åpner opp interessante muligheter for fremtiden. Ettersom LLM fortsatt å fremme sin mester over naturlig språk, er deres evne til å generere høytroppig syntetisk data sannsynligvis å forbedre også.
Men kritiske forskningsretninger gjenstår for å oversette denne potensialet til virkelig verdens påvirkning.
Tilpassing og kontroll
En nøkelfordel med syntetisk data er evnen til å programmerisk generere eksempler tilpasset bestemte behov. Som artikkelen demonstrerte, gjør prompt-ingeniørkunst det mulig å opprette treningdata for hundretusener av embedding-oppgaver.
Likevel forblir nåværende prompt-design-praksis mer en kunst enn vitenskap. Utvikling av systematiske, reproduserbare metoder for å nøyaktig kontrollere egenskapene til generert data ville utvide anvendeligheten av denne teknikken.
For eksempel, teknikker for å modulere faktorer som kompleksitet, tvetydighet og nyskaping av eksempler kunne hjelpe med å håndtere robusthetproblemer i nedstrøms-oppgaver. Dynamisk prompt-generering for å matche evoluerende virkelige distribusjoner er en annen åpen utfordring.
Trening på skala
Selv om forhåndstrente LLM allerede koder betydelig lingvistisk kunnskap, er deres data-genereringsferdigheter sannsynligvis å forbedre videre med ytterligere skala. Modeller som GPT-4 trenet på trillioner av token av internett-tekst viser sterke few-shot-læringsferdigheter, men har ikke vært optimert spesifikt for å syntetisere treningdata.
Arkitekturer og objektiver tilpasset til å bootstrappe selv-superviset data-generering på web-skala kunne substansielt fremme kvaliteten og effektiviteten av denne metodologien. Effektiv integrering av hentet kunnskap for å komplementere lært kunnskap er en annen lovende retning.
Flerspråklig og fleroppgave
Som artikkelen noterte, forbedre ytelse på lavt-ressurs-språk forblir et problem. I stedet for å forhåndstreine en enkelt massiv LLM, er en alternativ å trene en flåte av mindre ekspertmodeller som spesialiserer seg i bestemte data-modaler eller språk-domener.
En slik ensemble-tilnærming kunne hjelpe med å forbedre dekning over sjeldne oppgaver og språk ved å dele representasjoner lært over eksperter. Kontinuerlig læring for å utvide språk- og oppgave-ekspertise over tid er også en spennende prospekt.
I konklusjon, denne artikkelen introduserer en innovativ konsept for å syntetisere treningdata fra LLM for å opprette performant tekst-embeddings. Deres resultater demonstrerer effektiviteten av denne metodologien, og overgår tidligere benchmark. Ettersom LLM og syntetisk data-teknikker fremmes, kunne tapping av deres kunnskap for å trene embeddere bli en høyt lovende retning.













