Prompt engineering

Trening av forbedrede tekst-embeddings med store språkmodeller

Published January 11, 2024

Updated April 4, 2026

Aayush Mittal Mittal

Tekst-embeddings er vektorrepresentasjoner av ord, setninger, avsnitt eller dokumenter som fanger deres semantiske mening. De fungerer som en kjernestein i mange naturligspråksbehandlingsapplikasjoner i dag, inkludert informasjonsøk, spørsmålssvar, semantisk søk og mer.

vektor-embedding

Nylige fremgang i store språkmodeller (LLM) som GPT-3 har vist imponerende evner i few-shot-læring og naturlig språkgenerering. Kan vi utnytte LLM til å fremme også tilstanden for tekst-embeddings? I deres artikkel “Forbedring av tekst-embeddings med store språkmodeller“, foreslår forskere fra Microsoft en ny metode som oppnår overlegne resultater ved å generere syntetisk treningdata med LLM og finjustere på den.

Ufordringer med eksisterende metoder

Tradisjonelle tekst-embedding-teknikker som vektormiddelverdier av ord eller TF-IDF klarer ikke å fange den rike kontekstinformasjonen i tekst. Mer nylige metoder basert på forhånds trenede språkmodeller som BERT får mye bedre kontekstbevisste embeddings.

Men de krever komplekse multi-stegs treningssystemer:

Forhåndstrening på milliarder av svakt merket eller kunstig tekstpar
Finjustering på begrensede håndkurerte datasett

Dette krever massive beregningsressurser og menneskelig innsats for datainnsamling. Treningdataene er også begrensede i mangfold og språkdekning. For eksempel består BEIR-benchmark av datasett for bare 15 søkeoppgaver på engelsk.

Eksisterende metoder bruker hovedsakelig mindre BERT-lignende arkitekturer som bakgrunnsmodell. De er ikke i stand til å dra nytte av mer avanserte LLM og relaterte teknikker.

Metodologi: Syntetisk data-generering med LLM

For å overvinne disse begrensningene, foreslår forskerne en ny enkelt-stegs treningstilnærming som utnytter LLM som GPT-3 og GPT-4 til å generere mangfoldig syntetisk treningdata.

De viktigste trinnene er:

Oppgavetaksonomi: Definer en taksonomi som kategoriserer tekst-embedding-oppgaver i:
- Asymmetriske oppgaver (spørring og dokument ikke er parafraser, f.eks. søk)
- Symmetriske oppgaver (spørring og dokument er parafraser, f.eks. semantisk likhet)
Prompt-design: Opprett prompt-maler tilpasset hver oppgavetype som guider LLM til å generere relevante treningseksempler.
Syntetisk data-generering: Prompt LLM med de designede promptene til å generere hundretusener av (spørring, dokument) par som dekker en bred variasjon av semantiske oppgaver på 93 språk.
Modell-trening: Finjuster en kraftig åpen kilde LLM som Mistral på den syntetiske dataen ved hjelp av kontrastiv tap.

Denne metodologien gjør det mulig å opprette rikelig treningdata for mangfoldige oppgaver på flere språk uten noen menneskelig merkinginnsats. Ved å utnytte kunnskapen som allerede er innbygget i LLM gjennom forhåndstrening på web-skala korpus, kan vi syntetisere høykvalitetsdata nøyaktig tilpasset tekst-embeddings.

Forskerne demonstrerer dette med en 2-trinns prompt-strategi:

Prompt GPT-4 til å foreslå potensielle søkeoppgaver

Prompt for generating high-level retrieval tasks

Prompt det igjen til å generere (spørring, dokument) eksempler basert på de foreslåtte oppgavene

n generate (query, positive, hard negative) triplets

Noen nøkkelaspekter ved prompt-design:

Naturlig språk-prompt for intuitive menneske-lignende instruksjoner
Pladholdere for å oppmuntre mangfold (f.eks. spørringlengde, klarhet, dokumentlengde)
Kombinering av data fra flere maler for samme oppgavetype
Vekting av språk basert på ressurs-tilgjengelighet

Til sammen var de i stand til å generere 500k tekst-embedding-eksempler til en beregningskostnad på 180M token. Den dominerende språket var engelsk (43%) fulgt av polsk, japansk, italiensk og andre.

For modell-trening, valgte de å finjustere den åpne kilde 7B parameter Mistral-modellen i stedet for mindre BERT-lignende arkitekturer. Ettersom Mistral allerede var forhåndstrent på massive tekst-korpus, var det ikke nødvendig med ytterligere kontrastiv forhåndstrening. Tillegg av det ga ubetydelige forbedringer.

Hele finjusteringen tok mindre enn 1k trinn, ved hjelp av en blanding av syntetisk og menneske-merket data. Dette demonstrerer prøveeffektiviteten til den foreslåtte tilnærmingen.

Resultater

Forskerne evaluerte deres modell på MTEB-benchmark, som dekker mangfoldige oppgaver over klassifisering, klustering, semantisk likhet, sammenfatting og informasjonsøk.

Deres modell overgikk tidligere stat-of-the-art med 2,4 poeng i gjennomsnittscore, og etablerte nye rekorder for nesten hver kategori:

Modell	Tidligere SOTA	Forslagt Modell
Klassifisering	76,0	78,5
Klustering	46,1	50,3
Parvis klassifisering	87,1	88,3
Reranking	60,0	60,2
Retrieval	54,3	56,9
STS	83,1	84,6
Sammenfatting	31,6	31,4
Gjennomsnitt	64,2	66,6

Merkelig nok, selv uten å bruke noen merket data og kun trening på syntetisk data, oppnådde den konkurranse-aksurat – bare 3,5 poeng bak den fullt overvåkte modellen. Dette demonstrerer muligheten for å generere tekst-embeddings bare ved hjelp av LLM, uten menneskelig merkinginnsats.

Forskerne evaluerte også på den flerspråklige MIRACL-benchmark, som dekker 18 språk. Deres modell overgikk tidligere beste på høyt-ressurs-språk, men var svakere på lavt-ressurs-språk. De hypotetiserer at dette kunne mildnes ved å forhåndstreine LLM mer omfattende på lavt-ressurs-språk.

I sammenfatting, tekst-embeddings trenet på LLM-generert syntetisk data etablere nye stat-of-the-art-resultater, mens de bruker enklere og mer effektiv trening sammenlignet med tidligere multi-stegs-tilnærminger. Med videre forskning i prompt-ingeniørkunst og syntetisk datakvalitet, kunne denne metodologien fremme multilinguale tekst-embeddings betydelig.

Analyse

Dette arbeidet tilbyr flere verdifulle takeaways:

LLM som GPT-3 og GPT-4 har en imponerende evne til å generere høykvalitets syntetisk treningdata for mangfoldige NLP-oppgaver når de promptes riktig. Dette kan redusere avhengigheten av menneske-merket data.
For tekst-embeddings, gir kontrastiv forhåndstrening ubetydelige forbedringer sammenlignet med bare finjustering av modeller som Mistral som allerede har trillion-skala forhåndstrening. Dette er en viktig innsikt i treningseffektivitet.
Søke-genereringsmetoder gjør det mulig for LLM å dynamisk aksessere eksternt kunnskap. Derfor er forbedring av tekst-embeddings verdifullt for å forbedre disse LLM.
Det er betydelig rom for forbedring på lavt-ressurs-språk. Flerspråklige LLM pre-trent på mer representative data kunne hjelpe med å lukke denne gapen.
Konseptuelt, språkmodellering og tekst-embeddings er to sider av samme mynt – forståelse av språksemantikk. Med syntetisk dataprompting, kan LLM bli organisk finjustert til embeddere uten komplekse rørledninger.

Noen lovende retninger for fremtidig arbeid inkluderer:

Utnytting av åpne kilde LLM som GPT-NeoX til å generere syntetisk data
Utforskning av lett post-trening for å tilpasse embeddere til lengre kontekster
Utvikling av prompt-ingeniørteknikker for å kontrollere kvalitet og oppgave-dekning
Metoder for å forbedre inferens-forsinkelse og lagringskostnader for industriell bruk

Utenfor å slå benchmark, å bruke store språkmodeller til å forbedre tekst-embeddings åpner opp interessante muligheter for fremtiden. Ettersom LLM fortsatt å fremme sin mester over naturlig språk, er deres evne til å generere høytroppig syntetisk data sannsynligvis å forbedre også.

Men kritiske forskningsretninger gjenstår for å oversette denne potensialet til virkelig verdens påvirkning.

Tilpassing og kontroll

En nøkelfordel med syntetisk data er evnen til å programmerisk generere eksempler tilpasset bestemte behov. Som artikkelen demonstrerte, gjør prompt-ingeniørkunst det mulig å opprette treningdata for hundretusener av embedding-oppgaver.

Likevel forblir nåværende prompt-design-praksis mer en kunst enn vitenskap. Utvikling av systematiske, reproduserbare metoder for å nøyaktig kontrollere egenskapene til generert data ville utvide anvendeligheten av denne teknikken.

For eksempel, teknikker for å modulere faktorer som kompleksitet, tvetydighet og nyskaping av eksempler kunne hjelpe med å håndtere robusthetproblemer i nedstrøms-oppgaver. Dynamisk prompt-generering for å matche evoluerende virkelige distribusjoner er en annen åpen utfordring.

Trening på skala

Selv om forhåndstrente LLM allerede koder betydelig lingvistisk kunnskap, er deres data-genereringsferdigheter sannsynligvis å forbedre videre med ytterligere skala. Modeller som GPT-4 trenet på trillioner av token av internett-tekst viser sterke few-shot-læringsferdigheter, men har ikke vært optimert spesifikt for å syntetisere treningdata.

Arkitekturer og objektiver tilpasset til å bootstrappe selv-superviset data-generering på web-skala kunne substansielt fremme kvaliteten og effektiviteten av denne metodologien. Effektiv integrering av hentet kunnskap for å komplementere lært kunnskap er en annen lovende retning.

Flerspråklig og fleroppgave

Som artikkelen noterte, forbedre ytelse på lavt-ressurs-språk forblir et problem. I stedet for å forhåndstreine en enkelt massiv LLM, er en alternativ å trene en flåte av mindre ekspertmodeller som spesialiserer seg i bestemte data-modaler eller språk-domener.

En slik ensemble-tilnærming kunne hjelpe med å forbedre dekning over sjeldne oppgaver og språk ved å dele representasjoner lært over eksperter. Kontinuerlig læring for å utvide språk- og oppgave-ekspertise over tid er også en spennende prospekt.

I konklusjon, denne artikkelen introduserer en innovativ konsept for å syntetisere treningdata fra LLM for å opprette performant tekst-embeddings. Deres resultater demonstrerer effektiviteten av denne metodologien, og overgår tidligere benchmark. Ettersom LLM og syntetisk data-teknikker fremmes, kunne tapping av deres kunnskap for å trene embeddere bli en høyt lovende retning.

Related Topics:GPT-4 LLM microsoft text embeddings

Aayush Mittal

Jeg har brukt de siste fem årene til å dykke ned i den fasiniserende verden av Machine Learning og Deep Learning. Min lidenskap og ekspertise har ført meg til å bidra til over 50 forskjellige prosjekter innen programvareutvikling, med særlig fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot Natural Language Processing, et felt jeg er ivrig etter å utforske videre.