Stumm Training verbessert Text Embeddings mat grousse Sprooch Modeller - Unite.AI
Connect mat eis

Prompt Engineering

Training verbessert Text Embeddings mat grousse Sprooch Modeller

mm

publizéiert

 on

Text Embeddings si Vektorrepresentatioune vu Wierder, Sätz, Abschnitter oder Dokumenter déi hir semantesch Bedeitung erfaassen. Si déngen als Kärbausteen a villen natierleche Sproochveraarbechtung (NLP) Uwendungen haut, dorënner Informatiounsrecuperatioun, Fro äntweren, semantesch Sich a méi.

vector embedding

vector embedding

Rezent Fortschrëtter a grousse Sproochemodeller (LLMs) wéi GPT-3 hunn beandrockend Fäegkeeten an e puer Shots Léieren an natierlech Sproochgeneratioun gewisen. Kënne mir LLMs profitéieren fir och den Zoustand vun Textbebauungen ze förderen? An hirem Pabeier "Verbesserung vun Text Embeddings mat grousse Sproochmodeller", Fuerscher vu Microsoft proposéieren eng nei Method déi super Resultater erreecht andeems synthetesch Trainingsdaten mat LLMs generéiert a se feinjustéieren.

Erausfuerderunge mat bestehend Methoden

Traditionell Text Embedding Techniken wéi gewiicht Moyenne vu Wuertvektoren oder TF-IDF feelen déi räich kontextuell Informatioun am Text adäquat fest. Méi rezent Methoden op Basis vu virgeschriwwe Sproochmodeller wéi BERT kréien vill besser kontextbewosst Embeddings.

Wéi och ëmmer, si erfuerderen komplex Multi-Stage Training Pipelines:

  • Pre-Train op Milliarden vu schwaach markéierten oder kënschtlechen Textpaaren
  • Fine-tune op limitéiert hand-curated Datesets

Dëst erfuerdert massiv Rechenressourcen a mënschlech Ustrengung fir Datensammlung. D'Formatiounsdaten sinn och a Diversitéit a Sproochofdeckung limitéiert. Zum Beispill, de BEIR Benchmark ëmfaasst Datesätz fir nëmmen 15 Retrieval Aufgaben op Englesch.

Bestehend Methoden benotzen haaptsächlech méi kleng BERT-Stil Architekturen als Réckmodell. Si sinn net fäeg vu méi fortgeschratt LLMs a verbonne Techniken ze profitéieren.

Methodik: Synthetesch Daten Generatioun mat LLMs

Fir dës Aschränkungen ze iwwerwannen, proposéieren d'Fuerscher eng nei Single-Etapp Training Approche déi LLMs wéi GPT-3 a GPT-4 benotzt fir divers synthetesch Trainingsdaten ze generéieren.

Déi Haaptschrëtt sinn:

  1. Taskonomie: Definéiert eng Taxonomie déi Text Embedding Aufgaben kategoriséiert an:
    • Asymmetresch Aufgaben (Query an Dokument net paraphraséiert z.B. Sich)
    • Symmetresch Aufgaben (Query an Dokument sinn Paraphrasen zB semantesch Ähnlechkeet)
  2. Prompt Design: Erstellt prompt Templates, déi op all Tasktyp ugepasst sinn, déi den LLM guidéieren fir relevant Trainingsbeispiller ze generéieren.
  3. Synthetesch Daten Generatioun: Prompt den LLM mat den entworfene Prompts fir Honnerte vun Dausende vun (Query, Dokument) Pairen ze generéieren déi eng breet Varietéit vu semanteschen Aufgaben iwwer 93 Sproochen decken.
  4. Model Training: Fine-tune e mächtege Open-Source LLM wéi Mistral op de syntheteschen Daten mat contrastive Verloscht.

Dës Methodologie erlaabt vill Trainingsdaten fir verschidden Aufgaben a ville Sproochen ze kreéieren ouni mënschlech Etikettéierungseffort. Andeems Dir d'Wëssen, déi scho a LLMs agebonne sinn, duerch Pre-Training op Web-Skala Corpa benotzt, kënne mir qualitativ héichwäerteg Daten synthetiséieren, präzis fir Text Embeddings ugepasst.

D'Fuerscher weisen dëst mat enger 2-Schrëtt Prompting Strategie:

  • Prompt GPT-4 fir potenziell Erhuelungsaufgaben ze proposéieren

Prompt fir Héichniveau Retrieval Aufgaben ze generéieren

    Prompt fir Héichniveau Retrieval Aufgaben ze generéieren
  • Prompt et nach eng Kéier fir Proben ze generéieren (Query, Dokument) baséiert op de proposéierten Aufgaben

n generéieren (Query, positiv, schwéier negativ) triplets

    n generéieren (Query, positiv, schwéier negativ) triplets

E puer Schlëssel Aspekter vum prompt Design:

  • Natierlech Sprooch freet op intuitiv mënschlech-ähnlech Instruktiounen
  • Plazhalter fir Diversitéit ze encouragéieren (zB Ufrolängt, Kloerheet, Dokumentlängt)
  • D'Kombinatioun vun Daten aus multiple Templates fir deeselwechten Tasktyp
  • Gewiicht Sproochen baséiert op Ressource Disponibilitéit

Am Ganzen konnten se 500k Text Embedding Beispiller generéieren mat engem Rechenkäschte vun 180M Tokens. Déi dominant Sprooch war Englesch (43%) gefollegt vu Polnesch, Japanesch, Italienesch an anerer.

Fir Modelltraining hu se gewielt fir den Open-Source 7B-Parameter ze feinjustéieren mistral Modell amplaz méi kleng BERT-Stil Architekturen. Well de Mistral schonn op massiven Textkorpora viraus trainéiert gouf, war keng zousätzlech kontrastiv Pre-Training néideg. Dobäizemaachen huet negligibel Verbesserunge geliwwert.

De ganze Feintuning huet manner wéi 1k Schrëtt gemaach, mat enger Mëschung vu syntheteschen a mënschlech markéierten Donnéeën. Dëst weist d'Effizienz vun der Probe vun der proposéierter Approche.

Resultater

D'Fuerscher hunn hire Modell op der MTEB Benchmark evaluéiert, déi verschidden Aufgaben iwwer Klassifikatioun, Clustering, semantesch Ähnlechkeet, Summatioun an Informatiounsrecuperatioun deckt.

Hire Modell iwwer 2.4 Punkten am Duerchschnëtt Score virdrun Staat-vun-der-Konscht, nei Rekorder fir bal all Kategorie opzebauen:

ModellVirdrun SOTAProposéiert Modell
Klassifikatioun76.078.5
Clustering46.150.3
Pairwise Klassifikatioun87.188.3
Rerangement60.060.2
Erhuelung54.356.9
StS83.184.6
Zesummefaassung31.631.4
Duerchschnëtt64.266.6

Bemierkenswäert, och ouni markéiert Daten ze benotzen an nëmmen op syntheteschen Daten ze trainéieren, huet et kompetitiv Genauegkeet erreecht - nëmmen 3.5 Punkten hannert dem voll iwwerwaachte Modell. Dëst weist d'Viabilitéit vun der Generatioun vun Text Embeddings just mat LLMs, ouni mënschlech Annotatioun Effort.

D'Fuerscher hunn och de méisproochege MIRACL Benchmark evaluéiert deen 18 Sproochen deckt. Hire Modell huet virdrun am Beschten op héich-Ressource Sproochen ausgezeechent, awer war méi schwaach op niddereg-Ressourcen. Si hypothetiséieren dëst kéint ofgeschaaft ginn andeems LLMs méi extensiv op niddereg-Ressource Sprooche virausbilden.

Zesummegefaasst, Text Embeddings trainéiert op LLM-generéiert syntheteschen Donnéeën etabléieren nei modernste Resultater, wärend méi einfach a méi effizient Training am Verglach mat fréiere Multi-Stage Approche benotzt. Mat weider Fuerschung an prompt Ingenieur a syntheteschen Datequalitéit, kéint dës Methodik vill méisproocheg Text Embeddings viraussoen.

Analyse

Dës Aarbecht bitt verschidde wäertvoll Takeaways:

  • LLMs wéi GPT-3 an GPT-4 hunn eng beandrockend Fäegkeet fir héichqualitativ synthetesch Trainingsdaten fir verschidden NLP Aufgaben ze generéieren wann se entspriechend gefrot ginn. Dëst kann d'Vertraue vu Mënsch-labeléierten Daten reduzéieren.
  • Fir Text Embeddings bitt kontrastiv Pre-Training vernoléisseg Gewënn iwwer just Feintuning Modeller wéi Mistral déi scho Billioun-Skala Pre-Training hunn. Dëst ass e wichtegen Abléck an d'Effizienz vum Training.
  • Retrieval augmentéiert Generatioun Methoden erméiglechen LLMs dynamesch Zougang zu externe Wëssen. Dofir ass d'Verbesserung vun Text Embeddings wäertvoll fir dës LLMs ze verbesseren.
  • Et gëtt bedeitend Plaz fir Verbesserung a wéineg Ressource Sproochen. Méisproocheg LLMs, déi op méi representativ Donnéeën viraus trainéiert sinn, kéinten hëllefen, dës Lück ze schloen.
  • Konzeptuell sinn d'Sproochmodelléierung an d'Textbefestegungen zwou Säiten vun der selwechter Mënz - d'Sproochsemantik ze verstoen. Mat syntheteschen Dateprompt kënnen LLMs organesch an Embedders ofgestëmmt ginn ouni komplex Pipelines.

E puer verspriechend Richtungen fir zukünfteg Aarbecht enthalen:

  • Benotzt Open-Source LLMs wéi GPT-NeoX fir synthetesch Daten ze generéieren
  • Entdeckt liichtgewiicht Post-Training fir Embedders u méi laang Kontexter unzepassen
  • Entwécklung vu prompt Ingenieurstechniken fir Qualitéit an Taskofdeckung ze kontrolléieren
  • Methoden fir d'Inferenzlatenz a Späicherkäschte fir industriell Notzung ze verbesseren

Iwwert d'Benchmarks ze schloen, grouss Sproochmodeller ze benotzen fir Text Embeddings ze verbesseren mécht interessant Méiglechkeeten fir d'Zukunft op. Wéi LLMs weider an hirer Meeschterschaft iwwer natierlech Sprooch fortschrëttlech sinn, wäert hir Aptitude fir High-Fidelity synthetesch Donnéeën och verbesseren.

Wéi och ëmmer, kritesch Fuerschungsrichtungen bleiwen fir dëst Potenzial an real-Welt Impakt ze iwwersetzen.

Personnalisatioun a Kontroll

E Schlësselvirdeel vu syntheteschen Daten ass d'Fäegkeet fir programmatesch Beispiller ze generéieren déi op spezifesch Bedierfnesser ugepasst sinn. Wéi de Pabeier bewisen huet, erlaabt prompt Engineering Trainingsdaten fir Honnerte vun Dausende vun Embedding Aufgaben ze kreéieren.

Wéi och ëmmer, aktuell prompt Designpraktiken bleiwen méi eng Konscht wéi Wëssenschaft. D'Entwécklung vun systematesch, reproduzéierbar Methoden fir präzis d'Eegeschafte vun generéierten Donnéeën ze kontrolléieren, wäerte d'Uwendbarkeet vun dëser Technik ausbauen.

Zum Beispill, Techniken fir Faktoren ze moduléieren wéi d'Komplexitéit, d'Ambiguitéit an d'Neiheet vu Beispiller kéinten hëllefen, Robustheetsprobleemer an Downstream Aufgaben unzegoen. Dynamesch Prompt Generatioun fir entwéckele Real-Welt Verdeelungen ze passen ass eng aner oppen Erausfuerderung.

Training op Skala

Wärend pre-trainéiert LLMs scho substantiell sproochlech Wëssen codéieren, wäerten hir Dategeneratiounsfäegkeete méiglecherweis weider mat zousätzlech Skala verbesseren. Modeller wéi GPT-4 trainéiert op Billioune vun Tokens vum Internettext weisen staark e puer Shot Léieren, awer sinn net speziell optimiséiert fir Trainingsdaten ze synthetiséieren.

Architekturen an Ziler ugepasst fir selbstiwwerwaachter Datengeneratioun op Web-Skala ze bootstrapping kéinten d'Qualitéit an d'Effizienz vun dëser Methodologie wesentlech förderen. Effizient Integratioun vun zréckgewonnen Wëssen fir geléiert Wëssen ze ergänzen ass eng aner villverspriechend Richtung.

Multitask a Multilingual

Wéi de Pabeier bemierkt, d'Verbesserung vun der Leeschtung op niddereg-Ressource Sproochen bleift en Thema. Anstatt en eenzege massiven LLM viraus ze trainéieren, ass eng Alternativ eng Flott vu méi klengen Expert Modeller ze trainéieren déi speziell Datemodalitéiten oder Sproocheberäicher spezialiséiert sinn.

Sou eng Ensembel Approche kéint hëllefen d'Ofdeckung iwwer selten Aufgaben a Sproochen ze verbesseren andeems d'Representatioune geléiert iwwer Experten deelen. Kontinuéierlech Léieren fir Sprooch- an Taskexpertise mat der Zäit auszebauen ass och eng spannend Perspektiv.

Als Conclusioun stellt dëse Pabeier en innovativt Konzept vir fir Trainingsdaten aus LLMs ze synthetiséieren fir performant Text Embeddings ze kreéieren. Hir Resultater weisen d'Effizienz vun dëser Methodologie, iwwerflësseg virdrun Benchmarks. Wéi LLMs a syntheteschen Datetechniken fortschrëttlech sinn, an hiert Wëssen auszeginn fir Embedders ze trainéieren kéint eng héichverspriechend Richtung ginn.

Ech hunn déi lescht fënnef Joer verbruecht an déi faszinéierend Welt vum Machine Learning an Deep Learning ënnerzegoen. Meng Leidenschaft an Expertise hunn mech dozou gefouert fir zu iwwer 50 verschiddenste Software Engineering Projeten bäizedroen, mat engem besonnesche Fokus op AI / ML. Meng kontinuéierlech Virwëtzegkeet huet mech och Richtung Natural Language Processing gezunn, e Feld dat ech gär hunn weider ze entdecken.