ciot Antrenament de încorporare de text îmbunătățite cu modele de limbă mari - Unite.AI
Conectează-te cu noi

Inginerie promptă

Antrenamentul de încorporare de text îmbunătățită cu modele de limbă mari

mm

Publicat

 on

Înglobările de text sunt reprezentări vectoriale ale cuvintelor, propozițiilor, paragrafelor sau documentelor care surprind semnificația lor semantică. Acestea servesc ca element de bază în multe aplicații de procesare a limbajului natural (NLP) astăzi, inclusiv regăsirea informațiilor, răspunsul la întrebări, căutarea semantică și multe altele.

înglobare vectorială

înglobare vectorială

Progresele recente în modelele de limbaj mari (LLM) precum GPT-3 au demonstrat capacități impresionante în învățarea cu puține rezultate și generarea limbajului natural. Putem folosi LLM-urile pentru a avansa și starea înglobărilor de text? În lucrarea lor „Îmbunătățirea înglobărilor de text cu modele de limbă mari„, cercetătorii de la Microsoft propun o metodă inedită care obține rezultate superioare prin generarea de date sintetice de antrenament cu LLM-uri și ajustarea lor.

Provocări cu metodele existente

Tehnicile tradiționale de încorporare a textului, cum ar fi mediile ponderate ale vectorilor de cuvinte sau TF-IDF, nu reușesc să capteze în mod adecvat informațiile contextuale bogate din text. Metodele mai recente bazate pe modele lingvistice pre-antrenate, cum ar fi BERT, obțin încorporare mult mai bune în funcție de context.

Cu toate acestea, necesită conducte complexe de antrenament în mai multe etape:

  • Antrenați-vă în prealabil cu miliarde de perechi de text slab etichetate sau artificiale
  • Ajustați seturi limitate de date selectate manual

Acest lucru necesită resurse de calcul masive și efort uman pentru colectarea datelor. Datele de instruire sunt, de asemenea, limitate în ceea ce privește diversitatea și acoperirea lingvistică. De exemplu, benchmark-ul BEIR cuprinde seturi de date pentru doar 15 sarcini de recuperare în limba engleză.

Metodele existente folosesc în principal arhitecturi mai mici în stil BERT ca model de bază. Ei nu pot profita de mai multe LLM-uri și tehnici conexe.

Metodologie: Generarea de date sintetice cu LLM

Pentru a depăși aceste limitări, cercetătorii propun o nouă abordare de formare într-o singură etapă care folosește LLM-uri precum GPT-3 și GPT-4 pentru a genera diverse date de antrenament sintetice.

Pașii cheie sunt:

  1. Taxonomia sarcinilor: Definiți o taxonomie care clasifică sarcinile de încorporare a textului în:
    • Sarcini asimetrice (interogare și document nu parafrazări, de exemplu căutare)
    • Sarcini simetrice (interogarea și documentul sunt parafraze, de exemplu, asemănarea semantică)
  2. Design prompt: Creați șabloane de solicitare adaptate fiecărui tip de sarcină care ghidează LLM pentru a genera exemple de instruire relevante.
  3. Generare de date sintetice: Solicitați LLM cu solicitările concepute pentru a genera sute de mii de perechi (interogare, document) care acoperă o mare varietate de sarcini semantice în 93 de limbi.
  4. Antrenament model: Reglați fin un LLM open-source puternic, cum ar fi Mistral, pe datele sintetice, utilizând pierderea contrastantă.

Această metodologie permite crearea amplelor date de instruire pentru diverse sarcini în mai multe limbi, fără niciun efort uman de etichetare. Prin valorificarea cunoștințelor deja încorporate în LLM-uri prin pre-instruire pe corpuri la scară web, putem sintetiza date de înaltă calitate, adaptate precis pentru încorporarea textului.

Cercetătorii demonstrează acest lucru cu o strategie de stimulare în 2 pași:

  • Solicitați GPT-4 să sugereze sarcini potențiale de recuperare

Solicitare pentru generarea sarcinilor de recuperare la nivel înalt

    Solicitare pentru generarea sarcinilor de recuperare la nivel înalt
  • Solicitați-i din nou să genereze mostre (interogare, document) pe baza sarcinilor sugerate

n generează (interogare, pozitiv, negativ greu) tripleți

    n generează (interogare, pozitiv, negativ greu) tripleți

Câteva aspecte cheie ale proiectării prompte:

  • Limbajul natural solicită instrucțiuni intuitive asemănătoare omului
  • Substituenți pentru a încuraja diversitatea (de exemplu, lungimea interogării, claritatea, lungimea documentului)
  • Combinarea datelor din mai multe șabloane pentru același tip de activitate
  • Ponderarea limbilor în funcție de disponibilitatea resurselor

În total, au reușit să genereze 500 de exemple de încorporare de text la un cost de calcul de 180 de milioane de jetoane. Limba dominantă a fost engleza (43%), urmată de poloneză, japoneză, italiană și altele.

Pentru antrenamentul modelelor, au optat pentru reglarea fină a parametrului open-source 7B Mistral model în loc de arhitecturi mai mici în stil BERT. Deoarece Mistral a fost deja antrenat în prealabil pe corpuri de text masive, nu a fost nevoie de un pre-antrenament suplimentar contrastiv. Adăugarea acestuia a oferit îmbunătățiri neglijabile.

Întreaga reglare fină a durat mai puțin de 1 de pași, folosind un amestec de date sintetice și etichetate umane. Aceasta demonstrează eficiența eșantionului a abordării propuse.

REZULTATE

Cercetătorii și-au evaluat modelul pe baza de referință MTEB, care acoperă diverse sarcini de clasificare, grupare, similaritate semantică, rezumare și regăsire a informațiilor.

Modelul lor a depășit performanța anterioară cu 2.4 puncte ca punctaj mediu, stabilind noi recorduri pentru aproape fiecare categorie:

ModelSOTA anterioarăModel propus
Clasificare76.078.5
clustering46.150.3
Clasificare pe perechi87.188.3
Reclasificare60.060.2
Recuperare54.356.9
STS83.184.6
Rezumare31.631.4
In medie64.266.6

În mod remarcabil, chiar și fără a utiliza date etichetate și antrenament exclusiv pe date sintetice, a obținut acuratețe competitivă – cu doar 3.5 puncte în spatele modelului complet supravegheat. Acest lucru demonstrează viabilitatea generării înglobărilor de text doar folosind LLM-uri, fără efort uman de adnotare.

Cercetătorii au evaluat, de asemenea, benchmark-ul multilingv MIRACL care acoperă 18 limbi. Modelul lor a depășit cele mai bune rezultate anterior în limbajele cu resurse mari, dar a fost mai slab în limbajele cu resurse reduse. Ei presupun că acest lucru ar putea fi atenuat prin pre-formarea LLM-urilor mai extins pe limbi cu resurse reduse.

Pe scurt, înglobările de text instruite pe date sintetice generate de LLM stabilesc rezultate noi de ultimă generație, folosind în același timp o formare mai simplă și mai eficientă în comparație cu abordările anterioare în mai multe etape. Cu cercetări suplimentare în inginerie promptă și calitatea datelor sintetice, această metodologie ar putea avansa foarte mult în încorporarea textului multilingv.

Analiză

Această lucrare oferă câteva concluzii valoroase:

  • LLM-urile precum GPT-3 și GPT-4 au o capacitate impresionantă de a genera date de antrenament sintetice de înaltă calitate pentru diverse sarcini NLP atunci când sunt solicitate în mod corespunzător. Acest lucru poate reduce dependența de datele etichetate de oameni.
  • Pentru încorporarea textului, pre-antrenamentul contrastiv oferă câștiguri neglijabile față de doar modele de reglare fină, cum ar fi Mistral, care au deja pre-antrenament la scară de trilioane. Aceasta este o perspectivă importantă asupra eficienței antrenamentului.
  • Metodele de generare augmentată de recuperare le permit LLM-urilor să acceseze dinamic cunoștințele externe. Prin urmare, îmbunătățirea înglobărilor de text este valoroasă pentru îmbunătățirea acestor LLM.
  • Există loc semnificativ de îmbunătățire în limbile cu resurse reduse. LLM-urile multilingve pregătite în prealabil pe date mai reprezentative ar putea ajuta la reducerea acestui decalaj.
  • Din punct de vedere conceptual, modelarea limbajului și încorporarea textului sunt două fețe ale aceleiași monede - înțelegerea semanticii limbajului. Cu ajutorul datelor sintetice, LLM-urile pot fi ajustate organic în embeders fără conducte complexe.

Câteva direcții promițătoare pentru lucrări viitoare includ:

  • Utilizarea LLM-urilor open-source precum GPT-NeoX pentru a genera date sintetice
  • Explorarea post-antrenament ușoară pentru a adapta încorporatoarele la contexte mai lungi
  • Dezvoltarea unor tehnici de inginerie prompte pentru a controla calitatea și acoperirea sarcinilor
  • Metode de îmbunătățire a latenței de inferență și a costurilor de stocare pentru uz industrial

Dincolo de a depăși criteriile de referință, utilizarea modelelor de limbaj mari pentru a îmbunătăți încorporarea textului deschide posibilități interesante pentru viitor. Pe măsură ce LLM-urile continuă să avanseze în stăpânirea limbajului natural, aptitudinea lor de a genera date sintetice de înaltă fidelitate este probabil să se îmbunătățească.

Cu toate acestea, rămân direcții critice de cercetare pentru a traduce acest potențial în impact în lumea reală.

Personalizare și control

Un beneficiu cheie al datelor sintetice este capacitatea de a genera în mod programatic exemple adaptate nevoilor specifice. După cum a demonstrat lucrarea, inginerie promptă permite crearea de date de antrenament pentru sute de mii de sarcini de încorporare.

Cu toate acestea, practicile actuale de design prompt rămân mai mult o artă decât o știință. Dezvoltarea unor metode sistematice, reproductibile pentru a controla cu precizie proprietățile datelor generate ar extinde aplicabilitatea acestei tehnici.

De exemplu, tehnicile de modulare a factorilor precum complexitatea, ambiguitatea și noutatea exemplelor ar putea ajuta la abordarea problemelor de robustețe în sarcinile din aval. Generarea promptă dinamică pentru a se potrivi cu distribuțiile în evoluție din lumea reală este o altă provocare deschisă.

Antrenament la scară

În timp ce LLM-urile pre-instruite deja codifică cunoștințe lingvistice substanțiale, abilitățile lor de generare de date sunt probabil să se îmbunătățească și mai mult cu o scară suplimentară. Modele precum GPT-4 antrenate pe trilioane de simboluri de text pe internet prezintă o învățare puternică, dar nu au fost optimizate special pentru sintetizarea datelor de antrenament.

Arhitecturile și obiectivele adaptate pentru generarea de date auto-supravegheate la scară web ar putea avansa substanțial calitatea și eficiența acestei metodologii. Integrarea eficientă a cunoștințelor preluate pentru a completa cunoștințele învățate este o altă direcție promițătoare.

Multitask și multilingv

După cum se menționa în lucrare, îmbunătățirea performanței în limbile cu resurse reduse rămâne o problemă. În loc să pre-instruiți un singur LLM masiv, o alternativă este formarea unei flote de modele experți mai mici, care se specializează în anumite modalități de date sau domenii lingvistice.

O astfel de abordare de ansamblu ar putea ajuta la îmbunătățirea acoperirii sarcinilor și limbilor rare prin partajarea reprezentărilor învățate între experți. Învățarea continuă pentru a extinde competența lingvistică și a sarcinilor în timp este, de asemenea, o perspectivă interesantă.

În concluzie, această lucrare introduce un concept inovator de sinteză a datelor de formare din LLM-uri pentru a crea încorporare de text performante. Rezultatele lor demonstrează eficacitatea acestei metodologii, depășind reperele anterioare. Pe măsură ce LLM-urile și tehnicile de date sintetice progresează, exploatarea cunoștințelor lor pentru a instrui încorporatorii ar putea deveni o direcție foarte promițătoare.

Mi-am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a învățării automate și a învățării profunde. Pasiunea și expertiza mea m-au determinat să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și către Procesarea limbajului natural, un domeniu pe care sunt dornic să îl explorez în continuare.