Kunstig intelligens

Opprette en språkmodell i GPT-stil for et enkelt spørsmål

oppdatert on Desember 9, 2022

Forskere fra Kina har utviklet en økonomisk metode for å lage naturlige språkbehandlingssystemer i GPT-3-stil, samtidig som de unngår de stadig mer uoverkommelige utgiftene til tid og penger som er involvert i å trene opp datasett med høyt volum – en økende trend som ellers truer med å til slutt degradere denne sektoren av AI til FAANG-spillere og investorer på høyt nivå.

Det foreslåtte rammeverket kalles Oppgavedrevet språkmodellering (TLM). I stedet for å trene en enorm og kompleks modell på et stort korpus av milliarder av ord og tusenvis av etiketter og klasser, trener TLM i stedet en langt mindre modell som faktisk inneholder en spørring direkte inne i modellen.

Til venstre, en typisk hyperskala tilnærming til språkmodeller med høyt volum; høyre, TLMs slimline-metode for å utforske et stort språkkorpus på et per-emne eller per spørsmål-basis. Kilde: https://arxiv.org/pdf/2111.04130.pdf

Effektivt produseres en unik NLP-algoritme eller modell for å svare på et enkelt spørsmål, i stedet for å lage en enorm og uhåndterlig generell språkmodell som kan svare på et bredere utvalg av spørsmål.

I testing av TLM fant forskerne at den nye tilnærmingen oppnår resultater som er like eller bedre enn forhåndsutdannede språkmodeller som f.eks. ROBERTA-Large, og hyperskala NLP-systemer som OpenAIs GPT-3, Googles TRILLION Parameter Switch Transformer Modell, Koreas HyperClover, AI21 Labs' Jura 1, og Microsofts Megatron-Turing NLG 530B.

I forsøk med TLM over åtte klassifiseringsdatasett over fire domener, fant forfatterne i tillegg at systemet reduserer trenings-FLOP-ene (flytende punktoperasjoner per sekund) kreves av to størrelsesordener. Forskerne håper at TLM kan "demokratisere" en sektor som blir stadig mer elite, med NLP-modeller så store at de realistisk ikke kan installeres lokalt, og i stedet sitte, i tilfellet med GPT-3, bak dyrt og begrenset tilgang APIer for OpenAI og, nå, Microsoft Azure.

Forfatterne sier at å kutte treningstiden med to størrelsesordener reduserer treningskostnadene med over 1,000 GPUer for én dag til bare 8 GPUer over 48 timer.

Den nye rapporterer har tittelen NLP fra grunnen av uten storskala fortrening: et enkelt og effektivt rammeverk, og kommer fra tre forskere ved Tsinghua University i Beijing, og en forsker fra Kina-baserte AI-utviklingsselskapet Recurrent AI, Inc.

Uoverkommelige svar

De koste av å trene effektive, allsidige språkmodeller blir i økende grad karakterisert som en potensiell 'termisk grense' for i hvilken grad presterende og nøyaktig NLP virkelig kan bli spredt i kulturen.

Statistikk om veksten av fasetter i NLP-modellarkitekturer, fra en 2020-rapport av A121 Labs. Kilde: https://arxiv.org/pdf/2004.08900.pdf

I 2019 en forsker beregnet at det koster $61,440 XNUMX USD å trene XLNet-modell (rapportert på den tiden å slå BERT i NLP-oppgaver) over 2.5 dager på 512 kjerner fordelt på 64 enheter, mens GPT-3 er anslått å ha kostet 12 millioner dollar å trene – 200 ganger kostnadene ved å trene sin forgjenger, GPT-2 (selv om nyere estimater hevder at den kan trenes nå for bare $ 4,600,000 på de laveste sky-GPUene).

Delsett av data basert på spørringsbehov

I stedet søker den nye foreslåtte arkitekturen å utlede nøyaktige klassifiseringer, etiketter og generalisering ved å bruke en spørring som et slags filter for å definere et undersett av informasjon fra en stor språkdatabase som skal trenes sammen med spørringen for å gi svar om et begrenset tema.

Forfatterne sier:

«TLM er motivert av to nøkkelideer. For det første mestrer mennesker en oppgave ved å bruke bare en liten del av verdenskunnskapen (f.eks. trenger studentene bare å gjennomgå noen få kapitler, blant alle bøker i verden, for å pugge til en eksamen).

«Vi antar at det er mye redundans i det store korpuset for en spesifikk oppgave. For det andre er opplæring på overvåket merkede data mye mer dataeffektiv for nedstrøms ytelse enn å optimalisere språkmodelleringsmålet på umerkede data. Basert på disse motivasjonene bruker TLM oppgavedataene som spørringer for å hente en liten delmengde av det generelle korpuset. Dette følges av felles optimalisering av et overvåket oppgavemål og et språkmodelleringsmål ved å bruke både de hentede dataene og oppgavedataene.'

Foruten å gjøre svært effektiv opplæring i NLP-modeller rimelig, ser forfatterne en rekke fordeler ved å bruke oppgavedrevne NLP-modeller. For det første kan forskere glede seg over større fleksibilitet, med tilpassede strategier for sekvenslengde, tokenisering, hyperparameterinnstilling og datarepresentasjoner.

Forskerne forutser også utviklingen av hybride fremtidige systemer som bytter ut begrenset forhåndstrening av en PLM (som ellers ikke er forventet i den nåværende implementeringen) mot større allsidighet og generalisering mot treningstider. De anser systemet som et skritt fremover for å fremme i-domenet zero-shot generaliseringsmetoder.

Testing og resultater

TLM ble testet på klassifiseringsutfordringer i åtte oppgaver over fire domener – biomedisinsk vitenskap, nyheter, anmeldelser og informatikk. Oppgavene ble delt inn i høyressurs- og lavressurskategorier. Oppgaver med høye ressurser inkluderte over 5,000 oppgavedata, som f.eks AGNews og RCT, blant andre; ressurssvake oppgaver inkludert ChemProt og ACL-ARC, Samt HyperPartisan nyhetsdeteksjonsdatasett.

Forskerne utviklet to treningssett med tittelen Corpus-BERT og Corpus-RoBERTa, sistnevnte ti ganger størrelsen på førstnevnte. Eksperimentene sammenlignet generelle Pretrained Language Models BERTI (fra Google) og ROBERTA (fra Facebook) til den nye arkitekturen.

Artikkelen observerer at selv om TLM er en generell metode, og bør være mer begrenset i omfang og anvendelighet enn bredere og høyere volum state-of-the-art modeller, er den i stand til å utføre nærliggende domenetilpassede finjusteringsmetoder.

Resultater fra å sammenligne ytelsen til TLM med BERT- og RobERTa-baserte sett. Resultatene viser en gjennomsnittlig F1-score over tre forskjellige treningsskalaer, og viser antall parametere, total treningsberegning (FLOPs) og størrelsen på treningskorpus.

Forfatterne konkluderer med at TLM er i stand til å oppnå resultater som er sammenlignbare eller bedre enn PLM-er, med en betydelig reduksjon i FLOP-er som trengs, og krever bare 1/16-del av treningskorpuset. Over mellomstore og store skalaer kan TLM tilsynelatende forbedre ytelsen med 0.59 og 0.24 poeng i gjennomsnitt, samtidig som den reduserer treningsdatastørrelsen med to størrelsesordener.

«Disse resultatene bekrefter at TLM er svært nøyaktig og mye mer effektiv enn PLM-er. Dessuten får TLM flere fordeler i effektivitet i større skala. Dette indikerer at PLM-er i større skala kan ha blitt opplært til å lagre mer generell kunnskap som ikke er nyttig for en spesifikk oppgave.'