Intelliġenza Artifiċjali

Żieda NLP b'Mudelli ta' Transformer | Analiżi Komprensiva ta' T5, BERT, u GPT

ippubblikat

6 xhur ilu

Novembru 8, 2023

L-Ipproċessar tal-Lingwa Naturali (NLP) esperjenza xi wħud mill-aktar skoperti ta 'impatt f'dawn l-aħħar snin, primarjament minħabba l-arkitettura tat-transformer. Dawn l-avvanzi mhux biss tejbu l-kapaċitajiet tal-magni biex jifhmu u jiġġeneraw il-lingwaġġ tal-bniedem iżda ddefinixxew ukoll mill-ġdid il-pajsaġġ ta 'bosta applikazzjonijiet, minn magni tat-tiftix għal AI konversazzjonali.

Biex napprezzaw bis-sħiħ is-sinifikat tat-trasformaturi, l-ewwel irridu nħarsu lura lejn il-predeċessuri u l-blokki tal-bini li poġġew il-pedament għal din l-arkitettura rivoluzzjonarja.

Tekniki Bikrija NLP: Il-Fondazzjonijiet Qabel Transformers

Word Embeddings: Minn One-Hot għal Word2Vec

Fl-approċċi tradizzjonali tal-NLP, ir-rappreżentazzjoni tal-kliem spiss kienet letterali u ma kellhiex kull forma ta 'fehim semantiku jew sintattiku. Kodifikazzjoni waħda sħuna hija eżempju ewlieni ta 'din il-limitazzjoni.

Kodifikazzjoni waħda sħuna hija proċess li bih varjabbli kategoriċi huma kkonvertiti f'rappreżentazzjoni ta 'vettur binarja fejn bit wieħed biss huwa "sħun" (settjat għal 1) filwaqt li l-oħrajn kollha huma "kesħa" (issettjat għal 0). Fil-kuntest ta' NLP, kull kelma f'vokabularju hija rappreżentata minn vettori ta' qawwa waħda fejn kull vettur huwa d-daqs tal-vokabularju, u kull kelma hija rappreżentata minn vettur bi 0s kollha u 1 waħda fl-indiċi li jikkorrispondi għal dik il-kelma f' il-lista tal-vokabularju.

Eżempju ta 'Kodifikazzjoni One-Hot

Ejja ngħidu li għandna vokabularju ċkejken b’ħames kelmiet biss: [“king”, “reġina”, “raġel”, “mara”, “tifel”]. Il-vettori ta 'kodifikazzjoni one-hot għal kull kelma jidhru bħal dan:

“king” -> [1, 0, 0, 0, 0]
“reġina” -> [0, 1, 0, 0, 0]
“raġel” -> [0, 0, 1, 0, 0]
“mara” -> [0, 0, 0, 1, 0]
“tifel” -> [0, 0, 0, 0, 1]

Rappreżentazzjoni Matematika

Jekk innotaw $V$ bħala d-daqs tal-vokabularju tagħna u $w_{i}$ bħala l-vector rappreżentazzjoni one-hot tal-kelma i-th fil-vokabularju, ir-rappreżentazzjoni matematika ta $w_{i}$ ikun:

$w_{i} = [0, 0, ..., 1, ..., 0, 0]$ $fejn il-pożizzjoni i-th hija 1 u l-pożizzjonijiet l-oħra kollha huma 0.$

L-iżvantaġġ ewlieni tal-kodifikazzjoni one-hot hija li tittratta kull kelma bħala entità iżolata, mingħajr ebda relazzjoni ma 'kliem ieħor. Jirriżulta f'vettori skars u ta' dimensjoni għolja li ma jaqbdu l-ebda informazzjoni semantika jew sintattika dwar il-kliem.

L-introduzzjoni ta 'inkorporazzjonijiet ta' kliem, l-aktar Word2Vec, kienet mument kruċjali fl-NLP. Żviluppat minn tim fil-Google immexxi minn Tomas Mikolov fl-2013, Word2Vec irrappreżenta kliem fi spazju vettorjali dens, jaqbad relazzjonijiet sintattiċi u semantiċi tal-kliem ibbażati fuq il-kuntest tagħhom fi ħdan corpus kbar ta 'test.

B'differenza mill-kodifikazzjoni one-hot, Word2Vec jipproduċi vettori densi, tipikament b'mijiet ta 'dimensjonijiet. Kliem li jidher f'kuntesti simili, bħal "king" u "reġina", se jkollhom rappreżentazzjonijiet tal-vettur li jkunu eqreb ta 'xulxin fl-ispazju tal-vettur.

Għall-illustrazzjoni, ejja nassumu li aħna mħarrġa mudell Word2Vec u issa nirrappreżentaw kliem fi spazju ipotetiku 3-dimensjonali. L-inkorporazzjonijiet (li ġeneralment ikunu aktar minn 3D iżda mnaqqsa hawn għas-sempliċità) jistgħu jidhru xi ħaġa bħal din:

“king” -> [0.2, 0.1, 0.9]
“reġina” -> [0.21, 0.13, 0.85]
“bniedem” -> [0.4, 0.3, 0.2]
“mara” -> [0.41, 0.33, 0.27]
"tifel" -> [0.5, 0.5, 0.1]

Filwaqt li dawn in-numri huma fittizji, juru kif kliem simili għandhom vettori simili.

Rappreżentazzjoni Matematika

Jekk nirrappreżentaw l-inkorporazzjoni Word2Vec ta 'kelma bħala $v_{w}$ , u l-ispazju ta 'inkorporazzjoni tagħna għandu $d$ dimensjonijiet, allura $v_{w}$ jistgħu jiġu rappreżentati bħala:

$v_{w} = [v_{1}, v_{2}, ..., v_{d}]$ $fejn kull wieħed v_{i} huwa numru b'punt li jvarja li jirrappreżenta karatteristika tal-kelma fl-ispazju ta' inkorporazzjoni.$

Relazzjonijiet Semantiċi

Word2Vec jista 'saħansitra jaqbad relazzjonijiet kumplessi, bħal analoġiji. Per eżempju, ir-relazzjoni famuża maqbuda mill-inkorporazzjonijiet Word2Vec hija:

$vettur(“king”) - vettur (“raġel”) + vettur (“mara”) \approx vettur ("reġina")$

Dan huwa possibbli minħabba li Word2Vec jaġġusta l-vettori tal-kliem waqt it-taħriġ sabiex kliem li jaqsmu kuntesti komuni fil-korpus ikunu pożizzjonati mill-qrib fl-ispazju tal-vettur.

Word2Vec juża żewġ arkitetturi ewlenin biex jipproduċi rappreżentazzjoni mqassma tal-kliem: Continuous Bag-of-Words (CBOW) u Skip-Gram. CBOW tbassar kelma fil-mira mill-kliem tal-kuntest tal-madwar, filwaqt li Skip-Gram jagħmel il-maqlub, billi tbassar kliem tal-kuntest minn kelma fil-mira. Dan ippermetta lill-magni jibdew jifhmu l-użu u t-tifsira tal-kliem b'mod aktar sfumat.

Immudellar ta' Sekwenza: RNNs u LSTMs

Hekk kif il-qasam mexa 'l quddiem, il-fokus inbidel lejn il-fehim tas-sekwenzi tat-test, li kien kruċjali għal kompiti bħal traduzzjoni awtomatika, sommarju tat-test, u analiżi tas-sentimenti. Netwerks Neurali Rikorrenti (RNNs) saru l-pedament għal dawn l-applikazzjonijiet minħabba l-kapaċità tagħhom li jimmaniġġjaw data sekwenzjali billi jżommu forma ta 'memorja.

Madankollu, RNNs ma kinux mingħajr limitazzjonijiet. Huma tħabtu ma 'dipendenzi fit-tul minħabba l-problema tal-gradjent li jgħibu, fejn l-informazzjoni tintilef fuq sekwenzi twal, u b'hekk ikun ta' sfida biex jitgħallmu korrelazzjonijiet bejn avvenimenti imbiegħda.

Netwerks tal-Memorja fit-Tul Qasira (LSTMs), introdotti minn Sepp Hochreiter u Jürgen Schmidhuber fl-1997, indirizza din il-kwistjoni b'arkitettura aktar sofistikata. L-LSTMs għandhom gradi li jikkontrollaw il-fluss ta 'informazzjoni: il-bieb tad-dħul, il-bieb tinsa, u l-bieb tal-ħruġ. Dawn il-gradi jiddeterminaw liema informazzjoni hija maħżuna, aġġornata jew mormija, li jippermettu li n-netwerk jippreserva dipendenzi fit-tul u jtejjeb b'mod sinifikanti l-prestazzjoni fuq firxa wiesgħa ta 'kompiti NLP.

L-Arkitettura tat-Transformer

Il-pajsaġġ tal-NLP għadda minn trasformazzjoni drammatika bl-introduzzjoni tal-mudell tat-transformer fil-karta monumentali "L-attenzjoni hija kulma għandek bżonn" minn Vaswani et al. fl-2017. L-arkitettura tat-transformer titbiegħed mill-ipproċessar sekwenzjali ta 'RNNs u LSTMs u minflok tutilizza mekkaniżmu msejjaħ 'awto-attenzjoni' biex tiżen l-influwenza ta' partijiet differenti tad-dejta tal-input.

L-idea ewlenija tat-transformer hija li jista 'jipproċessa d-dejta kollha tad-dħul f'daqqa, aktar milli b'mod sekwenzjali. Dan jippermetti ħafna aktar parallelizzazzjoni u, bħala riżultat, żidiet sinifikanti fil-veloċità tat-taħriġ. Il-mekkaniżmu ta’ awto-attenzjoni jippermetti lill-mudell jiffoka fuq partijiet differenti tat-test hekk kif jipproċessah, li huwa kruċjali biex jifhem il-kuntest u r-relazzjonijiet bejn il-kliem, tkun xi tkun il-pożizzjoni tagħhom fit-test.

Encoder u Decoder fit-Transformers:

Fil-mudell oriġinali tat-Transformer, kif deskritt fil-karta "L-attenzjoni hija kulma għandek bżonn” minn Vaswani et al., L-arkitettura hija maqsuma f'żewġ partijiet ewlenin: l-encoder u d-decoder. Iż-żewġ partijiet huma komposti minn saffi li għandhom l-istess struttura ġenerali iżda jservu skopijiet differenti.

Kodifikatur:

Rwol: Ir-rwol tal-kodifikatur huwa li jipproċessa d-dejta tal-input u joħloq rappreżentazzjoni li taqbad ir-relazzjonijiet bejn l-elementi (bħal kliem f'sentenza). Din il-parti tat-transformer ma tiġġenera l-ebda kontenut ġdid; sempliċiment tittrasforma l-input fi stat li d-decoder jista 'juża.
funzjonalità: Kull saff ta 'kodifikatur għandu mekkaniżmi ta' awto-attenzjoni u netwerks newrali feed-forward. Il-mekkaniżmu ta 'awto-attenzjoni jippermetti lil kull pożizzjoni fl-encoder biex tattendi l-pożizzjonijiet kollha fis-saff ta' qabel tal-encoder—għalhekk, tista 'titgħallem il-kuntest madwar kull kelma.
Inkorporazzjonijiet kuntestwali: L-output tal-kodifikatur huwa serje ta' vettori li jirrappreżentaw is-sekwenza tad-dħul fi spazju ta' dimensjoni għolja. Dawn il-vettori spiss jissejħu inkorporazzjonijiet kuntestwali għaliex jikkodifikaw mhux biss il-kliem individwali iżda wkoll il-kuntest tagħhom fis-sentenza.

Decoder:

Rwol: Ir-rwol tad-decoder huwa li jiġġenera data tal-ħruġ b'mod sekwenzjali, parti waħda kull darba, ibbażat fuq l-input li jirċievi mill-encoder u dak li ġġenera s'issa. Hija mfassla għal kompiti bħall-ġenerazzjoni tat-test, fejn l-ordni tal-ġenerazzjoni hija kruċjali.
funzjonalità: Is-saffi tad-decoder fihom ukoll mekkaniżmi ta 'awto-attenzjoni, iżda huma mgħottija biex jipprevjenu pożizzjonijiet milli jattendu għal pożizzjonijiet sussegwenti. Dan jiżgura li t-tbassir għal pożizzjoni partikolari tista' tiddependi biss fuq outputs magħrufa f'pożizzjonijiet quddiemha. Barra minn hekk, is-saffi tad-decoder jinkludu t-tieni mekkaniżmu ta 'attenzjoni li jattendi għall-output tal-encoder, li jintegra l-kuntest mill-input fil-proċess ta' ġenerazzjoni.
Kapaċitajiet ta' Ġenerazzjoni Sekwenzjali: Dan jirreferi għall-kapaċità tad-decoder li jiġġenera sekwenza element wieħed kull darba, li jibni fuq dak li diġà pproduċa. Pereżempju, meta jiġġenera test, id-decoder ibassar il-kelma li jmiss ibbażata fuq il-kuntest ipprovdut mill-encoder u s-sekwenza ta 'kliem li diġà ġġenera.

Kull wieħed minn dawn is-sotto-saffi fi ħdan l-encoder u d-decoder huwa kruċjali għall-kapaċità tal-mudell li jimmaniġġja ħidmiet kumplessi tal-NLP. Il-mekkaniżmu ta 'attenzjoni multi-head, b'mod partikolari, jippermetti lill-mudell jiffoka b'mod selettiv fuq partijiet differenti tas-sekwenza, u jipprovdi fehim għani tal-kuntest.

Mudelli Popolari Lieva Transformers

Wara s-suċċess inizjali tal-mudell tat-transformer, kien hemm splużjoni ta 'mudelli ġodda mibnija fuq l-arkitettura tiegħu, kull wieħed bl-innovazzjonijiet u l-ottimizzazzjonijiet tiegħu għal ħidmiet differenti:

BERT (Rappreżentanzi Bidirezzjonali ta' Encoder minn Transformers): Introdott minn Google fl-2018, BERT irrevoluzzjona l-mod kif l-informazzjoni kuntestwali hija integrata fir-rappreżentazzjonijiet tal-lingwa. Permezz ta’ taħriġ minn qabel fuq corpus kbir ta’ test b’mudell ta’ lingwa mgħottija u tbassir tas-sentenza li jmiss, BERT jaqbad kuntesti bidirezzjonali sinjuri u kisbet riżultati avvanzati fuq firxa wiesgħa ta’ kompiti NLP.

BERT

T5 (Trasformatur tat-Trasferiment minn Test għal Test): Introdott minn Google fl-2020, T5 jerġa' jfassal il-kompiti NLP kollha bħala problema minn test għal test, bl-użu ta 'format unifikat ibbażat fuq test. Dan l-approċċ jissimplifika l-proċess ta 'applikazzjoni tal-mudell għal varjetà ta' kompiti, inklużi traduzzjoni, sommarju, u tweġibiet għall-mistoqsijiet.

T5 Arkitettura

GPT (Transformer Ġenerattiv imħarreġ minn qabel): Żviluppat minn OpenAI, il-linja ta 'mudelli GPT bdiet b'GPT-1 u laħqet GPT-4 sal-2023. Dawn il-mudelli huma mħarrġa minn qabel bl-użu ta' tagħlim mhux sorveljat fuq ammonti vasti ta 'dejta tat-test u rfinati għal diversi kompiti. Il-kapaċità tagħhom li jiġġeneraw test koerenti u rilevanti għall-kuntest għamlithom influwenti ħafna fl-applikazzjonijiet tal-AI kemm akkademiċi kif ukoll kummerċjali.

Arkitettura GPT

Hawn paragun aktar fil-fond tal-mudelli T5, BERT, u GPT f'diversi dimensjonijiet:

1. Tokenizzazzjoni u Vokabularju

BERT: Juża tokenizzazzjoni ta' WordPiece b'daqs ta' vokabularju ta' madwar 30,000 token.
GPT: Jimpjega Byte Pair Encoding (BPE) b'daqs kbir ta' vokabularju (eż., GPT-3 għandu daqs ta' vokabularju ta' 175,000).
T5: Tutilizza tokenizzazzjoni SentencePiece li tittratta t-test bħala mhux maħdum u ma teħtieġx kliem segmentat minn qabel.

2. Għanijiet ta' qabel it-taħriġ

BERT: Masked Language Modeling (MLM) u Tbassir tas-sentenza li jmiss (NSP).
GPT: Immudellar tal-Lingwa Kawżali (CLM), fejn kull token ibassar it-token li jmiss fis-sekwenza.
T5: Juża objettiv ta' denoising fejn medda każwali ta' test jiġu sostitwiti b'token sentinella u l-mudell jitgħallem jirrikostitwixxi t-test oriġinali.

3. Rappreżentazzjoni tal-Input

BERT: Token, Segment, u Inkorporazzjonijiet Pożizzjonali huma kkombinati biex jirrappreżentaw l-input.
GPT: It-Tokens u l-Inkorporazzjonijiet Pożizzjonali huma kkombinati (l-ebda inkorporazzjoni ta 'segmenti peress li mhix iddisinjata għal kompiti ta' par ta 'sentenzi).
T5: Token Embeddings biss b'Kodifikazzjonijiet Pożizzjonali Relattivi miżjuda matul l-operazzjonijiet ta 'attenzjoni.

4. Mekkaniżmu ta 'Attenzjoni

BERT: Juża kodifikazzjonijiet pożizzjonali assoluti u jippermetti li kull token jattendi għat-tokens kollha lejn ix-xellug u lejn il-lemin (attenzjoni bidirezzjonali).
GPT: Juża wkoll kodifikazzjonijiet pożizzjonali assoluti iżda jirrestrinġi l-attenzjoni għal tokens preċedenti biss (attenzjoni unidirezzjonali).
T5: Jimplimenta varjant tat-transformer li juża preġudizzji tal-pożizzjoni relattiva minflok inkorporazzjonijiet pożizzjonali.

5. Arkitettura Mudell

BERT: Arkitettura tal-kodifikatur biss b'saffi multipli ta 'blokki tat-trasformaturi.
GPT: Arkitettura ta' decoder biss, ukoll b'saffi multipli iżda ddisinjata għal ħidmiet ġenerattivi.
T5: Arkitettura ta' encoder-decoder, fejn kemm l-encoder kif ukoll id-decoder huma komposti minn saffi tat-transformer.

6. Approċċ ta 'rfinar

BERT: Jaddatta l-istati moħbija finali tal-mudell imħarreġ minn qabel għal kompiti downstream b'saffi ta 'output addizzjonali kif meħtieġ.
GPT: Iżid saff lineari fuq it-transformer u jirfina fuq il-kompitu downstream bl-użu tal-istess għan ta 'mudellar tal-lingwa kawżali.
T5: Tikkonverti l-kompiti kollha f'format minn test għal test, fejn il-mudell jiġi rfinat biex jiġġenera s-sekwenza fil-mira mis-sekwenza tal-input.

7. Data ta 'Taħriġ u Skala

BERT: Mħarreġ fuq BooksCorpus u Wikipedija bl-Ingliż.
GPT: GPT-2 u GPT-3 ġew imħarrġa fuq settijiet ta' dejta differenti estratti mill-internet, b'GPT-3 jitħarreġ fuq corpus saħansitra akbar imsejjaħ il-Common Crawl.
T5: Mħarreġ fuq il-"Colossal Clean Crawled Corpus", li hija verżjoni kbira u nadifa tal-Common Crawl.

8. Immaniġġjar tal-Kuntest u l-Bidirezzjonalità

BERT: Iddisinjat biex jifhem il-kuntest fiż-żewġ direzzjonijiet fl-istess ħin.
GPT: Mħarreġ biex jifhem il-kuntest f'direzzjoni 'l quddiem (mix-xellug għal-lemin).
T5: Jista' jimmudella kuntest bidirezzjonali fl-encoder u unidirezzjonali fid-decoder, xieraq għal kompiti minn sekwenza għal sekwenza.

9. Adattabilità għal Kompiti Downstream

BERT: Jeħtieġ saffi tar-ras speċifiċi għall-kompitu u rfinar għal kull kompitu downstream.
GPT: Huwa ta' natura ġenerattiva u jista' jiġi mħeġġeġ iwettaq kompiti b'bidliet minimi fl-istruttura tiegħu.
T5: Jittratta kull kompitu bħala problema "test għal test", u jagħmilha inerenti flessibbli u adattabbli għal kompiti ġodda.

10. Interpretabilità u Spjegabbiltà

BERT: In-natura bidirezzjonali tipprovdi inkorporazzjonijiet kuntestwali sinjuri iżda tista 'tkun aktar diffiċli biex tinterpreta.
GPT: Il-kuntest unidirezzjonali jista 'jkun aktar faċli biex issegwi iżda nieqes mill-profondità tal-kuntest bidirezzjonali.
T5: Il-qafas encoder-decoder jipprovdi separazzjoni ċara tal-passi tal-ipproċessar iżda jista 'jkun kumpless biex jiġi analizzat minħabba n-natura ġenerattiva tiegħu.

L-Impatt tat-Transformers fuq NLP

It-trasformaturi rrivoluzzjonaw il-qasam tal-NLP billi ppermettew mudelli jipproċessaw sekwenzi ta 'dejta b'mod parallel, li żiedu b'mod drammatiku l-veloċità u l-effiċjenza tat-taħriġ ta' netwerks newrali kbar. Huma introduċew il-mekkaniżmu ta 'awto-attenzjoni, li jippermetti lill-mudelli jiżnu s-sinifikat ta' kull parti tad-dejta tal-input, irrispettivament mid-distanza fi ħdan is-sekwenza. Dan wassal għal titjib bla preċedent f'firxa wiesgħa ta 'kompiti NLP, inklużi iżda mhux limitati għal traduzzjoni, tweġibiet għall-mistoqsijiet, u sommarju tat-test.

Ir-riċerka tkompli timbotta l-konfini ta 'dak li jistgħu jiksbu mudelli bbażati fuq transformer. GPT-4 u l-kontemporanji tiegħu mhumiex biss akbar fl-iskala iżda wkoll aktar effiċjenti u kapaċi minħabba l-avvanzi fl-arkitettura u l-metodi ta 'taħriġ. Tekniki bħat-tagħlim ta’ ftit sparatura, fejn il-mudelli jwettqu ħidmiet b’eżempji minimi, u metodi għal tagħlim ta’ trasferiment aktar effettiv huma fuq quddiem nett tar-riċerka attwali.

Il-mudelli tal-lingwa bħal dawk ibbażati fuq it-trasformaturi jitgħallmu minn data li jista’ jkun fiha preġudizzji. Ir-riċerkaturi u l-prattikanti qed jaħdmu b'mod attiv biex jidentifikaw, jifhmu, u jtaffu dawn il-preġudizzji. It-tekniki jvarjaw minn settijiet ta' data ta' taħriġ ikkurat għal aġġustamenti ta' wara t-taħriġ immirati lejn il-ġustizzja u n-newtralità.

Suġġetti Relatati:nlp trasformaturi

Sa jmiss

Il-Pin AI ta 'Humane huwa Pass 'il quddiem fit-teknoloġija li jintlibes, iżda bi żvantaġġi

M'għandekx Miss

GPTs Custom Qegħdin Hawnhekk u Se Jħallu L-Impatt Kollox AI

Aayush Mittal

Għamilt l-aħħar ħames snin ngħaddas ruħi fid-dinja affaxxinanti tal-Machine Learning u t-Tagħlim Profond. Il-passjoni u l-kompetenza tiegħi wassluni biex nikkontribwixxi għal aktar minn 50 proġett ta' inġinerija tas-softwer differenti, b'fokus partikolari fuq AI/ML. Il-kurżità kontinwa tiegħi ġibditni wkoll lejn Natural Language Processing, qasam li jien ħerqan li nesplora aktar.