Kënschtlech Intelligenz
Decoder-baséiert grouss Sprooch Modeller: E komplette Guide
Grouss Sprooch Modeller (LLMs) hunn d'Feld vun der natierlecher Sproochveraarbechtung (NLP) revolutionéiert andeems se bemierkenswäert Fäegkeeten demonstréiere fir mënschlech-ähnlechen Texter ze generéieren, Froen ze beäntweren an mat enger breeder Palette vu sproochlechen Aufgaben ze hëllefen. Am Kär vun dëse mächtege Modeller läit de decoder-nëmmen Transformator Architektur, eng Variant vun der ursprénglecher Transformatorarchitektur, déi am Séminal Pabeier proposéiert gëtt "Opmierksamkeet ass alles wat Dir braucht" vum Vaswani et al.
An dësem ëmfaassende Guide wäerte mir déi bannenzeg Aarbechte vun Decoder-baséiert LLMs entdecken, an déi fundamental Bausteng verdéiwen, architektonesch Innovatiounen, an Implementéierungsdetailer, déi dës Modeller an d'Spëtzt vun der NLP Fuerschung an Uwendungen bruecht hunn.
D'Transformer Architektur: A Refresher
Ier Dir an d'Spezifizitéiten vun Decoder-baséiert LLMs daucht, ass et essentiell d'Transformatorarchitektur ze besichen, d'Fundament op där dës Modeller gebaut sinn. Den Transformator huet eng nei Approche fir d'Sequenzmodelléierung agefouert, eleng op Opmierksamkeetsmechanismus vertrauen fir laangfristeg Ofhängegkeeten an den Daten z'erfaassen, ouni d'Bedierfnes fir widderhuelend oder konvolutionell Schichten.
Déi originell Transformatorarchitektur besteet aus zwee Haaptkomponenten: en Encoder an en Decoder. Den Encoder veraarbecht d'Inputsequenz a generéiert eng kontextualiséiert Representatioun, déi dann vum Decoder verbraucht gëtt fir d'Ausgabsequenz ze produzéieren. Dës Architektur gouf ufanks fir Maschinn Iwwersetzungsaufgaben entworf, wou den Encoder den Input Saz an der Quellsprooch veraarbecht, an den Decoder de entspriechende Saz an der Zilsprooch generéiert.
SelbstOpmierksamkeet: De Schlëssel zum Erfolleg vum Transformer
Am Häerz vun der transformer läit de Self-Opmierksamkeet Mechanismus, eng mächteg Technik déi de Modell erlaabt Informatiounen aus verschiddene Positiounen an der Input Sequenz ze weien an aggregéiert. Am Géigesaz zu traditionelle Sequenzmodeller, déi Input Tokens sequenziell veraarbechten, erlaabt SelbstOpmierksamkeet de Modell Ofhängegkeeten tëscht all Pair vun Tokens z'erfaassen, onofhängeg vun hirer Positioun an der Sequenz.
D'SelbstOpmierksamkeet Operatioun kann an dräi Haaptschrëtt opgedeelt ginn:
- Query, Schlëssel, a Wäert Projektiounen: D'Input Sequenz gëtt an dräi separat Representatioune projizéiert: Ufroën (Q), Tastekombinatiounen (K), an Wäerter (V). Dës Projektioune ginn kritt andeems d'Input mat geléierte Gewiichtsmatrice multiplizéiert gëtt.
- Opmierksamkeet Score Berechnung: Fir all Positioun an der Inputsequenz ginn d'Opmierksamkeetsscore berechent andeems de Punktprodukt tëscht dem entspriechende Ufrovektor an all Schlësselvektoren geholl gëtt. Dës Partituren representéieren d'Relevanz vun all Positioun fir déi aktuell Positioun déi veraarbecht gëtt.
- Gewielten Zomm vu Wäerter: D'Opmierksamkeetsscore ginn normaliséiert mat enger Softmax Funktioun, an déi resultéierend Opmierksamkeetsgewiichter gi benotzt fir eng gewiicht Zomm vun de Wäertvektoren ze berechnen, déi d'Ausgangsrepresentatioun fir déi aktuell Positioun produzéieren.
Multi-Kapp Opmierksamkeet, eng Variant vum SelbstOpmierksamkeetsmechanismus, erlaabt dem Modell verschidden Aarte vu Bezéiungen z'erfaassen andeems Dir Opmierksamkeetsscores iwwer multiple "Rechner"geréieren" parallel, jidderee mat sengem eegene Set vu Ufroen, Schlëssel a Wäertprojektiounen.
Architektonesch Varianten a Konfiguratiounen
Wärend d'Kärprinzipien vun Decoder-baséiert LLMs konsequent bleiwen, hunn d'Fuerscher verschidde architektonesch Varianten a Konfiguratiounen exploréiert fir d'Performance, d'Effizienz an d'Verallaliséierungsfäegkeeten ze verbesseren. An dëser Sektioun wäerte mir déi verschidden architektonesch Choixen an hir Implikatioune verdéiwen.
Architektur Zorte
Decoder-baséiert LLMs kënne breed an dräi Haaptarten klasséiert ginn: Encoder-Decoder, Causal Decoder, a Präfix Decoder. All Architekturtyp weist ënnerschiddlech Opmierksamkeetsmuster.
Encoder-Decoder Architektur
Baséierend op dem Vanille Transformer Modell besteet d'Encoder-Decoder Architektur aus zwee Stacks: en Encoder an en Decoder. Den Encoder benotzt gestapelte Multi-Kapp SelbstOpmierksamkeetsschichten fir d'Inputsequenz ze codéieren an latent Representatioune ze generéieren. Den Decoder mécht dann Kräiz-Opmierksamkeet op dës Representatioune fir d'Zielsequenz ze generéieren. Wärend effektiv a verschiddenen NLP Aufgaben, wéineg LLMs, wéi z Flan-T5, adoptéiert dës Architektur.
Causal Decoder Architektur
D'causal Decoderarchitektur integréiert eng unidirektional Opmierksamkeetsmaske, déi all Input Token erlaabt nëmmen op vergaangen Tokens a sech selwer opzehuelen. Béid Input an Output Tokens ginn am selwechten Decoder veraarbecht. Notabele Modeller wéi GPT-1, GPT-2, an GPT-3 sinn op dëser Architektur gebaut, mat GPT-3 weist bemierkenswäert am-Kontext Léierfäegkeeten. Vill LLMs, dorënner OPT, BLOOM, a Gopher, hu wäit kausal Decoderen ugeholl.
Präfix Decoder Architektur
Och bekannt als den net-causalen Decoder, ännert d'Präfix-Decoderarchitektur de Maskéierungsmechanismus vun de kausalen Decoderen fir bidirektional Opmierksamkeet iwwer Präfix Tokens an unidirektional Opmierksamkeet op generéiert Tokens z'erméiglechen. Wéi d'Encoder-Decoder Architektur, kënnen Präfix Decoder d'Präfix Sequenz bidirektional codéieren an Ausgangstokens autoregressiv mat gedeelt Parameter viraussoen. LLMs baséiert op Präfix Decoder enthalen GLM130B an U-PaLM.
All dräi Architektur Zorte kann mat der verlängert ginn Mëschung vun Experten (MoE) Skaléierungstechnik, déi sparse eng Ënnerdeelung vun neuralen Netzwierkgewiichter fir all Input aktivéiert. Dës Approche gouf a Modeller wéi Switch Transformer a GLaM benotzt, mat der Erhéijung vun der Unzuel vun Experten oder der Gesamtparametergréisst déi bedeitend Performanceverbesserungen weist.
Decoder-Only Transformer: Déi Autoregressiv Natur ëmfaassen
Wärend déi ursprénglech Transformatorarchitektur fir Sequenz-zu-Sequenz Aufgaben wéi Maschinn Iwwersetzung entworf gouf, kënnen vill NLP Aufgaben, wéi Sproochmodelléierung an Textgeneratioun, als autoregressiv Probleemer encadréiert ginn, wou de Modell een Token gläichzäiteg generéiert, bedingt op der virdrun generéiert Tokens.
Gitt den Decoder-nëmmen Transformator, eng vereinfacht Variant vun der Transformatorarchitektur déi nëmmen den Decoderkomponent behält. Dës Architektur ass besonnesch gutt gëeegent fir autoregressiv Aufgaben, well se Output Tokens een nom aneren generéiert, déi virdru generéiert Tokens als Input Kontext benotzt.
De Schlësselunterscheed tëscht dem Decoder-nëmmen Transformator an dem Original Transformator Decoder läit am SelbstOpmierksamkeetsmechanismus. Am Decoder-nëmmen Astellung gëtt d'SelbstOpmierksamkeetsoperatioun geännert fir ze verhënneren datt de Modell op zukünfteg Tokens opmécht, eng Eegeschafte bekannt als Kausalitéit. Dëst gëtt erreecht duerch eng Technik déi "maskéiert SelbstOpmierksamkeet" genannt gëtt, wou d'Opmierksamkeetsscores, déi zu zukünfteg Positiounen entspriechen, op negativ Infinity gesat ginn, effektiv maskéieren se während dem Softmax Normaliséierungsschrëtt.
Architektonesch Komponente vun Decoder-baséiert LLMs
Wärend d'Kärprinzipien vu SelbstOpmierksamkeet a maskéierter SelbstOpmierksamkeet d'selwecht bleiwen, modernen Decoder-baséiert LLMs hunn e puer architektonesch Innovatiounen agefouert fir d'Performance, d'Effizienz an d'Generaliséierungsfäegkeeten ze verbesseren. Loosst eis e puer vun de Schlësselkomponenten an Techniken entdecken, déi a modernste LLMs beschäftegt ginn.
Input Representatioun
Virun der Veraarbechtung vun der Input Sequenz, benotzen Decoder-baséiert LLMs Tokeniséierung an Embedding Techniken fir de rauen Text an eng numeresch Representatioun ze konvertéieren déi gëeegent ass fir de Modell.
Tokeniséierung: Den Tokeniséierungsprozess konvertéiert den Inputtext an eng Sequenz vun Tokens, déi Wierder, Ënnerwierder oder souguer eenzel Charaktere kënne sinn, ofhängeg vun der benotzter Tokeniséierungsstrategie. Populär Tokeniséierungstechnike fir LLMs enthalen Byte-Pair Encoding (BPE), SentencePiece a WordPiece. Dës Methoden zielen e Gläichgewiicht tëscht Vokabulärgréisst a Representatiounsgranularitéit ze schloen, wat de Modell erlaabt seelen oder ausserhalb Vokabulär Wierder effektiv ze handhaben.
Token Embeddings: No der Tokeniséierung gëtt all Token op eng dichte Vektorrepresentatioun gemappt, déi eng Token Embedding genannt gëtt. Dës Embeddings gi während dem Trainingsprozess geléiert a fangen semantesch a syntaktesch Bezéiungen tëscht Tokens.
Positional Embeddings: Transformator Modeller veraarbecht déi ganz Input Sequenz gläichzäiteg, fehlen déi inherent Notioun vun Token Positiounen präsent a widderhuelend Modeller. Fir Positiounsinformatioun z'integréieren, ginn positional Embeddings zu den Token Embeddings bäigefüügt, wat de Modell erlaabt tëscht Tokens op Basis vun hire Positiounen an der Sequenz z'ënnerscheeden. Fréier LLMs hunn fix positional Embeddings benotzt baséiert op sinusoidal Funktiounen, wärend méi rezent Modeller geléiert Positional Embeddings oder alternativ Positional Kodéierungstechnike wéi Rotary Positional Embeddings exploréiert hunn.
Multi-Head Opmierksamkeet Blocks
De Kär Bausteng vun decoder-baséiert LLMs sinn Multi-Kapp Opmierksamkeet Schichten, déi virdrun beschriwwen maskéiert Self-Opmierksamkeet Operatioun Leeschtunge. Dës Schichten ginn e puer Mol gestapelt, mat all Schicht op d'Output vun der viregter Schicht oppassen, wat de Modell erlaabt ëmmer méi komplex Ofhängegkeeten a Representatioune festzehalen.
Opgepasst Kapp: All Multi-Kapp Opmierksamkeetsschicht besteet aus multiple "Opmierksamkeetscheffen", jidderee mat sengem eegene Set vu Query, Schlëssel a Wäertprojektiounen. Dëst erlaabt de Modell fir verschidden Aspekter vum Input gläichzäiteg opzehuelen, verschidde Bezéiungen a Mustere festzehalen.
Rescht Verbindungen a Layer Normaliséierung: Fir d'Ausbildung vun déif Netzwierker ze erliichteren an de verschwannende Gradientproblem ze reduzéieren, benotzen Decoder-baséiert LLMs Reschtverbindungen a Schichtnormaliséierungstechniken. Restverbindunge fügen den Input vun enger Schicht un säin Ausgang, sou datt Gradienten méi liicht fléien wärend der Réckpropagatioun. Layer Normaliséierung hëlleft d'Aktivatiounen a Gradienten ze stabiliséieren, d'Trainingsstabilitéit an d'Performance weider ze verbesseren.
Feed-Forward Schichten
Zousätzlech zu Multi-Kapp Opmierksamkeetsschichten, Decoder-baséiert LLMs integréieren Feed-Forward Schichten, déi en einfachen Feed-Forward neuralt Netzwierk op all Positioun an der Sequenz uwenden. Dës Schichten aféieren Net-Linearitéiten an erlaben de Modell méi komplex Representatioune ze léieren.
Aktivéierungsfunktiounen: D'Wiel vun der Aktivéierungsfunktioun an de Feed-Forward Schichten kann d'Performance vum Modell wesentlech beaflossen. Wärend fréier LLMs op déi wäit benotzt ReLU Aktivatioun vertraut hunn, hu méi rezent Modeller méi sophistikéiert Aktivéierungsfunktiounen ugeholl wéi d'Gaussian Error Linear Unit (GELU) oder d'SwiGLU Aktivatioun, déi verbessert Leeschtung gewisen hunn.
Spuert Opmierksamkeet an effizient Transformers
Wärend de SelbstOpmierksamkeetsmechanismus mächteg ass, kënnt et mat enger quadratescher Berechnungskomplexitéit mat Respekt fir d'Sequenzlängt, wat et computationally deier mécht fir laang Sequenzen. Fir dës Erausfuerderung unzegoen, goufen e puer Technike proposéiert fir d'Rechner- a Gedächtnisfuerderunge vu SelbstOpmierksamkeet ze reduzéieren, wat effizient Veraarbechtung vu méi laang Sequenzen erméiglecht.
Spuert Opmierksamkeet: Sparse Opmierksamkeetstechniken, sou wéi déi am GPT-3 Modell beschäftegt, selektiv op eng Ënnergrupp vu Positiounen an der Inputsequenz, anstatt Opmierksamkeetsscores fir all Positiounen ze berechnen. Dëst kann d'Rechnerkomplexitéit wesentlech reduzéieren wärend eng vernünfteg Leeschtung behalen.
Schieberfenster Opmierksamkeet: Agefouert am Mistral 7B Modell, Schieberfenster Opmierksamkeet (SWA) ass eng einfach awer effektiv Technik déi d'Opmierksamkeetsspann vun all Token op eng fix Fënstergréisst beschränkt. Dës Approche profitéiert d'Fäegkeet vun den Transformatorschichten fir Informatioun iwwer verschidde Schichten ze vermëttelen, effektiv d'Opmierksamkeetsspann erhéijen ouni déi quadratesch Komplexitéit vu voller SelbstOpmierksamkeet.
Rolling Buffer Cache: Fir d'Erënnerungsfuerderunge weider ze reduzéieren, besonnesch fir laang Sequenzen, benotzt de Mistral 7B Modell e Rolling Puffer Cache. Dës Technik späichert a benotzt de berechnen Schlëssel- a Wäertvektore fir eng fix Fënstergréisst, vermeit iwwerflësseg Berechnungen a miniméiert d'Erënnerungsverbrauch.
Grouped Query Opmierksamkeet: Agefouert am LLaMA 2 Modell, grouped query Opmierksamkeet (GQA) ass eng Variant vum Multi-Query Opmierksamkeet Mechanismus deen Opmierksamkeet Kapp an Gruppen deelt, all Grupp deelt eng gemeinsam Schlëssel a Wäert Matrixentgasung. Dës Approche schléisst e Gläichgewiicht tëscht der Effizienz vun der Multi-Query Opmierksamkeet an der Leeschtung vun der Standard SelbstOpmierksamkeet, bitt verbessert Inferenzzäiten wärend qualitativ héichwäerteg Resultater behalen.