Вештачка интелигенција
Модели на големи јазици базирани на декодер: Целосен водич
Големи јазични модели (LLMs) го револуционизираа полето на обработката на природниот јазик (НЛП) со демонстрација на извонредни способности во генерирање на текст сличен на човекот, одговарање на прашања и помагање во широк опсег на задачи поврзани со јазикот. Во сржта на овие моќни модели лежи Трансформаторска архитектура само за декодер, варијанта на оригиналната трансформаторска архитектура предложена во семиналниот труд“Вниманието е се што ви треба“ од Васвани и сор.
Во овој сеопфатен водич, ќе ги истражиме внатрешните работи на LLM базирани на декодер, навлегувајќи во основните градежни блокови, архитектонските иновации и деталите за имплементација кои ги поттикнаа овие модели во првите редови на истражувањето и апликациите на НЛП.
Архитектурата на трансформаторот: Освежување
Пред да се нурне во спецификите на LLM базирани на декодер, од суштинско значење е повторно да се разгледа архитектурата на трансформаторот, основата врз која се изградени овие модели. Трансформаторот воведе нов пристап кон моделирање на секвенци, потпирајќи се единствено на механизмите за внимание за да се доловат зависностите од долг дострел во податоците, без потреба од повторливи или конволутивни слоеви.
Оригиналната архитектура на трансформаторот се состои од две главни компоненти: енкодер и декодер. Кодерот ја обработува влезната низа и генерира контекстуализирана претстава, која потоа се троши од декодерот за да ја произведе излезната секвенца. Оваа архитектура првично беше дизајнирана за задачи за машинско преведување, каде што енкодерот ја обработува влезната реченица на изворниот јазик, а декодерот ја генерира соодветната реченица на целниот јазик.
Внимание на себе: клучот за успехот на трансформаторот
Во срцето на трансформатор лежи механизмот за само-внимание, моќна техника која му овозможува на моделот да ги мери и собира информациите од различни позиции во влезната низа. За разлика од традиционалните модели на секвенци, кои ги обработуваат влезните токени последователно, самовниманието му овозможува на моделот да ги долови зависностите помеѓу кој било пар токени, без оглед на нивната позиција во низата.
Операцијата за самовнимание може да се подели на три главни чекори:
- Проекции за барање, клуч и вредност: Влезната низа е проектирана во три посебни претстави: пребарувања (П), клучеви (К) и вредности (V). Овие проекции се добиваат со множење на влезот со научените матрици за тежина.
- Пресметка на бодови за внимание: За секоја позиција во влезната низа, оценките за внимание се пресметуваат со преземање на производ од точки помеѓу соодветниот вектор за барање и сите клучни вектори. Овие оценки ја претставуваат релевантноста на секоја позиција за моменталната позиција што се обработува.
- Пондериран збир на вредности: Резултатите на вниманието се нормализираат со помош на функцијата softmax, а добиените тежини за внимание се користат за пресметување на пондерирана сума на вектори на вредности, произведувајќи ја излезната претстава за моменталната позиција.
Вниманието со повеќе глави, варијанта на механизмот за само-внимание, му овозможува на моделот да доловува различни типови на односи со пресметување на резултатите од вниманието низ повеќе „главиПаралелно, секој со свој сет на проекции за пребарување, клучеви и вредности.
Архитектонски варијанти и конфигурации
Додека основните принципи на LLM базирани на декодер остануваат конзистентни, истражувачите истражуваа различни архитектонски варијанти и конфигурации за да ги подобрат перформансите, ефикасноста и можностите за генерализација. Во овој дел, ќе истражуваме во различните архитектонски избори и нивните импликации.
Видови архитектура
LLM-и базирани на декодер може широко да се класифицираат во три главни типа: енкодер-декодер, причински декодер и префикс декодер. Секој тип на архитектура покажува различни модели на внимание.
Архитектура на енкодер-декодер
Врз основа на моделот ванила трансформатор, архитектурата на енкодер-декодер се состои од два купа: енкодер и декодер. Кодерот користи наредени слоеви за самовнимание со повеќе глави за да ја шифрира влезната низа и да генерира латентни претстави. Декодерот потоа врши вкрстено внимание на овие претстави за да ја генерира целната секвенца. Иако се ефективни во различни задачи на НЛП, неколку LLM, како на пр Flan-T5, прифатете ја оваа архитектура.
Причинска архитектура на декодер
Причинската архитектура на декодер вклучува еднонасочна маска за внимание, дозволувајќи му на секој влезен токен да се придружува само на минатите токени и на себе. И влезните и излезните токени се обработуваат во истиот декодер. Забележителни модели како GPT-1, GPT-2 и GPT-3 се изградени на оваа архитектура, со GPT-3 што прикажува извонредни способности за учење во контекст. Многу LLM, вклучувајќи ги и OPT, BLOOM и Gopher, имаат широко усвоени каузални декодери.
Архитектура на декодер на префикс
Исто така познат како не-причински декодер, архитектурата на префиксниот декодер го модифицира механизмот за маскирање на причинските декодери за да овозможи двонасочно внимание над префиксните токени и еднонасочно внимание на генерираните токени. Како и архитектурата енкодер-декодер, декодерите на префиксот можат двонасочно да ја кодираат секвенцата на префиксот и да ги предвидат излезните токени авторегресивно користејќи споделени параметри. LLM базирани на префикс декодери вклучуваат GLM130B и U-PaLM.
Сите три типа архитектура може да се прошират со користење на мешавина на експерти (МО) техника на скалирање, која ретко активира подмножество тежини на невронска мрежа за секој влез. Овој пристап е применет во модели како Switch Transformer и GLaM, со зголемување на бројот на експерти или вкупната големина на параметарот што покажува значителни подобрувања во перформансите.
Трансформатор само за декодер: прифаќање на авторегресивната природа
Додека оригиналната архитектура на трансформаторот беше дизајнирана за задачи од низа во низа, како што е машинскиот превод, многу NLP задачи, како што се моделирање на јазик и генерирање текст, може да се врамат како авторегресивни проблеми, каде што моделот генерира еден токен во исто време, условени од претходно генерирани токени.
Внесете го трансформаторот само за декодер, поедноставена варијанта на архитектурата на трансформаторот што ја задржува само компонентата на декодерот. Оваа архитектура е особено добро прилагодена за авторегресивни задачи, бидејќи генерира излезни токени еден по еден, користејќи ги претходно генерираните токени како влезен контекст.
Клучната разлика помеѓу трансформаторот само за декодер и оригиналниот трансформаторски декодер лежи во механизмот за само-внимание. Во поставката само за декодер, операцијата за самовнимание е изменета за да се спречи моделот да се грижи за идните токени, својство познато како каузалност. Ова се постигнува преку техниката наречена „маскирано самовнимание“, каде што оценките за вниманието што одговараат на идните позиции се поставени на негативен бесконечност, ефикасно маскувајќи ги за време на чекорот на нормализација на softmax.
Архитектонски компоненти на LLM базирани на декодер
Додека основните принципи на само-внимание и маскирано само-внимание остануваат исти, современите LLM базирани на декодер воведоа неколку архитектонски иновации за да ги подобрат перформансите, ефикасноста и можностите за генерализација. Ајде да истражиме некои од клучните компоненти и техники кои се користат во најсовремените LLM.
Претставување на влез
Пред да ја обработат влезната секвенца, LLM базирани на декодер користат техники за токенизација и вградување за да го претворат необработениот текст во нумеричка претстава погодна за моделот.
Токинизација: Процесот на токенизација го претвора влезниот текст во низа од токени, кои можат да бидат зборови, подзборови или дури и поединечни знаци, во зависност од употребената стратегија за токенизација. Популарните техники за токенизација за LLM вклучуваат кодирање со бајти-пар (BPE), SentencePiece и WordPiece. Овие методи имаат за цел да постигнат рамнотежа помеѓу големината на вокабуларот и грануларноста на застапеноста, овозможувајќи му на моделот ефикасно да ракува со ретките или зборовите што не се вокабулар.
Вградување на токени: По токенизацијата, секој токен се пресликува на густа векторска претстава наречена вградување на токен. Овие вградувања се учат за време на процесот на обука и ги доловуваат семантичките и синтаксичките односи помеѓу токените.
Позициони вградувања: Моделите со трансформатори ја обработуваат целата влезна низа истовремено, без инхерентна претстава за позициите на токените присутни во повторливите модели. За да се вклучат позициони информации, позициони вградувања се додаваат на вградувањата на токени, што му овозможува на моделот да прави разлика помеѓу токените врз основа на нивните позиции во низата. Раните LLM користеа фиксни положбени вградувања засновани на синусоидални функции, додека поновите модели истражуваа позициони вградувања што може да се научат или алтернативни техники за позициско шифрирање како што се ротациони позициони вградувања.
Блокови за внимание со повеќе глави
Основните градежни блокови на LLM базирани на декодер се слоеви на внимание со повеќе глави, кои ја извршуваат операцијата за маскирано самовнимание опишана претходно. Овие слоеви се наредени повеќе пати, при што секој слој се грижи за излезот од претходниот слој, дозволувајќи му на моделот да долови сè покомплексни зависности и претстави.
Внимание глави: Секој слој на внимание со повеќе глави се состои од повеќе „глави за внимание“, секоја со свој сет на проекции за пребарување, клучеви и вредности. Ова му овозможува на моделот да присуствува на различни аспекти на влезот истовремено, зафаќајќи различни односи и модели.
Преостанати врски и нормализација на слоеви: За да се олесни обуката на длабоките мрежи и да се ублажи проблемот со градиентот што исчезнува, LLM-и базирани на декодер користат преостанати врски и техники за нормализација на слоеви. Преостанатите врски го додаваат влезот на слојот на неговиот излез, дозволувајќи им на градиентите полесно да течат за време на заднинското ширење. Нормализацијата на слојот помага да се стабилизираат активациите и наклоните, дополнително подобрување на стабилноста и перформансите на тренингот.
Слоеви за повлекување напред
Покрај слоевите за внимание со повеќе глави, LLM-и базирани на декодер инкорпорираат слоеви за повлекување напред, кои применуваат едноставна невронска мрежа за повлекување на секоја позиција во низата. Овие слоеви воведуваат нелинеарности и му овозможуваат на моделот да научи посложени претстави.
Функции за активирање: Изборот на функцијата за активирање во слоевите за повлекување напред може значително да влијае на перформансите на моделот. Додека претходните LLM се потпираа на широко користеното активирање ReLU, поновите модели усвоија пософистицирани функции за активирање како Гаусовата линеарна единица за грешки (GELU) или активирањето SwiGLU, кои покажаа подобрени перформанси.
Ретко внимание и ефикасни трансформатори
Иако механизмот за самовнимание е моќен, тој доаѓа со квадратна пресметковна сложеност во однос на должината на секвенцата, што го прави пресметковно скап за долги секвенци. За да се одговори на овој предизвик, предложени се неколку техники за намалување на пресметковните и мемориските барања за самовнимание, овозможувајќи ефикасна обработка на подолги секвенци.
Ретко Внимание: Техниките со ретко внимание, како што е онаа применета во моделот GPT-3, селективно посетуваат подмножество позиции во влезната низа, наместо да ги пресметуваат резултатите на вниманието за сите позиции. Ова може значително да ја намали комплексноста на пресметките додека одржува разумни перформанси.
Лизгачки прозорец Внимание: Воведен во моделот Mistral 7B, вниманието на лизгачкиот прозорец (SWA) е едноставна, но ефикасна техника која го ограничува опсегот на вниманието на секој токен на фиксна големина на прозорецот. Овој пристап ја користи способноста на слоевите на трансформаторите да пренесуваат информации низ повеќе слоеви, ефикасно зголемувајќи го распонот на вниманието без квадратна сложеност на целосното самовнимание.
Ролинг тампон кеш: За понатамошно намалување на барањата за меморија, особено за долги секвенци, моделот Mistral 7B користи тампон за валање. Оваа техника ги складира и повторно ги користи пресметаните клучеви и вектори на вредност за фиксна големина на прозорецот, избегнувајќи непотребни пресметки и минимизирајќи ја употребата на меморијата.
Групирано барање Внимание: Воведен во моделот LLaMA 2, вниманието на групираното барање (GQA) е варијанта на механизмот за внимание со повеќе прашања што ги дели главите на вниманието во групи, при што секоја група споделува заеднички клуч и матрица на вредности. Овој пристап воспоставува рамнотежа помеѓу ефикасноста на вниманието со повеќе прашања и перформансите на стандардното само-внимание, обезбедувајќи подобрени времиња на заклучоци додека одржуваат висококвалитетни резултати.