Вештачка интелигенција
Модели великих језика засновани на декодеру: Потпуни водич
Велики језички модели (ЛЛМ) су направили револуцију у пољу обраде природног језика (НЛП) демонстрирајући изузетне способности у генерисању текста налик човеку, одговарању на питања и помагању у широком спектру задатака у вези са језиком. У основи ових моћних модела лежи архитектура трансформатора само за декодер, варијанта оригиналне архитектуре трансформатора предложена у основном раду “Пажња је све што вам треба” од Васванија ет ал.
У овом свеобухватном водичу ћемо истражити унутрашње функционисање ЛЛМ-ова заснованих на декодерима, задубљујући се у основне грађевне блокове, архитектонске иновације и детаље имплементације који су ове моделе довели у први план НЛП истраживања и апликација.
Архитектура трансформатора: Освежавање
Пре него што уђемо у специфичности ЛЛМ-ова заснованих на декодерима, неопходно је поново погледати архитектуру трансформатора, основу на којој су ови модели изграђени. Трансформатор је увео нови приступ моделирању секвенци, ослањајући се искључиво на механизме пажње за хватање дугорочних зависности у подацима, без потребе за рекурентним или конволуционим слојевима.
Оригинална архитектура трансформатора састоји се од две главне компоненте: енкодера и декодера. Кодер обрађује улазну секвенцу и генерише контекстуализовану репрезентацију, коју затим користи декодер да би произвео излазну секвенцу. Ова архитектура је првобитно дизајнирана за задатке машинског превођења, где кодер обрађује улазну реченицу на изворном језику, а декодер генерише одговарајућу реченицу на циљном језику.
Самопажња: кључ успеха Трансформера
У срцу трансформатор лежи механизам самопажње, моћна техника која омогућава моделу да одмери и агрегира информације са различитих позиција у улазној секвенци. За разлику од традиционалних модела секвенци, који обрађују улазне токене секвенцијално, самопажња омогућава моделу да ухвати зависности између било ког пара токена, без обзира на њихову позицију у низу.
Операција самопажње може се поделити на три главна корака:
- Пројекције упита, кључева и вредности: Улазни низ се пројектује у три одвојена приказа: упита (К), тастери (К), и Вредности (В). Ове пројекције се добијају множењем инпута са наученим матрицама тежине.
- Рачунање оцене пажње: За сваку позицију у улазној секвенци, резултати пажње се израчунавају узимањем тачкастог производа између одговарајућег вектора упита и свих кључних вектора. Ови резултати представљају релевантност сваке позиције за тренутну позицију која се обрађује.
- Пондерисани збир вредности: Резултати пажње се нормализују коришћењем софтмак функције, а резултујуће тежине пажње се користе за израчунавање пондерисане суме вектора вредности, производећи излазну репрезентацију за тренутну позицију.
Пажња са више глава, варијанта механизма самопажње, омогућава моделу да ухвати различите типове односа рачунајући резултате пажње у више „главе” паралелно, сваки са сопственим скупом пројекција упита, кључева и вредности.
Архитектонске варијанте и конфигурације
Док основни принципи ЛЛМ-ова заснованих на декодерима остају доследни, истраживачи су истраживали различите архитектонске варијанте и конфигурације како би побољшали перформансе, ефикасност и могућности генерализације. У овом одељку ћемо се упустити у различите архитектонске изборе и њихове импликације.
Арцхитецтуре Типес
ЛЛМ засновани на декодерима могу се широко класификовати у три главна типа: кодер-декодер, каузални декодер и декодер префикса. Сваки тип архитектуре показује различите обрасце пажње.
Архитектура кодера-декодера
Заснована на моделу ванилла Трансформер, архитектура енкодер-декодер се састоји од два стека: енкодера и декодера. Кодер користи наслагане слојеве самопажње са више глава да кодира улазну секвенцу и генерише латентне репрезентације. Декодер затим врши унакрсну пажњу на овим репрезентацијама да генерише циљну секвенцу. Иако ефикасан у различитим НЛП задацима, неколико ЛЛМ-а, као нпр Флан-Т5, усвојите ову архитектуру.
Архитектура каузалног декодера
Архитектура каузалног декодера укључује једносмерну маску пажње, омогућавајући сваком улазном токену да присуствује само прошлим токенима и себи. И улазни и излазни токени се обрађују у оквиру истог декодера. Значајни модели попут РУЦЕНТЕР-КСНУМКС, ГПТ-2 и ГПТ-3 су изграђени на овој архитектури, са ГПТ-3 који показује изузетне могућности учења у контексту. Многи ЛЛМ, укључујући ОПТ, БЛООМ и Гопхер, имају широко прихваћене каузалне декодере.
Архитектура декодера префикса
Такође познат као не-каузални декодер, архитектура декодера префикса модификује механизам маскирања каузалних декодера како би омогућила двосмерну пажњу преко токена префикса и једносмерну пажњу на генерисане токене. Као архитектура кодер-декодер, префиксни декодери могу двосмерно кодирати секвенцу префикса и ауторегресивно предвидети излазне токене користећи заједничке параметре. ЛЛМ-ови засновани на декодерима префикса укључују ГЛМ130Б и У-ПаЛМ.
Сва три типа архитектуре могу се проширити коришћењем мешавина стручњака (МП) техника скалирања, која ретко активира подскуп тежина неуронске мреже за сваки улаз. Овај приступ је коришћен у моделима као што су Свитцх Трансформер и ГЛаМ, са повећањем броја стручњака или укупне величине параметара који показују значајна побољшања перформанси.
Трансформатор само за декодер: прихватање ауторегресивне природе
Док је оригинална архитектура трансформатора била дизајнирана за задатке од секвенце до секвенце као што је машинско превођење, многи НЛП задаци, као што су моделирање језика и генерисање текста, могу бити уоквирени као ауторегресивни проблеми, где модел генерише један по један токен, условљен претходно генерисани токени.
Унесите трансформатор само за декодер, поједностављену варијанту архитектуре трансформатора која задржава само компоненту декодера. Ова архитектура је посебно погодна за ауторегресивне задатке, јер генерише излазне токене један по један, користећи претходно генерисане токене као улазни контекст.
Кључна разлика између трансформатора само за декодер и оригиналног трансформаторског декодера лежи у механизму самопажње. У поставци само за декодер, операција самопажње је модификована како би се спречило да модел користи будуће токене, својство познато као узрочност. Ово се постиже техником која се зове „маскирана самопажња“, где се оцене пажње које одговарају будућим позицијама постављају на негативну бесконачност, ефективно их маскирајући током корака нормализације софтмака.
Архитектонске компоненте ЛЛМ-ова заснованих на декодерима
Док основни принципи самопажње и маскиране самопажње остају исти, модерни ЛЛМ засновани на декодерима увели су неколико архитектонских иновација за побољшање перформанси, ефикасности и могућности генерализације. Хајде да истражимо неке од кључних компоненти и техника које се користе у најсавременијим ЛЛМ.
Улазно представљање
Пре обраде улазне секвенце, ЛЛМ засновани на декодеру користе технике токенизације и уграђивања за претварање сировог текста у нумеричку репрезентацију погодну за модел.
Токенизација: Процес токенизације претвара улазни текст у низ токена, који могу бити речи, подречи или чак појединачни знакови, у зависности од примењене стратегије токенизације. Популарне технике токенизације за ЛЛМ укључују кодирање бајт-парова (БПЕ), СентенцеПиеце и ВордПиеце. Ове методе имају за циљ успостављање равнотеже између величине речника и грануларности репрезентације, омогућавајући моделу да ефикасно рукује ретким речима или речима ван речника.
Токен Ембеддингс: Након токенизације, сваки токен се мапира у густу векторску репрезентацију која се назива уграђивање токена. Ова уграђивања се уче током процеса обуке и обухватају семантичке и синтаксичке односе између токена.
Поситионал Ембеддингс: Модели трансформатора истовремено обрађују целу улазну секвенцу, без инхерентног појма позиција токена присутних у рекурентним моделима. Да би се инкорпорирале информације о положају, позициона уграђивања се додају уграђивању токена, омогућавајући моделу да разликује токене на основу њихових позиција у низу. Рани ЛЛМ су користили фиксне позиционе уградње засноване на синусоидним функцијама, док су новији модели истраживали позиционе уградње које се могу научити или алтернативне технике позиционог кодирања као што је ротационо позиционо уграђивање.
Блокови пажње са више глава
Основни градивни блокови ЛЛМ-ова заснованих на декодеру су слојеви пажње са више глава, који обављају маскирану операцију самопажње описану раније. Ови слојеви су сложени више пута, при чему сваки слој прати излаз претходног слоја, омогућавајући моделу да ухвати све сложеније зависности и репрезентације.
Аттентион Хеадс: Сваки слој пажње са више глава састоји се од више „глава пажње“, од којих свака има сопствени скуп пројекција упита, кључева и вредности. Ово омогућава моделу да се бави различитим аспектима уноса истовремено, хватајући различите односе и обрасце.
Преостале везе и нормализација слоја: Да би се олакшала обука дубоких мрежа и ублажио проблем нестајања градијента, ЛЛМ засновани на декодеру користе преостале везе и технике нормализације слојева. Преостале везе додају улаз слоја његовом излазу, омогућавајући градијентима да лакше теку током повратног ширења. Нормализација слоја помаже да се стабилизују активације и градијенти, додатно побољшавајући стабилност и перформансе тренинга.
Слојеви за прослеђивање
Поред слојева пажње са више глава, ЛЛМ засновани на декодеру укључују слојеве за прослеђивање преноса, који примењују једноставну неуронску мрежу унапред на сваку позицију у низу. Ови слојеви уводе нелинеарности и омогућавају моделу да научи сложеније репрезентације.
Функције активације: Избор функције активације у слојевима за прослеђивање може значајно утицати на перформансе модела. Док су се ранији ЛЛМ-ови ослањали на широко коришћену РеЛУ активацију, новији модели су усвојили софистицираније функције активације као што је Гауссиан Еррор Линеар Унит (ГЕЛУ) или СвиГЛУ активација, које су показале побољшане перформансе.
Ретка пажња и ефикасни трансформатори
Иако је механизам самопажње моћан, долази са квадратном сложеношћу рачунања у односу на дужину секвенце, што га чини рачунарски скупим за дуге секвенце. Да би се решио овај изазов, предложено је неколико техника за смањење рачунарских и меморијских захтева за самопажњом, омогућавајући ефикасну обраду дужих секвенци.
Спарсе Аттентион: Технике ретке пажње, као што је она која се користи у ГПТ-3 моделу, селективно се баве подскупом позиција у улазној секвенци, уместо да рачунају резултате пажње за све позиције. Ово може значајно смањити сложеност рачунара уз одржавање разумних перформанси.
Клизни прозор Пажња: Уведена у моделу Мистрал 7Б, пажња клизног прозора (СВА) је једноставна, али ефикасна техника која ограничава распон пажње сваког токена на фиксну величину прозора. Овај приступ користи способност трансформаторских слојева да преносе информације преко више слојева, ефективно повећавајући распон пажње без квадратне сложености пуне самопажње.
Роллинг Буффер Цацхе: Да би се додатно смањили захтеви за меморијом, посебно за дуге секвенце, модел Мистрал 7Б користи кеш бафера који се котрља. Ова техника складишти и поново користи израчунате векторе кључа и вредности за фиксну величину прозора, избегавајући сувишне прорачуне и минимизирајући употребу меморије.
Груписани упит Пажња: Уведен у модел ЛЛаМА 2, групни упит за пажњу (ГКА) је варијанта механизма пажње са више упита који дели пажњу на групе, при чему свака група дели заједнички кључ и матрицу вредности. Овај приступ успоставља равнотежу између ефикасности пажње на више упита и перформанси стандардне самопажње, обезбеђујући побољшано време закључивања уз одржавање резултата високог квалитета.