Вештачка интелигенција

Модели великих језика засновани на декодеру: Потпуни водич

Ажурирано on Април КСНУМКС, КСНУМКС

Модели великих језика засновани на декодеру: Потпуни водич

Велики језички модели (ЛЛМ) су направили револуцију у пољу обраде природног језика (НЛП) демонстрирајући изузетне способности у генерисању текста налик човеку, одговарању на питања и помагању у широком спектру задатака у вези са језиком. У основи ових моћних модела лежи архитектура трансформатора само за декодер, варијанта оригиналне архитектуре трансформатора предложена у основном раду “Пажња је све што вам треба” од Васванија ет ал.

У овом свеобухватном водичу ћемо истражити унутрашње функционисање ЛЛМ-ова заснованих на декодерима, задубљујући се у основне грађевне блокове, архитектонске иновације и детаље имплементације који су ове моделе довели у први план НЛП истраживања и апликација.

Архитектура трансформатора: Освежавање

Пре него што уђемо у специфичности ЛЛМ-ова заснованих на декодерима, неопходно је поново погледати архитектуру трансформатора, основу на којој су ови модели изграђени. Трансформатор је увео нови приступ моделирању секвенци, ослањајући се искључиво на механизме пажње за хватање дугорочних зависности у подацима, без потребе за рекурентним или конволуционим слојевима.

Трансформерс Арцхитецтуре

Оригинална архитектура трансформатора састоји се од две главне компоненте: енкодера и декодера. Кодер обрађује улазну секвенцу и генерише контекстуализовану репрезентацију, коју затим користи декодер да би произвео излазну секвенцу. Ова архитектура је првобитно дизајнирана за задатке машинског превођења, где кодер обрађује улазну реченицу на изворном језику, а декодер генерише одговарајућу реченицу на циљном језику.

Самопажња: кључ успеха Трансформера

У срцу трансформатор лежи механизам самопажње, моћна техника која омогућава моделу да одмери и агрегира информације са различитих позиција у улазној секвенци. За разлику од традиционалних модела секвенци, који обрађују улазне токене секвенцијално, самопажња омогућава моделу да ухвати зависности између било ког пара токена, без обзира на њихову позицију у низу.

Пажња на више упита

Операција самопажње може се поделити на три главна корака:

Пројекције упита, кључева и вредности: Улазни низ се пројектује у три одвојена приказа: упита (К), тастери (К), и Вредности (В). Ове пројекције се добијају множењем инпута са наученим матрицама тежине.
Рачунање оцене пажње: За сваку позицију у улазној секвенци, резултати пажње се израчунавају узимањем тачкастог производа између одговарајућег вектора упита и свих кључних вектора. Ови резултати представљају релевантност сваке позиције за тренутну позицију која се обрађује.
Пондерисани збир вредности: Резултати пажње се нормализују коришћењем софтмак функције, а резултујуће тежине пажње се користе за израчунавање пондерисане суме вектора вредности, производећи излазну репрезентацију за тренутну позицију.

Пажња са више глава, варијанта механизма самопажње, омогућава моделу да ухвати различите типове односа рачунајући резултате пажње у више „главе” паралелно, сваки са сопственим скупом пројекција упита, кључева и вредности.

Архитектонске варијанте и конфигурације

Док основни принципи ЛЛМ-ова заснованих на декодерима остају доследни, истраживачи су истраживали различите архитектонске варијанте и конфигурације како би побољшали перформансе, ефикасност и могућности генерализације. У овом одељку ћемо се упустити у различите архитектонске изборе и њихове импликације.

Арцхитецтуре Типес

ЛЛМ засновани на декодерима могу се широко класификовати у три главна типа: кодер-декодер, каузални декодер и декодер префикса. Сваки тип архитектуре показује различите обрасце пажње.

Архитектура кодера-декодера

Заснована на моделу ванилла Трансформер, архитектура енкодер-декодер се састоји од два стека: енкодера и декодера. Кодер користи наслагане слојеве самопажње са више глава да кодира улазну секвенцу и генерише латентне репрезентације. Декодер затим врши унакрсну пажњу на овим репрезентацијама да генерише циљну секвенцу. Иако ефикасан у различитим НЛП задацима, неколико ЛЛМ-а, као нпр Флан-Т5, усвојите ову архитектуру.

Архитектура каузалног декодера

Архитектура каузалног декодера укључује једносмерну маску пажње, омогућавајући сваком улазном токену да присуствује само прошлим токенима и себи. И улазни и излазни токени се обрађују у оквиру истог декодера. Значајни модели попут РУЦЕНТЕР-КСНУМКС, ГПТ-2 и ГПТ-3 су изграђени на овој архитектури, са ГПТ-3 који показује изузетне могућности учења у контексту. Многи ЛЛМ, укључујући ОПТ, БЛООМ и Гопхер, имају широко прихваћене каузалне декодере.

Архитектура декодера префикса

Такође познат као не-каузални декодер, архитектура декодера префикса модификује механизам маскирања каузалних декодера како би омогућила двосмерну пажњу преко токена префикса и једносмерну пажњу на генерисане токене. Као архитектура кодер-декодер, префиксни декодери могу двосмерно кодирати секвенцу префикса и ауторегресивно предвидети излазне токене користећи заједничке параметре. ЛЛМ-ови засновани на декодерима префикса укључују ГЛМ130Б и У-ПаЛМ.

Сва три типа архитектуре могу се проширити коришћењем мешавина стручњака (МП) техника скалирања, која ретко активира подскуп тежина неуронске мреже за сваки улаз. Овај приступ је коришћен у моделима као што су Свитцх Трансформер и ГЛаМ, са повећањем броја стручњака или укупне величине параметара који показују значајна побољшања перформанси.

Трансформатор само за декодер: прихватање ауторегресивне природе

Док је оригинална архитектура трансформатора била дизајнирана за задатке од секвенце до секвенце као што је машинско превођење, многи НЛП задаци, као што су моделирање језика и генерисање текста, могу бити уоквирени као ауторегресивни проблеми, где модел генерише један по један токен, условљен претходно генерисани токени.

Унесите трансформатор само за декодер, поједностављену варијанту архитектуре трансформатора која задржава само компоненту декодера. Ова архитектура је посебно погодна за ауторегресивне задатке, јер генерише излазне токене један по један, користећи претходно генерисане токене као улазни контекст.

Кључна разлика између трансформатора само за декодер и оригиналног трансформаторског декодера лежи у механизму самопажње. У поставци само за декодер, операција самопажње је модификована како би се спречило да модел користи будуће токене, својство познато као узрочност. Ово се постиже техником која се зове „маскирана самопажња“, где се оцене пажње које одговарају будућим позицијама постављају на негативну бесконачност, ефективно их маскирајући током корака нормализације софтмака.

Архитектонске компоненте ЛЛМ-ова заснованих на декодерима

Док основни принципи самопажње и маскиране самопажње остају исти, модерни ЛЛМ засновани на декодерима увели су неколико архитектонских иновација за побољшање перформанси, ефикасности и могућности генерализације. Хајде да истражимо неке од кључних компоненти и техника које се користе у најсавременијим ЛЛМ.

Улазно представљање

Пре обраде улазне секвенце, ЛЛМ засновани на декодеру користе технике токенизације и уграђивања за претварање сировог текста у нумеричку репрезентацију погодну за модел.

уграђивање вектора

Токенизација: Процес токенизације претвара улазни текст у низ токена, који могу бити речи, подречи или чак појединачни знакови, у зависности од примењене стратегије токенизације. Популарне технике токенизације за ЛЛМ укључују кодирање бајт-парова (БПЕ), СентенцеПиеце и ВордПиеце. Ове методе имају за циљ успостављање равнотеже између величине речника и грануларности репрезентације, омогућавајући моделу да ефикасно рукује ретким речима или речима ван речника.

Токен Ембеддингс: Након токенизације, сваки токен се мапира у густу векторску репрезентацију која се назива уграђивање токена. Ова уграђивања се уче током процеса обуке и обухватају семантичке и синтаксичке односе између токена.

Поситионал Ембеддингс: Модели трансформатора истовремено обрађују целу улазну секвенцу, без инхерентног појма позиција токена присутних у рекурентним моделима. Да би се инкорпорирале информације о положају, позициона уграђивања се додају уграђивању токена, омогућавајући моделу да разликује токене на основу њихових позиција у низу. Рани ЛЛМ су користили фиксне позиционе уградње засноване на синусоидним функцијама, док су новији модели истраживали позиционе уградње које се могу научити или алтернативне технике позиционог кодирања као што је ротационо позиционо уграђивање.

Блокови пажње са више глава

Основни градивни блокови ЛЛМ-ова заснованих на декодеру су слојеви пажње са више глава, који обављају маскирану операцију самопажње описану раније. Ови слојеви су сложени више пута, при чему сваки слој прати излаз претходног слоја, омогућавајући моделу да ухвати све сложеније зависности и репрезентације.

Аттентион Хеадс: Сваки слој пажње са више глава састоји се од више „глава пажње“, од којих свака има сопствени скуп пројекција упита, кључева и вредности. Ово омогућава моделу да се бави различитим аспектима уноса истовремено, хватајући различите односе и обрасце.

Преостале везе и нормализација слоја: Да би се олакшала обука дубоких мрежа и ублажио проблем нестајања градијента, ЛЛМ засновани на декодеру користе преостале везе и технике нормализације слојева. Преостале везе додају улаз слоја његовом излазу, омогућавајући градијентима да лакше теку током повратног ширења. Нормализација слоја помаже да се стабилизују активације и градијенти, додатно побољшавајући стабилност и перформансе тренинга.

Слојеви за прослеђивање

Поред слојева пажње са више глава, ЛЛМ засновани на декодеру укључују слојеве за прослеђивање преноса, који примењују једноставну неуронску мрежу унапред на сваку позицију у низу. Ови слојеви уводе нелинеарности и омогућавају моделу да научи сложеније репрезентације.

Функције активације: Избор функције активације у слојевима за прослеђивање може значајно утицати на перформансе модела. Док су се ранији ЛЛМ-ови ослањали на широко коришћену РеЛУ активацију, новији модели су усвојили софистицираније функције активације као што је Гауссиан Еррор Линеар Унит (ГЕЛУ) или СвиГЛУ активација, које су показале побољшане перформансе.

Ретка пажња и ефикасни трансформатори

Иако је механизам самопажње моћан, долази са квадратном сложеношћу рачунања у односу на дужину секвенце, што га чини рачунарски скупим за дуге секвенце. Да би се решио овај изазов, предложено је неколико техника за смањење рачунарских и меморијских захтева за самопажњом, омогућавајући ефикасну обраду дужих секвенци.

Спарсе Аттентион: Технике ретке пажње, као што је она која се користи у ГПТ-3 моделу, селективно се баве подскупом позиција у улазној секвенци, уместо да рачунају резултате пажње за све позиције. Ово може значајно смањити сложеност рачунара уз одржавање разумних перформанси.

Клизни прозор Пажња: Уведена у моделу Мистрал 7Б, пажња клизног прозора (СВА) је једноставна, али ефикасна техника која ограничава распон пажње сваког токена на фиксну величину прозора. Овај приступ користи способност трансформаторских слојева да преносе информације преко више слојева, ефективно повећавајући распон пажње без квадратне сложености пуне самопажње.

Роллинг Буффер Цацхе: Да би се додатно смањили захтеви за меморијом, посебно за дуге секвенце, модел Мистрал 7Б користи кеш бафера који се котрља. Ова техника складишти и поново користи израчунате векторе кључа и вредности за фиксну величину прозора, избегавајући сувишне прорачуне и минимизирајући употребу меморије.

Груписани упит Пажња: Уведен у модел ЛЛаМА 2, групни упит за пажњу (ГКА) је варијанта механизма пажње са више упита који дели пажњу на групе, при чему свака група дели заједнички кључ и матрицу вредности. Овај приступ успоставља равнотежу између ефикасности пажње на више упита и перформанси стандардне самопажње, обезбеђујући побољшано време закључивања уз одржавање резултата високог квалитета.

Пажња групног упита

Величина и скалирање модела

Једна од карактеристика модерних ЛЛМ-а је њихова чиста скала, са бројем параметара у распону од милијарди до стотина милијарди. Повећање величине модела било је кључни фактор у постизању најсавременијих перформанси, пошто већи модели могу ухватити сложеније обрасце и односе у подацима.

Параметер Цоунт: Број параметара у ЛЛМ заснованом на декодеру првенствено је одређен димензијом уграђивања (д_модел), бројем глава пажње (н_хеадс), бројем слојева (н_лаиерс) и величином речника (воцаб_сизе). На пример, модел ГПТ-3 има 175 милијарди параметара, са д_модел = 12288, н_глава = 96, н_слојева = 96, и воцаб_сизе = 50257.

Модел Параллелисм: Обука и примена таквих масивних модела захтевају значајне рачунарске ресурсе и специјализован хардвер. Да би се превазишао овај изазов, коришћене су технике паралелизма модела, где је модел подељен на више ГПУ-а или ТПУ-а, при чему је сваки уређај одговоран за део прорачуна.

Мешавина стручњака: Други приступ скалирању ЛЛМ-а је архитектура мешавине стручњака (МоЕ), која комбинује више стручних модела, од којих је сваки специјализован за одређени подскуп података или задатка. Модел Миктрал 8к7Б је пример МОЕ модела који користи Мистрал 7Б као основни модел, постижући супериорне перформансе уз задржавање рачунарске ефикасности.

Закључивање и генерисање текста

Један од примарних случајева употребе ЛЛМ-ова заснованих на декодеру је генерисање текста, где модел генерише кохерентан текст који природно звучи на основу датог упита или контекста.

Ауторегресивно декодирање: Током закључивања, ЛЛМ засновани на декодеру генеришу текст на ауторегресивни начин, предвиђајући један по један токен на основу претходно генерисаних токена и упитника за унос. Овај процес се наставља све док се не испуни унапред одређени критеријум заустављања, као што је достизање максималне дужине секвенце или генерисање токена краја низа.

Стратегије узорковања: За генерисање разноликог и реалистичног текста, могу се користити различите стратегије узорковања, као што је топ-к узорковање, топ-п узорковање (такође познато као узорковање језгра) или температурно скалирање. Ове технике контролишу компромис између разноликости и кохерентности генерисаног текста прилагођавањем дистрибуције вероватноће преко речника.

Промпт Енгинееринг: Квалитет и специфичност упита за унос могу значајно утицати на генерисани текст. Промпт инжењеринг, уметност израде ефикасних упутстава, појавио се као кључни аспект коришћења ЛЛМ-а за различите задатке, омогућавајући корисницима да воде процес генерисања модела и постигну жељене резултате.

Декодирање човека у петљи: Да би се додатно побољшао квалитет и кохерентност генерисаног текста, технике попут Оснаживање учења из људских повратних информација (РЛХФ) су запослени. У овом приступу, људи који оцењују дају повратне информације о генерисаном тексту модела, који се затим користи за фино подешавање модела, ефективно га усклађујући са људским преференцама и побољшавајући његове резултате.

Напредак и будући правци

Област ЛЛМ заснованих на декодерима се брзо развија, са новим истраживањима и открићима која непрестано померају границе онога што ови модели могу постићи. Ево неких значајних напретка и потенцијалних будућих праваца:

Ефикасне варијанте трансформатора: Док су оскудна пажња и пажња клизног прозора направили значајне кораке у побољшању ефикасности ЛЛМ-ова заснованих на декодерима, истраживачи активно истражују алтернативне архитектуре трансформатора и механизме пажње како би додатно смањили рачунарске захтеве уз одржавање или побољшање перформанси.

Мултимодал ЛЛМс: Проширујући могућности ЛЛМ-а изван текста, мултимодални модели имају за циљ да интегришу више модалитета, као што су слике, аудио или видео, у јединствени оквир. Ово отвара узбудљиве могућности за апликације као што су титловање слика, визуелно одговарање на питања и генерисање мултимедијалног садржаја.

Цонтролабле Генератион: Омогућавање фине контроле над генерисаним текстом је изазован, али важан правац за ЛЛМ. Технике попут контролисаног генерисања текста и брзог подешавања имају за циљ да корисницима пруже детаљнију контролу над различитим атрибутима генерисаног текста, као што су стил, тон или специфични захтеви за садржај.

Zakljucak

ЛЛМ засновани на декодерима су се појавили као трансформативна сила у области обраде природног језика, померајући границе онога што је могуће уз генерисање и разумевање језика. Од својих скромних почетака као поједностављене варијанте архитектуре трансформатора, ови модели су еволуирали у високо софистициране и моћне системе, користећи најсавременије технике и архитектонске иновације.

Док настављамо да истражујемо и унапређујемо ЛЛМ засноване на декодерима, можемо очекивати да ћемо бити сведоци још изузетнијих достигнућа у задацима везаним за језик, као и интеграцији ових модела у широк спектар апликација и домена. Међутим, кључно је позабавити се етичким разматрањима, изазовима тумачења и потенцијалним пристрасностима које могу настати из широко распрострањене примене ових моћних модела.

Остајући на челу истраживања, подстичући отворену сарадњу и одржавајући снажну посвећеност одговорном развоју вештачке интелигенције, можемо да откључамо пуни потенцијал ЛЛМ-ова заснованих на декодерима, истовремено осигуравајући да су развијени и коришћени на безбедан, етички и користан начин за друштво.

Повезане теме:БЛООМ декодер РУЦЕНТЕР-КСНУМКС ЛЛМ Палма ПРОМПТ ЕНГИНЕЕРИНГ самопажња трансформатори

Уп Нект

Поверхоусе џепне величине: откривање Мицрософт-овог Пхи-3, језичког модела који се уклапа у ваш телефон

Не пропустите

Мини-Близанци: Ископавање потенцијала мултимодалитетних језичких модела визије

Ааиусх Миттал

Провео сам последњих пет година урањајући се у фасцинантан свет машинског учења и дубоког учења. Моја страст и стручност довели су ме до тога да допринесем преко 50 различитих пројеката софтверског инжењеринга, са посебним фокусом на АИ/МЛ. Моја стална радозналост ме је такође привукла ка обради природног језика, пољу које желим даље да истражујем.

Уните.АИ

Модели великих језика засновани на декодеру: Потпуни водич

Вештачка интелигенција

Модели великих језика засновани на декодеру: Потпуни водич

Преглед садржаја