Вештачка интелигенција

Модели на големи јазици базирани на декодер: Целосен водич

Ажурирани on Април 27, 2024

Модели на големи јазици базирани на декодер: Целосен водич

Големи јазични модели (LLMs) го револуционизираа полето на обработката на природниот јазик (НЛП) со демонстрација на извонредни способности во генерирање на текст сличен на човекот, одговарање на прашања и помагање во широк опсег на задачи поврзани со јазикот. Во сржта на овие моќни модели лежи Трансформаторска архитектура само за декодер, варијанта на оригиналната трансформаторска архитектура предложена во семиналниот труд“Вниманието е се што ви треба“ од Васвани и сор.

Во овој сеопфатен водич, ќе ги истражиме внатрешните работи на LLM базирани на декодер, навлегувајќи во основните градежни блокови, архитектонските иновации и деталите за имплементација кои ги поттикнаа овие модели во првите редови на истражувањето и апликациите на НЛП.

Архитектурата на трансформаторот: Освежување

Пред да се нурне во спецификите на LLM базирани на декодер, од суштинско значење е повторно да се разгледа архитектурата на трансформаторот, основата врз која се изградени овие модели. Трансформаторот воведе нов пристап кон моделирање на секвенци, потпирајќи се единствено на механизмите за внимание за да се доловат зависностите од долг дострел во податоците, без потреба од повторливи или конволутивни слоеви.

Архитектура на трансформатори

Оригиналната архитектура на трансформаторот се состои од две главни компоненти: енкодер и декодер. Кодерот ја обработува влезната низа и генерира контекстуализирана претстава, која потоа се троши од декодерот за да ја произведе излезната секвенца. Оваа архитектура првично беше дизајнирана за задачи за машинско преведување, каде што енкодерот ја обработува влезната реченица на изворниот јазик, а декодерот ја генерира соодветната реченица на целниот јазик.

Внимание на себе: клучот за успехот на трансформаторот

Во срцето на трансформатор лежи механизмот за само-внимание, моќна техника која му овозможува на моделот да ги мери и собира информациите од различни позиции во влезната низа. За разлика од традиционалните модели на секвенци, кои ги обработуваат влезните токени последователно, самовниманието му овозможува на моделот да ги долови зависностите помеѓу кој било пар токени, без оглед на нивната позиција во низата.

Повеќекратно внимание

Операцијата за самовнимание може да се подели на три главни чекори:

Проекции за барање, клуч и вредност: Влезната низа е проектирана во три посебни претстави: пребарувања (П), клучеви (К) и вредности (V). Овие проекции се добиваат со множење на влезот со научените матрици за тежина.
Пресметка на бодови за внимание: За секоја позиција во влезната низа, оценките за внимание се пресметуваат со преземање на производ од точки помеѓу соодветниот вектор за барање и сите клучни вектори. Овие оценки ја претставуваат релевантноста на секоја позиција за моменталната позиција што се обработува.
Пондериран збир на вредности: Резултатите на вниманието се нормализираат со помош на функцијата softmax, а добиените тежини за внимание се користат за пресметување на пондерирана сума на вектори на вредности, произведувајќи ја излезната претстава за моменталната позиција.

Вниманието со повеќе глави, варијанта на механизмот за само-внимание, му овозможува на моделот да доловува различни типови на односи со пресметување на резултатите од вниманието низ повеќе „главиПаралелно, секој со свој сет на проекции за пребарување, клучеви и вредности.

Архитектонски варијанти и конфигурации

Додека основните принципи на LLM базирани на декодер остануваат конзистентни, истражувачите истражуваа различни архитектонски варијанти и конфигурации за да ги подобрат перформансите, ефикасноста и можностите за генерализација. Во овој дел, ќе истражуваме во различните архитектонски избори и нивните импликации.

Видови архитектура

LLM-и базирани на декодер може широко да се класифицираат во три главни типа: енкодер-декодер, причински декодер и префикс декодер. Секој тип на архитектура покажува различни модели на внимание.

Архитектура на енкодер-декодер

Врз основа на моделот ванила трансформатор, архитектурата на енкодер-декодер се состои од два купа: енкодер и декодер. Кодерот користи наредени слоеви за самовнимание со повеќе глави за да ја шифрира влезната низа и да генерира латентни претстави. Декодерот потоа врши вкрстено внимание на овие претстави за да ја генерира целната секвенца. Иако се ефективни во различни задачи на НЛП, неколку LLM, како на пр Flan-T5, прифатете ја оваа архитектура.

Причинска архитектура на декодер

Причинската архитектура на декодер вклучува еднонасочна маска за внимание, дозволувајќи му на секој влезен токен да се придружува само на минатите токени и на себе. И влезните и излезните токени се обработуваат во истиот декодер. Забележителни модели како GPT-1, GPT-2 и GPT-3 се изградени на оваа архитектура, со GPT-3 што прикажува извонредни способности за учење во контекст. Многу LLM, вклучувајќи ги и OPT, BLOOM и Gopher, имаат широко усвоени каузални декодери.

Архитектура на декодер на префикс

Исто така познат како не-причински декодер, архитектурата на префиксниот декодер го модифицира механизмот за маскирање на причинските декодери за да овозможи двонасочно внимание над префиксните токени и еднонасочно внимание на генерираните токени. Како и архитектурата енкодер-декодер, декодерите на префиксот можат двонасочно да ја кодираат секвенцата на префиксот и да ги предвидат излезните токени авторегресивно користејќи споделени параметри. LLM базирани на префикс декодери вклучуваат GLM130B и U-PaLM.

Сите три типа архитектура може да се прошират со користење на мешавина на експерти (МО) техника на скалирање, која ретко активира подмножество тежини на невронска мрежа за секој влез. Овој пристап е применет во модели како Switch Transformer и GLaM, со зголемување на бројот на експерти или вкупната големина на параметарот што покажува значителни подобрувања во перформансите.

Трансформатор само за декодер: прифаќање на авторегресивната природа

Додека оригиналната архитектура на трансформаторот беше дизајнирана за задачи од низа во низа, како што е машинскиот превод, многу NLP задачи, како што се моделирање на јазик и генерирање текст, може да се врамат како авторегресивни проблеми, каде што моделот генерира еден токен во исто време, условени од претходно генерирани токени.

Внесете го трансформаторот само за декодер, поедноставена варијанта на архитектурата на трансформаторот што ја задржува само компонентата на декодерот. Оваа архитектура е особено добро прилагодена за авторегресивни задачи, бидејќи генерира излезни токени еден по еден, користејќи ги претходно генерираните токени како влезен контекст.

Клучната разлика помеѓу трансформаторот само за декодер и оригиналниот трансформаторски декодер лежи во механизмот за само-внимание. Во поставката само за декодер, операцијата за самовнимание е изменета за да се спречи моделот да се грижи за идните токени, својство познато како каузалност. Ова се постигнува преку техниката наречена „маскирано самовнимание“, каде што оценките за вниманието што одговараат на идните позиции се поставени на негативен бесконечност, ефикасно маскувајќи ги за време на чекорот на нормализација на softmax.

Архитектонски компоненти на LLM базирани на декодер

Додека основните принципи на само-внимание и маскирано само-внимание остануваат исти, современите LLM базирани на декодер воведоа неколку архитектонски иновации за да ги подобрат перформансите, ефикасноста и можностите за генерализација. Ајде да истражиме некои од клучните компоненти и техники кои се користат во најсовремените LLM.

Претставување на влез

Пред да ја обработат влезната секвенца, LLM базирани на декодер користат техники за токенизација и вградување за да го претворат необработениот текст во нумеричка претстава погодна за моделот.

векторско вградување

Токинизација: Процесот на токенизација го претвора влезниот текст во низа од токени, кои можат да бидат зборови, подзборови или дури и поединечни знаци, во зависност од употребената стратегија за токенизација. Популарните техники за токенизација за LLM вклучуваат кодирање со бајти-пар (BPE), SentencePiece и WordPiece. Овие методи имаат за цел да постигнат рамнотежа помеѓу големината на вокабуларот и грануларноста на застапеноста, овозможувајќи му на моделот ефикасно да ракува со ретките или зборовите што не се вокабулар.

Вградување на токени: По токенизацијата, секој токен се пресликува на густа векторска претстава наречена вградување на токен. Овие вградувања се учат за време на процесот на обука и ги доловуваат семантичките и синтаксичките односи помеѓу токените.

Позициони вградувања: Моделите со трансформатори ја обработуваат целата влезна низа истовремено, без инхерентна претстава за позициите на токените присутни во повторливите модели. За да се вклучат позициони информации, позициони вградувања се додаваат на вградувањата на токени, што му овозможува на моделот да прави разлика помеѓу токените врз основа на нивните позиции во низата. Раните LLM користеа фиксни положбени вградувања засновани на синусоидални функции, додека поновите модели истражуваа позициони вградувања што може да се научат или алтернативни техники за позициско шифрирање како што се ротациони позициони вградувања.

Блокови за внимание со повеќе глави

Основните градежни блокови на LLM базирани на декодер се слоеви на внимание со повеќе глави, кои ја извршуваат операцијата за маскирано самовнимание опишана претходно. Овие слоеви се наредени повеќе пати, при што секој слој се грижи за излезот од претходниот слој, дозволувајќи му на моделот да долови сè покомплексни зависности и претстави.

Внимание глави: Секој слој на внимание со повеќе глави се состои од повеќе „глави за внимание“, секоја со свој сет на проекции за пребарување, клучеви и вредности. Ова му овозможува на моделот да присуствува на различни аспекти на влезот истовремено, зафаќајќи различни односи и модели.

Преостанати врски и нормализација на слоеви: За да се олесни обуката на длабоките мрежи и да се ублажи проблемот со градиентот што исчезнува, LLM-и базирани на декодер користат преостанати врски и техники за нормализација на слоеви. Преостанатите врски го додаваат влезот на слојот на неговиот излез, дозволувајќи им на градиентите полесно да течат за време на заднинското ширење. Нормализацијата на слојот помага да се стабилизираат активациите и наклоните, дополнително подобрување на стабилноста и перформансите на тренингот.

Слоеви за повлекување напред

Покрај слоевите за внимание со повеќе глави, LLM-и базирани на декодер инкорпорираат слоеви за повлекување напред, кои применуваат едноставна невронска мрежа за повлекување на секоја позиција во низата. Овие слоеви воведуваат нелинеарности и му овозможуваат на моделот да научи посложени претстави.

Функции за активирање: Изборот на функцијата за активирање во слоевите за повлекување напред може значително да влијае на перформансите на моделот. Додека претходните LLM се потпираа на широко користеното активирање ReLU, поновите модели усвоија пософистицирани функции за активирање како Гаусовата линеарна единица за грешки (GELU) или активирањето SwiGLU, кои покажаа подобрени перформанси.

Ретко внимание и ефикасни трансформатори

Иако механизмот за самовнимание е моќен, тој доаѓа со квадратна пресметковна сложеност во однос на должината на секвенцата, што го прави пресметковно скап за долги секвенци. За да се одговори на овој предизвик, предложени се неколку техники за намалување на пресметковните и мемориските барања за самовнимание, овозможувајќи ефикасна обработка на подолги секвенци.

Ретко Внимание: Техниките со ретко внимание, како што е онаа применета во моделот GPT-3, селективно посетуваат подмножество позиции во влезната низа, наместо да ги пресметуваат резултатите на вниманието за сите позиции. Ова може значително да ја намали комплексноста на пресметките додека одржува разумни перформанси.

Лизгачки прозорец Внимание: Воведен во моделот Mistral 7B, вниманието на лизгачкиот прозорец (SWA) е едноставна, но ефикасна техника која го ограничува опсегот на вниманието на секој токен на фиксна големина на прозорецот. Овој пристап ја користи способноста на слоевите на трансформаторите да пренесуваат информации низ повеќе слоеви, ефикасно зголемувајќи го распонот на вниманието без квадратна сложеност на целосното самовнимание.

Ролинг тампон кеш: За понатамошно намалување на барањата за меморија, особено за долги секвенци, моделот Mistral 7B користи тампон за валање. Оваа техника ги складира и повторно ги користи пресметаните клучеви и вектори на вредност за фиксна големина на прозорецот, избегнувајќи непотребни пресметки и минимизирајќи ја употребата на меморијата.

Групирано барање Внимание: Воведен во моделот LLaMA 2, вниманието на групираното барање (GQA) е варијанта на механизмот за внимание со повеќе прашања што ги дели главите на вниманието во групи, при што секоја група споделува заеднички клуч и матрица на вредности. Овој пристап воспоставува рамнотежа помеѓу ефикасноста на вниманието со повеќе прашања и перформансите на стандардното само-внимание, обезбедувајќи подобрени времиња на заклучоци додека одржуваат висококвалитетни резултати.

Внимание на групирани прашања

Големина и скалирање на моделот

Една од дефинирачките карактеристики на современите LLM е нивниот огромен обем, со број на параметри кои се движат од милијарди до стотици милијарди. Зголемувањето на големината на моделот беше клучен фактор за постигнување на најсовремени перформанси, бидејќи поголемите модели можат да доловат посложени обрасци и односи во податоците.

Број на параметри: Бројот на параметри во LLM базиран на декодер првенствено се одредува со димензијата на вградување (d_model), бројот на глави за внимание (n_heads), бројот на слоеви (n_layers) и големината на речникот (vocab_size). На пример, моделот GPT-3 има 175 милијарди параметри, со d_model = 12288, n_глави = 96, n_слоеви = 96, и vocab_size = 50257.

Модел паралелизам: Обука и распоредување на такви масивни модели бара значителни пресметковни ресурси и специјализиран хардвер. За да се надмине овој предизвик, употребени се техники на паралелизам на модели, каде што моделот е поделен на повеќе графички процесори или TPU, при што секој уред е одговорен за дел од пресметките.

Мешавина на експерти: Друг пристап за скалирање на LLM е архитектурата на мешавина од експерти (MoE), која комбинира повеќе експертски модели, од кои секој е специјализиран за одредена подгрупа на податоците или задачата. Моделот Mixtral 8x7B е пример за модел на MoE што го користи Мистрал 7Б како негов основен модел, постигнувајќи супериорни перформанси додека се одржува пресметковната ефикасност.

Заклучоци и генерирање на текст

Еден од примарните случаи на употреба на LLM базирани на декодер е генерирањето текст, каде што моделот генерира кохерентен и природен текст врз основа на дадена порака или контекст.

Авторегресивно декодирање: За време на заклучувањето, LLM базирани на декодер генерираат текст на авторегресивен начин, предвидувајќи еден по еден токен врз основа на претходно генерираните токени и назнаката за внесување. Овој процес продолжува додека не се исполни однапред одреден критериум за запирање, како што е достигнување максимална должина на низата или генерирање на токен за крај на секвенцата.

Стратегии за земање примероци: За да се генерира разновиден и реален текст, може да се применат различни стратегии за земање примероци, како што се земање примероци од топ-к, земање примероци од топ-п (исто така познато како земање примероци од јадро) или скалирање на температурата. Овие техники го контролираат компромисот помеѓу различноста и кохерентноста на генерираниот текст со прилагодување на распределбата на веројатноста преку вокабуларот.

Брзо инженерство: Квалитетот и специфичноста на известувањето за внесување може значително да влијаат на генерираниот текст. Брзото инженерство, уметноста на изработка на ефективни потсетници, се појави како клучен аспект на искористување на LLM за различни задачи, овозможувајќи им на корисниците да го водат процесот на генерирање на моделот и да ги постигнат посакуваните резултати.

Декодирање на човек во јамка: За дополнително подобрување на квалитетот и кохерентноста на генерираниот текст, техники како Зајакнување на учење од човечки повратни информации (RLHF) се вработени. Во овој пристап, оценувачите на луѓе обезбедуваат повратна информација за генерираниот текст на моделот, кој потоа се користи за дотерување на моделот, ефикасно усогласувајќи го со човечките преференци и подобрувајќи ги неговите резултати.

Напредоци и идни насоки

Областа на LLM базирани на декодер брзо се развива, со нови истражувања и откритија кои континуирано ги поместуваат границите на она што овие модели можат да го постигнат. Еве некои значајни напредоци и потенцијални идни насоки:

Ефикасни варијанти на трансформатори: Додека реткото внимание и вниманието на лизгачкиот прозорец направија значителен напредок во подобрувањето на ефикасноста на LLM базирани на декодер, истражувачите активно ги истражуваат алтернативните архитектури на трансформаторите и механизмите за внимание за дополнително да ги намалат барањата за пресметување додека ги одржуваат или подобруваат перформансите.

Мултимодални LLMs: Проширувајќи ги можностите на LLM надвор од текстот, мултимодалните модели имаат за цел да интегрираат повеќе модалитети, како што се слики, аудио или видео, во една единствена рамка. Ова отвора возбудливи можности за апликации како што се титлови на слики, визуелно одговарање прашања и генерирање мултимедијална содржина.

Контролирана генерација: Овозможувањето ситно-грануларна контрола врз генерираниот текст е предизвикувачка, но важна насока за LLM. Техниките како контролирано генерирање текст и брзо подесување имаат за цел да им овозможат на корисниците поголема контрола врз различните атрибути на генерираниот текст, како што се стил, тон или специфични барања за содржина.

Заклучок

LLM базирани на декодер се појавија како трансформативна сила во областа на обработка на природниот јазик, поместувајќи ги границите на она што е можно со генерирање и разбирање на јазикот. Од нивните скромни почетоци како поедноставена варијанта на архитектурата на трансформаторот, овие модели еволуираа во високо софистицирани и моќни системи, користејќи врвни техники и архитектонски иновации.

Како што продолжуваме да ги истражуваме и унапредуваме LLM базирани на декодер, можеме да очекуваме да бидеме сведоци на уште позначајни достигнувања во задачите поврзани со јазикот, како и интеграцијата на овие модели во широк опсег на апликации и домени. Сепак, од клучно значење е да се решат етичките размислувања, предизвиците за толкување и потенцијалните предрасуди кои можат да произлезат од широко распространетата примена на овие моќни модели.

Останувајќи во првите редови на истражувањето, поттикнувајќи ја отворената соработка и одржувајќи силна посветеност на одговорниот развој на вештачката интелигенција, можеме да го отклучиме целосниот потенцијал на LLM базирани на декодер, истовремено обезбедувајќи дека тие се развиени и искористени на безбеден, етички и корисен начин за општеството.

Поврзани теми:БЛУМ декодер GPT-3 LLM дланка ПРОМПТ ИНЖЕНЕРСТВО само-внимание трансформатори

Следно

Моќен центар со џебна големина: Откривање на Phi-3 на Мајкрософт, јазичен модел што се вклопува во вашиот телефон

Не ја пропуштајте

Мини-Близнаци: Откривање на потенцијалот на моделите на јазични визии со повеќе модалитети

Ајуш Митал

Изминатите пет години ги поминав потопувајќи се во фасцинантниот свет на машинското учење и длабокото учење. Мојата страст и експертиза ме наведоа да придонесам за над 50 различни проекти за софтверско инженерство, со посебен фокус на AI/ML. Мојата постојана љубопитност, исто така, ме привлече кон Обработка на природни јазици, поле кое јас сум желен да го истражам понатаму.