Изкуствен интелект

Възходът на смесица от експерти за ефективни големи езикови модели

Обновено on Март 21, 2024

В света на обработката на естествен език (NLP) стремежът към изграждане на по-големи и по-способни езикови модели е движеща сила зад много скорошни постижения. Въпреки това, тъй като тези модели нарастват по размер, изчислителните изисквания за обучение и изводи стават все по-взискателни, натискайки ограниченията на наличните хардуерни ресурси.

Въведете Mixture-of-Experts (MoE), техника, която обещава да облекчи това изчислително бреме, като същевременно позволява обучението на по-големи и по-мощни езикови модели. В този технически блог ще навлезем в света на MoE, изследвайки неговия произход, вътрешна работа и приложенията му в базирани на трансформатори езикови модели.

Произходът на комбинацията от експерти

Концепцията за Mixture-of-Experts (MoE) може да бъде проследена до началото на 1990-те години на миналия век, когато изследователите изследват идеята за условно изчисление, при което части от невронна мрежа се активират селективно въз основа на входните данни. Една от пионерските разработки в тази област беше „Адаптивна смес от местни експерти” документ от Jacobs et al. през 1991 г., който предлага рамка за контролирано обучение за ансамбъл от невронни мрежи, всяка специализирана в различен регион на входното пространство.

Основната идея зад MoE е да има множество „експертни“ мрежи, всяка от които отговаря за обработката на подмножество от входните данни. Механизъм за стробиране, обикновено самата невронна мрежа, определя кой експерт(и) трябва да обработи даден вход. Този подход позволява на модела да разпределя своите изчислителни ресурси по-ефективно, като активира само съответните експерти за всеки вход, вместо да използва пълния капацитет на модела за всеки вход.

През годините различни изследователи изследваха и разшириха идеята за условно изчисление, което доведе до разработки като йерархични MoEs, приближения с нисък ранг за условно изчисление и техники за оценка на градиенти чрез стохастични неврони и функции за активиране с твърд праг.

Смес от експерти по трансформатори

Смес от експерти

Докато идеята за МИ съществува от десетилетия, приложението му към базирани на трансформатор езикови модели е сравнително скорошно. Трансформаторите, които се превърнаха в де факто стандарт за най-съвременните езикови модели, са съставени от множество слоеве, всеки от които съдържа механизъм за самовнимание и невронна мрежа за подаване напред (FFN).

Ключовата иновация в прилагането на MoE към трансформатори е замяната на плътните FFN слоеве с редки MoE слоеве, всеки от които се състои от множество експертни FFN и стробиращ механизъм. Механизмът за стробиране определя кой експерт(и) трябва да обработва всеки входен токен, позволявайки на модела да активира избирателно само подмножество от експерти за дадена входна последователност.

Една от ранните работи, които демонстрираха потенциала на MoE в трансформаторите, беше документът „Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer“ от Shazeer et al. през 2017 г. Тази работа въвежда концепцията за слой MoE с рядък контрол, който използва стробиращ механизъм, който добавя рядкост и шум към процеса на избор на експерт, като гарантира, че само подмножество от експерти е активирано за всеки вход.

Оттогава няколко други разработки напреднаха допълнително в приложението на MoE към трансформатори, като се насочиха към предизвикателства като нестабилност на обучението, балансиране на натоварването и ефективно заключение. Забележителните примери включват Превключвател трансформатор (Федус и др., 2021 г.), ST-MoE (Zoph et al., 2022) и GLAM (Ду и др., 2022 г.).

Ползи от комбинацията от експерти за езикови модели

Основната полза от използването на MoE в езикови модели е възможността за увеличаване на размера на модела, като същевременно се поддържа относително постоянна изчислителна цена по време на извод. Чрез селективно активиране само на подгрупа от експерти за всеки входен токен, моделите на MoE могат да постигнат изразителната сила на много по-големи плътни модели, като същевременно изискват значително по-малко изчисления.

Например, разгледайте езиков модел с плътен FFN слой от 7 милиарда параметъра. Ако заменим този слой със слой MoE, състоящ се от осем експерта, всеки със 7 милиарда параметъра, общият брой на параметрите се увеличава до 56 милиарда. Въпреки това, по време на извод, ако активираме само два експерта на токен, изчислителната цена е еквивалентна на плътен модел с 14 милиарда параметъра, тъй като той изчислява две умножения на матрица с 7 милиарда параметри.

Тази изчислителна ефективност по време на извод е особено ценна при сценарии на внедряване, където ресурсите са ограничени, като например мобилни устройства или крайни изчислителни среди. Освен това, намалените изчислителни изисквания по време на обучение могат да доведат до значителни икономии на енергия и по-нисък въглероден отпечатък, в съответствие с нарастващия акцент върху устойчивите практики на ИИ.

Предизвикателства и съображения

Въпреки че моделите на MoE предлагат убедителни предимства, тяхното приемане и внедряване идва и с няколко предизвикателства и съображения:

Нестабилност на обучението: Известно е, че моделите на MoE са по-склонни към нестабилност при обучение в сравнение с техните плътни колеги. Този проблем възниква от рядкото и условно естество на експертните активации, което може да доведе до предизвикателства при разпространението на градиента и конвергенцията. Предложени са техники като z-loss на рутера (Zoph et al., 2022) за смекчаване на тези нестабилности, но все още са необходими допълнителни изследвания.
Фина настройка и преоборудване: Моделите на MoE са склонни да пренастройват по-лесно по време на фина настройка, особено когато задачата надолу по веригата има относително малък набор от данни. Това поведение се дължи на увеличения капацитет и разредността на моделите на MoE, което може да доведе до свръхспециализация на данните за обучение. Необходими са внимателно регулиране и стратегии за фина настройка, за да се смекчи този проблем.
Изисквания към паметта: Въпреки че моделите на MoE могат да намалят изчислителните разходи по време на извод, те често имат по-високи изисквания към паметта в сравнение с плътните модели с подобен размер. Това е така, защото всички експертни тегла трябва да бъдат заредени в паметта, въпреки че само подмножество е активирано за всеки вход. Ограниченията на паметта могат да ограничат скалируемостта на моделите на MoE на устройства с ограничени ресурси.
Балансиране на натоварването: За постигане на оптимална изчислителна ефективност е от решаващо значение да се балансира натоварването между експертите, като се гарантира, че нито един експерт не е претоварен, докато други остават недостатъчно използвани. Това балансиране на натоварването обикновено се постига чрез спомагателни загуби по време на обучение и внимателна настройка на коефициента на капацитет, който определя максималния брой токени, които могат да бъдат присвоени на всеки експерт.
Комуникационни разходи: В разпределени сценарии за обучение и извод, моделите на MoE могат да въведат допълнителни комуникационни разходи поради необходимостта от обмен на информация за активиране и градиент между експерти, пребиваващи на различни устройства или ускорители. Ефективните комуникационни стратегии и дизайнът на модела, съобразен с хардуера, са от съществено значение за смекчаване на тези разходи.

Въпреки тези предизвикателства, потенциалните ползи от моделите на MoE за създаване на по-големи и по-способни езикови модели стимулират значителни изследователски усилия за справяне и смекчаване на тези проблеми.

Пример: Mixtral 8x7B и GLaM

За да илюстрираме практическото приложение на MoE в езикови модели, нека разгледаме два забележителни примера: Mixtral 8x7B и GLaM.

Mixtral 8x7B е вариант на MoE на Езиков модел Mistral, разработен от Anthropic. Състои се от осем експерта, всеки със 7 милиарда параметъра, което води до общо 56 милиарда параметъра. Въпреки това, по време на извод, само двама експерта се активират на токен, което ефективно намалява изчислителните разходи до тези на плътен модел с 14 милиарда параметъра.

Mixtral 8x7B демонстрира впечатляваща производителност, надминавайки модела Llama със 70 милиарда параметъра, като същевременно предлага много по-бързо време за извод. Настроена с инструкции версия на Mixtral 8x7B, наречена Mixtral-8x7B-Instruct-v0.1, също беше пусната, като допълнително подобрява възможностите си за следване на инструкции на естествен език.

Друг забележителен пример е GLaM (Google Language Model), широкомащабен модел на MoE, разработен от Google. GLaM използва трансформаторна архитектура само за декодер и е обучен на огромен набор от данни от 1.6 трилиона токена. Моделът постига впечатляваща производителност при оценки с няколко изстрела и с един изстрел, отговаряйки на качеството на GPT-3, като същевременно използва само една трета от енергията, необходима за обучение на GPT-3.

Успехът на GLaM може да се дължи на неговата ефективна MoE архитектура, която позволява обучението на модел с голям брой параметри, като същевременно поддържа разумни изчислителни изисквания. Моделът също така демонстрира потенциала на моделите на MoE да бъдат по-енергийно ефективни и екологично устойчиви в сравнение с техните плътни колеги.

Архитектурата Grok-1

GROK СМЕС НА ЕКСПЕРТ

Грок-1 е базиран на трансформатор MoE модел с уникална архитектура, проектирана да увеличи максимално ефективността и производителността. Нека се потопим в основните спецификации:

параметри: Със зашеметяващите 314 милиарда параметъра Grok-1 е най-големият отворен LLM до момента. Въпреки това, благодарение на архитектурата на MoE, само 25% от теглата (приблизително 86 милиарда параметри) са активни във всеки един момент, което подобрява възможностите за обработка.
архитектура: Grok-1 използва архитектура Mixture-of-8-Experts, като всеки токен се обработва от двама експерти по време на извод.
Слоеве: Моделът се състои от 64 трансформиращи слоя, всеки от които включва многоглаво внимание и плътни блокове.
токанизация: Grok-1 използва токенизатор на SentencePiece с размер на речника от 131,072 XNUMX токена.
Вграждания и позиционно кодиране: Моделът разполага с 6,144-измерни вграждания и използва въртящи се позиционни вграждания, което позволява по-динамична интерпретация на данните в сравнение с традиционните фиксирани позиционни кодировки.
Внимание: Grok-1 използва 48 глави за внимание за заявки и 8 глави за внимание за ключове и стойности, всяка с размер 128.
Дължина на контекста: Моделът може да обработва последователности с дължина до 8,192 токена, като използва точността на bfloat16 за ефективно изчисление.

Подробности за ефективността и изпълнението

Grok-1 демонстрира впечатляваща производителност, превъзхождайки LLaMa 2 70B и Mixtral 8x7B с MMLU резултат от 73%, демонстрирайки неговата ефективност и точност при различни тестове.

Въпреки това е важно да се отбележи, че Grok-1 изисква значителни GPU ресурси поради големия си размер. Текущото внедряване във версията с отворен код се фокусира върху валидирането на коректността на модела и използва неефективно изпълнение на MoE слой, за да се избегне необходимостта от персонализирани ядра.

Независимо от това, моделът поддържа шардинг за активиране и 8-битово квантуване, което може да оптимизира производителността и да намали изискванията за памет.

В забележителен ход, xAI пусна Grok-1 под лиценза Apache 2.0, което прави неговите тегла и архитектура достъпни за глобалната общност за използване и принос.

Изданието с отворен код включва JAX хранилище за примерен код, което демонстрира как да заредите и стартирате модела Grok-1. Потребителите могат да изтеглят тежестите на контролните точки с помощта на торент клиент или директно през HuggingFace Hub, което улеснява лесния достъп до този новаторски модел.

Бъдещето на комбинацията от експерти в езиковите модели

Тъй като търсенето на по-големи и по-способни езикови модели продължава да расте, приемането на техниките на MoE се очаква да набере допълнителна скорост. Продължаващите изследователски усилия са насочени към справяне с оставащите предизвикателства, като подобряване на стабилността на обучението, смекчаване на пренастройването по време на фина настройка и оптимизиране на изискванията за памет и комуникация.

Едно обещаващо направление е изследването на йерархични архитектури на MoE, където всеки експерт е съставен от множество под-експерти. Този подход би могъл потенциално да позволи още по-голяма мащабируемост и изчислителна ефективност, като същевременно запази изразителната сила на големите модели.

Освен това разработването на хардуерни и софтуерни системи, оптимизирани за модели на MoE, е активна област на изследване. Специализирани ускорители и разпределени рамки за обучение, предназначени да се справят ефективно с редките и условни изчислителни модели на моделите на MoE, биха могли допълнително да подобрят тяхната производителност и мащабируемост.

Освен това, интегрирането на техниките на MoE с други постижения в езиковото моделиране, като механизми за рядко внимание, ефективни стратегии за токенизация и мултимодални представяния, може да доведе до още по-мощни и гъвкави езикови модели, способни да се справят с широк кръг от задачи.

Заключение

Техниката Mixture-of-Experts се очертава като мощен инструмент в търсенето на по-големи и по-способни езикови модели. Чрез селективно активиране на експерти въз основа на входните данни, моделите на MoE предлагат обещаващо решение на изчислителните предизвикателства, свързани с мащабирането на плътни модели. Въпреки че все още има предизвикателства за преодоляване, като например нестабилност на обучението, прекомерно оборудване и изисквания за памет, потенциалните ползи от моделите на MoE по отношение на изчислителната ефективност, мащабируемостта и устойчивостта на околната среда ги правят вълнуваща област за изследване и развитие.

Тъй като областта на обработката на естествения език продължава да разширява границите на възможното, приемането на техниките на MoE вероятно ще изиграе решаваща роля за създаването на възможност за следващото поколение езикови модели. Чрез комбиниране на MoE с други постижения в архитектурата на модела, техниките за обучение и хардуерната оптимизация, можем да очакваме още по-мощни и гъвкави езикови модели, които наистина могат да разбират и комуникират с хората по естествен и безпроблемен начин.

Свързани теми:гроквам HuggingFace Лама Магистър по право мистрал Смес от експерти трансформатори

Следва

AI GPT за PostgreSQL база данни: могат ли да работят?

Не пропускайте

Какво трябва да знаете за новия суперчип и архитектура на Blackwell AI на NVIDIA

Аюш Митал

Прекарах последните пет години, потапяйки се в завладяващия свят на машинното обучение и дълбокото обучение. Моята страст и опит ме накараха да допринеса за над 50 различни проекта за софтуерно инженерство, със специален фокус върху AI/ML. Продължаващото ми любопитство също ме насочи към обработката на естествен език, област, която нямам търпение да проуча по-нататък.