Вештачка интелигенција

Можете ли да изградите големи јазични модели како ChatGPT по половина цена?

Објавено

пред 12 месеци

Може 11, 2023

Големи јазични модели (LLM) како GPT-3 и ChatGPT ја револуционизираа вештачката интелигенција нудејќи можности за разбирање природен јазик и генерирање содржина. Но, нивниот развој има висока цена што ја ограничува пристапноста и понатамошните истражувања. Истражувачите проценуваат дека обуката GPT-3 чини OpenAI околу $ 5 милиони. Сепак, Мајкрософт го препозна потенцијалот и инвестираше $ 1 милијарди во 2019 и $ 10 милијарди во 2023 година во потфатот GPT-3 и ChatGPT на OpenAI.

LLM се модели за машинско учење обучени за обемни текстуални податоци за NLP апликации. Тие се засноваат на трансформаторска архитектура и користат механизми за внимание за задачите на НЛП како што се одговарање на прашања, машински превод, анализа на чувства итн.

Се поставува прашањето: дали може да се зголеми ефикасноста на овие големи модели додека истовремено се намалуваат пресметковните трошоци и времето за обука?

Неколку пристапи, како Прогресивни невронски мрежи, Мрежен морфизам, паралелизам на интраслоен модел, наследување на знаењето, итн., се развиени за да се намалат пресметковните трошоци за обука на невронски мрежи. Романот LiGO Пристапот (Оператор за линеарен раст) за кој ќе разговараме е поставување на нов репер. Тоа го преполовува пресметковниот трошок за обука на LLM.

Пред да се дискутира за оваа техника, суштинско е да се испитаат факторите кои придонесуваат за високата цена за изработка на LLM.

Трошоци за градење на големи јазични модели

Три главни трошоци за развој на LLM се како што следува:

1. Пресметковни ресурси

Изградбата на LLM бара огромни пресметковни ресурси за да се обучуваат на големи збирки на податоци. Тие мора да обработат милијарди параметри и да научат сложени обрасци од масивни текстуални податоци.

Инвестиција во специјализиран хардвер како што се единици за графичка обработка (Графички процесори) и единиците за обработка на тензори (TPUs) се потребни за градење и обука на LLM за да се постигнат најсовремени перформанси.

На пример, GPT-3 беше обучен на а суперкомпјутер со 10000 графички процесори за претпријатие (H100 и A100) и 285,000 јадра на процесорот.

2. Потрошувачка на енергија

Интензивните пресметковни ресурси потребни за градење на LLM резултираат со значителна потрошувачка на енергија. На пример, за обука беа потребни 175 милијарди параметри GPT-3 14.8 денови користејќи 10,000 V100 графички процесори, што е еквивалентно на 3.55 милиони GPU часа. Ваквото високо ниво на потрошувачка на енергија има и значителни ефекти врз животната средина.

3. Складирање и управување со податоци

LLM се обучуваат за големи збирки на податоци. На пример, GPT-3 беше обучен на огромен корпус текстуални податоци, вклучувајќи ги и Common Crawl, WebText2, Books1, Books2 и Wikipedia, меѓу другите извори. Потребни се значителни инфраструктурни инвестиции за собирање, курирање и складирање на овие збирки на податоци.

Исто така, складирањето во облак е потребно за складирање податоци, а човечка експертиза за претходна обработка на податоците и контрола на верзијата. Покрај тоа, обезбедувањето дека вашата стратегија за податоци е во согласност со регулативите како GDPR, исто така, ги зголемува трошоците.

Техника LiGO: Намалете ги на половина трошоците за градење големи јазични модели

LiGO (Оператор за линеарен раст) е нова техника развиена од истражувачи од МИТ за да се намалат пресметковните трошоци за обука на LLM за 50%. Методот вклучува иницијализирање на тежините на поголемите модели од оние на помалите претходно обучени модели, овозможувајќи ефикасно скалирање на невронските мрежи.

Слика од весникот: Учење да растете претходно обучени модели за ефикасна обука за трансформатори

Јун Ким, постар автор на трудот, вели:

„Се проценува дека моделите за обука на скалата на она на што се претпоставува дека се работи за ChatGPT може да потрае милиони долари само за едно тренирање. Можеме ли да ја подобриме ефикасноста на овие методи на обука, за да можеме да добиеме добри модели за помалку време и за помалку пари? Предлагаме да го направиме ова со користење на помали јазични модели кои претходно биле обучени“.

Овој метод ги одржува придобивките од перформансите на поголемите модели со намалени пресметковни трошоци и време за обука во споредба со тренирање на голем модел од почеток. LiGO користи линеарен оператор за раст управуван од податоци кој ги комбинира операторите за длабочина и ширина за оптимални перформанси.

Трудот користеше различни збирки на податоци за спроведување експерименти базирани на текст, вклучувајќи го корпусот на англиската Википедија за обука на моделите BERT и RoBERTa и базата на податоци C4 за обука на GPT2.

Експериментирањето на техниката LiGO вклучуваше растење на BERT-Small во BERT-Base, BERT-Base во BERT-Large, RoBERTaSmall во RoBERTa-Base, GPT2-Base до GPT2-Medium и CaiT-XS до CaiT-S.

Истражувачите го споредија нивниот пристап со неколку други основни линии, вклучувајќи обука од нула, прогресивна обука, bert2BERT и KI.

Техниката LiGO понуди 44.7% заштеда во FLOP (операции со подвижна запирка во секунда) и 40.7% заштеда во времето на ѕид во споредба со тренирањето на BERT-Base од почеток со повторна употреба на моделот BERT-Small. Операторот за раст LiGO ги надминува StackBERT, MSLT, bert2BERT и KI во ефикасна обука.

Придобивки од користење на техника за оптимизација на обуката како LiGO

LiGO е ефикасен метод за обука на невронски мрежи кој има различни придобивки наведени како што следува:

1. Побрз тренинг

Како што беше кажано претходно, побрзиот тренинг е главната предност на техниката LiGO. Ги обучува LLM за половина од времето, зголемувајќи ја продуктивноста и намалувајќи ги трошоците.

2. Ефикасни ресурси

LiGO е ефикасен во однос на ресурсите бидејќи го минимизира времето на ѕид и FLOP, што доведува до поекономичен и еколошки пристап за обука на модели на големи трансформатори.

3. Генерализација

Техниката LiGO ги подобри перформансите и на јазичните и на визуелните трансформатори, што сугерира дека е генерализирана техника која може да се примени на различни задачи.

Изградбата на комерцијални производи со вештачка интелигенција е само еден аспект од вкупните трошоци поврзани со системите за вештачка интелигенција. Друга значајна компонента на трошоците доаѓа од секојдневното работење. На пример, чини OpenAI околу $700,000 секој ден да одговарате на прашања користејќи ChatGPT. Од истражувачите се очекува да продолжат да ги истражуваат пристапите кои ги прават LLM економични за време на обуката и подостапни за време на траење.

За повеќе содржини поврзани со вештачката интелигенција, посетете обедини.ai.