Вештачка интелигенција

Мали, но моќни: мали јазични модели откритија во ерата на доминантните големи јазични модели

Ажурирани on Декември 4, 2023

Во доменот што постојано се развива на Вештачка интелигенција (ВИ), каде модели како GPT-3 долго време се доминантни, се случува тивка, но револуционерна промена. Мали јазични модели (SLM) се појавуваат и го предизвикуваат преовладувачкиот наратив на нивните поголеми колеги. GPT 3 и слично Модели за големи јазици (LLM), Како што се БЕРТ, познат по неговото двонасочно разбирање на контекстот, Т-5 со пристапот од текст во текст и XLNet, кој ги комбинира авторегресивните и авто-кодирачките модели, сите одиграа клучна улога во трансформирањето на Обработка на природен јазик (НЛП) парадигма. И покрај нивните одлични јазични способности, овие модели се скапи поради високата потрошувачка на енергија, значителните барања за меморија, како и големите пресметковни трошоци.

Во последно време, се случува промена на парадигмата со порастот на SLM. Овие модели, кои се карактеризираат со нивните лесни невронски мрежи, помалку параметри и рационализирани податоци за обука, ја доведуваат во прашање конвенционалната наративност.

За разлика од нивните поголеми колеги, SLM бараат помала пресметковна моќ, што ги прави погодни за распоредување во простории и на уред. Овие модели се намалени заради ефикасност, што покажува дека кога станува збор за обработка на јазикот, малите модели навистина можат да бидат моќни.

Еволуција и способности на малите јазични модели

Испитувањето на можностите и примената на LLM, како што е GPT-3, покажува дека тие имаат единствена способност да го разберат контекстот и да произведуваат кохерентни текстови. Употребата на овие алатки за креирање содржина, генерирање код и превод на јазици ги прави суштински компоненти во решавањето на сложени проблеми.

Нова димензија на овој наратив неодамна се појави со откривањето на GPT 4. GPT-4 ги поместува границите на јазичната вештачка интелигенција со неверојатни 1.76 трилиони параметри во осум модели и претставува значително отстапување од неговиот претходник, GPT 3. Ова го поставува сцена за нова ера на јазична обработка, каде што ќе продолжат да се следат поголеми и помоќни модели.

Иако се препознаваат способностите на LLM, од клучно значење е да се признаат значителните пресметковни ресурси и енергетските барања што тие ги наметнуваат. Овие модели, со нивната сложена архитектура и огромни параметри, бараат значителна моќ на обработка, што придонесува за загриженоста за животната средина поради високата потрошувачка на енергија.

Од друга страна, поимот пресметковна ефикасност е редефиниран од SLMs за разлика од LLM-и кои бараат ресурси. Тие работат со значително помали трошоци, што ја докажува нивната ефикасност. Во ситуации кога пресметковните ресурси се ограничени и нудат можности за распоредување во различни средини, оваа ефикасност е особено важна.

Покрај исплатливоста, SLM-ите се истакнуваат во способностите за брзо заклучување. Нивните рационализирани архитектури овозможуваат брза обработка, што ги прави многу погодни за апликации во реално време кои бараат брзо донесување одлуки. Оваа реакција ги позиционира како силни конкуренти во средини каде што агилноста е од најголема важност.

Успешните приказни на SLM дополнително го зајакнуваат нивното влијание. На пример, ДистилБЕРТ, дестилирана верзија на BERT, ја демонстрира способноста да се кондензира знаењето додека се одржуваат перформансите. Во меѓувреме, DeBERTa и TinyBERT на Microsoft докажуваат дека SLM може да се истакнат во различни апликации, почнувајќи од математичко расудување до разбирање јазик. Орка 2, кој неодамна беше развиен преку дотерување на Llama 2 на Мета, е уште еден уникатен додаток на семејството SLM. Исто така, OpenAI's Смалените верзии, GPT-Neo и GPT-J, нагласуваат дека способностите за генерирање јазици можат да напредуваат во помал обем, обезбедувајќи одржливи и достапни решенија.

Додека сме сведоци на растот на SLMs, станува очигледно дека тие нудат повеќе од само намалени пресметковни трошоци и побрзо време на заклучување. Всушност, тие претставуваат промена на парадигмата, покажувајќи дека прецизноста и ефикасноста можат да процветаат во компактни форми. Појавата на овие мали, но моќни модели означува нова ера во вештачката интелигенција, каде способностите на SLM го обликуваат наративот.

Апликации и Bпрелистувања на SLM

Формално опишани, SLM се лесни Генеративна АИ модели кои бараат помала пресметковна моќ и меморија во споредба со LLM. Тие можат да се обучуваат со релативно мали збирки на податоци, да имаат поедноставни архитектури кои се пообјасниви, а нивната мала големина овозможува распоредување на мобилни уреди.

Неодамнешните истражувања покажуваат дека SLM може да се дотеруваат за да се постигнат конкурентни или дури и супериорни перформанси во специфични задачи во споредба со LLM. Особено, техники за оптимизација, дестилација на знаење и архитектонски иновации придонесоа за успешно искористување на SLM.

SLM имаат апликации во различни области, како што се chatbots, системи за одговарање прашања и превод на јазици. SLM-овите се исто така погодни за пресметување на работ, што вклучува обработка на податоци на уреди наместо во облак. Тоа е затоа што SLM бараат помала пресметковна моќ и меморија во споредба со LLM, што ги прави посоодветни за распоредување на мобилни уреди и други средини со ограничени ресурси.

Слично на тоа, SLM се користат во различни индустрии и проекти за подобрување на перформансите и ефикасноста. На пример, во здравствениот сектор, SLM се имплементирани за да се подобри точноста на медицинската дијагноза и препораките за третман.

Покрај тоа, во финансиската индустрија, SLM се применуваат за откривање на измамнички активности и подобрување на управувањето со ризикот. Понатаму, транспортниот сектор ги користи за да го оптимизира протокот на сообраќај и да го намали метежот. Ова се само неколку примери кои илустрираат како SLM ги подобруваат перформансите и ефикасноста во различни индустрии и проекти.

Предизвици и тековни напори

SLM доаѓаат со некои потенцијални предизвици, вклучувајќи ограничено разбирање на контекстот и помал број на параметри. Овие ограничувања потенцијално може да резултираат со помалку точни и нијансирани одговори во споредба со поголемите модели. Сепак, се спроведуваат тековни истражувања за да се решат овие предизвици. На пример, истражувачите истражуваат техники за подобрување на обуката за SLM со користење на поразновидни сетови на податоци и инкорпорирање на повеќе контекст во моделите.

Други методи вклучуваат искористување на учењето за пренос за да се искористи претходно постоечкото знаење и моделите за дотерување за специфични задачи. Дополнително, архитектонските иновации како трансформаторските мрежи и механизмите за внимание покажаа подобрени перформанси во SLM.

Покрај тоа, во моментов се вршат заеднички напори во заедницата за вештачка интелигенција за да се подобри ефикасноста на малите модели. На пример, тимот на Hugging Face разви платформа наречена Transformers, која нуди различни претходно обучени SLM-а и алатки за дотерување и распоредување на овие модели.

Слично на тоа, Google создаде платформа позната како TensorFlow, обезбедувајќи низа ресурси и алатки за развој и распоредување на SLM. Овие платформи ја олеснуваат соработката и споделувањето знаење меѓу истражувачите и програмерите, забрзувајќи го унапредувањето и имплементацијата на SLM.

Во крајна линија

Како заклучок, SLM претставуваат значителен напредок во областа на вештачката интелигенција. Тие нудат ефикасност и разноврсност, предизвикувајќи ја доминацијата на LLM. Овие модели ги редефинираат пресметковните норми со нивните намалени трошоци и рационализирани архитектури, докажувајќи дека големината не е единствената детерминанта на владеењето. Иако предизвиците постојат, како што е ограниченото разбирање на контекстот, тековните истражувања и заедничките напори континуирано ги подобруваат перформансите на SLM.

Следно

Вештачката интелигенција и иднината на работата: Обнова на работната сила во ера на вештачка интелигенција

Не ја пропуштајте

StyleTTS 2: Текст во говор на човечко ниво со модели на големи говорни јазици

д-р Асад Абас

д-р Асад Абас, А Вонреден професор на Универзитетот COMSATS Исламабад, Пакистан, го доби својот докторат. од Државниот универзитет во Северна Дакота, САД. Неговото истражување се фокусира на напредни технологии, вклучувајќи облак, магла и пресметување на работ, аналитика на големи податоци и вештачка интелигенција. Д-р Абас има направено значителен придонес со публикации во реномирани научни списанија и конференции.