Best of

5 LLMyên Çavkaniya Vekirî ya çêtirîn (Gulan 2024)

Demê on Bila 1, 2024

Di cîhana bilez a pêşkeftî ya îstîxbarata sûnî (AI) de, Modelên Zimanên Mezin (LLM) wekî kevirê bingehîn derketine holê, ku nûjenan dimeşîne û awayê ku em bi teknolojiyê re têkilî daynin ji nû ve şekil dikin.

Her ku ev model her ku diçe sofîstîke dibin, giraniyek mezin li ser demokratîkkirina gihîştina wan heye. Bi taybetî, modelên çavkaniya vekirî, di vê demokratîkbûnê de rolek bingehîn dileyzin, ji lêkolîner, pêşdebir û dilxwazan re fersendê peyda dikin ku di nav tevliheviyên xwe de kûr bigerin, wan ji bo karên taybetî xweş bikin, an jî tewra li ser bingehên xwe ava bikin.

Di vê blogê de, em ê hin LLM-yên çavkaniya vekirî yên top ên ku di civata AI-ê de pêlan çêdikin, bigerin, her yek hêz û kapasîteyên xwe yên bêhempa tîne ser sifrê.

1. Lama 2

Meta's Llama 2 ji rêzika modela wan a AI-ê pêvekek bingehîn e. Ev ne tenê modeleke din e; ew hatiye dîzaynkirin ku ji cûrbecûr sepanên herî nûjen bişewitîne. Daneyên perwerdehiya Llama 2 pirfireh û cihêreng e, ku ew li gorî pêşekên xwe pêşkeftinek girîng dike. Ev cihêrengiya perwerdehiyê piştrast dike ku Llama 2 ne tenê pêşkeftinek zêde ye, lê gavek berbiçav berbi pêşeroja danûstendinên AI-ê ve girêdayî ye.

Hevkariya di navbera Meta û Microsoft-ê de asoyên Llama 2 berfireh kiriye. Modela çavkaniya vekirî naha li ser platformên mîna Azure û Windows tê piştgirî kirin, armanc ew e ku ji pêşdebiran û rêxistinan re amûran peyda bike da ku ezmûnên hilberîner ên AI-ê biafirînin. Ev hevkarî dilsoziya her du pargîdaniyan destnîşan dike ku AI-ê ji her kesî re bigihînin û vekirîtir bikin.

Llama 2 ne tenê peykerê modela Llama ya orîjînal e; ew di qada chatbotê de guherînek paradîgmayê temsîl dike. Dema ku yekem modela Llama di hilberîna nivîs û kodê de şoreşger bû, hebûna wê sînorkirî bû ku pêşî li karanîna xelet bigire. Llama 2, ji hêla din ve, tê xwestin ku bigihîje temaşevanek berfireh. Ew ji bo platformên wekî AWS, Azure, û platforma mêvandariya modela AI-ê ya Hugging Face xweşbîn e. Digel vê yekê, bi hevkariya Meta bi Microsoft re, Llama 2 amade ye ku nîşana xwe ne tenê li ser Windows-ê lê di heman demê de li ser cîhazên ku ji hêla pergala-li-çîpê ya Snapdragon-a Qualcomm ve hatî hêzdar kirin jî bike.

Ewlehî di dilê sêwirana Llama 2 de ye. Naskirina dijwariyên ku bi modelên zimanên mezin ên berê yên mîna GPT re rû bi rû mane, yên ku carinan naverokek xapînok an zirardar hilberandine, Meta ji bo pêbaweriya Llama 2 tedbîrên berfireh girtiye. Modelê ji bo kêmkirina 'halusînasyonan', dezînformasyonan, û alîgiran perwerdehiyek hişk dîtiye.

Taybetmendiyên sereke yên LLaMa 2:

Daneyên Perwerdehiya Cihêreng: Daneyên perwerdehiya Llama 2 hem berfireh û hem jî cûrbecûr e, ku têgihîştin û performansek berbiçav peyda dike.
Hevkarî bi Microsoft re: Llama 2 li ser platformên wekî Azure û Windows-ê tê piştgirî kirin, qada serîlêdana xwe berfireh dike.
Hebûna Vekirî: Berevajî selefê xwe, Llama 2 ji bo temaşevanek firehtir heye, ji bo başkirina li ser gelek platforman amade ye.
Sêwirana Ewlehî-Navenda: Meta tekezî li ser ewlehiyê kir, piştrast kir ku Llama 2 encamên rast û pêbawer çêdike dema ku encamên zirardar kêm dike.
Guhertoyên Optimîzekirî: Llama 2 di du guhertoyên sereke de tê - Llama 2 û Llama 2-Chat, ku ya paşîn bi taybetî ji bo danûstendinên du-alî hatî çêkirin. Van guhertoyan di tevliheviyê de ji 7 mîlyar heta 70 mîlyar parametre diguhere.
Perwerdehiya Pêşkeftî: Llama 2 li ser du mîlyon nîşanan hate perwerde kirin, ku ji 1.4 trîlyon nîşaneyên Llama yên orîjînal zêdebûnek girîng e.

2. Bloom

Di sala 2022-an de, piştî hewildanek hevkariyek gerdûnî ya ku dilxwazên ji zêdetirî 70 welatan û pisporên Hugging Face beşdar dibin, projeya BLOOM hate eşkere kirin. Ev modela zimanê mezin (LLM), ku bi însiyatîfek salek dirêj ve hatî çêkirin, ji bo hilberîna nivîsê ya otoregressive hatî çêkirin, ku dikare bilezek nivîsê ya diyar dirêj bike. Ew li ser berhevokek girseyî ya daneyên nivîsê ku hêza hesabker a girîng bikar tîne hate perwerde kirin.

Destpêka BLOOM di çêkirina teknolojiya AI-ya hilberîner de gavek girîng bû. Wekî LLM-çavkaniyek vekirî, ew pesnê xwe dide 176 mîlyar parametre, ku ew di pola xwe de yek ji herî bi heybet e. BLOOM xwedan jêhatî ye ku di nav 46 zimanan û 13 zimanên bernamesaziyê de nivîsek hevgirtî û rast biafirîne.

Proje balê dikişîne ser şefafiyetê, rê dide ku gel bigihîje koda çavkaniyê û daneyên perwerdehiyê. Ev vekirî vekolîn, bikar anîn û pêşdebirina modela domdar vedixwîne.

Bi navgîniya platforma Hugging Face ve bê lêçûn tê gihîştin, BLOOM wekî şahidiyek nûbûnek hevkar a di AI-ê de radiweste.

Taybetmendiyên sereke yên Bloom:

Qabîliyetên pirzimanî: BLOOM di hilberîna nivîsê de bi 46 zimanan û 13 zimanên bernamesaziyê jêhatî ye, ku qada xweya zimanî ya berfireh nîşan dide.
Gihîştina Çavkaniya Vekirî: Koda çavkaniyê û daneyên perwerdehiyê yên modelê bi gelemperî berdest in, şefafîbûn û başkirina hevkariyê pêşve diçin.
Hilberîna Nivîsarên Xweserî: BLOOM ji bo domandina nivîsê ji bilezek diyar hatî sêwirandin, di dirêjkirin û temamkirina rêzikên nivîsê de bi pêş dikeve.
Hejmara Parametreyên Mezin: Bi 176 mîlyar parametre, BLOOM wekî yek ji hêzdartirîn LLM-yên çavkaniya vekirî ya heyî radiweste.
Hevkariya Gerdûnî: Di nav projeyek salek dirêj de bi beşdariyên dilxwazên li zêdetirî 70 welatan û lêkolînerên Hugging Face ve hatî pêşve xistin.
Gihîştina Belaş: Bikarhêner dikarin bi rêya ekosîstema Hugging Face belaş bigihîjin BLOOM û bikar bînin, di warê AI-ê de demokratîkbûna wê zêde bikin.
Perwerdehiya Pîşesaziya Pîşesaziyê: Model li ser mîqdarên mezin ên daneya nivîsê bi karanîna çavkaniyên hesabker ên girîng hate perwerde kirin, ku performansa zexm peyda dike.

3. MPT-7B

Weqfên MosaicML bi danasîna MPT-7B, LLM-ya xweya çavkaniya vekirî ya herî paşîn, tevkariyek girîng li vê cîhê kiriye. MPT-7B, akronîmek ji bo MosaicML Pretrained Transformer, modelek veguherînerek bi şêwaza GPT-ê ye, ku tenê dekoder e. Ev model bi gelek pêşkeftinan re pesnê xwe dide, di nav de sepandinên qat-optimîzekirî û guheztinên mîmarî yên ku aramiya perwerdehiyê ya mezintir peyda dike.

Taybetmendiyek berbiçav a MPT-7B perwerdehiya wê ya li ser databasek berfireh e ku ji 1 trîlyon nîşanek nivîs û kodê pêk tê. Ev perwerdehiya hişk li ser platforma MosaicML di navberek 9.5 rojan de hate darve kirin.

Xwezaya çavkaniya vekirî ya MPT-7B wê wekî amûrek hêja ji bo serîlêdanên bazirganî cih digire. Ew xwedan potansiyel e ku bandorek girîng li analîtîkên pêşbînker û pêvajoyên biryardanê yên karsaz û rêxistinan bike.

Digel modela bingehîn, Weqfa MosaicML di heman demê de modelên pispor ên ku ji bo peywirên taybetî hatine çêkirin jî derdixe, wek MPT-7B-Instruct ji bo rêwerzên kurt-forma jêrîn, MPT-7B-Chat ji bo afirandina diyalogê, û MPT-7B-StoryWriter-65k+. ji bo afirandina çîrokek dirêj.

Rêwîtiya pêşkeftinê ya MPT-7B berfireh bû, digel ku tîmê MosaicML di nav çend hefteyan de hemî qonaxên ji amadekirina daneyê heya birêkûpêkkirinê birêve dibe. Daneyên ji depoyên cihêreng hatine peyda kirin, û tîmê amûrên mîna EleutherAI's GPT-NeoX û tokenizatorê 20B bikar anîn da ku tevliheviyek perwerdehiya cihêreng û berfireh peyda bike.

Taybetmendiyên sereke Pêşniyara MPT-7B:

Destûrdana Bazirganî: MPT-7B ji bo karanîna bazirganî destûrdar e, ku ew ji bo karsaziyan sermayek hêja ye.
Daneyên Perwerdehiya Berfireh: Model bi perwerdehiya li ser danûstendinek berfireh a 1 trîlyon nîşanan pesnê xwe dide.
Desthilatdariya Ketina Dirêj: MPT-7B hatiye dîzaynkirin ku pêvedanên pir dirêj bêyî tawîz bide.
Lez û karîgerî: Model ji bo perwerdehiya bilez û encamgirtinê xweşbîn e, ku encamên biwext peyda dike.
Koda Çavkaniya Vekirî: MPT-7B bi kodek perwerdehiya çavkaniya vekirî ya bikêrhatî tê, şefafî û karanîna hêsan pêşve dike.
Kêmasiya Berawirdî: MPT-7B di rêza 7B-20B de, bi qalîteya xwe ya LLaMA-7B re li gorî modelên din ên çavkaniya vekirî serdestiya xwe nîşan daye.

4. Teyrê baz

Falcon LLM, modelek e ku bi lez derketiye serê hiyerarşiya LLM. Falcon LLM, bi taybetî Falcon-40B, LLMek bingehîn e ku bi 40 mîlyar pîvanan ve hatî çêkirin û li ser trîlyonek nîşanek berbiçav hatî perwerde kirin. Ew wekî modelek tenê-dekoder-a xwe-regressive tevdigere, ku bi bingehîn tê vê wateyê ku ew nîşana paşîn bi rêzek li ser bingeha nîgarên pêşîn pêşbînî dike. Ev mîmarî modela GPT tîne bîra xwe. Nemaze, mîmariya Falcon ji GPT-3 re performansa bilindtir destnîşan kiriye, ku bi tenê 75% ji budceya hesabkirina perwerdehiyê bi dest xistiye û di dema encamdanê de hesabek girîng kêmtir hewce dike.

Tîma li Enstîtuya Nûjeniya Teknolojiyê di dema pêşkeftina Falcon de giraniyek xurt da ser kalîteya daneyê. Naskirina hesasiyeta LLM-an ji qalîteya daneya perwerdehiyê re, wan boriyek daneyê ku bi deh hezaran navên CPU-yê ve girêdayî ye ava kirin. Vê yekê hişt ku pêvajoyek bilez û derxistina naverokek kalîteya bilind ji tevneyê, ku bi pêvajoyên fîlterkirin û depokirina berfireh ve hatî bidestxistin.

Ji bilî Falcon-40B, TII guhertoyên din jî pêşkêş kir, di nav de Falcon-7B, ku xwedan 7 mîlyar parametre û li ser 1,500 mîlyar nîşanan hatine perwerde kirin. Di heman demê de modelên pispor ên mîna Falcon-40B-Instruct û Falcon-7B-Instruct jî hene, ku ji bo karên taybetî hatine çêkirin.

Perwerdehiya Falcon-40B pêvajoyek berfireh bû. Model li ser databasa RefinedWeb, danûstendinek weba îngilîzî ya girseyî ya ku ji hêla TII ve hatî çêkirin, hate perwerde kirin. Vê databasê li ser CommonCrawl-ê hate çêkirin û ji bo ku kalîteyê misoger bike di binê fîlterkirinek hişk de bû. Dema ku model hate amadekirin, ew li dijî gelek pîvanên çavkaniya vekirî, di nav de EAI Harness, HELM, û BigBench, hate pejirandin.

Taybetmendiyên sereke Pêşniyara Falcon LLM:

Parametreyên Berfireh: Falcon-40B bi 40 mîlyar parametreyan ve tê stend, fêrbûn û performansa berfireh peyda dike.
Modela Tenê Dekoder-Otoregressive: Ev mîmarî destûrê dide Falcon ku nîşanekên paşîn li ser bingeha yên berê, mîna modela GPT, pêşbîn bike.
Performansa Bilind: Falcon ji GPT-3 derdixe dema ku tenê 75% ji budceya hesabkirina perwerdehiyê bikar tîne.
Xeta Daneyên Kalîteya Bilind: Xeta daneya TII derxistina naveroka kalîteya bilind ji tevneyê piştrast dike, ku ji bo perwerdehiya modelê girîng e.
Cûreyên Model: Ji bilî Falcon-40B, TII Falcon-7B û modelên pispor ên mîna Falcon-40B-Instruct û Falcon-7B-Instruct pêşkêşî dike.
Hebûna Çavkaniya Vekirî: Falcon LLM-çavkaniyek vekirî ye, di qada AI-ê de gihîştin û tevlêbûnê pêşve dike.

5. Vicuna-13B

LMSYS ORG bi danasîna Vicuna-13B di warê LLM-yên çavkaniya vekirî de nîşanek girîng çêkir. Vê chatbotê-çavkaniya vekirî bi hûrgulî ji hêla LLaMA ve li ser danûstendinên parvekirî yên bikarhêner ên ku ji ShareGPT-ê hatine peyda kirin ve hatî perwerde kirin. Nirxandinên pêşîn, digel ku GPT-4 wekî dadger tevdigere, destnîşan dike ku Vicuna-13B ji% 90 zêdetir kalîteya modelên navdar ên mîna OpenAI ChatGPT û Google Bard bi dest dixe.

Bi heybet, Vicuna-13B di zêdetirî 90% bûyeran de ji modelên din ên girîng ên wekî LLaMA û Stanford Alpaca derdixe. Tevahiya pêvajoya perwerdehiyê ji bo Vicuna-13B bi lêçûnek bi qasî 300 $ hate darve kirin. Ji bo kesên ku bala xwe didin vekolîna kapasîteyên wê, kod, giranî û demoyek serhêl ji bo mebestên ne-bazirganî bi gelemperî hatine peyda kirin.

Modela Vicuna-13B bi 70K danûstendinên ChatGPT-ê yên parvekirî yên bikarhêner ve hatî xweş kirin, ku dihêle ku ew bersivên berfirehtir û birêkûpêk biafirîne. Qalîteya van bersivan bi ChatGPT re hevber e. Lêbelê, nirxandina chatbots hewldanek tevlihev e. Digel pêşkeftinên di GPT-4 de, meraqek mezin li ser potansiyela wê heye ku wekî çarçoveyek nirxandina otomatîkî ya ji bo hilberîna pîvan û nirxandinên performansê bixebite. Encamên destpêkê destnîşan dikin ku GPT-4 dema ku bersivên chatbot berhev dike dikare rêzên domdar û nirxandinên hûrgulî çêbike. Nirxandinên pêşîn ên li ser bingeha GPT-4 destnîşan dikin ku Vicuna% 90 kapasîteya modelên mîna Bard / ChatGPT bi dest dixe.

Vebijêrk Taybetmendiyên Serekî yên Vicuna-13B:

Xwezaya Çavkaniya Vekirî: Vicuna-13B ji bo gihîştina gelemperî heye, zelalbûn û tevlêbûna civakê pêşve dike.
Daneyên Perwerdehiya Berfireh: Model li ser 70K danûstendinên bikarhêner-parvekirî hatî perwerde kirin, ku têgihiştinek berfireh a danûstendinên cihêreng peyda dike.
Performansa Pêşbaziyê: Performansa Vicuna-13B bi rêberên pîşesaziyê yên wekî ChatGPT û Google Bard re li hev e.
Perwerdehiya Biha-Efektîv: Tevahiya pêvajoya perwerdehiyê ji bo Vicuna-13B bi lêçûnek kêm a li dora 300 $ hate darve kirin.
Bişkojka li ser LLaMA: Modela li ser LLaMA-yê xweş hatîye rêz kirin, ku performansa pêşkeftî û kalîteya bersivê misoger dike.
Hebûna Demoya Serhêl: Demonsek serhêl a înteraktîf ji bo bikarhêneran heye ku ceribandin û ceribandina kapasîteyên Vicuna-13B bikin.

Qada Berfirehbûna Modelên Zimanên Mezin

Qada Modelên Zimanên Mezin berfireh e û her ku diçe berfireh dibe, digel ku her modelek nû sînorên ku mimkun e derdixe pêş. Xwezaya çavkaniya vekirî ya LLM-yên ku di vê blogê de têne nîqaş kirin ne tenê ruhê hevkariyê yê civaka AI-ê destnîşan dike lê di heman demê de rê li ber nûbûnên pêşerojê vedike.

Van modelan, ji kapasîteyên balkêş ên chatbotê yên Vicuna heya metrîkên performansa bilind ên Falcon, lûtkeya teknolojiya LLM ya heyî temsîl dikin. Gava ku em di vî warî de şahidiya pêşkeftinên bilez dikin, diyar e ku modelên çavkaniya vekirî dê di şekildana pêşeroja AI-ê de rolek girîng bilîzin.

Çi hûn lêkolînerek demsalî bin, çi dilxwazek AI-ê ya nûjen bin, an jî kesek meraqa potansiyela van modelan be, wextek çêtir tune ku hûn tê de bin û li îmkanên berfireh ên ku ew pêşkêş dikin vekolin.