stubs 5 labākie atvērtā pirmkoda LLM (2024. gada maijs) — Unite.AI
Savienoties ar mums
Masīvs ( [ID] => 1 [lietotāja_vārds] => Antuāns [lietotāja_uzvārds] => Tardifs [segvārds] => Antuāns Tardifs [lietotāja_nosaukums] => administrators [displeja_nosaukums] => Antuāns Tardifs [lietotāja_e-pasts] => [e-pasts aizsargāts]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Unite.AI dibinātājs un organizācijas biedrs Forbes tehnoloģiju padome, Antuāns ir a futūrists kurš aizraujas ar AI un robotikas nākotni. Viņš ir arī dibinātājs Vērtspapīri.io, vietne, kas koncentrējas uz ieguldījumiem traucējošās tehnoloģijās. [lietotāja_avatars] => mm
)

Best Of

5 labākie atvērtā pirmkoda LLM (2024. gada maijs)

Atjaunināts on
Atvērtā pirmkoda LLM

Strauji mainīgajā mākslīgā intelekta (AI) pasaulē lielās valodas modeļi (LLM) ir kļuvuši par stūrakmeni, kas virza inovācijas un pārveido veidu, kā mēs mijiedarbojamies ar tehnoloģijām.

Šiem modeļiem kļūstot arvien sarežģītākiem, arvien vairāk tiek likts uzsvars uz piekļuves tiem demokratizāciju. Jo īpaši atvērtā pirmkoda modeļiem ir galvenā loma šajā demokratizācijā, piedāvājot gan pētniekiem, gan izstrādātājiem, gan entuziastiem iespēju dziļi iedziļināties to sarežģītībā, pielāgot tos konkrētiem uzdevumiem vai pat balstīties uz to pamatiem.

Šajā emuārā mēs izpētīsim dažus no populārākajiem atvērtā pirmkoda LLM, kas rada viļņus AI kopienā, un katrs no tiem piedāvā savas unikālās stiprās puses un iespējas.

1. Lama 2

Meta's Llama 2 ir revolucionārs papildinājums viņu AI modeļu klāstam. Šis nav tikai vēl viens modelis; tas ir paredzēts, lai nodrošinātu virkni vismodernāko lietojumu. Llama 2 apmācības dati ir plaši un daudzveidīgi, padarot to par ievērojamu progresu salīdzinājumā ar tā priekšgājēju. Šī apmācības dažādība nodrošina, ka Llama 2 ir ne tikai pakāpenisks uzlabojums, bet arī ievērojams solis ceļā uz AI virzītas mijiedarbības nākotni.

Sadarbība starp Meta un Microsoft ir paplašinājusi Llama 2 iespējas. Atvērtā pirmkoda modelis tagad tiek atbalstīts tādās platformās kā Azure un Windows, lai izstrādātājiem un organizācijām nodrošinātu rīkus ģeneratīvas AI vadītas pieredzes radīšanai. Šī partnerība uzsver abu uzņēmumu centību padarīt AI pieejamāku un atvērtāku visiem.

Llama 2 nav tikai oriģinālā Llama modeļa pēctecis; tas atspoguļo paradigmas maiņu chatbot arēnā. Lai gan pirmais Llama modelis bija revolucionārs teksta un koda ģenerēšanā, tā pieejamība bija ierobežota, lai novērstu ļaunprātīgu izmantošanu. Savukārt Lama 2 ir paredzēts, lai sasniegtu plašāku auditoriju. Tas ir optimizēts tādām platformām kā AWS, Azure un Hugging Face AI modeļa mitināšanas platforma. Turklāt ar Meta sadarbību ar Microsoft, Llama 2 ir gatava atstāt savu zīmi ne tikai operētājsistēmā Windows, bet arī ierīcēs, kuras darbina Qualcomm Snapdragon sistēma mikroshēmā.

Drošība ir Llama 2 dizaina pamatā. Atzīstot problēmas, ar kurām saskārās agrākie lielie valodu modeļi, piemēram, GPT, kas dažkārt radīja maldinošu vai kaitīgu saturu, Meta ir veikusi plašus pasākumus, lai nodrošinātu Llama 2 uzticamību. Modelis ir rūpīgi apmācīts, lai samazinātu "halucinācijas", dezinformāciju un aizspriedumus.

Galvenās LLAMa 2 funkcijas:

  • Dažādi apmācības dati: Llama 2 apmācības dati ir gan plaši, gan daudzveidīgi, nodrošinot visaptverošu izpratni un veiktspēju.
  • Sadarbība ar Microsoft: Llama 2 tiek atbalstīts tādās platformās kā Azure un Windows, paplašinot tā lietojumprogrammu jomu.
  • Atvērtā pieejamība: Atšķirībā no tā priekšgājēja, Llama 2 ir pieejams plašākai auditorijai un ir gatavs precizēšanai vairākās platformās.
  • Uz drošību vērsts dizains: Meta ir uzsvērusi drošību, nodrošinot, ka Llama 2 rada precīzus un uzticamus rezultātus, vienlaikus samazinot kaitīgos rezultātus.
  • Optimizētās versijas: Llama 2 ir pieejams divās galvenajās versijās – Llama 2 un Llama 2-Chat, un pēdējā ir īpaši paredzēta divvirzienu sarunām. Šo versiju sarežģītība ir no 7 līdz 70 miljardiem parametru.
  • Uzlabota apmācība: Llama 2 tika apmācīts, izmantojot divus miljonus žetonu, kas ir ievērojams pieaugums salīdzinājumā ar sākotnējiem Lamas 1.4 triljoniem žetonu.

2. uzziedēt

2022. gadā pēc globālas sadarbības, kurā bija iesaistīti brīvprātīgie no vairāk nekā 70 valstīm un Hugging Face eksperti, tika atklāts projekts BLOOM. Šis lielais valodas modelis (LLM), kas izveidots gadu ilgas iniciatīvas rezultātā, ir paredzēts autoregresīvai teksta ģenerēšanai, kas spēj paplašināt noteiktu teksta uzvedni. Tas tika apmācīts, izmantojot milzīgu teksta datu korpusu, izmantojot ievērojamu skaitļošanas jaudu.

BLOOM debija bija nozīmīgs solis, lai padarītu ģeneratīvo AI tehnoloģiju pieejamāku. Kā atvērtā koda LLM tas lepojas ar 176 miljardiem parametru, padarot to par vienu no iespaidīgākajiem savā klasē. BLOOM ir prasme ģenerēt saskaņotu un precīzu tekstu 46 valodās un 13 programmēšanas valodās.

Projekts uzsver caurskatāmību, ļaujot sabiedrībai piekļūt tā pirmkodam un apmācību datiem. Šī atvērtība aicina nepārtraukti pārbaudīt, izmantot un uzlabot modeli.

BLOOM, kas ir pieejams bez maksas, izmantojot Hugging Face platformu, ir apliecinājums sadarbības inovācijām mākslīgā intelekta jomā.

Galvenās Bloom iezīmes:

  • Daudzvalodu iespējas: BLOOM prot ģenerēt tekstu 46 valodās un 13 programmēšanas valodās, demonstrējot savu plašo valodu diapazonu.
  • Atvērtā pirmkoda piekļuve: Modeļa pirmkods un apmācības dati ir publiski pieejami, veicinot pārredzamību un sadarbības uzlabošanu.
  • Autoregresīvā teksta ģenerēšana: Paredzēts teksta turpināšanai no dotās uzvednes, BLOOM ir izcils teksta secību paplašināšanā un pabeigšanā.
  • Lielais parametru skaits: Ar 176 miljardiem parametru BLOOM ir viens no jaudīgākajiem atvērtā pirmkoda LLM.
  • Globālā sadarbība: Izstrādāts, izmantojot gadu ilgu projektu, kurā piedalījās brīvprātīgie no vairāk nekā 70 valstīm un Hugging Face pētnieki.
  • Bezmaksas pieejamība: Lietotāji var bez maksas piekļūt un izmantot BLOOM, izmantojot Hugging Face ekosistēmu, uzlabojot tās demokratizāciju AI jomā.
  • Rūpnieciskā mēroga apmācība: Modelis tika apmācīts, izmantojot lielus teksta datu apjomus, izmantojot ievērojamus skaitļošanas resursus, nodrošinot stabilu veiktspēju.

3. MPT-7B

MosaicML Foundations ir devis nozīmīgu ieguldījumu šajā telpā, ieviešot MPT-7B, savu jaunāko atvērtā pirmkoda LLM. MPT-7B, akronīms vārdam MosaicML Pretrained Transformer, ir GPT stila transformatora modelis, kas paredzēts tikai dekodētājam. Šis modelis lepojas ar vairākiem uzlabojumiem, tostarp veiktspējai optimizētu slāņu ieviešanu un arhitektūras izmaiņām, kas nodrošina lielāku treniņu stabilitāti.

MPT-7B izcila iezīme ir tā apmācība par plašu datu kopu, kas ietver 1 triljonu teksta un koda marķieru. Šī stingrā apmācība tika veikta MosaicML platformā 9.5 dienu laikā.

MPT-7B atvērtā koda raksturs padara to par vērtīgu rīku komerciāliem lietojumiem. Tam ir potenciāls būtiski ietekmēt prognozējošo analīzi un uzņēmumu un organizāciju lēmumu pieņemšanas procesus.

Papildus bāzes modelim MosaicML Foundations izlaiž arī specializētus modeļus, kas pielāgoti konkrētiem uzdevumiem, piemēram, MPT-7B-Instruct īsas formas norādījumu izpildei, MPT-7B-Chat dialoga ģenerēšanai un MPT-7B-StoryWriter-65k+. garas formas stāsta veidošanai.

MPT-7B izstrādes ceļš bija visaptverošs, MosaicML komandai pārvaldot visus posmus no datu sagatavošanas līdz izvietošanai dažu nedēļu laikā. Dati tika iegūti no dažādām krātuvēm, un komanda izmantoja tādus rīkus kā EleutherAI GPT-NeoX un 20B marķieri, lai nodrošinātu daudzveidīgu un visaptverošu apmācību kombināciju.

MPT-7B galveno funkciju pārskats:

  • Komerciāla licencēšana: MPT-7B ir licencēts komerciālai lietošanai, padarot to par vērtīgu aktīvu uzņēmumiem.
  • Plaši apmācību dati: Modelis lepojas ar apmācību par plašo datu kopu ar 1 triljonu marķieru.
  • Garās ievades apstrāde: MPT-7B ir paredzēts ārkārtīgi garu ievades datu apstrādei bez kompromisiem.
  • Ātrums un efektivitāte: Modelis ir optimizēts ātrai apmācībai un secinājumu veikšanai, nodrošinot savlaicīgus rezultātus.
  • Atvērtā pirmkoda kods: MPT-7B ir aprīkots ar efektīvu atvērtā koda apmācības kodu, kas veicina caurspīdīgumu un ērtu lietošanu.
  • Salīdzinošā izcilība: MPT-7B ir demonstrējis pārākumu pār citiem atvērtā pirmkoda modeļiem 7B-20B diapazonā, un tā kvalitāte atbilst LLaMA-7B kvalitātei.

4. Piekūns

Falcon LLM ir modelis, kas strauji uzkāpis LLM hierarhijas augšgalā. Falcon LLM, īpaši Falcon-40B, ir pamata LLM, kas aprīkots ar 40 miljardiem parametru un ir apmācīts, izmantojot iespaidīgu vienu triljonu žetonu. Tas darbojas kā tikai autoregresīvs dekodētāja modelis, kas būtībā nozīmē, ka tas prognozē nākamo marķieri secībā, pamatojoties uz iepriekšējiem marķieriem. Šī arhitektūra atgādina GPT modeli. Jāatzīmē, ka Falcon arhitektūra ir demonstrējusi izcilu veiktspēju salīdzinājumā ar GPT-3, panākot šo varoņdarbu tikai ar 75% no apmācības aprēķina budžeta, un secinājumu veikšanas laikā ir nepieciešams ievērojami mazāk aprēķinu.

Tehnoloģiju inovāciju institūta komanda Falcon izstrādes laikā lielu uzsvaru uzsvēra uz datu kvalitāti. Atzīstot LLM jutīgumu pret apmācības datu kvalitāti, viņi izveidoja datu cauruļvadu, kas tika mērogots līdz desmitiem tūkstošu CPU kodolu. Tas ļāva ātri apstrādāt un iegūt augstas kvalitātes saturu no tīmekļa, kas tika panākts, izmantojot plašus filtrēšanas un dublēšanas procesus.

Papildus Falcon-40B TII ir ieviesis arī citas versijas, tostarp Falcon-7B, kam ir 7 miljardi parametru un kas ir apmācīts par 1,500 miljardiem marķieru. Ir arī specializēti modeļi, piemēram, Falcon-40B-Instruct un Falcon-7B-Instruct, kas pielāgoti konkrētiem uzdevumiem.

Apmācība Falcon-40B bija apjomīgs process. Modelis tika apmācīts, izmantojot RefinedWeb datu kopu, masīvu angļu tīmekļa datu kopu, ko izveidoja TII. Šī datu kopa tika izveidota, izmantojot CommonCrawl, un tai tika veikta stingra filtrēšana, lai nodrošinātu kvalitāti. Kad modelis bija sagatavots, tas tika apstiprināts, salīdzinot ar vairākiem atvērtā pirmkoda etaloniem, tostarp EAI Harness, HELM un BigBench.

Falcon LLM galveno funkciju pārskats:

  • Plaši parametri: Falcon-40B ir aprīkots ar 40 miljardiem parametru, nodrošinot visaptverošu mācīšanos un veiktspēju.
  • Autoregresīvais tikai dekodētāja modelis: Šī arhitektūra ļauj Falcon paredzēt turpmākos marķierus, pamatojoties uz iepriekšējiem, līdzīgi kā GPT modelim.
  • Izcila veiktspēja: Falcon pārspēj GPT-3, vienlaikus izmantojot tikai 75% no apmācības aprēķina budžeta.
  • Augstas kvalitātes datu cauruļvads: TII datu cauruļvads nodrošina augstas kvalitātes satura ieguvi no tīmekļa, kas ir ļoti svarīgs modeļa apmācībai.
  • Modeļu dažādība: Papildus Falcon-40B TII piedāvā Falcon-7B un specializētus modeļus, piemēram, Falcon-40B-Instruct un Falcon-7B-Instruct.
  • Atvērtā pirmkoda pieejamība: Falcon LLM ir atvērts avots, veicinot pieejamību un iekļautību AI domēnā.

5. Vicuna-13B

Ieviešot Vicuna-13B, LMSYS ORG ir ieguvis ievērojamu zīmi atvērtā pirmkoda LLM jomā. Šis atvērtā pirmkoda tērzēšanas robots ir rūpīgi apmācīts, LLaMA precizējot lietotāju koplietotās sarunas, kas iegūtas no ShareGPT. Sākotnējie novērtējumi, kad GPT-4 darbojas kā tiesnesis, liecina, ka Vicuna-13B sasniedz vairāk nekā 90% tādu slavenu modeļu kā OpenAI ChatGPT un Google Bard kvalitāti.

Iespaidīgi Vicuna-13B vairāk nekā 90% gadījumu pārspēj citus ievērojamus modeļus, piemēram, LLaMA un Stanford Alpaca. Viss Vicuna-13B apmācības process tika veikts, maksājot aptuveni 300 USD. Tiem, kas interesējas par tā iespēju izpēti, kods, svari un tiešsaistes demonstrācija ir publiski pieejami nekomerciāliem nolūkiem.

Vicuna-13B modelis ir precīzi noregulēts ar 70 4 lietotāju koplietotām ChatGPT sarunām, ļaujot tam ģenerēt detalizētākas un labi strukturētas atbildes. Šo atbilžu kvalitāte ir salīdzināma ar ChatGPT. Tomēr tērzēšanas robotu novērtēšana ir sarežģīts darbs. Līdz ar GPT-4 sasniegumiem pieaug interese par tā potenciālu kalpot kā automatizēta novērtēšanas sistēma etalonu ģenerēšanai un veiktspējas novērtējumiem. Sākotnējie atklājumi liecina, ka, salīdzinot tērzēšanas robotu atbildes, GPT-4 var nodrošināt konsekventus rangus un detalizētus novērtējumus. Sākotnējie novērtējumi, kuru pamatā ir GPT-90, liecina, ka Vicuna sasniedz XNUMX% tādu modeļu iespējas kā Bard/ChatGPT.

Vicuna-13B galveno funkciju pārskats:

  • Atvērtā pirmkoda daba: Vicuna-13B ir pieejams publiskai piekļuvei, veicinot pārredzamību un sabiedrības iesaistīšanos.
  • Plaši apmācību dati: Modelis ir apmācīts 70 XNUMX lietotāju koplietotām sarunām, nodrošinot visaptverošu izpratni par dažādām mijiedarbībām.
  • Konkurētspējīgs sniegums: Vicuna-13B veiktspēja ir līdzvērtīga nozares līderiem, piemēram, ChatGPT un Google Bard.
  • Rentablas apmācības: Viss Vicuna-13B apmācības process tika veikts ar zemām izmaksām, aptuveni 300 USD.
  • LLaMA precizēšana: Modelis ir precīzi noregulēts uz LLaMA, nodrošinot uzlabotu veiktspēju un reakcijas kvalitāti.
  • Tiešsaistes demonstrācijas pieejamība: Lietotājiem ir pieejama interaktīva tiešsaistes demonstrācija, lai pārbaudītu un izjustu Vicuna-13B iespējas.

Lielo valodu modeļu paplašināšanās

Lielo valodu modeļu sfēra ir plaša un nepārtraukti paplašinās, un katrs jauns modelis pārvērš iespējamās robežas. Šajā emuārā apspriestais LLM atvērtā pirmkoda raksturs ne tikai parāda AI kopienas sadarbības garu, bet arī paver ceļu nākotnes inovācijām.

Šie modeļi, sākot no Vicuna iespaidīgajām tērzēšanas robotu iespējām un beidzot ar Falcon izcilajiem veiktspējas rādītājiem, ir pašreizējās LLM tehnoloģijas virsotne. Tā kā mēs turpinām vērot strauju progresu šajā jomā, ir skaidrs, ka atvērtā pirmkoda modeļiem būs izšķiroša nozīme AI nākotnes veidošanā.

Neatkarīgi no tā, vai esat pieredzējis pētnieks, topošs AI entuziasts vai kāds, kurš interesējas par šo modeļu potenciālu, nav labāka laika, lai ienirt un izpētītu to piedāvātās plašās iespējas.

Alekss Makfārlends ir AI žurnālists un rakstnieks, kurš pēta jaunākos sasniegumus mākslīgā intelekta jomā. Viņš ir sadarbojies ar daudziem AI jaunizveidotiem uzņēmumiem un publikācijām visā pasaulē.

Unite.AI dibinātājs un biedrs Forbes tehnoloģiju padome, Antuāns ir a futūrists kurš aizraujas ar AI un robotikas nākotni.

Viņš ir arī dibinātājs Vērtspapīri.io, vietne, kas koncentrējas uz ieguldījumiem traucējošās tehnoloģijās.