Geriausi

5 geriausi atvirojo kodo LLM (2024 m. gegužės mėn.)

Atnaujinta on Gali 1, 2024

Aleksas MakFarlandas ir Antuanas Tardifas

Sparčiai besivystančiame dirbtinio intelekto (DI) pasaulyje didelių kalbų modeliai (LLM) tapo kertiniu akmeniu, skatinančiu naujoves ir keičiančius mūsų sąveiką su technologijomis.

Kadangi šie modeliai tampa vis sudėtingesni, vis daugiau dėmesio skiriama prieigos prie jų demokratizavimui. Atvirojo kodo modeliai ypač vaidina pagrindinį vaidmenį šioje demokratizacijoje, siūlydami tyrėjams, kūrėjams ir entuziastams galimybę gilintis į savo sudėtingumą, suderinti juos konkrečioms užduotims atlikti ar net remtis jų pagrindais.

Šiame tinklaraštyje išnagrinėsime kai kuriuos populiariausius atvirojo kodo LLM, kurie kelia bangas AI bendruomenėje, ir kiekvienas iš jų pateikia savo unikalias stipriąsias puses ir galimybes.

1. Lama 2

„Meta's Llama 2“ yra novatoriškas jų AI modelių asortimento papildymas. Tai ne tik dar vienas modelis; jis sukurtas taip, kad padėtų įvairioms moderniausioms programoms. „Llama 2“ treniruočių duomenys yra dideli ir įvairūs, todėl tai yra reikšminga pažanga, palyginti su pirmtaku. Ši mokymo įvairovė užtikrina, kad „Llama 2“ yra ne tik laipsniškas patobulinimas, bet ir didžiulis žingsnis į DI pagrįstos sąveikos ateitį.

„Meta“ ir „Microsoft“ bendradarbiavimas išplėtė „Llama 2“ akiratį. Atvirojo kodo modelis dabar palaikomas tokiose platformose kaip „Azure“ ir „Windows“, siekiant suteikti kūrėjams ir organizacijoms įrankius, leidžiančius kurti generatyvią dirbtinio intelekto patirtį. Ši partnerystė pabrėžia abiejų įmonių pasišventimą, kad dirbtinis intelektas būtų prieinamesnis ir atviresnis visiems.

„Llama 2“ yra ne tik originalaus modelio „Llama“ įpėdinis; tai rodo paradigmos pokytį pokalbių robotų arenoje. Nors pirmasis „Llama“ modelis buvo revoliucinis teksto ir kodo generavimo srityje, jo prieinamumas buvo ribotas, kad būtų išvengta netinkamo naudojimo. Kita vertus, „Llama 2“ turėtų pasiekti platesnę auditoriją. Jis optimizuotas tokioms platformoms kaip AWS, Azure ir Hugging Face AI modelio prieglobos platforma. Be to, „Meta“ bendradarbiaujant su „Microsoft“, „Llama 2“ yra pasirengusi padaryti savo ženklą ne tik „Windows“, bet ir įrenginiuose, kuriuos maitina „Qualcomm“ „Snapdragon“ sistema.

Saugumas yra „Llama 2“ dizaino pagrindas. Pripažindama iššūkius, su kuriais susidūrė ankstesni dideli kalbų modeliai, tokie kaip GPT, kurie kartais kurdavo klaidinantį ar žalingą turinį, „Meta“ ėmėsi plačių priemonių, kad užtikrintų „Llama 2“ patikimumą. Modelis buvo kruopščiai apmokytas, siekiant sumažinti „haliucinacijas“, dezinformaciją ir šališkumą.

Pagrindinės LLAMa 2 savybės:

Įvairūs mokymo duomenys: „Llama 2“ treniruočių duomenys yra platūs ir įvairūs, užtikrinantys visapusišką supratimą ir našumą.
Bendradarbiavimas su Microsoft: „Llama 2“ palaikoma tokiose platformose kaip „Azure“ ir „Windows“, todėl jos taikymo sritis išplečiama.
Atviras prieinamumas: Skirtingai nei jo pirmtakas, „Llama 2“ yra prieinamas platesnei auditorijai, paruoštas koreguoti keliose platformose.
Į saugą orientuotas dizainas: „Meta“ akcentavo saugumą, užtikrindama, kad „Llama 2“ duotų tikslius ir patikimus rezultatus, tuo pačiu sumažindama žalingus rezultatus.
Optimizuotos versijos: „Llama 2“ yra dviejų pagrindinių versijų – „Llama 2“ ir „Llama 2-Chat“, o pastaroji yra specialiai sukurta abipusiams pokalbiams. Šių versijų sudėtingumas svyruoja nuo 7 iki 70 milijardų parametrų.
Patobulintas mokymas: „Llama 2“ buvo išmokyta naudoti du milijonus žetonų, ty žymiai daugiau nei pirminiai „Llama“ 1.4 trilijonai žetonų.

2. Žydėti

2022 m. po pasaulinio bendradarbiavimo, kuriame dalyvavo savanoriai iš daugiau nei 70 šalių ir Hugging Face ekspertai, BLOOM projektas buvo pristatytas. Šis didelis kalbos modelis (LLM), sukurtas per metus trunkančią iniciatyvą, yra skirtas autoregresyviam teksto generavimui, galintis išplėsti nurodytą teksto raginimą. Jis buvo apmokytas naudojant didžiulį tekstinių duomenų korpusą, naudojant didelę skaičiavimo galią.

BLOOM debiutas buvo svarbus žingsnis siekiant padaryti generatyviąją AI technologiją prieinamesnę. Kaip atvirojo kodo LLM, jis gali pasigirti 176 milijardais parametrų, todėl jis yra vienas didžiausių savo klasėje. BLOOM geba generuoti nuoseklų ir tikslų tekstą 46 kalbomis ir 13 programavimo kalbų.

Projekte pabrėžiamas skaidrumas, leidžiantis visuomenei prieiti prie šaltinio kodo ir mokymo duomenų. Šis atvirumas skatina nuolatinį modelio tyrimą, panaudojimą ir tobulinimą.

Nemokamai pasiekiama per Hugging Face platformą, BLOOM yra bendradarbiavimo naujovių DI įrodymas.

Pagrindinės „Bloom“ savybės:

Daugiakalbės galimybės: BLOOM yra įgudęs kurti tekstą 46 kalbomis ir 13 programavimo kalbų, parodydamas savo platų kalbų spektrą.
Atvirojo kodo prieiga: Modelio šaltinio kodas ir mokymo duomenys yra viešai prieinami, skatinant skaidrumą ir tobulinimą bendradarbiaujant.
Autoregresyvus teksto generavimas: Sukurta tęsti tekstą iš nurodyto raginimo, BLOOM puikiai išplečia ir užbaigia teksto sekas.
Didelis parametrų skaičius: Su 176 milijardais parametrų BLOOM yra viena iš galingiausių atvirojo kodo LLM.
Pasaulinis bendradarbiavimas: Sukurta per metus trunkantį projektą, kuriame prisidėjo savanoriai iš daugiau nei 70 šalių ir Hugging Face tyrinėtojai.
Nemokamas prieinamumas: Vartotojai gali nemokamai pasiekti ir naudoti BLOOM per Hugging Face ekosistemą, sustiprindami jos demokratizaciją dirbtinio intelekto srityje.
Pramoninio masto mokymas: Modelis buvo apmokytas naudojant didžiulius tekstinių duomenų kiekius, naudojant didelius skaičiavimo išteklius, užtikrinant tvirtą našumą.

3. MPT-7B

MosaicML Foundations svariai prisidėjo prie šios erdvės pristatydama MPT-7B, savo naujausią atvirojo kodo LLM. MPT-7B, MosaicML Pretrained Transformer akronimas, yra GPT stiliaus, tik dekoderio transformatoriaus modelis. Šis modelis gali pasigirti keliais patobulinimais, įskaitant našumui optimizuotus sluoksnių įgyvendinimus ir architektūrinius pakeitimus, užtikrinančius didesnį treniruočių stabilumą.

Išskirtinė MPT-7B savybė yra jos mokymas naudojant platų duomenų rinkinį, kurį sudaro 1 trilijonas teksto ir kodo prieigos raktų. Šis griežtas mokymas buvo atliktas MosaicML platformoje per 9.5 dienos.

Dėl atvirojo kodo MPT-7B jis yra vertingas įrankis komercinėms reikmėms. Jis turi potencialą reikšmingai paveikti nuspėjamąją analizę ir įmonių bei organizacijų sprendimų priėmimo procesus.

Be bazinio modelio, „MosaicML Foundations“ taip pat išleidžia specializuotus modelius, pritaikytus konkrečioms užduotims, pvz., MPT-7B-Instruct trumpoms instrukcijoms sekti, MPT-7B-Chat dialogui generuoti ir MPT-7B-StoryWriter-65k+. ilgos formos istorijos kūrimui.

MPT-7B kūrimo kelionė buvo išsami – „MosaicML“ komanda per kelias savaites suvaldė visus etapus nuo duomenų paruošimo iki diegimo. Duomenys buvo gauti iš įvairių saugyklų, o komanda naudojo tokius įrankius kaip EleutherAI GPT-NeoX ir 20B tokenizatorius, kad užtikrintų įvairų ir visapusišką treniruočių derinį.

Pagrindinių MPT-7B savybių apžvalga:

Komercinis licencijavimas: MPT-7B yra licencijuotas komerciniam naudojimui, todėl tai yra vertingas turtas įmonėms.
Išsamūs mokymo duomenys: Modelis pasižymi didžiuliu 1 trilijono žetonų duomenų rinkiniu.
Ilgas įvesties tvarkymas: MPT-7B sukurtas be kompromisų apdoroti itin ilgas įvestis.
Greitis ir efektyvumas: Modelis optimizuotas greitam mokymui ir išvadoms, užtikrinant savalaikius rezultatus.
Atvirojo kodo kodas: MPT-7B pateikiamas su efektyviu atvirojo kodo mokymo kodu, skatinančiu skaidrumą ir lengvą naudojimą.
Lyginamoji kompetencija: MPT-7B pademonstravo pranašumą prieš kitus atvirojo kodo modelius 7B-20B diapazone, o jo kokybė atitinka LLaMA-7B.

4. Sakalas

Falcon LLM yra modelis, kuris greitai pakilo į LLM hierarchijos viršūnę. „Falcon LLM“, konkrečiai „Falcon-40B“, yra pagrindinė LLM, aprūpinta 40 milijardų parametrų ir buvo išmokyta naudojant įspūdingą trilijoną žetonų. Jis veikia kaip tik autoregresyvus dekoderio modelis, o tai iš esmės reiškia, kad jis numato tolesnį prieigos raktą seka, pagrįsta ankstesniais prieigos raktais. Ši architektūra primena GPT modelį. Pažymėtina, kad „Falcon“ architektūra pademonstravo geresnį našumą nei GPT-3, pasiekdama šį žygdarbį sunaudodama tik 75 % treniruočių skaičiavimo biudžeto ir reikalaujanti žymiai mažiau skaičiavimo atliekant išvadas.

Technologijų inovacijų instituto komanda kurdama „Falcon“ daug dėmesio skyrė duomenų kokybei. Pripažindami LLM jautrumą mokymo duomenų kokybei, jie sukūrė duomenų vamzdyną, kuris padidino iki dešimčių tūkstančių procesoriaus branduolių. Tai leido greitai apdoroti ir išgauti aukštos kokybės turinį iš žiniatinklio, o tai buvo pasiekta atliekant išsamius filtravimo ir dubliavimo procesus.

Be Falcon-40B, TII taip pat pristatė kitas versijas, įskaitant Falcon-7B, kuri turi 7 milijardus parametrų ir buvo išmokyta naudoti 1,500 milijardų žetonų. Taip pat yra specializuotų modelių, tokių kaip Falcon-40B-Instruct ir Falcon-7B-Instruct, pritaikytų konkrečioms užduotims.

„Falcon-40B“ mokymas buvo platus procesas. Modelis buvo apmokytas naudojant RefinedWeb duomenų rinkinį, didžiulį anglišką žiniatinklio duomenų rinkinį, kurį sukūrė TII. Šis duomenų rinkinys buvo sukurtas naudojant „CommonCrawl“ ir buvo griežtai filtruojamas siekiant užtikrinti kokybę. Kai modelis buvo parengtas, jis buvo patvirtintas pagal keletą atvirojo kodo etalonų, įskaitant EAI Harness, HELM ir BigBench.

Pagrindinių „Falcon LLM“ funkcijų apžvalga:

Platūs parametrai: Falcon-40B turi 40 milijardų parametrų, užtikrinančių visapusišką mokymąsi ir veikimą.
Tik automatinio regresyvaus dekoderio modelis: Ši architektūra leidžia Falcon numatyti tolesnius žetonus pagal ankstesnius, panašiai kaip GPT modelis.
Aukščiausias našumas: „Falcon“ pranoksta GPT-3, išnaudodama tik 75% treniruočių skaičiavimo biudžeto.
Aukštos kokybės duomenų perdavimo linija: TII duomenų srautas užtikrina aukštos kokybės turinio ištraukimą iš interneto, labai svarbų modelio mokymui.
Modelių įvairovė: Be Falcon-40B, TII siūlo Falcon-7B ir specializuotus modelius, tokius kaip Falcon-40B-Instruct ir Falcon-7B-Instruct.
Atvirojo kodo prieinamumas: „Falcon LLM“ buvo sukurtas atvirojo kodo, skatinant AI srities prieinamumą ir įtrauktį.

5. Vicuna-13B

LMSYS ORG padarė reikšmingą ženklą atvirojo kodo LLM srityje, pristatydama Vicuna-13B. Šis atvirojo kodo pokalbių robotas buvo kruopščiai apmokytas tiksliai suderinant LLaMA vartotojų bendrinamus pokalbius, gaunamus iš ShareGPT. Preliminarūs vertinimai, teisėjaujant GPT-4, rodo, kad Vicuna-13B pasiekia daugiau nei 90 % žinomų modelių, tokių kaip OpenAI ChatGPT ir Google Bard, kokybę.

Įspūdingai, Vicuna-13B daugiau nei 90% atvejų lenkia kitus žymius modelius, tokius kaip LLAMA ir Stanford Alpaca. Visas Vicuna-13B mokymo procesas buvo atliktas už maždaug 300 USD. Tiems, kurie nori ištirti jo galimybes, kodas, svoriai ir internetinė demonstracinė versija buvo viešai prieinami nekomerciniais tikslais.

Vicuna-13B modelis buvo tiksliai suderintas su 70 4 vartotojų bendrinamų „ChatGPT“ pokalbių, leidžiančių generuoti išsamesnius ir gerai struktūrizuotus atsakymus. Šių atsakymų kokybė yra panaši į ChatGPT. Tačiau pokalbių robotų vertinimas yra sudėtingas darbas. Tobulėjant GPT-4, kyla vis daugiau smalsumo, kad jis gali būti automatizuota etalonų generavimo ir našumo vertinimo sistema. Pirminės išvados rodo, kad GPT-4 gali sudaryti nuoseklius reitingus ir išsamius vertinimus lyginant pokalbių robotų atsakymus. Preliminarūs vertinimai, pagrįsti GPT-90, rodo, kad Vicuna pasiekia XNUMX % tokių modelių kaip Bard/ChatGPT pajėgumų.

Pagrindinių Vicuna-13B savybių apžvalga:

Atvirojo kodo gamta: Vicuna-13B yra prieinama visuomenei, skatinant skaidrumą ir bendruomenės įsitraukimą.
Išsamūs mokymo duomenys: Modelis buvo apmokytas 70 XNUMX vartotojų bendrų pokalbių, užtikrinančių visapusišką įvairių sąveikų supratimą.
Konkurencinis našumas: Vicuna-13B našumas prilygsta pramonės lyderiams, tokiems kaip „ChatGPT“ ir „Google Bard“.
Ekonomiškai efektyvus mokymas: Visas Vicuna-13B mokymo procesas buvo atliktas už mažą maždaug 300 USD kainą.
Tikslus LLaMA derinimas: Modelis buvo tiksliai suderintas su LLaMA, užtikrinant geresnę našumą ir atsako kokybę.
Internetinės demonstracinės versijos prieinamumas: Vartotojai gali išbandyti ir išbandyti Vicuna-13B galimybes interaktyvioje internetinėje demonstracijoje.

Besiplečianti didelių kalbų modelių sritis

Didelių kalbų modelių sfera yra didžiulė ir nuolat plečiasi, o kiekvienas naujas modelis peržengia įmanomų galimybių ribas. Šiame tinklaraštyje aptariamas atvirojo kodo LLM pobūdis ne tik parodo AI bendruomenės bendradarbiavimo dvasią, bet ir atveria kelią ateities naujovėms.

Šie modeliai, pradedant įspūdingomis Vicuna pokalbių roboto galimybėmis ir baigiant aukščiausios kokybės Falcon našumo rodikliais, yra dabartinės LLM technologijos viršūnė. Kadangi ir toliau stebime sparčią pažangą šioje srityje, akivaizdu, kad atvirojo kodo modeliai vaidins lemiamą vaidmenį formuojant AI ateitį.

Nesvarbu, ar esate patyręs tyrinėtojas, pradedantis dirbtinio intelekto entuziastas, ar kas nors, kam įdomu šių modelių potencialas, nėra geresnio laiko pasinerti ir ištirti jų siūlomas dideles galimybes.

Susijusios temos:geriausias

Kitas

10 geriausių AI įrankių, skirtų filialų rinkodarai (2024 m. gegužės mėn.)

Nepraleiskite

10 geriausių dirbtinio intelekto medicinos raštininkų (2024 m. gegužės mėn.)

Aleksas MakFarlandas

Alexas McFarlandas yra AI žurnalistas ir rašytojas, tyrinėjantis naujausius dirbtinio intelekto pokyčius. Jis bendradarbiavo su daugybe AI startuolių ir leidinių visame pasaulyje.

Antuanas Tardifas

Unite.AI įkūrėjas ir narys „Forbes“ technologijų taryba, Antuanas yra a futuristas kuris aistringai domisi AI ir robotikos ateitimi.

Jis taip pat yra įkūrėjas Vertybiniai popieriai.io, svetainė, kurioje pagrindinis dėmesys skiriamas investicijoms į trikdančias technologijas.

Susivienyti.AI

5 geriausi atvirojo kodo LLM (2024 m. gegužės mėn.)

Geriausi

5 geriausi atvirojo kodo LLM (2024 m. gegužės mėn.)

Turinys

1. Lama 2

2. Žydėti

3. MPT-7B

4. Sakalas

5. Vicuna-13B

Besiplečianti didelių kalbų modelių sritis

Naujausios žinutės

Susivienyti.AI

5 geriausi atvirojo kodo LLM (2024 m. gegužės mėn.)

Turinys

1. Lama 2

2. Žydėti

3. MPT-7B

4. Sakalas

5. Vicuna-13B

Besiplečianti didelių kalbų modelių sritis

Jums gali patikti

Naujausios žinutės