Best Of
L-Aħjar 5 LLMs Open Source (Mejju 2024)
Fid-dinja tal-intelliġenza artifiċjali (AI) li qed tevolvi b'rata mgħaġġla, il-Mudelli tal-Lingwa Kbar (LLMs) ħarġu bħala l-pedament, li jmexxu l-innovazzjonijiet u jsawru mill-ġdid il-mod kif aħna jinteraġixxu mat-teknoloġija.
Hekk kif dawn il-mudelli jsiru dejjem aktar sofistikati, hemm enfasi dejjem tikber fuq id-demokratizzazzjoni tal-aċċess għalihom. Mudelli open-source, b’mod partikolari, qed ikollhom rwol ċentrali f’din id-demokratizzazzjoni, billi joffru lir-riċerkaturi, l-iżviluppaturi u d-dilettanti bl-istess mod l-opportunità li jidħlu fil-fond fl-intricacies tagħhom, jirranġawhom għal kompiti speċifiċi, jew saħansitra jibnu fuq il-pedamenti tagħhom.
F'dan il-blog, aħna ser nesploraw uħud mill-aqwa LLMs open-source li qed jagħmlu mewġ fil-komunità tal-IA, kull wieħed iġib il-qawwiet u l-kapaċitajiet uniċi tiegħu fuq il-mejda.
1. fjamma 2
Meta's Llama 2 hija żieda innovattiva għall-linja tal-mudelli AI tagħhom. Dan mhux biss mudell ieħor; huwa ddisinjat biex iħaddem firxa ta 'applikazzjonijiet ta' l-aktar avvanzata. Id-dejta tat-taħriġ ta 'Llama 2 hija vasta u varjata, u tagħmilha avvanz sinifikanti fuq il-predeċessur tagħha. Din id-diversità fit-taħriġ tiżgura li Llama 2 mhuwiex biss titjib inkrementali iżda pass monumentali lejn il-futur ta 'interazzjonijiet immexxija mill-AI.
Il-kollaborazzjoni bejn Meta u Microsoft espandiet l-orizzonti għal Llama 2. Il-mudell open-source issa huwa appoġġjat fuq pjattaformi bħal Azure u Windows, bil-għan li jipprovdi lill-iżviluppaturi u lill-organizzazzjonijiet bl-għodda biex joħolqu esperjenzi ġenerattivi mmexxija mill-AI. Din is-sħubija tenfasizza d-dedikazzjoni taż-żewġ kumpaniji biex jagħmlu l-AI aktar aċċessibbli u miftuħa għal kulħadd.
Llama 2 mhuwiex biss suċċessur għall-mudell oriġinali Llama; tirrappreżenta bidla fil-paradigma fl-arena tal-chatbot. Filwaqt li l-ewwel mudell Llama kien rivoluzzjonarju fil-ġenerazzjoni tat-test u l-kodiċi, id-disponibbiltà tiegħu kienet limitata biex jipprevjeni l-użu ħażin. Llama 2, min-naħa l-oħra, huwa stabbilit li jilħaq udjenza usa '. Huwa ottimizzat għal pjattaformi bħal AWS, Azure, u l-pjattaforma ta 'akkoljenza tal-mudell AI ta' Hugging Face. Barra minn hekk, bil-kollaborazzjoni ta' Meta mal-Microsoft, Llama 2 hija lesta li tagħmel il-marka tagħha mhux biss fuq il-Windows iżda wkoll fuq tagħmir li jaħdem bis-sistema Snapdragon ta' Qualcomm-on-chip.
Is-sigurtà hija fil-qalba tad-disinn ta 'Llama 2. Meta rrikonoxxiet l-isfidi ffaċċjati minn mudelli lingwistiċi kbar preċedenti bħal GPT, li xi drabi pproduċiet kontenut qarrieqi jew ta 'ħsara, Meta ħadet miżuri estensivi biex tiżgura l-affidabbiltà ta' Llama 2. Il-mudell għadda minn taħriġ rigoruż biex jimminimizza l-'alluċinazzjonijiet', informazzjoni ħażina, u preġudizzji.
Karatteristiċi ewlenin ta 'LLaMa 2:
- Data ta' Taħriġ Diversi: Id-dejta tat-taħriġ ta 'Llama 2 hija kemm estensiva kif ukoll varjata, u tiżgura fehim u prestazzjoni komprensivi.
- Kollaborazzjoni ma' Microsoft: Llama 2 huwa appoġġjat fuq pjattaformi bħal Azure u Windows, u jwessa 'l-ambitu tal-applikazzjoni tiegħu.
- Disponibbiltà Miftuħa: B'differenza mill-predeċessur tiegħu, Llama 2 hija disponibbli għal udjenza usa ', lesta għall-irfinar fuq pjattaformi multipli.
- Disinn Iċċentrat fuq is-Sigurtà: Meta enfasizza s-sigurtà, u żgura li Llama 2 jipproduċi riżultati preċiżi u affidabbli filwaqt li jimminimizza l-outputs ta 'ħsara.
- Verżjonijiet ottimizzati: Llama 2 jiġi f'żewġ verżjonijiet ewlenin - Llama 2 u Llama 2-Chat, b'din tal-aħħar iddisinjat apposta għal konversazzjonijiet f'żewġ direzzjonijiet. Dawn il-verżjonijiet ivarjaw fil-kumplessità minn 7 biljun sa 70 biljun parametru.
- Taħriġ Imsaħħaħ: Llama 2 ġie mħarreġ fuq żewġ miljun tokens, żieda sinifikanti mill-1.4 triljun tokens tal-Llama oriġinali.
2. Bloom
Fl-2022, wara sforz kollaborattiv globali li jinvolvi voluntiera minn aktar minn 70 pajjiż u esperti minn Hugging Face, ġie żvelat il-proġett BLOOM. Dan il-mudell tal-lingwa kbira (LLM), maħluq permezz ta' inizjattiva ta' sena, huwa ddisinjat għall-ġenerazzjoni ta' test awtoregressiv, li kapaċi jestendi test partikolari fil-pront. Ġie mħarreġ fuq corpus massiv ta 'dejta tat-test li jutilizza qawwa komputazzjonali sostanzjali.
Id-debutt ta' BLOOM kien pass sinifikanti biex it-teknoloġija tal-AI ġenerattiva ssir aktar aċċessibbli. Bħala LLM open-source, tiftaħar 176 biljun parametru, li jagħmilha waħda mill-aktar formidabbli fil-klassi tagħha. BLOOM għandu l-profiċjenza li jiġġenera test koerenti u preċiż f’46 lingwa u 13-il lingwa ta’ programmar.
Il-proġett jenfasizza t-trasparenza, li jippermetti aċċess pubbliku għall-kodiċi tas-sors u d-dejta tat-taħriġ tiegħu. Dan il-ftuħ jistieden eżami, utilizzazzjoni u titjib kontinwu tal-mudell.
Aċċessibbli bla ħlas permezz tal-pjattaforma Hugging Face, BLOOM huwa xhieda ta' innovazzjoni kollaborattiva fl-IA.
L-aqwa karatteristiċi ta' Bloom:
- Kapaċitajiet Multilingwi: BLOOM huwa profiċjenti fil-ġenerazzjoni ta' test f'46 lingwa u 13-il lingwa ta' programmar, li juri l-firxa lingwistika wiesgħa tiegħu.
- Aċċess ta' Sors Miftuħ: Il-kodiċi sors tal-mudell u d-dejta tat-taħriġ huma disponibbli pubblikament, u jippromwovu t-trasparenza u t-titjib kollaborattiv.
- Ġenerazzjoni ta' Test Awtorgressiv: Iddisinjat biex ikompli t-test minn pront partikolari, BLOOM jeċċella fl-estensjoni u l-ikkompletar tas-sekwenzi tat-test.
- Għadd ta' Parametri Massiv: B'176 biljun parametru, BLOOM huwa wieħed mill-LLMs open-source l-aktar qawwija li jeżistu.
- Kollaborazzjoni Globali: Żviluppat permezz ta’ proġett ta’ sena b’kontribuzzjonijiet minn voluntiera f’aktar minn 70 pajjiż u riċerkaturi ta’ Hugging Face.
- Aċċessibilità B'xejn: L-utenti jistgħu jaċċessaw u jutilizzaw BLOOM b'xejn permezz tal-ekosistema Hugging Face, u ssaħħaħ id-demokratizzazzjoni tagħha fil-qasam tal-AI.
- Taħriġ fuq Skala Industrijali: Il-mudell ġie mħarreġ fuq ammonti vasti ta 'dejta tat-test bl-użu ta' riżorsi komputazzjonali sinifikanti, u jiżgura prestazzjoni robusta.
3. MPT-7B
MosaicML Foundations ta kontribut sinifikanti għal dan l-ispazju bl-introduzzjoni ta 'MPT-7B, l-aħħar LLM open-source tagħhom. MPT-7B, akronimu għal MosaicML Pretrained Transformer, huwa mudell ta 'transformer ta' stil GPT, decoder biss. Dan il-mudell jiftaħar diversi titjib, inklużi implimentazzjonijiet ta 'saffi ottimizzati għall-prestazzjoni u bidliet arkitettoniċi li jiżguraw stabbiltà akbar ta' taħriġ.
Karatteristika li tispikka ta 'MPT-7B hija t-taħriġ tiegħu fuq sett ta' dejta estensiv li jinkludi 1 triljun tokens ta 'test u kodiċi. Dan it-taħriġ rigoruż ġie esegwit fuq il-pjattaforma MosaicML fuq medda ta '9.5 ijiem.
In-natura open-source ta 'MPT-7B tpoġġiha bħala għodda siewja għal applikazzjonijiet kummerċjali. Għandu l-potenzjal li jkollu impatt sinifikanti fuq l-analiżi ta’ tbassir u l-proċessi tat-teħid tad-deċiżjonijiet tan-negozji u l-organizzazzjonijiet.
Minbarra l-mudell bażi, MosaicML Foundations qed jirrilaxxa wkoll mudelli speċjalizzati mfassla għal ħidmiet speċifiċi, bħal MPT-7B-Instruct għal struzzjoni fil-qosor wara, MPT-7B-Chat għall-ġenerazzjoni tad-djalogu, u MPT-7B-StoryWriter-65k+ għall-ħolqien ta’ storja fit-tul.
Il-vjaġġ ta 'żvilupp ta' MPT-7B kien komprensiv, bit-tim MosaicML jimmaniġġja l-istadji kollha mill-preparazzjoni tad-dejta sal-iskjerament fi żmien ftit ġimgħat. Id-dejta nkisbet minn diversi repożitorji, u t-tim uża għodod bħall-GPT-NeoX ta 'EleutherAI u t-tokenizer 20B biex jiżgura taħlita ta' taħriġ varjata u komprensiva.
Ħarsa ġenerali tal-karatteristiċi ewlenin ta 'MPT-7B:
- Liċenzjar Kummerċjali: MPT-7B huwa liċenzjat għal użu kummerċjali, li jagħmilha assi siewi għan-negozji.
- Dejta ta' Taħriġ estensiva: Il-mudell jiftaħar taħriġ fuq sett ta 'dejta vast ta' 1 triljun tokens.
- Immaniġġjar tal-Input Twil: MPT-7B huwa ddisinjat biex jipproċessa inputs estremament twal mingħajr kompromess.
- Veloċità u Effiċjenza: Il-mudell huwa ottimizzat għal taħriġ u inferenza malajr, u jiżgura riżultati f'waqthom.
- Kodiċi Open-Source: MPT-7B jiġi b'kodiċi ta 'taħriġ ta' sors miftuħ effiċjenti, li jippromwovi t-trasparenza u l-faċilità ta 'użu.
- Eċċellenza Komparattiva: MPT-7B wera superjorità fuq mudelli oħra ta 'sors miftuħ fil-medda 7B-20B, bil-kwalità tiegħu li taqbel ma' dik ta 'LLaMA-7B.
4. Falcon
Falcon LLM, huwa mudell li tela 'malajr fil-quċċata tal-ġerarkija LLM. Falcon LLM, speċifikament Falcon-40B, huwa LLM fundamentali mgħammar b'40 biljun parametru u ġie mħarreġ fuq triljun tokens impressjonanti. Jopera bħala mudell ta 'decoder autoregressiv biss, li essenzjalment ifisser li jbassar it-token sussegwenti f'sekwenza bbażata fuq it-tokens preċedenti. Din l-arkitettura hija reminixxenti tal-mudell GPT. Notevolment, l-arkitettura ta 'Falcon wriet prestazzjoni superjuri għal GPT-3, u kisbet din il-proeza b'75% biss tal-baġit tal-komputazzjoni tat-taħriġ u teħtieġ b'mod sinifikanti inqas komputazzjoni waqt l-inferenza.
It-tim fl-Istitut għall-Innovazzjoni tat-Teknoloġija poġġa enfasi qawwija fuq il-kwalità tad-dejta matul l-iżvilupp ta 'Falcon. Filwaqt li rrikonoxxew is-sensittività tal-LLMs għall-kwalità tad-dejta tat-taħriġ, huma bnew pipeline tad-dejta li żdied għal għexieren ta 'eluf ta' cores tas-CPU. Dan ippermetta pproċessar rapidu u l-estrazzjoni ta 'kontenut ta' kwalità għolja mill-web, miksub permezz ta 'proċessi estensivi ta' filtrazzjoni u deduplikazzjoni.
Minbarra Falcon-40B, TII introduċa wkoll verżjonijiet oħra, inkluż Falcon-7B, li jippossjedi 7 biljun parametri u ġie mħarreġ fuq 1,500 biljun tokens. Hemm ukoll mudelli speċjalizzati bħal Falcon-40B-Instruct u Falcon-7B-Instruct, imfassla għal kompiti speċifiċi.
It-taħriġ tal-Falcon-40B kien proċess estensiv. Il-mudell ġie mħarreġ fuq is-sett tad-dejta RefinedWeb, sett ta 'dejta tal-web Ingliż massiv mibni minn TII. Dan is-sett tad-dejta nbena fuq CommonCrawl u għadda minn filtrazzjoni rigoruża biex tiġi żgurata l-kwalità. Ladarba l-mudell ġie ppreparat, ġie vvalidat kontra diversi punti ta' riferiment ta' sors miftuħ, inklużi EAI Harness, HELM u BigBench.
Ħarsa ġenerali tal-karatteristiċi ewlenin tal-Falcon LLM:
- Parametri estensivi: Falcon-40B huwa mgħammar b'40 biljun parametru, li jiżgura tagħlim u prestazzjoni komprensivi.
- Mudell ta' Decoder Awtorgressiv biss: Din l-arkitettura tippermetti lil Falcon ibassar tokens sussegwenti bbażati fuq dawk preċedenti, simili għall-mudell GPT.
- Prestazzjoni Superjuri: Falcon jaqbeż lil GPT-3 filwaqt li juża biss 75% tal-baġit tal-komputazzjoni tat-taħriġ.
- Pipeline ta' Dejta ta' Kwalità Għolja: Il-pipeline tad-dejta ta 'TII jiżgura l-estrazzjoni ta' kontenut ta 'kwalità għolja mill-web, kruċjali għat-taħriġ tal-mudell.
- Varjetà ta' Mudelli: Minbarra Falcon-40B, TII joffri Falcon-7B u mudelli speċjalizzati bħal Falcon-40B-Instruct u Falcon-7B-Instruct.
- Disponibbiltà ta' Sors Miftuħ: Falcon LLM kien open source, li jippromwovi l-aċċessibbiltà u l-inklussività fid-dominju tal-IA.
5. Vicuna-13B
LMSYS ORG għamel marka sinifikanti fil-qasam tal-LLMs open-source bl-introduzzjoni ta 'Vicuña-13B. Dan il-chatbot open-source ġie mħarreġ b'mod metikoluż billi rfina l-LLaMA fuq konversazzjonijiet kondiviżi mal-utenti miksuba minn ShareGPT. Evalwazzjonijiet preliminari, b'GPT-4 jaġixxi bħala l-imħallef, jindikaw li Vicuna-13B jikseb kwalità ta 'aktar minn 90% ta' mudelli rinomati bħal OpenAI ChatGPT u Google Bard.
B'mod impressjonanti, Vicuna-13B tegħleb mudelli notevoli oħra bħal LLaMA u Stanford Alpaca f'aktar minn 90% tal-każijiet. Il-proċess kollu ta 'taħriġ għal Vicuna-13B ġie eżegwit bi spiża ta' madwar $300. Għal dawk interessati li jesploraw il-kapaċitajiet tagħha, il-kodiċi, il-piżijiet, u demo onlajn saru disponibbli pubblikament għal skopijiet mhux kummerċjali.
Il-mudell Vicuna-13B ġie rfinat b'70K konversazzjonijiet ChatGPT kondiviżi mal-utent, li jippermettulu jiġġenera tweġibiet aktar dettaljati u strutturati tajjeb. Il-kwalità ta' dawn it-tweġibiet hija komparabbli ma' ChatGPT. L-evalwazzjoni tal-chatbots, madankollu, hija sforz kumpless. Bl-avvanzi f'GPT-4, hemm kurżità dejjem tikber dwar il-potenzjal tiegħu li jservi bħala qafas ta' evalwazzjoni awtomatizzat għall-ġenerazzjoni ta' punti ta' referenza u valutazzjonijiet tal-prestazzjoni. Is-sejbiet inizjali jissuġġerixxu li GPT-4 jista 'jipproduċi ranks konsistenti u valutazzjonijiet dettaljati meta jqabbel it-tweġibiet tal-chatbot. Evalwazzjonijiet preliminari bbażati fuq GPT-4 juru li Vicuna tikseb kapaċità ta '90% ta' mudelli bħal Bard/ChatGPT.
Ħarsa ġenerali tal-karatteristiċi ewlenin ta' Vicuna-13B:
- Natura ta’ Sors Miftuħ: Vicuna-13B hija disponibbli għall-aċċess pubbliku, li tippromwovi t-trasparenza u l-involviment tal-komunità.
- Dejta ta' Taħriġ estensiva: Il-mudell ġie mħarreġ fuq 70K konversazzjonijiet kondiviżi mal-utent, li jiżgura fehim komprensiv ta 'interazzjonijiet diversi.
- Prestazzjoni Kompetittiva: Il-prestazzjoni ta 'Vicuña-13B hija daqs il-mexxejja tal-industrija bħal ChatGPT u Google Bard.
- Taħriġ kost-effettiv: Il-proċess kollu ta 'taħriġ għal Vicuna-13B ġie eżegwit bi spiża baxxa ta' madwar $300.
- Irfinar fuq LLaMA: Il-mudell ġie rfinat fuq LLaMA, u jiżgura prestazzjoni mtejba u kwalità tar-rispons.
- Disponibbiltà Demo Online: Demo online interattiva hija disponibbli għall-utenti biex jittestjaw u jesperjenzaw il-kapaċitajiet ta 'Vicuña-13B.
L-Isfera Espansjoni tal-Mudelli Kbar tal-Lingwa
Il-qasam tal-Mudelli tal-Lingwa Kbar huwa vast u dejjem jespandi, b'kull mudell ġdid jimbotta l-konfini ta 'dak li hu possibbli. In-natura open-source tal-LLMs diskussi f'dan il-blog mhux biss turi l-ispirtu kollaborattiv tal-komunità tal-IA iżda wkoll twitti t-triq għal innovazzjonijiet futuri.
Dawn il-mudelli, mill-kapaċitajiet impressjonanti ta 'Chatbot ta' Vicuna għall-metriċi ta 'prestazzjoni superjuri ta' Falcon, jirrappreżentaw il-quċċata tat-teknoloġija LLM attwali. Hekk kif inkomplu nassistu għal avvanzi rapidi f'dan il-qasam, huwa ċar li l-mudelli open-source se jkollhom rwol kruċjali fit-tiswir tal-futur tal-IA.
Kemm jekk int riċerkatur imħawwar, dilettant tal-AI li qed jibża’, jew xi ħadd kurjuż dwar il-potenzjal ta’ dawn il-mudelli, m’hemmx ħin aħjar biex tgħaddas u tesplora l-possibbiltajiet vasti li joffru.