cung 5 LLM-të më të mira me burim të hapur (maj 2024) - Unite.AI
Lidhu me ne
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [pseudonim] => Antoine Tardif [user_nicename] => admin [emri_display] => Antoine Tardif [email_user] => [email mbrojtur]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Një partner themelues i unite.AI dhe një anëtar i Këshilli i Teknologjisë i Forbes, Antoine është një futurist i cili është i apasionuar pas të ardhmes së AI dhe robotikës. Ai është gjithashtu Themeluesi i Letrat me vlerë.io, një faqe interneti që fokusohet në investimin në teknologjinë përçarëse. [user_avatar] => mm
)

Best Of

5 LLM-të më të mira me burim të hapur (maj 2024)

Përditësuar on
LLM me burim të hapur

Në botën me zhvillim të shpejtë të inteligjencës artificiale (AI), Modelet e Mëdha të Gjuhëve (LLM) janë shfaqur si një gur themeli, duke nxitur inovacione dhe duke riformuar mënyrën se si ndërveprojmë me teknologjinë.

Ndërsa këto modele bëhen gjithnjë e më të sofistikuara, ka një theks në rritje në demokratizimin e aksesit në to. Modelet me burim të hapur, në veçanti, po luajnë një rol kryesor në këtë demokratizim, duke u ofruar studiuesve, zhvilluesve dhe entuziastëve mundësinë që të gërmojnë thellë në ndërlikimet e tyre, t'i rregullojnë ato për detyra specifike ose madje të ndërtojnë themelet e tyre.

Në këtë blog, ne do të eksplorojmë disa nga LLM-të kryesore me burim të hapur që po bëjnë valë në komunitetin e AI, secila duke sjellë në tryezë pikat e forta dhe aftësitë e veta unike.

1. flaka 2

Llama 2 i Metës është një shtesë novatore e modeleve të tyre të AI. Ky nuk është thjesht një model tjetër; është projektuar për të ushqyer një sërë aplikacionesh më të avancuara. Të dhënat e trajnimit të Llama 2 janë të gjera dhe të larmishme, duke e bërë atë një përparim të rëndësishëm në krahasim me paraardhësin e tij. Ky diversitet në trajnim siguron që Llama 2 nuk është vetëm një përmirësim në rritje, por një hap monumental drejt së ardhmes së ndërveprimeve të drejtuara nga AI.

Bashkëpunimi midis Meta dhe Microsoft ka zgjeruar horizontet për Llama 2. Modeli me burim të hapur tani mbështetet në platforma si Azure dhe Windows, duke synuar t'u ofrojë zhvilluesve dhe organizatave mjetet për të krijuar përvoja gjeneruese të drejtuara nga AI. Ky partneritet nënvizon përkushtimin e të dy kompanive për ta bërë AI më të aksesueshme dhe të hapur për të gjithë.

Llama 2 nuk është vetëm një pasardhës i modelit origjinal Llama; ai përfaqëson një ndryshim paradigme në arenën e chatbot-it. Ndërsa modeli i parë Llama ishte revolucionar në gjenerimin e tekstit dhe kodit, disponueshmëria e tij ishte e kufizuar për të parandaluar keqpërdorimin. Llama 2, nga ana tjetër, pritet të arrijë një audiencë më të gjerë. Është optimizuar për platforma si AWS, Azure dhe platforma e pritjes së modelit të AI të Hugging Face. Për më tepër, me bashkëpunimin e Metës me Microsoft-in, Llama 2 është gati të lërë shenjën e tij jo vetëm në Windows, por edhe në pajisjet e mundësuara nga sistemi Snapdragon i Qualcomm-në-çip.

Siguria është në qendër të dizajnit të Llama 2. Duke njohur sfidat me të cilat përballeshin modelet e mëparshme të gjuhëve të mëdha si GPT, të cilat ndonjëherë prodhonin përmbajtje mashtruese ose të dëmshme, Meta ka marrë masa të gjera për të siguruar besueshmërinë e Llama 2. Modelja i është nënshtruar një trajnimi rigoroz për të minimizuar 'halucinacionet', dezinformatat dhe paragjykimet.

Karakteristikat kryesore të LLaMa 2:

  • Të dhëna të ndryshme trajnimi: Të dhënat e trajnimit të Llama 2 janë të gjera dhe të ndryshme, duke siguruar një kuptim dhe performancë gjithëpërfshirëse.
  • Bashkëpunimi me Microsoft: Llama 2 mbështetet në platforma si Azure dhe Windows, duke zgjeruar fushën e aplikimit.
  • Disponueshmëria e hapur: Ndryshe nga paraardhësi i tij, Llama 2 është i disponueshëm për një audiencë më të gjerë, gati për rregullim të imët në platforma të shumta.
  • Dizajni në qendër të sigurisë: Meta ka theksuar sigurinë, duke siguruar që Llama 2 të prodhojë rezultate të sakta dhe të besueshme duke minimizuar rezultatet e dëmshme.
  • Versionet e optimizuara: Llama 2 vjen në dy versione kryesore - Llama 2 dhe Llama 2-Chat, me këtë të fundit të krijuar posaçërisht për biseda të dyanshme. Këto versione variojnë në kompleksitet nga 7 miliardë deri në 70 miliardë parametra.
  • Trajnim i zgjeruar: Llama 2 u trajnua me dy milion argumente, një rritje e konsiderueshme nga 1.4 trilion argumentet origjinale të Llama.

2. lulëzim

Në vitin 2022, pas një përpjekjeje globale bashkëpunuese që përfshin vullnetarë nga mbi 70 vende dhe ekspertë nga Hugging Face, u zbulua projekti BLOOM. Ky model i madh gjuhësor (LLM), i krijuar me një iniciativë njëvjeçare, është krijuar për gjenerimin e tekstit autoregresiv, i aftë të zgjerojë një mesazh të caktuar teksti. Ai u trajnua mbi një korpus masiv të dhënash teksti duke përdorur fuqi të konsiderueshme llogaritëse.

Debutimi i BLOOM ishte një hap i rëndësishëm në bërjen e teknologjisë gjeneruese të AI më të aksesueshme. Si një LLM me burim të hapur, ai krenohet me 176 miliardë parametra, duke e bërë atë një nga më të frikshmit në klasën e tij. BLOOM ka aftësinë për të gjeneruar tekst koherent dhe të saktë në 46 gjuhë dhe 13 gjuhë programimi.

Projekti thekson transparencën, duke lejuar aksesin e publikut në kodin e tij burimor dhe të dhënat e trajnimit. Kjo hapje fton ekzaminimin, shfrytëzimin dhe përmirësimin e vazhdueshëm të modelit.

I aksesueshëm pa kosto përmes platformës Hugging Face, BLOOM qëndron si një testament për inovacionin bashkëpunues në AI.

Karakteristikat kryesore të Bloom:

  • Aftësitë shumëgjuhëshe: BLOOM është i aftë në gjenerimin e tekstit në 46 gjuhë dhe 13 gjuhë programimi, duke shfaqur gamën e tij të gjerë gjuhësore.
  • Qasje me burim të hapur: Kodi burimor i modelit dhe të dhënat e trajnimit janë të disponueshme publikisht, duke promovuar transparencën dhe përmirësimin e bashkëpunimit.
  • Gjenerimi i tekstit autoregresiv: E krijuar për të vazhduar tekstin nga një kërkesë e caktuar, BLOOM shkëlqen në zgjerimin dhe plotësimin e sekuencave të tekstit.
  • Numri masiv i parametrave: Me 176 miliardë parametra, BLOOM qëndron si një nga LLM-të më të fuqishme me burim të hapur që ekziston.
  • Bashkëpunimi Global: Zhvilluar përmes një projekti njëvjeçar me kontribute nga vullnetarë në më shumë se 70 vende dhe studiues të Hugging Face.
  • Aksesueshmëri falas: Përdoruesit mund të aksesojnë dhe përdorin BLOOM falas përmes ekosistemit Hugging Face, duke rritur demokratizimin e tij në fushën e AI.
  • Trajnim në shkallë industriale: Modeli u trajnua në sasi të mëdha të të dhënave tekstuale duke përdorur burime të rëndësishme llogaritëse, duke siguruar performancë të fortë.

3. MPT-7B

MosaicML Foundations ka dhënë një kontribut të rëndësishëm në këtë hapësirë ​​me prezantimin e MPT-7B, LLM-në e tyre më të fundit me burim të hapur. MPT-7B, një akronim për Transformerin e Paratrajnuar MosaicML, është një model transformatori i stilit GPT, vetëm me dekoder. Ky model krenohet me disa përmirësime, duke përfshirë implementimet e shtresave të optimizuara për performancën dhe ndryshimet arkitekturore që sigurojnë stabilitet më të madh të trajnimit.

Një tipar dallues i MPT-7B është trajnimi i tij në një grup të dhënash të gjerë që përfshin 1 trilion argumente teksti dhe kodi. Ky trajnim rigoroz u ekzekutua në platformën MosaicML në një hark kohor prej 9.5 ditësh.

Natyra me burim të hapur të MPT-7B e pozicionon atë si një mjet të vlefshëm për aplikacionet komerciale. Ai ka potencialin për të ndikuar ndjeshëm në analitikën parashikuese dhe në proceset vendimmarrëse të bizneseve dhe organizatave.

Përveç modelit bazë, MosaicML Foundations po lëshon gjithashtu modele të specializuara të përshtatura për detyra specifike, si MPT-7B-Instruct për vijim të udhëzimeve në formë të shkurtër, MPT-7B-Chat për gjenerimin e dialogëve dhe MPT-7B-StoryWriter-65k+ për krijimin e një tregimi të gjatë.

Udhëtimi i zhvillimit të MPT-7B ishte gjithëpërfshirës, ​​me ekipin e MosaicML që menaxhonte të gjitha fazat nga përgatitja e të dhënave deri te vendosja brenda disa javësh. Të dhënat u morën nga depo të ndryshme dhe ekipi përdori mjete si GPT-NeoX e EleutherAI dhe tokenizatorin 20B për të siguruar një përzierje trajnimi të larmishme dhe gjithëpërfshirëse.

Përmbledhje e veçorive kryesore të MPT-7B:

  • Licencimi komercial: MPT-7B është licencuar për përdorim komercial, duke e bërë atë një aset të vlefshëm për bizneset.
  • Të dhëna të gjera trajnimi: Modeli krenohet me trajnimin në një grup të madh të dhënash prej 1 trilion argumentesh.
  • Trajtimi i gjatë i të dhënave: MPT-7B është projektuar për të përpunuar inpute jashtëzakonisht të gjata pa kompromis.
  • Shpejtësia dhe efikasiteti: Modeli është i optimizuar për trajnime dhe përfundime të shpejta, duke siguruar rezultate në kohë.
  • Kodi me burim të hapur: MPT-7B vjen me kod trajnimi efikas me burim të hapur, duke promovuar transparencën dhe lehtësinë e përdorimit.
  • Përsosmëri krahasuese: MPT-7B ka demonstruar epërsi ndaj modeleve të tjera me burim të hapur në rangun 7B-20B, me cilësinë e tij që përputhet me atë të LLaMA-7B.

4. skifter

Falcon LLM, është një model që është ngjitur me shpejtësi në krye të hierarkisë LLM. Falcon LLM, konkretisht Falcon-40B, është një LLM themelor i pajisur me 40 miliardë parametra dhe është trajnuar në një trilion argumente mbresëlënëse. Ai funksionon si një model vetëm për dekoderin autoregresiv, që në thelb do të thotë se parashikon tokenin pasues në një sekuencë të bazuar në shenjat e mëparshme. Kjo arkitekturë të kujton modelin GPT. Veçanërisht, arkitektura e Falcon ka demonstruar performancë superiore ndaj GPT-3, duke e arritur këtë arritje me vetëm 75% të buxhetit të llogaritjes së trajnimit dhe duke kërkuar shumë më pak llogaritje gjatë përfundimit.

Ekipi në Institutin e Inovacionit të Teknologjisë vendosi një theks të fortë në cilësinë e të dhënave gjatë zhvillimit të Falcon. Duke njohur ndjeshmërinë e LLM-ve ndaj cilësisë së të dhënave të trajnimit, ata ndërtuan një tubacion të dhënash që u shkallëzua në dhjetëra mijëra bërthama CPU. Kjo lejoi përpunimin e shpejtë dhe nxjerrjen e përmbajtjes me cilësi të lartë nga uebi, e arritur përmes proceseve të gjera filtrimi dhe deduplikimi.

Përveç Falcon-40B, TII ka prezantuar edhe versione të tjera, duke përfshirë Falcon-7B, i cili zotëron 7 miliardë parametra dhe është trajnuar në 1,500 miliardë tokena. Ekzistojnë gjithashtu modele të specializuara si Falcon-40B-Instruct dhe Falcon-7B-Instruct, të përshtatura për detyra specifike.

Trajnimi Falcon-40B ishte një proces i gjerë. Modeli u trajnua në bazën e të dhënave RefinedWeb, një grup i dhënash masiv në internet në anglisht i ndërtuar nga TII. Ky grup të dhënash u ndërtua në krye të CommonCrawl dhe iu nënshtrua filtrimit rigoroz për të siguruar cilësi. Pasi modeli u përgatit, ai u vërtetua kundrejt disa standardeve me burim të hapur, duke përfshirë EAI Harness, HELM dhe BigBench.

Përmbledhje e veçorive kryesore të Falcon LLM:

  • Parametrat e gjerë: Falcon-40B është i pajisur me 40 miliardë parametra, duke siguruar mësim dhe performancë gjithëpërfshirëse.
  • Modeli vetëm për dekoderin autoregresiv: Kjo arkitekturë lejon Falcon të parashikojë shenjat e mëvonshme bazuar në ato të mëparshme, të ngjashme me modelin GPT.
  • Performanca Superiore: Falcon tejkalon GPT-3 ndërsa përdor vetëm 75% të buxhetit të llogaritjes së trajnimit.
  • Tubacioni i të dhënave me cilësi të lartë: Tubacioni i të dhënave të TII siguron nxjerrjen e përmbajtjes me cilësi të lartë nga uebfaqja, thelbësore për trajnimin e modelit.
  • Shumëllojshmëri modelesh: Përveç Falcon-40B, TII ofron Falcon-7B dhe modele të specializuara si Falcon-40B-Instruct dhe Falcon-7B-Instruct.
  • Disponueshmëria me burim të hapur: Falcon LLM ka qenë me burim të hapur, duke promovuar aksesueshmërinë dhe përfshirjen në domenin e AI.

5. Vicuna-13B

LMSYS ORG ka lënë një shenjë të rëndësishme në fushën e LLM-ve me burim të hapur me prezantimin e Vicuna-13B. Ky chatbot me burim të hapur është trajnuar me përpikëri duke rregulluar mirë LLaMA në bisedat e përbashkëta të përdoruesve me burim nga ShareGPT. Vlerësimet paraprake, me GPT-4 që vepron si gjyqtar, tregojnë se Vicuna-13B arrin më shumë se 90% cilësi të modeleve të njohura si OpenAI ChatGPT dhe Google Bard.

Në mënyrë mbresëlënëse, Vicuna-13B tejkalon modelet e tjera të dukshme si LLaMA dhe Stanford Alpaca në mbi 90% të rasteve. I gjithë procesi i trajnimit për Vicuna-13B u ekzekutua me një kosto prej rreth 300 dollarë. Për ata që janë të interesuar të eksplorojnë aftësitë e tij, kodi, peshat dhe një demonstrim në internet janë vënë në dispozicion të publikut për qëllime jo komerciale.

Modeli Vicuna-13B është akorduar mirë me 70 mijë biseda ChatGPT të përbashkëta nga përdoruesit, duke i mundësuar atij të gjenerojë përgjigje më të detajuara dhe të strukturuara mirë. Cilësia e këtyre përgjigjeve është e krahasueshme me ChatGPT. Sidoqoftë, vlerësimi i chatbots është një përpjekje komplekse. Me përparimet në GPT-4, ka një kuriozitet në rritje për potencialin e tij për të shërbyer si një kornizë vlerësimi e automatizuar për gjenerimin e standardeve dhe vlerësimet e performancës. Gjetjet fillestare sugjerojnë se GPT-4 mund të prodhojë renditje të qëndrueshme dhe vlerësime të hollësishme kur krahason përgjigjet e chatbot-it. Vlerësimet paraprake të bazuara në GPT-4 tregojnë se Vicuna arrin 90% aftësi të modeleve si Bard/ChatGPT.

Përmbledhje e veçorive kryesore të Vicuna-13B:

  • Natyra me burim të hapur: Vicuna-13B është në dispozicion për akses publik, duke promovuar transparencën dhe përfshirjen e komunitetit.
  • Të dhëna të gjera trajnimi: Modeli është trajnuar për 70 mijë biseda të përbashkëta nga përdoruesit, duke siguruar një kuptim gjithëpërfshirës të ndërveprimeve të ndryshme.
  • Performanca konkurruese: Performanca e Vicuna-13B është e barabartë me liderët e industrisë si ChatGPT dhe Google Bard.
  • Trajnim me kosto efektive: I gjithë procesi i trajnimit për Vicuna-13B u ekzekutua me një kosto të ulët prej rreth 300 dollarë.
  • Rregullimi i imët në LLaMA: Modeli është akorduar mirë në LLaMA, duke siguruar performancë të përmirësuar dhe cilësi përgjigjeje.
  • Disponueshmëria e demonstrimit në internet: Një demonstrim interaktiv në internet është i disponueshëm për përdoruesit për të testuar dhe përjetuar aftësitë e Vicuna-13B.

Zona në zgjerim e modeleve të mëdha gjuhësore

Sfera e Modeleve të Mëdha të Gjuhëve është e gjerë dhe gjithnjë në zgjerim, me çdo model të ri që shtyn kufijtë e asaj që është e mundur. Natyra me burim të hapur të LLM-ve të diskutuara në këtë blog jo vetëm që shfaq frymën bashkëpunuese të komunitetit të AI, por gjithashtu hap rrugën për risitë e ardhshme.

Këto modele, nga aftësitë mbresëlënëse të chatbot-it të Vicuna deri te metrikat superiore të performancës së Falcon, përfaqësojnë majën e teknologjisë aktuale LLM. Ndërsa vazhdojmë të dëshmojmë përparime të shpejta në këtë fushë, është e qartë se modelet me burim të hapur do të luajnë një rol vendimtar në formësimin e së ardhmes së AI.

Qoftë nëse jeni një studiues me përvojë, një entuziast i ri i AI ose dikush kurioz për potencialin e këtyre modeleve, nuk ka kohë më të mirë për t'u zhytur dhe eksploruar mundësitë e mëdha që ato ofrojnë.

Alex McFarland është një gazetar dhe shkrimtar i AI që eksploron zhvillimet më të fundit në inteligjencën artificiale. Ai ka bashkëpunuar me startupe dhe publikime të shumta të AI në mbarë botën.

Një partner themelues i unite.AI dhe një anëtar i Këshilli i Teknologjisë i Forbes, Antoine është një futurist i cili është i apasionuar pas të ardhmes së AI dhe robotikës.

Ai është gjithashtu Themeluesi i Letrat me vlerë.io, një faqe interneti që fokusohet në investimin në teknologjinë përçarëse.