škrbina 5 najboljših odprtokodnih LLM (maj 2024) - Unite.AI
Povežite se z nami
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [nickname] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [e-pošta zaščitena]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Ustanovni partner unite.AI in član Forbesov tehnološki svet, Antoine je a futurist ki je navdušen nad prihodnostjo umetne inteligence in robotike. Je tudi ustanovitelj Securities.io, spletno mesto, ki se osredotoča na vlaganje v prelomno tehnologijo. [uporabniški_avatar] => mm
)

Best Of

5 najboljših odprtokodnih LLM (maj 2024)

Posodobljeno on
Odprtokodni LLM

V hitro razvijajočem se svetu umetne inteligence (AI) so se veliki jezikovni modeli (LLM) pojavili kot temeljni kamen, ki spodbuja inovacije in preoblikuje naš način interakcije s tehnologijo.

Ker ti modeli postajajo vse bolj izpopolnjeni, je vedno večji poudarek na demokratizaciji dostopa do njih. Zlasti odprtokodni modeli igrajo ključno vlogo pri tej demokratizaciji, saj raziskovalcem, razvijalcem in navdušencem ponujajo možnost, da se poglobijo v njihove zapletenosti, jih natančno prilagodijo za posebne naloge ali celo gradijo na njihovih temeljih.

V tem spletnem dnevniku bomo raziskali nekaj najboljših odprtokodnih LLM-jev, ki zbujajo valove v skupnosti umetne inteligence, pri čemer vsak prinaša svoje edinstvene prednosti in zmogljivosti.

1. Lama 2

Meta's Llama 2 je prelomen dodatek k njihovi liniji modelov z umetno inteligenco. To ni le še en model; zasnovan je tako, da podpira vrsto najsodobnejših aplikacij. Podatki o usposabljanju Llame 2 so obsežni in raznoliki, zaradi česar je pomemben napredek v primerjavi s predhodnikom. Ta raznolikost v usposabljanju zagotavlja, da Llama 2 ni le postopna izboljšava, ampak monumentalen korak k prihodnosti interakcij, ki jih poganja umetna inteligenca.

Sodelovanje med Meto in Microsoftom je razširilo obzorja za Llama 2. Odprtokodni model je zdaj podprt na platformah, kot sta Azure in Windows, s ciljem razvijalcem in organizacijam zagotoviti orodja za ustvarjanje generativnih izkušenj, ki temeljijo na AI. To partnerstvo poudarja predanost obeh podjetij, da naredita AI bolj dostopno in odprto za vse.

Llama 2 ni samo naslednik prvotnega modela Llama; predstavlja spremembo paradigme v areni chatbotov. Čeprav je bil prvi model Llama revolucionaren pri ustvarjanju besedila in kode, je bila njegova razpoložljivost omejena, da bi preprečili zlorabo. Llama 2 pa naj bi dosegla širše občinstvo. Optimiziran je za platforme, kot so AWS, Azure in platforma za gostovanje modelov AI Hugging Face. Še več, s sodelovanjem Mete z Microsoftom je Llama 2 pripravljena zaznamovati ne le v sistemu Windows, temveč tudi v napravah, ki jih poganja Qualcommov sistem na čipu Snapdragon.

Varnost je v središču zasnove Llame 2. Ob spoznanju izzivov, s katerimi so se soočali prejšnji veliki jezikovni modeli, kot je GPT, ki so včasih ustvarili zavajajočo ali škodljivo vsebino, je Meta sprejela obsežne ukrepe za zagotovitev zanesljivosti Llame 2. Model je bil podvržen strogemu usposabljanju, da bi zmanjšal 'halucinacije', dezinformacije in pristranskosti.

Najboljše lastnosti LLaMa 2:

  • Različni podatki o usposabljanju: Podatki o usposabljanju Llame 2 so obsežni in raznoliki, kar zagotavlja celovito razumevanje in učinkovitost.
  • Sodelovanje z Microsoftom: Llama 2 je podprta na platformah, kot sta Azure in Windows, s čimer se razširi njen obseg uporabe.
  • Odprta razpoložljivost: Za razliko od svojega predhodnika je Llama 2 na voljo širšemu občinstvu, pripravljena za natančno prilagajanje na več platformah.
  • Zasnova, osredotočena na varnost: Meta je poudarila varnost in zagotovila, da Llama 2 proizvaja natančne in zanesljive rezultate, hkrati pa zmanjšuje škodljive rezultate.
  • Optimizirane različice: Llama 2 je na voljo v dveh glavnih različicah – Llama 2 in Llama 2-Chat, pri čemer je slednja zasnovana posebej za dvosmerne pogovore. Te različice imajo kompleksnost od 7 milijard do 70 milijard parametrov.
  • Izboljšano usposabljanje: Llama 2 je bila usposobljena na dveh milijonih žetonov, kar je precejšnje povečanje v primerjavi z 1.4 bilijona žetonov prvotne Llame.

2. Bloom

Leta 2022 je bil po globalnem skupnem prizadevanju, ki je vključevalo prostovoljce iz več kot 70 držav in strokovnjake iz Hugging Face, predstavljen projekt BLOOM. Ta veliki jezikovni model (LLM), ustvarjen z enoletno pobudo, je zasnovan za avtoregresivno generiranje besedila, ki lahko razširi dani besedilni poziv. Učen je bil na ogromnem korpusu besedilnih podatkov z uporabo znatne računalniške moči.

Prvenec BLOOM-a je bil pomemben korak k temu, da je generativna AI tehnologija bolj dostopna. Kot odprtokodni LLM se ponaša s 176 milijardami parametrov, zaradi česar je eden najmočnejših v svojem razredu. BLOOM je usposobljen za ustvarjanje koherentnega in natančnega besedila v 46 jezikih in 13 programskih jezikih.

Projekt poudarja preglednost, saj omogoča javni dostop do izvorne kode in podatkov o usposabljanju. Ta odprtost vabi k stalnemu pregledovanju, uporabi in izboljšanju modela.

BLOOM, ki je brezplačno dostopen prek platforme Hugging Face, predstavlja dokaz sodelovalnih inovacij v AI.

Najboljše lastnosti Blooma:

  • Večjezične zmogljivosti: BLOOM je vešč generiranja besedila v 46 jezikih in 13 programskih jezikih, s čimer predstavlja svoj širok jezikovni razpon.
  • Odprtokodni dostop: Izvorna koda modela in podatki o usposabljanju so javno dostopni, kar spodbuja preglednost in izboljšanje sodelovanja.
  • Avtoregresivno ustvarjanje besedila: Zasnovan za nadaljevanje besedila iz danega poziva, BLOOM blesti pri razširitvi in ​​dokončanju besedilnih zaporedij.
  • Ogromno število parametrov: S 176 milijardami parametrov BLOOM velja za enega najmočnejših obstoječih odprtokodnih LLM.
  • Globalno sodelovanje: Razvit v okviru enoletnega projekta s prispevki prostovoljcev iz več kot 70 držav in raziskovalcev Hugging Face.
  • Brezplačna dostopnost: Uporabniki lahko brezplačno dostopajo do BLOOMa in ga uporabljajo prek ekosistema Hugging Face, kar povečuje njegovo demokratizacijo na področju umetne inteligence.
  • Usposabljanje v industrijskem obsegu: Model je bil učen na ogromnih količinah besedilnih podatkov z uporabo znatnih računalniških virov, kar je zagotovilo robustno delovanje.

3. MPT-7B

MosaicML Foundations je pomembno prispevala k temu prostoru z uvedbo MPT-7B, njihove najnovejše odprtokodne LLM. MPT-7B, akronim za MosaicML Pretrained Transformer, je model transformatorja v slogu GPT, ki uporablja samo dekoder. Ta model se ponaša z več izboljšavami, vključno z implementacijami plasti, optimiziranimi za zmogljivost, in arhitekturnimi spremembami, ki zagotavljajo večjo stabilnost vadbe.

Izstopajoča lastnost MPT-7B je njegovo usposabljanje na obsežnem naboru podatkov, ki obsega 1 bilijon žetonov besedila in kode. To strogo usposabljanje je bilo izvedeno na platformi MosaicML v razponu 9.5 dni.

Odprtokodna narava MPT-7B ga postavlja kot dragoceno orodje za komercialne aplikacije. Vsebuje potencial, da pomembno vpliva na napovedno analitiko in procese odločanja podjetij in organizacij.

Poleg osnovnega modela MosaicML Foundations izdaja tudi specializirane modele, prilagojene za posebne naloge, kot je MPT-7B-Instruct za sledenje kratkim navodilom, MPT-7B-Chat za ustvarjanje dialoga in MPT-7B-StoryWriter-65k+ za ustvarjanje dolgoletne zgodbe.

Razvojna pot MPT-7B je bila celovita, z ekipo MosaicML, ki je v nekaj tednih upravljala vse faze od priprave podatkov do uvedbe. Podatki so bili pridobljeni iz različnih skladišč, ekipa pa je uporabila orodja, kot sta GPT-NeoX podjetja EleutherAI in tokenizer 20B, da bi zagotovila raznoliko in celovito mešanico usposabljanja.

Pregled ključnih funkcij MPT-7B:

  • Komercialno licenciranje: MPT-7B ima licenco za komercialno uporabo, zaradi česar je dragoceno sredstvo za podjetja.
  • Obsežni podatki o usposabljanju: Model se ponaša z usposabljanjem na obsežnem naboru podatkov z 1 bilijonom žetonov.
  • Obravnava dolgega vnosa: MPT-7B je zasnovan za brezkompromisno obdelavo izjemno dolgih vnosov.
  • Hitrost in učinkovitost: Model je optimiziran za hitro usposabljanje in sklepanje, kar zagotavlja pravočasne rezultate.
  • Odprtokodna koda: MPT-7B ima učinkovito odprtokodno kodo za usposabljanje, ki spodbuja preglednost in enostavnost uporabe.
  • Primerjalna odličnost: MPT-7B je dokazal superiornost nad drugimi odprtokodnimi modeli v razponu 7B-20B, saj se njegova kakovost ujema s kakovostjo LLaMA-7B.

4. Falcon

Falcon LLM, je model, ki se je hitro povzpel na vrh LLM hierarhije. Falcon LLM, natančneje Falcon-40B, je temeljni LLM, opremljen s 40 milijardami parametrov in je bil usposobljen na impresivnem bilijonu žetonov. Deluje samo kot avtoregresivni model dekoderja, kar v bistvu pomeni, da napove naslednji žeton v zaporedju na podlagi predhodnih žetonov. Ta arhitektura spominja na model GPT. Predvsem Falconova arhitektura je pokazala vrhunsko zmogljivost v primerjavi z GPT-3, saj je ta podvig dosegla s samo 75 % proračuna za računanje za usposabljanje in med sklepanjem zahteva bistveno manj računanja.

Ekipa na Inštitutu za tehnološke inovacije je med razvojem Falcona dala velik poudarek kakovosti podatkov. Ker so spoznali občutljivost LLM-jev na kakovost podatkov o usposabljanju, so izdelali podatkovni cevovod, ki je obsegal več deset tisoč jeder CPU. To je omogočilo hitro obdelavo in pridobivanje visokokakovostne vsebine iz spleta, kar je bilo doseženo z obsežnimi postopki filtriranja in deduplikacije.

Poleg Falcon-40B je TII predstavil tudi druge različice, vključno s Falcon-7B, ki ima 7 milijard parametrov in je bila usposobljena na 1,500 milijardah žetonov. Obstajajo tudi specializirani modeli, kot sta Falcon-40B-Instruct in Falcon-7B-Instruct, prilagojeni za posebne naloge.

Šolanje Falcon-40B je bil obsežen proces. Model je bil usposobljen na naboru podatkov RefinedWeb, velikem angleškem spletnem naboru podatkov, ki ga je izdelal TII. Ta nabor podatkov je bil zgrajen na podlagi CommonCrawl in je bil podvržen strogemu filtriranju, da se zagotovi kakovost. Ko je bil model pripravljen, je bil potrjen glede na več odprtokodnih meril uspešnosti, vključno z EAI Harness, HELM in BigBench.

Pregled ključnih funkcij Falcon LLM:

  • Obsežni parametri: Falcon-40B je opremljen s 40 milijardami parametrov, kar zagotavlja celovito učenje in zmogljivost.
  • Model samo z avtoregresijskim dekoderjem: Ta arhitektura omogoča Falconu, da predvidi naslednje žetone na podlagi prejšnjih, podobno kot model GPT.
  • Vrhunska zmogljivost: Falcon prekaša GPT-3, medtem ko porabi le 75 % proračuna za računalništvo za usposabljanje.
  • Visokokakovostni podatkovni cevovod: Podatkovni cevovod TII zagotavlja pridobivanje visokokakovostnih vsebin iz spleta, ki so ključne za usposabljanje modela.
  • Raznolikost modelov: Poleg Falcon-40B TII ponuja Falcon-7B in specializirane modele, kot sta Falcon-40B-Instruct in Falcon-7B-Instruct.
  • Razpoložljivost odprte kode: Falcon LLM je bil odprtokoden in spodbuja dostopnost in vključenost na področju umetne inteligence.

5. Vikuna-13B

LMSYS ORG je s predstavitvijo Vicuna-13B naredil pomemben pečat na področju odprtokodnih LLM. Ta odprtokodni klepetalni robot je bil natančno usposobljen s fino nastavitvijo LLaMA na pogovore, ki jih delijo uporabniki in izvirajo iz ShareGPT. Predhodne ocene, pri čemer GPT-4 deluje kot sodnik, kažejo, da Vicuna-13B dosega več kot 90-odstotno kakovost priznanih modelov, kot sta OpenAI ChatGPT in Google Bard.

Presenetljivo je, da Vicuna-13B prekaša druge pomembne modele, kot sta LLaMA in Stanford Alpaca, v več kot 90 % primerov. Celoten proces usposabljanja za Vicuna-13B je bil izveden po ceni približno 300 USD. Za tiste, ki želijo raziskati njegove zmogljivosti, so koda, uteži in spletna predstavitev javno dostopni v nekomercialne namene.

Model Vicuna-13B je bil natančno nastavljen s 70 pogovori ChatGPT v skupni rabi uporabnikov, kar mu omogoča ustvarjanje podrobnejših in dobro strukturiranih odgovorov. Kakovost teh odgovorov je primerljiva s ChatGPT. Ocenjevanje chatbotov pa je kompleksen podvig. Z napredkom v GPT-4 narašča radovednost glede njegovega potenciala, da služi kot samodejni ocenjevalni okvir za ustvarjanje primerjalnih vrednosti in ocene uspešnosti. Začetne ugotovitve kažejo, da lahko GPT-4 ustvari konsistentne uvrstitve in podrobne ocene pri primerjavi odzivov chatbotov. Predhodne ocene na podlagi GPT-4 kažejo, da Vicuna dosega 90-odstotno zmogljivost modelov, kot je Bard/ChatGPT.

Pregled ključnih funkcij Vicuna-13B:

  • Odprtokodna narava: Vicuna-13B je na voljo za javni dostop, kar spodbuja preglednost in sodelovanje skupnosti.
  • Obsežni podatki o usposabljanju: Model je bil usposobljen za 70 pogovorov, ki so jih delili uporabniki, kar zagotavlja celovito razumevanje različnih interakcij.
  • Konkurenčni nastop: Zmogljivost Vicuna-13B je enaka vodilnim v industriji, kot sta ChatGPT in Google Bard.
  • Stroškovno učinkovito usposabljanje: Celoten proces usposabljanja za Vicuna-13B je bil izveden po nizki ceni okoli 300 USD.
  • Natančna nastavitev na LLaMA: Model je bil natančno nastavljen na LLaMA, kar zagotavlja izboljšano zmogljivost in kakovost odziva.
  • Razpoložljivost spletne predstavitve: Uporabnikom je na voljo interaktivna spletna predstavitev, s katero lahko preizkusijo in izkusijo zmogljivosti Vicuna-13B.

Razširjeno področje velikih jezikovnih modelov

Področje velikih jezikovnih modelov je ogromno in se nenehno širi, pri čemer vsak nov model premika meje možnega. Odprtokodna narava LLM-jev, o katerih razpravljamo v tem blogu, ne prikazuje le duha sodelovanja skupnosti AI, ampak tudi utira pot prihodnjim inovacijam.

Ti modeli, od Vicuninih impresivnih zmogljivosti chatbota do Falconovih vrhunskih meritev zmogljivosti, predstavljajo vrhunec trenutne tehnologije LLM. Ker smo še naprej priča hitremu napredku na tem področju, je jasno, da bodo imeli odprtokodni modeli ključno vlogo pri oblikovanju prihodnosti umetne inteligence.

Ne glede na to, ali ste izkušen raziskovalec, nadebudni navdušenec AI ali nekdo, ki ga zanima potencial teh modelov, ni boljšega časa, da se potopite vanje in raziščete ogromne možnosti, ki jih ponujajo.

Alex McFarland je novinar in pisec AI, ki raziskuje najnovejši razvoj umetnih inteligenc. Sodeloval je s številnimi startupi in publikacijami na področju umetne inteligence po vsem svetu.

Ustanovni partner unite.AI in član Forbesov tehnološki svet, Antoine je a futurist ki je navdušen nad prihodnostjo umetne inteligence in robotike.

Je tudi ustanovitelj Securities.io, spletno mesto, ki se osredotoča na vlaganje v prelomno tehnologijo.