škrbina 5 najboljih LLM programa otvorenog koda (svibanj 2024.) - Unite.AI
Povežite se s nama
Niz ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [nickname] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [e-pošta zaštićena]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Partner osnivač unite.AI i član Forbesovo tehnološko vijeće, Antoine je a futurist koji je strastven prema budućnosti umjetne inteligencije i robotike. Također je i osnivač Vrijednosni papiri.io, web stranica koja se fokusira na ulaganje u disruptivnu tehnologiju. [korisnički_avatar] => mm
)

Najbolje

5 najboljih LLM-ova otvorenog koda (svibanj 2024.)

Ažurirano on
LLMs otvorenog koda

U svijetu umjetne inteligencije (AI) koji se brzo razvija, veliki jezični modeli (LLM) pojavili su se kao kamen temeljac, pokrećući inovacije i preoblikujući način na koji komuniciramo s tehnologijom.

Kako ti modeli postaju sve sofisticiraniji, sve je veći naglasak na demokratizaciji pristupa njima. Osobito modeli otvorenog koda igraju ključnu ulogu u ovoj demokratizaciji, nudeći istraživačima, programerima i entuzijastima podjednako priliku da prodre duboko u njihove zamršenosti, fino ih prilagode za određene zadatke ili čak nadograđuju njihove temelje.

U ovom blogu istražit ćemo neke od najboljih LLM-ova otvorenog koda koji prave valove u zajednici umjetne inteligencije, a svaki donosi svoje jedinstvene prednosti i mogućnosti.

1. Lama 2

Meta's Llama 2 je revolucionarni dodatak njihovoj liniji AI modela. Ovo nije samo još jedan model; dizajniran je za poticanje niza najsuvremenijih aplikacija. Podaci o treningu Llame 2 su ogromni i raznoliki, što ga čini značajnim napretkom u odnosu na prethodnika. Ova raznolikost u obuci osigurava da Llama 2 nije samo inkrementalno poboljšanje, već i monumentalni korak prema budućnosti interakcija vođenih umjetnom inteligencijom.

Suradnja između Mete i Microsofta proširila je horizonte za Llama 2. Model otvorenog koda sada je podržan na platformama kao što su Azure i Windows, s ciljem pružanja programerima i organizacijama alata za stvaranje generativnih iskustava vođenih umjetnom inteligencijom. Ovo partnerstvo naglašava predanost obiju kompanija da umjetnu inteligenciju učine pristupačnijom i otvorenijom za sve.

Llama 2 nije samo nasljednik originalnog modela Llama; predstavlja promjenu paradigme u areni chatbota. Iako je prvi Llama model bio revolucionaran u generiranju teksta i koda, njegova je dostupnost bila ograničena kako bi se spriječila zlouporaba. Llama 2, s druge strane, treba doći do šire publike. Optimiziran je za platforme kao što su AWS, Azure i platforma za hosting AI modela Hugging Face. Štoviše, uz suradnju Mete i Microsofta, Llama 2 je spremna ostaviti trag ne samo na Windowsima već i na uređajima koje pokreće Qualcommov Snapdragon sustav na čipu.

Sigurnost je u srcu dizajna Llame 2. Prepoznajući izazove s kojima su se suočavali raniji veliki jezični modeli poput GPT-a, koji su ponekad proizvodili obmanjujući ili štetan sadržaj, Meta je poduzela opsežne mjere kako bi osigurala pouzdanost Llame 2. Model je prošao rigoroznu obuku kako bi se smanjile 'halucinacije', dezinformacije i pristranosti.

Glavne značajke LLaMa 2:

  • Različiti podaci o obuci: Podaci o obuci Llame 2 opsežni su i raznoliki, osiguravajući sveobuhvatno razumijevanje i izvedbu.
  • Suradnja s Microsoftom: Llama 2 je podržan na platformama kao što su Azure i Windows, proširujući opseg njegove primjene.
  • Otvorena dostupnost: Za razliku od svog prethodnika, Llama 2 dostupna je široj publici, spremna za fino podešavanje na više platformi.
  • Dizajn usmjeren na sigurnost: Meta je naglasila sigurnost, osiguravajući da Llama 2 proizvodi točne i pouzdane rezultate dok minimalizira štetne rezultate.
  • Optimizirane verzije: Llama 2 dolazi u dvije glavne verzije – Llama 2 i Llama 2-Chat, pri čemu je potonji posebno dizajniran za dvosmjerne razgovore. Ove verzije imaju raspon složenosti od 7 milijardi do 70 milijardi parametara.
  • Poboljšana obuka: Llama 2 je obučen na dva milijuna tokena, što je značajno povećanje u odnosu na originalnih Llaminih 1.4 trilijuna tokena.

2. Cvjetati

Godine 2022., nakon globalnog zajedničkog napora koji uključuje volontere iz više od 70 zemalja i stručnjake iz Hugging Facea, predstavljen je projekt BLOOM. Ovaj veliki jezični model (LLM), stvoren kroz jednogodišnju inicijativu, dizajniran je za autoregresivno generiranje teksta, sposoban proširiti dani tekstualni upit. Bio je obučen na golemom korpusu tekstualnih podataka uz korištenje znatne računalne snage.

BLOOM-ov debi bio je značajan korak u pristupačnijoj generativnoj AI tehnologiji. Kao LLM otvorenog koda, može se pohvaliti sa 176 milijardi parametara, što ga čini jednim od najstrašnijih u svojoj klasi. BLOOM ima sposobnost generiranja koherentnog i preciznog teksta na 46 jezika i 13 programskih jezika.

Projekt naglašava transparentnost, dopuštajući javni pristup svom izvornom kodu i podacima o obuci. Ova otvorenost poziva na stalno ispitivanje, korištenje i poboljšanje modela.

Dostupan bez naknade putem platforme Hugging Face, BLOOM predstavlja dokaz suradničke inovacije u AI.

Glavne značajke Blooma:

  • Višejezične sposobnosti: BLOOM je vješt u generiranju teksta na 46 jezika i 13 programskih jezika, prikazujući svoj široki lingvistički raspon.
  • Pristup otvorenom kodu: Izvorni kod modela i podaci o obuci javno su dostupni, promičući transparentnost i suradničko poboljšanje.
  • Autoregresivno generiranje teksta: Dizajniran za nastavak teksta iz zadanog odziva, BLOOM se ističe u produljivanju i dovršavanju tekstualnih nizova.
  • Veliki broj parametara: Sa 176 milijardi parametara, BLOOM je jedan od najmoćnijih LLM-ova otvorenog koda koji postoje.
  • Globalna suradnja: Razvijen kroz jednogodišnji projekt uz doprinose volontera iz više od 70 zemalja i istraživača Hugging Facea.
  • Besplatna dostupnost: Korisnici mogu besplatno pristupiti i koristiti BLOOM putem ekosustava Hugging Face, poboljšavajući njegovu demokratizaciju u području umjetne inteligencije.
  • Obuka u industrijskim razmjerima: Model je treniran na golemim količinama tekstualnih podataka korištenjem značajnih računalnih resursa, osiguravajući robusnu izvedbu.

3. MPT-7B

Zaklade MosaicML dale su značajan doprinos ovom prostoru uvođenjem MPT-7B, njihovog najnovijeg LLM-a otvorenog koda. MPT-7B, akronim za MosaicML Pretrained Transformer, je GPT model transformatora samo s dekoderom. Ovaj se model može pohvaliti s nekoliko poboljšanja, uključujući implementacije slojeva optimizirane za performanse i arhitektonske promjene koje osiguravaju veću stabilnost treninga.

Izuzetna značajka MPT-7B je njegova obuka na opsežnom skupu podataka koji se sastoji od 1 bilijuna tokena teksta i koda. Ova rigorozna obuka provedena je na platformi MosaicML u rasponu od 9.5 dana.

Priroda otvorenog koda MPT-7B pozicionira ga kao vrijedan alat za komercijalne primjene. Ima potencijal značajnog utjecaja na prediktivnu analitiku i procese donošenja odluka u tvrtkama i organizacijama.

Uz osnovni model, MosaicML Foundations također objavljuje specijalizirane modele prilagođene specifičnim zadacima, kao što su MPT-7B-Instruct za praćenje kratkih uputa, MPT-7B-Chat za generiranje dijaloga i MPT-7B-StoryWriter-65k+ za stvaranje duge priče.

Razvojni put MPT-7B bio je sveobuhvatan, s MosaicML timom koji je upravljao svim fazama od pripreme podataka do implementacije u roku od nekoliko tjedana. Podaci su prikupljeni iz različitih repozitorija, a tim je koristio alate kao što su EleutherAI GPT-NeoX i 20B tokenizer kako bi osigurao raznoliku i sveobuhvatnu kombinaciju treninga.

Pregled ključnih značajki MPT-7B:

  • Komercijalno licenciranje: MPT-7B je licenciran za komercijalnu upotrebu, što ga čini vrijednim sredstvom za tvrtke.
  • Opsežni podaci o obuci: Model se može pohvaliti obukom na ogromnom skupu podataka od 1 trilijuna tokena.
  • Dugo rukovanje unosom: MPT-7B dizajniran je za obradu iznimno dugih ulaza bez kompromisa.
  • Brzina i učinkovitost: Model je optimiziran za brzu obuku i zaključivanje, osiguravajući pravovremene rezultate.
  • Otvoreni kod: MPT-7B dolazi s učinkovitim open-source kodom za obuku, promičući transparentnost i jednostavnost korištenja.
  • Komparativna izvrsnost: MPT-7B je pokazao superiornost u odnosu na druge modele otvorenog koda u rasponu 7B-20B, svojom kvalitetom koja odgovara LLaMA-7B.

4. soko

Falcon LLM, model je koji se brzo popeo na vrh LLM hijerarhije. Falcon LLM, točnije Falcon-40B, temeljni je LLM opremljen s 40 milijardi parametara i obučen na impresivnih bilijun tokena. Djeluje kao model samo za autoregresivni dekoder, što u biti znači da predviđa sljedeći token u nizu na temelju prethodnih tokena. Ova arhitektura podsjeća na GPT model. Značajno je da je Falconova arhitektura pokazala superiorne performanse u odnosu na GPT-3, postigavši ​​ovaj podvig sa samo 75% proračuna za računanje obuke i zahtijevajući znatno manje računanja tijekom zaključivanja.

Tim Instituta za tehnološke inovacije stavio je snažan naglasak na kvalitetu podataka tijekom razvoja Falcona. Prepoznajući osjetljivost LLM-a na kvalitetu podataka o obuci, konstruirali su cjevovod podataka koji je skaliran na desetke tisuća CPU jezgri. To je omogućilo brzu obradu i izdvajanje visokokvalitetnog sadržaja s weba, postignuto opsežnim procesima filtriranja i deduplikacije.

Uz Falcon-40B, TII je predstavio i druge verzije, uključujući Falcon-7B, koji posjeduje 7 milijardi parametara i obučen je na 1,500 milijardi tokena. Postoje i specijalizirani modeli poput Falcon-40B-Instruct i Falcon-7B-Instruct, prilagođeni specifičnim zadacima.

Obuka Falcon-40B bila je opsežan proces. Model je uvježban na RefinedWeb skupu podataka, velikom engleskom web skupu podataka koji je izradio TII. Ovaj skup podataka izgrađen je na temelju CommonCrawla i podvrgnut je rigoroznom filtriranju kako bi se osigurala kvaliteta. Nakon što je model pripremljen, potvrđen je u odnosu na nekoliko benchmarkova otvorenog koda, uključujući EAI Harness, HELM i BigBench.

Pregled ključnih značajki Falcon LLM-a:

  • Opsežni parametri: Falcon-40B opremljen je s 40 milijardi parametara, osiguravajući sveobuhvatno učenje i performanse.
  • Model samo s autoregresijskim dekoderom: Ova arhitektura omogućuje Falconu da predvidi sljedeće tokene na temelju prethodnih, slično GPT modelu.
  • Vrhunska izvedba: Falcon nadmašuje GPT-3 dok iskorištava samo 75% proračuna računala za obuku.
  • Cjevovod podataka visoke kvalitete: TII-jev podatkovni cjevovod osigurava izvlačenje visokokvalitetnog sadržaja s weba, ključnog za obuku modela.
  • Raznolikost modela: Uz Falcon-40B, TII nudi Falcon-7B i specijalizirane modele poput Falcon-40B-Instruct i Falcon-7B-Instruct.
  • Dostupnost otvorenog koda: Falcon LLM je otvorenog koda, promičući pristupačnost i inkluzivnost u domeni umjetne inteligencije.

5. Vićuna-13B

LMSYS ORG je ostavio značajan trag u području LLM-a otvorenog koda uvođenjem Vicuna-13B. Ovaj chatbot otvorenog koda pomno je obučen finim podešavanjem LLaMA-e na razgovore koje dijele korisnici koji potječu iz ShareGPT-a. Preliminarne ocjene, s GPT-4 kao sucem, pokazuju da Vicuna-13B postiže više od 90% kvalitete renomiranih modela kao što su OpenAI ChatGPT i Google Bard.

Impresivno, Vicuna-13B nadmašuje druge značajne modele kao što su LLaMA i Stanford Alpaca u više od 90% slučajeva. Cijeli proces obuke za Vicuna-13B izvršen je po cijeni od približno 300 USD. Za one koji su zainteresirani za istraživanje njegovih mogućnosti, kod, težine i online demonstracija javno su dostupni u nekomercijalne svrhe.

Model Vicuna-13B je fino podešen sa 70 ChatGPT razgovora koje dijele korisnici, što mu omogućuje generiranje detaljnijih i dobro strukturiranih odgovora. Kvaliteta ovih odgovora usporediva je s ChatGPT-om. Međutim, procjena chatbota složen je zadatak. S napretkom u GPT-4, raste znatiželja o njegovom potencijalu da služi kao automatizirani okvir za procjenu za generiranje referentnih vrijednosti i procjene performansi. Početni nalazi sugeriraju da GPT-4 može proizvesti dosljedne rangove i detaljne procjene kada se uspoređuju odgovori chatbota. Preliminarne procjene temeljene na GPT-4 pokazuju da Vicuna postiže 90% mogućnosti modela kao što su Bard/ChatGPT.

Pregled ključnih značajki Vicuna-13B:

  • Priroda otvorenog koda: Vicuna-13B je dostupan za javni pristup, promičući transparentnost i uključenost zajednice.
  • Opsežni podaci o obuci: Model je uvježban na 70 razgovora koje dijele korisnici, osiguravajući sveobuhvatno razumijevanje različitih interakcija.
  • Natjecateljski učinak: Performanse Vicuna-13B u rangu su s vodećima u industriji kao što su ChatGPT i Google Bard.
  • Isplativa obuka: Cjelokupni proces obuke za Vicuna-13B izveden je po niskoj cijeni od oko 300 USD.
  • Fino podešavanje na LLaMA: Model je fino podešen na LLaMA, osiguravajući poboljšane performanse i kvalitetu odziva.
  • Dostupnost online demonstracije: Korisnicima je dostupna interaktivna online demonstracija za testiranje i iskustvo mogućnosti Vicuna-13B.

Širenje područja velikih jezičnih modela

Područje velikih jezičnih modela je ogromno i stalno se širi, sa svakim novim modelom koji pomiče granice onoga što je moguće. Priroda LLM-a otvorenog koda o kojoj se raspravlja na ovom blogu ne samo da prikazuje duh suradnje AI zajednice, već i utire put budućim inovacijama.

Ovi modeli, od Vicuninih impresivnih mogućnosti chatbota do Falconovih superiornih metrika performansi, predstavljaju vrhunac trenutne LLM tehnologije. Budući da nastavljamo svjedočiti brzom napretku u ovom području, jasno je da će modeli otvorenog koda igrati ključnu ulogu u oblikovanju budućnosti umjetne inteligencije.

Bilo da ste iskusni istraživač, početnik AI entuzijast ili netko tko je znatiželjan o potencijalu ovih modela, nema boljeg vremena da zaronite i istražite goleme mogućnosti koje nude.

Alex McFarland je AI novinar i pisac koji istražuje najnovija dostignuća u umjetnoj inteligenciji. Surađivao je s brojnim AI startupovima i publikacijama diljem svijeta.

Osnivač unite.AI i član udruge Forbesovo tehnološko vijeće, Antoine je a futurist koji je strastven prema budućnosti umjetne inteligencije i robotike.

Također je i osnivač Vrijednosni papiri.io, web stranica koja se fokusira na ulaganje u disruptivnu tehnologiju.