Povežite se s nama

Najbolje

5 najboljih LLM studija otvorenog koda (kolovoz 2025.)

mm mm
LLMs otvorenog koda

Veliki jezični modeli (LLM) pojavili su se kao kamen temeljac danaÅ”nje umjetne inteligencije, pokrećući inovacije i preoblikujući način na koji komuniciramo s tehnologijom.

Kako ti modeli postaju sve sofisticiraniji, sve je veći naglasak na demokratizaciji pristupa njima. Osobito modeli otvorenog koda igraju ključnu ulogu u ovoj demokratizaciji, nudeći istraživačima, programerima i entuzijastima podjednako priliku da prodre duboko u njihove zamrÅ”enosti, fino ih prilagode za određene zadatke ili čak nadograđuju njihove temelje.

U ovom blogu istražit ćemo neke od najboljih LLM-ova otvorenog koda koji prave valove u zajednici umjetne inteligencije. Svaki donosi svoje jedinstvene snage i sposobnosti na stol.

1. Lama 3

Metas LLAMA 3 jednostavno je sve ZApanjeo! (GPT-4 otvorenog koda)

Meta's Llama 3 predstavlja monumentalni korak naprijed u njihovoj ponudi velikih jezičnih modela otvorenog koda. Kao nasljednik revolucionarne Llame 2 objavljene 2023., Llama 3 uspostavlja novo stanje umjetnosti za otvoreno dostupne modele na ljestvici parametara 8B i 70B. Ovo nije samo inkrementalno ažuriranje; to je transformativni napredak koji će omogućiti razvojnim programerima da izgrade vrhunske aplikacije prirodnog jezika, a istovremeno potiču otvorena istraživanja i inovacije u umjetnoj inteligenciji.

NenadmaÅ”ne performanse Llame 3 zahvaljuju se velikim poboljÅ”anjima u procesu predvježbavanja i arhitekturi. Model je treniran na golemom skupu podataka od preko 15 trilijuna tokena iz javno dostupnih izvora, nevjerojatnih 7 puta viÅ”e podataka od Llame 2. To uključuje 4 puta viÅ”e podataka koda kako bi se poboljÅ”ale mogućnosti kodiranja Llame 3, kao i značajnu pokrivenost od 30+ jezika kako bi se postavili temelji za buduće viÅ”ejezične verzije. KoriÅ”teno je opsežno filtriranje kako bi se ovi podaci obradili, osiguravajući da Llama 3 uči samo iz najkvalitetnijih izvora.

Ali poboljÅ”anja Llame 3 nadilaze samo viÅ”e podataka. Vrhunske optimizacije arhitekture modela i procesa obuke značajno su poboljÅ”ale njegove sposobnosti razmiÅ”ljanja, generiranje koda, praćenje uputa i raznolikost odgovora. PoboljÅ”ani tokenizator čini Llamu 3 do 15% tokenom učinkovitijom od svog prethodnika. Grupirana pozornost na upit omogućuje modelu 8B da zadrži paritet zaključivanja s prethodnim modelom 7B.

Izvor: Meta

Krajnji rezultat je jezični model koji se ističe u Ŕirokom spektru složenih jezičnih zadataka:

  • Kreativna generacija: Llama 3 može generirati vrlo koherentan i kreativan tekst u obliku priča, scenarija, glazbenih komada, pjesama i viÅ”e.
  • Kodiranje i rasuđivanje: Zahvaljujući poboljÅ”anim podacima za obuku koda, Llama 3 može se pohvaliti nevjerojatno jakim vjeÅ”tinama kodiranja i logičkog zaključivanja za rjeÅ”avanje zamrÅ”enih problema.
  • Odgovaranje na pitanje: Povezivanjem informacija kroz svoju Å”iroku bazu znanja, Llama 3 može pružiti temeljne odgovore na pitanja o različitim temama.
  • Sažimanje: Llama 3 je vjeÅ”t u izradi sažetih, ali sveobuhvatnih sažetaka dugih članaka i činjeničnog sadržaja.
  • Slijedi uputa: Jedan od najdojmljivijih podviga Llame 3 je njegova sposobnost da točno slijedi složene upute u viÅ”e koraka za zadatke otvorenog tipa.

Budućnost je svijetla za seriju Llama. Meta već razvija verzije Llame 3 s preko 400B parametara koje nisu samo veće nego su i viÅ”ejezične i multimodalne. Rano testiranje pokazuje da ovi modeli ultra velikih razmjera daju obećavajuće rezultate koji su konkurentni najboljim vlasničkim sustavima.

Izvor: Meta

Posjetite Llama 3 →

2. Cvjetati

Uvod u Bloom AI otvorenog koda

Projekt BLOOM predstavljen je 2022. nakon jednogodiŔnjeg zajedničkog napora pod vodstvom AI tvrtke Hugging Face koji uključuje viŔe od 1,000 istraživača volontera iz viŔe od 70 zemalja. BLOOM (BigScience Large Open-science Open-access ViŔejezični jezični model) je 176 milijardi parametara veliki jezični model dizajniran za autoregresivno generiranje teksta, sposoban proŔiriti dani tekstualni upit za generiranje koherentnih priča, scenarija, poezije, članaka i viŔe.

Ono Å”to izdvaja BLOOM je njegova priroda otvorenog pristupa – model, izvorni kod i podaci o obuci su besplatno dostupni pod otvorenim licencama, za razliku od većine drugih velikih jezičnih modela koje su razvile tehnoloÅ”ke tvrtke. Ova otvorenost poziva Å”iru AI zajednicu na stalno ispitivanje, koriÅ”tenje i poboljÅ”anje modela.

BLOOM se može pohvaliti impresivnim viÅ”ejezičnim mogućnostima, budući da je obučen na ogromnom skupu podataka od 1.6 TB (korpus ROOTS) koji obuhvaća 46 prirodnih jezika i 13 programskih jezika, s viÅ”e od 30% podataka na engleskom. Za mnoge jezike poput Å”panjolskog i arapskog, BLOOM je prvi model te veličine.

Model je treniran tijekom 3.5 mjeseca na superračunalu Jean Zay u Francuskoj koristeći 384 NVIDIA A100 GPU-a, Å”to je omogućila računalna potpora francuske vlade – Å”to je jednako viÅ”e od 5 milijuna sati računanja. Na temelju GPT arhitekture s izmjenama, BLOOM postiže konkurentne performanse na referentnim vrijednostima.

Ključne prednosti BLOOM-a:

  • Otvoreni pristup: BLOOM-ov model, kod i podaci o obuci su besplatno dostupni, demokratizirajući pristup snažnim jezičnim modelima i omogućujući otvoreno istraživanje.
  • Poznavanje viÅ”e jezika: Obučen na podacima koji obuhvaćaju 46 prirodnih jezika i 13 programskih jezika, BLOOM ima opsežne viÅ”ejezične mogućnosti.
  • Svestrane jezične vjeÅ”tine: Od generiranja teksta do odgovaranja na pitanja, sažimanja, prevođenja i generiranja koda, BLOOM se ističe u raznim jezičnim zadacima.
  • Odgovorni razvoj umjetne inteligencije: BLOOM je razvijen s fokusom na odgovorne prakse umjetne inteligencije i objavljen je pod licencom koja zabranjuje slučajeve zlonamjerne upotrebe.
  • Jednostavna implementacija: Programeri mogu pristupiti BLOOM-u putem biblioteke Hugging Face Transformers i implementirati ga pomoću Accelerate.

Gledajući unaprijed, BigScience tim planira proÅ”iriti BLOOM na viÅ”e jezika, komprimirati model i koristiti ga kao polaziÅ”te za naprednije arhitekture. BLOOM predstavlja veliki korak u izradi velikih jezičnih modela transparentnijim i dostupnijim svima.

Posjetite Bloom →

3. MPT-7B

MPT-7B - Prvi komercijalno upotrebljiv model u stilu LLaMA

Zaklade MosaicML dale su značajan doprinos ovom prostoru uvođenjem MPT-7B, njihovog najnovijeg LLM-a otvorenog koda. MPT-7B, akronim za MosaicML Pretrained Transformer, je GPT model transformatora samo s dekoderom. Ovaj se model može pohvaliti s nekoliko poboljÅ”anja, uključujući implementacije slojeva optimizirane za performanse i arhitektonske promjene koje osiguravaju veću stabilnost treninga.

Izuzetna značajka MPT-7B je njegova obuka na opsežnom skupu podataka koji se sastoji od 1 bilijuna tokena teksta i koda. Ova rigorozna obuka provedena je na platformi MosaicML u rasponu od 9.5 dana.

Priroda otvorenog koda MPT-7B pozicionira ga kao vrijedan alat za komercijalne primjene. Ima potencijal značajnog utjecaja na prediktivnu analitiku i procese donoŔenja odluka u tvrtkama i organizacijama.

Uz osnovni model, MosaicML Foundations također objavljuje specijalizirane modele prilagođene specifičnim zadacima, kao Å”to su MPT-7B-Instruct za praćenje kratkih uputa, MPT-7B-Chat za generiranje dijaloga i MPT-7B-StoryWriter-65k+ za stvaranje duge priče.

Razvojni put MPT-7B bio je sveobuhvatan, s MosaicML timom koji je upravljao svim fazama od pripreme podataka do implementacije u roku od nekoliko tjedana. Podaci su prikupljeni iz različitih repozitorija, a tim je koristio alate kao Ŕto su EleutherAI GPT-NeoX i 20B tokenizer kako bi osigurao raznoliku i sveobuhvatnu kombinaciju treninga.

Pregled ključnih značajki MPT-7B:

  • Komercijalno licenciranje: MPT-7B je licenciran za komercijalnu upotrebu, Å”to ga čini vrijednim sredstvom za tvrtke.
  • Opsežni podaci o obuci: Model se može pohvaliti obukom na ogromnom skupu podataka od 1 trilijuna tokena.
  • Dugo rukovanje unosom: MPT-7B dizajniran je za obradu iznimno dugih ulaza bez kompromisa.
  • Brzina i učinkovitost: Model je optimiziran za brzu obuku i zaključivanje, osiguravajući pravovremene rezultate.
  • Otvoreni kod: MPT-7B dolazi s učinkovitim open-source kodom za obuku, promičući transparentnost i jednostavnost koriÅ”tenja.
  • Komparativna izvrsnost: MPT-7B je pokazao superiornost u odnosu na druge modele otvorenog koda u rasponu 7B-20B, svojom kvalitetom koja odgovara LLaMA-7B.

Posjetite MPT-7B →

4. Falcon 2

Rasporedite FALCON-180B trenutno! NOVI #1 Open-Source AI model

*Video o Falconu 180B, prethodniku Falcona 2

Falcon 2 je najnovija generacija modela velikog jezika otvorenog koda Instituta za tehnoloŔke inovacije (TII) u Abu Dhabiju, koji se oslanja na uspjeh njihovih ranijih modela Falcon 7B, 40B i 180B objavljenih 2023. Serija Falcon 2 trenutno uključuje :

  • Falcon 2 11B: Model samo uzročnog dekodera od 11 milijardi parametara koji nadmaÅ”uje Metin LLaMA 3 8B i ima jednake performanse s Googleovim modelom Gemma 7B na standardnim mjerilima, Å”to je potvrđeno na ljestvici Hugging Face.
  • Falcon 2 11B VLM: Revolucionarna multimodalna verzija Falcona 2 11B s mogućnostima vizije u jezik, Å”to ga čini jednim od rijetkih modela otvorenog koda koji nudi ovu funkcionalnost.

Izvor: TII

Modeli Falcon 2 potpuno su otvorenog koda pod dopuÅ”tenom licencom TII Falcon License 2.0, temeljenom na Apacheu 2.0, ali s prihvatljivom politikom koriÅ”tenja za promicanje odgovornog razvoja umjetne inteligencije. To omogućuje besplatnu upotrebu modela za istraživanje i većinu komercijalnih aplikacija.

Modeli Falcon 2 trenirani su na viÅ”e od 5 trilijuna tokena iz poboljÅ”anog skupa podataka RefinedWeb, koji uključuje raznoliku mjeÅ”avinu visokokvalitetnih web podataka, knjiga, tehničkog pisma, koda i razgovora. Za izdvajanje najboljih podataka koriÅ”tene su opsežne tehnike filtriranja i deduplikacije. Iako je i dalje prvenstveno usmjeren na engleski, dio podataka o obuci pokriva druge jezike poput njemačkog, Å”panjolskog, francuskog i talijanskog, postavljajući temelj za buduće viÅ”ejezične modele.

Falcon 2 koristi optimiziranu transformatorsku arhitekturu samo za dekoder koja omogućuje snažnu izvedbu u manjoj mjeri u usporedbi s drugim otvorenim modelima. TII planira dodatno povećati učinkovitost koristeći tehnike kao Å”to je kombinacija stručnjaka u nadolazećim izdanjima.

Å to se tiče sirovih mogućnosti, Falcon 2 11B ističe se u Å”irokom rasponu zadataka prirodnog jezika, uključujući:

  • Generiranje teksta koherentnog dugog sadržaja poput priča i članaka
  • Znalački odgovori na pitanja povezivanjem informacija o različitim temama
  • Visokokvalitetno sažimanje dugih članaka ili činjeničnog sadržaja
  • Točno praćenje uputa nakon finog podeÅ”avanja
  • Solidna izvedba na referentnim vrijednostima kodiranja i razmiÅ”ljanja

Falcon 2 11B VLM varijanta dodaje jedinstvenu sposobnost razumijevanja slika i generiranja teksta na temelju vizualnih i jezičnih unosa. To omogućuje snažne multimodalne slučajeve upotrebe kao Å”to su vizualni odgovori na pitanja, opisi slika i razmiÅ”ljanje vizije u jezik.

Gledajući unaprijed, TII je podijelio planove za proÅ”irenje serije Falcon 2 s većim veličinama modela, zadržavajući fokus na učinkovitost i otvoreni pristup. Tehnike kao Å”to je mix-of-experts koristit će se za povećanje mogućnosti bez drastičnog povećanja računalnih zahtjeva.

Posjetite Falcon 2 →

5. Vićuna-13B

Pokrenite Vicuna-13B na svom lokalnom računalu 🤯 | Vodič (GPU)

 

LMSYS ORG je ostavio značajan trag u području LLM-a otvorenog koda s Vicuna-13B. Ovaj open-source chatbot pomno je treniran finim podeÅ”avanjem LLaMA-e na oko 70 razgovora koje dijele korisnici izvorno s ShareGPT.com koristeći javne API-je. Kako bi se osigurala kvaliteta podataka, razgovori su pretvoreni iz HTML-a natrag u markdown i filtrirani kako bi se uklonili neprikladni uzorci ili uzorci niske kvalitete. Dugi razgovori također su podijeljeni u manje segmente koji odgovaraju maksimalnoj duljini konteksta modela.

Preliminarne ocjene, s GPT-4 kao sucem, pokazale su da je Vicuna-13B postigao viÅ”e od 90% kvalitete u odnosu na renomirane modele kao Å”to su OpenAI ChatGPT i Google Bard. Impresivno, Vicuna-13B nadmaÅ”ila je druge značajne modele kao Å”to su LLaMA i Stanford Alpaca u viÅ”e od 90% slučajeva u to vrijeme. Cjelokupni proces obuke za Vicuna-13B izvrÅ”en je po cijeni od približno 300 dolara, koristeći tehnike kao Å”to su instance na licu mjesta, gradijent kontrolne točke i brza pozornost kako bi se optimizirala upotreba memorije i smanjili troÅ”kovi. Za one koji su zainteresirani za istraživanje njegovih mogućnosti, kod, težine i online demonstracija javno su dostupni u nekomercijalne svrhe.

Recept za treniranje Vicune temelji se na Stanfordovom modelu Alpaca s nekoliko ključnih poboljŔanja:

  • ViÅ”estruki razgovori: Gubitak uvježbavanja prilagođen je kako bi se uzeli u obzir viÅ”estruki razgovori, računajući gubitak finog podeÅ”avanja isključivo na izlazu chatbota.
  • Optimizacije memorije: Maksimalna duljina konteksta proÅ”irena je s 512 u Alpaci na 2048 u Vicuni, Å”to omogućuje razumijevanje duljeg konteksta po cijenu povećanih zahtjeva za GPU memorijom. Ovo se rjeÅ”ava putem gradijentnih kontrolnih točaka i bljeskalice.
  • Smanjenje troÅ”kova: 40x veći skup podataka i 4x duljina niza predstavljali su izazove za troÅ”kove obuke, ali koriÅ”tenje upravljanih spot instanci putem SkyPilota značajno je smanjilo troÅ”kove – sa 82K$ na 140$ za model 7B i sa 135K$ na 300$ za model 13B.

Za opsluživanje Vicune izgrađen je distribuirani sustav posluživanja koji može rukovati s viÅ”e modela s radnicima koji se mogu fleksibilno priključiti iz lokalnih klastera ili oblaka. KoriÅ”tenje kontrolera otpornih na pogreÅ”ke i upravljanih spot instanci omogućuje ovom sustavu da dobro radi s jeftinijim spot instancama iz viÅ”e oblaka kako bi se smanjili troÅ”kovi posluživanja. Iako je trenutno lagana implementacija, u tijeku je rad na integraciji najnovijih istraživanja kako bi se dodatno unaprijedila infrastruktura posluživanja.

Ključne karakteristike Vicuna-13B:

  • Priroda otvorenog koda: Vicuna-13B je dostupan za javni pristup, promičući transparentnost i uključenost zajednice.
  • Opsežni podaci o obuci: Model je uvježban na 70 razgovora koje dijele korisnici, osiguravajući sveobuhvatno razumijevanje različitih interakcija.
  • Isplativa obuka: Tehnike poput upravljanih instanci na licu mjesta, gradijentnih kontrolnih točaka i brze pažnje omogućile su isplativu obuku od oko 300 USD za model 13B.
  • Recept za poboljÅ”ani trening: Vicuna se nadovezuje na recept Alpaca s poboljÅ”anjima za viÅ”estruko upravljanje razgovorima, optimizaciju memorije i smanjenje troÅ”kova.
  • Infrastruktura distribuiranog posluživanja: Fleksibilan i isplativ distribuirani sustav posluživanja izgrađen je kako bi Vicuna postao javno dostupan.
  • Dostupnost online demonstracije: Korisnicima je dostupna interaktivna online demonstracija za testiranje i iskustvo mogućnosti Vicuna-13B.

Važno je napomenuti da se analiza temeljila na preliminarnim neznanstvenim procjenama pomoću GPT-4. I dalje je potrebna stroga evaluacija.

Posjetite Vicuna-13B →

Širenje područja velikih jezičnih modela

Veliki jezični modeli područje su koje brzo napreduje, s novim modelima koji stalno pomiču granice performansi i mogućnosti. Priroda LLM-a otvorenog koda o kojoj se govori u ovom članku pokazuje duh suradnje unutar AI zajednice i postavlja temelj za buduće inovacije.

Ovi modeli predstavljaju trenutno stanje u LLM tehnologiji. Modeli otvorenog koda nedvojbeno će igrati značajnu ulogu u pokretanju daljnjeg napretka u ovoj domeni.

Za istraživače, entuzijaste umjetne inteligencije i one zainteresirane za istraživanje potencijalnih primjena ovih modela, sada je pravo vrijeme da se pozabave i iskoriste opsežne mogućnosti koje nude najsuvremeniji LLM-ovi otvorenog koda.

Alex McFarland je AI novinar i pisac koji istražuje najnovija dostignuća u umjetnoj inteligenciji. Surađivao je s brojnim AI startupovima i publikacijama diljem svijeta.

Antoine je vizionarski vođa i partner u osnivanju Unite.AI, vođen nepokolebljivom straŔću za oblikovanjem i promicanjem budućnosti umjetne inteligencije i robotike. Kao serijski poduzetnik, on vjeruje da će AI biti razoran za druÅ”tvo kao i električna energija, i često ga se uhvati kako bjesni o potencijalu disruptivnih tehnologija i AGI-ja.

Kao futurist, posvećen je istraživanju kako će ove inovacije oblikovati naÅ” svijet. Osim toga, on je osnivač Vrijednosni papiri.io, platforma usmjerena na ulaganje u vrhunske tehnologije koje redefiniraju budućnost i preoblikuju cijele sektore.