Conectează-te cu noi

Best Of

5 cele mai bune LLM-uri cu sursă deschisă (august 2025)

mm mm
LLM-uri cu sursă deschisă

Modele de limbaj mari (LLM) au apărut ca piatra de temelie a IA de astăzi, conducând inovațiile și remodelând modul în care interacționăm cu tehnologia.

Pe măsură ce aceste modele devin din ce în ce mai sofisticate, se pune un accent tot mai mare pe democratizarea accesului la ele. Modelele open-source, în special, joacă un rol esențial în această democratizare, oferind cercetătorilor, dezvoltatorilor și entuziaștilor deopotrivă oportunitatea de a aprofunda subtilitățile lor, de a le ajusta pentru sarcini specifice sau chiar de a construi pe bazele lor.

În acest blog, vom explora unele dintre cele mai importante LLM-uri open-source care fac furori în comunitatea AI. Fiecare își aduce punctele forte și capacitățile unice la masă.

1. Lama 3

Metas LLAMA 3 Doar uimită pe toată lumea! (GPT-4 cu sursă deschisă)

Llama 3 de la Meta reprezintă un salt înainte monumental în gama lor de modele de limbă mare open-source. Ca succesor al inovatorului Llama 2 lansat în 2023, Llama 3 stabilește o nouă ultimă generație pentru modelele disponibile în mod deschis la scalele de parametri 8B și 70B. Aceasta nu este doar o actualizare incrementală; este un progres transformator care va permite dezvoltatorilor să creeze aplicații de ultimă oră în limbaj natural, stimulând în același timp cercetarea deschisă și inovația în AI.

Performanța de neegalat a lui Llama 3 se datorează îmbunătățirilor majore ale procesului și arhitecturii sale de preinstruire. Modelul a fost antrenat pe un set de date masiv de peste 15 trilioane de jetoane din surse disponibile public, o cantitate uimitoare de 7 ori mai multe date decât Llama 2. Aceasta include de 4 ori mai multe date de cod pentru a spori capacitățile de codare ale Llama 3, precum și o acoperire semnificativă de peste 30 de ori. limbi pentru a pune bazele viitoarelor versiuni multilingve. S-a folosit o filtrare extinsă pentru a controla aceste date, asigurându-se că Llama 3 a învățat doar din surse de cea mai înaltă calitate.

Dar îmbunătățirile lui Llama 3 depășesc doar mai multe date. Optimizările de ultimă oră ale arhitecturii modelului și ale procesului de instruire au îmbunătățit substanțial abilitățile sale de raționament, generarea de cod, urmărirea instrucțiunilor și diversitatea răspunsurilor. Un tokenizer îmbunătățit face ca Llama 3 să fie cu până la 15% mai eficient decât predecesorul său. Atenția de interogare grupată permite modelului 8B să mențină paritatea de inferență cu modelul 7B anterior.

Sursa: Meta

Rezultatul final este un model de limbaj care excelează la o mare varietate de sarcini complexe de limbă:

  • Generație Creativă: Llama 3 poate genera text extrem de coerent și creativ sub formă de povești, scenarii, piese muzicale, poezii și multe altele.
  • Codificare și raționament: Datorită datelor îmbunătățite de formare a codului, Llama 3 se mândrește cu abilități incredibil de puternice de codare și raționament logic pentru abordarea problemelor complicate.
  • Răspuns la întrebare: Prin conectarea informațiilor în baza sa largă de cunoștințe, Llama 3 poate oferi răspunsuri cu cunoștințe profunde la întrebări pe diverse subiecte.
  • Rezumare: Llama 3 este priceput la producerea de rezumate concise, dar cuprinzătoare, ale articolelor lungi și conținutului real.
  • Urmează instrucțiunile: Una dintre cele mai impresionante fapte ale lui Llama 3 este capacitatea sa de a urma cu acuratețe instrucțiuni complexe în mai mulți pași pentru sarcini deschise.

Viitorul este luminos pentru seria Lama. Meta dezvoltă deja versiuni ale Llama 3 cu peste 400B parametri care nu sunt doar mai mari, ci și multilingvi și multimodali. Testele timpurii arată că aceste modele la scară foarte mare oferă rezultate promițătoare competitive cu cele mai bune sisteme brevetate.

Sursa: Meta

Vizitați Llama 3 →

2. Floare

Introducere Open Source Bloom AI

În 2022, proiectul BLOOM a fost dezvăluit după un efort de colaborare de un an condus de compania de inteligență artificială Hugging Face, care a implicat peste 1,000 de cercetători voluntari din peste 70 de țări. BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) este un model de limbă mare cu 176 de miliarde de parametri, conceput pentru generarea de text autoregresiv, capabil să extindă un anumit mesaj de text pentru a genera povești coerente, scenarii, poezii, articole și multe altele.

Ceea ce îl deosebește pe BLOOM este natura sa de acces deschis – modelul, codul sursă și datele de instruire sunt toate disponibile gratuit sub licențe deschise, spre deosebire de majoritatea celorlalte modele de limbaj mari dezvoltate de companiile de tehnologie. Această deschidere invită la examinarea, utilizarea și îmbunătățirea continuă a modelului de către comunitatea mai largă AI.

BLOOM se mândrește cu capabilități multilingve impresionante, fiind instruit pe un set de date vast de 1.6 TB (corpusul ROOTS) care acoperă 46 de limbi naturale și 13 limbi de programare, peste 30% din date fiind engleză. Pentru multe limbi precum spaniolă și arabă, BLOOM este primul model de dimensiunea sa.

Modelul a fost antrenat timp de 3.5 luni pe supercomputerul Jean Zay din Franța folosind 384 de GPU-uri NVIDIA A100, posibile printr-un grant de calcul din partea guvernului francez – echivalent cu peste 5 milioane de ore de calcul. Bazat pe arhitectura GPT cu modificări, BLOOM realizează performanțe competitive pe benchmark-uri.

Puncte tari cheie ale BLOOM:

  • Acces deschis: Modelul, codul și datele de instruire ale BLOOM sunt disponibile gratuit, democratizând accesul la modele lingvistice puternice și permițând cercetarea deschisă.
  • Competență multilingvă: Instruit pe date care acoperă 46 de limbaje naturale și 13 limbaje de programare, BLOOM are capabilități multilingve extinse.
  • Abilități lingvistice versatile: De la generarea de text până la răspunsuri la întrebări, rezumare, traducere și generare de cod, BLOOM excelează la o varietate de sarcini lingvistice.
  • Dezvoltare responsabilă AI: BLOOM a fost dezvoltat cu accent pe practicile responsabile de AI și este lansat sub o licență care interzice cazurile de utilizare rău intenționate.
  • Implementare ușoară: Dezvoltatorii pot accesa BLOOM prin biblioteca Hugging Face Transformers și îl pot implementa folosind Accelerate.

Privind în viitor, echipa BigScience intenționează să extindă BLOOM în mai multe limbi, să comprima modelul și să-l folosească ca punct de plecare pentru arhitecturi mai avansate. BLOOM reprezintă un pas major în a face modelele mari de limbă mai transparente și accesibile tuturor.

Vizitați Bloom →

3. MPT-7B

MPT-7B - Primul model de stil LLaMA complet antrenat, utilizabil comercial

MosaicML Foundations a adus o contribuție semnificativă la acest spațiu prin introducerea MPT-7B, cel mai recent LLM open-source al lor. MPT-7B, un acronim pentru MosaicML Pretrained Transformer, este un model de transformator în stil GPT, numai pentru decodor. Acest model are mai multe îmbunătățiri, inclusiv implementări de niveluri optimizate pentru performanță și modificări arhitecturale care asigură o mai mare stabilitate a antrenamentului.

O caracteristică remarcabilă a MPT-7B este formarea sa pe un set extins de date care cuprinde 1 trilion de simboluri de text și cod. Acest antrenament riguros a fost executat pe platforma MosaicML pe o perioadă de 9.5 zile.

Natura open-source a MPT-7B îl poziționează ca un instrument valoros pentru aplicații comerciale. Are potențialul de a avea un impact semnificativ asupra analizei predictive și asupra proceselor decizionale ale companiilor și organizațiilor.

Pe lângă modelul de bază, MosaicML Foundations lansează și modele specializate adaptate pentru sarcini specifice, cum ar fi MPT-7B-Instruct pentru instrucțiuni scurte, MPT-7B-Chat pentru generarea de dialog și MPT-7B-StoryWriter-65k+ pentru crearea unei povești de lungă durată.

Călătoria de dezvoltare a MPT-7B a fost cuprinzătoare, echipa MosaicML gestionând toate etapele de la pregătirea datelor până la implementare în câteva săptămâni. Datele au fost obținute din diverse depozite, iar echipa a folosit instrumente precum GPT-NeoX de la EleutherAI și tokenizerul 20B pentru a asigura un mix de instruire variat și cuprinzător.

Prezentare generală a caracteristicilor cheie ale MPT-7B:

  • Licențiere comercială: MPT-7B este licențiat pentru utilizare comercială, ceea ce îl face un bun valoros pentru afaceri.
  • Date extinse de antrenament: Modelul se mândrește cu antrenament pe un set vast de date de 1 trilion de jetoane.
  • Manevrare lungă a intrărilor: MPT-7B este proiectat pentru a procesa intrări extrem de lungi fără compromisuri.
  • Viteză și eficiență: Modelul este optimizat pentru antrenament și inferență rapidă, asigurând rezultate în timp util.
  • Cod sursă deschisă: MPT-7B vine cu un cod de instruire open-source eficient, promovând transparența și ușurința în utilizare.
  • Excelență comparativă: MPT-7B a demonstrat superioritate față de alte modele open-source din gama 7B-20B, calitatea sa egalându-se cu cea a LLaMA-7B.

Vizitați MPT-7B →

4. Șoim 2

Implementează FALCON-180B instantaneu! NOUL Model AI cu sursă deschisă numărul 1

*Video pe Falcon 180B, predecesorul Falcon 2

Falcon 2 este cea mai recentă generație de modele de limbaj mari open-source de la Institutul de Inovare Tehnologică (TII) din Abu Dhabi, bazându-se pe succesul modelelor lor anterioare Falcon 7B, 40B și 180B lansate în 2023. Seria Falcon 2 include în prezent :

  • Falcon 2 11B: Un model de decodor cauzal de 11 miliarde de parametri, care depășește performanța LLaMA 3 8B de la Meta și are performanțe la egalitate cu modelul Gemma 7B de la Google pe benchmark-uri standard, așa cum este verificat de clasamentul Hugging Face.
  • Falcon 2 11B VLM: O versiune multimodală revoluționară a Falcon 2 11B cu capabilități de viziune la limbă, ceea ce îl face unul dintre singurele modele open-source care oferă această funcționalitate.

Sursa: TII

Modelele Falcon 2 sunt complet open source sub permisivă TII Falcon License 2.0, bazată pe Apache 2.0, dar cu o politică de utilizare acceptabilă pentru a promova dezvoltarea responsabilă a AI. Acest lucru permite utilizarea gratuită a modelelor pentru cercetare și majoritatea aplicațiilor comerciale.

Modelele Falcon 2 au fost antrenate pe peste 5 trilioane de jetoane din setul de date îmbunătățit RefinedWeb, care include o combinație diversă de date web de înaltă calitate, cărți, scriere tehnică, cod și conversații. Au fost utilizate tehnici extinse de filtrare și deduplicare pentru a extrage cele mai bune date. Deși sunt încă concentrate în principal pe engleză, o parte din datele de instruire acoperă alte limbi precum germană, spaniolă, franceză și italiană, punând bazele viitoarelor modele multilingve.

Falcon 2 utilizează o arhitectură de transformator optimizată numai pentru decodor, care permite performanțe puternice la o scară mai mică în comparație cu alte modele deschise. TII intenționează să sporească și mai mult eficiența utilizând tehnici precum amestecul de experți în lansările viitoare.

În ceea ce privește capabilitățile brute, Falcon 2 11B excelează la o gamă largă de sarcini în limbaj natural, inclusiv:

  • Generarea de text de conținut coerent de formă lungă, cum ar fi povești și articole
  • Răspunsuri la întrebări cu cunoștințe prin conectarea informațiilor pe diverse subiecte
  • Rezumat de înaltă calitate a articolelor lungi sau a conținutului real
  • Urmează instrucțiuni precise atunci când sunt reglate fin
  • Performanță solidă la benchmark-uri de codare și raționament

Varianta Falcon 2 11B VLM adaugă capacitatea unică de a înțelege imagini și de a genera text bazat atât pe intrări vizuale, cât și pe limbi. Acest lucru permite cazuri de utilizare multimodale puternice, cum ar fi răspunsul vizual la întrebări, subtitrărea imaginilor și raționamentul viziune-la-limbă.

Privind în perspectivă, TII a împărtășit planuri de extindere a seriei Falcon 2 cu modele de dimensiuni mai mari, menținând în același timp un accent pe eficiență și acces deschis. Tehnici precum amestecul de experți vor fi valorificate pentru a extinde capabilitățile fără a crește drastic cerințele de calcul.

Vizitați Falcon 2 →

5. Vicuna-13B

Rulați Vicuna-13B pe computerul dvs. local 🤯 | Tutorial (GPU)

 

LMSYS ORG a făcut o amprentă semnificativă în domeniul LLM-urilor open-source cu Vicuna-13B. Acest chatbot cu sursă deschisă a fost antrenat meticulos prin reglarea fină a LLaMA pe aproximativ 70 de conversații partajate de utilizatori, provenite din ShareGPT.com, folosind API-uri publice. Pentru a asigura calitatea datelor, conversațiile au fost convertite din HTML înapoi în markdown și filtrate pentru a elimina mostrele neadecvate sau de calitate scăzută. Conversațiile lungi au fost, de asemenea, împărțite în segmente mai mici care se potrivesc cu lungimea maximă a contextului modelului.

Evaluările preliminare, cu GPT-4 acționând ca judecător, au indicat că Vicuna-13B a ​​atins o calitate de peste 90% a modelelor renumite precum OpenAI ChatGPT și Google Bard. În mod impresionant, Vicuna-13B a ​​depășit alte modele notabile, cum ar fi LLaMA și Stanford Alpaca în peste 90% din cazuri la acea vreme. Întregul proces de instruire pentru Vicuna-13B a ​​fost executat la un cost de aproximativ 300 USD, utilizând tehnici precum instanțe spot, puncte de control în gradient și atenție flash pentru a optimiza utilizarea memoriei și a reduce costurile. Pentru cei interesați să-și exploreze capacitățile, codul, greutățile și o demonstrație online au fost puse la dispoziția publicului în scopuri necomerciale.

Rețeta de antrenament pentru Vicuna se bazează pe modelul Stanford Alpaca cu câteva îmbunătățiri cheie:

  • Conversații în mai multe rânduri: Pierderea de antrenament este ajustată pentru a ține cont de conversațiile cu mai multe rânduri, calculând pierderea de reglare fină numai pe rezultatul chatbot-ului.
  • Optimizări de memorie: Lungimea maximă a contextului este extinsă de la 512 în Alpaca la 2048 în Vicuna, permițând înțelegerea contextului mai lung cu prețul creșterii cerințelor de memorie GPU. Acest lucru este abordat prin puncte de control în gradient și atenție flash.
  • Reducerea costurilor: Setul de date de 40 ori mai mare și lungimea secvenței de 4 ori au prezentat provocări pentru cheltuielile de formare, dar utilizarea instanțelor spot gestionate prin SkyPilot a redus semnificativ costurile - de la 82 la 140 USD pentru modelul 7B și de la 135 USD la 300 USD pentru modelul 13B.

Pentru a servi Vicuna, a fost construit un sistem de servire distribuit capabil să gestioneze mai multe modele cu lucrători care pot fi conectați în mod flexibil din clustere on-premise sau din cloud. Utilizarea controlerelor tolerante la erori și a instanțelor spot gestionate permite acestui sistem să funcționeze bine cu instanțe spot mai ieftine din mai multe nori pentru a minimiza costurile de servire. Deși în prezent este o implementare ușoară, se lucrează pentru a integra cele mai recente cercetări pentru a îmbunătăți și mai mult infrastructura de deservire.

Caracteristici cheie ale Vicuna-13B:

  • Natura cu sursă deschisă: Vicuna-13B este disponibil pentru acces public, promovând transparența și implicarea comunității.
  • Date extinse de antrenament: Modelul a fost instruit pe 70 conversații partajate de utilizatori, asigurând o înțelegere cuprinzătoare a diverselor interacțiuni.
  • Training rentabil: Tehnici precum instanțele spot gestionate, punctele de control în gradient și atenția flash au permis un antrenament rentabil la aproximativ 300 USD pentru modelul 13B.
  • Rețetă de antrenament îmbunătățită: Vicuna se bazează pe rețeta Alpaca cu îmbunătățiri pentru gestionarea conversațiilor în mai multe rânduri, optimizarea memoriei și reducerea costurilor.
  • Infrastructură de deservire distribuită: Un sistem de servire distribuit flexibil și rentabil a fost construit pentru a face Vicuna accesibilă publicului.
  • Disponibilitatea demonstrației online: O demonstrație online interactivă este disponibilă pentru utilizatori pentru a testa și a experimenta capabilitățile Vicuna-13B.

Este important de menționat că analiza sa bazat pe evaluări preliminare non-științifice folosind GPT-4. Este încă necesară o evaluare riguroasă.

Vizitați Vicuna-13B →

Tărâmul în expansiune al modelelor de limbaj mari

Modelele lingvistice mari reprezintă un domeniu care avansează rapid, modelele noi care depășesc în mod constant granițele de performanță și capabilități. Natura open-source a LLM-urilor discutate în acest articol demonstrează spiritul de colaborare în cadrul comunității AI și pune bazele inovațiilor viitoare.

Aceste modele reprezintă stadiul actual al tehnologiei LLM. Modelele open-source vor juca, fără îndoială, un rol semnificativ în promovarea progreselor viitoare în acest domeniu.

Pentru cercetători, pasionații de inteligență artificială și cei interesați să exploreze potențialele aplicații ale acestor modele, acum este un moment oportun pentru a se angaja și a valorifica capabilitățile extinse oferite de LLM-urile open-source de ultimă oră.

Alex McFarland este jurnalist și scriitor AI care explorează cele mai recente evoluții în inteligența artificială. A colaborat cu numeroase startup-uri și publicații AI din întreaga lume.

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintită pentru modelarea și promovarea viitorului AI și al roboticii. Un antreprenor în serie, el crede că AI va perturba societatea la fel de mult ca electricitatea și este adesea surprins încântător de potențialul tehnologiilor disruptive și AGI.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă oră care redefinesc viitorul și remodelează sectoare întregi.