ciot Cele mai bune 5 LLM-uri cu sursă deschisă (mai 2024) - Unite.AI
Conectează-te cu noi
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [nickname] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [e-mail protejat]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Un partener fondator al unit.AI & un membru al Consiliul Tehnologic Forbes, Antoine este un futurist care este pasionat de viitorul AI și al roboticii. El este, de asemenea, fondatorul Securities.io, un site web care se concentrează pe investițiile în tehnologie disruptivă. [user_avatar] => mm
)

Best Of

5 cele mai bune LLM cu sursă deschisă (mai 2024)

Actualizat on
LLM-uri cu sursă deschisă

În lumea în evoluție rapidă a inteligenței artificiale (AI), modelele de limbaj mari (LLM) au apărut ca piatră de temelie, conducând inovații și remodelând modul în care interacționăm cu tehnologia.

Pe măsură ce aceste modele devin din ce în ce mai sofisticate, se pune un accent tot mai mare pe democratizarea accesului la ele. Modelele open-source, în special, joacă un rol esențial în această democratizare, oferind cercetătorilor, dezvoltatorilor și entuziaștilor deopotrivă oportunitatea de a aprofunda subtilitățile lor, de a le ajusta pentru sarcini specifice sau chiar de a construi pe bazele lor.

În acest blog, vom explora unele dintre cele mai importante LLM-uri open-source care fac furori în comunitatea AI, fiecare aducând punctele forte și capacitățile sale unice.

1. Lama 2

Llama 2 de la Meta este o completare revoluționară la gama lor de modele AI. Acesta nu este doar un alt model; este conceput pentru a alimenta o serie de aplicații de ultimă generație. Datele de antrenament ale Llama 2 sunt vaste și variate, ceea ce îl face un progres semnificativ față de predecesorul său. Această diversitate în instruire asigură că Llama 2 nu este doar o îmbunătățire progresivă, ci un pas monumental către viitorul interacțiunilor bazate pe inteligență artificială.

Colaborarea dintre Meta și Microsoft a extins orizonturile pentru Llama 2. Modelul open-source este acum suportat pe platforme precum Azure și Windows, având ca scop să ofere dezvoltatorilor și organizațiilor instrumentele pentru a crea experiențe generative bazate pe inteligență artificială. Acest parteneriat subliniază angajamentul ambelor companii de a face AI mai accesibilă și mai deschisă tuturor.

Llama 2 nu este doar un succesor al modelului original Llama; reprezintă o schimbare de paradigmă în arena chatbot. În timp ce primul model Llama a fost revoluționar în generarea de text și cod, disponibilitatea sa a fost limitată pentru a preveni utilizarea greșită. Llama 2, pe de altă parte, este setat să ajungă la un public mai larg. Este optimizat pentru platforme precum AWS, Azure și platforma de găzduire model AI Hugging Face. Mai mult decât atât, odată cu colaborarea Meta cu Microsoft, Llama 2 este gata să-și pună amprenta nu numai pe Windows, ci și pe dispozitivele alimentate de sistemul pe cip Snapdragon de la Qualcomm.

Siguranța este în centrul designului lui Llama 2. Recunoscând provocările cu care se confruntă modelele lingvistice mari anterioare, cum ar fi GPT, care uneori produceau conținut înșelător sau dăunător, Meta a luat măsuri ample pentru a asigura fiabilitatea lui Llama 2. Modelul a fost supus unui antrenament riguros pentru a minimiza „halucinațiile”, dezinformarea și părtinirile.

Principalele caracteristici ale LLaMa 2:

  • Date diverse de antrenament: Datele de antrenament ale lui Llama 2 sunt atât extinse, cât și variate, asigurând o înțelegere și o performanță cuprinzătoare.
  • Colaborare cu Microsoft: Llama 2 este acceptat pe platforme precum Azure și Windows, extinzându-și domeniul de aplicare.
  • Disponibilitate deschisă: Spre deosebire de predecesorul său, Llama 2 este disponibil pentru un public mai larg, gata pentru reglaj fin pe mai multe platforme.
  • Design centrat pe siguranță: Meta a subliniat siguranța, asigurându-se că Llama 2 produce rezultate precise și fiabile, minimizând în același timp ieșirile dăunătoare.
  • Versiuni optimizate: Llama 2 vine în două versiuni principale – Llama 2 și Llama 2-Chat, acesta din urmă fiind special conceput pentru conversații în două sensuri. Aceste versiuni variază în complexitate de la 7 la 70 de miliarde de parametri.
  • Instruire îmbunătățită: Llama 2 a fost antrenat pe două milioane de jetoane, o creștere semnificativă față de cele 1.4 trilioane de jetoane ale Llama inițială.

2. Floare

În 2022, după un efort global de colaborare care a implicat voluntari din peste 70 de țări și experți de la Hugging Face, proiectul BLOOM a fost dezvăluit. Acest model de limbă mare (LLM), creat printr-o inițiativă de un an, este conceput pentru generarea de text autoregresiv, capabil să extindă o anumită solicitare de text. A fost antrenat pe un corpus masiv de date text utilizând o putere de calcul substanțială.

Debutul lui BLOOM a fost un pas semnificativ în a face tehnologia AI generativă mai accesibilă. Ca un LLM cu sursă deschisă, se mândrește cu 176 de miliarde de parametri, ceea ce îl face unul dintre cei mai formidabili din clasa sa. BLOOM are competența de a genera text coerent și precis în 46 de limbi și 13 limbi de programare.

Proiectul pune accent pe transparență, permițând accesul publicului la codul sursă și la datele de instruire. Această deschidere invită la examinarea, utilizarea și îmbunătățirea continuă a modelului.

Accesibil fără costuri prin platforma Hugging Face, BLOOM reprezintă o dovadă a inovației colaborative în AI.

Principalele caracteristici ale Bloom:

  • Capacități multilingve: BLOOM este competent în generarea de text în 46 de limbi și 13 limbi de programare, prezentând gama sa lingvistică largă.
  • Acces open-source: Codul sursă al modelului și datele de instruire sunt disponibile public, promovând transparența și îmbunătățirea colaborativă.
  • Generare autoregresivă de text: Conceput pentru a continua textul de la un prompt dat, BLOOM excelează în extinderea și completarea secvențelor de text.
  • Număr masiv de parametri: Cu 176 de miliarde de parametri, BLOOM este unul dintre cele mai puternice LLM open-source existente.
  • Colaborare globală: Dezvoltat printr-un proiect de un an, cu contribuții din partea voluntarilor din peste 70 de țări și a cercetătorilor Hugging Face.
  • Accesibilitate gratuită: Utilizatorii pot accesa și utiliza gratuit BLOOM prin ecosistemul Hugging Face, sporind democratizarea acestuia în domeniul AI.
  • Instruire la scară industrială: Modelul a fost antrenat pe cantități mari de date text folosind resurse de calcul semnificative, asigurând performanță robustă.

3. MPT-7B

MosaicML Foundations a adus o contribuție semnificativă la acest spațiu prin introducerea MPT-7B, cel mai recent LLM open-source al lor. MPT-7B, un acronim pentru MosaicML Pretrained Transformer, este un model de transformator în stil GPT, numai pentru decodor. Acest model are mai multe îmbunătățiri, inclusiv implementări de niveluri optimizate pentru performanță și modificări arhitecturale care asigură o mai mare stabilitate a antrenamentului.

O caracteristică remarcabilă a MPT-7B este formarea sa pe un set extins de date care cuprinde 1 trilion de simboluri de text și cod. Acest antrenament riguros a fost executat pe platforma MosaicML pe o perioadă de 9.5 zile.

Natura open-source a MPT-7B îl poziționează ca un instrument valoros pentru aplicații comerciale. Are potențialul de a avea un impact semnificativ asupra analizei predictive și asupra proceselor decizionale ale companiilor și organizațiilor.

Pe lângă modelul de bază, MosaicML Foundations lansează și modele specializate adaptate pentru sarcini specifice, cum ar fi MPT-7B-Instruct pentru instrucțiuni scurte, MPT-7B-Chat pentru generarea de dialog și MPT-7B-StoryWriter-65k+ pentru crearea unei povești de lungă durată.

Călătoria de dezvoltare a MPT-7B a fost cuprinzătoare, echipa MosaicML gestionând toate etapele de la pregătirea datelor până la implementare în câteva săptămâni. Datele au fost obținute din diverse depozite, iar echipa a folosit instrumente precum GPT-NeoX de la EleutherAI și tokenizerul 20B pentru a asigura un mix de instruire variat și cuprinzător.

Prezentare generală a caracteristicilor cheie ale MPT-7B:

  • Licențiere comercială: MPT-7B este licențiat pentru utilizare comercială, ceea ce îl face un bun valoros pentru afaceri.
  • Date extinse de antrenament: Modelul se mândrește cu antrenament pe un set vast de date de 1 trilion de jetoane.
  • Manevrare lungă a intrărilor: MPT-7B este proiectat pentru a procesa intrări extrem de lungi fără compromisuri.
  • Viteză și eficiență: Modelul este optimizat pentru antrenament și inferență rapidă, asigurând rezultate în timp util.
  • Cod sursă deschisă: MPT-7B vine cu un cod de instruire open-source eficient, promovând transparența și ușurința în utilizare.
  • Excelență comparativă: MPT-7B a demonstrat superioritate față de alte modele open-source din gama 7B-20B, calitatea sa egalându-se cu cea a LLaMA-7B.

4. Şoim

Falcon LLM, este un model care a urcat rapid în vârful ierarhiei LLM. Falcon LLM, în special Falcon-40B, este un LLM de bază echipat cu 40 de miliarde de parametri și a fost antrenat pe un impresionant trilion de jetoane. Funcționează ca un model exclusiv de decodor autoregresiv, ceea ce înseamnă în esență că prezice simbolul următor într-o secvență bazată pe simbolurile precedente. Această arhitectură amintește de modelul GPT. În special, arhitectura Falcon a demonstrat performanțe superioare față de GPT-3, realizând această performanță cu doar 75% din bugetul de calcul de antrenament și necesitând mult mai puțin calcul în timpul inferenței.

Echipa de la Institutul de Inovare Tehnologică a pus un accent puternic pe calitatea datelor în timpul dezvoltării Falcon. Recunoscând sensibilitatea LLM-urilor la calitatea datelor de antrenament, au construit o conductă de date care sa extins la zeci de mii de nuclee CPU. Acest lucru a permis procesarea rapidă și extragerea conținutului de înaltă calitate de pe web, realizate prin procese extinse de filtrare și deduplicare.

Pe lângă Falcon-40B, TII a introdus și alte versiuni, inclusiv Falcon-7B, care posedă 7 miliarde de parametri și a fost antrenat pe 1,500 de miliarde de jetoane. Există, de asemenea, modele specializate precum Falcon-40B-Instruct și Falcon-7B-Instruct, adaptate pentru sarcini specifice.

Antrenamentul Falcon-40B a fost un proces amplu. Modelul a fost antrenat pe setul de date RefinedWeb, un set masiv de date web englezesc construit de TII. Acest set de date a fost construit pe CommonCrawl și a fost supus unei filtre riguroase pentru a asigura calitatea. Odată ce modelul a fost pregătit, acesta a fost validat față de mai multe benchmark-uri open-source, inclusiv EAI Harness, HELM și BigBench.

Prezentare generală a caracteristicilor cheie ale Falcon LLM:

  • Parametri extinși: Falcon-40B este echipat cu 40 de miliarde de parametri, asigurând învățare și performanță cuprinzătoare.
  • Model exclusiv pentru decodor autoregresiv: Această arhitectură îi permite lui Falcon să prezică jetoanele ulterioare pe baza celor precedente, similar modelului GPT.
  • Performanta superioara: Falcon depășește GPT-3 în timp ce utilizează doar 75% din bugetul de calcul de antrenament.
  • Conductă de date de înaltă calitate: Conducta de date TII asigură extragerea de conținut de înaltă calitate de pe web, crucială pentru formarea modelului.
  • Varietate de modele: Pe lângă Falcon-40B, TII oferă Falcon-7B și modele specializate precum Falcon-40B-Instruct și Falcon-7B-Instruct.
  • Disponibilitate open-source: Falcon LLM a fost open-source, promovând accesibilitatea și incluziunea în domeniul AI.

5. Vicuna-13B

LMSYS ORG a făcut o amprentă semnificativă în domeniul LLM-urilor open-source odată cu introducerea Vicuna-13B. Acest chatbot cu sursă deschisă a fost antrenat meticulos prin reglarea fină a LLaMA pe conversațiile partajate de utilizatori provenite din ShareGPT. Evaluările preliminare, cu GPT-4 acționând în calitate de judecător, indică faptul că Vicuna-13B atinge o calitate de peste 90% a modelelor renumite precum OpenAI ChatGPT și Google Bard.

În mod impresionant, Vicuna-13B depășește alte modele notabile, cum ar fi LLaMA și Stanford Alpaca în peste 90% din cazuri. Întregul proces de instruire pentru Vicuna-13B a ​​fost executat la un cost de aproximativ 300 USD. Pentru cei interesați să-și exploreze capacitățile, codul, greutățile și o demonstrație online au fost puse la dispoziția publicului în scopuri necomerciale.

Modelul Vicuna-13B a ​​fost ajustat cu 70 conversații ChatGPT partajate de utilizatori, permițându-i să genereze răspunsuri mai detaliate și bine structurate. Calitatea acestor răspunsuri este comparabilă cu ChatGPT. Cu toate acestea, evaluarea chatbot-urilor este un efort complex. Odată cu progresele în GPT-4, există o curiozitate din ce în ce mai mare cu privire la potențialul său de a servi drept cadru de evaluare automată pentru generarea de benchmark-uri și evaluările performanței. Descoperirile inițiale sugerează că GPT-4 poate produce ranguri consistente și evaluări detaliate atunci când se compară răspunsurile chatbot. Evaluările preliminare bazate pe GPT-4 arată că Vicuna atinge capacitatea de 90% a modelelor precum Bard/ChatGPT.

Prezentare generală a caracteristicilor cheie ale Vicuna-13B:

  • Natura cu sursă deschisă: Vicuna-13B este disponibil pentru acces public, promovând transparența și implicarea comunității.
  • Date extinse de antrenament: Modelul a fost instruit pe 70 conversații partajate de utilizatori, asigurând o înțelegere cuprinzătoare a diverselor interacțiuni.
  • Performanță competitivă: Performanța Vicuna-13B este la egalitate cu liderii din industrie precum ChatGPT și Google Bard.
  • Training rentabil: Întregul proces de instruire pentru Vicuna-13B a ​​fost executat la un cost scăzut de aproximativ 300 USD.
  • Reglaj fin pe LLaMA: Modelul a fost reglat fin pe LLaMA, asigurând performanță îmbunătățită și calitate a răspunsului.
  • Disponibilitatea demonstrației online: O demonstrație online interactivă este disponibilă pentru utilizatori pentru a testa și a experimenta capabilitățile Vicuna-13B.

Tărâmul în expansiune al modelelor de limbaj mari

Domeniul modelelor mari de limbă este vast și în continuă expansiune, fiecare model nou depășind limitele a ceea ce este posibil. Natura open-source a LLM-urilor discutate în acest blog nu numai că arată spiritul de colaborare al comunității AI, ci și deschide calea pentru inovații viitoare.

Aceste modele, de la capabilitățile impresionante de chatbot ale Vicuna până la valorile superioare de performanță ale Falcon, reprezintă vârful tehnologiei LLM actuale. Pe măsură ce continuăm să asistăm la progrese rapide în acest domeniu, este clar că modelele open-source vor juca un rol crucial în modelarea viitorului AI.

Fie că ești un cercetător experimentat, un pasionat de IA în devenire sau cineva curios despre potențialul acestor modele, nu există moment mai potrivit pentru a te scufunda și a explora posibilitățile vaste pe care le oferă.

Alex McFarland este jurnalist și scriitor AI care explorează cele mai recente evoluții în inteligența artificială. A colaborat cu numeroase startup-uri și publicații AI din întreaga lume.

Un partener fondator al unit.AI și un membru al Consiliul Tehnologic Forbes, Antoine este un futurist care este pasionat de viitorul AI și al roboticii.

El este, de asemenea, fondatorul Securities.io, un site web care se concentrează pe investițiile în tehnologie disruptivă.