stub 5 bästa LLM:er med öppen källkod (maj 2024) - Unite.AI
Anslut dig till vårt nätverk!
Array ( [ID] => 1 [user_firstname] => Antoine [user_efternamn] => Tardif [smeknamn] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [e-postskyddad]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => En grundare av unite.AI och en medlem av Forbes Technology Council, Antoine är en futurist som brinner för framtiden för AI och robotik. Han är också grundare av Securities.io, en webbplats som fokuserar på att investera i disruptiv teknik. [user_avatar] => mm
)

Bäst Av

5 bästa LLM:er med öppen källkod (maj 2024)

Uppdaterad on
LLM med öppen källkod

I den snabbt utvecklande världen av artificiell intelligens (AI) har stora språkmodeller (LLM) dykt upp som en hörnsten, driver innovationer och omformar hur vi interagerar med teknik.

I takt med att dessa modeller blir allt mer sofistikerade, finns det en växande betoning på att demokratisera tillgången till dem. Särskilt modeller med öppen källkod spelar en avgörande roll i denna demokratisering, och erbjuder både forskare, utvecklare och entusiaster möjligheten att fördjupa sig i deras förvecklingar, finjustera dem för specifika uppgifter eller till och med bygga vidare på deras grunder.

I den här bloggen kommer vi att utforska några av de bästa LLM:erna med öppen källkod som gör vågor i AI-communityt, var och en tar med sina unika styrkor och möjligheter till bordet.

1. Lama 2

Metas Llama 2 är ett banbrytande tillägg till deras AI-modell. Det här är inte bara ytterligare en modell; den är utformad för att driva en rad toppmoderna applikationer. Llama 2:s träningsdata är omfattande och varierande, vilket gör den till ett betydande framsteg jämfört med sin föregångare. Denna mångfald i utbildning säkerställer att Llama 2 inte bara är en stegvis förbättring utan ett monumentalt steg mot framtiden för AI-drivna interaktioner.

Samarbetet mellan Meta och Microsoft har vidgat vyerna för Llama 2. Modellen med öppen källkod stöds nu på plattformar som Azure och Windows, som syftar till att förse utvecklare och organisationer med verktygen för att skapa generativa AI-drivna upplevelser. Detta partnerskap understryker båda företagens engagemang för att göra AI mer tillgängligt och öppet för alla.

Llama 2 är inte bara en efterföljare till den ursprungliga Llama-modellen; det representerar ett paradigmskifte på chatbotarenan. Medan den första Llama-modellen var revolutionerande när det gäller att generera text och kod, var dess tillgänglighet begränsad för att förhindra missbruk. Llama 2, å andra sidan, kommer att nå en bredare publik. Den är optimerad för plattformar som AWS, Azure och Hugging Faces värdplattform för AI-modeller. Dessutom, med Metas samarbete med Microsoft, är Llama 2 redo att sätta sin prägel inte bara på Windows utan även på enheter som drivs av Qualcomms Snapdragon-system-på-chip.

Säkerhet är kärnan i Llama 2:s design. Meta inser utmaningarna som tidigare stora språkmodeller som GPT, som ibland producerade vilseledande eller skadligt innehåll, har vidtagit omfattande åtgärder för att säkerställa Llama 2:s tillförlitlighet. Modellen har genomgått rigorös utbildning för att minimera "hallucinationer", desinformation och fördomar.

De bästa funktionerna i LLaMa 2:

  • Olika träningsdata: Llama 2:s träningsdata är både omfattande och varierande, vilket säkerställer en heltäckande förståelse och prestation.
  • Samarbete med Microsoft: Llama 2 stöds på plattformar som Azure och Windows, vilket breddar dess tillämpningsområde.
  • Öppen tillgänglighet: Till skillnad från sin föregångare är Llama 2 tillgänglig för en bredare publik, redo för finjustering på flera plattformar.
  • Säkerhetscentrerad design: Meta har betonat säkerhet och säkerställer att Llama 2 ger exakta och tillförlitliga resultat samtidigt som skadliga effekter minimeras.
  • Optimerade versioner: Llama 2 kommer i två huvudversioner – Llama 2 och Llama 2-Chat, där den senare är speciellt designad för tvåvägskonversationer. Dessa versioner varierar i komplexitet från 7 miljarder till 70 miljarder parametrar.
  • Förbättrad träning: Llama 2 tränades på två miljoner tokens, en betydande ökning från den ursprungliga Llamas 1.4 biljoner tokens.

2. Bloom

År 2022, efter ett globalt samarbete med volontärer från över 70 länder och experter från Hugging Face, avtäcktes BLOOM-projektet. Denna stora språkmodell (LLM), skapad genom ett årslångt initiativ, är designad för autoregressiv textgenerering, som kan utöka en given textprompt. Den tränades på en enorm korpus av textdata som utnyttjade betydande beräkningskraft.

BLOOMs debut var ett viktigt steg för att göra generativ AI-teknik mer tillgänglig. Som en öppen källkod LLM har den 176 miljarder parametrar, vilket gör den till en av de mest formidabla i sin klass. BLOOM har förmågan att generera sammanhängande och exakt text på 46 språk och 13 programmeringsspråk.

Projektet betonar transparens, vilket ger allmänheten tillgång till dess källkod och utbildningsdata. Denna öppenhet inbjuder till kontinuerlig granskning, användning och förbättring av modellen.

Tillgänglig utan kostnad via Hugging Face-plattformen, står BLOOM som ett bevis på samarbetande innovation inom AI.

Toppegenskaper hos Bloom:

  • Flerspråkig kapacitet: BLOOM är skicklig på att generera text på 46 språk och 13 programmeringsspråk, vilket visar upp sitt breda språkliga utbud.
  • Åtkomst med öppen källkod: Modellens källkod och utbildningsdata är allmänt tillgängliga, vilket främjar transparens och förbättringar i samarbete.
  • Autoregressiv textgenerering: Designad för att fortsätta text från en given prompt, BLOOM utmärker sig när det gäller att utöka och komplettera textsekvenser.
  • Massivt antal parametrar: Med 176 miljarder parametrar står BLOOM som en av de mest kraftfulla LLM:erna med öppen källkod som finns.
  • Globalt samarbete: Utvecklat genom ett årslångt projekt med bidrag från volontärer i mer än 70 länder och Hugging Face-forskare.
  • Gratis tillgänglighet: Användare kan komma åt och använda BLOOM gratis genom Hugging Face-ekosystemet, vilket förbättrar dess demokratisering inom AI-området.
  • Utbildning i industriell skala: Modellen tränades på stora mängder textdata med hjälp av betydande beräkningsresurser, vilket säkerställde robust prestanda.

3. MPT-7B

MosaicML Foundations har gjort ett betydande bidrag till detta utrymme med introduktionen av MPT-7B, deras senaste öppen källkod LLM. MPT-7B, en akronym för MosaicML Pretrained Transformer, är en transformatormodell av GPT-stil som endast är avkodare. Denna modell har flera förbättringar, inklusive prestandaoptimerade lagerimplementeringar och arkitektoniska förändringar som säkerställer större träningsstabilitet.

En utmärkande egenskap hos MPT-7B är dess träning på en omfattande datauppsättning som består av 1 biljon tokens med text och kod. Denna rigorösa utbildning genomfördes på MosaicML-plattformen under en period av 9.5 dagar.

MPT-7Bs natur med öppen källkod positionerar den som ett värdefullt verktyg för kommersiella tillämpningar. Det har potentialen att avsevärt påverka prediktiv analys och beslutsprocesserna i företag och organisationer.

Utöver basmodellen släpper MosaicML Foundations även specialiserade modeller skräddarsydda för specifika uppgifter, såsom MPT-7B-Instruct för att följa kortformiga instruktioner, MPT-7B-Chat för dialoggenerering och MPT-7B-StoryWriter-65k+ för att skapa långa berättelser.

Utvecklingsresan för MPT-7B var omfattande, där MosaicML-teamet hanterade alla steg från dataförberedelse till implementering inom några veckor. Datan hämtades från olika arkiv och teamet använde verktyg som EleutherAI:s GPT-NeoX och 20B-tokenizern för att säkerställa en varierad och omfattande träningsmix.

Huvudfunktioner Översikt av MPT-7B:

  • Kommersiell licensiering: MPT-7B är licensierad för kommersiellt bruk, vilket gör den till en värdefull tillgång för företag.
  • Omfattande utbildningsdata: Modellen stoltserar med träning på ett stort dataset med 1 biljon tokens.
  • Lång ingångshantering: MPT-7B är designad för att hantera extremt långa indata utan att kompromissa.
  • Hastighet och effektivitet: Modellen är optimerad för snabb träning och slutledning, vilket säkerställer snabba resultat.
  • Öppen källkod: MPT-7B kommer med effektiv utbildningskod med öppen källkod, som främjar transparens och användarvänlighet.
  • Jämförande förträfflighet: MPT-7B har visat överlägsenhet gentemot andra modeller med öppen källkod i 7B-20B-serien, med dess kvalitet som matchar den hos LLaMA-7B.

4. Falcon

Falcon LLM, är en modell som snabbt har stigit till toppen av LLM-hierarkin. Falcon LLM, närmare bestämt Falcon-40B, är en grundläggande LLM utrustad med 40 miljarder parametrar och har tränats på imponerande en biljon tokens. Den fungerar som en modell med endast autoregressiv avkodare, vilket i huvudsak betyder att den förutsäger efterföljande token i en sekvens baserat på föregående token. Denna arkitektur påminner om GPT-modellen. Noterbart är att Falcons arkitektur har visat överlägsen prestanda jämfört med GPT-3, och uppnått denna bedrift med endast 75 % av träningsbudgeten och kräver betydligt mindre beräkning under slutledning.

Teamet på Technology Innovation Institute lade stor vikt vid datakvalitet under utvecklingen av Falcon. De insåg LLM:ers känslighet för träningsdatakvalitet och konstruerade en datapipeline som skalade till tiotusentals CPU-kärnor. Detta möjliggjorde snabb bearbetning och extrahering av högkvalitativt innehåll från webben, uppnått genom omfattande filtrerings- och dedupliceringsprocesser.

Förutom Falcon-40B har TII även introducerat andra versioner, inklusive Falcon-7B, som besitter 7 miljarder parametrar och har tränats på 1,500 40 miljarder tokens. Det finns också specialiserade modeller som Falcon-7B-Instruct och Falcon-XNUMXB-Instruct, skräddarsydda för specifika uppgifter.

Att träna Falcon-40B var en omfattande process. Modellen tränades på RefinedWeb dataset, en massiv engelsk webbdatauppsättning konstruerad av TII. Denna datauppsättning byggdes ovanpå CommonCrawl och genomgick rigorös filtrering för att säkerställa kvalitet. När modellen väl förbereddes validerades den mot flera benchmarks med öppen källkod, inklusive EAI Harness, HELM och BigBench.

Huvudfunktioner Översikt över Falcon LLM:

  • Omfattande parametrar: Falcon-40B är utrustad med 40 miljarder parametrar, vilket säkerställer omfattande inlärning och prestanda.
  • Modell med endast autoregressiv avkodare: Denna arkitektur tillåter Falcon att förutsäga efterföljande tokens baserat på föregående, liknande GPT-modellen.
  • Överlägsen prestanda: Falcon överträffar GPT-3 och använder bara 75 % av träningsbudgeten.
  • Datapipeline av hög kvalitet: TII:s datapipeline säkerställer utvinning av högkvalitativt innehåll från webben, avgörande för modellens utbildning.
  • Olika modeller: Förutom Falcon-40B erbjuder TII Falcon-7B och specialiserade modeller som Falcon-40B-Instruct och Falcon-7B-Instruct.
  • Tillgänglighet med öppen källkod: Falcon LLM har varit öppen källkod, vilket främjar tillgänglighet och inkludering inom AI-domänen.

5. Vicuna-13B

LMSYS ORG har gjort en betydande markering inom området för öppen källkod LLM med introduktionen av Vicuna-13B. Denna chatbot med öppen källkod har noggrant tränats genom att finjustera LLaMA på användardelade konversationer från ShareGPT. Preliminära utvärderingar, med GPT-4 som domare, indikerar att Vicuna-13B uppnår mer än 90 % kvalitet av kända modeller som OpenAI ChatGPT och Google Bard.

Imponerande nog överträffar Vicuna-13B andra anmärkningsvärda modeller som LLaMA och Stanford Alpaca i över 90 % av fallen. Hela utbildningsprocessen för Vicuna-13B genomfördes till en kostnad av cirka $300. För dem som är intresserade av att utforska dess möjligheter har koden, vikterna och en onlinedemo gjorts allmänt tillgängliga för icke-kommersiella ändamål.

Vicuna-13B-modellen har finjusterats med 70 4 användardelade ChatGPT-konversationer, vilket gör att den kan generera mer detaljerade och välstrukturerade svar. Kvaliteten på dessa svar är jämförbar med ChatGPT. Att utvärdera chatbots är dock en komplex strävan. Med framstegen inom GPT-4, finns det en växande nyfikenhet på dess potential att fungera som ett automatiskt utvärderingsramverk för benchmarkgenerering och prestationsbedömningar. De första resultaten tyder på att GPT-4 kan producera konsekventa rangordningar och detaljerade bedömningar när man jämför chatbotsvar. Preliminära utvärderingar baserade på GPT-90 visar att Vicuna uppnår XNUMX % kapacitet av modeller som Bard/ChatGPT.

Huvudfunktioner Översikt av Vicuna-13B:

  • Natur med öppen källkod: Vicuna-13B är tillgänglig för allmänheten, vilket främjar transparens och samhällsengagemang.
  • Omfattande utbildningsdata: Modellen har tränats på 70 XNUMX användardelade konversationer, vilket säkerställer en omfattande förståelse för olika interaktioner.
  • Konkurrenskraftig prestanda: Vicuna-13B:s prestanda är i nivå med branschledare som ChatGPT och Google Bard.
  • Kostnadseffektiv utbildning: Hela utbildningsprocessen för Vicuna-13B genomfördes till en låg kostnad på cirka 300 USD.
  • Finjustering på LLaMA: Modellen har finjusterats på LLaMA, vilket säkerställer förbättrad prestanda och svarskvalitet.
  • Tillgänglighet för onlinedemo: En interaktiv onlinedemo är tillgänglig för användare att testa och uppleva funktionerna i Vicuna-13B.

Stora språkmodellers expanderande rike

Området för stora språkmodeller är enormt och ständigt expanderande, där varje ny modell tänjer på gränserna för vad som är möjligt. LLM:erna som diskuteras i den här bloggen med öppen källkod visar inte bara upp samarbetsandan hos AI-gemenskapen utan banar också väg för framtida innovationer.

Dessa modeller, från Vicunas imponerande chatbot-kapacitet till Falcons överlägsna prestandamått, representerar toppen av nuvarande LLM-teknologi. När vi fortsätter att se snabba framsteg inom detta område är det tydligt att modeller med öppen källkod kommer att spela en avgörande roll för att forma framtiden för AI.

Oavsett om du är en erfaren forskare, en blivande AI-entusiast eller någon som är nyfiken på potentialen hos dessa modeller, det finns ingen bättre tid att dyka in och utforska de stora möjligheter de erbjuder.

Alex McFarland är en AI-journalist och författare som utforskar den senaste utvecklingen inom artificiell intelligens. Han har samarbetat med många AI-startups och publikationer över hela världen.

En av grundarna av unite.AI och en medlem av Forbes Technology Council, Antoine är en futurist som brinner för framtiden för AI och robotik.

Han är också grundare av Securities.io, en webbplats som fokuserar på att investera i disruptiv teknik.