stub 5 beste åpen kildekode LLM-er (mai 2024) - Unite.AI
Kontakt med oss
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [kallenavn] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [e-postbeskyttet]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => En grunnlegger av unite.AI og et medlem av Forbes teknologiråd, Antoine er en futurist som brenner for fremtiden til AI og robotikk. Han er også grunnleggeren av Securities.io, et nettsted som fokuserer på å investere i forstyrrende teknologi. [user_avatar] => mm
)

Best av

5 beste LLM-er med åpen kildekode (mai 2024)

oppdatert on
LLM med åpen kildekode

I den raskt utviklende verden av kunstig intelligens (AI), har store språkmodeller (LLM) dukket opp som en hjørnestein, som driver frem innovasjoner og omformer måten vi samhandler med teknologi på.

Etter hvert som disse modellene blir stadig mer sofistikerte, er det en økende vekt på å demokratisere tilgangen til dem. Spesielt åpen kildekode-modeller spiller en sentral rolle i denne demokratiseringen, og tilbyr både forskere, utviklere og entusiaster muligheten til å dykke dypt inn i forviklingene deres, finjustere dem for spesifikke oppgaver, eller til og med bygge videre på grunnlaget deres.

I denne bloggen vil vi utforske noen av de beste open source LLM-ene som skaper bølger i AI-fellesskapet, og hver bringer sine unike styrker og evner til bordet.

1. Lama 2

Metas Llama 2 er et banebrytende tillegg til AI-modellutvalget deres. Dette er ikke bare en annen modell; den er designet for å drive en rekke toppmoderne applikasjoner. Llama 2s treningsdata er enorme og varierte, noe som gjør den til et betydelig fremskritt i forhold til forgjengeren. Dette mangfoldet i trening sikrer at Llama 2 ikke bare er en inkrementell forbedring, men et monumentalt skritt mot fremtiden for AI-drevne interaksjoner.

Samarbeidet mellom Meta og Microsoft har utvidet horisonten for Llama 2. Åpen kildekode-modellen støttes nå på plattformer som Azure og Windows, med sikte på å gi utviklere og organisasjoner verktøy for å skape generative AI-drevne opplevelser. Dette partnerskapet understreker begge selskapers dedikasjon til å gjøre AI mer tilgjengelig og åpen for alle.

Llama 2 er ikke bare en etterfølger til den originale Llama-modellen; det representerer et paradigmeskifte på chatbot-arenaen. Mens den første Llama-modellen var revolusjonerende når det gjaldt å generere tekst og kode, var tilgjengeligheten begrenset for å forhindre misbruk. Llama 2, derimot, er satt til å nå et bredere publikum. Den er optimalisert for plattformer som AWS, Azure og Hugging Faces vertsplattform for AI-modeller. Dessuten, med Metas samarbeid med Microsoft, er Llama 2 klar til å sette sitt preg ikke bare på Windows, men også på enheter drevet av Qualcomms Snapdragon-system-på-brikke.

Sikkerhet er kjernen i Llama 2s design. I erkjennelse av utfordringene tidligere store språkmodeller som GPT, som noen ganger produserte villedende eller skadelig innhold, har Meta tatt omfattende tiltak for å sikre Llama 2s pålitelighet. Modellen har gjennomgått streng opplæring for å minimere "hallusinasjoner", feilinformasjon og skjevheter.

Toppfunksjoner til LLaMa 2:

  • Diverse treningsdata: Llama 2s treningsdata er både omfattende og varierte, noe som sikrer en helhetlig forståelse og ytelse.
  • Samarbeid med Microsoft: Llama 2 støttes på plattformer som Azure og Windows, og utvider applikasjonsomfanget.
  • Åpen tilgjengelighet: I motsetning til forgjengeren, er Llama 2 tilgjengelig for et bredere publikum, klar for finjustering på flere plattformer.
  • Sikkerhetssentrert design: Meta har lagt vekt på sikkerhet, og sørger for at Llama 2 produserer nøyaktige og pålitelige resultater samtidig som den minimerer skadelige utganger.
  • Optimaliserte versjoner: Llama 2 kommer i to hovedversjoner – Llama 2 og Llama 2-Chat, hvor sistnevnte er spesialdesignet for toveis samtaler. Disse versjonene varierer i kompleksitet fra 7 milliarder til 70 milliarder parametere.
  • Forbedret trening: Llama 2 ble trent på to millioner tokens, en betydelig økning fra den originale Lamaens 1.4 billioner tokens.

2. Bloom

I 2022, etter en global samarbeidsinnsats som involverte frivillige fra over 70 land og eksperter fra Hugging Face, ble BLOOM-prosjektet avduket. Denne store språkmodellen (LLM), opprettet gjennom et årelangt initiativ, er designet for autoregressiv tekstgenerering, i stand til å utvide en gitt tekstmelding. Den ble trent på et massivt korpus av tekstdata ved å bruke betydelig beregningskraft.

BLOOMs debut var et viktig skritt i å gjøre generativ AI-teknologi mer tilgjengelig. Som en åpen kildekode LLM har den 176 milliarder parametere, noe som gjør den til en av de mest formidable i sin klasse. BLOOM har ferdighetene til å generere sammenhengende og presis tekst på tvers av 46 språk og 13 programmeringsspråk.

Prosjektet legger vekt på åpenhet, og gir offentlig tilgang til kildekoden og opplæringsdata. Denne åpenheten inviterer til kontinuerlig undersøkelse, bruk og forbedring av modellen.

Tilgjengelig uten kostnad gjennom Hugging Face-plattformen, står BLOOM som et bevis på samarbeidende innovasjon innen AI.

Toppfunksjoner til Bloom:

  • Flerspråklige evner: BLOOM er dyktig i å generere tekst på 46 språk og 13 programmeringsspråk, og viser det brede språklige spekteret.
  • Åpen kildekode-tilgang: Modellens kildekode og opplæringsdata er offentlig tilgjengelig, noe som fremmer åpenhet og samarbeidsforbedring.
  • Autoregressiv tekstgenerering: Designet for å fortsette tekst fra en gitt ledetekst, utmerker BLOOM seg ved å utvide og fullføre tekstsekvenser.
  • Massivt parameterantall: Med 176 milliarder parametere står BLOOM som en av de kraftigste åpen kildekode LLM-ene som finnes.
  • Globalt samarbeid: Utviklet gjennom et årelangt prosjekt med bidrag fra frivillige i mer enn 70 land og Hugging Face-forskere.
  • Gratis tilgjengelighet: Brukere kan få tilgang til og bruke BLOOM gratis gjennom Hugging Face-økosystemet, noe som forbedrer demokratiseringen innen AI.
  • Opplæring i industriell skala: Modellen ble trent på store mengder tekstdata ved å bruke betydelige beregningsressurser, noe som sikrer robust ytelse.

3. MPT-7B

MosaicML Foundations har gitt et betydelig bidrag til dette området med introduksjonen av MPT-7B, deres siste åpen kildekode LLM. MPT-7B, et akronym for MosaicML Pretrained Transformer, er en GPT-stil, dekoder-bare transformatormodell. Denne modellen har flere forbedringer, inkludert ytelsesoptimerte lagimplementeringer og arkitektoniske endringer som sikrer større treningsstabilitet.

En fremtredende funksjon ved MPT-7B er opplæringen på et omfattende datasett som består av 1 billion tokens med tekst og kode. Denne strenge opplæringen ble utført på MosaicML-plattformen over et tidsrom på 9.5 dager.

Åpen kildekode-naturen til MPT-7B posisjonerer den som et verdifullt verktøy for kommersielle applikasjoner. Det har potensial til å påvirke prediktiv analyse og beslutningsprosessene til bedrifter og organisasjoner betydelig.

I tillegg til basismodellen, slipper MosaicML Foundations også spesialiserte modeller skreddersydd for spesifikke oppgaver, som MPT-7B-Instruct for instruksjonsfølging i kort form, MPT-7B-Chat for dialoggenerering og MPT-7B-StoryWriter-65k+ for langformig historieskaping.

Utviklingsreisen til MPT-7B var omfattende, og MosaicML-teamet administrerte alle stadier fra dataforberedelse til distribusjon i løpet av noen få uker. Dataene ble hentet fra forskjellige depoter, og teamet brukte verktøy som EleutherAIs GPT-NeoX og 20B tokenizer for å sikre en variert og omfattende treningsmiks.

Hovedfunksjoner Oversikt over MPT-7B:

  • Kommersiell lisensiering: MPT-7B er lisensiert for kommersiell bruk, noe som gjør den til en verdifull ressurs for bedrifter.
  • Omfattende opplæringsdata: Modellen kan skryte av trening på et enormt datasett på 1 billion tokens.
  • Håndtering av lang inndata: MPT-7B er designet for å behandle ekstremt lange inndata uten kompromisser.
  • Hastighet og effektivitet: Modellen er optimalisert for rask trening og slutninger, og sikrer tidsriktige resultater.
  • Åpen kildekode: MPT-7B kommer med effektiv åpen kildekode-treningskode, som fremmer åpenhet og brukervennlighet.
  • Komparativ fortreffelighet: MPT-7B har vist overlegenhet i forhold til andre åpen kildekode-modeller i 7B-20B-serien, med kvaliteten som matcher den til LLaMA-7B.

4. Falcon

Falcon LLM, er en modell som raskt har steget til toppen av LLM-hierarkiet. Falcon LLM, nærmere bestemt Falcon-40B, er en grunnleggende LLM utstyrt med 40 milliarder parametere og har blitt trent på imponerende en billion tokens. Den fungerer som en autoregressiv dekodermodell, som i hovedsak betyr at den forutsier det påfølgende tokenet i en sekvens basert på de foregående tokenene. Denne arkitekturen minner om GPT-modellen. Spesielt har Falcons arkitektur vist overlegen ytelse i forhold til GPT-3, og oppnådd denne bragden med bare 75 % av treningsberegningsbudsjettet og krever betydelig mindre beregning under inferens.

Teamet ved Technology Innovation Institute la stor vekt på datakvalitet under utviklingen av Falcon. Ved å erkjenne følsomheten til LLM-er for treningsdatakvalitet, konstruerte de en datapipeline som skalert til titusenvis av CPU-kjerner. Dette muliggjorde rask behandling og utvinning av innhold av høy kvalitet fra nettet, oppnådd gjennom omfattende filtrerings- og dedupliseringsprosesser.

I tillegg til Falcon-40B har TII også introdusert andre versjoner, inkludert Falcon-7B, som besitter 7 milliarder parametere og har blitt trent på 1,500 milliarder tokens. Det finnes også spesialiserte modeller som Falcon-40B-Instruct og Falcon-7B-Instruct, skreddersydd for spesifikke oppgaver.

Trening av Falcon-40B var en omfattende prosess. Modellen ble trent på RefinedWeb-datasettet, et massivt engelsk nettdatasett konstruert av TII. Dette datasettet ble bygget på toppen av CommonCrawl og gjennomgikk streng filtrering for å sikre kvalitet. Når modellen ble utarbeidet, ble den validert mot flere åpen kildekode-referanser, inkludert EAI Harness, HELM og BigBench.

Hovedfunksjoner Oversikt over Falcon LLM:

  • Omfattende parametere: Falcon-40B er utstyrt med 40 milliarder parametere, som sikrer omfattende læring og ytelse.
  • Modell med kun autoregressiv dekoder: Denne arkitekturen lar Falcon forutsi påfølgende tokens basert på de foregående, lik GPT-modellen.
  • Overlegen ytelse: Falcon utkonkurrerer GPT-3 mens han bruker bare 75 % av treningsberegningsbudsjettet.
  • Datarørledning av høy kvalitet: TIIs datapipeline sikrer utvinning av innhold av høy kvalitet fra nettet, avgjørende for modellens opplæring.
  • Utvalg av modeller: I tillegg til Falcon-40B tilbyr TII Falcon-7B og spesialiserte modeller som Falcon-40B-Instruct og Falcon-7B-Instruct.
  • Åpen kildekode tilgjengelighet: Falcon LLM har vært åpen kildekode, og fremmer tilgjengelighet og inkludering i AI-domenet.

5. Vicuna-13B

LMSYS ORG har markert seg betydelig i riket av åpen kildekode LLM med introduksjonen av Vicuna-13B. Denne åpen kildekode-chatboten har blitt grundig opplært ved å finjustere LLaMA på brukerdelte samtaler hentet fra ShareGPT. Foreløpige evalueringer, med GPT-4 som dommer, indikerer at Vicuna-13B oppnår mer enn 90 % kvalitet av anerkjente modeller som OpenAI ChatGPT og Google Bard.

På imponerende vis overgår Vicuna-13B andre bemerkelsesverdige modeller som LLaMA og Stanford Alpakka i over 90 % av tilfellene. Hele opplæringsprosessen for Vicuna-13B ble utført til en kostnad på omtrent $300. For de som er interessert i å utforske dens evner, har koden, vektene og en online demo blitt gjort offentlig tilgjengelig for ikke-kommersielle formål.

Vicuna-13B-modellen har blitt finjustert med 70 4 brukerdelte ChatGPT-samtaler, slik at den kan generere mer detaljerte og velstrukturerte svar. Kvaliteten på disse svarene kan sammenlignes med ChatGPT. Evaluering av chatbots er imidlertid en kompleks oppgave. Med fremskritt i GPT-4 er det en økende nysgjerrighet på potensialet til å fungere som et automatisert evalueringsrammeverk for benchmarkgenerering og ytelsesvurderinger. De første funnene tyder på at GPT-4 kan gi konsistente rangeringer og detaljerte vurderinger når man sammenligner chatbot-svar. Foreløpige evalueringer basert på GPT-90 viser at Vicuna oppnår XNUMX % evne til modeller som Bard/ChatGPT.

Hovedfunksjoner Oversikt over Vicuna-13B:

  • Åpen kildekode natur: Vicuna-13B er tilgjengelig for offentligheten, og fremmer åpenhet og samfunnsengasjement.
  • Omfattende opplæringsdata: Modellen har blitt trent på 70 XNUMX brukerdelte samtaler, noe som sikrer en omfattende forståelse av ulike interaksjoner.
  • Konkurransedyktig ytelse: Vicuna-13Bs ytelse er på nivå med bransjeledere som ChatGPT og Google Bard.
  • Kostnadseffektiv opplæring: Hele opplæringsprosessen for Vicuna-13B ble utført til en lav kostnad på rundt $300.
  • Finjustering på LLaMA: Modellen er finjustert på LLaMA, noe som sikrer forbedret ytelse og responskvalitet.
  • Online demo tilgjengelighet: En interaktiv online demo er tilgjengelig for brukere for å teste og oppleve egenskapene til Vicuna-13B.

Det ekspanderende riket av store språkmodeller

Området for store språkmodeller er stort og stadig utvidende, med hver nye modell som flytter grensene for hva som er mulig. Åpen kildekode-naturen til LLM-ene som diskuteres i denne bloggen viser ikke bare samarbeidsånden til AI-fellesskapet, men baner også vei for fremtidige innovasjoner.

Disse modellene, fra Vicunas imponerende chatbot-funksjoner til Falcons overlegne ytelsesmålinger, representerer toppen av dagens LLM-teknologi. Ettersom vi fortsetter å være vitne til raske fremskritt på dette feltet, er det klart at åpen kildekode-modeller vil spille en avgjørende rolle i å forme fremtiden til AI.

Enten du er en erfaren forsker, en spirende AI-entusiast eller noen som er nysgjerrige på potensialet til disse modellene, er det ingen bedre tid til å dykke ned og utforske de enorme mulighetene de tilbyr.

Alex McFarland er en AI-journalist og skribent som utforsker den siste utviklingen innen kunstig intelligens. Han har samarbeidet med en rekke AI-startups og publikasjoner over hele verden.

En grunnlegger av unite.AI og et medlem av Forbes teknologiråd, Antoine er en futurist som brenner for fremtiden til AI og robotikk.

Han er også grunnleggeren av Securities.io, et nettsted som fokuserer på å investere i forstyrrende teknologi.