stub 5 Bedste Open Source LLM'er (maj 2024) - Unite.AI
Følg os
Array ( [ID] => 1 [bruger_fornavn] => Antoine [bruger_efternavn] => Tardif [kaldenavn] => Antoine Tardif [bruger_nicename] => admin [display_name] => Antoine Tardif [bruger_e-mail] => [e-mail beskyttet]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => En stiftende partner af unite.AI og et medlem af Forbes Technology Council, Antoine er en fremtidsforsker der brænder for fremtiden for kunstig intelligens og robotteknologi. Han er også grundlægger af Værdipapirer.io, en hjemmeside, der fokuserer på at investere i disruptiv teknologi. [bruger_avatar] => mm
)

Best Of

5 bedste Open Source LLM'er (maj 2024)

Opdateret on
Open Source LLM'er

I den hastigt udviklende verden af ​​kunstig intelligens (AI) er store sprogmodeller (LLM'er) dukket op som en hjørnesten, der driver innovationer og omformer den måde, vi interagerer med teknologi på.

Efterhånden som disse modeller bliver mere og mere sofistikerede, lægges der en stigende vægt på at demokratisere adgangen til dem. Især open source-modeller spiller en central rolle i denne demokratisering og giver både forskere, udviklere og entusiaster mulighed for at dykke dybt ned i deres forviklinger, finjustere dem til specifikke opgaver eller endda bygge videre på deres fundament.

I denne blog vil vi udforske nogle af de bedste open source LLM'er, der laver bølger i AI-fællesskabet, og hver bringer deres unikke styrker og evner til bordet.

1. Lama 2

Metas Llama 2 er en banebrydende tilføjelse til deres AI-modeludvalg. Dette er ikke bare endnu en model; den er designet til at give næring til en række avancerede applikationer. Llama 2s træningsdata er enorme og varierede, hvilket gør den til et betydeligt fremskridt i forhold til sin forgænger. Denne mangfoldighed i træning sikrer, at Llama 2 ikke kun er en trinvis forbedring, men et monumentalt skridt mod fremtiden for AI-drevne interaktioner.

Samarbejdet mellem Meta og Microsoft har udvidet horisonten for Llama 2. Open source-modellen understøttes nu på platforme som Azure og Windows, med det formål at give udviklere og organisationer værktøjerne til at skabe generative AI-drevne oplevelser. Dette partnerskab understreger begge virksomheders dedikation til at gøre kunstig intelligens mere tilgængelig og åben for alle.

Llama 2 er ikke bare en efterfølger til den originale Llama-model; det repræsenterer et paradigmeskift i chatbot-arenaen. Mens den første Llama-model var revolutionerende til at generere tekst og kode, var dens tilgængelighed begrænset for at forhindre misbrug. Llama 2 på den anden side skal nå ud til et bredere publikum. Den er optimeret til platforme som AWS, Azure og Hugging Faces AI-modelhostingplatform. Med Metas samarbejde med Microsoft er Llama 2 desuden klar til at sætte sit præg ikke kun på Windows, men også på enheder drevet af Qualcomms Snapdragon system-on-chip.

Sikkerhed er kernen i Llama 2's design. I erkendelse af udfordringerne, som tidligere store sprogmodeller som GPT, som nogle gange producerede vildledende eller skadeligt indhold, har Meta truffet omfattende foranstaltninger for at sikre Llama 2's pålidelighed. Modellen har gennemgået en streng træning for at minimere 'hallucinationer', misinformation og skævheder.

Topfunktioner i LLaMa 2:

  • Diverse træningsdata: Llama 2's træningsdata er både omfattende og varieret, hvilket sikrer en omfattende forståelse og ydeevne.
  • Samarbejde med Microsoft: Llama 2 understøttes på platforme som Azure og Windows, hvilket udvider dets anvendelsesområde.
  • Åben tilgængelighed: I modsætning til sin forgænger er Llama 2 tilgængelig for et bredere publikum, klar til finjustering på flere platforme.
  • Sikkerhedscentreret design: Meta har lagt vægt på sikkerhed og sikrer, at Llama 2 producerer nøjagtige og pålidelige resultater, samtidig med at skadelige output minimeres.
  • Optimerede versioner: Llama 2 kommer i to hovedversioner – Llama 2 og Llama 2-Chat, hvor sidstnævnte er specielt designet til tovejssamtaler. Disse versioner varierer i kompleksitet fra 7 milliarder til 70 milliarder parametre.
  • Udvidet træning: Llama 2 blev trænet på to millioner tokens, en betydelig stigning fra den originale Lama's 1.4 billioner tokens.

2. Bloom

I 2022, efter en global samarbejdsindsats, der involverede frivillige fra over 70 lande og eksperter fra Hugging Face, blev BLOOM-projektet afsløret. Denne store sprogmodel (LLM), skabt gennem et årelangt initiativ, er designet til autoregressiv tekstgenerering, der er i stand til at udvide en given tekstprompt. Det blev trænet på et massivt korpus af tekstdata, der udnyttede betydelig regnekraft.

BLOOMs debut var et vigtigt skridt i at gøre generativ AI-teknologi mere tilgængelig. Som en open source LLM kan den prale af 176 milliarder parametre, hvilket gør den til en af ​​de mest formidable i sin klasse. BLOOM har evnen til at generere sammenhængende og præcis tekst på tværs af 46 sprog og 13 programmeringssprog.

Projektet lægger vægt på gennemsigtighed, hvilket giver offentlig adgang til dets kildekode og træningsdata. Denne åbenhed inviterer til løbende undersøgelse, udnyttelse og forbedring af modellen.

Tilgængelig uden omkostninger via Hugging Face-platformen, står BLOOM som et vidnesbyrd om kollaborativ innovation inden for AI.

Topfunktioner ved Bloom:

  • Flersprogede muligheder: BLOOM er dygtig til at generere tekst på 46 sprog og 13 programmeringssprog, hvilket viser dens brede sproglige rækkevidde.
  • Open Source-adgang: Modellens kildekode og træningsdata er offentligt tilgængelige, hvilket fremmer gennemsigtighed og samarbejdsforbedring.
  • Autoregressiv tekstgenerering: Designet til at fortsætte tekst fra en given prompt, BLOOM udmærker sig ved at udvide og fuldføre tekstsekvenser.
  • Massivt parameterantal: Med 176 milliarder parametre står BLOOM som en af ​​de mest kraftfulde open source LLM'er, der findes.
  • Globalt samarbejde: Udviklet gennem et årelangt projekt med bidrag fra frivillige i mere end 70 lande og Hugging Face-forskere.
  • Gratis tilgængelighed: Brugere kan få adgang til og bruge BLOOM gratis gennem Hugging Face-økosystemet, hvilket forbedrer dets demokratisering inden for kunstig intelligens.
  • Træning i industriel skala: Modellen blev trænet på store mængder tekstdata ved hjælp af betydelige beregningsressourcer, hvilket sikrede robust ydeevne.

3. MPT-7B

MosaicML Foundations har ydet et væsentligt bidrag til dette område med introduktionen af ​​MPT-7B, deres seneste open source LLM. MPT-7B, et akronym for MosaicML Pretrained Transformer, er en transformermodel i GPT-stil, der kun er til dekoder. Denne model kan prale af adskillige forbedringer, herunder præstationsoptimerede lagimplementeringer og arkitektoniske ændringer, der sikrer større træningsstabilitet.

Et iøjnefaldende træk ved MPT-7B er dens træning på et omfattende datasæt bestående af 1 billion tokens tekst og kode. Denne strenge træning blev udført på MosaicML-platformen over et tidsrum på 9.5 dage.

MPT-7B's open source-karakter placerer den som et værdifuldt værktøj til kommercielle applikationer. Det rummer potentialet til betydeligt at påvirke forudsigende analyser og beslutningsprocesserne i virksomheder og organisationer.

Ud over basismodellen udgiver MosaicML Foundations også specialiserede modeller, der er skræddersyet til specifikke opgaver, såsom MPT-7B-Instruct til at følge kort instruktion, MPT-7B-Chat til dialoggenerering og MPT-7B-StoryWriter-65k+ til langformig historieskabelse.

Udviklingsrejsen for MPT-7B var omfattende, hvor MosaicML-teamet administrerede alle stadier fra dataforberedelse til implementering inden for et par uger. Dataene blev hentet fra forskellige depoter, og teamet brugte værktøjer som EleutherAI's GPT-NeoX og 20B tokenizer for at sikre et varieret og omfattende træningsmix.

Nøglefunktioner Oversigt over MPT-7B:

  • Kommerciel licens: MPT-7B er licenseret til kommerciel brug, hvilket gør den til et værdifuldt aktiv for virksomheder.
  • Omfattende træningsdata: Modellen kan prale af træning på et stort datasæt på 1 billion tokens.
  • Lang inputhåndtering: MPT-7B er designet til at behandle ekstremt lange input uden at gå på kompromis.
  • Hastighed og effektivitet: Modellen er optimeret til hurtig træning og inferens, hvilket sikrer rettidige resultater.
  • Open Source kode: MPT-7B kommer med effektiv open source-træningskode, der fremmer gennemsigtighed og brugervenlighed.
  • Komparativ fortræffelighed: MPT-7B har demonstreret overlegenhed i forhold til andre open source-modeller i 7B-20B-serien, med dens kvalitet, der matcher LLaMA-7B.

4. Falcon

Falcon LLM, er en model, der hurtigt er steget til toppen af ​​LLM-hierarkiet. Falcon LLM, specifikt Falcon-40B, er en grundlæggende LLM udstyret med 40 milliarder parametre og er blevet trænet på imponerende en trillion tokens. Den fungerer som en autoregressiv dekoder-only model, hvilket i bund og grund betyder, at den forudsiger det efterfølgende token i en sekvens baseret på de foregående tokens. Denne arkitektur minder om GPT-modellen. Navnlig har Falcons arkitektur demonstreret overlegen ydeevne i forhold til GPT-3, og opnået denne bedrift med kun 75 % af træningsberegningsbudgettet og kræver væsentligt mindre beregning under inferens.

Teamet på Technology Innovation Institute lagde stor vægt på datakvalitet under udviklingen af ​​Falcon. I erkendelse af LLM'ers følsomhed over for træning af datakvalitet, konstruerede de en datapipeline, der skaleres til titusindvis af CPU-kerner. Dette muliggjorde hurtig behandling og udvinding af indhold af høj kvalitet fra nettet, opnået gennem omfattende filtrerings- og deduplikeringsprocesser.

Udover Falcon-40B har TII også introduceret andre versioner, herunder Falcon-7B, som besidder 7 milliarder parametre og er blevet trænet på 1,500 milliarder tokens. Der er også specialiserede modeller som Falcon-40B-Instruct og Falcon-7B-Instruct, skræddersyet til specifikke opgaver.

Træning af Falcon-40B var en omfattende proces. Modellen blev trænet på RefinedWeb-datasættet, et massivt engelsk webdatasæt konstrueret af TII. Dette datasæt blev bygget oven på CommonCrawl og gennemgik streng filtrering for at sikre kvalitet. Da modellen var udarbejdet, blev den valideret mod flere open source benchmarks, herunder EAI Harness, HELM og BigBench.

Nøglefunktioner Oversigt over Falcon LLM:

  • Omfattende parametre: Falcon-40B er udstyret med 40 milliarder parametre, hvilket sikrer omfattende læring og ydeevne.
  • Model med autoregressiv dekoder: Denne arkitektur giver Falcon mulighed for at forudsige efterfølgende tokens baseret på de foregående, svarende til GPT-modellen.
  • Overlegen ydeevne: Falcon klarer sig bedre end GPT-3, mens han kun udnytter 75 % af træningsbudgettet.
  • Datapipeline af høj kvalitet: TII's datapipeline sikrer udvinding af indhold af høj kvalitet fra nettet, afgørende for modellens træning.
  • Forskellige modeller: Ud over Falcon-40B tilbyder TII Falcon-7B og specialiserede modeller som Falcon-40B-Instruct og Falcon-7B-Instruct.
  • Open Source tilgængelighed: Falcon LLM har været open source, hvilket fremmer tilgængelighed og inklusivitet i AI-domænet.

5. Vicuna-13B

LMSYS ORG har markeret sig betydeligt inden for open source LLM'er med introduktionen af ​​Vicuna-13B. Denne open source chatbot er blevet omhyggeligt trænet ved at finjustere LLaMA på brugerdelte samtaler hentet fra ShareGPT. Foreløbige evalueringer, hvor GPT-4 fungerer som dommer, indikerer, at Vicuna-13B opnår mere end 90 % kvalitet af anerkendte modeller som OpenAI ChatGPT og Google Bard.

På imponerende vis udkonkurrerer Vicuna-13B andre bemærkelsesværdige modeller såsom LLaMA og Stanford Alpaca i over 90 % af tilfældene. Hele træningsprocessen for Vicuna-13B blev udført til en pris af cirka $300. For dem, der er interesseret i at udforske dens muligheder, er koden, vægtene og en online demo blevet gjort offentligt tilgængelige til ikke-kommercielle formål.

Vicuna-13B-modellen er blevet finjusteret med 70 brugerdelte ChatGPT-samtaler, hvilket gør den i stand til at generere mere detaljerede og velstrukturerede svar. Kvaliteten af ​​disse svar kan sammenlignes med ChatGPT. Evaluering af chatbots er imidlertid en kompleks bestræbelse. Med fremskridt i GPT-4 er der en voksende nysgerrighed om dets potentiale til at fungere som en automatiseret evalueringsramme for benchmarkgenerering og præstationsvurderinger. De første resultater tyder på, at GPT-4 kan producere ensartede rækker og detaljerede vurderinger, når man sammenligner chatbot-svar. Foreløbige evalueringer baseret på GPT-4 viser, at Vicuna opnår 90 % kapacitet af modeller som Bard/ChatGPT.

Nøglefunktioner Oversigt over Vicuna-13B:

  • Open Source Nature: Vicuna-13B er tilgængelig for offentligheden, hvilket fremmer gennemsigtighed og samfundsengagement.
  • Omfattende træningsdata: Modellen er blevet trænet i 70 brugerdelte samtaler, hvilket sikrer en omfattende forståelse af forskellige interaktioner.
  • Konkurrencepræstation: Vicuna-13B's ydeevne er på niveau med brancheledere som ChatGPT og Google Bard.
  • Omkostningseffektiv træning: Hele træningsprocessen for Vicuna-13B blev udført til en lav pris på omkring $300.
  • Finjustering på LLaMA: Modellen er blevet finjusteret på LLaMA, hvilket sikrer forbedret ydeevne og responskvalitet.
  • Online demo tilgængelighed: En interaktiv online demo er tilgængelig, så brugerne kan teste og opleve Vicuna-13B's muligheder.

Store sprogmodellers ekspanderende rige

Området for store sprogmodeller er enormt og stadigt voksende, hvor hver ny model skubber grænserne for, hvad der er muligt. Open source-karakteren af ​​de LLM'er, der diskuteres i denne blog, viser ikke kun samarbejdsånden i AI-fællesskabet, men baner også vejen for fremtidige innovationer.

Disse modeller, fra Vicunas imponerende chatbot-egenskaber til Falcons overlegne præstationsmålinger, repræsenterer toppen af ​​den nuværende LLM-teknologi. Mens vi fortsat er vidne til hurtige fremskridt på dette felt, er det klart, at open source-modeller vil spille en afgørende rolle i at forme fremtiden for kunstig intelligens.

Uanset om du er en erfaren forsker, en spirende AI-entusiast eller nogen, der er nysgerrig efter disse modellers potentiale, er der ingen bedre tid til at dykke ned og udforske de enorme muligheder, de tilbyder.

Alex McFarland er en AI-journalist og forfatter, der udforsker den seneste udvikling inden for kunstig intelligens. Han har samarbejdet med adskillige AI-startups og publikationer verden over.

En stiftende partner af unite.AI og et medlem af Forbes Technology Council, Antoine er en fremtidsforsker der brænder for fremtiden for kunstig intelligens og robotteknologi.

Han er også grundlægger af Værdipapirer.io, en hjemmeside, der fokuserer på at investere i disruptiv teknologi.