Stumm 5 Bescht Open Source LLMs (Mee 2024) - Unite.AI
Connect mat eis
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [Spëtznumm] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [Email geschützt]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => E Grënnungspartner vun unite.AI & e Member vun der Forbes Technology Council, Den Antoine ass a futuristesch déi passionéiert ass iwwer d'Zukunft vun AI & Robotik. Hien ass och de Grënner vun Securities.io, eng Websäit déi sech op d'Investitioun an d'Stéierungstechnologie konzentréiert. [user_avatar] => mm
)

Beschte vum

5 Bescht Open Source LLMs (Mee 2024)

aktualiséiert on
Open Source LLMs

An der séier evoluéierender Welt vun der kënschtlecher Intelligenz (AI) sinn Grouss Sproochmodeller (LLMs) als Ecksteen entstanen, déi Innovatiounen dréien an d'Art a Weis wéi mir mat Technologie interagéieren nei formen.

Wéi dës Modeller ëmmer méi raffinéiert ginn, gëtt et e wuessende Schwéierpunkt op demokratesch Zougang zu hinnen. Besonnesch Open Source Modeller spillen eng zentral Roll an dëser Demokratiséierung, a bidden Fuerscher, Entwéckler an Enthusiaster d'Méiglechkeet déif an hir Intricacies ze verdéiwen, se fir spezifesch Aufgaben ofzestëmmen oder souguer op hir Fundamenter ze bauen.

An dësem Blog wäerte mir e puer vun den Top Open-Source LLMs entdecken déi Wellen an der AI Gemeinschaft maachen, jidderee bréngt seng eenzegaarteg Stäerkten a Fäegkeeten op den Dësch.

1. Lamm 2

Meta's Llama 2 ass eng banebriechend Ergänzung zu hirer AI Modellopstellung. Dëst ass net nëmmen en anere Modell; et ass entwéckelt fir eng Rei vun modernsten Uwendungen ze brennen. Dem Llama 2 seng Trainingsdaten si grouss a variéiert, wat et e wesentleche Fortschrëtt iwwer säi Virgänger mécht. Dës Diversitéit am Training garantéiert datt Llama 2 net nëmmen eng inkrementell Verbesserung ass, mee e monumentale Schrëtt a Richtung Zukunft vun AI-driven Interaktiounen.

D'Zesummenaarbecht tëscht Meta a Microsoft huet den Horizont erweidert fir Llama 2. Den Open-Source Modell gëtt elo op Plattformen wéi Azure a Windows ënnerstëtzt, fir Entwéckler an Organisatiounen d'Tools ze bidden fir generativ AI-gedriwwen Erfahrungen ze kreéieren. Dës Partnerschaft ënnersträicht béid Firmen hir Engagement fir AI méi zougänglech an op fir all ze maachen.

Llama 2 ass net nëmmen en Nofolger vum Original Llama Modell; et stellt e Paradigmewiessel an der Chatbot Arena duer. Wärend den éischte Llama Modell revolutionär war fir Text a Code ze generéieren, ass seng Disponibilitéit limitéiert fir Mëssbrauch ze vermeiden. Llama 2, op der anerer Säit, ass agestallt fir e méi breede Publikum z'erreechen. Et ass optimiséiert fir Plattformen wéi AWS, Azure, an Hugging Face's AI Modell Hosting Plattform. Ausserdeem, mat Meta senger Zesummenaarbecht mat Microsoft, ass Llama 2 bereet fir seng Mark net nëmmen op Windows ze maachen, awer och op Apparater ugedriwwen vum Qualcomm Snapdragon System-on-Chip.

Sécherheet ass am Häerz vum Llama 2 Design. Erkennt d'Erausfuerderunge vu fréiere grousse Sproochemodeller wéi GPT, déi heiansdo täuschend oder schiedlech Inhalter produzéiert hunn, huet Meta extensiv Moossname geholl fir d'Zouverlässegkeet vum Llama 2 ze garantéieren. De Modell huet eng strikt Ausbildung gemaach fir 'Halluzinatiounen', falsch Informatioun a Biases ze minimiséieren.

Top Features vun LLaMa 2:

  • Diverse Trainingsdaten: D'Llama 2 Trainingsdaten si souwuel extensiv a variéiert, wat e verständlecht Verständnis a Leeschtung assuréiert.
  • Zesummenaarbecht mat Microsoft: Llama 2 gëtt op Plattformen wéi Azure a Windows ënnerstëtzt, wat säin Applikatiounsraum erweidert.
  • Open Disponibilitéit: Am Géigesaz zu sengem Virgänger ass Llama 2 fir e méi breet Publikum verfügbar, prett fir op verschidde Plattformen ze feinjustéieren.
  • Sécherheetszentréiert Design: Meta huet d'Sécherheet betount, garantéiert datt Llama 2 genee an zouverlässeg Resultater produzéiert wärend schiedlech Ausgänge miniméiert.
  • Optimiséiert Versiounen: Llama 2 kënnt an zwou Haaptversioune - Llama 2 a Llama 2-Chat, mat deem Leschten ass speziell fir zwee-Wee Gespréicher entworf. Dës Versioune reichen an der Komplexitéit vu 7 Milliarde bis 70 Milliarde Parameteren.
  • Erweidert Training: Llama 2 gouf op zwou Milliounen Tokens trainéiert, eng bedeitend Erhéijung vun der Original Llama's 1.4 Billioun Tokens.

2. Bloom

Am Joer 2022, no enger globaler Zesummenaarbecht mat Fräiwëlleger aus iwwer 70 Länner an Experten aus Hugging Face, gouf de BLOOM Projet enthüllt. Dëse grousse Sproochemodell (LLM), erstallt duerch eng Joer laang Initiativ, ass fir autoregressiv Textgeneratioun entworf, fäeg fir eng bestëmmten Textprompt ze verlängeren. Et gouf op engem massiven Korpus vun Textdaten trainéiert mat wesentlech Rechenkraaft.

Dem BLOOM säin Debut war e bedeitende Schrëtt fir generativ AI Technologie méi zougänglech ze maachen. Als Open Source LLM huet et 176 Milliarde Parameteren, wat et zu engem vun de formidabelsten a senger Klass mécht. BLOOM huet d'Fäegkeet fir kohärent a präzis Text iwwer 46 Sproochen an 13 Programméierungssproochen ze generéieren.

De Projet ënnersträicht Transparenz, erlaabt den ëffentlechen Zougang zu sengem Quellcode an Trainingsdaten. Dës Offenheet invitéiert eng lafend Untersuchung, Notzung an Verbesserung vum Modell.

Zougänglech ouni Käschten duerch d'Hugging Face Plattform, BLOOM steet als Testament fir kollaborativ Innovatioun an AI.

Top Features vu Blummen:

  • Méisproocheg Fäegkeeten: BLOOM ass kompetent fir Text a 46 Sproochen an 13 Programméierungssproochen ze generéieren, a weist seng breet sproochlech Palette.
  • Open Source Zougang: De Quellcode vum Modell an d'Formatiounsdaten sinn ëffentlech verfügbar, fir Transparenz a kollaborativ Verbesserung ze förderen.
  • Autoregressiv Text Generatioun: Entworf fir Text vun enger bestëmmter Ufro weiderzemaachen, BLOOM exceléiert beim Ausdehnen an Ofschloss vun Textsequenzen.
  • Massive Parameter Zuel: Mat 176 Milliarde Parameteren steet BLOOM als ee vun de mächtegste Open-Source LLMs déi existéieren.
  • Global Zesummenaarbecht: Entwéckelt duerch e Joer laange Projet mat Bäiträg vu Fräiwëlleger a méi wéi 70 Länner an Hugging Face Fuerscher.
  • Gratis Accessibilitéit: D'Benotzer kënnen Zougang zu BLOOM gratis duerch den Hugging Face Ökosystem benotzen an hir Demokratiséierung am Beräich vun der AI verbesseren.
  • Training op industriell Skala: De Modell gouf op enorm Quantitéiten un Textdaten trainéiert mat bedeitende Berechnungsressourcen, fir robust Leeschtung ze garantéieren.

3. MPT-7B Präis

MosaicML Foundations huet e wesentleche Bäitrag zu dësem Raum gemaach mat der Aféierung vum MPT-7B, hir lescht Open-Source LLM. MPT-7B, en Akronym fir MosaicML Pretrained Transformer, ass e GPT-Stil, Decoder-nëmmen Transformatormodell. Dëse Modell bitt verschidde Verbesserungen, dorënner Performance-optimiséiert Schichtimplementatiounen an architektonesch Ännerungen, déi méi Trainingsstabilitéit garantéieren.

Eng Standout Feature vum MPT-7B ass seng Ausbildung op engem extensiv Dataset mat 1 Billioun Tokens vun Text a Code. Dës rigoréis Training gouf op der MosaicML Plattform iwwer eng Spann vun 9.5 Deeg ausgefouert.

D'Open-Source Natur vum MPT-7B positionéiert et als e wäertvollt Tool fir kommerziell Uwendungen. Et hält d'Potenzial fir prädiktiv Analyse an d'Entscheedungsprozesser vu Geschäfter an Organisatiounen wesentlech ze beaflossen.

Zousätzlech zum Basismodell verëffentlecht MosaicML Foundations och spezialiséiert Modeller, déi fir spezifesch Aufgaben ugepasst sinn, sou wéi MPT-7B-Instruct fir Kuerzforminstruktioun no, MPT-7B-Chat fir Dialoggeneratioun, an MPT-7B-StoryWriter-65k+ fir laang-Form Geschicht Kreatioun.

D'Entwécklungsrees vum MPT-7B war iwwergräifend, mam MosaicML Team deen all Etappe vun der Datepräparatioun bis zur Deployment bannent e puer Wochen verwaltet. D'Donnéeën goufen aus verschiddenen Repositories ofgeleet, an d'Team huet Tools benotzt wéi EleutherAI's GPT-NeoX an den 20B Tokenizer fir eng variéiert an ëmfaassend Trainingsmix ze garantéieren.

Schlëssel Feature Iwwersiicht vun MPT-7B:

  • Kommerziell Lizenz: MPT-7B ass lizenzéiert fir kommerziell Notzung, sou datt et e wäertvollen Verméigen fir Geschäfter mécht.
  • Extensiv Trainingsdaten: De Modell bitt Training op engem riesegen Dataset vun 1 Billioun Tokens.
  • Laang Input Handling: MPT-7B ass entwéckelt fir extrem laang Inputen ouni Kompromiss ze veraarbecht.
  • Geschwindegkeet an Effizienz: De Modell ass optimiséiert fir séier Training an Inferenz, fir fristgerecht Resultater ze garantéieren.
  • Open Source Code: MPT-7B kënnt mat effizienten Open-Source Trainingscode, fir Transparenz an einfach ze benotzen.
  • Komparativ Excellence: MPT-7B huet Iwwerleenheet iwwer aner Open-Source Modeller an der 7B-20B Gamme bewisen, mat senger Qualitéit passend déi vun LLaMA-7B.

4. Falcon

Falcon LLM, ass e Modell dee séier un d'Spëtzt vun der LLM Hierarchie geklommen ass. Falcon LLM, speziell Falcon-40B, ass e Fundamental LLM equipéiert mat 40 Milliarde Parameteren a gouf op eng beandrockend Billioun Token trainéiert. Et funktionnéiert als en autoregressiven Decoder-nëmmen Modell, wat am Wesentlechen heescht datt et de spéideren Token an enger Sequenz virausgesot baséiert op de viregte Tokens. Dës Architektur erënnert un de GPT Modell. Notamment huet d'Falcon Architektur eng super Leeschtung wéi GPT-3 bewisen, dës Leeschtung mat nëmmen 75% vum Trainingsrechnungsbudget z'erreechen an erfuerdert wesentlech manner Rechen während der Inferenz.

D'Team am Technology Innovation Institute huet e staarken Akzent op Datenqualitéit während der Entwécklung vu Falcon geluecht. D'Sensibilitéit vun LLMs fir Trainingsdatenqualitéit ze erkennen, hunn se eng Datepipeline konstruéiert déi op Zéngdausende vun CPU Cores skaléiert ass. Dëst erlaabt eng séier Veraarbechtung an d'Extraktioun vu qualitativ héichwäerteg Inhalter aus dem Web, erreecht duerch extensiv Filter- an Deduplikatiounsprozesser.

Zousätzlech zu Falcon-40B huet TII och aner Versiounen agefouert, dorënner Falcon-7B, déi 7 Milliarde Parameteren huet an op 1,500 Milliarden Token trainéiert gouf. Et ginn och spezialiséiert Modeller wéi Falcon-40B-Instruct a Falcon-7B-Instruct, fir spezifesch Aufgaben ugepasst.

Training Falcon-40B war en extensiv Prozess. De Modell gouf op der RefinedWeb Dataset trainéiert, e massiven englesche Web Datesaz gebaut vum TII. Dësen Dataset gouf uewen op CommonCrawl gebaut an huet eng strikt Filterung gemaach fir Qualitéit ze garantéieren. Eemol de Modell virbereet gouf, gouf et géint verschidde Open-Source Benchmarks validéiert, dorënner EAI Harness, HELM, a BigBench.

Schlëssel Feature Iwwersiicht vu Falcon LLM:

  • Extensiv Parameteren: Falcon-40B ass mat 40 Milliarde Parameteren ausgestatt, déi ëmfaassend Léieren a Leeschtung garantéiert.
  • Autoregressive Decoder-Nëmme Modell: Dës Architektur erlaabt de Falcon fir spéider Tokens virauszesoen op Basis vu virdrun, ähnlech wéi de GPT Modell.
  • Superior Leeschtung: Falcon iwwerhëlt GPT-3 wärend nëmmen 75% vum Trainingsrechnungsbudget benotzt.
  • Héich Qualitéit Daten Pipeline: D'TII Datenpipeline garantéiert d'Extraktioun vu qualitativ héichwäerteg Inhalter vum Internet, entscheedend fir d'Formatioun vum Modell.
  • Varietéit vun Modeller: Zousätzlech zu Falcon-40B bitt TII Falcon-7B a spezialiséiert Modeller wéi Falcon-40B-Instruct a Falcon-7B-Instruct.
  • Open Source Disponibilitéit: Falcon LLM gouf Open-Source, fördert Accessibilitéit an Inklusivitéit am AI Domain.

5. Vicuna-13B

LMSYS ORG huet eng bedeitend Mark am Räich vun Open-Source LLMs mat der Aféierung vu Vicuna-13B gemaach. Dësen Open-Source Chatbot gouf virsiichteg trainéiert andeems Dir LLaMA feinstëmmt op User-gedeelt Gespréicher aus ShareGPT. Virleefeg Evaluatioune, mat GPT-4 als Riichter, weisen datt Vicuna-13B méi wéi 90% Qualitéit vu renomméierte Modeller wéi OpenAI ChatGPT a Google Bard erreecht.

Beandrockend ass de Vicuna-13B méi wéi aner Notabele Modeller wéi LLaMA a Stanford Alpaca an iwwer 90% vun de Fäll. De ganze Trainingsprozess fir Vicuna-13B gouf op Käschte vun ongeféier $ 300 ausgefouert. Fir déi, déi interesséiert sinn fir seng Fäegkeeten z'entdecken, sinn de Code, d'Gewiichter an eng Online Demo fir net-kommerziell Zwecker ëffentlech verfügbar.

De Vicuna-13B Modell gouf mat 70K user-shared ChatGPT Gespréicher ofgestëmmt, wat et erméiglecht méi detailléiert a gutt strukturéiert Äntwerten ze generéieren. D'Qualitéit vun dësen Äntwerten ass vergläichbar mat ChatGPT. Evaluéieren vun Chatbots ass awer e komplexe Beméihung. Mat de Fortschrëtter am GPT-4 gëtt et eng wuessend Virwëtz iwwer säi Potenzial fir als automatiséiert Evaluatiounskader fir Benchmark Generatioun a Performance Bewäertungen ze déngen. Éischt Erkenntnisser suggeréieren datt GPT-4 konsequent Reihen an detailléiert Bewäertunge produzéiere kann wann Dir Chatbot Äntwerte vergläicht. Virleefeg Evaluatioune baséiert op GPT-4 weisen datt Vicuna 90% Kapazitéit vu Modeller wéi Bard / ChatGPT erreecht.

Schlëssel Feature Iwwersiicht vu Vicuna-13B:

  • Open Source Natur: Vicuna-13B ass verfügbar fir den ëffentlechen Zougang, fir Transparenz a Gemeinschaftsbedeelegung ze förderen.
  • Extensiv Trainingsdaten: De Modell gouf op 70K User-gedeelt Gespréicher trainéiert, fir e verständlecht Verständnis vu verschiddenen Interaktiounen ze garantéieren.
  • Kompetitiv Leeschtung: D'Performance vum Vicuna-13B ass op Par mat Industrieleit wéi ChatGPT a Google Bard.
  • Cost-Effektiv Training: De ganze Trainingsprozess fir Vicuna-13B gouf zu niddrege Käschte vu ronn 300 $ ausgefouert.
  • Fine-Tuning op LLaMA: De Modell gouf op LLaMA ofgestëmmt, fir eng verstäerkte Leeschtung an Äntwertqualitéit ze garantéieren.
  • Online Demo Disponibilitéit: Eng interaktiv Online Demo ass verfügbar fir Benotzer fir d'Fäegkeete vu Vicuna-13B ze testen an ze erliewen.

D'Erweiderung Räich vu grousse Sproochmodeller

D'Räich vun de Grousse Sproochmodeller ass enorm an ëmmer ausdehnend, mat all neie Modell dréckt d'Grenze vun deem wat méiglech ass. D'Open-Source Natur vun den LLMs, déi an dësem Blog diskutéiert ginn, weist net nëmmen de kollaborativen Geescht vun der AI Gemeinschaft, awer mécht och de Wee fir zukünfteg Innovatiounen.

Dës Modeller, vum Vicuna seng beandrockend Chatbot Fäegkeeten bis zu Falcon seng super Performance Metriken, representéieren den Héichpunkt vun der aktueller LLM Technologie. Wéi mir weider séier Fortschrëtter an dësem Beräich Zeien, ass et kloer datt Open-Source Modeller eng entscheedend Roll spillen an der Zukunft vun AI ze gestalten.

Egal ob Dir en erfuerene Fuerscher sidd, e budding AI-Enthusiast, oder een deen iwwer d'Potenzial vun dëse Modeller virwëtzeg ass, et gëtt keng besser Zäit fir anzeducken an déi grouss Méiglechkeeten ze entdecken déi se ubidden.

Den Alex McFarland ass en AI Journalist a Schrëftsteller deen déi lescht Entwécklungen an der kënschtlecher Intelligenz exploréiert. Hien huet mat villen AI Startups a Publikatiounen weltwäit zesummegeschafft.

A founding partner of unite.AI & e Member vun der Forbes Technology Council, Den Antoine ass a futuristesch déi passionéiert ass iwwer d'Zukunft vun AI & Robotik.

Hien ass och de Grënner vun Securities.io, eng Websäit déi sech op d'Investitioun an d'Stéierungstechnologie konzentréiert.