Die beste van

5 beste oopbron-LLM'e (Mei 2024)

Opgedateer on Mag 1, 2024

In die vinnig ontwikkelende wêreld van kunsmatige intelligensie (KI), het Groot Taalmodelle (LLM's) na vore gekom as 'n hoeksteen, wat innovasies dryf en die manier waarop ons met tegnologie omgaan, hervorm.

Namate hierdie modelle al hoe meer gesofistikeerd raak, is daar 'n groeiende klem op die demokratisering van toegang daartoe. Oopbronmodelle, veral, speel 'n deurslaggewende rol in hierdie demokratisering, en bied aan navorsers, ontwikkelaars en entoesiaste die geleentheid om diep in hul verwikkeldheid te delf, hulle te verfyn vir spesifieke take, of selfs op hul fondamente te bou.

In hierdie blog sal ons 'n paar van die top oopbron-LLM's ondersoek wat opslae maak in die KI-gemeenskap, wat elkeen sy unieke sterkpunte en vermoëns na die tafel bring.

1. Lama 2

Meta se Llama 2 is 'n baanbrekende toevoeging tot hul KI-modelreeks. Hierdie is nie net nog 'n model nie; dit is ontwerp om 'n reeks van die nuutste toepassings aan te wakker. Llama 2 se opleidingsdata is groot en uiteenlopend, wat dit 'n aansienlike vooruitgang bo sy voorganger maak. Hierdie diversiteit in opleiding verseker dat Llama 2 nie net 'n inkrementele verbetering is nie, maar 'n monumentale stap in die rigting van die toekoms van KI-gedrewe interaksies.

Die samewerking tussen Meta en Microsoft het die horisonne vir Llama 2 uitgebrei. Die oopbronmodel word nou ondersteun op platforms soos Azure en Windows, wat daarop gemik is om ontwikkelaars en organisasies van die gereedskap te voorsien om generatiewe KI-gedrewe ervarings te skep. Hierdie vennootskap beklemtoon beide maatskappye se toewyding om KI meer toeganklik en oop vir almal te maak.

Llama 2 is nie net 'n opvolger van die oorspronklike Llama-model nie; dit verteenwoordig 'n paradigmaskuif in die chatbot-arena. Terwyl die eerste Llama-model revolusionêr was in die generering van teks en kode, was die beskikbaarheid daarvan beperk om misbruik te voorkom. Llama 2, aan die ander kant, gaan 'n groter gehoor bereik. Dit is geoptimaliseer vir platforms soos AWS, Azure en Hugging Face se KI-model-gasheerplatform. Boonop, met Meta se samewerking met Microsoft, is Llama 2 gereed om nie net op Windows sy stempel af te druk nie, maar ook op toestelle wat deur Qualcomm se Snapdragon-stelsel-op-skyfie aangedryf word.

Veiligheid is die kern van Llama 2 se ontwerp. Meta erken die uitdagings wat vroeër groot taalmodelle soos GPT in die gesig gestaar het, wat soms misleidende of skadelike inhoud opgelewer het, en het uitgebreide maatreëls getref om Llama 2 se betroubaarheid te verseker. Die model het streng opleiding ondergaan om 'hallusinasies', verkeerde inligting en vooroordele te verminder.

Topkenmerke van LLaMa 2:

Diverse opleidingsdata: Llama 2 se opleidingsdata is beide omvattend en gevarieerd, wat 'n omvattende begrip en prestasie verseker.
Samewerking met Microsoft: Llama 2 word ondersteun op platforms soos Azure en Windows, wat sy toepassingsomvang verbreed.
Oop beskikbaarheid: Anders as sy voorganger, is Llama 2 beskikbaar vir 'n wyer gehoor, gereed vir fyn-instelling op verskeie platforms.
Veiligheid-gesentreerde ontwerp: Meta het veiligheid beklemtoon en verseker dat Llama 2 akkurate en betroubare resultate lewer terwyl skadelike uitsette tot die minimum beperk word.
Geoptimaliseerde weergawes: Llama 2 kom in twee hoofweergawes – Llama 2 en Llama 2-Chat, met laasgenoemde wat spesiaal ontwerp is vir tweerigtinggesprekke. Hierdie weergawes wissel in kompleksiteit van 7 miljard tot 70 miljard parameters.
Verbeterde opleiding: Llama 2 is opgelei op twee miljoen tokens, 'n aansienlike toename van die oorspronklike Lama se 1.4 triljoen tokens.

2. Bloei

In 2022, na 'n wêreldwye samewerkingspoging wat vrywilligers van meer as 70 lande en kundiges van Hugging Face betrek het, is die BLOOM-projek onthul. Hierdie groot taalmodel (LLM), geskep deur 'n jaar lange inisiatief, is ontwerp vir outoregressiewe teksgenerering, wat in staat is om 'n gegewe teksaanvraag uit te brei. Dit is opgelei op 'n massiewe korpus teksdata wat aansienlike rekenkrag gebruik het.

BLOOM se debuut was 'n belangrike stap om generatiewe KI-tegnologie meer toeganklik te maak. As 'n oopbron LLM spog dit met 176 miljard parameters, wat dit een van die mees formidabele in sy klas maak. BLOOM het die vaardigheid om samehangende en presiese teks oor 46 tale en 13 programmeertale te genereer.

Die projek beklemtoon deursigtigheid, wat openbare toegang tot sy bronkode en opleidingsdata moontlik maak. Hierdie openheid nooi deurlopende ondersoek, gebruik en verbetering van die model uit.

BLOOM is gratis toeganklik deur die Hugging Face-platform en is 'n bewys van samewerkende innovasie in KI.

Top kenmerke van Bloom:

Veeltalige vermoëns: BLOOM is vaardig in die generering van teks in 46 tale en 13 programmeertale, wat sy wye linguistiese reeks ten toon stel.
Oopbrontoegang: Die model se bronkode en opleidingsdata is publiek beskikbaar, wat deursigtigheid en samewerkende verbetering bevorder.
Outoregressiewe teksgenerering: Ontwerp om teks vanaf 'n gegewe opdrag voort te sit, blink BLOOM uit in die uitbreiding en voltooiing van teksreekse.
Massiewe parametertelling: Met 176 miljard parameters staan BLOOM as een van die kragtigste oopbron LLM's wat bestaan.
Wêreldwye samewerking: Ontwikkel deur 'n jaarlange projek met bydraes van vrywilligers oor meer as 70 lande en Hugging Face-navorsers.
Gratis toeganklikheid: Gebruikers kan gratis toegang tot BLOOM gebruik en dit gebruik deur die Hugging Face-ekosisteem, wat die demokratisering daarvan op die gebied van KI verbeter.
Opleiding op industriële skaal: Die model is opgelei op groot hoeveelhede teksdata met behulp van beduidende rekenaarhulpbronne, wat robuuste werkverrigting verseker.

3. MPT-7B

MosaicML Foundations het 'n beduidende bydrae tot hierdie ruimte gemaak met die bekendstelling van MPT-7B, hul nuutste oopbron LLM. MPT-7B, 'n akroniem vir MosaicML Pretrained Transformer, is 'n GPT-styl, net-dekodeerder-transformatormodel. Hierdie model spog met verskeie verbeterings, insluitend prestasie-geoptimaliseerde laag-implementerings en argitektoniese veranderinge wat groter opleidingstabiliteit verseker.

'n Opvallende kenmerk van MPT-7B is die opleiding daarvan op 'n uitgebreide datastel wat bestaan uit 1 triljoen tekens van teks en kode. Hierdie streng opleiding is oor 'n tydperk van 9.5 dae op die MosaicML-platform uitgevoer.

Die oopbron-aard van MPT-7B posisioneer dit as 'n waardevolle hulpmiddel vir kommersiële toepassings. Dit hou die potensiaal in om voorspellende analise en die besluitnemingsprosesse van besighede en organisasies aansienlik te beïnvloed.

Benewens die basismodel, stel MosaicML Foundations ook gespesialiseerde modelle vry wat vir spesifieke take aangepas is, soos MPT-7B-Instruct vir die volg van kortvorm-instruksies, MPT-7B-Chat vir dialooggenerering, en MPT-7B-StoryWriter-65k+ vir lang-vorm storie skepping.

Die ontwikkelingsreis van MPT-7B was omvattend, met die MosaicML-span wat alle stadiums van datavoorbereiding tot ontplooiing binne 'n paar weke bestuur het. Die data is van verskillende bewaarplekke verkry, en die span het gereedskap soos EleutherAI se GPT-NeoX en die 20B-tokenizer gebruik om 'n gevarieerde en omvattende opleidingsmengsel te verseker.

Sleutel kenmerke Oorsig van MPT-7B:

Kommersiële lisensiëring: MPT-7B is gelisensieer vir kommersiële gebruik, wat dit 'n waardevolle bate vir besighede maak.
Uitgebreide opleidingsdata: Die model spog met opleiding op 'n groot datastel van 1 triljoen tokens.
Lang invoerhantering: MPT-7B is ontwerp om uiters lang insette te verwerk sonder kompromie.
Spoed en doeltreffendheid: Die model is geoptimaliseer vir vinnige opleiding en afleidings, wat tydige resultate verseker.
Oopbronkode: MPT-7B kom met doeltreffende oopbron-opleidingskode, wat deursigtigheid en gebruiksgemak bevorder.
Vergelykende uitnemendheid: MPT-7B het meerderwaardigheid getoon bo ander oopbronmodelle in die 7B-20B-reeks, met sy kwaliteit wat ooreenstem met dié van LLaMA-7B.

4. Falcon

Falcon LLM, is 'n model wat vinnig na die top van die LLM-hiërargie gestyg het. Falcon LLM, spesifiek Falcon-40B, is 'n fundamentele LLM toegerus met 40 miljard parameters en is opgelei op 'n indrukwekkende een triljoen tokens. Dit funksioneer as 'n outoregressiewe dekodeerder-alleen-model, wat in wese beteken dat dit die daaropvolgende token voorspel in 'n volgorde gebaseer op die voorafgaande tokens. Hierdie argitektuur herinner aan die GPT-model. Veral, Falcon se argitektuur het voortreflike werkverrigting as GPT-3 getoon, wat hierdie prestasie behaal het met slegs 75% van die opleidingsberekeningsbegroting en wat aansienlik minder berekening tydens afleiding vereis.

Die span by die Tegnologie-innovasie-instituut het sterk klem gelê op datakwaliteit tydens die ontwikkeling van Falcon. Met die erkenning van die sensitiwiteit van LLM's vir opleidingsdatakwaliteit, het hulle 'n datapyplyn gebou wat tot tienduisende SVE-kerns geskaal het. Dit het voorsiening gemaak vir vinnige verwerking en die onttrekking van inhoud van hoë gehalte vanaf die web, bereik deur uitgebreide filter- en dedupliseringsprosesse.

Benewens Falcon-40B, het TII ook ander weergawes bekendgestel, insluitend Falcon-7B, wat 7 miljard parameters besit en op 1,500 40 miljard tokens opgelei is. Daar is ook gespesialiseerde modelle soos Falcon-7B-Instruct en Falcon-XNUMXB-Instruct, aangepas vir spesifieke take.

Opleiding van Falcon-40B was 'n uitgebreide proses. Die model is opgelei op die RefinedWeb-datastel, 'n massiewe Engelse webdatastel wat deur TII gebou is. Hierdie datastel is bo-op CommonCrawl gebou en het streng filtering ondergaan om kwaliteit te verseker. Sodra die model voorberei is, is dit bekragtig teen verskeie oopbron-maatstawwe, insluitend EAI Harness, HELM en BigBench.

Sleutelkenmerke Oorsig van Falcon LLM:

Uitgebreide parameters: Falcon-40B is toegerus met 40 miljard parameters, wat omvattende leer en prestasie verseker.
Outoregressiewe dekodeerder-alleen-model: Hierdie argitektuur laat Falcon toe om daaropvolgende tekens te voorspel gebaseer op voorafgaande, soortgelyk aan die GPT-model.
Uitstekende prestasie: Falcon vaar beter as GPT-3 terwyl hy slegs 75% van die opleidingsbegroting gebruik.
Hoë-gehalte data pyplyn: TII se datapyplyn verseker die onttrekking van inhoud van hoë gehalte vanaf die web, wat noodsaaklik is vir die model se opleiding.
Verskeidenheid modelle: Benewens Falcon-40B, bied TII Falcon-7B en gespesialiseerde modelle soos Falcon-40B-Instruct en Falcon-7B-Instruct.
Oopbron-beskikbaarheid: Falcon LLM is oopbron, wat toeganklikheid en inklusiwiteit in die KI-domein bevorder.

5. Vicuna-13B

LMSYS ORG het 'n beduidende merk gemaak op die gebied van oopbron LLM's met die bekendstelling van Vicuna-13B. Hierdie oopbronkletsbot is noukeurig opgelei deur LLaMA te verfyn op gebruikergedeelde gesprekke afkomstig van ShareGPT. Voorlopige evaluasies, met GPT-4 wat as die beoordelaar optree, dui daarop dat Vicuna-13B meer as 90% kwaliteit van bekende modelle soos OpenAI ChatGPT en Google Bard behaal.

Indrukwekkend genoeg presteer Vicuna-13B ander noemenswaardige modelle soos LLaMA en Stanford Alpaca in meer as 90% van die gevalle. Die hele opleidingsproses vir Vicuna-13B is teen 'n koste van ongeveer $300 uitgevoer. Vir diegene wat belangstel om sy vermoëns te verken, is die kode, gewigte en 'n aanlyn demo publiek beskikbaar gemaak vir nie-kommersiële doeleindes.

Die Vicuna-13B-model is verfyn met 70K gebruiker-gedeelde ChatGPT-gesprekke, wat dit in staat stel om meer gedetailleerde en goed gestruktureerde antwoorde te genereer. Die kwaliteit van hierdie antwoorde is vergelykbaar met ChatGPT. Die evaluering van chatbots is egter 'n komplekse poging. Met die vooruitgang in GPT-4, is daar 'n groeiende nuuskierigheid oor die potensiaal daarvan om as 'n outomatiese evalueringsraamwerk vir maatstafgenerering en prestasiebeoordelings te dien. Aanvanklike bevindings dui daarop dat GPT-4 konsekwente geledere en gedetailleerde assesserings kan lewer wanneer chatbot-reaksies vergelyk word. Voorlopige evaluasies gebaseer op GPT-4 toon dat Vicuna 90% vermoë van modelle soos Bard/ChatGPT bereik.

Sleutel kenmerke Oorsig van Vicuna-13B:

Oopbron Natuur: Vicuna-13B is beskikbaar vir publieke toegang, wat deursigtigheid en gemeenskapsbetrokkenheid bevorder.
Uitgebreide opleidingsdata: Die model is opgelei op 70K gebruiker-gedeelde gesprekke, wat 'n omvattende begrip van diverse interaksies verseker.
Mededingende prestasie: Vicuna-13B se prestasie is op gelyke voet met bedryfsleiers soos ChatGPT en Google Bard.
Koste-effektiewe opleiding: Die hele opleidingsproses vir Vicuna-13B is teen 'n lae koste van ongeveer $300 uitgevoer.
Fyn-instelling op LLaMA: Die model is fyn ingestel op LLaMA, wat verbeterde werkverrigting en reaksiegehalte verseker.
Aanlyn Demo Beskikbaarheid: 'n Interaktiewe aanlyn demo is beskikbaar vir gebruikers om die vermoëns van Vicuna-13B te toets en te ervaar.

Die uitbreidende ryk van groot taalmodelle

Die ryk van groottaalmodelle is groot en steeds groter, met elke nuwe model wat die grense verskuif van wat moontlik is. Die oopbron-aard van die LLM's wat in hierdie blog bespreek word, wys nie net die samewerkende gees van die KI-gemeenskap nie, maar baan ook die weg vir toekomstige innovasies.

Hierdie modelle, van Vicuna se indrukwekkende kletsbot-vermoëns tot Falcon se voortreflike prestasiemaatstawwe, verteenwoordig die toppunt van huidige LLM-tegnologie. Terwyl ons voortgaan om vinnige vooruitgang op hierdie gebied te sien, is dit duidelik dat oopbronmodelle 'n deurslaggewende rol sal speel in die vorming van die toekoms van KI.

Of jy nou 'n ervare navorser, 'n ontluikende KI-entoesias is, of iemand wat nuuskierig is oor die potensiaal van hierdie modelle, daar is geen beter tyd om in te duik en die groot moontlikhede wat hulle bied te verken nie.

Verwante onderwerpe:beste van

10 beste KI-nutsmiddels vir geaffilieerde bemarking (Mei 2024)

Moenie mis nie

10 Beste KI Mediese Skrifgeleerdes (Mei 2024)

Alex McFarland

Alex McFarland is 'n KI-joernalis en skrywer wat die jongste ontwikkelings in kunsmatige intelligensie ondersoek. Hy het wêreldwyd met talle KI-opstarters en publikasies saamgewerk.

Antoine Tardif

'n Stigtersvennoot van unite.AI & 'n lid van die Forbes Tegnologieraad, Antoine is 'n futuris wat passievol is oor die toekoms van KI en robotika.

Hy is ook die stigter van Sekuriteite.io, 'n webwerf wat fokus op belegging in ontwrigtende tegnologie.

Verenig.AI

5 beste oopbron-LLM'e (Mei 2024)

Die beste van

5 beste oopbron-LLM'e (Mei 2024)

INHOUDSOPGAWE

1. Lama 2

2. Bloei

3. MPT-7B

4. Falcon

5. Vicuna-13B

Die uitbreidende ryk van groot taalmodelle

Onlangse plasings

Verenig.AI

5 beste oopbron-LLM'e (Mei 2024)

INHOUDSOPGAWE

1. Lama 2

2. Bloei

3. MPT-7B

4. Falcon

5. Vicuna-13B

Die uitbreidende ryk van groot taalmodelle

Jy mag dalk

Onlangse plasings