stub 5 parimat avatud lähtekoodiga LLM-i (mai 2024) – Unite.AI
Ühenda meile
Array ( [ID] => 1 [kasutaja_eesnimi] => Antoine [kasutaja_perenimi] => Tardif [hüüdnimi] => Antoine Tardif [kasutaja_nimi] => administraator [kuvanimi] => Antoine Tardif [kasutaja_e-post] => [meiliga kaitstud]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Unite.AI asutajapartner ja organisatsiooni liige Forbesi tehnoloogianõukogu, Antoine on a futurist kes on kirglik tehisintellekti ja robootika tuleviku vastu. Ta on ka asutaja Securities.io, veebisait, mis keskendub häirivasse tehnoloogiasse investeerimisele. [kasutaja_avatar] => mm
)

Best Of

5 parimat avatud lähtekoodiga LLM-i (mai 2024)

Ajakohastatud on
Avatud lähtekoodiga LLM-id

Kiiresti arenevas tehisintellekti maailmas on Large Language Models (LLM) kujunenud nurgakiviks, mis juhib uuendusi ja kujundab ümber viisi, kuidas me tehnoloogiaga suhtleme.

Kuna need mudelid muutuvad üha keerukamaks, on üha suurem rõhk neile juurdepääsu demokratiseerimisele. Avatud lähtekoodiga mudelid mängivad selles demokratiseerimises keskset rolli, pakkudes nii teadlastele, arendajatele kui ka entusiastidele võimalust süveneda sügavale nende keerukustesse, viimistleda neid konkreetsete ülesannete jaoks või isegi tugineda nende alustele.

Selles ajaveebis uurime mõnda parimat avatud lähtekoodiga LLM-i, mis AI kogukonnas laineid löövad, millest igaüks toob lauale oma ainulaadsed tugevused ja võimalused.

1. Laama 2

Meta Llama 2 on murranguline täiendus nende tehisintellekti mudelivalikusse. See ei ole lihtsalt üks mudel; see on loodud täitma mitmesuguseid tipptasemel rakendusi. Llama 2 treeningandmed on suured ja mitmekesised, mis teeb sellest eelkäijaga võrreldes olulise edusammu. Selline koolituse mitmekesisus tagab, et Llama 2 pole mitte ainult järkjärguline täiustus, vaid monumentaalne samm AI-põhise suhtluse tuleviku suunas.

Meta ja Microsofti koostöö on laiendanud Llama 2 silmaringi. Avatud lähtekoodiga mudelit toetatakse nüüd sellistel platvormidel nagu Azure ja Windows, mille eesmärk on pakkuda arendajatele ja organisatsioonidele tööriistu generatiivsete AI-põhiste kogemuste loomiseks. See partnerlus rõhutab mõlema ettevõtte pühendumust teha tehisintellekt kõigile kättesaadavamaks ja avatumaks.

Llama 2 ei ole ainult algse Llama mudeli järglane; see kujutab endast paradigma muutust vestlusrobotite areenil. Kui esimene Llama mudel oli teksti ja koodi loomisel revolutsiooniline, oli selle kättesaadavus väärkasutamise vältimiseks piiratud. Llama 2 seevastu on seatud jõudma laiema publikuni. See on optimeeritud selliste platvormide jaoks nagu AWS, Azure ja Hugging Face AI mudeli hostimisplatvorm. Veelgi enam, Meta koostöös Microsoftiga on Llama 2 valmis avaldama oma jälje mitte ainult Windowsile, vaid ka seadmetele, mis töötavad Qualcommi Snapdragoni süsteemikiibil.

Ohutus on Llama 2 disaini keskmes. Tunnistades väljakutseid, millega seisavad silmitsi varasemad suured keelemudelid, nagu GPT, mis mõnikord tootsid eksitavat või kahjulikku sisu, on Meta võtnud ulatuslikke meetmeid, et tagada Llama 2 töökindlus. Mudel on läbinud range koolituse, et minimeerida hallutsinatsioone, valeinformatsiooni ja eelarvamusi.

LLaMa 2 peamised omadused:

  • Erinevad koolitusandmed: Llama 2 treeningandmed on nii ulatuslikud kui ka mitmekesised, tagades igakülgse arusaamise ja jõudluse.
  • Koostöö Microsoftiga: Llama 2 toetatakse sellistel platvormidel nagu Azure ja Windows, mis laiendab selle rakendusala.
  • Avatud saadavus: Erinevalt oma eelkäijast on Llama 2 saadaval laiemale publikule ja on valmis mitmel platvormil peenhäälestamiseks.
  • Ohutuskeskne disain: Meta on rõhutanud ohutust, tagades, et Llama 2 annab täpseid ja usaldusväärseid tulemusi, minimeerides samal ajal kahjulikke väljundeid.
  • Optimeeritud versioonid: Llama 2 on saadaval kahes peamises versioonis – Llama 2 ja Llama 2-Chat, kusjuures viimane on spetsiaalselt loodud kahepoolseteks vestlusteks. Nende versioonide keerukus ulatub 7 miljardist 70 miljardi parameetrini.
  • Täiustatud koolitus: Llama 2 treeniti kahe miljoni žetooniga, mis on märkimisväärne kasv võrreldes algse Llama 1.4 triljoni žetooniga.

2. Õitsema

2022. aastal avalikustati pärast ülemaailmset koostööd enam kui 70 riigi vabatahtlike ja Hugging Face'i ekspertide vahel BLOOMi projekt. See aastapikkuse algatuse käigus loodud suur keelemudel (LLM) on loodud autoregressiivseks teksti genereerimiseks, mis on võimeline antud tekstiviipa laiendama. Seda õpetati tohutul hulgal tekstiandmetel, kasutades märkimisväärset arvutusvõimsust.

BLOOMi debüüt oli oluline samm generatiivse AI-tehnoloogia kättesaadavamaks muutmisel. Avatud lähtekoodiga LLM-na on sellel 176 miljardit parameetrit, mis teeb sellest oma klassis ühe võimsaima. BLOOM suudab luua sidusat ja täpset teksti 46 keeles ja 13 programmeerimiskeeles.

Projekt rõhutab läbipaistvust, võimaldades avalikkuse juurdepääsu oma lähtekoodile ja koolitusandmetele. See avatus kutsub mudelit pidevalt uurima, kasutama ja täiustama.

Hugging Face'i platvormi kaudu tasuta juurdepääsetav BLOOM on tunnistus tehisintellekti koostööalasest innovatsioonist.

Bloomi peamised omadused:

  • Mitmekeelsed võimalused: BLOOM oskab luua teksti 46 keeles ja 13 programmeerimiskeeles, mis näitab oma laia keelelist valikut.
  • Avatud lähtekoodiga juurdepääs: Mudeli lähtekood ja koolitusandmed on avalikult kättesaadavad, edendades läbipaistvust ja koostöö täiustamist.
  • Autoregressiivne teksti genereerimine: BLOOM, mis on loodud jätkama teksti antud viipast, on suurepärane tekstijadade laiendamise ja lõpetamise osas.
  • Suur parameetrite arv: 176 miljardi parameetriga BLOOM on üks võimsamaid olemasolevaid avatud lähtekoodiga LLM-e.
  • Ülemaailmne koostöö: Välja töötatud aastase projekti käigus, mille panusesse on panustanud vabatahtlikud enam kui 70 riigist ja Hugging Face'i teadlased.
  • Tasuta juurdepääsetavus: Kasutajad saavad BLOOM-i tasuta juurde pääseda ja seda kasutada Hugging Face ökosüsteemi kaudu, suurendades selle demokratiseerimist tehisintellekti valdkonnas.
  • Tööstusliku mastaabiga koolitus: Mudelit õpetati kasutama tohutul hulgal tekstiandmeid, kasutades olulisi arvutusressursse, tagades tugeva jõudluse.

3. MPT-7B

MosaicML Foundations on andnud sellesse ruumi märkimisväärse panuse, võttes kasutusele MPT-7B, nende uusima avatud lähtekoodiga LLM-i. MPT-7B, MosaicML Pretrained Transformeri akronüüm, on GPT-stiilis, ainult dekooderiga trafomudel. Sellel mudelil on mitmeid täiustusi, sealhulgas jõudlusele optimeeritud kihirakendused ja arhitektuurilised muudatused, mis tagavad suurema treeningu stabiilsuse.

MPT-7B silmapaistev funktsioon on selle väljaõpe ulatuslikul andmekogul, mis sisaldab 1 triljonit teksti- ja koodimärki. See range koolitus viidi läbi MosaicML platvormil 9.5 päeva jooksul.

MPT-7B avatud lähtekoodiga olemus muudab selle väärtuslikuks tööriistaks kommertsrakenduste jaoks. Sellel on potentsiaali märkimisväärselt mõjutada ennustavat analüütikat ning ettevõtete ja organisatsioonide otsustusprotsesse.

Lisaks baasmudelile annab MosaicML Foundations välja ka spetsiaalseid mudeleid, mis on kohandatud konkreetsete ülesannete jaoks, nagu MPT-7B-Instruct lühivormis juhendamise järgimiseks, MPT-7B-Chat dialoogi genereerimiseks ja MPT-7B-StoryWriter-65k+ pikaajalise loo loomiseks.

MPT-7B arendusteekond oli kõikehõlmav: MosaicML-i meeskond haldas mõne nädala jooksul kõiki etappe andmete ettevalmistamisest juurutamiseni. Andmed saadi erinevatest hoidlatest ning meeskond kasutas tööriistu, nagu EleutherAI GPT-NeoX ja 20B tokenisaator, et tagada mitmekesine ja kõikehõlmav koolituste kombinatsioon.

MPT-7B põhifunktsioonide ülevaade:

  • Kaubanduslik litsents: MPT-7B on litsentsitud äriliseks kasutamiseks, mistõttu on see ettevõtete jaoks väärtuslik vara.
  • Ulatuslikud koolitusandmed: Mudelil on väljaõpe tohutul 1 triljonist märgist koosneval andmekogumil.
  • Pika sisendi käsitlemine: MPT-7B on loodud väga pikkade sisendite töötlemiseks ilma kompromissideta.
  • Kiirus ja tõhusus: Mudel on optimeeritud kiireks treenimiseks ja järelduste tegemiseks, tagades õigeaegsed tulemused.
  • Avatud lähtekoodiga kood: MPT-7B on varustatud tõhusa avatud lähtekoodiga koolituskoodiga, mis edendab läbipaistvust ja kasutuslihtsust.
  • Võrdlev tipptase: MPT-7B on näidanud paremust teiste 7B-20B sarja avatud lähtekoodiga mudelite ees, kuna selle kvaliteet vastab LLaMA-7B omale.

4. Pistrik

Falcon LLM on mudel, mis on kiiresti tõusnud LLM-i hierarhia tippu. Falcon LLM, täpsemalt Falcon-40B, on põhiline LLM, millel on 40 miljardit parameetrit ja mida on koolitatud muljetavaldava triljoni žetooniga. See toimib ainult autoregressiivse dekoodri mudelina, mis sisuliselt tähendab, et see ennustab eelnevate märkide alusel järgnevat luba. See arhitektuur meenutab GPT mudelit. Märkimisväärne on see, et Falconi arhitektuur on näidanud paremat jõudlust kui GPT-3, saavutades selle saavutuse vaid 75% koolituse arvutuseelarvest ja nõudes järelduste tegemisel oluliselt vähem arvutusi.

Tehnoloogiainnovatsiooni instituudi meeskond pani Falconi arendamise ajal suurt rõhku andmekvaliteedile. Tunnistades LLM-ide tundlikkust koolitusandmete kvaliteedi suhtes, koostasid nad andmejuhtme, mis skaleeriti kümnete tuhandete protsessorituumadeni. See võimaldas kiiret töötlemist ja kvaliteetse sisu veebist väljavõtmist, mis saavutati ulatuslike filtreerimis- ja dubleerimisprotsesside kaudu.

Lisaks Falcon-40B-le on TII tutvustanud ka teisi versioone, sealhulgas Falcon-7B, millel on 7 miljardit parameetrit ja mida on koolitatud 1,500 miljardi märgiga. Samuti on olemas spetsiaalsed mudelid, nagu Falcon-40B-Instruct ja Falcon-7B-Instruct, mis on kohandatud konkreetsete ülesannete jaoks.

Falcon-40B väljaõpe oli ulatuslik protsess. Mudelit koolitati RefinedWebi andmestikul, mis on TII loodud massiivne ingliskeelne veebiandmekogum. See andmestik loodi CommonCrawli peale ja kvaliteedi tagamiseks läbis selle range filtreerimise. Pärast mudeli ettevalmistamist kinnitati see mitme avatud lähtekoodiga etaloniga, sealhulgas EAI Harness, HELM ja BigBench.

Falcon LLM põhifunktsioonide ülevaade:

  • Laialdased parameetrid: Falcon-40B on varustatud 40 miljardi parameetriga, tagades igakülgse õppimise ja jõudluse.
  • Ainult autoregressiivne dekoodriga mudel: See arhitektuur võimaldab Falconil ennustada järgnevaid žetoone eelnevate põhjal, sarnaselt GPT mudelile.
  • Suurepärane jõudlus: Falcon ületab GPT-3, kuid kasutab ainult 75% koolituse eelarvest.
  • Kvaliteetne andmetoru: TII andmekonveier tagab veebist kvaliteetse sisu ammutamise, mis on mudeli koolituse jaoks ülioluline.
  • Erinevad mudelid: Lisaks Falcon-40B-le pakub TII Falcon-7B-d ja spetsiaalseid mudeleid, nagu Falcon-40B-Instruct ja Falcon-7B-Instruct.
  • Avatud lähtekoodiga saadavus: Falcon LLM on avatud lähtekoodiga, edendades AI domeeni juurdepääsetavust ja kaasatust.

5. Vicuna-13B

LMSYS ORG on Vicuna-13B kasutuselevõtuga teinud avatud lähtekoodiga LLM-ide valdkonnas märkimisväärse märgi. Seda avatud lähtekoodiga vestlusrobotit on hoolikalt koolitatud LLaMA peenhäälestusega ShareGPT-st pärinevate kasutajate jagatud vestluste jaoks. Esialgsed hinnangud, kus GPT-4 tegutseb kohtunikuna, näitavad, et Vicuna-13B saavutab enam kui 90% kvaliteedi selliste tuntud mudelite puhul nagu OpenAI ChatGPT ja Google Bard.

Muljetavaldavalt ületab Vicuna-13B enam kui 90% juhtudest teisi märkimisväärseid mudeleid, nagu LLaMA ja Stanford Alpaca. Vicuna-13B kogu koolitusprotsess maksis umbes 300 dollarit. Neile, kes on huvitatud selle võimaluste uurimisest, on kood, kaalud ja veebipõhine demo mitteärilistel eesmärkidel avalikult kättesaadavaks tehtud.

Vicuna-13B mudelit on peenhäälestatud 70 4 kasutaja jagatud ChatGPT vestlusega, mis võimaldab genereerida üksikasjalikumaid ja paremini struktureeritud vastuseid. Nende vastuste kvaliteet on võrreldav ChatGPT-ga. Vestlusrobotite hindamine on aga keeruline ettevõtmine. Seoses GPT-4 edusammudega on kasvav uudishimu selle potentsiaali suhtes, mis toimib automaatse hindamisraamistikuna võrdlusaluste genereerimiseks ja jõudluse hindamiseks. Esialgsed leiud viitavad sellele, et GPT-4 suudab vestlusrobotite vastuste võrdlemisel koostada järjekindlaid auastmeid ja üksikasjalikke hinnanguid. GPT-90-l põhinevad esialgsed hinnangud näitavad, et Vicuna saavutab selliste mudelite nagu Bard/ChatGPT XNUMX% suutlikkuse.

Vicuna-13B põhifunktsioonide ülevaade:

  • Avatud lähtekoodiga loodus: Vicuna-13B on avalikuks juurdepääsuks, edendades läbipaistvust ja kogukonna kaasamist.
  • Ulatuslikud koolitusandmed: Mudelit on koolitatud 70 XNUMX kasutajate jagatud vestluse jaoks, mis tagab igakülgse arusaamise erinevatest suhtlustest.
  • Konkurentsivõimeline jõudlus: Vicuna-13B jõudlus on võrdne selliste tööstusharu liidritega nagu ChatGPT ja Google Bard.
  • Tasuv koolitus: Vicuna-13B kogu koolitusprotsess viidi läbi madala hinnaga, umbes 300 dollariga.
  • LLaMA peenhäälestus: Mudel on LLaMA-l peenhäälestatud, tagades parema jõudluse ja reageerimise kvaliteedi.
  • Interneti-demo saadavus: Kasutajatele on saadaval interaktiivne veebidemo, et testida ja kogeda Vicuna-13B võimalusi.

Suurte keelemudelite laienev valdkond

Suurte keelemudelite valdkond on tohutu ja laieneb pidevalt ning iga uus mudel nihutab võimaliku piire. Selles ajaveebis käsitletud LLM-ide avatud lähtekoodiga olemus mitte ainult ei näita tehisintellekti kogukonna koostöövaimu, vaid sillutab teed ka tulevastele uuendustele.

Need mudelid, alates Vicuna muljetavaldavatest vestlusrobotite võimalustest kuni Falconi suurepäraste jõudlusnäitajateni, esindavad praeguse LLM-tehnoloogia tippu. Kuna oleme jätkuvalt tunnistajaks selles valdkonnas kiiretele edusammudele, on selge, et avatud lähtekoodiga mudelid mängivad tehisintellekti tuleviku kujundamisel otsustavat rolli.

Olenemata sellest, kas olete kogenud teadlane, hakkaja AI-entusiast või keegi, kes on nende mudelite potentsiaali vastu uudishimulik, pole paremat aega sukeldumiseks ja nende pakutavate tohutute võimaluste uurimiseks.

Alex McFarland on AI ajakirjanik ja kirjanik, kes uurib tehisintellekti uusimaid arenguid. Ta on teinud koostööd paljude AI idufirmade ja väljaannetega üle maailma.

Unite.AI asutajapartner ja liige Forbesi tehnoloogianõukogu, Antoine on a futurist kes on kirglik tehisintellekti ja robootika tuleviku vastu.

Ta on ka asutaja Securities.io, veebisait, mis keskendub häirivasse tehnoloogiasse investeerimisele.