tynkä 5 parasta avoimen lähdekoodin LLM:tä (toukokuu 2024) - Unite.AI
Liity verkostomme!
Array ( [ID] => 1 [käyttäjän_etunimi] => Antoine [käyttäjän_sukunimi] => Tardif [nimi] => Antoine Tardif [käyttäjänimi] => admin [näyttönimi] => Antoine Tardif [käyttäjän_sähköposti] => [sähköposti suojattu]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Unite.AI:n perustajaosakas ja jäsen Forbes Technology Council, Antoine on a futurist joka on intohimoinen tekoälyn ja robotiikan tulevaisuudesta. Hän on myös perustaja Securities.io, verkkosivusto, joka keskittyy investoimaan häiritsevään teknologiaan. [user_avatar] => mm
)

Best Of

5 parasta avoimen lähdekoodin LLM:ää (toukokuu 2024)

Päivitetty on
Avoimen lähdekoodin LLM:t

Tekoälyn (AI) nopeasti kehittyvässä maailmassa Large Language Models (LLM) on noussut kulmakiveksi, joka ohjaa innovaatioita ja muokkaa tapaamme olla vuorovaikutuksessa teknologian kanssa.

Kun näistä malleista tulee yhä kehittyneempiä, niiden saatavuuden demokratisoinnissa painotetaan yhä enemmän. Erityisesti avoimen lähdekoodin malleilla on keskeinen rooli tässä demokratisoitumisessa, ja ne tarjoavat tutkijoille, kehittäjille ja harrastajille mahdollisuuden syventyä niiden monimutkaisuuteen, hienosäätää niitä tiettyjä tehtäviä varten tai jopa rakentaa niiden perustalle.

Tässä blogissa tutkimme joitain parhaita avoimen lähdekoodin LLM-yrityksiä, jotka tekevät aaltoja tekoälyyhteisössä, ja jokainen tuo pöytään ainutlaatuiset vahvuutensa ja kykynsä.

1. Laama 2

Meta's Llama 2 on uraauurtava lisä heidän tekoälymallivalikoimaansa. Tämä ei ole vain yksi malli; se on suunniteltu toimimaan useissa huippuluokan sovelluksissa. Llama 2:n harjoitusdata on laaja ja monipuolinen, mikä tekee siitä merkittävän edistyksen edeltäjäänsä verrattuna. Tämä koulutuksen monimuotoisuus varmistaa, että Llama 2 ei ole vain asteittainen parannus, vaan monumentaalinen askel kohti tekoälyn ohjaaman vuorovaikutuksen tulevaisuutta.

Metan ja Microsoftin yhteistyö on laajentanut Llama 2:n näköaloja. Avoimen lähdekoodin mallia tuetaan nyt alustoilla, kuten Azure ja Windows, tavoitteena tarjota kehittäjille ja organisaatioille työkalut generatiivisten tekoälypohjaisten kokemusten luomiseen. Tämä kumppanuus korostaa molempien yritysten omistautumista tehdä tekoäly helpommin saavutettavaksi ja avoimemmaksi kaikille.

Llama 2 ei ole vain alkuperäisen Llama-mallin seuraaja; se edustaa paradigman muutosta chatbot-areenalla. Vaikka ensimmäinen Llama-malli oli vallankumouksellinen tekstin ja koodin luomisessa, sen saatavuus oli rajoitettu väärinkäytön estämiseksi. Llama 2 puolestaan ​​​​on tavoittaa laajemman yleisön. Se on optimoitu sellaisille alustoille kuin AWS, Azure ja Hugging Facen AI-mallin isännöintialusta. Lisäksi Metan yhteistyössä Microsoftin kanssa Llama 2 on valmis tekemään jälkensä paitsi Windowsissa, myös laitteissa, joissa on Qualcommin Snapdragon-järjestelmäpiiri.

Turvallisuus on Llama 2:n suunnittelun ytimessä. Ymmärtääkseen aiempien suurten kielimallien, kuten GPT:n, kohtaamat haasteet, jotka joskus tuottivat harhaanjohtavaa tai haitallista sisältöä, Meta on ryhtynyt laajoihin toimiin varmistaakseen Llama 2:n luotettavuuden. Malli on käynyt läpi tiukan koulutuksen "hallusinaatioiden", väärän tiedon ja harhojen minimoimiseksi.

LLaMa 2:n tärkeimmät ominaisuudet:

  • Monipuoliset koulutustiedot: Llama 2:n harjoitusdata on sekä laajaa että monipuolista, mikä takaa kattavan ymmärryksen ja suorituskyvyn.
  • Yhteistyö Microsoftin kanssa: Llama 2:ta tuetaan alustoilla, kuten Azure ja Windows, mikä laajentaa sen sovellusaluetta.
  • Avoin saatavuus: Toisin kuin edeltäjänsä, Llama 2 on saatavilla laajemmalle yleisölle, valmis hienosäätöön useilla alustoilla.
  • Turvallisuuskeskeinen muotoilu: Meta on painottanut turvallisuutta varmistaen, että Llama 2 tuottaa tarkkoja ja luotettavia tuloksia minimoimalla haitalliset tulokset.
  • Optimoidut versiot: Llama 2:sta on kaksi pääversiota – Llama 2 ja Llama 2-Chat, joista jälkimmäinen on suunniteltu erityisesti kaksisuuntaisiin keskusteluihin. Näiden versioiden monimutkaisuus vaihtelee 7 miljardista 70 miljardiin parametriin.
  • Tehostettu koulutus: Llama 2 opetettiin kahdella miljoonalla rahakkeella, mikä on merkittävä lisäys alkuperäisen Llaman 1.4 biljoonasta rahakkeesta.

2. Kukinta

Vuonna 2022 BLOOM-projekti paljastettiin maailmanlaajuisen yhteistyön jälkeen, johon osallistui vapaaehtoisia yli 70 maasta ja Hugging Facen asiantuntijoita. Tämä laaja kielimalli (LLM), joka on luotu vuoden kestäneen aloitteen kautta, on suunniteltu automaattisesti regressiiviseen tekstin luomiseen, ja se pystyy laajentamaan tiettyä tekstikehotetta. Se opetettiin valtavalle tekstidatakorpulle, joka käytti huomattavaa laskentatehoa.

BLOOMin debyytti oli merkittävä askel luovan tekoälytekniikan helpottamiseksi. Avoimen lähdekoodin LLM:nä se tarjoaa 176 miljardia parametria, mikä tekee siitä yhden luokkansa mahtavimmista. BLOOMilla on kyky luoda yhtenäistä ja tarkkaa tekstiä 46 kielellä ja 13 ohjelmointikielellä.

Projektissa korostetaan läpinäkyvyyttä, mikä mahdollistaa yleisön pääsyn sen lähdekoodiin ja koulutustietoihin. Tämä avoimuus kutsuu mallin jatkuvaan tutkimiseen, hyödyntämiseen ja parantamiseen.

Hugging Face -alustan kautta saatavilla ilmaiseksi BLOOM on osoitus tekoälyn yhteistyöinnovaatiosta.

Bloomin tärkeimmät ominaisuudet:

  • Monikieliset ominaisuudet: BLOOM on taitava luomaan tekstiä 46 kielellä ja 13 ohjelmointikielellä, mikä esittelee laajan kielivalikoimansa.
  • Avoimen lähdekoodin käyttöoikeus: Mallin lähdekoodi ja koulutustiedot ovat julkisesti saatavilla, mikä edistää läpinäkyvyyttä ja yhteistyön parantamista.
  • Autoregressiivinen tekstin luominen: BLOOM on suunniteltu jatkamaan tekstiä annetusta kehotuksesta, ja se on erinomainen tekstijaksojen laajentamisessa ja viimeistelyssä.
  • Massiivinen parametrien määrä: 176 miljardilla parametrilla BLOOM on yksi tehokkaimmista avoimen lähdekoodin LLM:istä.
  • Maailmanlaajuinen yhteistyö: Kehitetty vuoden mittaisessa projektissa, johon osallistuivat vapaaehtoiset yli 70 maasta ja Hugging Face -tutkijat.
  • Ilmainen saavutettavuus: Käyttäjät voivat käyttää BLOOMia ilmaiseksi Hugging Face -ekosysteemin kautta, mikä tehostaa sen demokratisoitumista tekoälyn alalla.
  • Teollisuuden koulutus: Malli koulutettiin valtaviin määriin tekstidataa käyttämällä merkittäviä laskennallisia resursseja, mikä varmistaa vankan suorituskyvyn.

3. MPT-7B

MosaicML Foundations on antanut merkittävän panoksen tähän tilaan ottamalla käyttöön MPT-7B:n, heidän uusimman avoimen lähdekoodinsa LLM:n. MPT-7B, lyhenne sanoista MosaicML Pretrained Transformer, on GPT-tyylinen, vain dekooderilla varustettu muuntaja. Tässä mallissa on useita parannuksia, mukaan lukien suorituskyvyn kannalta optimoidut kerrostoteutukset ja arkkitehtoniset muutokset, jotka varmistavat paremman harjoittelun vakauden.

MPT-7B:n erottuva ominaisuus on sen koulutus laajassa tietojoukossa, joka sisältää 1 biljoonaa tekstiä ja koodia. Tämä tiukka koulutus suoritettiin MosaicML-alustalla 9.5 päivän ajan.

MPT-7B:n avoimen lähdekoodin luonne tekee siitä arvokkaan työkalun kaupallisiin sovelluksiin. Sillä on potentiaalia vaikuttaa merkittävästi ennakoivaan analytiikkaan ja yritysten ja organisaatioiden päätöksentekoprosesseihin.

Perusmallin lisäksi MosaicML Foundations julkaisee myös erityisiin tehtäviin räätälöityjä malleja, kuten MPT-7B-Instruct lyhytmuotoisen opetuksen seuraamiseen, MPT-7B-Chat dialogin luomiseen ja MPT-7B-StoryWriter-65k+ pitkän muodon tarinan luomiseen.

MPT-7B:n kehitysmatka oli kattava, ja MosaicML-tiimi hallitsi kaikki vaiheet tietojen valmistelusta käyttöönottoon muutamassa viikossa. Tiedot hankittiin useista arkistoista, ja tiimi käytti työkaluja, kuten EleutherAI:n GPT-NeoX:ää ja 20B-tokenizeriä, varmistaakseen monipuolisen ja kattavan harjoitusyhdistelmän.

MPT-7B:n tärkeimmät ominaisuudet:

  • Kaupallinen lisensointi: MPT-7B on lisensoitu kaupalliseen käyttöön, joten se on arvokas omaisuus yrityksille.
  • Laajat koulutustiedot: Mallissa on koulutusta valtavalla 1 biljoonan tokenin tietojoukolla.
  • Pitkän syötteen käsittely: MPT-7B on suunniteltu käsittelemään erittäin pitkiä syötteitä ilman kompromisseja.
  • Nopeus ja tehokkuus: Malli on optimoitu nopeaa harjoittelua ja päätelmiä varten, mikä varmistaa oikea-aikaiset tulokset.
  • Avoimen lähdekoodin koodi: MPT-7B sisältää tehokkaan avoimen lähdekoodin koulutuskoodin, joka edistää läpinäkyvyyttä ja helppokäyttöisyyttä.
  • Vertaileva huippuosaaminen: MPT-7B on osoittanut ylivoimaisuutta muihin avoimen lähdekoodin malleihin 7B-20B-sarjassa, ja sen laatu vastaa LLaMA-7B:n laatua.

4. Haukka

Falcon LLM on malli, joka on noussut nopeasti LLM-hierarkian huipulle. Falcon LLM, erityisesti Falcon-40B, on perustavanlaatuinen LLM, joka on varustettu 40 miljardilla parametrilla ja on koulutettu vaikuttavalla biljoonalla rahakkeella. Se toimii vain autoregressiivisenä dekooderin mallina, mikä tarkoittaa käytännössä sitä, että se ennustaa seuraavan tunnuksen sekvenssissä edeltävien tokeneiden perusteella. Tämä arkkitehtuuri muistuttaa GPT-mallia. Erityisesti Falconin arkkitehtuuri on osoittanut ylivertaista suorituskykyä GPT-3:een verrattuna, saavuttaen tämän saavutuksen vain 75 prosentilla koulutuslaskentabudjetista ja vaatii huomattavasti vähemmän laskentaa päättelyn aikana.

Technology Innovation Instituten tiimi panosti vahvasti tiedon laatuun Falconin kehittämisen aikana. Tunnustettuaan LLM:ien herkkyyden koulutusdatan laadulle, he rakensivat dataputken, joka skaalattiin kymmeniin tuhansiin prosessoriytimiin. Tämä mahdollisti nopean käsittelyn ja korkealaatuisen sisällön poimimisen verkosta, mikä saavutettiin laajoilla suodatus- ja kopiointiprosesseilla.

Falcon-40B:n lisäksi TII on tuonut markkinoille myös muita versioita, mukaan lukien Falcon-7B, jolla on 7 miljardia parametria ja jota on koulutettu 1,500 40 miljardiin tokeniin. Saatavilla on myös erikoismalleja, kuten Falcon-7B-Instruct ja Falcon-XNUMXB-Instruct, jotka on räätälöity tiettyihin tehtäviin.

Falcon-40B:n koulutus oli laaja prosessi. Malli opetettiin RefinedWeb-tietojoukolla, massiivisella englanninkielisellä verkkotietojoukolla, jonka TII on rakentanut. Tämä tietojoukko rakennettiin CommonCrawlin päälle ja sille suoritettiin tiukka suodatus laadun varmistamiseksi. Kun malli oli valmisteltu, se validoitiin useisiin avoimen lähdekoodin vertailuarvoihin, mukaan lukien EAI Harness, HELM ja BigBench.

Falcon LLM:n tärkeimmät ominaisuudet:

  • Laajat parametrit: Falcon-40B on varustettu 40 miljardilla parametrilla, mikä varmistaa kattavan oppimisen ja suorituskyvyn.
  • Autoregressiivinen vain dekooderimalli: Tämän arkkitehtuurin avulla Falcon voi ennustaa myöhempiä tokeneita edeltävien tokeneiden perusteella, kuten GPT-malli.
  • Ylivoimainen suoritus: Falcon ylittää GPT-3:n, mutta käyttää vain 75 % koulutuksen laskentabudjetista.
  • Korkealaatuinen dataputki: TII:n dataputki varmistaa mallin koulutuksen kannalta olennaisen laadukkaan sisällön poimimisen verkosta.
  • Erilaisia ​​malleja: Falcon-40B:n lisäksi TII tarjoaa Falcon-7B:tä ja erikoismalleja, kuten Falcon-40B-Instruct ja Falcon-7B-Instruct.
  • Avoimen lähdekoodin saatavuus: Falcon LLM on avoimen lähdekoodin lähde, ja se edistää tekoälyn saavutettavuutta ja osallisuutta.

5. Vicuna-13B

LMSYS ORG on tehnyt merkittävän jäljen avoimen lähdekoodin LLM:ien alalla Vicuna-13B:n käyttöönoton myötä. Tämä avoimen lähdekoodin chatbot on koulutettu huolellisesti hienosäätämällä LLaMA ShareGPT:stä peräisin oleviin käyttäjien jakamiin keskusteluihin. Alustavat arvioinnit GPT-4:n toimiessa tuomarina osoittavat, että Vicuna-13B saavuttaa yli 90 % laadun tunnetuista malleista, kuten OpenAI ChatGPT ja Google Bard.

Vaikuttavalla tavalla Vicuna-13B ylittää muut merkittävät mallit, kuten LLaMA ja Stanford Alpaca, yli 90 prosentissa tapauksista. Vicuna-13B:n koko koulutusprosessi toteutettiin noin 300 dollarin kustannuksilla. Niille, jotka ovat kiinnostuneita tutkimaan sen ominaisuuksia, koodi, painot ja online-demo on julkaistu julkisesti ei-kaupallisiin tarkoituksiin.

Vicuna-13B-mallia on hienosäädetty 70 4 käyttäjän jakamalla ChatGPT-keskustelulla, mikä mahdollistaa yksityiskohtaisempien ja paremmin jäsenneltyjen vastausten luomisen. Näiden vastausten laatu on verrattavissa ChatGPT:hen. Chatbottien arviointi on kuitenkin monimutkainen yritys. GPT-4:n edistymisen myötä uteliaisuus kasvaa sen mahdollisuuksista toimia automaattisena arviointikehyksenä vertailuarvojen luomisessa ja suorituskyvyn arvioinnissa. Alustavat havainnot viittaavat siihen, että GPT-4 voi tuottaa johdonmukaisia ​​arvoja ja yksityiskohtaisia ​​arvioita, kun verrataan chatbotin vastauksia. GPT-90:ään perustuvat alustavat arvioinnit osoittavat, että Vicuna saavuttaa XNUMX %:n kyvykkyyden Bard/ChatGPT:n kaltaisissa malleissa.

Vicuna-13B:n tärkeimmät ominaisuudet:

  • Avoimen lähdekoodin luonto: Vicuna-13B on yleisön saatavilla, mikä edistää avoimuutta ja yhteisön osallistumista.
  • Laajat koulutustiedot: Malli on koulutettu 70 XNUMX käyttäjän jakamaan keskusteluun, mikä varmistaa kattavan ymmärryksen erilaisista vuorovaikutuksista.
  • Kilpailukykyinen suorituskyky: Vicuna-13B:n suorituskyky on alan johtajien, kuten ChatGPT:n ja Google Bardin, kanssa.
  • Kustannustehokas koulutus: Vicuna-13B:n koko koulutusprosessi toteutettiin alhaisella hinnalla, noin 300 dollarilla.
  • LLaMA:n hienosäätö: Malli on hienosäädetty LLaMA:lla, mikä varmistaa paremman suorituskyvyn ja vasteen laadun.
  • Online-demon saatavuus: Käyttäjille on saatavilla interaktiivinen online-demo, jolla he voivat testata ja kokea Vicuna-13B:n ominaisuuksia.

Laajentuva suurten kielimallien alue

Suurien kielimallien valtakunta on laaja ja laajenee jatkuvasti, ja jokainen uusi malli työntyy mahdollisuuksien rajoja. Tässä blogissa käsiteltyjen LLM:ien avoimen lähdekoodin luonne ei ainoastaan ​​esittele tekoälyyhteisön yhteistyöhenkeä, vaan myös tasoittaa tietä tuleville innovaatioille.

Nämä mallit Vicunan vaikuttavista chatbot-ominaisuuksista Falconin ylivoimaisiin suorituskykymittareihin edustavat nykyisen LLM-teknologian huippua. Koska näemme jatkuvasti nopeita edistysaskeleita tällä alalla, on selvää, että avoimen lähdekoodin malleilla tulee olemaan ratkaiseva rooli tekoälyn tulevaisuuden muovaamisessa.

Olitpa kokenut tutkija, aloitteleva tekoälyharrastaja tai joku, joka on kiinnostunut näiden mallien mahdollisuuksista, ei ole parempaa aikaa sukeltaa ja tutkia niiden tarjoamia valtavia mahdollisuuksia.

Alex McFarland on tekoälytoimittaja ja kirjailija, joka tutkii tekoälyn viimeisintä kehitystä. Hän on tehnyt yhteistyötä lukuisten AI-startup-yritysten ja -julkaisujen kanssa maailmanlaajuisesti.

Unite.AI:n perustajaosakas ja jäsen Forbes Technology Council, Antoine on a futurist joka on intohimoinen tekoälyn ja robotiikan tulevaisuudesta.

Hän on myös perustaja Securities.io, verkkosivusto, joka keskittyy investoimaan häiritsevään teknologiaan.