csonk 5 legjobb nyílt forráskódú LLM (2024. május) – Unite.AI
Kapcsolatba velünk
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [becenév] => Antoine Tardif [user_nicename] => admin [megjelenítési_név] => Antoine Tardif [felhasználói_e-mail] => [e-mail védett]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => A unite.AI alapító partnere és a Forbes Technológiai Tanács, Antoine a futurista aki szenvedélyesen rajong az AI és a robotika jövőjéért. Ő az alapítója is Értékpapír.io, egy webhely, amely a bomlasztó technológiába való befektetésre összpontosít. [user_avatar] => mm
)

Best Of

5 legjobb nyílt forráskódú LLM (2024. május)

korszerűsített on
Nyílt forráskódú LLM-ek

A mesterséges intelligencia (AI) gyorsan fejlődő világában a nagy nyelvi modellek (LLM) sarokkővé váltak, amelyek az innovációkat hajtják végre, és átalakítják a technológiával való interakciónkat.

Ahogy ezek a modellek egyre kifinomultabbakká válnak, egyre nagyobb hangsúlyt kap a hozzáférésük demokratizálása. Különösen a nyílt forráskódú modellek játszanak kulcsszerepet ebben a demokratizálódásban, lehetőséget kínálva a kutatóknak, a fejlesztőknek és a rajongóknak, hogy mélyen elmélyüljenek bonyolultságaikba, finomhangolják őket meghatározott feladatokra, vagy akár alapjaikra építsenek.

Ebben a blogban megvizsgáljuk a legjobb nyílt forráskódú LLM-eket, amelyek hullámokat vernek az AI közösségben, és mindegyik bemutatja egyedi erősségeit és képességeit.

1. Láma 2

A Meta Llama 2 úttörő kiegészítője mesterséges intelligenciájú modellkínálatuknak. Ez nem csak egy másik modell; úgy tervezték, hogy a legkorszerűbb alkalmazások széles skáláját szolgálja. A Llama 2 edzési adatai hatalmasak és változatosak, ami jelentős előrelépést jelent elődjéhez képest. A képzések sokszínűsége biztosítja, hogy a Llama 2 ne csak egy fokozatos fejlesztés, hanem egy óriási lépés az AI-vezérelt interakciók jövője felé.

A Meta és a Microsoft együttműködése kibővítette a Llama 2 látókörét. A nyílt forráskódú modellt már támogatják az olyan platformok, mint az Azure és a Windows, és célja, hogy a fejlesztők és szervezetek rendelkezésére álljanak a generatív mesterséges intelligencia által vezérelt élmények létrehozásához szükséges eszközök. Ez a partnerség hangsúlyozza mindkét vállalat elkötelezettségét az AI mindenki számára hozzáférhetőbbé és nyitottabbá tétele iránt.

A Llama 2 nem csupán az eredeti Llama modell utódja; paradigmaváltást jelent a chatbot arénában. Míg az első Llama modell forradalmi volt a szöveg és kód létrehozásában, elérhetősége korlátozott volt a visszaélések elkerülése érdekében. A Llama 2 viszont szélesebb közönséget kíván elérni. Olyan platformokra van optimalizálva, mint az AWS, az Azure és a Hugging Face mesterséges intelligenciamodell-tárhelyplatformja. Sőt, a Meta és a Microsoft együttműködésével a Llama 2 nem csak a Windows rendszeren, hanem a Qualcomm Snapdragon rendszerchipével működő eszközökön is megállja a helyét.

A biztonság a Llama 2 tervezésének középpontjában áll. Felismerve a korábbi nagy nyelvi modellek, például a GPT kihívásait, amelyek néha félrevezető vagy káros tartalmat produkáltak, a Meta átfogó intézkedéseket hozott a Llama 2 megbízhatóságának biztosítása érdekében. A modell szigorú képzésen esett át a „hallucinációk”, a félretájékoztatás és a torzítások minimalizálása érdekében.

A LLAMa 2 legfontosabb tulajdonságai:

  • Változatos képzési adatok: A Llama 2 edzési adatai kiterjedtek és változatosak, biztosítva az átfogó megértést és a teljesítményt.
  • Együttműködés a Microsofttal: A Llama 2 olyan platformokon támogatott, mint az Azure és a Windows, kiterjesztve alkalmazási körét.
  • Nyitott elérhetőség: Elődjétől eltérően a Llama 2 szélesebb közönség számára elérhető, készen áll a finomhangolásra több platformon.
  • Biztonságközpontú kialakítás: A Meta a biztonságra helyezi a hangsúlyt, biztosítva, hogy a Llama 2 pontos és megbízható eredményeket produkáljon, miközben minimalizálja a káros kimeneteket.
  • Optimalizált verziók: A Llama 2 két fő változatban érhető el – a Llama 2 és a Llama 2-Chat, az utóbbit kifejezetten kétirányú beszélgetésekre tervezték. Ezek a változatok összetettsége 7 milliárdtól 70 milliárdig terjed.
  • Továbbfejlesztett képzés: A Llama 2-t kétmillió tokenre képezték ki, ami jelentős növekedés az eredeti Llama 1.4 billió tokenjéhez képest.

2. Virágzik

2022-ben, több mint 70 ország önkénteseinek és a Hugging Face szakértőinek részvételével zajló globális együttműködést követően bemutatták a BLOOM projektet. Ez a nagy nyelvi modell (LLM), amelyet egy éves kezdeményezéssel hoztak létre, autoregresszív szöveggenerálásra készült, és képes egy adott szöveges prompt kiterjesztésére. A szöveges adatok hatalmas korpuszára képezték ki, amely jelentős számítási teljesítményt használt.

A BLOOM debütálása jelentős lépés volt a generatív AI technológia hozzáférhetőbbé tételében. Nyílt forráskódú LLMként 176 milliárd paraméterrel büszkélkedhet, így kategóriájában az egyik legfélelmetesebb. A BLOOM rendelkezik azzal a jártassággal, hogy koherens és precíz szöveget generál 46 nyelven és 13 programozási nyelven.

A projekt az átláthatóságot hangsúlyozza, lehetővé téve a nyilvános hozzáférést a forráskódhoz és a képzési adatokhoz. Ez a nyitottság a modell folyamatos vizsgálatát, hasznosítását és továbbfejlesztését teszi szükségessé.

A Hugging Face platformon keresztül ingyenesen elérhető BLOOM az AI együttműködésen alapuló innovációjának bizonyítéka.

A Bloom legfontosabb tulajdonságai:

  • Többnyelvűség: A BLOOM készségesen tud szöveget generálni 46 nyelven és 13 programozási nyelven, bemutatva széles nyelvi skáláját.
  • Nyílt forráskódú hozzáférés: A modell forráskódja és képzési adatai nyilvánosan elérhetők, elősegítve az átláthatóságot és az együttműködésen alapuló fejlesztést.
  • Autoregresszív szöveggenerálás: Az adott prompt szövegének folytatására tervezett BLOOM a szövegsorozatok kiterjesztésében és befejezésében jeleskedik.
  • Masszív paraméterek száma: 176 milliárd paraméterével a BLOOM a létező egyik legerősebb nyílt forráskódú LLM-nek számít.
  • Globális együttműködés: Egy éves projekt keretében fejlesztették ki, több mint 70 ország önkéntesei és Hugging Face kutatói közreműködésével.
  • Ingyenes hozzáférhetőség: A felhasználók ingyenesen hozzáférhetnek és használhatják a BLOOM-ot a Hugging Face ökoszisztémán keresztül, fokozva annak demokratizálódását az AI területén.
  • Ipari szintű képzés: A modellt hatalmas mennyiségű szöveges adatra képezték ki jelentős számítási erőforrások felhasználásával, ami robusztus teljesítményt biztosított.

3. MPT-7B

A MosaicML Foundations jelentős mértékben hozzájárult ehhez a térhez az MPT-7B, a legújabb nyílt forráskódú LLM bevezetésével. Az MPT-7B, a MosaicML Pretrained Transformer rövidítése, egy GPT-stílusú, csak dekóderrel használható transzformátormodell. Ez a modell számos fejlesztéssel büszkélkedhet, beleértve a teljesítményre optimalizált rétegmegvalósításokat és a nagyobb képzési stabilitást biztosító építészeti változtatásokat.

Az MPT-7B kiemelkedő tulajdonsága, hogy egy kiterjedt adathalmazra oktat, amely 1 billió szöveget és kódot tartalmaz. Ezt a szigorú képzést a MosaicML platformon hajtották végre 9.5 napon keresztül.

Az MPT-7B nyílt forráskódú természete értékes eszközzé teszi a kereskedelmi alkalmazásokhoz. Jelentős hatással lehet a prediktív elemzésekre és a vállalkozások és szervezetek döntéshozatali folyamataira.

Az alapmodell mellett a MosaicML Foundations speciális, speciális feladatokra szabott modelleket is kiad, mint például az MPT-7B-Instruct a rövid formátumú utasítások követéséhez, az MPT-7B-Chat a párbeszéd létrehozásához és az MPT-7B-StoryWriter-65k+ hosszú formájú történetalkotáshoz.

Az MPT-7B fejlesztési útja átfogó volt, a MosaicML csapata néhány héten belül kezelte az adatok előkészítésétől a telepítésig minden szakaszt. Az adatok különböző adattárakból származtak, és a csapat olyan eszközöket használt, mint az EleutherAI GPT-NeoX és a 20B tokenizátor, hogy változatos és átfogó képzési keveréket biztosítsanak.

Az MPT-7B főbb jellemzőinek áttekintése:

  • Kereskedelmi engedélyek: Az MPT-7B kereskedelmi használatra engedélyezett, így értékes eszköz a vállalkozások számára.
  • Kiterjedt képzési adatok: A modell egy hatalmas, 1 billió tokenből álló adathalmazon büszkélkedhet.
  • Hosszú bevitel kezelése: Az MPT-7B rendkívül hosszadalmas bemenetek kompromisszumok nélküli feldolgozására készült.
  • Sebesség és hatékonyság: A modellt a gyors képzésre és következtetésekre optimalizálták, biztosítva az időszerű eredményeket.
  • Nyílt forráskód: Az MPT-7B hatékony nyílt forráskódú képzési kóddal érkezik, amely elősegíti az átláthatóságot és a könnyű használatot.
  • Összehasonlító kiválóság: Az MPT-7B a 7B-20B sorozat többi nyílt forráskódú modelljével szemben fölényét bizonyította, minősége megegyezik a LLaMA-7B minőségével.

4. Sólyom

A Falcon LLM egy olyan modell, amely gyorsan feljutott az LLM-hierarchia csúcsára. A Falcon LLM, konkrétan a Falcon-40B egy alapítványi LLM, amely 40 milliárd paraméterrel rendelkezik, és lenyűgöző egybillió tokenre képezték ki. Csak autoregresszív dekódoló modellként működik, ami lényegében azt jelenti, hogy előrejelzi a következő tokent egy sorozatban az előző tokenek alapján. Ez az architektúra a GPT modellre emlékeztet. Nevezetesen, a Falcon architektúrája a GPT-3-hoz képest kiváló teljesítményt mutatott, és ezt a teljesítményt a képzési számítási költségvetés mindössze 75%-ával éri el, és lényegesen kevesebb számítást igényel a következtetés során.

A Technology Innovation Institute csapata nagy hangsúlyt fektetett az adatminőségre a Falcon fejlesztése során. Felismerve az LLM-ek érzékenységét a képzési adatok minőségére, létrehoztak egy adatfolyamot, amely több tízezer CPU magra méreteződött. Ez lehetővé tette a gyors feldolgozást és a kiváló minőségű tartalom kinyerését az internetről, amely kiterjedt szűrési és duplikációs folyamatokkal érhető el.

A Falcon-40B mellett a TII más verziókat is bemutatott, köztük a Falcon-7B-t, amely 7 milliárd paraméterrel rendelkezik, és 1,500 milliárd tokenre lett kiképezve. Vannak olyan speciális modellek is, mint a Falcon-40B-Instruct és a Falcon-7B-Instruct, amelyeket konkrét feladatokra szabtak.

A Falcon-40B kiképzése kiterjedt folyamat volt. A modellt a RefinedWeb adatkészleten képezték ki, amely egy hatalmas angol webes adatkészlet, amelyet a TII épített fel. Ez az adatkészlet a CommonCrawlre épült, és szigorú szűrésen esett át a minőség biztosítása érdekében. A modell elkészítése után számos nyílt forráskódú benchmark alapján validálták, köztük az EAI Harness, a HELM és a BigBench.

A Falcon LLM főbb jellemzőinek áttekintése:

  • Kiterjedt paraméterek: A Falcon-40B 40 milliárd paraméterrel van felszerelve, amely átfogó tanulást és teljesítményt biztosít.
  • Autoregresszív dekóder csak modell: Ez az architektúra lehetővé teszi a Falcon számára, hogy megjósolja a következő tokeneket az előzőek alapján, hasonlóan a GPT modellhez.
  • Kiváló teljesítmény: A Falcon felülmúlja a GPT-3-at, miközben a képzési számítási költségvetésnek csak 75%-át használja fel.
  • Kiváló minőségű adatcsatorna: A TII adatfolyama biztosítja a kiváló minőségű tartalom kinyerését a webről, ami elengedhetetlen a modell képzéséhez.
  • Változatos modellek: A Falcon-40B mellett a TII Falcon-7B-t és speciális modelleket is kínál, mint például a Falcon-40B-Instruct és a Falcon-7B-Instruct.
  • Nyílt forráskódú elérhetőség: A Falcon LLM nyílt forráskódú, elősegítve a hozzáférhetőséget és az inkluzivitást az AI-tartományban.

5. Vicuna-13B

Az LMSYS ORG a Vicuna-13B bevezetésével jelentős nyomot tett a nyílt forráskódú LLM-ek területén. Ezt a nyílt forráskódú chatbotot a LLaMA finomhangolása révén fejlesztették ki a ShareGPT-től származó, felhasználók által megosztott beszélgetésekre. A GPT-4 bíróként végzett előzetes értékelések azt mutatják, hogy a Vicuna-13B több mint 90%-os minőséget ér el az olyan neves modelleknél, mint az OpenAI ChatGPT és a Google Bard.

Lenyűgöző módon a Vicuna-13B az esetek több mint 90%-ában felülmúlja a többi figyelemre méltó modellt, mint például a LLaMA és a Stanford Alpaca. A Vicuna-13B teljes kiképzési folyamata körülbelül 300 dollárba került. Azok számára, akik érdeklődnek a képességek felfedezése iránt, a kódot, a súlyokat és az online bemutatót nyilvánosan elérhetővé tették nem kereskedelmi célokra.

A Vicuna-13B modellt 70 4 felhasználó által megosztott ChatGPT beszélgetéssel finomították, lehetővé téve, hogy részletesebb és jól strukturált válaszokat generáljon. Ezeknek a válaszoknak a minősége hasonló a ChatGPT-hez. A chatbotok értékelése azonban összetett feladat. A GPT-4 fejlődésével egyre nagyobb a kíváncsiság a benne rejlő lehetőségek iránt, amelyek automatizált értékelési keretként szolgálhatnak a benchmark generálásához és a teljesítményértékelésekhez. A kezdeti eredmények azt sugallják, hogy a GPT-4 konzisztens rangsorokat és részletes értékeléseket tud készíteni a chatbot-válaszok összehasonlításakor. A GPT-90-en alapuló előzetes értékelések azt mutatják, hogy a Vicuna XNUMX%-os képességgel rendelkezik az olyan modelleknél, mint a Bard/ChatGPT.

A Vicuna-13B főbb jellemzőinek áttekintése:

  • Nyílt forráskódú természet: A Vicuna-13B nyilvánosan elérhető, elősegítve az átláthatóságot és a közösség bevonását.
  • Kiterjedt képzési adatok: A modellt 70 XNUMX felhasználó által megosztott beszélgetésre képezték ki, biztosítva a különféle interakciók átfogó megértését.
  • Versenyképes teljesítmény: A Vicuna-13B teljesítménye egyenrangú az olyan iparági vezetőkével, mint a ChatGPT és a Google Bard.
  • Költséghatékony képzés: A Vicuna-13B teljes kiképzési folyamata alacsony, körülbelül 300 dolláros költséggel zajlott.
  • Finomhangolás a LLaMA-n: A modellt LLaMA-n finomhangolták, így jobb teljesítményt és válaszminőséget biztosítanak.
  • Online demó elérhetősége: Interaktív online demó áll a felhasználók rendelkezésére a Vicuna-13B képességeinek teszteléséhez és megtapasztalásához.

A nagy nyelvi modellek bővülő birodalma

A nagy nyelvű modellek birodalma hatalmas és folyamatosan bővül, és minden új modell feszegeti a lehetőségek határait. Az ebben a blogban tárgyalt LLM-ek nyílt forráskódú jellege nemcsak az AI-közösség együttműködési szellemét mutatja be, hanem utat is nyit a jövőbeli innovációk előtt.

Ezek a modellek a Vicuna lenyűgöző chatbot képességeitől a Falcon kiváló teljesítménymutatóiig a jelenlegi LLM technológia csúcsát képviselik. Mivel továbbra is gyors fejlődésnek lehetünk tanúi ezen a területen, egyértelmű, hogy a nyílt forráskódú modellek döntő szerepet fognak játszani az AI jövőjének alakításában.

Legyen szó tapasztalt kutatóról, kezdő mesterséges intelligencia-rajongóról vagy valakiről, aki kíváncsi ezekben a modellekben rejlő lehetőségekre, nincs jobb alkalom arra, hogy belemerüljön és felfedezze az általuk kínált hatalmas lehetőségeket.

Alex McFarland mesterséges intelligencia újságíró és író, aki a mesterséges intelligencia legújabb fejleményeit vizsgálja. Számos AI startup vállalkozással és publikációval működött együtt világszerte.

Az unite.AI alapító partnere és tagja Forbes Technológiai Tanács, Antoine a futurista aki szenvedélyesen rajong az AI és a robotika jövőjéért.

Ő az alapítója is Értékpapír.io, egy webhely, amely a bomlasztó technológiába való befektetésre összpontosít.