peň 5 najlepších LLM s otvoreným zdrojom (máj 2024) – Unite.AI
Spojte sa s nami
Pole ( [ID] => 1 [user_firstname] => Antoine [user_priezvisko] => Tardif [prezývka] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [chránené e-mailom]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Zakladajúci partner unite.AI a člen Technologická rada Forbes, Antoine je a Futurist ktorý je nadšený budúcnosťou AI a robotiky. Je tiež zakladateľom Cenné papiere.io, web, ktorý sa zameriava na investovanie do prevratných technológií. [user_avatar] => mm
)

Best Of

5 najlepších LLM s otvoreným zdrojom (máj 2024)

Aktualizované on
LLM s otvoreným zdrojom

V rýchlo sa rozvíjajúcom svete umelej inteligencie (AI) sa veľké jazykové modely (LLM) ukázali ako základný kameň, ktorý poháňa inovácie a mení spôsob, akým interagujeme s technológiou.

Keďže tieto modely sú čoraz sofistikovanejšie, kladie sa čoraz väčší dôraz na demokratizáciu prístupu k nim. Hlavnú úlohu v tejto demokratizácii zohrávajú najmä open source modely, ktoré ponúkajú výskumníkom, vývojárom a nadšencom príležitosť ponoriť sa hlboko do ich zložitosti, vyladiť ich pre konkrétne úlohy alebo dokonca stavať na ich základoch.

V tomto blogu preskúmame niektoré z najlepších LLM s otvoreným zdrojovým kódom, ktoré hýbu komunitou AI, pričom každý z nich prináša svoje jedinečné silné stránky a schopnosti.

1. Lama 2

Meta's Llama 2 je prelomovým prírastkom do ich modelovej rady AI. Toto nie je len ďalší model; je navrhnutý tak, aby poháňal celý rad najmodernejších aplikácií. Tréningové údaje Llama 2 sú rozsiahle a rôznorodé, čo z nich robí významný pokrok oproti svojmu predchodcovi. Táto rozmanitosť v tréningu zaisťuje, že Llama 2 nie je len postupným vylepšením, ale aj monumentálnym krokom k budúcnosti interakcií riadených AI.

Spolupráca medzi Meta a Microsoft rozšírila obzory pre Llama 2. Open-source model je teraz podporovaný na platformách ako Azure a Windows, s cieľom poskytnúť vývojárom a organizáciám nástroje na vytváranie generatívnych zážitkov poháňaných AI. Toto partnerstvo podčiarkuje odhodlanie oboch spoločností urobiť AI dostupnejšou a otvorenejšou pre všetkých.

Llama 2 nie je len nástupcom pôvodného modelu Llama; predstavuje zmenu paradigmy v aréne chatbotov. Zatiaľ čo prvý model Llama bol revolučný v generovaní textu a kódu, jeho dostupnosť bola obmedzená, aby sa zabránilo zneužitiu. Llama 2 má na druhej strane osloviť širšie publikum. Je optimalizovaný pre platformy ako AWS, Azure a hostiteľská platforma AI modelu Hugging Face. Navyše vďaka spolupráci Meta s Microsoftom je Llama 2 pripravená zaujať nielen Windows, ale aj zariadenia poháňané systémom Qualcomm Snapdragon na čipe.

Bezpečnosť je jadrom dizajnu Llama 2. Meta, ktorá si uvedomuje problémy, ktorým čelili predchádzajúce veľké jazykové modely, ako je GPT, ktoré niekedy vytvárali zavádzajúci alebo škodlivý obsah, prijala rozsiahle opatrenia na zabezpečenie spoľahlivosti Llama 2. Model prešiel prísnym tréningom, aby sa minimalizovali „halucinácie“, dezinformácie a predsudky.

Najlepšie vlastnosti LLaMa 2:

  • Údaje o rôznych tréningoch: Tréningové údaje Llama 2 sú rozsiahle a rozmanité, čo zaisťuje komplexné pochopenie a výkon.
  • Spolupráca so spoločnosťou Microsoft: Llama 2 je podporovaná na platformách ako Azure a Windows, čím sa rozširuje rozsah jej aplikácií.
  • Otvorená dostupnosť: Na rozdiel od svojho predchodcu je Llama 2 dostupná pre širšie publikum, pripravená na doladenie na viacerých platformách.
  • Dizajn zameraný na bezpečnosť: Spoločnosť Meta zdôraznila bezpečnosť a zabezpečila, že Llama 2 produkuje presné a spoľahlivé výsledky a zároveň minimalizuje škodlivé výstupy.
  • Optimalizované verzie: Llama 2 prichádza v dvoch hlavných verziách – Llama 2 a Llama 2-Chat, pričom tá druhá je špeciálne navrhnutá pre obojsmernú konverzáciu. Tieto verzie majú rozsah zložitosti od 7 miliárd do 70 miliárd parametrov.
  • Vylepšený tréning: Llama 2 bola trénovaná na dvoch miliónoch tokenov, čo je výrazný nárast z pôvodných 1.4 bilióna tokenov Llama.

2. kvet

V roku 2022, po celosvetovom úsilí o spoluprácu dobrovoľníkov z viac ako 70 krajín a odborníkov z Hugging Face, bol odhalený projekt BLOOM. Tento veľký jazykový model (LLM), vytvorený prostredníctvom ročnej iniciatívy, je určený na autoregresívne generovanie textu, ktorý je schopný rozšíriť danú textovú výzvu. Bol trénovaný na masívnom korpuse textových údajov s využitím značného výpočtového výkonu.

Debut BLOOM bol významným krokom v sprístupňovaní generatívnej AI technológie. Ako open-source LLM sa môže pochváliť 176 miliardami parametrov, vďaka čomu je jedným z najimpozantnejších vo svojej triede. BLOOM má schopnosť generovať súvislý a presný text v 46 jazykoch a 13 programovacích jazykoch.

Projekt kladie dôraz na transparentnosť, umožňuje prístup verejnosti k jeho zdrojovému kódu a školiacim údajom. Táto otvorenosť si vyžaduje neustále skúmanie, používanie a zlepšovanie modelu.

BLOOM, ktorý je dostupný bezplatne prostredníctvom platformy Hugging Face, je dôkazom kolaboratívnej inovácie v oblasti AI.

Hlavné vlastnosti Bloom:

  • Viacjazyčné schopnosti: BLOOM je zdatný v generovaní textu v 46 jazykoch a 13 programovacích jazykoch, čím prezentuje svoj široký lingvistický rozsah.
  • Prístup s otvoreným zdrojom: Zdrojový kód modelu a školiace údaje sú verejne dostupné, čo podporuje transparentnosť a zlepšovanie spolupráce.
  • Autoregresívne generovanie textu: BLOOM, navrhnutý tak, aby pokračoval v texte z danej výzvy, vyniká v rozširovaní a dopĺňaní textových sekvencií.
  • Veľký počet parametrov: So 176 miliardami parametrov je BLOOM jedným z najvýkonnejších open-source LLM, aké existujú.
  • Globálna spolupráca: Vyvinuté v rámci celoročného projektu s príspevkami dobrovoľníkov z viac ako 70 krajín a výskumníkov Hugging Face.
  • Bezplatná dostupnosť: Používatelia môžu bezplatne pristupovať a využívať BLOOM prostredníctvom ekosystému Hugging Face, čím sa zvyšuje jeho demokratizácia v oblasti AI.
  • Školenie v priemyselnom meradle: Model bol trénovaný na obrovskom množstve textových údajov s použitím významných výpočtových zdrojov, čím sa zabezpečil robustný výkon.

3. MPT-7B

Spoločnosť MosaicML Foundations významne prispela k tomuto priestoru uvedením MPT-7B, ich najnovšieho open source LLM. MPT-7B, skratka pre MosaicML Pretrained Transformer, je model transformátora v štýle GPT, ktorý obsahuje iba dekodér. Tento model sa môže pochváliť niekoľkými vylepšeniami, vrátane implementácií vrstiev s optimalizovaným výkonom a architektonických zmien, ktoré zaisťujú väčšiu stabilitu tréningu.

Výnimočnou vlastnosťou MPT-7B je jeho školenie na rozsiahlom súbore údajov, ktorý obsahuje 1 bilión tokenov textu a kódu. Toto prísne školenie sa uskutočnilo na platforme MosaicML počas 9.5 dňa.

Vďaka open source povahe je MPT-7B cenným nástrojom pre komerčné aplikácie. Má potenciál výrazne ovplyvniť prediktívnu analytiku a rozhodovacie procesy podnikov a organizácií.

Okrem základného modelu MosaicML Foundations vydáva aj špecializované modely prispôsobené špecifickým úlohám, ako napríklad MPT-7B-Instruct na nasledovanie krátkych pokynov, MPT-7B-Chat na generovanie dialógov a MPT-7B-StoryWriter-65k+. na vytváranie dlhých príbehov.

Vývojová cesta MPT-7B bola komplexná, pričom tím MosaicML zvládol všetky fázy od prípravy dát až po nasadenie v priebehu niekoľkých týždňov. Údaje pochádzali z rôznych úložísk a tím využíval nástroje ako GPT-NeoX od EleutherAI a tokenizér 20B, aby zabezpečil pestrý a komplexný tréningový mix.

Prehľad kľúčových funkcií MPT-7B:

  • Komerčné licencovanie: MPT-7B je licencovaný na komerčné použitie, čo z neho robí cenné aktívum pre podniky.
  • Rozsiahle tréningové údaje: Model sa môže pochváliť tréningom na obrovskom súbore údajov s 1 biliónom tokenov.
  • Spracovanie dlhého vstupu: MPT-7B je navrhnutý na spracovanie extrémne zdĺhavých vstupov bez kompromisov.
  • Rýchlosť a efektivita: Model je optimalizovaný pre rýchly tréning a odvodenie, čím sa zaisťujú včasné výsledky.
  • Open-source kód: MPT-7B prichádza s efektívnym open source školiacim kódom, ktorý podporuje transparentnosť a jednoduché použitie.
  • Porovnateľná dokonalosť: MPT-7B preukázal nadradenosť nad ostatnými modelmi s otvoreným zdrojovým kódom v rade 7B-20B, pričom jeho kvalita zodpovedá kvalite LLaMA-7B.

4. sokol

Falcon LLM, je model, ktorý rýchlo vystúpil na vrchol hierarchie LLM. Falcon LLM, konkrétne Falcon-40B, je základný LLM vybavený 40 miliardami parametrov a bol vyškolený na pôsobivom jednom bilióne tokenov. Funguje len ako autoregresívny model dekodéra, čo v podstate znamená, že predpovedá nasledujúci token v sekvencii na základe predchádzajúcich tokenov. Táto architektúra pripomína model GPT. Je pozoruhodné, že architektúra Falconu preukázala vynikajúci výkon oproti GPT-3, pričom tento výkon dosiahla iba so 75 % školiaceho výpočtového rozpočtu a vyžaduje podstatne menej výpočtov počas odvodzovania.

Tím technologického inštitútu inovácií kládol pri vývoji Falconu veľký dôraz na kvalitu dát. Rozpoznali citlivosť LLM na kvalitu tréningových údajov a vytvorili dátový kanál, ktorý sa škáloval na desiatky tisíc jadier CPU. To umožnilo rýchle spracovanie a extrakciu vysokokvalitného obsahu z webu dosiahnuté rozsiahlymi procesmi filtrovania a deduplikácie.

Okrem Falconu-40B predstavila TII aj ďalšie verzie, vrátane Falconu-7B, ktorý má 7 miliárd parametrov a bol trénovaný na 1,500 miliardách tokenov. Existujú aj špecializované modely ako Falcon-40B-Instruct a Falcon-7B-Instruct, prispôsobené pre konkrétne úlohy.

Výcvik Falcon-40B bol rozsiahly proces. Model bol trénovaný na súbore údajov RefinedWeb, masívnom anglickom webovom súbore údajov vytvorených spoločnosťou TII. Tento súbor údajov bol postavený na platforme CommonCrawl a prešiel prísnym filtrovaním, aby sa zabezpečila kvalita. Keď bol model pripravený, bol overený voči niekoľkým benchmarkom s otvoreným zdrojom, vrátane EAI Harness, HELM a BigBench.

Prehľad kľúčových funkcií Falcon LLM:

  • Rozsiahle parametre: Falcon-40B je vybavený 40 miliardami parametrov, ktoré zaisťujú komplexné učenie a výkon.
  • Model len s autoregresívnym dekodérom: Táto architektúra umožňuje Falconu predpovedať nasledujúce tokeny na základe predchádzajúcich, podobne ako model GPT.
  • Špičkový výkon: Falcon prekonáva GPT-3, pričom využíva iba 75 % školiaceho výpočtového rozpočtu.
  • Vysokokvalitný dátový kanál: Dátový kanál TII zaisťuje extrakciu vysokokvalitného obsahu z webu, ktorý je rozhodujúci pre tréning modelu.
  • Rôzne modely: Okrem Falcon-40B ponúka TII Falcon-7B a špecializované modely ako Falcon-40B-Instruct a Falcon-7B-Instruct.
  • Dostupnosť otvoreného zdroja: Falcon LLM má otvorený zdroj, čím podporuje dostupnosť a inkluzívnosť v doméne AI.

5. Vicuna-13B

LMSYS ORG urobil významnú značku v oblasti open-source LLM zavedením Vicuna-13B. Tento chatbot s otvoreným zdrojovým kódom bol dôkladne vyškolený doladením LLaMA na konverzáciách zdieľaných používateľmi zo ShareGPT. Predbežné hodnotenia, kde GPT-4 vystupuje ako porotca, naznačujú, že Vicuna-13B dosahuje viac ako 90% kvalitu renomovaných modelov ako OpenAI ChatGPT a Google Bard.

Pôsobivo, Vicuna-13B prekonáva iné pozoruhodné modely ako LLaMA a Stanford Alpaca vo viac ako 90 % prípadov. Celý tréningový proces pre Vicuna-13B bol vykonaný za cenu približne 300 USD. Pre tých, ktorí majú záujem preskúmať jeho možnosti, bol kód, váhy a online demo sprístupnené verejnosti na nekomerčné účely.

Model Vicuna-13B bol doladený so 70 4 používateľmi zdieľanými konverzáciami ChatGPT, čo mu umožňuje generovať podrobnejšie a lepšie štruktúrované odpovede. Kvalita týchto odpovedí je porovnateľná s ChatGPT. Hodnotenie chatbotov je však komplexná záležitosť. S pokrokom v GPT-4 narastá záujem o jeho potenciál slúžiť ako automatizovaný hodnotiaci rámec na generovanie benchmarkov a hodnotenia výkonu. Počiatočné zistenia naznačujú, že GPT-4 môže produkovať konzistentné hodnotenia a podrobné hodnotenia pri porovnávaní odpovedí chatbotov. Predbežné hodnotenia založené na GPT-90 ukazujú, že Vicuna dosahuje XNUMX% schopnosti modelov ako Bard/ChatGPT.

Prehľad kľúčových funkcií Vicuna-13B:

  • Povaha otvoreného zdroja: Vicuna-13B je k dispozícii pre verejnosť, podporuje transparentnosť a zapojenie komunity.
  • Rozsiahle tréningové údaje: Model bol trénovaný na 70 XNUMX používateľských konverzáciách, čím sa zabezpečilo komplexné pochopenie rôznych interakcií.
  • Konkurenčný výkon: Výkon Vicuna-13B je porovnateľný s lídrami v odvetví, ako sú ChatGPT a Google Bard.
  • Nákladovo efektívne školenie: Celý tréningový proces pre Vicuna-13B bol vykonaný s nízkymi nákladmi okolo 300 USD.
  • Jemné doladenie na LLaMA: Model bol doladený na LLaMA, čím sa zaistil zvýšený výkon a kvalita odozvy.
  • Dostupnosť online ukážky: Pre používateľov je k dispozícii interaktívne online demo na testovanie a vyskúšanie schopností Vicuna-13B.

Rozširujúca sa oblasť veľkých jazykových modelov

Oblasť veľkých jazykových modelov je rozsiahla a neustále sa rozširujúca, pričom každý nový model posúva hranice toho, čo je možné. Open source povaha LLM, o ktorej sa hovorí v tomto blogu, nielenže predstavuje ducha spolupráce komunity AI, ale tiež pripravuje pôdu pre budúce inovácie.

Tieto modely, od pôsobivých schopností chatbotov Vicuna až po vynikajúce metriky výkonu Falcon, predstavujú vrchol súčasnej technológie LLM. Keďže sme stále svedkami rýchleho pokroku v tejto oblasti, je jasné, že modely s otvoreným zdrojom budú hrať kľúčovú úlohu pri formovaní budúcnosti AI.

Či už ste skúsený výskumník, začínajúci nadšenec AI alebo niekto, kto sa zaujíma o potenciál týchto modelov, nie je lepší čas na to, aby ste sa ponorili a preskúmali obrovské možnosti, ktoré ponúkajú.

Alex McFarland je novinár a spisovateľ AI, ktorý skúma najnovší vývoj v oblasti umelej inteligencie. Spolupracoval s množstvom AI startupov a publikácií po celom svete.

Zakladajúci partner unite.AI a člen skupiny Technologická rada Forbes, Antoine je a Futurist ktorý je nadšený budúcnosťou AI a robotiky.

Je tiež zakladateľom Cenné papiere.io, web, ktorý sa zameriava na investovanie do prevratných technológií.