výhonek 5 nejlepších LLM s otevřeným zdrojovým kódem (květen 2024) – Unite.AI
Spojte se s námi
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [nickname] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [chráněno e-mailem]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Zakládající partner unite.AI a člen Technologická rada Forbes, Antoine je a futurista který je zapálený pro budoucnost umělé inteligence a robotiky. Je také zakladatelem Cenné papíry.io, web, který se zaměřuje na investice do převratných technologií. [user_avatar] => mm
)

Best Of

5 nejlepších LLM s otevřeným zdrojovým kódem (květen 2024)

aktualizováno on
Open Source LLM

V rychle se vyvíjejícím světě umělé inteligence (AI) se velké jazykové modely (LLM) ukázaly jako základní kámen, pohánějí inovace a přetvářejí způsob, jakým interagujeme s technologiemi.

Jak jsou tyto modely stále sofistikovanější, roste důraz na demokratizaci přístupu k nim. Zejména open-source modely hrají v této demokratizaci klíčovou roli a nabízejí výzkumníkům, vývojářům a nadšencům příležitost ponořit se hluboko do jejich složitostí, vyladit je pro konkrétní úkoly nebo dokonce stavět na jejich základech.

V tomto blogu prozkoumáme některé z nejlepších LLM s otevřeným zdrojovým kódem, které dělají vlny v komunitě umělé inteligence, z nichž každý přináší své jedinečné přednosti a schopnosti.

1. Llama 2

Meta's Llama 2 je průlomový přírůstek do jejich modelové řady AI. Toto není jen další model; je navržen tak, aby poháněl řadu nejmodernějších aplikací. Tréninková data Llamy 2 jsou rozsáhlá a různorodá, což z ní činí významný pokrok oproti svému předchůdci. Tato rozmanitost ve výcviku zajišťuje, že Llama 2 není jen postupným vylepšením, ale také monumentálním krokem k budoucnosti interakcí řízených umělou inteligencí.

Spolupráce mezi Meta a Microsoftem rozšířila obzory pro Llama 2. Model s otevřeným zdrojovým kódem je nyní podporován na platformách jako Azure a Windows, jehož cílem je poskytnout vývojářům a organizacím nástroje pro vytváření generativních zážitků řízených umělou inteligencí. Toto partnerství podtrhuje odhodlání obou společností učinit AI přístupnější a otevřenější pro všechny.

Llama 2 není jen nástupcem původního modelu Llama; představuje změnu paradigmatu v aréně chatbotů. Zatímco první model Llama byl revoluční v generování textu a kódu, jeho dostupnost byla omezena, aby se zabránilo zneužití. Llama 2 má naopak oslovit širší publikum. Je optimalizován pro platformy jako AWS, Azure a hostovací platforma modelu AI Hugging Face. Navíc díky spolupráci Meta s Microsoftem je Llama 2 připravena prosadit se nejen na Windows, ale také na zařízeních poháněných systémem Snapdragon od Qualcommu na čipu.

Bezpečnost je srdcem designu Llama 2. Meta si uvědomuje problémy, kterým čelily dřívější velké jazykové modely jako GPT, které někdy produkovaly zavádějící nebo škodlivý obsah, a přijala rozsáhlá opatření, aby zajistila spolehlivost Llama 2. Model prošel přísným školením, aby se minimalizovaly „halucinace“, dezinformace a předsudky.

Nejlepší vlastnosti LLaMa 2:

  • Údaje o různých školeních: Tréninková data Llama 2 jsou rozsáhlá a různorodá, což zajišťuje komplexní pochopení a výkon.
  • Spolupráce s Microsoftem: Llama 2 je podporována na platformách jako Azure a Windows, čímž se rozšiřuje rozsah jejích aplikací.
  • Otevřená dostupnost: Na rozdíl od svého předchůdce je Llama 2 k dispozici širšímu publiku, připravená k doladění na více platformách.
  • Design zaměřený na bezpečnost: Meta kladla důraz na bezpečnost a zajistila, že Llama 2 produkuje přesné a spolehlivé výsledky a zároveň minimalizuje škodlivé výstupy.
  • Optimalizované verze: Llama 2 přichází ve dvou hlavních verzích – Llama 2 a Llama 2-Chat, přičemž ta druhá je speciálně navržena pro obousměrnou konverzaci. Tyto verze se pohybují ve složitosti od 7 miliard do 70 miliard parametrů.
  • Rozšířený trénink: Llama 2 byla vycvičena na dvou milionech tokenů, což je výrazný nárůst oproti původním 1.4 bilionu tokenů Llama.

2. Kvést

V roce 2022, po globálním společném úsilí zahrnujícím dobrovolníky z více než 70 zemí a odborníky z Hugging Face, byl odhalen projekt BLOOM. Tento velký jazykový model (LLM), vytvořený na základě roční iniciativy, je navržen pro autoregresivní generování textu, který je schopen rozšířit daný textový příkaz. Byl trénován na masivním korpusu textových dat s využitím značného výpočetního výkonu.

Debut BLOOM byl významným krokem ve zpřístupnění generativní AI technologie. Jako open-source LLM se může pochlubit 176 miliardami parametrů, díky čemuž je jedním z nejimpozantnějších ve své třídě. BLOOM má schopnosti generovat souvislý a přesný text ve 46 jazycích a 13 programovacích jazycích.

Projekt klade důraz na transparentnost, umožňuje veřejný přístup ke zdrojovému kódu a školicím datům. Tato otevřenost vybízí k neustálému zkoumání, využívání a vylepšování modelu.

BLOOM, který je zdarma dostupný prostřednictvím platformy Hugging Face, je důkazem kolaborativních inovací v AI.

Hlavní vlastnosti Bloom:

  • Vícejazyčné schopnosti: BLOOM je zběhlý v generování textu ve 46 jazycích a 13 programovacích jazycích, čímž předvádí svůj široký lingvistický rozsah.
  • Přístup k otevřenému zdroji: Zdrojový kód modelu a trénovací data jsou veřejně dostupná, což podporuje transparentnost a zlepšování spolupráce.
  • Autoregresivní generování textu: BLOOM, navržený tak, aby pokračoval v textu z dané výzvy, vyniká v rozšiřování a doplňování textových sekvencí.
  • Počet masivních parametrů: Se 176 miliardami parametrů je BLOOM jedním z nejvýkonnějších open-source LLM, které existují.
  • Globální spolupráce: Vyvinuto v rámci ročního projektu s příspěvky dobrovolníků z více než 70 zemí a výzkumníků Hugging Face.
  • Volná dostupnost: Uživatelé mohou zdarma přistupovat k BLOOM a využívat jej prostřednictvím ekosystému Hugging Face, což posílí jeho demokratizaci v oblasti AI.
  • Školení v průmyslovém měřítku: Model byl trénován na obrovském množství textových dat s využitím značných výpočetních zdrojů, což zajišťuje robustní výkon.

3. MPT-7B

Společnost MosaicML Foundations významně přispěla k tomuto prostoru představením MPT-7B, jejich nejnovějšího LLM s otevřeným zdrojovým kódem. MPT-7B, zkratka pro MosaicML Pretrained Transformer, je model transformátoru ve stylu GPT, pouze dekodér. Tento model se může pochlubit několika vylepšeními, včetně výkonově optimalizovaných implementací vrstev a změn architektury, které zajišťují větší stabilitu tréninku.

Vynikající funkcí MPT-7B je jeho školení na rozsáhlém datovém souboru obsahujícím 1 bilion tokenů textu a kódu. Toto přísné školení probíhalo na platformě MosaicML po dobu 9.5 dne.

Open source povaha MPT-7B z něj činí cenný nástroj pro komerční aplikace. Má potenciál významně ovlivnit prediktivní analytiku a rozhodovací procesy podniků a organizací.

Kromě základního modelu vydává MosaicML Foundations také specializované modely šité na míru pro konkrétní úkoly, jako je MPT-7B-Instruct pro následování krátkých instrukcí, MPT-7B-Chat pro generování dialogů a MPT-7B-StoryWriter-65k+. pro tvorbu dlouhého příběhu.

Vývojová cesta MPT-7B byla komplexní a tým MosaicML řídil všechny fáze od přípravy dat až po nasazení během několika týdnů. Data pocházela z různých úložišť a tým využíval nástroje jako GPT-NeoX od EleutherAI a tokenizér 20B, aby zajistil rozmanitý a komplexní tréninkový mix.

Přehled klíčových funkcí MPT-7B:

  • Komerční licence: MPT-7B je licencován pro komerční použití, což z něj činí cenné aktivum pro podniky.
  • Rozsáhlá data školení: Model se může pochlubit školením na rozsáhlém datovém souboru 1 bilionu tokenů.
  • Zpracování dlouhého vstupu: MPT-7B je navržen pro zpracování extrémně dlouhých vstupů bez kompromisů.
  • Rychlost a efektivita: Model je optimalizován pro rychlý trénink a vyvozování, což zajišťuje včasné výsledky.
  • Open-source kód: MPT-7B přichází s efektivním open source tréninkovým kódem, který podporuje transparentnost a snadné použití.
  • Srovnávací dokonalost: MPT-7B prokázal převahu nad ostatními modely s otevřeným zdrojovým kódem v řadě 7B-20B, přičemž svou kvalitou odpovídá kvalitě LLaMA-7B.

4. sokol

Falcon LLM, je model, který rychle vystoupil na vrchol hierarchie LLM. Falcon LLM, konkrétně Falcon-40B, je základní LLM vybavený 40 miliardami parametrů a byl vyškolen na působivém bilionu tokenů. Funguje jako model pouze s autoregresivním dekodérem, což v podstatě znamená, že předpovídá následující token v sekvenci na základě předchozích tokenů. Tato architektura připomíná model GPT. Je pozoruhodné, že architektura Falconu prokázala lepší výkon než GPT-3 a dosáhla tohoto výkonu s pouhými 75 % školného výpočetního rozpočtu a vyžadovala podstatně méně výpočtů během inference.

Tým z Technology Innovation Institute kladl při vývoji Falconu velký důraz na kvalitu dat. Rozpoznali citlivost LLM na kvalitu tréninkových dat a vytvořili datový kanál, který se škáloval na desítky tisíc jader CPU. To umožnilo rychlé zpracování a extrakci vysoce kvalitního obsahu z webu, kterého bylo dosaženo díky rozsáhlým procesům filtrování a deduplikace.

Kromě Falconu-40B představila TII také další verze, včetně Falconu-7B, který má 7 miliard parametrů a byl natrénován na 1,500 miliardách tokenů. Existují také specializované modely jako Falcon-40B-Instruct a Falcon-7B-Instruct, přizpůsobené pro konkrétní úkoly.

Výcvik Falconu-40B byl rozsáhlý proces. Model byl trénován na datovém souboru RefinedWeb, rozsáhlém anglickém webovém datovém souboru vytvořeném TII. Tato datová sada byla postavena na platformě CommonCrawl a prošla přísným filtrováním, aby byla zajištěna kvalita. Jakmile byl model připraven, byl ověřen proti několika open source benchmarkům, včetně EAI Harness, HELM a BigBench.

Přehled klíčových funkcí Falcon LLM:

  • Rozsáhlé parametry: Falcon-40B je vybaven 40 miliardami parametrů, které zajišťují komplexní učení a výkon.
  • Model pouze s autoregresivním dekodérem: Tato architektura umožňuje Falconu předpovídat následující tokeny na základě předchozích, podobně jako model GPT.
  • Vynikající výkon: Falcon překonává GPT-3 a využívá pouze 75 % školného výpočetního rozpočtu.
  • Vysoce kvalitní datový kanál: Datový kanál TII zajišťuje extrakci vysoce kvalitního obsahu z webu, který je zásadní pro školení modelu.
  • Různé modely: Kromě Falconu-40B nabízí TII Falcon-7B a specializované modely jako Falcon-40B-Instruct a Falcon-7B-Instruct.
  • Dostupnost open-source: Falcon LLM je open-source, což podporuje dostupnost a inkluzivitu v doméně AI.

5. Vicuna-13B

LMSYS ORG udělal významnou značku v oblasti open-source LLM zavedením Vicuna-13B. Tento chatbot s otevřeným zdrojovým kódem byl pečlivě vyškolen vyladěním LLaMA na uživatelsky sdílených konverzacích pocházejících ze ShareGPT. Předběžná hodnocení, kdy GPT-4 působí jako porotce, naznačují, že Vicuna-13B dosahuje více než 90% kvality renomovaných modelů, jako jsou OpenAI ChatGPT a Google Bard.

Působivě, Vicuna-13B překonává jiné pozoruhodné modely, jako je LLaMA a Stanford Alpaca ve více než 90 % případů. Celý výcvikový proces pro Vicuna-13B byl proveden za cenu přibližně 300 $. Pro ty, kteří mají zájem prozkoumat jeho možnosti, byl kód, váhy a online demo zpřístupněny pro nekomerční účely.

Model Vicuna-13B byl vyladěn pomocí 70 4 uživatelsky sdílených konverzací ChatGPT, což mu umožňuje generovat podrobnější a dobře strukturované odpovědi. Kvalita těchto odpovědí je srovnatelná s ChatGPT. Vyhodnocování chatbotů je však složitá záležitost. S pokrokem v GPT-4 vzrůstá zájem o jeho potenciál sloužit jako automatizovaný hodnotící rámec pro generování benchmarků a hodnocení výkonu. Počáteční zjištění naznačují, že GPT-4 může produkovat konzistentní hodnocení a podrobné hodnocení při porovnávání odpovědí chatbotů. Předběžná hodnocení založená na GPT-90 ukazují, že Vicuna dosahuje XNUMX% schopností modelů jako Bard/ChatGPT.

Přehled klíčových funkcí Vicuna-13B:

  • Povaha otevřeného zdroje: Vicuna-13B je k dispozici pro veřejnost, podporuje transparentnost a zapojení komunity.
  • Rozsáhlá data školení: Model byl trénován na 70 XNUMX uživatelsky sdílených konverzacích, což zajišťuje komplexní pochopení různých interakcí.
  • Konkurenční výkon: Výkon Vicuna-13B je srovnatelný s lídry v oboru, jako jsou ChatGPT a Google Bard.
  • Cenově efektivní školení: Celý tréninkový proces pro Vicuna-13B byl proveden za nízkou cenu kolem 300 $.
  • Jemné doladění LLaMA: Model byl vyladěn na LLaMA, což zajišťuje zvýšený výkon a kvalitu odezvy.
  • Dostupnost online ukázky: Pro uživatele je k dispozici interaktivní online demo, kde si mohou vyzkoušet a vyzkoušet schopnosti Vicuna-13B.

Rozšiřující se říše velkých jazykových modelů

Oblast velkých jazykových modelů je rozsáhlá a neustále se rozšiřující, přičemž každý nový model posouvá hranice toho, co je možné. Open source povaha LLM, o které se hovoří v tomto blogu, nejenže ukazuje ducha spolupráce komunity AI, ale také připravuje cestu pro budoucí inovace.

Tyto modely, počínaje působivými schopnostmi chatbota Vicuna po vynikající metriky výkonu Falcon, představují vrchol současné technologie LLM. Vzhledem k tomu, že jsme stále svědky rychlého pokroku v této oblasti, je jasné, že modely s otevřeným zdrojovým kódem budou hrát zásadní roli při utváření budoucnosti AI.

Ať už jste zkušený výzkumník, začínající nadšenec AI nebo někdo, kdo se zajímá o potenciál těchto modelů, není lepší čas se ponořit a prozkoumat obrovské možnosti, které nabízejí.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s řadou AI startupů a publikací po celém světě.

Zakládající partner unite.AI a člen Technologická rada Forbes, Antoine je a futurista který je zapálený pro budoucnost umělé inteligence a robotiky.

Je také zakladatelem Cenné papíry.io, web, který se zaměřuje na investice do převratných technologií.