Umělá inteligence

Vše, co potřebujete vědět o Lamě 3 | Dosud nejvýkonnější model s otevřeným zdrojem | Koncepty k použití

aktualizováno on 24. dubna 2024

Meta Llama 3 open source LLM PŘEKONÁVÁ GPT 4

Meta nedávno vydala Llama 3, další generaci svého nejmodernějšího open source velkého jazykového modelu (LLM). Llama 3, která staví na základech stanovených svým předchůdcem, si klade za cíl vylepšit schopnosti, díky nimž se Llama 2 stala významným open source konkurentem ChatGPT, jak je uvedeno v obsáhlé recenzi v článku. Llama 2: Hluboký ponor do open-source Challengeru pro ChatGPT.

V tomto článku probereme základní koncepty stojící za Llamou 3, prozkoumáme její inovativní architekturu a školicí proces a poskytneme praktické rady, jak přistupovat, používat a nasazovat tento převratný model zodpovědně. Ať už jste výzkumník, vývojář nebo nadšenec AI, tento příspěvek vás vybaví znalostmi a zdroji potřebnými k využití síly Llama 3 pro vaše projekty a aplikace.

Evoluce lámy: Od lámy 2 k lámě 3

CEO společnosti Meta, Mark Zuckerberg, oznámila, debut Llama 3, nejnovější model umělé inteligence vyvinutý společností Meta AI. Tento nejmodernější model, nyní open-source, má vylepšit různé produkty Meta, včetně Messengeru a Instagramu. Zuckerberg zdůraznil, že Llama 3 řadí Meta AI jako nejpokročilejší volně dostupný AI asistent.

Než si promluvíme o specifikách Llama 3, vraťme se krátce k jejímu předchůdci, Llama 2. Llama 2022, která byla představena v roce 2, byla významným milníkem v oblasti open-source LLM a nabídla výkonný a efektivní model, který lze provozovat na spotřebním hardwaru. .

I když byla Llama 2 pozoruhodným úspěchem, měla svá omezení. Uživatelé hlásili problémy s falešným odmítnutím (model odmítá odpovídat na benigní výzvy), omezenou vstřícností a prostorem pro zlepšení v oblastech, jako je uvažování a generování kódu.

Vstupte do Llama 3: Reakce Meta na tyto výzvy a zpětná vazba komunity. S Llamou 3 se Meta rozhodla vybudovat ty nejlepší open-source modely na stejné úrovni se špičkovými proprietárními modely, které jsou dnes k dispozici, a zároveň upřednostnit odpovědný vývoj a postupy nasazení.

Lama 3: Architektura a školení

Jednou z klíčových inovací v Llama 3 je její tokenizér, který se vyznačuje výrazně rozšířenou slovní zásobou 128,256 tokeny (nárůst z 32,000 2 v Llama XNUMX). Tato větší slovní zásoba umožňuje efektivnější kódování textu, a to jak pro vstup, tak pro výstup, což může vést k silnější vícejazyčnosti a celkovému zlepšení výkonu.

Llama 3 také obsahuje Grouped-Query Attention (GQA), efektivní reprezentační technika, která zvyšuje škálovatelnost a pomáhá modelu efektivněji zvládat delší kontexty. The 8B verze Llama 3 využívá GQA, zatímco oba 8B a 70B modely dokážou zpracovat sekvence až 8,192 tokeny.

Tréninková data a škálování

Tréninková data použitá pro Llama 3 jsou zásadním faktorem pro její lepší výkon. Meta kurátorovala masivní datový soubor více než 15 bilionu tokeny z veřejně dostupných online zdrojů, sedmkrát větší než datový soubor použitý pro Llama 2. Tento datový soubor také zahrnuje významnou část (přes 5 %) vysoce kvalitních neanglických dat, která pokrývají více než Jazyky 30, v rámci přípravy na budoucí vícejazyčné aplikace.

K zajištění kvality dat použila Meta pokročilé techniky filtrování, včetně heuristických filtrů, filtrů NSFW, sémantické deduplikace a textových klasifikátorů trénovaných na Llama 2 k předpovídání kvality dat. Tým také provedl rozsáhlé experimenty, aby určil optimální kombinaci zdrojů dat pro předtrénink, čímž zajistil, že Llama 3 bude dobře fungovat v celé řadě případů použití, včetně drobností, STEM, kódování a historických znalostí.

Zvýšení předtréninku bylo dalším kritickým aspektem vývoje Llama 3. Meta vyvinula zákony škálování, které jim umožnily předpovídat výkon jejích největších modelů v klíčových úlohách, jako je generování kódu, ještě předtím, než je skutečně trénují. To umožnilo rozhodování o datovém mixu a alokaci výpočtů, což nakonec vedlo k efektivnějšímu a efektivnějšímu školení.

Největší modely Llama 3 byly trénovány na dvou na zakázku vytvořených 24,000 2 GPU clusterech, využívajících kombinaci datové paralelizace, modelové paralelizace a paralelizačních technik. Pokročilý tréninkový zásobník Meta automaticky zjišťoval, zpracovával a udržoval chyby, maximalizoval dobu provozu GPU a zvýšil efektivitu tréninku přibližně třikrát ve srovnání s Llama XNUMX.

Instrukce Jemné ladění a výkon

Aby Meta odemkla plný potenciál Llama 3 pro chatovací a dialogové aplikace, inovovala svůj přístup k dolaďování instrukcí. Jeho metoda kombinuje doladění pod dohledem (SFT), odběr vzorků, optimalizace proximální politiky (PPO) a přímou optimalizaci preferencí (DPO).

Kvalita výzev používaných v SFT a žebříčky preferencí používané v PPO a DPO hrály zásadní roli ve výkonu sladěných modelů. Tým Meta tato data pečlivě zpracoval a provedl několik kol zajištění kvality anotací poskytnutých lidskými anotátory.

Školení o hodnocení preferencí prostřednictvím PPO a DPO také výrazně zlepšilo výkon Llamy 3 v úlohách uvažování a kódování. Meta zjistila, že i když se model snaží odpovědět přímo na otázku uvažování, může stále vytvářet správnou stopu uvažování. Trénink na žebříčku preferencí umožnil modelu naučit se vybrat správnou odpověď z těchto stop.

Výsledky hovoří samy za sebe: Llama 3 překonává mnoho dostupných modelů chatu s otevřeným zdrojovým kódem v běžných průmyslových benchmarcích a vytváří nový špičkový výkon pro LLM na 8B a 70B parametrické škále.

Zodpovědný vývoj a bezpečnostní aspekty

Při sledování špičkového výkonu Meta také upřednostnila odpovědný vývoj a postupy nasazení pro Llama 3. Společnost přijala přístup na systémové úrovni a představila si modely Llama 3 jako součást širšího ekosystému, který staví vývojáře na sedadlo řidiče a umožňuje jim navrhovat a přizpůsobit modely pro jejich konkrétní případy použití a bezpečnostní požadavky.

Společnost Meta provedla rozsáhlá cvičení red-teamingu, provedla hodnocení protivníků a implementovala techniky zmírnění bezpečnosti, aby snížila zbytková rizika ve svých modelech vyladěných podle pokynů. Společnost však uznává, že zbytková rizika pravděpodobně zůstanou, a doporučuje vývojářům, aby tato rizika posoudili v kontextu jejich konkrétních případů použití.

Pro podporu zodpovědného nasazení aktualizovala Meta svou příručku pro zodpovědné použití, která poskytuje komplexní zdroj pro vývojáře k implementaci osvědčených postupů bezpečnosti na úrovni modelu a systému pro jejich aplikace. Průvodce pokrývá témata, jako je moderování obsahu, hodnocení rizik a používání bezpečnostních nástrojů, jako je Llama Guard 2 a Code Shield.

Llama Guard 2, postavená na taxonomii MLCommons, je navržena tak, aby klasifikovala vstupy (výzvy) a odpovědi LLM a odhalovala obsah, který může být považován za nebezpečný nebo škodlivý. CyberSecEval 2 rozšiřuje svého předchůdce o opatření, která zabraňují zneužití interpretu kódu modelu, urážlivé schopnosti kybernetické bezpečnosti a náchylnost k rychlým injekčním útokům.

Code Shield, nový úvod do Llama 3, přidává filtrování nezabezpečeného kódu vytvořeného LLM v čase odvození, zmírňuje rizika spojená s návrhy nezabezpečeného kódu, zneužíváním interpretu kódu a bezpečným prováděním příkazů.

Přístup a používání lamy 3

Po uvedení Meta AI Llama 3 bylo zpřístupněno několik open source nástrojů pro místní nasazení na různých operačních systémech, včetně Mac, Windows a Linux. Tato část podrobně popisuje tři pozoruhodné nástroje: Ollama, Open WebUI a LM Studio, z nichž každý nabízí jedinečné funkce pro využití schopností Llamy 3 na osobních zařízeních.

Ollama: K dispozici pro Mac, Linux a Windows, Ollama zjednodušuje provoz Llama 3 a dalších velkých jazykových modelů na osobních počítačích, a to i na těch s méně robustním hardwarem. Obsahuje správce balíčků pro snadnou správu modelů a podporuje příkazy napříč platformami pro stahování a spouštění modelů.

Otevřete WebUI pomocí Dockeru: Tento nástroj poskytuje uživatelsky přívětivý, přístavní dělník-založené rozhraní kompatibilní s Mac, Linux a Windows. Bezproblémově se integruje s modely z registru Ollama a umožňuje uživatelům nasazovat modely jako Llama 3 a komunikovat s nimi v rámci místního webového rozhraní.

Studio LM: Cílení na uživatele v systémech Mac, Linux a Windows, Studio LM podporuje řadu modelů a je postaven na projektu llama.cpp. Poskytuje rozhraní chatu a usnadňuje přímou interakci s různými modely, včetně modelu Llama 3 8B Instruct.

Tyto nástroje zajišťují, že uživatelé mohou efektivně využívat Llama 3 na svých osobních zařízeních, a to v souladu s řadou technických dovedností a požadavků. Každá platforma nabízí postupy krok za krokem pro nastavení a interakci s modelem, díky čemuž je pokročilá umělá inteligence přístupnější vývojářům a nadšencům.

Nasazení Llama 3 ve Scale

Kromě poskytování přímého přístupu k modelovým vahám se Meta spojila s různými poskytovateli cloudu, modelovými API službami a hardwarovými platformami, aby umožnila bezproblémové nasazení Llama 3 v měřítku.

Jednou z klíčových výhod Llama 3 je její vylepšená efektivita tokenů díky novému tokenizeru. Benchmarky ukazují, že Llama 3 vyžaduje až O 15 % méně tokenů ve srovnání s Llama 2, což vede k rychlejšímu a nákladově efektivnějšímu vyvozování.

Integrace Grouped Query Attention (GQA) ve verzi 8B Llama 3 přispívá k udržení účinnosti odvození na stejné úrovni jako 7B verze Llama 2, a to i přes nárůst počtu parametrů.

Pro zjednodušení procesu nasazení poskytla Meta repozitář Llama Recipes, který obsahuje otevřený zdrojový kód a příklady pro jemné ladění, nasazení, vyhodnocení modelu a další. Toto úložiště slouží jako cenný zdroj pro vývojáře, kteří chtějí využít schopnosti Llama 3 ve svých aplikacích.

Pro ty, kteří mají zájem prozkoumat výkon Llama 3, Meta integrovala své nejnovější modely do Meta AI, předního AI asistenta postaveného na technologii Llama 3. Uživatelé mohou komunikovat s Meta AI prostřednictvím různých aplikací Meta, jako je Facebook, Instagram, WhatsApp, Messenger a web, aby mohli dělat věci, učit se, tvořit a spojit se s věcmi, na kterých jim záleží.

Co bude dál pro Llama 3?

Zatímco modely 8B a 70B znamenají začátek vydání Llama 3, Meta má ambiciózní plány pro budoucnost tohoto přelomového LLM.

V nadcházejících měsících můžeme očekávat zavedení nových funkcí, včetně multimodality (schopnost zpracovávat a generovat různé modality dat, jako jsou obrázky a videa), vícejazyčnosti (podpora více jazyků) a mnohem delší kontextová okna pro lepší výkon na úkoly, které vyžadují rozsáhlý kontext.

Meta navíc plánuje vydat větší velikosti modelů, včetně modelů s více než 400 miliardami parametrů, které jsou v současné době ve výcviku a vykazují slibné trendy z hlediska výkonu a schopností.

Aby Meta dále pokročila v této oblasti, zveřejní také podrobný výzkumný dokument o Llamě 3, ve kterém se podělí o své poznatky a poznatky s širší komunitou AI.

Jako malý náhled toho, co přijde, Meta sdílela některé rané snímky výkonu svého největšího modelu LLM v různých benchmarcích. I když jsou tyto výsledky založeny na brzkém kontrolním bodu a mohou se změnit, poskytují vzrušující pohled na budoucí potenciál Llamy 3.

Proč investovat do čističky vzduchu?

Llama 3 představuje významný milník ve vývoji open-source velkých jazykových modelů, posouvá hranice výkonu, schopností a odpovědných postupů vývoje. Díky své inovativní architektuře, masivní sadě tréninkových dat a špičkovým technikám jemného ladění zavádí Llama 3 nová nejmodernější měřítka pro LLM na 8B a 70B parametrické škále.

Llama 3 je však více než jen výkonný jazykový model; je to důkaz odhodlání společnosti Meta podporovat otevřený a odpovědný ekosystém umělé inteligence. Poskytováním komplexních zdrojů, bezpečnostních nástrojů a osvědčených postupů umožňuje Meta vývojářům využít plný potenciál Llama 3 a zároveň zajistit odpovědné nasazení přizpůsobené jejich konkrétním případům použití a publiku.

Jak cesta Llama 3 pokračuje, s novými možnostmi, velikostmi modelů a výsledky výzkumu na obzoru, komunita AI netrpělivě očekává inovativní aplikace a průlomy, které nepochybně vzejdou z tohoto převratného LLM.

Ať už jste výzkumník posouvající hranice zpracování přirozeného jazyka, vývojář vytvářející novou generaci inteligentních aplikací nebo nadšenec AI zvědavý na nejnovější pokroky, Llama 3 slibuje, že bude mocným nástrojem ve vašem arzenálu, který otevírá nové dveře a odemykání světa možností.

Související témata:Lama lama 2 Llama 3 LLM LLM meta

Nahoru Další

Microsoft představuje Phi-3: Výkonné modely otevřené umělé inteligence poskytující špičkový výkon při malých velikostech

Nenechte si ujít

FrugalGPT: Změna paradigmatu v optimalizaci nákladů pro velké jazykové modely

Aayush Mittal

Posledních pět let jsem strávil ponořením se do fascinujícího světa strojového učení a hlubokého učení. Moje vášeň a odborné znalosti mě vedly k tomu, abych se podílel na více než 50 různých projektech softwarového inženýrství se zvláštním zaměřením na AI/ML. Moje neustálá zvědavost mě také přivedla ke zpracování přirozeného jazyka, což je obor, který bych rád dále prozkoumal.