Umelá inteligencia

Všetko, čo potrebujete vedieť o Lame 3 | Zatiaľ najvýkonnejší model s otvoreným zdrojom | Koncepty na použitie

Aktualizované on Apríla 24, 2024

Meta Llama 3 open source LLM prekonala GPT 4

Meta nedávno vyšla Lama 3, ďalšiu generáciu svojho najmodernejšieho open source veľkého jazykového modelu (LLM). Stavajúc na základoch, ktoré položil jej predchodca, sa Llama 3 zameriava na zlepšenie schopností, ktoré postavili Llama 2 ako významného open-source konkurenta ChatGPT, ako je uvedené v komplexnej recenzii v článku. Llama 2: Deep Dive to the Open-Source Challenger to ChatGPT.

V tomto článku budeme diskutovať o základných konceptoch Llama 3, preskúmame jeho inovatívnu architektúru a tréningový proces a poskytneme praktické rady, ako pristupovať, používať a nasadzovať tento prelomový model zodpovedne. Či už ste výskumník, vývojár alebo nadšenec AI, tento príspevok vás vybaví vedomosťami a zdrojmi potrebnými na využitie sily Llama 3 pre vaše projekty a aplikácie.

Evolúcia lámy: Od lámy 2 k láme 3

CEO spoločnosti Meta, Mark Zuckerberg, oznámila, debut Llama 3, najnovší model AI vyvinutý spoločnosťou Meta AI. Tento najmodernejší model, teraz s otvoreným zdrojom, má vylepšiť rôzne produkty Meta, vrátane Messengeru a Instagramu. Zuckerberg zdôraznil, že Llama 3 umiestňuje Meta AI ako najpokročilejšiu voľne dostupný AI asistent.

Predtým, než si povieme niečo o špecifikách Llama 3, v krátkosti si pripomeňme jeho predchodcu, Llama 2. Llama 2022, ktorá bola predstavená v roku 2, bola významným míľnikom v oblasti open-source LLM a ponúkala výkonný a efektívny model, ktorý bolo možné prevádzkovať na spotrebnom hardvéri. .

Aj keď bola Llama 2 pozoruhodným úspechom, mala svoje obmedzenia. Používatelia hlásili problémy s falošnými odmietnutiami (model odmietajúci odpovedať na benígne výzvy), obmedzenou užitočnosťou a priestorom na zlepšenie v oblastiach, ako je uvažovanie a generovanie kódu.

Zadajte Llama 3: Odpoveď Meta na tieto výzvy a spätná väzba komunity. S Llamou 3 sa Meta rozhodla vybudovať najlepšie modely s otvoreným zdrojovým kódom na rovnakej úrovni ako top proprietárne modely, ktoré sú dnes k dispozícii, pričom uprednostňuje zodpovedné postupy vývoja a nasadenia.

Lama 3: Architektúra a školenie

Jednou z kľúčových inovácií v hre Llama 3 je jej tokenizér, ktorý má výrazne rozšírenú slovnú zásobu Tokeny 128,256 (nárast z 32,000 2 v Llama XNUMX). Táto väčšia slovná zásoba umožňuje efektívnejšie kódovanie textu pre vstup aj výstup, čo môže viesť k silnejšej viacjazyčnosti a celkovému zlepšeniu výkonu.

Llama 3 tiež obsahuje Grouped-Query Attention (GQA), efektívna reprezentačná technika, ktorá zlepšuje škálovateľnosť a pomáha modelu efektívnejšie zvládnuť dlhšie kontexty. The 8B verzia Llama 3 využíva GQA, pričom obe 8B a 70B modely dokážu spracovať sekvencie až Tokeny 8,192.

Školiace údaje a škálovanie

Tréningové dáta použité pre Llama 3 sú kľúčovým faktorom pri jej vylepšenom výkone. Meta kurátorsky pripravila obrovský súbor údajov z viac ako 15 bilióna tokenov z verejne dostupných online zdrojov, sedemkrát väčších ako súbor údajov použitý pre Llama 2. Tento súbor údajov obsahuje aj významnú časť (viac ako 5 %) kvalitných neanglických údajov, ktoré pokrývajú viac ako Jazyky 30v rámci prípravy na budúce viacjazyčné aplikácie.

Na zabezpečenie kvality údajov Meta použila pokročilé techniky filtrovania vrátane heuristických filtrov, filtrov NSFW, sémantickej deduplikácie a textových klasifikátorov vyškolených na Llama 2 na predpovedanie kvality údajov. Tím tiež vykonal rozsiahle experimenty s cieľom určiť optimálnu kombináciu zdrojov údajov pre predbežné školenie, čím sa zabezpečilo, že Llama 3 bude fungovať dobre v širokej škále prípadov použitia vrátane drobností, STEM, kódovania a historických znalostí.

Zvyšovanie predtréningu bolo ďalším kritickým aspektom vývoja Llama 3. Spoločnosť Meta vyvinula zákony škálovania, ktoré im umožnili predpovedať výkon jej najväčších modelov pri kľúčových úlohách, ako je napríklad generovanie kódu, ešte predtým, ako ich skutočne zaškolíme. To ovplyvnilo rozhodnutia o mixe údajov a prideľovaní výpočtov, čo v konečnom dôsledku viedlo k efektívnejšiemu a efektívnejšiemu školeniu.

Najväčšie modely Llama 3 boli trénované na dvoch na mieru vytvorených 24,000 2 GPU klastroch s využitím kombinácie paralelizácie údajov, paralelizácie modelov a techník paralelizácie potrubí. Pokročilý tréningový zásobník Meta automatizoval detekciu, spracovanie a údržbu chýb, maximalizoval dobu prevádzky GPU a zvýšil efektivitu tréningu približne trojnásobne v porovnaní s Llama XNUMX.

Inštrukcie Jemné ladenie a výkon

Na odomknutie plného potenciálu Llama 3 pre chatové a dialógové aplikácie, Meta inovovala svoj prístup k jemnému ladeniu výučby. Jeho metóda kombinuje doladenie pod dohľadom (SFT), odoberanie vzoriek, optimalizácia proximálnej politiky (PPO) a priama optimalizácia preferencií (DPO).

Kvalita výziev používaných v SFT a poradie preferencií používané v PPO a DPO zohrávali kľúčovú úlohu pri výkonnosti zosúladených modelov. Tím Meta tieto údaje starostlivo spracoval a vykonal niekoľko kôl zabezpečenia kvality anotácií poskytnutých ľudskými anotátormi.

Školenie o preferenciách prostredníctvom PPO a DPO tiež výrazne zlepšilo výkon Llama 3 v úlohách uvažovania a kódovania. Meta zistila, že aj keď sa model snaží odpovedať priamo na otázku zdôvodnenia, stále môže produkovať správnu stopu zdôvodnenia. Školenie o rebríčkoch preferencií umožnilo modelu naučiť sa, ako vybrať správnu odpoveď z týchto stôp.

Výsledky hovoria samy za seba: Llama 3 prekonáva mnohé dostupné chatovacie modely s otvoreným zdrojovým kódom v bežných odvetvových benchmarkoch, čím vytvára nový, najmodernejší výkon pre LLM na 8B a 70B škálach parametrov.

Zodpovedný vývoj a bezpečnostné hľadiská

Pri presadzovaní špičkového výkonu Meta tiež uprednostnila zodpovedné postupy vývoja a nasadenia pre Llama 3. Spoločnosť prijala prístup na systémovej úrovni a predstavila si modely Llama 3 ako súčasť širšieho ekosystému, ktorý stavia vývojárov na miesto vodiča a umožňuje im navrhovať a prispôsobiť modely pre ich špecifické prípady použitia a bezpečnostné požiadavky.

Spoločnosť Meta vykonala rozsiahle cvičenia s červeným tímom, vykonala hodnotenia protivníkov a implementovala techniky na zmiernenie bezpečnosti na zníženie zvyškových rizík vo svojich modeloch vyladených podľa pokynov. Spoločnosť však uznáva, že zvyškové riziká pravdepodobne zostanú a odporúča vývojárom, aby tieto riziká posúdili v kontexte ich konkrétnych prípadov použitia.

Na podporu zodpovedného nasadenia spoločnosť Meta aktualizovala svoju príručku zodpovedného používania, ktorá poskytuje komplexný zdroj pre vývojárov na implementáciu osvedčených postupov bezpečnosti na úrovni modelu a systému pre ich aplikácie. Sprievodca sa zaoberá témami, ako je moderovanie obsahu, hodnotenie rizík a používanie bezpečnostných nástrojov ako Llama Guard 2 a Code Shield.

Llama Guard 2, postavená na taxonómii MLCommons, je navrhnutá tak, aby klasifikovala vstupy (výzvy) a odpovede LLM a zisťovala obsah, ktorý možno považovať za nebezpečný alebo škodlivý. CyberSecEval 2 rozširuje svojho predchodcu o opatrenia na zabránenie zneužitia interpretátora kódu modelu, urážlivé možnosti kybernetickej bezpečnosti a náchylnosť na rýchle injekčné útoky.

Code Shield, nový úvod do Llama 3, pridáva filtrovanie nezabezpečeného kódu vytvoreného LLM v čase odvodenia, čím sa zmierňujú riziká spojené s návrhmi nezabezpečeného kódu, zneužívaním interpreta kódu a bezpečným vykonávaním príkazov.

Prístup a používanie lámy 3

Po spustení Meta AI Llama 3 bolo sprístupnených niekoľko open source nástrojov pre lokálne nasadenie v rôznych operačných systémoch vrátane Mac, Windows a Linux. Táto časť podrobne popisuje tri pozoruhodné nástroje: Ollama, Open WebUI a LM Studio, z ktorých každý ponúka jedinečné funkcie na využitie možností Llama 3 na osobných zariadeniach.

Ollama: Dostupné pre Mac, Linux a Windows, Ollama zjednodušuje prevádzku Llama 3 a ďalších veľkých jazykových modelov na osobných počítačoch, dokonca aj na tých s menej robustným hardvérom. Obsahuje správcu balíkov pre jednoduchú správu modelov a podporuje príkazy naprieč platformami na sťahovanie a spúšťanie modelov.

Otvorte WebUI pomocou Docker: Tento nástroj poskytuje užívateľsky prívetivý, prístavný robotník-založené rozhranie kompatibilné s Mac, Linux a Windows. Bezproblémovo sa integruje s modelmi z registra Ollama, čo umožňuje používateľom nasadzovať a interagovať s modelmi ako Llama 3 v rámci lokálneho webového rozhrania.

Štúdio LM: Zacielenie na používateľov v systémoch Mac, Linux a Windows, Štúdio LM podporuje celý rad modelov a je postavený na projekte llama.cpp. Poskytuje chatovacie rozhranie a uľahčuje priamu interakciu s rôznymi modelmi, vrátane modelu Llama 3 8B Instruct.

Tieto nástroje zaisťujú, že používatelia môžu efektívne využívať Llama 3 na svojich osobných zariadeniach, pričom vyhovujú rôznym technickým zručnostiam a požiadavkám. Každá platforma ponúka postupné procesy nastavenia a interakcie s modelom, vďaka čomu je pokročilá AI prístupnejšia pre vývojárov a nadšencov.

Nasadenie Llama 3 vo Scale

Okrem poskytovania priameho prístupu k modelovým závažiam sa Meta spojila s rôznymi poskytovateľmi cloudu, modelovými API službami a hardvérovými platformami, aby umožnila bezproblémové nasadenie Llama 3 vo veľkom rozsahu.

Jednou z kľúčových výhod Llama 3 je jej zlepšená efektivita tokenov vďaka novému tokenizéru. Benchmarky ukazujú, že Llama 3 vyžaduje až O 15 % menej tokenov v porovnaní s Llama 2, výsledkom čoho je rýchlejšia a nákladovo efektívnejšia inferencia.

Integrácia Grouped Query Attention (GQA) vo verzii 8B Llama 3 prispieva k zachovaniu efektívnosti odvodzovania na rovnakej úrovni ako 7B verzia Llama 2, a to aj napriek zvýšeniu počtu parametrov.

Na zjednodušenie procesu nasadenia poskytla Meta úložisko receptov Llama, ktoré obsahuje kód s otvoreným zdrojovým kódom a príklady na jemné ladenie, nasadenie, hodnotenie modelov a ďalšie. Toto úložisko slúži ako cenný zdroj pre vývojárov, ktorí chcú využiť schopnosti Llama 3 vo svojich aplikáciách.

Pre tých, ktorí majú záujem preskúmať výkon Llama 3, Meta integrovala svoje najnovšie modely do Meta AI, popredného asistenta AI postaveného na technológii Llama 3. Používatelia môžu interagovať s Meta AI prostredníctvom rôznych aplikácií Meta, ako je Facebook, Instagram, WhatsApp, Messenger a web, aby mohli robiť veci, učiť sa, vytvárať a spájať sa s vecami, na ktorých im záleží.

Čo bude ďalej pre Llama 3?

Zatiaľ čo modely 8B a 70B označujú začiatok vydania Llama 3, Meta má ambiciózne plány do budúcnosti tohto prelomového LLM.

V nadchádzajúcich mesiacoch môžeme očakávať predstavenie nových možností vrátane multimodality (možnosť spracovávať a generovať rôzne modality údajov, ako sú obrázky a videá), viacjazyčnosti (podpora viacerých jazykov) a oveľa dlhšie kontextové okná pre lepší výkon na úlohy, ktoré si vyžadujú rozsiahly kontext.

Okrem toho spoločnosť Meta plánuje uviesť na trh väčšie veľkosti modelov, vrátane modelov s viac ako 400 miliardami parametrov, ktoré sú v súčasnosti v príprave a vykazujú sľubné trendy z hľadiska výkonu a schopností.

Na ďalší pokrok v tejto oblasti Meta tiež zverejní podrobný výskumný dokument o Llame 3, v ktorom sa podelí o svoje zistenia a poznatky so širšou komunitou AI.

Ako ukážku toho, čo príde, spoločnosť Meta zdieľala niekoľko prvých snímok výkonnosti svojho najväčšieho modelu LLM v rôznych benchmarkoch. Aj keď sú tieto výsledky založené na skorých kontrolných bodoch a podliehajú zmenám, poskytujú vzrušujúci pohľad na budúci potenciál Llama 3.

záver

Llama 3 predstavuje významný míľnik vo vývoji veľkých jazykových modelov s otvoreným zdrojovým kódom, ktorý posúva hranice výkonu, schopností a zodpovedných postupov vývoja. Vďaka svojej inovatívnej architektúre, masívnemu súboru tréningových údajov a špičkovým technikám jemného ladenia zavádza Llama 3 nové, najmodernejšie benchmarky pre LLM na 8B a 70B škálach parametrov.

Llama 3 je však viac než len výkonný jazykový model; je to dôkaz záväzku spoločnosti Meta podporovať otvorený a zodpovedný ekosystém AI. Poskytnutím komplexných zdrojov, bezpečnostných nástrojov a osvedčených postupov umožňuje Meta vývojárom využiť plný potenciál Llama 3 a zároveň zabezpečiť zodpovedné nasadenie prispôsobené ich špecifickým prípadom použitia a publiku.

Ako cesta Llama 3 pokračuje, s novými možnosťami, veľkosťami modelov a výsledkami výskumu na obzore, komunita AI netrpezlivo očakáva inovatívne aplikácie a objavy, ktoré nepochybne vzídu z tohto prelomového LLM.

Či už ste výskumník, ktorý posúva hranice spracovania prirodzeného jazyka, vývojár vytvárajúci novú generáciu inteligentných aplikácií alebo nadšenec AI, ktorý je zvedavý na najnovšie pokroky, Llama 3 sľubuje, že bude silným nástrojom vo vašom arzenáli, ktorý vám otvorí nové dvere a odomknutie sveta možností.

Súvisiace témy:lama lama 2 Lama 3 LLM LLM meta

Nasledujúci

Microsoft predstavuje Phi-3: Výkonné modely s umelou inteligenciou poskytujúce špičkový výkon pri malých veľkostiach

Nenechajte si ujsť

FrugalGPT: Posun paradigmy v optimalizácii nákladov pre veľké jazykové modely

Aayush Mittal

Posledných päť rokov som strávil ponorením sa do fascinujúceho sveta strojového učenia a hlbokého učenia. Moja vášeň a odborné znalosti ma viedli k tomu, že som prispel k viac ako 50 rôznym projektom softvérového inžinierstva s osobitným zameraním na AI/ML. Moja neustála zvedavosť ma tiež priviedla k spracovaniu prirodzeného jazyka, oblasti, ktorú by som chcel ďalej skúmať.

Spojte sa.AI