Mesterséges Intelligencia

Minden, amit a Llama 3-ról tudni kell | Az eddigi legerősebb nyílt forráskódú modell | Használati fogalmak

korszerűsített on April 24, 2024

Meta Llama 3 nyílt forráskódú LLM OUTPERFORM GPT 4

A Meta nemrég jelent meg Láma 3, a legmodernebb nyílt forráskódú nagynyelvi modelljének (LLM) következő generációja. Az elődje által lefektetett alapokra építve a Llama 3 célja, hogy javítsa azokat a képességeket, amelyek a Llama 2-t a ChatGPT jelentős nyílt forráskódú versenytársává tették, amint az a cikk átfogó áttekintésében is szerepel. Llama 2: Merüljön el mélyre a ChatGPT nyílt forráskódú Challenger-jébe.

Ebben a cikkben megvitatjuk a Llama 3 mögött meghúzódó alapvető koncepciókat, feltárjuk innovatív architektúráját és képzési folyamatát, valamint gyakorlati útmutatást adunk az úttörő modell felelősségteljes eléréséhez, használatához és telepítéséhez. Akár kutató, akár fejlesztő, akár mesterséges intelligencia-rajongó, ez a bejegyzés felvértezi azokat a tudást és erőforrásokat, amelyek ahhoz szükségesek, hogy a Llama 3 erejét projektjeihez és alkalmazásaihoz hasznosíthassa.

A láma evolúciója: Láma 2-től Lláma 3-ig

A Meta vezérigazgatója, Mark Zuckerberg, bejelentés debütált a Llama 3, a Meta AI által kifejlesztett legújabb AI modell. Ez a korszerű, immár nyílt forráskódú modell a Meta különféle termékeinek, köztük a Messengernek és az Instagramnak a továbbfejlesztését szolgálja. Zuckerberg kiemelte, hogy a Llama 3 a Meta AI-t a legfejlettebbnek tartja szabadon elérhető AI-asszisztens.

Mielőtt a Llama 3 sajátosságairól beszélnénk, tekintsük át röviden az elődjét, a Llama 2-t. A 2022-ben bemutatott Llama 2 jelentős mérföldkő volt a nyílt forráskódú LLM-környezetben, és egy nagy teljesítményű és hatékony modellt kínált, amely fogyasztói hardvereken is futtatható. .

Bár a Llama 2 figyelemre méltó teljesítmény volt, megvoltak a korlátai. A felhasználók hamis visszautasításokkal (a jóindulatú felszólítások megválaszolását megtagadó modell), korlátozott segítőkészséggel és fejlesztési lehetőségekkel kapcsolatos problémákról számoltak be olyan területeken, mint az érvelés és a kódgenerálás.

Adja meg a Llama 3: Meta válaszát ezekre a kihívásokra és a közösség visszajelzéseit. A Llama 3-mal a Meta a legjobb nyílt forráskódú modellek felépítését tűzte ki célul a jelenleg elérhető legjobb szabadalmaztatott modellekkel egyenrangúan, miközben a felelős fejlesztési és telepítési gyakorlatot is előtérbe helyezi.

Láma 3: Építészet és képzés

A Llama 3 egyik kulcsfontosságú újítása a tokenizere, amely jelentősen kibővített szókincset tartalmaz. 128,256 tokenek (a Llama 32,000 2 XNUMX-hez képest). Ez a nagyobb szókincs lehetővé teszi a szöveg hatékonyabb kódolását, mind bemeneti, mind kimeneti szempontból, ami potenciálisan erősebb többnyelvűséghez és általános teljesítményjavuláshoz vezethet.

A Llama 3 is magában foglalja Csoportos lekérdezés Figyelem (GQA), egy hatékony reprezentációs technika, amely javítja a méretezhetőséget, és segít a modellnek a hosszabb kontextusok hatékonyabb kezelésében. A 8B A Llama 3 verziója GQA-t használ, míg mind a 8B és a 70B A modellek akár sorozatokat is feldolgozhatnak 8,192 tokenek.

Képzési adatok és méretezés

A Llama 3-hoz használt edzési adatok döntő szerepet játszanak a jobb teljesítményben. A Meta hatalmas adathalmazt gyűjtött össze több mint 15 billió nyilvánosan elérhető online forrásokból származó tokenek, hétszer nagyobb, mint a Llama 2-hez használt adatkészlet. Ez az adatkészlet a jó minőségű, nem angol nyelvű adatok jelentős részét (több mint 5%-át) is tartalmazza, amely több mint 30 nyelvek, a jövőbeni többnyelvű alkalmazások előkészítéseként.

Az adatminőség biztosítása érdekében a Meta fejlett szűrési technikákat alkalmazott, beleértve a heurisztikus szűrőket, NSFW-szűrőket, a szemantikai deduplikációt és a Llama 2-n kiképzett szövegosztályozókat az adatminőség előrejelzésére. A csapat kiterjedt kísérleteket is végzett az előképzéshez szükséges adatforrások optimális keverékének meghatározására, biztosítva, hogy a Llama 3 jól teljesítsen a használati esetek széles körében, beleértve a triviákat, a STEM-et, a kódolást és a történelmi ismereteket.

A Llama 3 fejlesztésének másik kritikus szempontja volt az előképzés növelése. A Meta olyan skálázási törvényeket dolgozott ki, amelyek lehetővé tették számukra, hogy megjósolják legnagyobb modelljei teljesítményét kulcsfontosságú feladatokban, például kódgenerálásban, mielőtt ténylegesen betanították őket. Ez megalapozta az adatösszetételre és a számítási elosztásra vonatkozó döntéseket, ami végső soron hatékonyabb és eredményesebb képzéshez vezetett.

A Llama 3 legnagyobb modelljeit két egyedileg épített, 24,000 2 GPU-s klaszteren képezték ki, kihasználva az adatpárhuzamosítás, a modell párhuzamosítás és a csővezeték párhuzamosítási technikák kombinációját. A Meta fejlett oktatási rendszere, az automatikus hibaészlelés, -kezelés és -karbantartás maximalizálja a GPU üzemidejét, és körülbelül háromszorosára növeli a képzési hatékonyságot a Llama XNUMX-höz képest.

Utasítás Finomhangolás és teljesítmény

A Llama 3 teljes potenciáljának felszabadítása érdekében a csevegési és párbeszédes alkalmazásokban a Meta megújította az utasítások finomhangolását. Módszere kombinál felügyelt finomhangolás (SFT), elutasító mintavétel, proximális politika optimalizálás (PPO), és közvetlen preferencia optimalizálás (DPO).

Az SFT-ben használt promptok minősége, valamint a PPO és DPO által használt preferencia-rangsorok döntő szerepet játszottak az összehangolt modellek teljesítményében. A Meta csapata gondosan összeválogatta ezeket az adatokat, és több minőségbiztosítási kört is végrehajtott az emberi annotátorok által biztosított megjegyzéseken.

A preferenciális rangsorolásról a PPO-n és az adatvédelmi tisztviselőn keresztül végzett képzés szintén jelentősen javította a Llama 3 érvelési és kódolási feladatait. Meta azt találta, hogy még akkor is, ha a modell nehezen válaszol egy érvelő kérdésre, akkor is előállíthatja a helyes érvelési nyomot. A preferencia-rangsorok képzése lehetővé tette a modell számára, hogy megtanulja, hogyan kell kiválasztani a helyes választ ezekből a nyomokból.

Az eredmények magukért beszélnek: a Llama 3 felülmúlja számos elérhető nyílt forráskódú csevegési modellt az általános iparági benchmarkok alapján, új, legkorszerűbb teljesítményt biztosítva az LLM-ek számára a 8B és 70B paraméterskálán.

Felelős fejlesztési és biztonsági szempontok

Miközben az élvonalbeli teljesítményre törekedett, a Meta a felelős fejlesztési és telepítési gyakorlatot is előnyben részesítette a Llama 3 esetében. A vállalat rendszerszintű megközelítést alkalmazott, a Llama 3 modelleket egy szélesebb ökoszisztéma részeként képzelte el, amely a fejlesztőket a vezetőülésbe helyezi, lehetővé téve számukra a tervezést. és testreszabhatja a modelleket az adott használati esetekhez és biztonsági követelményekhez.

A Meta kiterjedt red-teaming gyakorlatokat hajtott végre, kontradiktórius értékeléseket hajtott végre, és biztonsági mérséklő technikákat vezetett be a fennmaradó kockázatok csökkentése érdekében az utasításokkal hangolt modelljeiben. A vállalat azonban elismeri, hogy a fennmaradó kockázatok valószínűleg megmaradnak, és azt javasolja a fejlesztőknek, hogy ezeket a kockázatokat sajátos használati eseteik összefüggésében értékeljék.

A felelősségteljes üzembe helyezés támogatása érdekében a Meta frissítette Felelősségteljes használati útmutatóját, amely átfogó forrást biztosít a fejlesztők számára az alkalmazások modell- és rendszerszintű biztonsági bevált gyakorlatainak megvalósításához. Az útmutató olyan témákkal foglalkozik, mint a tartalom moderálása, a kockázatértékelés, valamint a biztonsági eszközök, például a Llama Guard 2 és a Code Shield használata.

Az MLCommons taxonómiára épülő Llama Guard 2 az LLM-bemenetek (prompts) és válaszok osztályozására készült, és észleli a nem biztonságosnak vagy károsnak tekinthető tartalmat. A CyberSecEval 2 kibővíti elődjét a modell kódértelmezőjével való visszaélések megelőzésére szolgáló intézkedésekkel, támadó kiberbiztonsági képességekkel és az azonnali injekciós támadásokkal szembeni érzékenységgel.

A Code Shield, a Llama 3 új bevezetése, az LLM-ek által előállított nem biztonságos kódok következtetési idejű szűrését teszi lehetővé, csökkentve a nem biztonságos kódjavaslatokkal, a kódértelmezőkkel való visszaélésekkel és a biztonságos parancsvégrehajtással kapcsolatos kockázatokat.

A Llama 3 elérése és használata

A Meta AI Llama 3 megjelenését követően számos nyílt forráskódú eszköz elérhetővé vált különböző operációs rendszereken, köztük Macen, Windowson és Linuxon. Ez a rész három figyelemre méltó eszközt részletez: az Ollama, az Open WebUI és az LM Studio, amelyek mindegyike egyedi funkciókat kínál a Llama 3 képességeinek személyes eszközökön történő kiaknázásához.

Ollama: Elérhető Mac, Linux és Windows rendszerekhez, Ollama leegyszerűsíti a Llama 3 és más nagy nyelvi modellek működését személyi számítógépeken, még azokon is, amelyek kevésbé robusztus hardverrel rendelkeznek. Tartalmaz egy csomagkezelőt az egyszerű modellkezelés érdekében, és támogatja a platformok közötti parancsokat a modellek letöltéséhez és futtatásához.

Nyissa meg a WebUI-t a Dockerrel: Ez az eszköz felhasználóbarát, Dokkmunkás-alapú interfész, amely kompatibilis a Mac, Linux és Windows rendszerekkel. Zökkenőmentesen integrálható az Ollama nyilvántartásból származó modellekkel, lehetővé téve a felhasználók számára a Llama 3-hoz hasonló modellek telepítését és interakcióját egy helyi webes felületen.

LM Stúdió: Mac, Linux és Windows felhasználók célzása, LM Stúdió számos modellt támogat, és a llama.cpp projektre épül. Csevegőfelületet biztosít, és lehetővé teszi a közvetlen interakciót különféle modellekkel, beleértve a Llama 3 8B Instruct modellt is.

Ezek az eszközök biztosítják, hogy a felhasználók hatékonyan használhassák a Llama 3-at személyes eszközeiken, egy sor technikai készségnek és követelménynek megfelelően. Mindegyik platform lépésenkénti folyamatokat kínál a beállításhoz és a modell interakcióhoz, így a fejlett mesterséges intelligencia elérhetőbbé válik a fejlesztők és a rajongók számára.

A Llama 3 telepítése a Scale-ban

Amellett, hogy közvetlen hozzáférést biztosít a modellsúlyokhoz, a Meta különböző felhőszolgáltatókkal, modell API-szolgáltatásokkal és hardverplatformokkal társult annak érdekében, hogy lehetővé tegye a Llama 3 zökkenőmentes telepítését a méretekben.

A Llama 3 egyik legfontosabb előnye az új tokenizátornak köszönhetően jobb token hatékonysága. A benchmarkok azt mutatják, hogy a Llama 3-hoz legfeljebb 15%-kal kevesebb token a Llama 2-höz képest, ami gyorsabb és költséghatékonyabb következtetést eredményez.

A Grouped Query Attention (GQA) integrálása a Llama 8 3B verziójába hozzájárul ahhoz, hogy a következtetések hatékonysága a Llama 7 2B verziójával megegyező szinten maradjon a paraméterek számának növekedése ellenére.

A telepítési folyamat leegyszerűsítése érdekében a Meta rendelkezésre bocsátotta a Llama Recipes tárat, amely nyílt forráskódot és példákat tartalmaz a finomhangoláshoz, telepítéshez, modellértékeléshez stb. Ez az adattár értékes forrásként szolgál a fejlesztők számára, akik a Llama 3 képességeit szeretnék kihasználni alkalmazásaikban.

A Llama 3 teljesítményének felfedezése iránt érdeklődők számára a Meta integrálta legújabb modelljeit a Meta AI-ba, a Llama 3 technológiával épített vezető mesterséges intelligencia asszisztensbe. A felhasználók különféle Meta-alkalmazásokon, például Facebookon, Instagramon, WhatsApp-on, Messengeren és az interneten keresztül interakcióba léphetnek a Meta AI-vel, hogy elvégezzék a dolgokat, tanuljanak, alkossanak, és kapcsolatba léphessenek a számukra fontos dolgokkal.

Mi következik a Llama 3-nál?

Míg a 8B és 70B modellek a Llama 3 megjelenésének kezdetét jelentik, a Meta ambiciózus tervei vannak ennek az úttörő LLM-nek a jövőjét illetően.

A következő hónapokban új lehetőségek bevezetésére számíthatunk, beleértve a multimodalitást (különböző adatmódok, például képek és videók feldolgozásának és generálásának képessége), a többnyelvűséget (több nyelv támogatása), valamint a sokkal hosszabb kontextusablakokat a jobb teljesítmény érdekében. kiterjedt kontextust igénylő feladatok.

Ezenkívül a Meta nagyobb modellméretek kiadását tervezi, beleértve a több mint 400 milliárd paraméterrel rendelkező modelleket, amelyek jelenleg képzés alatt állnak, és ígéretes tendenciákat mutatnak a teljesítmény és a képességek tekintetében.

A terület további fejlesztése érdekében a Meta részletes kutatási tanulmányt is közzétesz a Llama 3-ról, és megosztja eredményeit és meglátásait a szélesebb AI közösséggel.

Az elkövetkezendő események bepillantásaként a Meta megosztott néhány korai pillanatképet legnagyobb LLM-modellje teljesítményéről különböző benchmarkokon. Noha ezek az eredmények egy korai ellenőrzőponton alapulnak, és változhatnak, izgalmas bepillantást nyújtanak a Llama 3 jövőbeli lehetőségeibe.

Következtetés

A Llama 3 jelentős mérföldkövet jelent a nyílt forráskódú nagy nyelvi modellek fejlődésében, feszegetve a teljesítmény, a képességek és a felelősségteljes fejlesztési gyakorlatok határait. Innovatív architektúrájával, hatalmas képzési adatkészletével és élvonalbeli finomhangolási technikáival a Llama 3 új, legmodernebb benchmarkokat állít fel az LLM-ek számára a 8B és 70B paraméterskálán.

A Llama 3 azonban több, mint egy erőteljes nyelvi modell; ez bizonyítja a Meta elkötelezettségét a nyitott és felelős AI ökoszisztéma előmozdítása mellett. Átfogó erőforrások, biztonsági eszközök és bevált gyakorlatok biztosításával a Meta felhatalmazza a fejlesztőket arra, hogy a Llama 3-ban rejlő lehetőségeket teljes mértékben kiaknázzák, miközben biztosítja a felelősségteljes, az adott felhasználási eseteikhez és közönségükhöz szabott telepítést.

Ahogy a Llama 3 útja folytatódik, új képességekkel, modellméretekkel és kutatási eredményekkel a láthatáron, a mesterséges intelligencia közössége izgatottan várja az innovatív alkalmazásokat és az áttöréseket, amelyek kétségtelenül megjelennek ebből az úttörő LLM-ből.

Legyen szó a természetes nyelvi feldolgozás határait feszegető kutatóról, az intelligens alkalmazások következő generációját építő fejlesztőről vagy a legújabb fejlesztésekre kíváncsi mesterséges intelligencia-rajongóról, a Llama 3 hatékony eszköznek ígérkezik az Ön arzenáljában, amely új ajtókat nyit meg és a lehetőségek világának feltárása.

Kapcsolódó témák:Láma láma 2 Láma 3 LLM LLM-ek meta

Up Next

A Microsoft bemutatja a Phi-3-at: Erőteljes nyílt mesterséges intelligencia modellek, amelyek kis méretben is kiváló teljesítményt nyújtanak

Ne hagyd ki

FrugalGPT: Paradigmaváltás a költségoptimalizálásban nagy nyelvi modellekhez

Aayush Mittal

Az elmúlt öt évet azzal töltöttem, hogy elmerüljek a gépi tanulás és a mélytanulás lenyűgöző világában. Szenvedélyem és szakértelmem késztetett arra, hogy több mint 50 különféle szoftverfejlesztési projektben működjek közre, különös tekintettel az AI/ML-re. Folyamatos kíváncsiságom a természetes nyelvi feldolgozás felé is vonzott, amely terület, amelyet szívesen fedezek fel.