Mesterséges intelligencia
A Meta Llama 3 bemutatása: Előrelépés a nagy nyelvű modellekben

A generatív mesterséges intelligencia területén a Meta továbbra is vezető szerepet tölt be a nyílt forráskódú elérhetőség iránti elkötelezettségével, és világszerte terjeszti fejlett, Large Language Model Meta AI (Llama) sorozatát a fejlesztők és kutatók számára. Progresszív kezdeményezéseire építve a Meta nemrégiben bemutatta sorozatának harmadik iterációját, Láma 3. Ez az új kiadás jelentősen javítja Láma 2, amely számos fejlesztést kínál, és olyan viszonyítási alapokat állít fel, amelyek kihívás elé állítják az olyan iparági versenytársakat, mint a Google, a Mistral és az Anthropic. Ez a cikk bemutatja a Llama 3 jelentős előrelépéseit, és azt, hogy hogyan viszonyul elődjéhez, a Llama 2-höz.
Meta's Llama sorozat: az exkluzívtól a nyílt hozzáférésig és a megnövelt teljesítményig
A Meta 2022-ben indította útjára Llama sorozatát Láma 1, egy olyan modell, amely nem kereskedelmi célú felhasználásra korlátozódik, és csak kiválasztott kutatóintézetek számára érhető el a hatalmas számítási igények és a védett természet miatt, amely akkoriban az élvonalbeli LLM-eket jellemezte. 2023-ban, a Llama 2 bevezetésével a Meta AI a nagyobb nyitottság felé mozdult el, szabadon kínálva a modellt kutatási és kereskedelmi célokra. Ez a lépés a kifinomult, generatív mesterségesintelligencia-technológiákhoz való hozzáférés demokratizálása volt, lehetővé téve a felhasználók szélesebb körének, beleértve az induló vállalkozásokat és a kisebb kutatócsoportokat is, hogy innovációt és alkalmazásokat fejlesszenek anélkül, hogy a nagyméretű modelleknél jellemzően meredek költségek merülnének fel. Folytatva a nyitottság irányába mutató tendenciát, a Meta bemutatta a Llama 3-at, amely a kisebb modellek teljesítményének javítására összpontosít különböző ipari benchmarkok között.
Bemutatkozik a Llama 3
A Llama 3 a Meta nyílt forráskódú nagynyelvi modelljeinek (LLM-ek) második generációja, amely előre betanított és utasításokra finomhangolt, 8B és 70B paraméterekkel rendelkező modelleket is tartalmaz. Elődeihez hasonlóan a Llama 3 a csak dekóder transzformátor architektúra és folytatja az autoregresszív gyakorlatot, önfelügyelt képzés a következő tokenek előrejelzésére a szövegsorozatokban. A Llama 3 előképzett egy olyan adatkészletre, amely hétszer nagyobb, mint a Llama 2 esetében, és több mint 15 billió tokent tartalmaz, amelyek nyilvánosan elérhető online adatok újonnan összeállított keverékéből származnak. Ezt a hatalmas adatkészletet két, 24,000 XNUMX GPU-val felszerelt klaszterrel dolgozzák fel. A képzési adatok magas minőségének megőrzése érdekében különféle adatközpontú AI technikákat alkalmaztak, beleértve a heurisztikus és NSFW szűrőket, szemantikai deduplikációés szövegminőségi osztályozás. A párbeszédes alkalmazásokhoz szabott Llama 3 Instruct modellt jelentősen továbbfejlesztették, több mint 10 millió ember által jegyzett adatmintát tartalmaz, és olyan kifinomult oktatási módszerek keverékét használja ki, mint pl. felügyelt finomhangolás (SFT), elutasító mintavétel, proximális házirend optimalizálás (PPO)és közvetlen irányelv-optimalizálás (DPO).
Llama 3 vs. Llama 2: Legfontosabb fejlesztések
A Llama 3 számos fejlesztést hoz a Llama 2-höz képest, jelentősen növelve annak funkcionalitását és teljesítményét:
- Bővített szókincs: A Llama 3 szókincsét 128,256 2 tokenre növelte, a Llama 32,000 XNUMX XNUMX tokenjéhez képest. Ez a fejlesztés támogatja a hatékonyabb szövegkódolást mind a bemeneteknél, mind a kimeneteknél, és erősíti a többnyelvűséget.
- Kiterjesztett kontextus hossza: A Llama 3 modellek 8,000 token környezeti hosszt biztosítanak, ami megduplázza a Llama 4,090 által támogatott 2 tokent. Ez a növekedés kiterjedtebb tartalomkezelést tesz lehetővé, amely magában foglalja a felhasználói utasításokat és a modellválaszokat is.
- Frissített képzési adatok: A Llama 3 oktatási adatkészlete hétszer nagyobb, mint a Llama 2, négyszer több kóddal együtt. Több mint 5% kiváló minőségű, nem angol nyelvű adatot tartalmaz, több mint 30 nyelven, ami döntő fontosságú a többnyelvű alkalmazások támogatásához. Ezek az adatok szigorú minőségellenőrzésen esnek át olyan fejlett technikák segítségével, mint a heurisztikus és NSFW-szűrők, a szemantikai duplikáció és a szövegosztályozók.
- Finomított utasítás-hangolás és értékelés: A Llama 2-től eltérően a Llama 3 fejlett utasítás-hangolási technikákat alkalmaz, beleértve a felügyelt finomhangolást (SFT), az elutasítás mintavételét, a proximális irányelv-optimalizálást (PPO) és a közvetlen irányelv-optimalizálást (DPO). Ennek a folyamatnak a kibővítésére egy új, kiváló minőségű emberi értékelési készletet vezettek be, amely 1,800 promptból áll, amelyek különféle felhasználási eseteket fednek le, mint például tanácsadás, ötletbörze, osztályozás, kódolás stb., amelyek biztosítják a modell képességeinek átfogó értékelését és finomhangolását.
- Fejlett mesterséges intelligencia biztonság: A Llama 3, akárcsak a Llama 2, szigorú biztonsági intézkedéseket tartalmaz, mint például az utasítások finomhangolása és átfogó red-teaming a kockázatok csökkentése érdekében, különösen az olyan kritikus területeken, mint a kiberbiztonság és a biológiai fenyegetések. Ezen erőfeszítések támogatására a Meta bemutatta a Llama Guard 2-t is, amelyet a Llama 8 3B változatára finomítottak. Ez az új modell továbbfejleszti a Llama Guard sorozat az LLM-bemenetek és válaszok osztályozásával a potenciálisan nem biztonságos tartalmak azonosítása érdekében, így ideálissá téve azt az éles környezetben.
A Llama 3 elérhetősége
A Llama 3 modellek mostantól integrálva vannak a Hugging Face ökoszisztéma, javítva a hozzáférhetőséget a fejlesztők számára. A modellek a szolgáltatásként szolgáló modell platformokon keresztül is elérhetők, mint pl Perplexity Labs és a Tűzijáték.ai, és olyan felhőplatformokon, mint pl AWS SageMaker, Azure MLés Vertex AI. A Meta azt tervezi, hogy tovább bővíti a Llama 3 elérhetőségét, beleértve olyan platformokat, mint a Google Cloud, a Kaggle, az IBM WatsonX, az NVIDIA NIM és a Snowflake. Ezenkívül a Llama 3 hardveres támogatása az AMD, AWS, Dell, Intel, NVIDIA és Qualcomm platformokra is kiterjed.
A Llama 3 közelgő fejlesztései
A Meta felfedte, hogy a Llama 3 jelenlegi kiadása csupán a kezdeti fázisa a Llama 3 teljes verziójával kapcsolatos tágabb elképzeléseiknek. Egy több mint 400 milliárd paraméterrel rendelkező fejlett modellt fejlesztenek, amely új funkciókat vezet be, beleértve a multimodalitást és a több nyelvet kezelni. Ez a továbbfejlesztett verzió jelentősen kibővített környezeti ablakot és javított általános teljesítményt is tartalmaz.
A lényeg
A Meta's Llama 3 jelentős fejlődést jelent a nagy nyelvi modellek világában, és nem csak a nyílt forráskódú hozzáférhetőség felé tereli a sorozatot, hanem jelentősen javítja a teljesítményét is. Elődjénél hétszer nagyobb képzési adatkészlettel és olyan funkciókkal, mint a kibővített szókincs és a megnövelt kontextushossz, a Llama 3 olyan új mércéket állít fel, amelyek még a legerősebb iparági versenytársak számára is kihívást jelentenek.
Ez a harmadik iteráció nemcsak az AI-technológia demokratizálását folytatja azáltal, hogy magas szintű képességeket tesz elérhetővé a fejlesztők szélesebb köre számára, hanem jelentős előrelépéseket is bevezet a biztonság és az oktatás pontossága terén. Azáltal, hogy ezeket a modelleket olyan platformokba integrálja, mint a Hugging Face, és kiterjeszti a rendelkezésre állást a főbb felhőszolgáltatásokon keresztül, a Meta biztosítja, hogy a Llama 3 mindenütt jelen legyen, mint amennyire erős.
A jövőre nézve a Meta folyamatban lévő fejlesztései még robusztusabb képességekkel kecsegtetnek, beleértve a multimodalitást és a kibővített nyelvi támogatást, ami megteremti a terepet a Llama 3 számára, hogy ne csak versenyezzen a piacon, hanem potenciálisan felülmúlja a többi fő mesterséges intelligencia modellt. A Llama 3 bizonyítja a Meta elkötelezettségét a mesterséges intelligencia forradalmának élén, és olyan eszközöket biztosít, amelyek nem csak elérhetőbbek, de lényegesen fejlettebbek és biztonságosabbak is a globális felhasználói bázis számára.