Mesterséges Intelligencia

Gemma: A Google fejlett AI-képességeket kínál nyílt forráskóddal

Közzététel:

2 hónap

Február 29, 2024

A mesterséges intelligencia (AI) területén az elmúlt években óriási fejlődés ment végbe, nagyrészt a mély tanulás és a természetes nyelvfeldolgozás (NLP). E fejlesztések élén állnak nagy nyelvi modellek (LLM) – hatalmas mennyiségű szöveges adatra kiképzett mesterséges intelligencia rendszerek, amelyek emberszerű szöveget generálhatnak, és társalgási feladatokat végezhetnek.

Az olyan LLM-ek, mint a Google PaLM-je, az Anthropic-féle Claude és a DeepMind-féle Gopher, figyelemre méltó képességekről tettek tanúbizonyságot, a kódolástól a józan ész érveléséig. A legtöbb ilyen modellt azonban nem adták ki nyíltan, ami korlátozza hozzáférésüket a kutatáshoz, fejlesztéshez és hasznos alkalmazásokhoz.

Ez megváltozott a közelmúltban a Gemma nyílt forrásból történő beszerzésével – a Google DeepMind LLM-jeiből álló család, amely az erős, szabadalmaztatott Gemini modelleken alapul. Ebben a blogbejegyzésben a Gemmával foglalkozunk, elemezve annak architektúráját, képzési folyamatát, teljesítményét és felelős kiadását.

Gemma áttekintése

2023 februárjában a DeepMind nyílt forrású kétféle méretű Gemma modell – egy 2 milliárd paraméteres verzió, amelyet az eszközön történő telepítésre optimalizáltak, és egy nagyobb, 7 milliárd paraméteres verzió, amelyet GPU/TPU használatra terveztek.

A Gemma a DeepMind vezető Gemini modelljéhez hasonló transzformátor-alapú architektúrát és képzési módszertant alkalmaz. Akár 6 billió webdokumentumból, matematikából és kódból származó szöveg tokenre lett kiképezve.

A DeepMind kiadta a Gemma nyers, előre betanított ellenőrzőpontjait, valamint a felügyelt tanulással és emberi visszajelzéssel finomhangolt verziókat, hogy továbbfejlesztett képességeket biztosítson olyan területeken, mint a párbeszéd, az utasítások követése és a kódolás.

Kezdő lépések Gemmával

A Gemma nyílt kiadása fejlett mesterségesintelligencia-képességeit elérhetővé teszi a fejlesztők, kutatók és rajongók számára. Íme egy gyors útmutató a kezdéshez:

Platform Agnostic Deployment

A Gemma fő erőssége a rugalmassága – futtathatja CPU-kon, GPU-kon vagy TPU-kon. CPU-hoz használja a TensorFlow Lite vagy a HuggingFace Transformert. A GPU/TPU gyorsított teljesítményéhez használja a TensorFlow-t. A felhőszolgáltatások, mint például a Google Cloud Vertex AI, szintén zökkenőmentes skálázást biztosítanak.

Hozzáférés az előre betanított modellekhez

A Gemma az Ön igényeitől függően különböző előre betanított változatokban kapható. A 2B és 7B modellek erős generatív képességeket kínálnak a dobozból. Az egyéni finomhangoláshoz a 2B-FT és 7B-FT modellek ideális kiindulópontok.

Építsen izgalmas alkalmazásokat

A Gemmával sokféle alkalmazást készíthet, például történetgenerálást, nyelvi fordítást, kérdések megválaszolását és kreatív tartalomkészítést. A kulcs az, hogy kiaknázzuk a Gemma erősségeit saját adatkészleteink finomhangolásával.

Építészet

A Gemma csak dekóderes transzformátor-architektúrát használ, olyan fejlesztésekre építve, mint a többlekérdezés figyelem és a forgó helyzetbeágyazás:

Transzformátorok: A 2017-ben bevezetett, kizárólag figyelmi mechanizmusokon alapuló transzformátor-architektúra mindenütt elterjedt az NLP-ben. A Gemma örökli a transzformátor azon képességét, hogy hosszú hatótávolságú függőségeket modellezzen szövegben.
Csak dekóder: A Gemma csak transzformátor-dekódoló veremet használ, ellentétben az olyan kódoló-dekódoló modellekkel, mint a BART vagy a T5. Ez erős generálási képességeket biztosít olyan feladatokhoz, mint a szöveggenerálás.
Több lekérdezés figyelem: A Gemma több lekérdezést alkalmaz a nagyobb modelljében, lehetővé téve, hogy minden egyes figyelőfej párhuzamosan több lekérdezést dolgozzon fel a gyorsabb következtetés érdekében.
Rotációs pozicionális beágyazások: A Gemma a pozícióinformációkat forgó beágyazásokkal reprezentálja az abszolút pozíciókódolások helyett. Ez a technika csökkenti a modell méretét, miközben megtartja a pozícióinformációkat.

Az olyan technikák használata, mint a több lekérdezés figyelem és a forgó pozíciós beágyazások lehetővé teszik a Gemma modellek számára, hogy optimális kompromisszumot érjenek el a teljesítmény, a következtetési sebesség és a modell mérete között.

Adatok és képzési folyamat

Gemmát 6 billió token szöveges adatra képezték ki, elsősorban angolul. Ez magában foglalta a webes dokumentumokat, a matematikai szöveget és a forráskódot. A DeepMind jelentős erőfeszítéseket fektetett az adatok szűrésére, a mérgező vagy káros tartalmak osztályozók és heurisztikák segítségével történő eltávolítására.

A képzést a Google TPUv5 infrastruktúrájával végezték, és legfeljebb 4096 TPU-t használtak a Gemma-7B betanításához. A hatékony modell- és adatpárhuzamossági technikák lehetővé tették a hatalmas modellek árucikk hardverrel történő betanítását.

Szakaszos képzést alkalmaztak, az adatelosztást folyamatosan igazítva a jó minőségű, releváns szövegre. Az utolsó finomhangolási szakaszban ember által generált és szintetikus utasításokat követő példák keverékét alkalmazták a képességek javítására.

Modell teljesítmény

A DeepMind szigorúan értékelte a Gemma modelleket több mint 25 benchmark széles halmazán, amelyek a kérdések megválaszolását, az érvelést, a matematikát, a kódolást, a józan észt és a párbeszéd képességeit is felölelték.

A Gemma a legkorszerűbb eredményeket éri el a hasonló méretű nyílt forráskódú modellekhez képest a legtöbb benchmark esetében. Néhány kiemelés:

Matematika: A Gemma remekel a matematikai érvelési teszteken, mint például a GSM8K és a MATH, és több mint 10 ponttal felülmúlja az olyan modelleket, mint a Codex és az Anthropic's Claude.
Kódolás: A Gemma egyezik vagy meghaladja a Codex teljesítményét olyan programozási benchmarkokon, mint az MBPP, annak ellenére, hogy nincs kifejezetten kódolva.
Párbeszéd: Gemma erős társalgási képességről tesz tanúbizonyságot, 51.7%-os győzelmi aránnyal az Anthropic's Mistral-7B-vel szemben az emberi preferencia teszteken.
Érvelés: A következtetést igénylő feladatoknál, mint az ARC és a Winogrande, a Gemma 7-5 ponttal felülmúlja a többi 10B modellt.

A Gemma tudományágak közötti sokoldalúsága bizonyítja erős általános intelligencia képességeit. Bár az emberi szintű teljesítményhez képest továbbra is hiányosságok vannak, a Gemma előrelépést jelent a nyílt forráskódú NLP-ben.

Biztonság és felelősség

A nagy modellek nyílt forráskódú súlyának felszabadítása kihívásokat jelent a szándékos visszaélés és a modellben rejlő torzítások körül. A DeepMind lépéseket tett a kockázatok csökkentésére:

Adatszűrés: A potenciálisan mérgező, illegális vagy elfogult szöveget osztályozók és heurisztikák segítségével eltávolították a képzési adatokból.
Értékelések: A Gemmát több mint 30 benchmarkon tesztelték, amelyeket a biztonság, a méltányosság és a robusztusság értékelése céljából készítettek. Megfelel vagy felülmúlt más modelleket.
Finomhangolás: A modell finomhangolása a biztonsági képességek, például az információszűrés és a megfelelő fedezeti/megtagadó magatartások javítására összpontosított.
A használat feltételei: A használati feltételek tiltják a Gemma modellek sértő, illegális vagy etikátlan alkalmazását. A végrehajtás azonban továbbra is kihívást jelent.
Modellkártyák: A modell képességeit, korlátait és torzításait részletező kártyákat adtak ki az átláthatóság elősegítése érdekében.

Míg a nyílt forrásból származó kockázatok fennállnak, a DeepMind megállapította, hogy a Gemma kiadása nettó társadalmi előnyökkel jár a biztonsági profilja és a kutatási lehetőségek alapján. A lehetséges ártalmak éber figyelemmel kísérése azonban továbbra is kritikus marad.

Az AI innováció következő hullámának engedélyezése

A Gemma nyílt forráskódú modellcsaládként való kiadása lehetővé teszi az AI-közösség fejlődését:

Megközelíthetőség: A Gemma csökkenti az akadályokat az élvonalbeli NLP-vel való építkezés előtt a szervezetek előtt, amelyek korábban magas számítási/adatköltségekkel szembesültek saját LLM-jük képzése során.
Új alkalmazások: Az előképzett és hangolt ellenőrzőpontok nyílt forrásból történő beszerzésével a DeepMind lehetővé teszi a hasznos alkalmazások egyszerűbb fejlesztését olyan területeken, mint az oktatás, a tudomány és a kisegítő lehetőségek.
Testreszabás: A fejlesztők tovább szabhatják a Gemmát az iparági vagy tartományspecifikus alkalmazásokhoz a védett adatokkal kapcsolatos folyamatos képzés révén.
Kutatás: Az olyan nyílt modellek, mint a Gemma, elősegítik a jelenlegi NLP-rendszerek nagyobb átláthatóságát és auditálását, megvilágítva a jövőbeli kutatási irányokat.
Innováció: Az olyan erős alapmodellek elérhetősége, mint a Gemma, felgyorsítja az előrehaladást olyan területeken, mint az elfogultság csökkentése, a tényszerűség és a mesterséges intelligencia biztonsága.

Azzal, hogy a Gemma képességeit nyílt beszerzésen keresztül mindenki számára biztosítja, a DeepMind azt reméli, hogy ösztönzi a mesterséges intelligencia felelősségteljes fejlesztését a társadalmi érdekek érdekében.

Az előttünk lévő út

A mesterséges intelligencia minden egyes ugrásával közelebb kerülünk azokhoz a modellekhez, amelyek minden területen vetekednek az emberi intelligenciával, vagy meghaladják azokat. Az olyan rendszerek, mint a Gemma, rávilágítanak arra, hogy az önfelügyelt modellek gyors fejlődése egyre fejlettebb kognitív képességeket szabadít fel.

A mesterséges intelligencia megbízhatóságának, értelmezhetőségének és irányíthatóságának javításán azonban még várni kell – olyan területeken, ahol még mindig az emberi intelligencia uralkodik. Az olyan területek, mint a matematika, rávilágítanak ezekre a tartós hiányosságokra, és a Gemma 64%-ot ért el az MMLU-n, szemben a becsült 89%-os emberi teljesítménnyel.

Ezeknek a hiányosságoknak a megszüntetése az egyre nagyobb képességű AI-rendszerek biztonságának és etikájának biztosítása mellett lesz az elkövetkező évek központi kihívása. A nyitottság és az óvatosság közötti megfelelő egyensúly megtalálása kulcsfontosságú lesz, mivel a DeepMind célja, hogy demokratizálja a mesterséges intelligencia előnyeihez való hozzáférést, miközben kezeli a felmerülő kockázatokat.

A mesterséges intelligencia biztonságát előmozdító kezdeményezések – például Dario Amodei ANC-je, a DeepMind Ethics & Society csapata és az Anthropic alkotmányos mesterségesintelligencia-csoportja – jelzik az árnyalatok iránti igény növekvő felismerését. Az érdemi fejlődéshez nyílt, bizonyítékokon alapuló párbeszédre lesz szükség a kutatók, a fejlesztők, a döntéshozók és a nyilvánosság között.

Felelősségteljes navigáció esetén a Gemma nem a mesterséges intelligencia csúcsát jelenti, hanem egy alaptábort a mesterséges intelligencia kutatóinak következő generációja számára, akik a DeepMind nyomdokaiba lépnek a tisztességes, előnyös mesterséges általános intelligencia felé.

Következtetés

A DeepMind Gemma-modellek kiadása a nyílt forráskódú mesterséges intelligencia új korszakát jelenti – egy olyan korszakot, amely túlmutat a szűk benchmarkokon általános intelligencia-képességekké. A biztonság szempontjából alaposan tesztelt és széles körben hozzáférhető Gemma új mércét állít fel a felelős nyílt forráskóddal az AI-ban.

A kooperatív értékekkel szelídített versenyszellem vezérelve, a Gemma-hoz hasonló áttörések megosztása az AI-ökoszisztéma minden hajóját felemeli. Az egész közösség most hozzáférhet egy sokoldalú LLM családhoz, hogy vezesse vagy támogassa kezdeményezéseiket.

Bár a kockázatok továbbra is fennállnak, a DeepMind technikai és etikai szorgalma meggyőződést ad afelől, hogy a Gemma előnyei meghaladják a lehetséges károkat. Ahogy a mesterséges intelligencia képességei egyre fejlettebbek, kulcsfontosságú lesz a nyitottság és az óvatosság közötti árnyalat fenntartása.

A Gemma egy lépéssel közelebb visz az AI-hoz, amely az egész emberiség számára előnyös. A jóindulatú mesterséges általános intelligencia felé vezető úton azonban még sok nagy kihívás vár ránk. Ha a mesterséges intelligencia-kutatók, a fejlesztők és a társadalom egészében fenn tudják tartani az együttműködési előrehaladást, a Gemma egy napon történelmi alaptábornak tekinthető, nem pedig a végső csúcstalálkozónak.

Kapcsolódó témák:DeepMind Levélrügy LLM

Up Next

AI a marketingben: MWC Conference Insights

Ne hagyd ki

A nagy nyelvű modelleket fenyegető sebezhetőségek és biztonsági fenyegetések

Aayush Mittal

Az elmúlt öt évet azzal töltöttem, hogy elmerüljek a gépi tanulás és a mélytanulás lenyűgöző világában. Szenvedélyem és szakértelmem késztetett arra, hogy több mint 50 különféle szoftverfejlesztési projektben működjek közre, különös tekintettel az AI/ML-re. Folyamatos kíváncsiságom a természetes nyelvi feldolgozás felé is vonzott, amely terület, amelyet szívesen fedezek fel.