Umelá inteligencia

Gemma: Google prináša pokročilé možnosti AI prostredníctvom otvoreného zdroja

uverejnené

2 mesiacmi

Februára 29, 2024

Oblasť umelej inteligencie (AI) zaznamenala v posledných rokoch obrovský pokrok, najmä vďaka pokroku v oblasti umelej inteligencie hlboké vzdelávanie a spracovanie prirodzeného jazyka (NLP). V popredí týchto pokrokov sú veľké jazykové modely (LLM) – Systémy umelej inteligencie trénované na veľkom množstve textových údajov, ktoré dokážu generovať ľudský text a zapojiť sa do konverzačných úloh.

LLM ako PaLM od Google, Claude od Anthropic a Gopher od DeepMind preukázali pozoruhodné schopnosti, od kódovania až po uvažovanie zdravým rozumom. Väčšina týchto modelov však nebola otvorene uvoľnená, čo obmedzuje ich prístup pre výskum, vývoj a prospešné aplikácie.

To sa zmenilo s nedávnym otvoreným zdrojom Gemma – rodiny LLM od spoločnosti Google DeepMind založených na ich výkonných proprietárnych modeloch Gemini. V tomto blogovom príspevku sa ponoríme do Gemmy, analyzujeme jej architektúru, tréningový proces, výkon a zodpovedné vydanie.

Prehľad Gemmy

Vo februári 2023, DeepMind open source dve veľkosti modelov Gemma – verzia s 2 miliardami parametrov optimalizovaná pre nasadenie na zariadení a väčšia verzia so 7 miliardami parametrov určená na použitie GPU/TPU.

Gemma využíva podobnú architektúru založenú na transformátoroch a školiacu metodológiu ako popredné modely Gemini od DeepMind. Trénovalo sa až na 6 biliónoch tokenov textu z webových dokumentov, matematiky a kódu.

DeepMind vydala surové predtrénované kontrolné body Gemmy, ako aj verzie doladené učením pod dohľadom a ľudskou spätnou väzbou pre vylepšené schopnosti v oblastiach, ako je dialóg, nasledovanie pokynov a kódovanie.

Začíname s Gemmou

Otvorená verzia Gemma sprístupňuje jej pokročilé možnosti AI vývojárom, výskumníkom a nadšencom. Tu je rýchly návod, ako začať:

Agnostické nasadenie platformy

Kľúčovou silnou stránkou Gemmy je jej flexibilita – môžete ju spustiť na CPU, GPU alebo TPU. Pre CPU použite TensorFlow Lite alebo HuggingFace Transformers. Pre zrýchlený výkon na GPU/TPU použite TensorFlow. Cloudové služby ako Vertex AI od Google Cloud tiež poskytujú bezproblémové škálovanie.

Prístup k predtrénovaným modelom

Gemma sa dodáva v rôznych vopred pripravených variantoch v závislosti od vašich potrieb. Modely 2B a 7B ponúkajú hneď po vybalení silné generatívne schopnosti. Pre vlastné jemné doladenie sú modely 2B-FT a 7B-FT ideálnym východiskovým bodom.

Vytvárajte vzrušujúce aplikácie

Pomocou Gemmy môžete vytvárať rozmanité aplikácie, ako je generovanie príbehov, preklady jazykov, odpovedanie na otázky a tvorba kreatívneho obsahu. Kľúčom je využitie silných stránok Gemmy prostredníctvom jemného ladenia vašich vlastných súborov údajov.

architektúra

Gemma využíva iba dekodérovú transformátorovú architektúru, ktorá stavia na pokrokoch, ako je pozornosť viacerých dotazov a rotačné polohové vloženia:

Transformátory: Architektúra transformátora, ktorá bola predstavená v roku 2017, sa v NLP stala všadeprítomnou. Gemma zdedí schopnosť transformátora modelovať v texte závislosti na dlhé vzdialenosti.
Iba dekodér: Gemma používa iba zásobník dekodéra transformátora, na rozdiel od modelov kódovačov a dekodérov, ako sú BART alebo T5. To poskytuje silné generatívne schopnosti pre úlohy, ako je generovanie textu.
Pozor na viacero dotazov: Gemma vo svojom väčšom modeli využíva pozornosť viacerých dotazov, čo každej hlave umožňuje paralelne spracovávať viacero dotazov pre rýchlejšie odvodenie.
Otočné polohové vložky: Gemma predstavuje pozičné informácie pomocou rotačného zabudovania namiesto kódovania absolútnej polohy. Táto technika znižuje veľkosť modelu pri zachovaní informácií o polohe.

Použitie techník, ako je pozornosť viacerých dotazov a rotačné polohové vloženie, umožňujú modelom Gemma dosiahnuť optimálny kompromis medzi výkonom, rýchlosťou odvodzovania a veľkosťou modelu.

Dáta a tréningový proces

Gemma bola vyškolená na až 6 biliónoch tokenov textových údajov, predovšetkým v angličtine. To zahŕňalo webové dokumenty, matematický text a zdrojový kód. DeepMind investoval značné úsilie do filtrovania údajov, odstraňovania toxického alebo škodlivého obsahu pomocou klasifikátorov a heuristiky.

Školenie sa uskutočnilo pomocou infraštruktúry TPUv5 spoločnosti Google, pričom na školenie Gemma-4096B bolo použitých až 7 TPU. Efektívne techniky modelovania a dátového paralelizmu umožnili trénovať masívne modely s komoditným hardvérom.

Využilo sa stupňovité školenie, ktoré priebežne upravovalo distribúciu údajov tak, aby sa zameralo na kvalitný a relevantný text. V záverečných fázach jemného ladenia sa na zlepšenie schopností použila zmes príkladov vytvorených ľuďmi a syntetických inštrukcií.

Výkon modelu

DeepMind dôsledne vyhodnotil modely Gemma na širokom súbore viac ako 25 benchmarkov zahŕňajúcich odpovedanie na otázky, uvažovanie, matematiku, kódovanie, zdravý rozum a schopnosti dialógu.

Gemma dosahuje najmodernejšie výsledky v porovnaní s podobne veľkými modelmi open source vo väčšine benchmarkov. Niektoré zaujímavosti:

Matematika: Gemma vyniká v testoch matematického uvažovania ako GSM8K a MATH, čím prekonáva modely ako Codex a Anthropic's Claude o viac ako 10 bodov.
Kódovanie: Gemma zodpovedá alebo prekračuje výkon Codexu v programovacích benchmarkoch, ako je MBPP, napriek tomu, že nie je špeciálne vyškolená na kód.
Dialóg: Gemma demonštruje silnú konverzačnú schopnosť s 51.7% výhrou v porovnaní s Antropic's Mistral-7B v testoch ľudských preferencií.
uvažovanie: V úlohách vyžadujúcich odvodenie, ako sú ARC a Winogrande, Gemma prekonáva ostatné modely 7B o 5 až 10 bodov.

Všestrannosť Gemmy naprieč disciplínami demonštruje jej silné všeobecné spravodajské schopnosti. Zatiaľ čo medzery vo výkonnosti na ľudskej úrovni pretrvávajú, Gemma predstavuje skok vpred v oblasti open source NLP.

Bezpečnosť a zodpovednosť

Uvoľnenie váh veľkých modelov s otvoreným zdrojovým kódom prináša výzvy týkajúce sa úmyselného zneužitia a inherentných skreslení modelov. DeepMind podnikol kroky na zmiernenie rizík:

Filtrovanie údajov: Potenciálne toxický, nezákonný alebo neobjektívny text bol odstránený z trénovacích údajov pomocou klasifikátorov a heuristiky.
Spätná väzba: Gemma bola testovaná na 30+ benchmarkoch vybraných na posúdenie bezpečnosti, spravodlivosti a robustnosti. Vyrovnal sa alebo prekonal iné modely.
Jemné doladenie: Jemné ladenie modelu sa zameralo na zlepšenie bezpečnostných funkcií, ako je filtrovanie informácií a vhodné hedgingové/odmietnutie.
Podmienky použitia: Podmienky používania zakazujú urážlivé, nezákonné alebo neetické aplikácie modelov Gemma. Presadzovanie však zostáva náročné.
Modelové karty: Na podporu transparentnosti boli vydané karty s podrobnosťami o možnostiach, obmedzeniach a predsudkoch modelu.

Hoci existujú riziká z otvoreného získavania zdrojov, DeepMind zistila, že vydanie Gemmy poskytuje čisté spoločenské výhody na základe jej bezpečnostného profilu a umožnenia výskumu. Ostražité monitorovanie potenciálnych škôd však zostane kritické.

Umožnenie ďalšej vlny inovácií AI

Vydanie Gemmy ako rodiny modelov s otvoreným zdrojovým kódom znamená odomknutie pokroku v rámci komunity AI:

Dostupnosť: Gemma znižuje bariéry pre organizácie pri budovaní s najmodernejším NLP, ktoré predtým čelili vysokým výpočtovým/údajovým nákladom na školenie vlastných LLM.
Nové aplikácie: Vďaka otvorenému získavaniu vopred pripravených a vyladených kontrolných bodov umožňuje DeepMind jednoduchší vývoj užitočných aplikácií v oblastiach, ako je vzdelávanie, veda a dostupnosť.
prispôsobenie: Vývojári môžu ďalej prispôsobiť Gemmu pre aplikácie špecifické pre odvetvie alebo doménu prostredníctvom pokračujúceho školenia o proprietárnych údajoch.
výskum: Otvorené modely ako Gemma podporujú väčšiu transparentnosť a audit súčasných systémov NLP a osvetľujú budúce smerovanie výskumu.
inovácie: Dostupnosť silných základných modelov, ako je Gemma, urýchli pokrok v oblastiach, ako je zmierňovanie zaujatosti, vecnosť a bezpečnosť AI.

Poskytnutím schopností Gemmy všetkým prostredníctvom otvoreného získavania zdrojov DeepMind dúfa, že podnieti zodpovedný vývoj AI pre sociálne dobro.

The Road Ahead

S každým skokom v AI sa posúvame bližšie k modelom, ktoré súperia alebo prevyšujú ľudskú inteligenciu vo všetkých oblastiach. Systémy ako Gemma podčiarkujú, ako rýchly pokrok v modeloch s vlastným dohľadom odomyká čoraz pokročilejšie kognitívne schopnosti.

Zostáva však pracovať na zlepšení spoľahlivosti, interpretovateľnosti a ovládateľnosti AI – oblastí, kde ľudská inteligencia stále vládne. Domény ako matematika zvýrazňujú tieto pretrvávajúce medzery, pričom Gemma dosiahla 64 % na MMLU v porovnaní s odhadovaným 89 % ľudského výkonu.

Preklenutie týchto medzier a zároveň zaistenie bezpečnosti a etiky stále schopnejších systémov umelej inteligencie bude hlavnou výzvou v nadchádzajúcich rokoch. Dosiahnutie správnej rovnováhy medzi otvorenosťou a opatrnosťou bude rozhodujúce, pretože DeepMind sa zameriava na demokratizáciu prístupu k výhodám AI pri riadení vznikajúcich rizík.

Iniciatívy na podporu bezpečnosti AI – ako napríklad ANC Daria Amodeia, tím DeepMind pre etiku a spoločnosť a ústavná AI spoločnosti Anthropic – signalizujú rastúce uznanie tejto potreby nuancií. Zmysluplný pokrok si bude vyžadovať otvorený dialóg medzi výskumníkmi, vývojármi, tvorcami politík a verejnosťou založený na dôkazoch.

Ak bude navigovaná zodpovedne, Gemma nepredstavuje vrchol AI, ale základný tábor pre ďalšiu generáciu výskumníkov AI, ktorí kráčajú v stopách DeepMind smerom k spravodlivej a prospešnej umelej všeobecnej inteligencii.

záver

Vydanie modelov Gemma od DeepMind znamená novú éru pre umelú inteligenciu s otvoreným zdrojovým kódom – éru, ktorá presahuje úzke štandardy do všeobecných spravodajských schopností. Gemma, ktorá bola dôkladne testovaná z hľadiska bezpečnosti a široko prístupná, nastavuje nový štandard pre zodpovedné otvorené získavanie zdrojov v AI.

Poháňané súťaživým duchom zmierneným kooperatívnymi hodnotami, zdieľanie objavov ako Gemma pozdvihuje všetky lode v ekosystéme AI. Celá komunita má teraz prístup k všestrannej rodine LLM, aby mohla riadiť alebo podporovať ich iniciatívy.

Aj keď riziká pretrvávajú, technická a etická starostlivosť spoločnosti DeepMind poskytuje istotu, že výhody Gemmy prevažujú nad jej potenciálnymi škodami. Keďže schopnosti umelej inteligencie sú čoraz pokročilejšie, zachovanie tejto nuansy medzi otvorenosťou a opatrnosťou bude rozhodujúce.

Gemma nás posúva o krok bližšie k AI, z ktorej má úžitok celé ľudstvo. Na ceste k benevolentnej umelej inteligencii však stále čaká veľa veľkých výziev. Ak výskumníci AI, vývojári a spoločnosť ako celok dokážu udržať pokrok v spolupráci, Gemma sa môže jedného dňa považovať za historický základný tábor, a nie za konečný summit.

Súvisiace témy:Deepmind Púčik LLM

Nasledujúci

AI v marketingu: Štatistiky konferencie MWC

Nenechajte si ujsť

Zraniteľnosť a bezpečnostné hrozby, ktorým čelia veľké jazykové modely

Aayush Mittal

Posledných päť rokov som strávil ponorením sa do fascinujúceho sveta strojového učenia a hlbokého učenia. Moja vášeň a odborné znalosti ma viedli k tomu, že som prispel k viac ako 50 rôznym projektom softvérového inžinierstva s osobitným zameraním na AI/ML. Moja neustála zvedavosť ma tiež priviedla k spracovaniu prirodzeného jazyka, oblasti, ktorú by som chcel ďalej skúmať.