Umjetna inteligencija

Gemma: Google donosi napredne AI mogućnosti putem otvorenog koda

Objavljeno

Prije 2 mjeseci

Veljače 29, 2024

Područje umjetne inteligencije (AI) doživjelo je golem napredak posljednjih godina, uglavnom potaknut napretkom u duboko učenje i obrada prirodnog jezika (NLP). Na čelu tih napredaka su veliki jezični modeli (LLMs) – AI sustavi obučeni na ogromnim količinama tekstualnih podataka koji mogu generirati tekst sličan ljudskom i uključiti se u razgovorne zadatke.

LLM-ovi kao što su Googleov PaLM, Anthropicov Claude i DeepMindov Gopher pokazali su izvanredne sposobnosti, od kodiranja do zdravorazumskog zaključivanja. Međutim, većina tih modela nije javno objavljena, što ograničava njihov pristup za istraživanje, razvoj i korisne primjene.

Ovo se promijenilo s nedavnim otvorenim izvorom Gemme – obitelji LLM-a iz Googleovog DeepMinda temeljenog na njihovim snažnim vlasničkim modelima Gemini. U ovom postu na blogu zaronit ćemo u Gemmu, analizirajući njenu arhitekturu, proces obuke, performanse i odgovorno izdanje.

Pregled Gemme

U veljači 2023. DeepMind otvorenog koda dvije veličine Gemma modela – verzija od 2 milijarde parametara optimizirana za implementaciju na uređaju i veća verzija od 7 milijardi parametara dizajnirana za korištenje GPU/TPU.

Gemma koristi sličnu arhitekturu temeljenu na transformatorima i metodologiju obuke kao DeepMindovi vodeći modeli Gemini. Bio je obučen na do 6 trilijuna tokena teksta iz web dokumenata, matematike i koda.

DeepMind je izdao neobrađene unaprijed obučene kontrolne točke Gemme, kao i verzije fino podešene s nadziranim učenjem i ljudskim povratnim informacijama za poboljšane mogućnosti u područjima kao što su dijalog, praćenje uputa i kodiranje.

Početak rada s Gemmom

Otvoreno izdanje Gemme čini njezine napredne AI mogućnosti dostupnima programerima, istraživačima i entuzijastima. Evo kratkog vodiča za početak:

Platforma Agnostic Deployment

Ključna snaga Gemme je njezina fleksibilnost – možete je pokrenuti na CPU-u, GPU-u ili TPU-u. Za CPU, iskoristite TensorFlow Lite ili HuggingFace Transformers. Za ubrzane performanse na GPU/TPU, koristite TensorFlow. Usluge u oblaku kao što je Vertex AI tvrtke Google Cloud također pružaju besprijekorno skaliranje.

Pristupite unaprijed obučenim modelima

Gemma dolazi u različitim unaprijed obučenim varijantama ovisno o vašim potrebama. Modeli 2B i 7B nude snažne generativne sposobnosti izvan kutije. Za prilagođeno fino podešavanje, modeli 2B-FT i 7B-FT idealne su polazne točke.

Izradite uzbudljive aplikacije

S Gemmom možete izgraditi raznolik niz aplikacija, poput stvaranja priča, prijevoda jezika, odgovaranja na pitanja i kreativne proizvodnje sadržaja. Ključ je iskorištavanje prednosti Gemme kroz fino podešavanje vlastitih skupova podataka.

Arhitektura

Gemma koristi transformatorsku arhitekturu samo za dekoder, nadograđujući se napretkom kao što je pozornost na više upita i rotirajuća poziciona ugrađivanja:

transformatori: Uvedena 2017., transformatorska arhitektura koja se temelji isključivo na mehanizmima pažnje postala je sveprisutna u NLP-u. Gemma nasljeđuje sposobnost transformatora da modelira dugotrajne ovisnosti u tekstu.
Samo dekoder: Gemma koristi samo transformator dekoder stack, za razliku od modela kodera-dekodera kao što su BART ili T5. To pruža snažne generativne mogućnosti za zadatke poput generiranja teksta.
Pažnja na više upita: Gemma u svom većem modelu koristi pažnju s više upita, dopuštajući svakoj glavi pažnje da obradi više upita paralelno radi bržeg zaključivanja.
Rotacijska poziciona ugrađivanja: Gemma predstavlja informacije o položaju korištenjem rotirajućih umetanja umjesto kodiranja apsolutnog položaja. Ova tehnika smanjuje veličinu modela uz zadržavanje informacija o položaju.

Korištenje tehnika kao što je pažnja s više upita i rotirajuća poziciona ugrađivanja omogućuju modelima Gemma postizanje optimalnog kompromisa između izvedbe, brzine zaključivanja i veličine modela.

Podaci i proces obuke

Gemma je trenirana na do 6 trilijuna tokena tekstualnih podataka, prvenstveno na engleskom jeziku. To uključuje web dokumente, matematički tekst i izvorni kod. DeepMind je uložio značajne napore u filtriranje podataka, uklanjanje toksičnog ili štetnog sadržaja pomoću klasifikatora i heuristike.

Obuka je provedena korištenjem Googleove infrastrukture TPUv5, s do 4096 TPU-a korištenih za obuku Gemma-7B. Učinkovite tehnike paralelizma modela i podataka omogućile su obuku masivnih modela s standardnim hardverom.

Korištena je postupna obuka, koja je kontinuirano prilagođavala distribuciju podataka kako bi se usredotočila na visokokvalitetan, relevantan tekst. Završne faze finog podešavanja koristile su mješavinu primjera koje su generirali ljudi i sintetičkih primjera praćenja uputa kako bi se poboljšale mogućnosti.

Izvedba modela

DeepMind je rigorozno procijenio Gemma modele na širokom skupu od preko 25 mjerila koja obuhvaćaju mogućnosti odgovaranja na pitanja, zaključivanja, matematike, kodiranja, zdravog razuma i dijaloga.

Gemma postiže najsuvremenije rezultate u usporedbi s modelima otvorenog koda slične veličine u većini mjerila. Neke naglaske:

Matematika: Gemma se ističe na testovima matematičkog zaključivanja kao što su GSM8K i MATH, nadmašujući modele kao što su Codex i Anthropic's Claude za više od 10 bodova.
Kodiranje: Gemma odgovara ili premašuje performanse Codexa na programskim mjerilima kao što je MBPP, unatoč tome što nije posebno obučena za kod.
Dijalog: Gemma pokazuje snažnu sposobnost razgovora s 51.7% stopom pobjede nad Anthropicovim Mistralom-7B na testovima ljudskih preferencija.
Rasuđivanje: Na zadacima koji zahtijevaju zaključivanje kao što su ARC i Winogrande, Gemma nadmašuje ostale modele 7B za 5-10 bodova.

Gemmina svestranost u različitim disciplinama pokazuje njezine snažne opće inteligencije. Iako praznine u performansama na ljudskoj razini ostaju, Gemma predstavlja korak naprijed u NLP-u otvorenog koda.

Sigurnost i odgovornost

Objavljivanje pondera otvorenog koda velikih modela predstavlja izazove oko namjerne zlouporabe i inherentnih pristranosti modela. DeepMind je poduzeo korake za smanjenje rizika:

Filtriranje podataka: Potencijalno otrovan, nezakonit ili pristran tekst uklonjen je iz podataka o obuci pomoću klasifikatora i heuristike.
Ocjene: Gemma je testirana na 30+ mjerila odabranih za procjenu sigurnosti, pravednosti i robusnosti. Uskladio se ili nadmašio druge modele.
Fino podešavanje: Fino ugađanje modela usmjereno je na poboljšanje sigurnosnih mogućnosti kao što su filtriranje informacija i odgovarajuće ponašanje zaštite/odbijanja.
Uvjeti korištenja: Uvjeti korištenja zabranjuju uvredljive, nezakonite ili neetičke primjene Gemma modela. Međutim, provedba je i dalje izazovna.
Model kartice: Kartice s pojedinostima o mogućnostima modela, ograničenjima i pristranostima objavljene su radi promicanja transparentnosti.

Iako postoje rizici od otvorenog izvornog koda, DeepMind je utvrdio da izdanje Gemme pruža neto društvene koristi na temelju njezinog sigurnosnog profila i mogućnosti istraživanja. Međutim, budno praćenje potencijalnih šteta i dalje će biti ključno.

Omogućivanje sljedećeg vala inovacija umjetne inteligencije

Izdavanje Gemme kao obitelji modela otvorenog koda znači otključavanje napretka u zajednici umjetne inteligencije:

Dostupnost: Gemma smanjuje prepreke za organizacije koje grade s najsuvremenijim NLP-om, koje su se prije suočavale s visokim računalnim/podatkovnim troškovima za obuku vlastitih LLM-a.
Nove aplikacije: Otvorenim izvorom prethodno obučenih i podešenih kontrolnih točaka, DeepMind omogućuje lakši razvoj korisnih aplikacija u područjima kao što su obrazovanje, znanost i pristupačnost.
Prilagodba: Razvojni programeri mogu dodatno prilagoditi Gemmu za aplikacije specifične za industriju ili domenu kroz kontinuiranu obuku o vlasničkim podacima.
Istraživanje: Otvoreni modeli poput Gemme potiču veću transparentnost i reviziju trenutnih NLP sustava, osvjetljavajući buduće smjerove istraživanja.
Inovacija: Dostupnost snažnih osnovnih modela kao što je Gemma ubrzat će napredak u područjima kao što su ublažavanje pristranosti, činjenica i sigurnost AI-ja.

Omogućavanjem Gemminih mogućnosti svima putem otvorenog izvornog koda, DeepMind se nada da će potaknuti odgovoran razvoj umjetne inteligencije za društveno dobro.

Put naprijed

Sa svakim skokom u AI, približavamo se modelima koji su konkurentni ili premašuju ljudsku inteligenciju u svim domenama. Sustavi kao što je Gemma naglašavaju koliko brzi napredak u modelima samonadzora otključava sve naprednije kognitivne sposobnosti.

Međutim, preostaje rad na poboljšanju pouzdanosti, interpretabilnosti i upravljivosti AI – područja u kojima ljudska inteligencija još uvijek dominira. Domene poput matematike naglašavaju ove trajne nedostatke, s tim da je Gemma postigla 64% rezultata na MMLU u usporedbi s procijenjenim 89% ljudske izvedbe.

Zatvaranje ovih praznina uz osiguranje sigurnosti i etike sve sposobnijih sustava umjetne inteligencije bit će glavni izazovi u godinama koje dolaze. Uspostavljanje prave ravnoteže između otvorenosti i opreza bit će od ključne važnosti jer DeepMind ima za cilj demokratizirati pristup prednostima umjetne inteligencije dok istovremeno upravlja novim rizicima.

Inicijative za promicanje sigurnosti umjetne inteligencije – poput ANC-a Darija Amodeija, DeepMindovog tima za etiku i društvo i Anthropicove ustavne umjetne inteligencije – signaliziraju sve veće prepoznavanje ove potrebe za nijansama. Značajan napredak zahtijevat će otvoren dijalog utemeljen na dokazima između istraživača, programera, kreatora politika i javnosti.

Ako se upravlja odgovorno, Gemma ne predstavlja vrh AI-ja, već bazu za sljedeću generaciju istraživača AI-a koji slijede DeepMindove korake prema poštenoj, korisnoj općoj umjetnoj inteligenciji.

Zaključak

DeepMindovo izdanje Gemma modela označava novu eru za AI otvorenog koda – onu koja nadilazi uska mjerila u generalizirane sposobnosti inteligencije. Opsežno testirana na sigurnost i široko dostupna, Gemma postavlja novi standard za odgovoran otvoreni izvor u AI.

Potaknuti natjecateljskim duhom umjerenim vrijednostima suradnje, dijeljenje otkrića poput Gemme podiže sve brodove u ekosustavu umjetne inteligencije. Cijela zajednica sada ima pristup svestranoj LLM obitelji za poticanje ili podršku njihovim inicijativama.

Dok rizici ostaju, DeepMindova tehnička i etička marljivost daje povjerenje da dobrobiti Gemme nadmašuju potencijalne štete. Kako AI sposobnosti postaju sve naprednije, održavanje ove nijanse između otvorenosti i opreza bit će od ključne važnosti.

Gemma nas vodi korak bliže umjetnoj inteligenciji koja koristi cijelom čovječanstvu. Ali mnogi veliki izazovi još uvijek čekaju na putu do dobronamjerne umjetne opće inteligencije. Ako istraživači umjetne inteligencije, programeri i društvo u cjelini mogu održati napredak u suradnji, Gemma bi se jednog dana mogla smatrati povijesnim baznim kampom, a ne konačnim summitom.

Srodne teme:DeepMind Pupoljak Mr

Sljedeći

AI u marketingu: MWC Conference Insights

Ne propustite

Ranjivosti i sigurnosne prijetnje s kojima se suočavaju modeli velikih jezika

Aayush Mittal

Proteklih pet godina proveo sam uranjajući u fascinantan svijet strojnog i dubokog učenja. Moja strast i stručnost naveli su me da pridonesem više od 50 različitih projekata softverskog inženjeringa, s posebnim fokusom na AI/ML. Moja stalna znatiželja također me povukla prema obradi prirodnog jezika, polju koje jedva čekam dalje istraživati.