Îstîxbaratê ya sûnî

Gemma: Google Kapasîteyên pêşkeftî yên AI-ê bi çavkaniya vekirî tîne

Published

mehan 3 ago

February 29, 2024

Qada îstîxbarata sûnî (AI) di van salên dawî de pêşkeftinek pir mezin dîtiye, ku bi giranî ji hêla pêşkeftinan ve hatî rêve kirin hînbûna kûr û proseskirina zimanên xwezayî (NLP). Di serî de van pêşketinan in modelên zimanê mezin (LLMs) - Pergalên AI-ê li ser mîqdarên girseyî yên daneya nivîsê hatine perwerde kirin ku dikarin nivîsek mîna mirov biafirînin û tev li karên danûstendinê bibin.

LLM-yên mîna Google's PaLM, Anthropic's Claude, û DeepMind's Gopher kapasîteyên berbiçav nîşan dane, ji kodkirinê bigire heya ramana hişmendiya hevpar. Lêbelê, piraniya van modelan bi eşkere nehatine berdan, ku gihîştina wan ji bo lêkolîn, pêşkeftin û serîlêdanên sûdmend sînordar dike.

Ev bi çavkaniya vekirî ya vê dawîyê ya Gemma re guherî - malbatek LLM-ên ji DeepMind Google-ê li ser bingeha modelên xwe yên Gemini-ya xwedan hêzdar e. Di vê posta blogê de, em ê bikevin nav Gemma, mîmariya wê, pêvajoya perwerdehiyê, performans û serbestberdana berpirsiyar analîz bikin.

Pêşniyara Gemma

Di Sibata 2023 de, DeepMind çavkaniya vekirî du pîvanên modelên Gemma - guhertoyek 2 mîlyar parametreyê ku ji bo bicîhkirina li ser cîhazê xweşbînkirî ye, û guhertoyek 7 mîlyar parametreyê mezintir ku ji bo karanîna GPU / TPU hatî çêkirin.

Gemma mîmariya-based transformer û metodolojiya perwerdehiyê ya mîna modelên Gemini yên pêşeng ên DeepMind bikar tîne. Ew li ser 6 trîlyon nîşaneyên nivîsê ji belgeyên malperê, matematîkî û kodê hate perwerde kirin.

DeepMind hem nuqteyên kontrolê yên pêşwextkirî yên Gemma, hem jî guhertoyên ku bi fêrbûna çavdêrîkirî û nerînên mirovî ve hatine rêz kirin ji bo kapasîteyên pêşkeftî yên di warên wekî diyalog, şopandina rêwerzan, û kodkirinê de berdan.

Destpêkirina bi Gemma

Serbestberdana vekirî ya Gemma kapasîteyên xwe yên pêşkeftî yên AI-ê ji pêşdebiran, lêkolîner û dilxwazan re digihîne. Li vir rêbernameyek bilez heye ku hûn dest pê bikin:

Platforma Agnostic Deployment

Hêza sereke ya Gemma nermbûna wê ye - hûn dikarin wê li ser CPU, GPU, an TPU-yê bimeşînin. Ji bo CPU, TensorFlow Lite an HuggingFace Transformers bikar bînin. Ji bo performansa bilez a li ser GPU / TPU, TensorFlow bikar bînin. Karûbarên cloudê yên mîna Google Cloud's Vertex AI di heman demê de pîvandina bêkêmasî peyda dike.

Gihîştina Modelên Pêş-perwerdekirî

Gemma li gorî hewcedariyên we vebijarkên pêş-perwerdekirî yên cihêreng tê. Modelên 2B û 7B jêhatîbûnên hilberîner ên bihêz ên derveyî-paşîn pêşkêş dikin. Ji bo başkirina xwerû, modelên 2B-FT û 7B-FT xalên destpêkê yên îdeal in.

Serlêdanên balkêş ava bikin

Hûn dikarin bi Gemma re cûrbecûr serîlêdanan ava bikin, mîna nifşa çîrok, wergera ziman, bersiva pirsê, û hilberîna naveroka afirîner. Ya sereke ev e ku hêza Gemma bi rêkûpêkkirina li ser danehevên xwe ve were bikar anîn.

avakarî

Gemma mîmariya veguherîner-tenê dekoder-ê bikar tîne, ku li ser pêşkeftinên mîna baldariya pir-pirsîn û vehewandina pozîsyona zivirî ava dike:

Transformers: Di sala 2017-an de hate destnîşan kirin, mîmariya transformatorê ku tenê li ser mekanîzmayên baldariyê ye, di NLP de berbelav bûye. Gemma jêhatîbûna transformatorê mîras digire ku di nivîsê de girêdanên dûr-dirêj model bike.
Tenê dekoder: Gemma berevajî modelên şîfreker-dekoder ên mîna BART an T5, tenê stek dekoderek veguherîner bikar tîne. Ev ji bo karên mîna hilberîna nivîsê kapasîteyên hilberîner ên bihêz peyda dike.
Bala pir-pirsîn: Gemma di modela xwe ya mezin de bala pir-pirsan bi kar tîne, dihêle ku her serê balê ji bo encamdana zûtir gelek pirsan bi paralelî pêvajoyê bike.
Veguheztinên pozîsyona Rotary: Gemma li şûna şîfrekirinên pozîsyona bêkêmasî, agahdariya pozîsyonê bi karanîna binavkirinên zivirî temsîl dike. Ev teknîk dema ku agahdariya pozîsyonê digire mezinahiya modelê kêm dike.

Bikaranîna teknolojiyên mîna baldariya pir-pirsîn û pêvekirinên pozîsyona zivirî dihêle ku modelên Gemma bigihîjin hevberdanek çêtirîn di navbera performans, leza encamgirtinê û mezinahiya modelê de.

Dane û Pêvajoya Perwerdehiyê

Gemma li ser 6 trîlyon nîşaneyên daneyên nivîsê hate perwerde kirin, di serî de bi Îngilîzî. Di nav vê de belgeyên malperê, nivîsa matematîkî, û koda çavkaniyê hebû. DeepMind di parzûnkirina daneyan de, rakirina naveroka toksîk an zirardar bi karanîna dabeşker û heurîstîkê hewildanên girîng veberhênan.

Perwerde bi karanîna binesaziya TPUv5 ya Google-ê hate kirin, heya 4096 TPU-yên ku ji bo perwerdekirina Gemma-7B têne bikar anîn. Modela bikêrhatî û teknîkên paralelîzma daneyê rê li ber perwerdekirina modelên girseyî bi hardware vekir.

Perwerdehiya qonax hate bikar anîn, bi domdarî belavkirina daneyê sererast kir da ku balê bikişîne ser metna pêwenddar û kalîte. Qonaxên dawîn ên baş-ahengê tevliheviyek ji mînakên rêwerzên ku ji hêla mirovan ve hatî hilberandin û sentetîk-yên jêrîn bikar anîn da ku kapasîteyên zêde bikin.

Performansa Modelê

DeepMind bi tundî modelên Gemma-yê li ser komek berfireh ji zêdetirî 25 pîvanan nirxand ku li ser bersivdana pirsê, raman, matematîk, kodkirin, hişmendiya hevpar, û kapasîteyên diyalogê vedihewîne.

Gemma li gorî modelên çavkaniya vekirî yên bi heman rengî li seranserê piraniya pîvanan encamên herî pêşkeftî digihîje. Hin xalên balkêş:

Matematîk: Gemma di îmtîhanên ramana matematîkî yên mîna GSM8K û MATH de bi pêş dikeve, ji modelên mîna Codex û Anthropic's Claude zêdetirî 10 xalan bi pêş dixe.
Kodkirin: Gemma bi performansa Codex-ê li ser pîvanên bernamekirinê yên mîna MBPP-ê li hev dike an jî jê derbas dike, tevî ku bi taybetî li ser kodê nehatiye perwerde kirin.
Diyalog: Gemma bi 51.7% rêjeya serkeftina li ser Anthropic's Mistral-7B li ser ceribandinên tercîha mirovî şiyana axaftinê ya xurt nîşan dide.
Bersivk: Li ser peywirên ku hewcedariya encamên mîna ARC û Winogrande hewce dike, Gemma ji modelên 7B yên din bi 5-10 xalan pêşdetir dike.

Piralîbûna Gemma di nav dîsîplînan de kapasîteyên wê yên îstîxbarata giştî ya bihêz destnîşan dike. Digel ku kêmasiyên performansa di asta mirovî de dimînin, Gemma di NLP-ya çavkaniya vekirî de pêşkeftinek ber bi pêş ve temsîl dike.

Ewlehî û Berpirsiyarî

Rakirina giraniya çavkaniya vekirî ya modelên mezin, li dora xeletiya mebestî û pêşbaziyên xwerû yên modelê kêşeyan destnîşan dike. DeepMind ji bo kêmkirina xetereyan gav avêtin:

Parastina daneyên daneyê: Nivîsa potansiyel jehrîn, neqanûnî, an alîgir ji daneyên perwerdehiyê bi karanîna dabeşker û heurîstîkî hate rakirin.
Nirxandin: Gemma li ser 30+ pîvanên ku ji bo nirxandina ewlehî, dadperwerî û zexm hatine ceribandin hate ceribandin. Ew lihevhatî an ji modelên din derbas bû.
Rêzkirina hûr: Rêzkirina modelê balê dikişîne ser baştirkirina kapasîteyên ewlehiyê yên mîna fîlterkirina agahdarî û tevgerên guncan ên parastinê / redkirinê.
Mercên bikar bînin: Mercên bikaranînê serîlêdanên êrîşkar, neqanûnî, an neexlaqî yên modelên Gemma qedexe dikin. Lêbelê, pêkanîn dijwar dimîne.
Kartên Model: Kartên bi hûrgulî kapasîteyên modelê, sînorkirin, û nelirêtiyan hatin berdan da ku zelaliyê pêşve bibin.

Digel ku xetereyên ji çavkaniya vekirî hene, DeepMind destnîşan kir ku serbestberdana Gemma li ser bingeha profîla ewlehiya wê û çalakkirina lêkolînê feydeyên tora civakî peyda dike. Lêbelê, çavdêriya hişyar a zirarên potansiyel dê krîtîk bimîne.

Çalakkirina Pêla Pêşîn a Nûvekirina AI-ê

Serbestberdana Gemma wekî malbatek modela çavkaniya vekirî radiweste ku pêşkeftina li seranserê civaka AI-ê veke:

Pêdivîbûnê: Gemma ji bo sazûmanên ku bi NLP-ya pêşkeftî re ava bikin, ku berê ji bo perwerdekirina LLM-yên xwe bi lêçûnên hesabker / daneya mezin re rû bi rû ne, astengiyan kêm dike.
Serîlêdanên nû: Bi çavkaniyek vekirî ya nuqteyên kontrolê yên pêş-perwerdekirî û birêkûpêkkirî, DeepMind di warên mîna perwerde, zanist û gihîştinê de pêşkeftina hêsantir a sepanên bikêr çêdike.
takekskirina: Pêşdebir dikarin Gemma ji bo pîşesaziyê an serîlêdanên taybetî yên domainê bi perwerdehiya domdar a li ser daneyên xwedaniyê bêtir xweş bikin.
Lêkolîn: Modelên vekirî yên mîna Gemma şefafîbûn û kontrolkirina pergalên NLP-ya heyî zêde dike, rêwerzên lêkolîna pêşerojê ronî dike.
Nûkirinî: Hebûna modelên bingehîn ên bihêz ên mîna Gemma dê pêşkeftina li ser deverên mîna kêmkirina neyartiyê, rastî, û ewlehiya AI-ê bileztir bike.

Bi peydakirina kapasîteyên Gemma ji hemîyan re bi çavkaniya vekirî, DeepMind hêvî dike ku pêşveçûna berpirsiyar a AI-ê ji bo başiya civakî bimeşîne.

Roja Berê

Bi her gavek di AI-ê de, em nêzikî modelên ku di hemî domanan de hevrikî an ji îstîxbarata mirovî zêdetir dikin, nêzîk dibin. Pergalên mîna Gemma destnîşan dikin ka pêşkeftinên bilez ên di modelên xwe-serperiştkirî de çiqasî kapasîteyên naskirî yên pêşkeftî vedikin.

Lêbelê, xebat dimîne ku pêbawerî, şîrovekirin, û kontrolkirina AI-ê baştir bike - deverên ku îstîxbarata mirovî hîn jî serdest e. Domên mîna matematîkê van valahiyên domdar ronî dikin, digel ku Gemma% 64 li ser MMLU-yê li gorî texmîna 89% performansa mirovî digire.

Girtina van valahiyan di heman demê de misogerkirina ewlehî û exlaqê pergalên AI-ê yên her dem jêhatî dê di salên pêş de bibin pirsgirêkên bingehîn. Pêkanîna balansek rast di navbera vekirî û hişyariyê de dê krîtîk be, ji ber ku DeepMind armanc dike ku dema ku xetereyên derketine rêve dibe gihandina feydeyên AI-ê demokratîk bike.

Înîsiyatîvên ji bo pêşvebirina ewlehiya AI - mîna ANC ya Dario Amodei, tîmê Ethics & Society ya DeepMind, û AI-ya Destûra Bingehîn a Anthropic - îşareta mezinbûna naskirina vê hewcedariya nuwazeyê dide. Pêşkeftina watedar dê di navbera lêkolîner, pêşdebiran, siyasetmedaran û gel de diyalogek vekirî, delîl-based hewce bike.

Ger bi berpirsiyarî were rêve kirin, Gemma ne lûtkeya AI-yê, lê kampek bingehîn ji bo nifşa din a lêkolînerên AI-yê ku di şopa DeepMind-ê de berbi îstîxbarata giştî ya sûnî ya adil, bikêr dimeşin temsîl dike.

Xelasî

Derxistina modelên Gemma ji hêla DeepMind ve serdemek nû ji bo AI-ya çavkaniya vekirî nîşan dide - ya ku pîvanên teng di nav kapasîteyên îstîxbarata giştî de derbas dike. Ji bo ewlehiyê bi berfirehî hatî ceribandin û bi berfirehî gihîştî, Gemma ji bo çavkaniya vekirî ya berpirsiyar di AI-ê de standardek nû saz dike.

Ji hêla giyanek pêşbaziyê ya ku bi nirxên hevkariyê ve girêdayî ye, parvekirina serkeftinên mîna Gemma hemî keştiyên di ekosîstema AI-ê de bilind dike. Tevahiya civatê naha gihîştina malbatek LLM-ya pirreng heye ku ajotin an piştgirî bide destpêşxeriyên wan.

Digel ku xetere dimînin, lêhûrbûna teknîkî û exlaqî ya DeepMind pêbaweriyê peyda dike ku feydeyên Gemma ji zirarên wê yên potansiyel zêdetir in. Her ku kapasîteyên AI-ê her ku diçe pêşkeftî dibin, domandina vê nuwazeyê di navbera vekirî û hişyariyê de dê krîtîk be.

Gemma me gavek din nêzî AI-yê ku ji hemî mirovahiyê re sûd werdigire. Lê gelek kêşeyên mezin hîn jî li benda rêça îstîxbarata giştî ya çêkirî ya xêrxwaz in. Ger lêkolînerên AI-ê, pêşdebiran û civak bi gelemperî dikarin pêşkeftina hevkariyê biparêzin, dibe ku rojek Gemma ji lûtkeya dawîn re wekî kampa bingehîn a dîrokî were dîtin.