stub DeepMind û Google Brain Armanca Rêbazan Diafirînin Ji bo Başkirina Karûbariya Fêrbûna Bihêzkirinê - Unite.AI
Girêdana bi me

Îstîxbaratê ya sûnî

Armanca DeepMind û Google Brain Rêbazan diafirînin da ku Karbidestiya Fêrbûna Hêzdarkirinê baştir bikin

mm
Demê on

Pergalên fêrbûna xurtkirinê dikarin bi hêz û zexm bin, ku karibin bi hezaran dubareyên perwerdehiyê karên pir tevlihev pêk bînin. Digel ku algorîtmayên fêrbûna xurtkirinê dikarin tevgerên sofîstîke û carinan jî sosret bikar bînin, ew perwerdehiya demek dirêj digire û jimarek pir dane hewce dike. Van faktoran teknîkên fêrbûna hêzdarkirinê pir bêkêmasî dikin, û di van demên dawî de tîmên lêkolînê yên ji Alphabet DeepMind û Google Brain hewil dane ku rêbazên bikêrtir ên afirandina pergalên fêrbûna hêzdar bibînin.

Wekî ku ji hêla VentureBeat ve hatî ragihandin, koma lêkolînê ya hevgirtî di van demên dawî de rêbazên ku perwerdehiya fêrbûna xurtkirinê bikêrhatîtir bikin pêşniyar kirin. Yek ji çêtirkirinên pêşniyarkirî algorîtmayek bû ku jê re Parvekirina Siyaseta Tevgerê ya Adaptive (ABPS) tê binavkirin, dema ku ya din çarçoveyek bi navê Nêzkerên Fonksiyona Nirxa Gerdûnî (UVFA) bû. ABPS dihêle hewzên ajanên AI-ê ezmûnên xwe yên bi adapteyî bijartî parve bikin, dema ku UVFA dihêle ku ew AI bi hevdemî polîtîkayên keşfê yên rêberî lêkolîn bikin.

ABPS mebest e ku dema ku modelek perwerde dike xwerûkirina hîperparametran bilez bike. ABPS bi rê dide ku gelek ajanên bi hîperparametreyên cihêreng bibînin ku hîperparametreyên çêtirîn zûtir bibînin ku ezmûnên polîtîkaya tevgerê parve bikin. Zêdetir be, ABPS dihêle ajansên fêrbûna hêzdarkirinê ji wan kiryarên ku polîtîkayek baş dîtiye çalakiyan hilbijêrin û dûv re li ser bingeha rewşa jêrîn xelatek û çavdêrî tê dayîn.

Nûnerên bihêzkirina AI-ê bi cûrbecûr tevliheviyên hîperparametreyên gengaz, mîna rêjeya hilweşînê û rêjeya fêrbûnê, têne perwerde kirin. Dema ku modelek perwerde dike, armanc ev e ku model li ser berhevoka hîperparametreyên ku performansa çêtirîn dide wê, û di vê rewşê de yên ku di heman demê de karbidestiya daneyê jî baştir dikin, li hev bicive. Karbidestî bi perwerdekirina gelek ajanan di yek carê de û hilbijartina behreya tenê yek nûnerê ku di gava gava paşîn de were bicîh kirin zêde dibe. Siyaseta ku nûnerê armanc heye ji bo nimûneyên çalakiyan tê bikar anîn. Dûv re veguhertin di nav cîhek hevpar de têne tomar kirin, û ev cîh bi domdarî tê nirxandin da ku hilbijartina siyasetê ne hewce ye ku pir caran pêk were. Di dawiya perwerdehiyê de, komek ji ajanan tê hilbijartin û ajanên performansa herî bilind têne hilbijartin ku ji bo şandina dawîn derbas bibin.

Di warê UVFA de, ew hewl dide ku bi yek ji pirsgirêkên hevpar ên fêrbûna xurtkirinê re mijûl bibe, ku ajanên qels-hêzkirî bi gelemperî peywiran fêr nakin. UVFA hewl dide ku pirsgirêkê çareser bike ku ajan di heman demê de komek veqetandî ya polîtîkayên keşfkirin û keşfê fêr bibe. Veqetandina peywiran çarçoveyek diafirîne ku destûrê dide polîtîkayên keşfê ku lêkolîna hawîrdorê bidomînin dema ku polîtîkayên îstismarkirinê berdewam dikin ku hewl bidin û xelata ji bo peywira heyî zêde bikin. Polîtîkayên keşfê yên UVFA wekî mîmariyek bingehîn xizmet dike ku her çend xelatên xwezayî neyên dîtin jî dê baştir bibe. Di rewşek wusa de, fonksiyonek ku bi xelatên xwerû re têkildar tê nêzîk kirin, ku ajanan dihêle ku hemî dewletan li hawîrdorek bigerin, hetta ew pir caran vedigerin rewşên nas.

Wekî ku VentureBeat diyar kir, dema ku çarçoveya UVFA di lîstikê de ye, xelatên hundurîn ên pergalê rasterast ji nûnerê re wekî têketin têne dayîn. Dûv re ajan nûnertiya hemî têketinê (wek xelat, çalakî û rewş) di dema serpêhatiyek diyar de dişopîne. Encam ev e ku xelat bi demê re tê parastin û siyaseta ajan bi kêmî ve her dem ji hêla wê ve tê agahdar kirin.

Ev bi karanîna modulek "nûzeya episodîk" û modulek "nûzetî ya jiyanê" pêk tê. Fonksiyona modula yekem ev e ku bîranîna heyî, episodîk bigire û vedîtinên heyî li ser nûnertiya ku berê behs kirî nexşe bike, bihêle ku ajan ji bo her gav perwerdehiyê xelatek episodîk a xwerû diyar bike. Dûv re, dewlet-girêdayî çavdêriya heyî li bîrê tê zêdekirin. Di vê navberê de, modula nûvekirina jiyanê berpirsiyar e ku bandor bike ka çend caran ajan li ser gelek beşan lêkolîn dike.

Li gorî tîmên Alphabet/Google, teknîkên perwerdehiya nû jixwe dema ku pergalek fêrbûna hêzdar perwerde dikin potansiyela pêşkeftina girîng nîşan dane. UVFA karîbû performansa hin ajanên bingehîn ên ku lîstikên cihêreng ên Atari lîstin duqat bike. Di vê navberê de, ABPS karîbû performansê li ser hin lîstikên heman Atari zêde bike, bi qasî 25% cihêrengiya di nav ajanên performansa jorîn de kêm bike. Algorîtmaya perwerdekirî ya UVFA-yê karîbû bi serê xwe di Pitfall de derecek bilind bi dest bixe, ku tu taybetmendiyên endezyarkirî yên demoyên mirovan tune.