stub X'inhu Inżul Gradjent? - Unite.AI
Kuntatt magħna
Masterclass AI:

AI 101

X'inhu Inżul Gradjent?

mm
Aġġornata on

X'inhu Inżul Gradjent?

Jekk qrajt dwar kif in-netwerks newrali huma mħarrġa, kważi żgur li ltqajt mat-terminu "inżul gradent" qabel. Inżul ta 'gradjent huwa l-metodu primarju ta ' l-ottimizzazzjoni tal-prestazzjoni tan-netwerk newrali, tnaqqas ir-rata ta ' telf/żball tan-netwerk. Madankollu, l-inżul tal-gradjent jista 'jkun ftit diffiċli biex jinftiehem għal dawk ġodda għat-tagħlim tal-magni, u dan l-artikolu se jagħmel ħiltu biex jagħtik intuwizzjoni deċenti dwar kif topera n-niżla tal-gradjent.

Inżul gradjent huwa algoritmu ta 'ottimizzazzjoni. Jintuża biex itejjeb il-prestazzjoni ta 'netwerk newrali billi jagħmel tweaks lill-parametri tan-netwerk b'tali mod li d-differenza bejn il-previżjonijiet tan-netwerk u l-valuri attwali/mistennija tan-netwerk (imsejħa t-telf) tkun żgħira kemm jista' jkun. Inżul gradjent jieħu l-valuri inizjali tal-parametri u juża operazzjonijiet ibbażati fil-kalkulu biex jaġġusta l-valuri tagħhom lejn il-valuri li jagħmlu n-netwerk preċiż kemm jista 'jkun. M'għandekx bżonn tkun taf ħafna kalkulu biex tifhem kif taħdem l-inżul tal-gradjent, iżda jeħtieġ li jkollok fehim tal-gradjenti.

X'inhuma Gradjenti?

Assumi li hemm graff li jirrappreżenta l-ammont ta 'żball li jagħmel netwerk newrali. Il-qiegħ tal-graff jirrappreżenta l-punti ta 'żball l-aktar baxx filwaqt li l-parti ta' fuq tal-graff hija fejn l-iżball huwa l-ogħla. Irridu nimxu minn fuq tal-grafika 'l isfel għal isfel. Grajjent huwa biss mod kif tikkwantifika r-relazzjoni bejn l-iżball u l-piżijiet tan-netwerk newrali. Ir-relazzjoni bejn dawn iż-żewġ affarijiet jistgħu jiġu graphed bħala inklinazzjoni, b'piżijiet mhux korretti li jipproduċu aktar żball. L-inklinazzjoni tal-inklinazzjoni/gradjent tirrappreżenta kemm qed jitgħallem il-mudell.

Inklinazzjoni aktar wieqaf tfisser li qed isir tnaqqis kbir fl-iżball u l-mudell qed jitgħallem malajr, filwaqt li jekk l-inklinazzjoni tkun żero, il-mudell ikun fuq plateau u mhux qed jitgħallem. Nistgħu nimxu 'l isfel mill-inklinazzjoni lejn inqas żball billi nikkalkulaw gradjent, direzzjoni tal-moviment (bidla fil-parametri tan-netwerk) għall-mudell tagħna.

Ejja nbiddlu ftit il-metafora u nimmaġinaw sensiela ta’ għoljiet u widien. Irridu naslu fil-qiegħ tal-għolja u nsibu l-parti tal-wied li tirrappreżenta l-inqas telf. Meta nibdew minn fuq l-għolja nistgħu nieħdu passi kbar fl-għolja u nkunu fiduċjużi li sejrin lejn l-iktar punt baxx tal-wied.

Madankollu, hekk kif nersqu eqreb lejn l-iktar punt baxx fil-wied, il-passi tagħna se jkollhom bżonn isiru iżgħar, jew inkella nistgħu negħlbu l-aktar punt baxx veru. Bl-istess mod, huwa possibbli li meta jiġu aġġustati l-piżijiet tan-netwerk, l-aġġustamenti jistgħu fil-fatt jeħduha aktar 'il bogħod mill-punt ta' l-inqas telf, u għalhekk l-aġġustamenti jridu jsiru iżgħar maż-żmien. Fil-kuntest li niżlu għoljiet lejn punt tal-inqas telf, il-gradjent huwa vettur/struzzjonijiet li jagħtu dettalji dwar it-triq li għandna nieħdu u kemm għandhom ikunu kbar il-passi tagħna.

Issa nafu li l-gradjenti huma struzzjonijiet li jgħidulna f'liema direzzjoni nimxu fiha (liema koeffiċjenti għandhom jiġu aġġornati) u kemm huma kbar il-passi li għandna nieħdu (kemm għandhom jiġu aġġornati l-koeffiċjenti), nistgħu nesploraw kif il-gradjent jiġi kkalkulat.

Jikkalkulaw Gradjenti & Inżul Gradjent

L-inżul tal-gradjent jibda f'post ta 'telf kbir u permezz ta' iterazzjonijiet multipli, jieħu passi fid-direzzjoni tal-inqas telf, bil-għan li ssib l-aħjar konfigurazzjoni tal-piż. Ritratt: Роман Сузи permezz ta' Wikimedia Commons, CCY BY SA 3.0 (https://commons.wikimedia.org/wiki/File:Gradient_descent_method.png)

Sabiex titwettaq inżul tal-gradjent, l-ewwel iridu jiġu kkalkulati l-gradjenti. Sabiex biex tikkalkula l-gradjent, għandna bżonn inkunu nafu l-funzjoni tat-telf/ispiża. Aħna ser nużaw il-funzjoni tal-ispiża biex niddeterminaw id-derivattiv. Fil-kalkulu, id-derivattiv jirreferi biss għall-inklinazzjoni ta 'funzjoni f'punt partikolari, għalhekk aħna bażikament qed nikkalkulaw biss l-inklinazzjoni tal-għoljiet ibbażati fuq il-funzjoni tat-telf. Aħna niddeterminaw it-telf billi nħaddmu l-koeffiċjenti permezz tal-funzjoni tat-telf. Jekk nirrappreżentaw il-funzjoni tat-telf bħala "f", allura nistgħu niddikjaraw li l-ekwazzjoni għall-kalkolu tat-telf hija kif ġej (aħna qed inħaddmu biss il-koeffiċjenti permezz tal-funzjoni tal-ispiża magħżula tagħna):

Telf = f(koeffiċjent)

Imbagħad nikkalkulaw id-derivattiva, jew niddeterminaw l-inklinazzjoni. Il-kisba tad-derivattiva tat-telf se tgħidilna liema direzzjoni hija 'l fuq jew 'l isfel mill-inklinazzjoni, billi tagħtina s-sinjal xieraq biex naġġustaw il-koeffiċjenti tagħna. Aħna ser nirrappreżentaw id-direzzjoni xierqa bħala "delta".

delta = funzjoni_derivattiva(telf)

Issa ddeterminajna liema direzzjoni hija għan-niżla lejn il-punt tal-inqas telf. Dan ifisser li nistgħu naġġornaw il-koeffiċjenti fil-parametri tan-netwerk newrali u nisperaw li nnaqqsu t-telf. Aħna ser naġġornaw il-koeffiċjenti bbażati fuq il-koeffiċjenti preċedenti nieqes il-bidla xierqa fil-valur kif determinat mid-direzzjoni (delta) u argument li jikkontrolla l-kobor tal-bidla (id-daqs tal-pass tagħna). L-argument li jikkontrolla d-daqs tal-aġġornament jissejjaħ "rata ta’ tagħlim” u aħna nirrappreżentawh bħala “alpha”.

koeffiċjent = koeffiċjent – ​​(alfa * delta)

Imbagħad nirrepetu dan il-proċess sakemm in-netwerk ikun ikkonverġi madwar il-punt tal-inqas telf, li għandu jkun qrib iż-żero.

Huwa importanti ħafna li tagħżel il-valur it-tajjeb għar-rata tat-tagħlim (alpha). Ir-rata ta' tagħlim magħżula m'għandhiex tkun la żgħira wisq jew kbira wisq. Ftakar li hekk kif nersqu lejn il-punt tal-inqas telf, il-passi tagħna jridu jsiru iżgħar jew inkella nissuperaw il-punt veru tal-inqas telf u nispiċċaw fuq in-naħa l-oħra. Il-punt tal-iżgħar telf huwa żgħir u jekk ir-rata ta’ bidla tagħna hija kbira wisq l-iżball jista’ jispiċċa jerġa’ jiżdied. Jekk id-daqsijiet tal-pass huma kbar wisq, il-prestazzjoni tan-netwerk se tkompli bounce madwar il-punt ta 'telf l-aktar baxx, qabeż fuq naħa waħda u mbagħad l-oħra. Jekk jiġri dan in-netwerk qatt mhu se jikkonverġi fuq il-konfigurazzjoni vera tal-piż ottimali.

B'kuntrast, jekk ir-rata ta 'tagħlim hija żgħira wisq in-netwerk jista' potenzjalment jieħu żmien straordinarjament twil biex jikkonverġi fuq l-aħjar piżijiet.

Tipi ta 'Inżul Gradjent

Issa li nifhmu kif taħdem l-inżul gradjent b'mod ġenerali, ejja nagħtu ħarsa lejn uħud mid-differenti tipi ta 'inżul gradjent.

Inżul ta 'gradjent tal-lott: Din il-forma ta' dixxendenza ta 'gradjent tgħaddi mill-kampjuni kollha tat-taħriġ qabel ma taġġorna l-koeffiċjenti. Dan it-tip ta 'inżul gradjent x'aktarx li jkun l-aktar forma komputazzjoni effiċjenti ta' inżul gradjent, peress li l-piżijiet huma aġġornati biss ladarba l-lott kollu jkun ġie pproċessat, li jfisser li hemm inqas aġġornamenti totali. Madankollu, jekk is-sett tad-dejta jkun fih numru kbir ta 'eżempji ta' taħriġ, allura l-inżul tal-gradjent tal-lott jista 'jagħmel it-taħriġ jieħu żmien twil.

Inżul tal-Gradjent Stokastiku: Fl-Inżul tal-Gradjent Stokastiku biss huwa pproċessat eżempju ta 'taħriġ wieħed għal kull iterazzjoni ta' niżla tal-gradjent u aġġornament tal-parametri. Dan iseħħ għal kull eżempju ta 'taħriġ. Minħabba li eżempju ta 'taħriġ wieħed biss jiġi pproċessat qabel ma l-parametri jiġu aġġornati, għandu t-tendenza li jikkonverġi aktar malajr minn Batch Gradient Descent, peress li l-aġġornamenti jsiru aktar kmieni. Madankollu, minħabba li l-proċess irid jitwettaq fuq kull oġġett fis-sett tat-taħriġ, jista 'jieħu żmien pjuttost twil biex jitlesta jekk is-sett tad-dejta huwa kbir, u għalhekk l-użu ta' wieħed mit-tipi l-oħra ta 'niżla gradjent jekk preferut.

Mini-Batch Gradient Descent: Mini-Batch Gradient Descent jopera billi jaqsam id-dataset kollu tat-taħriġ f'subsezzjonijiet. Joħloq mini-lottijiet iżgħar li jitmexxew min-netwerk, u meta l-mini-lott ikun intuża biex jiġi kkalkulat l-iżball il-koeffiċjenti jiġu aġġornati. Inżul Gradjent Mini-lott jolqot triq tan-nofs bejn Inżul Gradjent Stokastiku u Inżul Gradjent Batch. Il-mudell jiġi aġġornat aktar ta 'spiss milli fil-każ ta' Batch Gradient Descent, li jfisser konverġenza kemmxejn aktar mgħaġġla u aktar robusta fuq il-parametri ottimali tal-mudell. Huwa wkoll aktar komputazzjoni effiċjenti minn Stochastic Gradient Descent

Blogger u programmatur bi speċjalitajiet fi Tagħlim bil-Magni u, Tagħlim fil-fond suġġetti. Daniel jittama li jgħin lil ħaddieħor juża l-qawwa tal-IA għall-ġid soċjali.