stub Torên Neuralî yên Transformer Çi ne? - Yekbûn.AI
Girêdana bi me

AI 101

Torên Neuralî yên Transformer Çi ne?

mm
Demê on

Torên Neuralî yên Veguhasterê Hatin Danasîn

Transformers celebek modela fêrbûna makîneyê ye ku di hilberandin û şîrovekirina daneyên rêzdar de pispor e, wan ji bo karên hilberandina zimanê xwezayî çêtirîn dike. Ji bo ku em çêtir fam bikin ka transformatorek fêrbûna makîneyê çi ye, û ew çawa dixebitin, ka em ji nêz ve li modelên transformator û mekanîzmayên ku wan dimeşînin binêrin.

Ev gotara wê derxistin:

  • Rêz-to-Rêz Modelên
  • Mîmariya Tora Neuralî ya Transformer
  • Mekanîzmaya Baldarî
  • Cûdahî di navbera Transformer û RNN / LSTMs de

Rêz-to-Rêz Modelên

Modelên rêzik-bi-rêkûpêk celebek modela NLP-ê ne ku ji bo veguheztina rêzikên celebek ji rêzek celebek din têne bikar anîn. Cureyên cûrbecûr modelên rêzikan hene, wek mînak Tora Neuralî ya Dubare model û Bîra Kurt-Dûr (LSTM) modela

Modelên kevneşopî yên rêzikan ên mîna RNN û LSTMS ne meqseda vê gotarê ne, lê têgihîştina wan hewce ye ku meriv binirxîne ka modelên veguherîner çawa dixebitin û çima ew ji modelên rêzik-bi-rûzê yên kevneşopî bilindtir in.

Bi kurtasî, modelên RNN û modelên LSTM ji torên şîfreker û dekoderê pêk tên ku daneyên têketinê di gavên cihêreng de analîz dikin. Modela şîfreker berpirsiyar e ku nûnertiya kodkirî ya peyvan di daneya têketinê de ava bike. Di her gavê de tora şîfreker rêzek têketinê û rewşek veşartî ji gava gava berê ya rêzê digire. Nirxên dewleta veşartî dema ku dane di nav torê re derbas dibin, heya gava paşîn a paşîn, ku li wir "vektorek hevokê" tê çêkirin, têne nûve kirin. Dûv re vektora kontekstê ji tora dekoderê re tê şandin, ku ji bo afirandina rêzek armanc tê bikar anîn bi pêşbînkirina peyva herî muhtemel a ku bi peyva têketinê re ji bo gavên dem ên têkildar re hevber dike.

Van modelan dikarin bi karanîna "" zêde bibin.mekanîzmaya baldariyê". Mekanîzmayek baldariyê diyar dike ku tor divê li ser kîjan beşên vektora têketinê bisekine da ku hilbera rast çêbike. Ji bo vê yekê bi awayek din, mekanîzmayek baldariyê dihêle ku modela veguherîner yek peyva têketinê bişopîne û di heman demê de tev li agahdariya têkildar a ku ji hêla peyvên din ên têketinê ve tê de heye jî bigire. Mekanîzmayên baldariyê jî peyvên ku agahdariya têkildar di nav xwe de ne vedişêrin.

Mîmariya Tora Neuralî ya Transformer

Em ê paşê paşê bi hûrgulî biçin nav mekanîzmaya baldariyê, lê ji bo naha em ê lê binêrin mîmariya tora neuralî ya veguherîner di asta bilind de.

Bi gelemperî, tora neuralî ya veguherîner tiştek mîna jêrîn xuya dike:

Digel ku dibe ku ev avahiya gelemperî di navbera toran de biguhezîne, perçeyên bingehîn dê heman bimînin: kodkirina pozîsyonê, vektorên peyvan, mekanîzmaya baldariyê, tora neuralî ya pêş-pêşvebirinê.

Kodên Positional û Vektorên Peyv

Tora neuralî ya veguherîner kar dike bi girtina rêzek têketinan û veguhertina van têketinan nav du rêzikên din. Transformer rêzek vektorên peyvan û şîfreyên pozîsyonê çêdike.

Peyvên vektorê vector tenê metn in ku di formek hejmarî de têne destnîşan kirin ku tora neuralî dikare pêvajo bike. Di vê navberê de, şîfreyên pozîsyonê nûneratiyên vektorkirî ne ku di derheqê pozîsyona peyva heyî de di hevoka têketinê de, bi peyvên din re, agahdarî vedihewînin.

Modelên din ên tora neuralî yên bingehîn ên nivîsê yên mîna RNN û LSTM vektoran bikar tînin da ku peyvan di daneya têketinê de temsîl bikin. Van vektorên vektorî peyvan bi nirxên domdar ve nexşe dikin, lê ev sînordar e ji ber ku peyv dikarin di çarçoveyek cûda de werin bikar anîn. Tora veguherîner vê pirsgirêkê çareser dike ku nirxên peyvan maqûltir dike, fonksiyonên sinusoidal bikar tîne da ku vektorên peyvan li gorî cîhê peyvê di hevokê de nirxên cihêreng bigirin.

Ev dihêle ku modela tora neuralî agahdariya di derheqê pozîsyona têkildar a peyvên têketinê de biparêze, tewra piştî ku vektor di nav qatên tora veguherîner de derbas dibin.

Şîfreyên pozîsyonê û vektorên peyvan bi hev re têne berhev kirin û dûv re derbasî nav torên şîfreker û dekoderê dibin. Dema ku torên neuralî yên veguherîner mîna RNN û LSTM şemayên şîfreker / dekoder bikar tînin, cûdahiyek girîng di navbera wan de ev e ku hemî daneyên têketinê di heman demê de di nav torê de têne xwarin, lê di RNN / LSTM de, dane bi rêzê têne derbas kirin.

Tora şîfreker berpirsiyar in ku veguheztina danûstendinan li nûneratiyên ku torê dikare jê fêr bibe berpirsiyar in, dema ku torgilokên dekoder berevajî vê yekê dikin û şîfreyan vediguhezînin belavokek îhtîmalê ya ku ji bo afirandina peyvên herî muhtemel di hevoka derketinê de tê bikar anîn. Ya girîng, hem torên şîfreker û hem jî dekoder mekanîzmayek baldariyê heye.

Ji ber ku GPU dikarin pêvajoyek paralel in, gelek mekanîzmayên baldariyê bi paralel têne bikar anîn, ku agahdariya têkildar ji bo hemî peyvên têketinê hesab dikin. Vê şiyana ku bala xwe dide gelek peyvan, ku jê re bala "pir-serî" tê binav kirin, di demekê de alîkariya tora neuralî dike ku çarçoweya peyvek di nav hevokê de fêr bibe, û ew yek ji avantajên bingehîn e ku torên veguherîner li ser RNN û LSTM hene.

Mekanîzmaya Baldarî

Mekanîzmaya baldariyê beşa herî girîng a torê veguherîner e. Mekanîzmaya baldariyê ya ku dihêle ku modelên veguherîner ji sînorê bala modelek RNN ​​an LSTM ya tîpîk derbas bibin. Modelên Kevneşopî yên Rêz-bi-Sequence hemî rewşên navbirî ji holê radikin û dema ku tora dekoderê dest pê dikin tenê vektora rewşa dawî/tewre bikar tînin da ku pêşbîniyên li ser rêzek têketinê çêbikin.

Dûrxistina her tiştî lê vektora çarçovê ya paşîn baş dixebite dema ku rêzikên têketinê pir piçûk in. Lêbelê her ku dirêjahiya rêzek têketinê zêde dibe, dema ku vê rêbazê bikar tîne dê performansa modelê kêm bibe. Ev ji ber ku pir dijwar dibe ku meriv rêzek têketinek dirêj wekî vektorek yekane kurt bike. Çareserî ev e ku meriv "balkêşiya" modelê zêde bike û dewletên enkoderê yên navber bikar bîne da ku vektorên çarçoveyê ji bo dekoderê ava bike.

Mekanîzmaya baldariyê diyar dike ku nîşaneyên din ên têketinê ji modelê re çiqas girîng in dema ku kodkirin ji bo her nîşanek diyar têne afirandin. Mînakî, "ew" cînavek gelemperî ye, pir caran ji bo heywanan dema ku zayenda wan nayê zanîn tê bikar anîn. Mekanîzmayek baldariyê dê bihêle ku modelek veguherîner diyar bike ku di çarçoveyek heyî de "ew" vedibêje dûpişkek, ji ber ku ew dikare hemî peyvên têkildar di hevoka têketinê de lêkolîn bike.

Mekanîzmayek baldariyê dikare bi sê awayên cûda were bikar anîn: encoder-to-decoder, encoder-tenê, tenê dekoder-tenê.

Bala şîfreker-dekoder dihêle ku dekoder rêzikên têketinê bihesibîne dema ku hilberek çêdike, dema ku mekanîzmayên balê tenê şîfreker û dekoder-tenê dihêle ku tor bi rêzê ve hemî beşên rêzikên berê û yên niha bihesibînin.

Avakirina mekanîzmaya baldariyê dikare li pênc gavan were dabeş kirin:

  1. Ji bo hemî dewletên şîfreker hesabek xalek.
  2. Hesabkirina giraniya baldariyê
  3. Vektorên kontekstê hesabkirin
  4. Nûvekirina vektora kontekstê bi derketina gava berê ya berê
  5. Hilberîna Hilbera Bi Dekoderê

Gava yekem ev e ku dekoder ji bo hemî dewletên şîfreker jimareyek hesab bike. Ev bi perwerdekirina tora dekoderê, ku tora neuralî ya bingehîn a feed-pêşverû ye, tê kirin. Dema ku dekoder li ser peyva yekem di rêza têketinê de tê perwerde kirin, hêj rewşek hundurîn/veşartî nehatiye afirandin, ji ber vê yekê rewşa paşîn a şîfrekerê bi gelemperî wekî rewşa berê ya dekoderê tê bikar anîn.

Ji bo ku giraniya baldariyê were hesibandin, fonksiyonek softmax tê bikar anîn da ku ji bo giraniyên baldariyê dabeşek îhtîmalî çêbike.

Dema ku giraniyên baldariyê hatin hesibandin, pêdivî ye ku vektora çarçoveyê were hesibandin. Ev ji bo her gavê bi zêdekirina giraniya baldariyê û rewşa veşartî bi hev re tê kirin.

Piştî ku vektora kontekstê tê hesab kirin, ew li kêleka peyva ku di gava berê de hatî hilberandin tê bikar anîn da ku peyva din di rêza derketinê de çêbike. Ji ber ku dekoder derencama berê tune ku di gava yekem de behs bike, li şûna wê nîşanek taybetî ya "destpêk" tê bikar anîn.

Cûdahî di navbera Transformer & RNN / LSTMs de

Werin em zû hin cûdahiyên di navbera RNN û LSTMs de veşêrin.

RNN têketinan bi dû hev dipêçe, dema ku vektorek rewşa veşartî dema ku ew di nav torê de digerin ji hêla peyvên têketinê ve tê parastin û guhertin. Dewletên veşartî yên RNN bi gelemperî di derbarê têketinên berê de agahdariya têkildar pir hindik dihewîne. Têketinên nû bi gelemperî rewşa heyî dinivîsin, ku dibe sedema windabûna agahdariyê û bi demê re performansê xirab dike.

Berevajî vê, modelên veguherîner tevahiya rêzika têketinê bi yekcarî pêvajoyê dikin. Mekanîzmaya baldariyê dihêle ku her peyva derketinê ji hêla her ketin û rewşa veşartî ve were agahdar kirin, û torê ji bo perçeyên dirêj ên nivîsê pêbawertir dike.

LSTM guhertoya guhertoya RNN-ê ne, ku ji bo rêgirtina rêzikên têketinê yên dirêjtir têne rêve kirin. Mîmariya LSTM avahiyek bi navê "derî", bi "dergehên têketinê", "dergehên derketinê", û "dergehên jibîrkirinê" bikar tîne. Sêwirana dergeh bi windabûna agahdariya hevpar a modelên RNN re mijûl dibe. Daneyên hîn jî bi rêz têne hilberandin, û sêwirana dûbare ya mîmariyê perwerdekirina modelên LSTM bi karanîna hesabkirina paralel dijwar dike, û dema perwerdehiyê bi tevahî dirêjtir dike.

Endezyarên LSTM bi gelemperî mekanîzmayên baldariyê li torê zêde dikin, ku dihat zanîn ku performansa modelê baştir dike. Lêbelê, di dawiyê de hate kifş kirin ku mekanîzmaya baldariyê tenê rastbûn çêtir dike. Ev vedîtin rê li ber afirandina torên transformatorê vedike ku bi saya GPU-yan mekanîzmayên balê û hesabkirina paralel bikar tînin.

Blogger û bernameçêkerê ku di nav de pispor e Fêrbûna Machine û Fêrbûna Kûr mijarên. Daniel hêvî dike ku alîkariya kesên din bike ku hêza AI-ê ji bo başiya civakî bikar bînin.