škrbina Kaj so RNN in LSTM v poglobljenem učenju? - Združi se.AI
Povežite se z nami

AI 101

Kaj so RNN in LSTM v globokem učenju?

mm
Posodobljeno on

Veliko najbolj impresivnih dosežkov na področju obdelave naravnega jezika in klepetalnih robotov AI je posledica Ponavljajoče se nevronske mreže (RNN) in omrežja dolgotrajnega kratkoročnega spomina (LSTM). RNN in LSTM so posebne arhitekture nevronskih mrež, ki lahko obdelujejo zaporedne podatke, podatke, pri katerih je pomembno kronološko razvrščanje. LSTM so bistveno izboljšane različice RNN-jev, sposoben interpretirati daljša zaporedja podatkov. Oglejmo si, kako so strukturirani RNN in LSTMS in kako omogočajo ustvarjanje sofisticiranih sistemov za obdelavo naravnega jezika.

Kaj so Feed-Forward nevronske mreže?

Preden torej govorimo o delovanju dolgotrajnega kratkoročnega spomina (LSTM) in konvolucijskih nevronskih mrež (CNN), bi morali razpravljati o formatu nevronske mreže na splošno.

Nevronska mreža je namenjena pregledovanju podatkov in učenju ustreznih vzorcev, tako da je mogoče te vzorce uporabiti za druge podatke in nove podatke razvrstiti. Nevronske mreže so razdeljene na tri dele: vhodni sloj, skriti sloj (ali več skritih slojev) in izhodni sloj.

Vhodna plast je tista, ki sprejme podatke v nevronsko mrežo, medtem ko so skrite plasti tiste, ki se naučijo vzorcev v podatkih. Skrite plasti v naboru podatkov so povezane z vhodnimi in izhodnimi plastmi z »utežmi« in »pristranskostmi«, ki so le predpostavke o tem, kako so podatkovne točke povezane med seboj. Te uteži se prilagajajo med treningom. Ko se omrežje usposablja, se ugibanja modela o podatkih o usposabljanju (izhodnih vrednostih) primerjajo z dejanskimi oznakami za usposabljanje. Med potekom usposabljanja bi moralo omrežje (upajmo) postati natančnejše pri napovedovanju odnosov med podatkovnimi točkami, tako da lahko natančno razvrsti nove podatkovne točke. Globoke nevronske mreže so mreže, ki imajo več plasti v sredini/bolj skrite plasti. Več skritih plasti in več nevronov/vozlišč kot ima model, bolje lahko model prepozna vzorce v podatkih.

Običajne nevronske mreže s podajanjem naprej, kot so tiste, ki sem jih opisal zgoraj, se pogosto imenujejo "goste nevronske mreže". Te goste nevronske mreže so združene z različnimi omrežnimi arhitekturami, ki so specializirane za interpretacijo različnih vrst podatkov.

Kaj so RNN (ponavljajoče se nevronske mreže)?

Ponavljajoče se nevronske mreže upoštevajo splošno načelo nevronskih mrež s posredovanjem podatkov in jim omogočajo obdelavo zaporednih podatkov tako, da daje modelu notranji pomnilnik. »Ponavljajoči se« del imena RNN izhaja iz dejstva, da sta vhodna in izhodna zanka. Ko je izhod omrežja izdelan, se izhod kopira in vrne v omrežje kot vhod. Pri odločanju se ne analizira le trenutni vhod in izhod, temveč se upošteva tudi prejšnji vnos. Povedano drugače, če je začetni vhod za omrežje X in izhod H, sta H in X1 (naslednji vhod v zaporedju podatkov) podana v omrežje za naslednji krog učenja. Na ta način se kontekst podatkov (prejšnji vnosi) ohrani, ko se omrežje usmerja.

Rezultat te arhitekture je, da so RNN-ji sposobni ravnati z zaporednimi podatki. Vendar pa imajo RNN nekaj težav. RNN trpijo zaradi težave z izginjajočim gradientom in eksplozivnim gradientom.

Dolžina zaporedij, ki jih lahko RNN interpretira, je precej omejena, zlasti v primerjavi z LSTM.

Kaj so LSTM (omrežja dolgotrajnega kratkoročnega spomina)?

Omrežja dolgotrajnega kratkoročnega pomnilnika se lahko obravnavajo kot razširitve RNN, pri čemer se ponovno uporablja koncept ohranjanja konteksta vhodov. Vendar so bili LSTM spremenjeni na več pomembnih načinov, ki jim omogočajo interpretacijo preteklih podatkov z vrhunskimi metodami. Spremembe LSTM obravnavajo problem izginjajočega gradienta in omogočajo LSTM, da upoštevajo veliko daljša vhodna zaporedja.

Modeli LSTM so sestavljeni iz tri različne komponente ali vrata. Obstaja vhodna vrata, izhodna vrata in pozabljena vrata. Podobno kot RNN, LSTM upoštevajo vnose iz prejšnjega časovnega koraka, ko spreminjajo pomnilnik modela in uteži vnosa. Vhodna vrata sprejemajo odločitve o tem, katere vrednosti so pomembne in jih je treba prepustiti modelu. V vhodnih vratih se uporablja sigmoidna funkcija, ki določa, katere vrednosti je treba posredovati skozi ponavljajoče se omrežje. Nič vrednost opusti, 1 pa jo ohrani. Tu je uporabljena tudi funkcija TanH, ki odloča o tem, kako pomembne so vhodne vrednosti za model v razponu od -1 do 1.

Ko se upoštevajo trenutni vhodi in stanje pomnilnika, se izhodna vrata odločijo, katere vrednosti bodo potisnjene v naslednji časovni korak. V izhodnih vratih se vrednosti analizirajo in jim dodelijo pomembnost v razponu od -1 do 1. To uravnava podatke, preden se prenesejo v naslednji izračun časovnega koraka. Nazadnje je naloga pozabljenih vrat izpustiti informacije, za katere model meni, da niso potrebne za odločitev o naravi vhodnih vrednosti. Vrata za pozabo uporabljajo sigmoidno funkcijo na vrednostih in izpišejo števila med 0 (pozabi to) in 1 (ohrani to).

Nevronska mreža LSTM je sestavljena iz posebnih plasti LSTM, ki lahko interpretirajo zaporedne besedne podatke, in gosto povezanih, kot so opisane zgoraj. Ko se podatki premaknejo skozi plasti LSTM, nadaljujejo v gosto povezane plasti.

Bloger in programer s posebnostmi v strojno učenje in Globoko učenje teme. Daniel upa, da bo drugim pomagal uporabiti moč umetne inteligence za družbeno dobro.