škrbina Što su RNN i LSTM u dubokom učenju? - Ujedinite se.AI
Povežite se s nama
Majstorski tečaj umjetne inteligencije:

AI 101

Što su RNN i LSTM u dubokom učenju?

mm
Ažurirano on

Mnogi od najimpresivnijih napredaka u obradi prirodnog jezika i AI chatbotovima potaknuti su Ponavljajuće neuronske mreže (RNN) i mreže dugog kratkoročnog pamćenja (LSTM). RNN-ovi i LSTM-ovi su posebne arhitekture neuronskih mreža koje mogu obraditi sekvencijalne podatke, podatke kod kojih je bitan kronološki poredak. LSTM-ovi su bitno poboljšane verzije RNN-ova, sposoban interpretirati duže nizove podataka. Pogledajmo kako su RNN i LSTMS strukturirani i kako omogućuju stvaranje sofisticiranih sustava za obradu prirodnog jezika.

Što su Feed-Forward neuronske mreže?

Dakle, prije nego što govorimo o tome kako funkcioniraju dugotrajno kratkoročno pamćenje (LSTM) i konvolucijske neuronske mreže (CNN), trebali bismo razgovarati o formatu neuronske mreže općenito.

Neuronska mreža namijenjena je ispitivanju podataka i učenju relevantnih obrazaca, tako da se ti obrasci mogu primijeniti na druge podatke i da se novi podaci mogu klasificirati. Neuronske mreže su podijeljene u tri dijela: ulazni sloj, skriveni sloj (ili više skrivenih slojeva) i izlazni sloj.

Ulazni sloj je ono što prima podatke u neuronsku mrežu, dok su skriveni slojevi ono što uči obrasce u podacima. Skriveni slojevi u skupu podataka povezani su s ulaznim i izlaznim slojevima "težinama" i "pristranostima" koje su samo pretpostavke o tome kako su podatkovne točke povezane jedna s drugom. Ove težine se prilagođavaju tijekom treninga. Dok se mreža trenira, pretpostavke modela o podacima obuke (izlazne vrijednosti) uspoređuju se sa stvarnim oznakama obuke. Tijekom obuke, mreža bi (nadajmo se) trebala postati točnija u predviđanju odnosa između podatkovnih točaka, tako da može točno klasificirati nove podatkovne točke. Duboke neuronske mreže su mreže koje imaju više slojeva u sredini/više skrivenih slojeva. Što više skrivenih slojeva i više neurona/čvorova model ima, to bolje model može prepoznati uzorke u podacima.

Uobičajene, feed-forward neuronske mreže, poput onih koje sam gore opisao, često se nazivaju "guste neuronske mreže". Ove guste neuronske mreže kombinirane su s različitim mrežnim arhitekturama koje su specijalizirane za tumačenje različitih vrsta podataka.

Što su RNN (rekurentne neuronske mreže)?

Rekurentne neuronske mreže preuzimaju opće načelo neuronskih mreža s povratnim prijenosom i omogućuju im rukovanje sekvencijalnim podacima putem dajući modelu unutarnju memoriju. "Rekurentni" dio naziva RNN dolazi od činjenice da su ulaz i izlaz petlje. Nakon što se proizvede izlaz mreže, izlaz se kopira i vraća u mrežu kao ulaz. Prilikom donošenja odluke ne analiziraju se samo trenutni ulaz i izlaz, već se uzima u obzir i prethodni unos. Drugim riječima, ako je početni ulaz za mrežu X, a izlaz H, i H i X1 (sljedeći ulaz u nizu podataka) šalju se u mrežu za sljedeći krug učenja. Na taj način, kontekst podataka (prethodni ulazi) je sačuvan dok mreža trenira.

Rezultat ove arhitekture je da su RNN-ovi sposobni za rukovanje sekvencijalnim podacima. Međutim, RNN-ovi pate od nekoliko problema. RNN-ovi pate od problemi s nestajućim gradijentom i eksplozivnim gradijentom.

Duljina sekvenci koje RNN može interpretirati prilično je ograničena, posebno u usporedbi s LSTM-ovima.

Što su LSTM (Mreže dugotrajne kratkoročne memorije)?

Mreže dugotrajne kratkoročne memorije mogu se smatrati ekstenzijama RNN-ova, još jednom primjenjujući koncept očuvanja konteksta ulaza. Međutim, LSTM-ovi su modificirani na nekoliko važnih načina koji im omogućuju tumačenje prošlih podataka superiornim metodama. Promjene napravljene na LSTM-ovima bave se problemom nestajanja gradijenta i omogućuju LSTM-ovima da razmatraju mnogo duže ulazne sekvence.

LSTM modeli se sastoje od tri različite komponente ili vrata. postoji ulazna vrata, izlazna vrata i zaboravljena vrata. Slično kao i RNN-ovi, LSTM-ovi uzimaju u obzir ulaze iz prethodnog vremenskog koraka kada modificiraju memoriju modela i težine ulaza. Ulazna vrata donose odluke o tome koje su vrijednosti važne i koje treba propustiti kroz model. U ulaznim vratima koristi se sigmoidna funkcija, koja određuje koje vrijednosti proslijediti kroz rekurentnu mrežu. Nula odbacuje vrijednost, dok je 1 zadržava. Ovdje se također koristi funkcija TanH, koja odlučuje koliko su ulazne vrijednosti važne za model, u rasponu od -1 do 1.

Nakon što se uračunaju trenutni ulazi i stanje memorije, izlazna vrata odlučuju koje će vrijednosti prenijeti na sljedeći vremenski korak. U izlaznim vratima, vrijednosti se analiziraju i dodjeljuje im se važnost u rasponu od -1 do 1. Ovo regulira podatke prije nego što se prenesu na sljedeći izračun vremenskog koraka. Konačno, posao zaboravljenih vrata je ispuštanje informacija koje model smatra nepotrebnim za donošenje odluke o prirodi ulaznih vrijednosti. Vrata zaboravljanja koriste sigmoidnu funkciju na vrijednostima, izlazeći brojeve između 0 (zaboravi ovo) i 1 (zadrži ovo).

LSTM neuronska mreža sastavljena je od posebnih LSTM slojeva koji mogu interpretirati sekvencijalne podatke riječi i gusto povezanih kao što su gore opisani. Jednom kada podaci prođu kroz LSTM slojeve, nastavljaju se u gusto povezane slojeve.

Bloger i programer sa specijalnošću u Strojno učenje i Duboko učenje temama. Daniel se nada pomoći drugima da iskoriste snagu umjetne inteligencije za društveno dobro.