- Terminologija (A do D)
- Kontrola sposobnosti AI
- AI Ops
- albumacije
- Performanse imovine
- Autokoder
- Širenje unatrag
- Bayesov teorem
- Big Podaci
- Chatbot: Vodič za početnike
- Računalno razmišljanje
- računalni vid
- Matrica zabune
- Konvolucionarne neuronske mreže
- Cybersecurity
- Data Fabric
- Pripovijedanje podataka
- Znanost podatke
- Skladištenje podataka
- Stablo odlučivanja
- Deepfakes
- Duboko učenje
- Učenje dubokog pojačanja
- DevOps
- DevSecOps
- Difuzijski modeli
- Digitalni blizanci
- Smanjenje dimenzija
- Terminologija (E do K)
- Edge AI
- Emocija AI
- Učenje ansambla
- Etičko hakiranje
- ETL
- Objašnjiva AI
- Federalno učenje
- FinOps
- Generativna AI
- Generativna savjetodavna mreža
- Generativno protiv diskriminacije
- Pojačavanje gradijenta
- Gradijentni silazak
- Malokratno učenje
- Klasifikacija slika
- IT operacije (ITOPs)
- Automatizacija incidenata
- Inženjering utjecaja
- Klasteriranje K-sredstava
- K-najbliži susjedi
- Terminologija (L do Q)
- Terminologija (R do Z)
- Učenje ojačanja
- Odgovorna umjetna inteligencija
- RLHF
- Robotska automatizacija procesa
- Strukturirani protiv nestrukturiranih
- Analiza osjećaja
- Nadzirani vs nenadzirani
- Podrška vektorskih strojeva
- Sintetički podaci
- Sintetički mediji
- Klasifikacija teksta
- TinyML
- Prijenos učenja
- Transformatorske neuronske mreže
- Turingov test
- Pretraživanje sličnosti vektora
AI 101
Što su RNN i LSTM u dubokom učenju?
Sadržaj
Mnogi od najimpresivnijih napredaka u obradi prirodnog jezika i AI chatbotovima potaknuti su Ponavljajuće neuronske mreže (RNN) i mreže dugog kratkoročnog pamćenja (LSTM). RNN-ovi i LSTM-ovi su posebne arhitekture neuronskih mreža koje mogu obraditi sekvencijalne podatke, podatke kod kojih je bitan kronološki poredak. LSTM-ovi su bitno poboljšane verzije RNN-ova, sposoban interpretirati duže nizove podataka. Pogledajmo kako su RNN i LSTMS strukturirani i kako omogućuju stvaranje sofisticiranih sustava za obradu prirodnog jezika.
Što su Feed-Forward neuronske mreže?
Dakle, prije nego što govorimo o tome kako funkcioniraju dugotrajno kratkoročno pamćenje (LSTM) i konvolucijske neuronske mreže (CNN), trebali bismo razgovarati o formatu neuronske mreže općenito.
Neuronska mreža namijenjena je ispitivanju podataka i učenju relevantnih obrazaca, tako da se ti obrasci mogu primijeniti na druge podatke i da se novi podaci mogu klasificirati. Neuronske mreže su podijeljene u tri dijela: ulazni sloj, skriveni sloj (ili više skrivenih slojeva) i izlazni sloj.
Ulazni sloj je ono što prima podatke u neuronsku mrežu, dok su skriveni slojevi ono što uči obrasce u podacima. Skriveni slojevi u skupu podataka povezani su s ulaznim i izlaznim slojevima "težinama" i "pristranostima" koje su samo pretpostavke o tome kako su podatkovne točke povezane jedna s drugom. Ove težine se prilagođavaju tijekom treninga. Dok se mreža trenira, pretpostavke modela o podacima obuke (izlazne vrijednosti) uspoređuju se sa stvarnim oznakama obuke. Tijekom obuke, mreža bi (nadajmo se) trebala postati točnija u predviđanju odnosa između podatkovnih točaka, tako da može točno klasificirati nove podatkovne točke. Duboke neuronske mreže su mreže koje imaju više slojeva u sredini/više skrivenih slojeva. Što više skrivenih slojeva i više neurona/čvorova model ima, to bolje model može prepoznati uzorke u podacima.
Uobičajene, feed-forward neuronske mreže, poput onih koje sam gore opisao, često se nazivaju "guste neuronske mreže". Ove guste neuronske mreže kombinirane su s različitim mrežnim arhitekturama koje su specijalizirane za tumačenje različitih vrsta podataka.
Što su RNN (rekurentne neuronske mreže)?
Rekurentne neuronske mreže preuzimaju opće načelo neuronskih mreža s povratnim prijenosom i omogućuju im rukovanje sekvencijalnim podacima putem dajući modelu unutarnju memoriju. "Rekurentni" dio naziva RNN dolazi od činjenice da su ulaz i izlaz petlje. Nakon što se proizvede izlaz mreže, izlaz se kopira i vraća u mrežu kao ulaz. Prilikom donošenja odluke ne analiziraju se samo trenutni ulaz i izlaz, već se uzima u obzir i prethodni unos. Drugim riječima, ako je početni ulaz za mrežu X, a izlaz H, i H i X1 (sljedeći ulaz u nizu podataka) šalju se u mrežu za sljedeći krug učenja. Na taj način, kontekst podataka (prethodni ulazi) je sačuvan dok mreža trenira.
Rezultat ove arhitekture je da su RNN-ovi sposobni za rukovanje sekvencijalnim podacima. Međutim, RNN-ovi pate od nekoliko problema. RNN-ovi pate od problemi s nestajućim gradijentom i eksplozivnim gradijentom.
Duljina sekvenci koje RNN može interpretirati prilično je ograničena, posebno u usporedbi s LSTM-ovima.
Što su LSTM (Mreže dugotrajne kratkoročne memorije)?
Mreže dugotrajne kratkoročne memorije mogu se smatrati ekstenzijama RNN-ova, još jednom primjenjujući koncept očuvanja konteksta ulaza. Međutim, LSTM-ovi su modificirani na nekoliko važnih načina koji im omogućuju tumačenje prošlih podataka superiornim metodama. Promjene napravljene na LSTM-ovima bave se problemom nestajanja gradijenta i omogućuju LSTM-ovima da razmatraju mnogo duže ulazne sekvence.
LSTM modeli se sastoje od tri različite komponente ili vrata. postoji ulazna vrata, izlazna vrata i zaboravljena vrata. Slično kao i RNN-ovi, LSTM-ovi uzimaju u obzir ulaze iz prethodnog vremenskog koraka kada modificiraju memoriju modela i težine ulaza. Ulazna vrata donose odluke o tome koje su vrijednosti važne i koje treba propustiti kroz model. U ulaznim vratima koristi se sigmoidna funkcija, koja određuje koje vrijednosti proslijediti kroz rekurentnu mrežu. Nula odbacuje vrijednost, dok je 1 zadržava. Ovdje se također koristi funkcija TanH, koja odlučuje koliko su ulazne vrijednosti važne za model, u rasponu od -1 do 1.
Nakon što se uračunaju trenutni ulazi i stanje memorije, izlazna vrata odlučuju koje će vrijednosti prenijeti na sljedeći vremenski korak. U izlaznim vratima, vrijednosti se analiziraju i dodjeljuje im se važnost u rasponu od -1 do 1. Ovo regulira podatke prije nego što se prenesu na sljedeći izračun vremenskog koraka. Konačno, posao zaboravljenih vrata je ispuštanje informacija koje model smatra nepotrebnim za donošenje odluke o prirodi ulaznih vrijednosti. Vrata zaboravljanja koriste sigmoidnu funkciju na vrijednostima, izlazeći brojeve između 0 (zaboravi ovo) i 1 (zadrži ovo).
LSTM neuronska mreža sastavljena je od posebnih LSTM slojeva koji mogu interpretirati sekvencijalne podatke riječi i gusto povezanih kao što su gore opisani. Jednom kada podaci prođu kroz LSTM slojeve, nastavljaju se u gusto povezane slojeve.
Bloger i programer sa specijalnošću u Strojno učenje i Duboko učenje temama. Daniel se nada pomoći drugima da iskoriste snagu umjetne inteligencije za društveno dobro.