stubs Kas ir RNN un LSTM dziļajā apmācībā? - Apvienojieties.AI
Savienoties ar mums
AI meistarklase:

AI 101

Kas ir RNN un LSTM dziļajā apmācībā?

mm
Atjaunināts on

Daudzus no iespaidīgākajiem sasniegumiem dabiskās valodas apstrādē un AI tērzēšanas robotos virza Atkārtoti neironu tīkli (RNN) un ilgtermiņa īstermiņa atmiņas (LSTM) tīkli. RNN un LSTM ir īpašas neironu tīklu arhitektūras, kas spēj apstrādāt secīgus datus, datus, kuriem ir nozīme hronoloģiskai secībai. LSTM ir būtiski uzlabotas RNN versijas, kas spēj interpretēt garākas datu secības. Apskatīsim, kā RNN un LSTMS ir strukturēti un kā tie ļauj izveidot sarežģītas dabiskās valodas apstrādes sistēmas.

Kas ir uz priekšu vērstie neironu tīkli?

Tātad, pirms mēs runājam par to, kā darbojas ilgtermiņa īstermiņa atmiņa (LSTM) un konvolucionālie neironu tīkli (CNN), mums vajadzētu apspriest neironu tīkla formātu kopumā.

Neironu tīkls ir paredzēts datu pārbaudei un attiecīgo modeļu apguvei, lai šos modeļus varētu piemērot citiem datiem un klasificētu jaunus datus. Neironu tīkli ir sadalīti trīs daļās: ievades slānis, slēptais slānis (vai vairāki slēptie slāņi) un izvades slānis.

Ievades slānis ir tas, kas ievada datus neironu tīklā, savukārt slēptie slāņi apgūst datu modeļus. Datu kopas slēptie slāņi ir savienoti ar ievades un izvades slāņiem, izmantojot “svarus” un “novirzes”, kas ir tikai pieņēmumi par to, kā datu punkti ir saistīti viens ar otru. Šie svari tiek pielāgoti treniņa laikā. Tīklam trenējoties, modeļa minējumi par apmācības datiem (izvades vērtībām) tiek salīdzināti ar faktiskajām apmācības etiķetēm. Apmācības laikā tīklam vajadzētu (cerams) kļūt precīzākam, prognozējot attiecības starp datu punktiem, lai tas varētu precīzi klasificēt jaunus datu punktus. Dziļie neironu tīkli ir tīkli, kuru vidū ir vairāk slāņu/vairāk slēptu slāņu. Jo vairāk slēpto slāņu un vairāk neironu/mezglu ir modelī, jo labāk modelis var atpazīt datu modeļus.

Regulārus, uz priekšu vērstus neironu tīklus, piemēram, iepriekš aprakstītos, bieži sauc par “blīviem neironu tīkliem”. Šie blīvie neironu tīkli ir apvienoti ar dažādām tīkla arhitektūrām, kas specializējas dažāda veida datu interpretācijā.

Kas ir RNN (atkārtoti neironu tīkli)?

Atkārtoti neironu tīkli izmanto vispārējo virzības neironu tīklu principu un ļauj tiem apstrādāt secīgus datus, izmantojot piešķirot modelim iekšējo atmiņu. RNN nosaukuma daļa “Atkārtota” nāk no ieejas un izejas cilpas. Kad tīkla izvade ir izveidota, izvade tiek kopēta un atgriezta tīklā kā ievade. Pieņemot lēmumu, tiek analizēta ne tikai pašreizējā ievade un izvade, bet tiek ņemta vērā arī iepriekšējā ievade. Citiem vārdiem sakot, ja tīkla sākotnējā ievade ir X un izvade ir H, gan H, gan X1 (nākamā ievade datu secībā) tiek ievadīti tīklā nākamajai mācīšanās kārtai. Tādā veidā datu konteksts (iepriekšējie ievades dati) tiek saglabāti kā tīkla vilcieni.

Šīs arhitektūras rezultāts ir tāds, ka RNN var apstrādāt secīgus datus. Tomēr RNN cieš no pāris problēmām. RNN cieš no izzūdošs gradients un sprādzienbīstamas gradienta problēmas.

Sekvenču garums, ko RNN var interpretēt, ir diezgan ierobežots, īpaši salīdzinājumā ar LSTM.

Kas ir LSTM (ilgtermiņa īstermiņa atmiņas tīkli)?

Ilgtermiņa īstermiņa atmiņas tīklus var uzskatīt par RNN paplašinājumiem, vēlreiz piemērojot ievades konteksta saglabāšanas koncepciju. Tomēr LSTM ir modificēti vairākos svarīgos veidos, kas ļauj tiem interpretēt pagātnes datus ar labākām metodēm. LSTM veiktās izmaiņas risina izzūdošo gradienta problēmu un ļauj LSTM apsvērt daudz garākas ievades secības.

LSTM modeļi sastāv no trīs dažādas sastāvdaļas vai vārti. Tur ir an ieejas vārti, izejas vārti un aizmirstības vārti. Līdzīgi kā RNN, LSTM, mainot modeļa atmiņu un ievades svaru, ņem vērā ievadi no iepriekšējā laika posma. Ievades vārti pieņem lēmumus par to, kuras vērtības ir svarīgas un kuras ir jālaiž cauri modelim. Ievades vārtos tiek izmantota sigmoīda funkcija, kas nosaka, kuras vērtības nosūtīt caur atkārtoto tīklu. Nulle samazina vērtību, bet 1 to saglabā. Šeit tiek izmantota arī funkcija TanH, kas nosaka, cik svarīgas modelim ir ievades vērtības, sākot no -1 līdz 1.

Pēc tam, kad ir ņemtas vērā pašreizējās ieejas un atmiņas stāvoklis, izvades vārti izlemj, kuras vērtības pārsūtīt uz nākamo laika posmu. Izvades vārtos vērtības tiek analizētas un tām tiek piešķirta nozīme no -1 līdz 1. Tas regulē datus, pirms tos pāriet uz nākamo laika soļa aprēķinu. Visbeidzot, aizmirstības vārtu uzdevums ir izmest informāciju, ko modelis uzskata par nevajadzīgu, lai pieņemtu lēmumu par ievades vērtību raksturu. Aizmirstības vārti vērtībām izmanto sigmoīdu funkciju, izvadot skaitļus no 0 (aizmirstiet šo) līdz 1 (saglabājiet šo).

LSTM neironu tīkls ir izveidots gan no īpašiem LSTM slāņiem, kas var interpretēt secīgus vārdu datus, gan no blīvi savienotiem, piemēram, iepriekš aprakstītajiem. Kad dati tiek pārvietoti pa LSTM slāņiem, tie nonāk blīvi savienotajos slāņos.

Emuāru autors un programmētājs ar specialitātēm Mašīnu mācīšana un Dziļa mācīšanās tēmas. Daniels cer palīdzēt citiem izmantot mākslīgā intelekta spēku sociālā labuma gūšanai.