taló Què són els RNN i els LSTM en aprenentatge profund? - Unite.AI
Connecteu-vos amb nosaltres
Classe magistral d'IA:

IA 101

Què són els RNN i els LSTM en aprenentatge profund?

mm
actualitzat on

Molts dels avenços més impressionants en el processament del llenguatge natural i els chatbots d'IA estan impulsats per Xarxes neuronals recurrents (RNN) i xarxes de memòria a curt termini (LSTM). RNN i LSTM són arquitectures especials de xarxes neuronals que són capaços de processar dades seqüencials, dades on l'ordre cronològic importa. Els LSTM ho són versions essencialment millorades de RNN, capaç d'interpretar seqüències de dades més llargues. Fem una ullada a com s'estructuren els RNN i LSTMS i com permeten la creació de sistemes sofisticats de processament del llenguatge natural.

Què són les xarxes neuronals de feed-forward?

Per tant, abans de parlar de com funcionen la memòria a llarg termini (LSTM) i les xarxes neuronals convolucionals (CNN), hauríem de discutir el format d'una xarxa neuronal en general.

Una xarxa neuronal està pensada per examinar dades i aprendre patrons rellevants, de manera que aquests patrons es puguin aplicar a altres dades i es puguin classificar noves dades. Les xarxes neuronals es divideixen en tres seccions: una capa d'entrada, una capa oculta (o múltiples capes ocultes) i una capa de sortida.

La capa d'entrada és la que recull les dades a la xarxa neuronal, mentre que les capes ocultes són les que aprenen els patrons de les dades. Les capes ocultes del conjunt de dades estan connectades a les capes d'entrada i de sortida mitjançant "pesos" i "biaixos", que són només suposicions de com es relacionen els punts de dades entre si. Aquests pesos s'ajusten durant l'entrenament. A mesura que la xarxa s'entrena, les suposicions del model sobre les dades d'entrenament (els valors de sortida) es comparen amb les etiquetes d'entrenament reals. Durant el curs de la formació, la xarxa hauria de ser més precisa a l'hora de predir les relacions entre els punts de dades, de manera que pugui classificar amb precisió els nous punts de dades. Les xarxes neuronals profundes són xarxes que tenen més capes al mig/capes més ocultes. Com més capes ocultes i més neurones/nodes tingui el model, millor podrà reconèixer els patrons de les dades.

Les xarxes neuronals regulars i anticipades, com les que he descrit anteriorment, sovint s'anomenen "xarxes neuronals denses". Aquestes xarxes neuronals denses es combinen amb diferents arquitectures de xarxa especialitzades a interpretar diferents tipus de dades.

Què són les RNN (Xarxes Neuronals Recurrents)?

Les xarxes neuronals recurrents prenen el principi general de les xarxes neuronals d'alimentació anticipada i els permeten gestionar dades seqüencials mitjançant donant al model una memòria interna. La part "recurrent" del nom RNN prové del fet que el bucle d'entrada i sortida. Un cop produïda la sortida de la xarxa, la sortida es copia i es retorna a la xarxa com a entrada. Quan es pren una decisió, no només s'analitzen l'entrada i la sortida actuals, sinó que també es té en compte l'entrada anterior. Per dir-ho d'una altra manera, si l'entrada inicial de la xarxa és X i la sortida és H, tant H com X1 (la següent entrada de la seqüència de dades) s'alimenten a la xarxa per a la següent ronda d'aprenentatge. D'aquesta manera, el context de les dades (les entrades anteriors) es conserva a mesura que la xarxa trens.

El resultat d'aquesta arquitectura és que els RNN són capaços de gestionar dades seqüencials. Tanmateix, els RNN pateixen un parell de problemes. Els RNN pateixen problemes de gradient desapareixent i gradient explosiu.

La longitud de les seqüències que pot interpretar un RNN és ​​força limitada, especialment en comparació amb els LSTM.

Què són les LSTM (Xarxes de memòria a llarg termini)?

Les xarxes de memòria a curt termini es poden considerar extensions de les RNN, aplicant una vegada més el concepte de preservar el context de les entrades. Tanmateix, els LSTM s'han modificat de diverses maneres importants que els permeten interpretar dades anteriors amb mètodes superiors. Les alteracions fetes als LSTM tracten el problema del gradient de desaparició i permeten als LSTM considerar seqüències d'entrada molt més llargues.

Els models LSTM estan formats per tres components diferents, o portes. Hi ha un porta d'entrada, una porta de sortida i una porta oblidada. Igual que els RNN, els LSTM tenen en compte les entrades del pas de temps anterior quan es modifiquen la memòria i els pesos d'entrada del model. La porta d'entrada pren decisions sobre quins valors són importants i s'han de deixar passar pel model. S'utilitza una funció sigmoide a la porta d'entrada, que determina quins valors s'han de transmetre a través de la xarxa recurrent. Zero fa caure el valor, mentre que 1 el conserva. Aquí també s'utilitza una funció TanH, que decideix la importància dels valors d'entrada per al model, que van de -1 a 1.

Després de tenir en compte les entrades actuals i l'estat de la memòria, la porta de sortida decideix quins valors s'han d'enviar al següent pas de temps. A la porta de sortida, els valors s'analitzen i s'assigna una importància que va de -1 a 1. Això regula les dades abans de passar al següent càlcul de pas de temps. Finalment, la feina de la porta oblida és deixar anar la informació que el model considera innecessària per prendre una decisió sobre la naturalesa dels valors d'entrada. La porta oblida utilitza una funció sigmoide en els valors, que emet nombres entre 0 (oblida't) i 1 (conserva això).

Una xarxa neuronal LSTM està feta de capes LSTM especials que poden interpretar dades de paraules seqüencials i densament connectades com les descrites anteriorment. Una vegada que les dades es mouen a través de les capes LSTM, es dirigeixen a les capes densament connectades.

Blogger i programador amb especialitats en Aprenentatge automàtic i Aprenentatge profund temes. Daniel espera ajudar els altres a utilitzar el poder de la IA per al bé social.