Stumm Wat sinn RNNs an LSTMs am Deep Learning? - Unite.AI
Connect mat eis

AI 101

Wat sinn RNNs an LSTMs am Deep Learning?

mm
aktualiséiert on

Vill vun den beandrockendsten Fortschrëtter an der natierlecher Sproochveraarbechtung an AI Chatbots ginn duerch gedriwwen Widderhuelend Neural Netzwierker (RNNs) a Long Short-Term Memory (LSTM) Netzwierker. RNNs an LSTMs si speziell neural Netzwierkarchitekturen déi fäeg sinn sequentiell Daten ze veraarbechten, Daten wou chronologesch Uerdnung wichteg ass. LSTM sinn wesentlech verbessert Versioune vun RNNs, kapabel fir méi laang Sequenzen vun Daten ze interpretéieren. Loosst eis kucken wéi RNNs an LSTMS strukturéiert sinn a wéi se d'Schafung vun raffinéierte natierleche Sproochveraarbechtungssystemer erméiglechen.

Wat sinn Feed-Forward Neural Netzwierker?

Also ier mir schwätzen iwwer wéi laang Kuerzfristeg Memory (LSTM) a Convolutional Neural Networks (CNN) funktionnéieren, sollte mir d'Format vun engem neurale Netzwierk am Allgemengen diskutéieren.

En neuralt Netzwierk ass geduecht fir Daten z'ënnersichen an relevant Mustere ze léieren, sou datt dës Mustere kënnen op aner Daten applizéiert ginn an nei Donnéeën klasséiert kënne ginn. Neural Netzwierker ginn an dräi Sektiounen opgedeelt: eng Inputschicht, eng verstoppte Schicht (oder verschidde verstoppte Schichten), an eng Ausgangsschicht.

D'Inputschicht ass dat wat d'Donnéeën an dat neuralt Netzwierk ophëlt, während déi verstoppte Schichten d'Muster an den Daten léieren. Déi verstoppte Schichten am Dataset si mat den Input- an Outputschichten verbonne mat "Gewichte" a "Basen", déi just Viraussetzunge sinn wéi d'Datepunkte matenee verbonne sinn. Dës Gewiichter ginn während Training ugepasst. Wéi d'Netzwierk trainéiert, ginn d'Erkenntnisser vum Modell iwwer d'Trainingsdaten (d'Ausgangswäerter) mat den aktuellen Trainingslabelen verglach. Am Laf vum Training soll d'Netzwierk (hoffentlech) méi genee ginn fir d'Bezéiungen tëscht Datenpunkten virauszesoen, sou datt et nei Datepunkte genee klassifizéiere kann. Deep neural Netzwierker sinn Netzwierker déi méi Schichten an der Mëtt / méi verstoppte Schichten hunn. Wat méi verstoppte Schichten a méi Neuronen / Noden de Modell huet, dest besser kann de Modell Mustere an den Daten erkennen.

Regelméisseg, feed-forward neural Netzwierker, wéi déi, déi ech uewen beschriwwen hunn, ginn dacks "dicht neural Netzwierker" genannt. Dës dichte neural Netzwierker si kombinéiert mat verschiddene Netzwierkarchitekturen déi spezialiséiert sinn fir verschidden Aarte vun Daten ze interpretéieren.

Wat sinn RNNs (Recurrent Neural Networks)?

Widderhuelend Neural Netzwierker huelen den allgemenge Prinzip vu feed-forward neural Netzwierker an erméiglechen se sequentiell Daten duerch gëtt dem Modell eng intern Erënnerung. Den "Recurrent" Deel vum RNN Numm kënnt aus der Tatsaach datt d'Input an d'Output Loop. Wann d'Ausgab vum Netz produzéiert gëtt, gëtt den Ausgang kopéiert an zréck an d'Netz als Input. Wann Dir eng Entscheedung maacht, ginn net nëmmen den aktuellen Input an Output analyséiert, awer de fréiere Input gëtt och berücksichtegt. Fir dat anescht auszedrécken, wann den initialen Input fir d'Netzwierk X ass an den Ausgang H ass, ginn souwuel H an X1 (den nächsten Input an der Datesequenz) an d'Netz gefüttert fir déi nächst Léierronn. Op dës Manéier gëtt de Kontext vun den Donnéeën (déi viregt Inputen) als Netzzich bewahrt.

D'Resultat vun dëser Architektur ass datt RNNs fäeg sinn sequentiell Daten ze handhaben. Wéi och ëmmer, RNNs leiden ënner e puer Probleemer. RNNs leiden ënner der Verschwannen Gradient an explodéierend Gradientproblemer.

D'Längt vun de Sequenzen déi en RNN interpretéiere kann sinn zimlech limitéiert, besonnesch am Verglach mat LSTMs.

Wat sinn LSTMs (Long Short-Term Memory Networks)?

Long Short-Term Memory Netzwierker kënnen als Verlängerunge vun RNNs ugesi ginn, nach eng Kéier d'Konzept applizéieren fir de Kontext vun Inputen ze erhalen. Wéi och ëmmer, LSTMs goufen op verschidde wichteg Weeër geännert, déi et hinnen erlaben vergaangen Donnéeën mat superieure Methoden ze interpretéieren. D'Ännerungen, déi u LSTMs gemaach hunn, behandelen de verschwannende Gradientproblem an erlaben LSTMs vill méi laang Inputsequenzen ze berücksichtegen.

LSTM Modeller sinn aus dräi verschidde Komponenten, oder Paarte. Et gëtt eng Input Paart, eng Ausgangspaart an e Vergiess Gate. Vill wéi RNNs, huelen LSTMs Inputen aus dem viregten Zäitschrëtt berücksichtegt wann Dir d'Erënnerung vum Modell an d'Inputgewichte ännert. Den Input Gate mécht Entscheedungen iwwer wéi eng Wäerter wichteg sinn a sollen duerch de Modell lassgelooss ginn. Eng Sigmoid Funktioun gëtt am Input Gate benotzt, wat Bestëmmunge mécht iwwer wéi eng Wäerter duerch dat widderhuelend Netzwierk weidergeleet ginn. Null fällt de Wäert erof, während 1 et behält. Eng TanH Funktioun gëtt hei och benotzt, déi entscheet wéi wichteg fir de Modell d'Input Wäerter sinn, rangéiert vun -1 bis 1.

Nodeems den aktuellen Input an de Gedächtniszoustand berücksichtegt sinn, entscheet den Ausgangspaart wéi eng Wäerter op déi nächst Zäitschrëtt gedréckt ginn. Am Ausgangspaart ginn d'Wäerter analyséiert an eng Wichtegkeet vun -1 bis 1 zougewisen. Dëst reguléiert d'Donnéeën ier se op déi nächst Zäit-Schrëtt-Berechnung weidergefouert ginn. Schlussendlech ass d'Aarbecht vum Vergiesspaart Informatioun ze falen, déi de Modell onnéideg hält fir eng Entscheedung iwwer d'Natur vun den Inputwäerter ze huelen. D'Vergiessenpaart benotzt eng Sigmoidfunktioun op de Wäerter, erausginn Zuelen tëscht 0 (vergiess dëst) an 1 (behalen dëst).

En LSTM neuralt Netzwierk ass aus béide speziellen LSTM Schichten gemaach, déi sequentiell Wuertdaten interpretéiere kënnen an déi dicht verbonne wéi déi hei uewen beschriwwen. Wann d'Donnéeën duerch d'LSTM Schichten bewegt sinn, geet et an déi dicht verbonne Schichten weider.

Blogger a Programméierer mat Spezialitéiten am Machine Learning an Deep Learning Themen. Den Daniel hofft anerer ze hëllefen d'Kraaft vun der AI fir sozial Gutt ze benotzen.