кочан Какво представляват RNN и LSTM в Deep Learning? - Обединете.AI
Свържете се с нас
AI майсторски клас:

AI 101 г

Какво представляват RNN и LSTM в Deep Learning?

mm
Обновено on

Много от най-впечатляващите постижения в обработката на естествен език и чат ботовете с изкуствен интелект се дължат на Повтарящи се невронни мрежи (RNN) и мрежи с дълга краткосрочна памет (LSTM). RNN и LSTM са специални архитектури на невронни мрежи, които могат да обработват последователни данни, данни, при които хронологичното подреждане има значение. LSTM са по същество подобрени версии на RNN, способни да интерпретират по-дълги поредици от данни. Нека да разгледаме как са структурирани RNN и LSTMS и как позволяват създаването на сложни системи за обработка на естествен език.

Какво представляват невронните мрежи за предаване напред?

Така че, преди да говорим за това как работят дългосрочната краткосрочна памет (LSTM) и конволюционните невронни мрежи (CNN), трябва да обсъдим формата на невронната мрежа като цяло.

Невронната мрежа е предназначена да изследва данни и да научава съответните модели, така че тези модели да могат да бъдат приложени към други данни и новите данни да могат да бъдат класифицирани. Невронните мрежи са разделени на три секции: входен слой, скрит слой (или множество скрити слоеве) и изходен слой.

Входният слой е това, което приема данните в невронната мрежа, докато скритите слоеве са това, което научава моделите в данните. Скритите слоеве в набора от данни са свързани с входните и изходните слоеве чрез „тегла“ и „отклонения“, които са само предположения за това как точките от данни са свързани една с друга. Тези тежести се коригират по време на тренировка. Докато мрежата се обучава, предположенията на модела за данните за обучение (изходните стойности) се сравняват с действителните етикети за обучение. По време на курса на обучение мрежата трябва (да се надяваме) да стане по-точна при прогнозиране на връзките между точките от данни, така че да може точно да класифицира нови точки от данни. Дълбоките невронни мрежи са мрежи, които имат повече слоеве в средата/повече скрити слоеве. Колкото повече скрити слоеве и повече неврони/възли има моделът, толкова по-добре моделът може да разпознае модели в данните.

Редовните невронни мрежи с подаване напред, като тези, които описах по-горе, често се наричат ​​„плътни невронни мрежи“. Тези плътни невронни мрежи се комбинират с различни мрежови архитектури, които са специализирани в интерпретирането на различни видове данни.

Какво представляват RNN (повтарящи се невронни мрежи)?

Повтарящите се невронни мрежи възприемат общия принцип на невронните мрежи с обратна връзка и им позволяват да обработват последователни данни чрез давайки на модела вътрешна памет. „Повтарящата се“ част от името на RNN идва от факта, че входът и изходът са циклични. След като изходът на мрежата бъде произведен, изходът се копира и се връща в мрежата като вход. При вземане на решение се анализират не само текущият вход и изход, но се взема предвид и предишният вход. Казано по друг начин, ако първоначалният вход за мрежата е X, а изходът е H, и H, и X1 (следващият вход в последователността от данни) се подават в мрежата за следващия кръг на обучение. По този начин контекстът на данните (предишните входове) се запазва, докато мрежата се обучава.

Резултатът от тази архитектура е, че RNN са способни да обработват последователни данни. RNN обаче страдат от няколко проблема. RNN страдат от проблеми с изчезващ градиент и експлодиращ градиент.

Дължината на последователностите, които RNN може да интерпретира, е доста ограничена, особено в сравнение с LSTM.

Какво представляват LSTM (мрежи за дългосрочна памет)?

Мрежите с дълга краткосрочна памет могат да се считат за разширения на RNN, като отново се прилага концепцията за запазване на контекста на входовете. Въпреки това, LSTM са модифицирани по няколко важни начина, които им позволяват да интерпретират минали данни с превъзходни методи. Промените, направени в LSTM, се справят с проблема с изчезващия градиент и позволяват на LSTM да разглеждат много по-дълги входни последователности.

Моделите LSTM се състоят от три различни компонента или порти. Има един входна врата, изходна врата и врата за забравяне. Подобно на RNN, LSTM вземат предвид входните данни от предишната времева стъпка, когато модифицират паметта на модела и теглата на входа. Входният портал взема решения за това кои стойности са важни и трябва да бъдат пропуснати през модела. Във входната врата се използва сигмоидна функция, която определя кои стойности да бъдат предадени през рекурентната мрежа. Нулата намалява стойността, докато 1 я запазва. Тук също се използва функция TanH, която решава колко важни за модела са входните стойности, вариращи от -1 до 1.

След като се отчетат текущите входове и състоянието на паметта, изходният гейт решава кои стойности да бъдат прехвърлени към следващата времева стъпка. В изходния порт стойностите се анализират и им се присвоява важност, варираща от -1 до 1. Това регулира данните, преди да бъдат пренесени към следващото изчисление на времева стъпка. И накрая, работата на вратата за забравяне е да изпусне информация, която моделът смята за ненужна, за да вземе решение относно естеството на входните стойности. Портата за забравяне използва сигмоидна функция върху стойностите, извеждайки числа между 0 (забравете това) и 1 (запазете това).

Невронната мрежа LSTM се състои както от специални слоеве LSTM, които могат да интерпретират последователни данни от думи, така и от гъсто свързани като тези, описани по-горе. След като данните преминат през слоевете LSTM, те преминават към плътно свързаните слоеве.

Блогър и програмист със специалности в Machine Learning намлява Дълбоко обучение теми. Даниел се надява да помогне на другите да използват силата на ИИ за социално благо.