стуб Шта су РНН и ЛСТМ у дубоком учењу? - Уните.АИ
Повежите се са нама
АИ Мастерцласс:

АИ 101

Шта су РНН и ЛСТМ у дубоком учењу?

mm
Ажурирано on

Многи од најимпресивнијих напретка у обради природног језика и АИ цхатботовима су вођени Понављајуће неуронске мреже (РНН) и мреже дуготрајне краткорочне меморије (ЛСТМ). РНН и ЛСТМ су посебне архитектуре неуронских мрежа које су у стању да обрађују секвенцијалне податке, податке где је хронолошки поредак важан. ЛСТМ су суштински побољшане верзије РНН-а, способан за тумачење дужих низова података. Хајде да погледамо како су РНН и ЛСТМС структурирани и како омогућавају стварање софистицираних система за обраду природног језика.

Шта су неуронске мреже са преусмеравањем?

Дакле, пре него што говоримо о томе како функционишу дуго краткорочно памћење (ЛСТМ) и конволуционе неуронске мреже (ЦНН), требало би да разговарамо о формату неуронске мреже уопште.

Неуронска мрежа је намењена испитивању података и учењу релевантних образаца, тако да се ови обрасци могу применити на друге податке и класификовати нови подаци. Неуронске мреже су подељене у три секције: улазни слој, скривени слој (или више скривених слојева) и излазни слој.

Улазни слој је оно што преузима податке у неуронску мрежу, док су скривени слојеви они који уче обрасце у подацима. Скривени слојеви у скупу података повезани су са улазним и излазним слојевима помоћу „тежина“ и „пристрасности“ које су само претпоставке о томе како су тачке података повезане једна са другом. Ове тежине се прилагођавају током тренинга. Како се мрежа тренира, нагађања модела о подацима обуке (излазне вредности) се упоређују са стварним ознакама обуке. Током обуке, мрежа би (надајмо се) требало да постане прецизнија у предвиђању односа између тачака података, тако да може прецизно да класификује нове тачке података. Дубоке неуронске мреже су мреже које имају више слојева у средњим/више скривених слојева. Што модел има више скривених слојева и више неурона/чворова, то боље модел може препознати обрасце у подацима.

Уобичајене неуронске мреже које се преносе унапред, попут оних које сам горе описао, често се називају „густе неуронске мреже“. Ове густе неуронске мреже су комбиноване са различитим мрежним архитектурама које су специјализоване за тумачење различитих врста података.

Шта су РНН (рекурентне неуронске мреже)?

Понављајуће неуронске мреже узимају општи принцип неуронских мрежа са прослеђивањем и омогућавају им да рукују секвенцијалним подацима тако што дајући моделу интерну меморију. „Рекурентни“ део имена РНН потиче од чињенице да се улазни и излази у петљи. Када је излаз мреже произведен, излаз се копира и враћа у мрежу као улаз. Приликом доношења одлуке не анализирају се само тренутни улаз и излаз, већ се разматра и претходни улаз. Другим речима, ако је почетни улаз за мрежу Кс, а излаз Х, и Х и Кс1 (следећи улаз у низу података) се уносе у мрежу за следећу рунду учења. На овај начин, контекст података (претходни улази) је сачуван док се мрежа тренира.

Резултат ове архитектуре је да су РНН-ови способни за руковање секвенцијалним подацима. Међутим, РНН-ови пате од неколико проблема. РНН пате од проблеми са нестајањем градијента и експлодирајућим градијентом.

Дужина секвенци коју РНН може да интерпретира прилично је ограничена, посебно у поређењу са ЛСТМ-овима.

Шта су ЛСТМ (мреже дугорочне меморије)?

Мреже дуготрајне меморије могу се сматрати екстензијама РНН-а, још једном применом концепта очувања контекста улаза. Међутим, ЛСТМ-ови су модификовани на неколико важних начина који им омогућавају да тумаче податке из прошлости супериорним методама. Измене направљене на ЛСТМ-има се баве проблемом нестајања градијента и омогућавају ЛСТМ-има да размотре много дуже улазне секвенце.

ЛСТМ модели се састоје од три различите компоненте, или капије. Постоји један улазна капија, излазна капија и капија за заборав. Слично као и РНН-ови, ЛСТМ узимају у обзир инпуте из претходног временског корака када модификују меморију модела и улазне тежине. Улазна капија доноси одлуке о томе које су вредности важне и које треба пустити кроз модел. У улазној капији се користи сигмоидна функција, која одређује које вредности ће се пренети кроз рекурентну мрежу. Нула испушта вредност, док је 1 чува. Овде се такође користи ТанХ функција, која одлучује колико су улазне вредности важне за модел, у распону од -1 до 1.

Након што се урачунају тренутни улази и стање меморије, излазна капија одлучује које вредности ће пренети на следећи временски корак. У излазном гејту вредности се анализирају и додељује им се важност у распону од -1 до 1. Ово регулише податке пре него што се пренесу на следећи прорачун временског корака. Коначно, посао капије за заборав је да испусти информације које модел сматра непотребним за доношење одлуке о природи улазних вредности. Капија заборава користи сигмоидну функцију за вредности, излазећи бројеви између 0 (заборави ово) и 1 (задржи ово).

ЛСТМ неуронска мрежа је направљена и од специјалних ЛСТМ слојева који могу да тумаче секвенцијалне податке речи и од густо повезаних као што је горе описано. Када се подаци крећу кроз ЛСТМ слојеве, они настављају у густо повезане слојеве.

Блогер и програмер са специјалностима у Машинско учење Дееп Леарнинг теме. Данијел се нада да ће помоћи другима да искористе моћ вештачке интелигенције за друштвено добро.