stub Deep Learning дэх RNN ба LSTM гэж юу вэ? - Нэгдсэн.AI
бидэнтэй хамт холбоно
AI мастер анги:

AI 101

Deep Learning дэх RNN ба LSTM гэж юу вэ?

mm
шинэчлэгдсэн on

Байгалийн хэлний боловсруулалт, хиймэл оюун ухаантай чатботуудын хамгийн гайхалтай дэвшлүүдийн ихэнхийг удирддаг Давтагдах мэдрэлийн сүлжээ (RNN) болон урт богино хугацааны санах ой (LSTM) сүлжээнүүд. RNN ба LSTM Эдгээр нь дараалсан өгөгдөл, он цагийн дарааллыг чухалчилдаг өгөгдлийг боловсруулах чадвартай тусгай мэдрэлийн сүлжээний архитектурууд юм. LSTM нь RNN-ийн үндсэндээ сайжруулсан хувилбарууд, өгөгдлийн урт дарааллыг тайлбарлах чадвартай. RNN болон LSTMS хэрхэн бүтэцлэгдсэн, тэдгээр нь байгалийн хэлний нарийн боловсруулалтын системийг бий болгох боломжийг хэрхэн олгодог болохыг харцгаая.

Дамжуулах мэдрэлийн сүлжээ гэж юу вэ?

Тиймээс бид Урт богино хугацааны ой санамж (LSTM) болон Convolutional Neural Networks (CNN) хэрхэн ажилладаг талаар ярихаасаа өмнө мэдрэлийн сүлжээний форматыг ерөнхийд нь авч үзэх хэрэгтэй.

Мэдрэлийн сүлжээ нь өгөгдлийг судалж, холбогдох хэв маягийг судлах зорилготой бөгөөд ингэснээр эдгээр хэв маягийг бусад өгөгдөлд хэрэглэж, шинэ өгөгдлийг ангилж болно. Мэдрэлийн сүлжээ нь оролтын давхарга, далд давхарга (эсвэл олон далд давхарга), гаралтын давхарга гэсэн гурван хэсэгт хуваагддаг.

Оролтын давхарга нь өгөгдлийг мэдрэлийн сүлжээнд оруулдаг, харин далд давхарга нь өгөгдлийн хэв маягийг сурдаг. Өгөгдлийн багц дахь далд давхаргууд нь оролтын болон гаралтын давхаргад "жин" болон "хязгаарлалт"-аар холбогддог бөгөөд энэ нь өгөгдлийн цэгүүд хоорондоо хэрхэн холбогдож байгаа талаарх таамаглал юм. Эдгээр жинг сургалтын явцад тохируулдаг. Сүлжээг сургах явцад сургалтын өгөгдлийн талаархи загварын таамаглалыг (гаралтын утгууд) бодит сургалтын шошготой харьцуулдаг. Сургалтын явцад сүлжээ нь өгөгдлийн цэгүүдийн хоорондын хамаарлыг урьдчилан таамаглахдаа илүү нарийвчлалтай байх ёстой (найдвартай) бөгөөд ингэснээр шинэ өгөгдлийн цэгүүдийг үнэн зөв ангилж чадна. Гүн мэдрэлийн сүлжээнүүд нь дунд/илүү далд давхаргад илүү олон давхаргатай сүлжээнүүд юм. Загвар нь илүү олон далд давхарга, олон нейрон/зангилаатай байх тусам загвар нь өгөгдлийн хэв маягийг илүү сайн таньж чаддаг.

Миний дээр дурьдсан шиг тогтмол, урагш чиглүүлдэг мэдрэлийн сүлжээг ихэвчлэн "өтгөн мэдрэлийн сүлжээ" гэж нэрлэдэг. Эдгээр нягт мэдрэлийн сүлжээнүүд нь янз бүрийн төрлийн өгөгдлийг тайлбарлах чиглэлээр мэргэшсэн өөр өөр сүлжээний архитектуруудтай хослуулсан байдаг.

RNN (Recurrent Neural Networks) гэж юу вэ?

Давтагдах мэдрэлийн сүлжээ нь дамжуулагч мэдрэлийн сүлжээний ерөнхий зарчмыг баримталж, дараалсан өгөгдөлтэй ажиллах боломжийг олгодог. загварт дотоод санах ойг өгөх. RNN нэрний "Дахин давтагдах" хэсэг нь оролт, гаралтын давталтаас үүдэлтэй. Сүлжээний гаралтыг гаргасны дараа гаралтыг хуулж сүлжээнд оролт болгон буцаана. Шийдвэр гаргахдаа зөвхөн одоогийн оролт, гаралтыг шинжлээд зогсохгүй өмнөх оролтыг бас авч үздэг. Өөрөөр хэлбэл, хэрэв сүлжээний анхны оролт нь X, гаралт нь H бол H ба X1 хоёулаа (өгөгдлийн дарааллын дараагийн оролт) дараагийн шатны сургалтанд зориулж сүлжээнд ордог. Ийм байдлаар сүлжээг дамжуулах явцад өгөгдлийн контекст (өмнөх оролтууд) хадгалагдана.

Энэхүү архитектурын үр дүн нь RNN нь дараалсан өгөгдөлтэй ажиллах чадвартай байдаг. Гэсэн хэдий ч RNN нь хэд хэдэн асуудалтай тулгардаг. RNN-ууд өвддөг алга болох градиент болон тэсрэх градиент асуудлууд.

RNN-ийн тайлбарлаж чадах дарааллын урт нь ялангуяа LSTM-тэй харьцуулахад хязгаарлагдмал байдаг.

LSTM (урт богино хугацааны санах ойн сүлжээ) гэж юу вэ?

Урт богино хугацааны санах ойн сүлжээг RNN-ийн өргөтгөл гэж үзэж, оролтын контекстийг хадгалах үзэл баримтлалыг дахин нэг удаа хэрэглэж болно. Гэсэн хэдий ч LSTM-ийг хэд хэдэн чухал аргаар өөрчилсөн бөгөөд энэ нь өнгөрсөн үеийн өгөгдлийг дээд зэргийн аргуудаар тайлбарлах боломжийг олгодог. LSTM-д хийсэн өөрчлөлтүүд нь алга болох градиент асуудлыг шийдэж, LSTM-д илүү урт оролтын дарааллыг авч үзэх боломжийг олгодог.

LSTM загварууд нь дараахь зүйлсээс бүрдэнэ гурван өөр бүрэлдэхүүн хэсэг буюу хаалга. Нэг байна оролтын хаалга, гаралтын хаалга, мартах хаалга. RNN-ийн нэгэн адил LSTM нь загварын санах ой болон оролтын жинг өөрчлөхдөө өмнөх цаг хугацааны оролтыг харгалзан үздэг. Оролтын хаалга нь ямар утгууд чухал болохыг, загвараар дамжуулж өгөх шийдвэр гаргадаг. Оролтын хаалганд сигмоид функцийг ашигладаг бөгөөд энэ нь давтагдах сүлжээгээр ямар утгыг дамжуулахыг тодорхойлдог. Тэг утгыг бууруулж, 1 нь хадгалдаг. -1-ээс 1 хүртэлх оролтын утгууд нь загварт хэр чухал болохыг шийддэг TanH функцийг энд бас ашигладаг.

Одоогийн оролт болон санах ойн төлөвийг тооцсоны дараа гаралтын хаалга нь дараагийн алхам руу ямар утгыг түлхэхийг шийддэг. Гаралтын хаалган дээр утгуудад дүн шинжилгээ хийж, -1-ээс 1 хүртэлх ач холбогдол өгдөг. Энэ нь өгөгдлийг дараагийн хугацааны тооцоололд шилжүүлэхээс өмнө зохицуулдаг. Эцэст нь мартах хаалганы ажил бол оролтын утгуудын мөн чанарын талаар шийдвэр гаргахад шаардлагагүй гэж үзсэн мэдээллийг орхих явдал юм. Мартах хаалга нь утгууд дээр сигмоид функцийг ашигладаг бөгөөд 0 (үүнийг март) ба 1 (үүнийг хадгалах) хооронд тоог гаргадаг.

LSTM мэдрэлийн сүлжээ нь дээр дурьдсан шиг дараалсан үгийн өгөгдөл болон нягт холболтыг тайлбарлах боломжтой тусгай LSTM давхаргуудаас бүрддэг. Өгөгдөл LSTM давхаргуудаар дамжсаны дараа нягт холбогдсон давхаргууд руу шилждэг.

Мэргэшсэн блоггер, программист Машины сургалт болон Гүн сурах сэдвүүд. Даниел бусад хүмүүст хиймэл оюун ухааны хүчийг нийгмийн сайн сайхны төлөө ашиглахад тусална гэж найдаж байна.