АИ 101 година

Што е учење за длабоко засилување?

Ажурирани on Август 2, 2021

Што е учење за длабоко засилување?

Заедно со машинското учење без надзор и надгледуваното учење, друга вообичаена форма на создавање вештачка интелигенција е засилено учење. Покрај редовното учење за засилување, учење со длабоко засилување може да доведе до неверојатно импресивни резултати, благодарение на фактот што ги комбинира најдобрите аспекти и на длабокото учење и на учењето за засилување. Ајде да погледнеме како точно функционира учењето со длабоко засилување.

Пред да се нурнеме во учењето за длабоко засилување, можеби е добра идеја да се освежиме колку редовно зајакнување на учење работи. Во учењето за засилување, алгоритмите ориентирани кон целта се дизајнирани преку процес на обиди и грешки, оптимизирајќи се за дејството што води до најдобар резултат/дејството што добива најмногу „награда“. Кога се обучуваат алгоритмите за зајакнување на учењето, им се доделуваат „награди“ или „казни“ кои влијаат на активностите што ќе ги преземат во иднина. Алгоритмите се обидуваат да најдат збир на дејства што ќе му обезбедат на системот најмногу награди, балансирајќи ги и непосредните и идните награди.

Алгоритмите за зајакнување на учењето се многу моќни затоа што можат да се применат на речиси секоја задача, со тоа што можат флексибилно и динамично да учат од околината и да откриваат можни дејства.

Преглед на учењето за длабоко засилување

Фото: Megajuice преку Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Кога станува збор за учење со длабоко засилување, околината обично е претставена со слики. Сликата е доловување на околината во одреден момент во времето. Агентот мора да ги анализира сликите и да извлече релевантни информации од нив, користејќи ги информациите за да информира која акција треба да ја преземе. Учењето со длабоко засилување обично се изведува со една од двете различни техники: учење базирано на вредности и учење врз основа на политики.

Техниките за учење базирани на вредности користат алгоритми и архитектури како што се конволутивните невронски мрежи и Deep-Q-Networks. Овие алгоритми работат со конвертирање на сликата во сива скала и отсекување на непотребните делови од сликата. После тоа, сликата се подложува на различни операции и операции на здружување, извлекувајќи ги најрелевантните делови од сликата. Важните делови од сликата потоа се користат за пресметување на Q-вредноста за различните дејства што агентот може да ги преземе. Q-вредностите се користат за да се одреди најдобриот начин на дејствување за агентот. Откако ќе се пресметаат почетните Q-вредности, се врши назад пропагирање со цел да се одредат најточните Q-вредности.

Методите засновани на политики се користат кога бројот на можни дејства што може да ги преземе агентот е исклучително голем, што е вообичаено случај во реални сценарија. Ваквите ситуации бараат поинаков пристап бидејќи пресметувањето на Q-вредностите за сите поединечни дејства не е прагматично. Пристапите засновани на политики функционираат без пресметување на вредностите на функциите за поединечни дејства. Наместо тоа, тие усвојуваат политики со директно учење на политиката, често преку техники наречени Градиенти на политики.

Градиентите на политиката функционираат со примање состојба и пресметување на веројатностите за дејства врз основа на претходните искуства на агентот. Потоа се избира најверојатната акција. Овој процес се повторува до крајот на периодот на евалуација и наградите се доделуваат на агентот. Откако ќе се поделат наградите со агентот, параметрите на мрежата се ажурираат со заднинско пропагирање.

Што е Q-Learning?

Затоа што П-учење е толку голем дел од процесот на учење со длабоко засилување, ајде да одвоиме малку време за навистина да разбереме како функционира системот за учење Q.

Процесот на одлучување Марков

Марков процес на одлучување. Фото: waldoalvarez преку Pixabay, лиценца Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

За да може агентот со вештачка интелигенција да изврши серија задачи и да постигне цел, агентот мора да биде способен да се справи со низа состојби и настани. Агентот ќе започне во една состојба и мора да преземе низа дејства за да достигне крајна состојба, а може да има огромен број состојби помеѓу почетната и крајната состојба. Складирањето информации за секоја држава е непрактично или невозможно, затоа системот мора да најде начин да ги зачува само најрелевантните државни информации. Ова се постигнува со употреба на а Марков Процес на одлучување, кој ги зачувува само информациите за моменталната и претходната состојба. Секоја состојба следи Марков својство, кое следи како агентот се менува од претходната состојба во моменталната состојба.

Длабоко Q-учење

Откако моделот ќе има пристап до информации за состојбите на средината за учење, Q-вредностите може да се пресметаат. Q-вредностите се вкупната награда што му се дава на агентот на крајот од низата дејства.

Q-вредностите се пресметуваат со серија награди. Има веднаш награда, пресметана според моменталната состојба и во зависност од моменталната акција. Q-вредноста за следната состојба исто така се пресметува, заедно со Q-вредноста за состојбата после тоа, и така натаму додека не се пресметаат сите Q-вредности за различните состојби. Исто така, постои параметар Гама што се користи за да се контролира колкава тежина имаат идните награди за активностите на агентот. Политиките обично се пресметуваат со случајно иницијализирање на Q-вредностите и дозволување на моделот да се спојува кон оптималните Q-вредности во текот на обуката.

Длабоки Q-мрежи

Еден од основните проблеми кои вклучуваат употребата на Q-учење за засилено учење е дека количината на меморија потребна за складирање на податоци брзо се шири како што се зголемува бројот на состојби. Deep Q Networks го решаваат овој проблем со комбинирање на модели на невронски мрежи со Q-вредности, овозможувајќи му на агентот да учи од искуството и да прави разумни претпоставки за најдобрите активности што треба да ги преземе. Со длабоко Q-учење, функциите на Q-вредноста се проценуваат со невронски мрежи. Невралната мрежа ја зема состојбата како влезен податок, а мрежата дава Q-вредност за сите различни можни дејства што може да ги преземе агентот.

Длабокото Q-учење се постигнува со складирање на сите минати искуства во меморијата, пресметување на максималните излези за Q-мрежата, а потоа со користење на функцијата за загуба за да се пресмета разликата помеѓу тековните вредности и теоретските највисоки можни вредности.

Учење со длабоко засилување наспроти длабоко учење

Една важна разлика помеѓу учењето со длабоко засилување и редовното длабоко учење е дека во случајот со првото, влезните податоци постојано се менуваат, што не е случај во традиционалното длабоко учење. Како може моделот на учење да ги земе предвид влезните и излезите кои постојано се менуваат?

Во суштина, за да се земе предвид дивергенцијата помеѓу предвидените вредности и целните вредности, може да се користат две невронски мрежи наместо една. Едната мрежа ги проценува целните вредности, додека другата мрежа е одговорна за предвидувањата. Параметрите на целната мрежа се ажурираат како што моделот учи, откако ќе помине избраниот број повторувања на обука. Излезите од соодветните мрежи потоа се спојуваат за да се одреди разликата.

Учење базирано на политики

Учење базирано на политики пристапите работат поинаку од пристапите базирани на Q-вредност. Додека пристапите со Q-вредност создаваат вредносна функција која предвидува награди за состојбите и активностите, методите засновани на политики одредуваат политика што ќе ги мапира состојбите на дејства. Со други зборови, функцијата на политиката што ги избира дејствата е директно оптимизирана без оглед на функцијата вредност.

Градиенти на политики

Политиката за учење со длабоко засилување спаѓа во една од двете категории: стохастичко или детерминистичко. Детерминистичка политика е онаа каде што состојбите се мапирани на дејства, што значи дека кога на политиката и се даваат информации за состојба, дејството се враќа. Во меѓувреме, стохастичките политики враќаат распределба на веројатност за дејства наместо едно, дискретно дејство.

Детерминистичките политики се користат кога нема несигурност за исходите од активностите што може да се преземат. Со други зборови, кога самата средина е детерминистичка. Спротивно на тоа, стохастичките резултати од политиката се соодветни за средини каде што исходот од активностите е неизвесен. Вообичаено, сценаријата за засилено учење вклучуваат одреден степен на несигурност, па се користат стохастички политики.

Пристапите за градиент на политиката имаат неколку предности во однос на пристапите на Q-учење, како и некои недостатоци. Во однос на предностите, методите засновани на политики побрзо и посигурно се спојуваат на оптималните параметри. Градиентот на политиката може само да се следи додека не се утврдат најдобрите параметри, додека кај методите засновани на вредности мали промени во проценетите вредности на дејствата може да доведат до големи промени во дејствата и нивните поврзани параметри.

Градиентите на политиките работат подобро и за простори за акција со големи димензии. Кога има екстремно голем број на можни активности што треба да се преземат, длабокото Q-учење станува непрактично затоа што мора да додели оценка за секое можно дејство за сите временски чекори, што може да биде пресметковно невозможно. Меѓутоа, со методите засновани на политики, параметрите се прилагодуваат со текот на времето и бројот на можни најдобри параметри брзо се намалува како што моделот се приближува.

Градиентите на политиките исто така се способни да имплементираат стохастички политики, за разлика од политиките засновани на вредност. Бидејќи стохастичките политики произведуваат распределба на веројатност, не треба да се спроведе компромис за истражување/експлоатација.

Во однос на недостатоците, главниот недостаток на градиентите на политиките е тоа што тие можат да се заглават додека бараат оптимални параметри, фокусирајќи се само на тесен, локален сет на оптимални вредности наместо на глобалните оптимални вредности.

Функција за бодување на политиката

Политиките што се користат за оптимизирање на целта на перформансите на моделот за да се максимизира функцијата за резултат - J(θ). Ако J(θ) е мерка за тоа колку е добра нашата политика за постигнување на саканата цел, можеме да ги најдеме вредностите на „θ“ тоа ни ја дава најдобрата политика. Прво, треба да пресметаме очекувана награда од политиката. Ја проценуваме наградата на политиката за да имаме цел, кон што да оптимизираме. Функцијата за оценка на политиката е начинот на кој ја пресметуваме очекуваната награда на политиката и има различни функции за оценка на политиката кои вообичаено се користат, како што се: почетни вредности за епизодни средини, просечна вредност за континуирани средини и просечна награда по временски чекор.

Политика на градиент искачување

Градиентното искачување има за цел да ги помести параметрите додека не се најдат на местото каде што резултатот е највисок. Фото: Јавен домен (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Откако ќе се искористи саканата функција за резултат на политиката и ќе се пресмета очекуваната награда за политика, можеме да најдеме вредност за параметарот „θ” што ја максимизира функцијата за бодување. Со цел да се максимизира оценката функција J(θ), техника наречена „градиент искачување" се користи. Градиентното искачување по концепт е слично на спуштањето со градиент во длабокото учење, но ние се оптимизираме за најстрмното зголемување наместо намалување. Тоа е затоа што нашиот резултат не е „грешка“, како во многу проблеми со длабоко учење. Нашиот резултат е нешто што сакаме да го максимизираме. Изразот наречен Теорема за градиент на политиката се користи за да се процени градиентот во однос на политиката “θ".

Резиме на учење за длабоко засилување

Накратко, учењето со длабоко засилување ги комбинира аспектите на учењето за зајакнување и длабоките невронски мрежи. Учењето со длабоко засилување се врши со две различни техники: Длабоко Q-учење и градиенти на политики.

Методите за длабоко Q-учење имаат за цел да предвидат кои награди ќе следат по одредени дејства преземени во дадена состојба, додека пристапите за градиент на политики имаат за цел да го оптимизираат просторот за акција, предвидувајќи ги самите дејства. Пристапите засновани на политики за учење со длабоко засилување се или детерминистички или стохастички по природа. Детерминистичките политики ги мапираат состојбите директно на дејствата додека стохастичките политики произведуваат распределби на веројатност за дејства.

Поврзани теми:длабоко учење учење со длабоко засилување зајакнување на учење

Следно

Што е федерално учење?

Не ја пропуштајте

Што е теорема на Бејс?

Даниел Нелсон

Блогер и програмер со специјалитети во Машинско учење Длабоко учење теми. Даниел се надева дека ќе им помогне на другите да ја искористат моќта на вештачката интелигенција за општествено добро.