АИ 101

Шта је учење са појачањем?

Ажурирано on Јун 5, 2021

Шта је учење са појачањем?

Једноставно речено, учење са појачањем је а Машина учење техника која подразумева обуку агента вештачке интелигенције кроз понављање радњи и повезане награде. Агент за учење са појачањем експериментише у окружењу, предузима акције и бива награђен када се предузму исправне радње. Временом, агент учи да предузима радње које ће максимизирати његову награду. То је кратка дефиниција учења са поткрепљењем, али ближи поглед на концепте учења са појачањем помоћи ће вам да стекнете боље, интуитивније разумевање тога.

Термин „учење са појачањем“ је прилагођен из концепта појачање у психологији. Из тог разлога, хајде да одвојимо тренутак да разумемо психолошки концепт појачања. У психолошком смислу, термин појачање се односи на нешто што повећава вероватноћу да ће се десити одређени одговор/акција. Овај концепт појачања је централна идеја теорије оперантног условљавања, коју је првобитно предложио психолог БФ Скинер. У овом контексту, појачање је све што узрокује повећање учесталости датог понашања. Ако размишљамо о могућем појачању за људе, то могу бити ствари као што су похвале, повишица на послу, слаткиши и забавне активности.

У традиционалном, психолошком смислу, постоје две врсте појачања. Постоји позитивно и негативно појачање. Позитивно појачање је додатак нечега за побољшање понашања, као што је давање посластице вашем псу када се добро понаша. Негативно појачање укључује уклањање стимулуса за изазивање понашања, као што је искључивање гласних звукова да би се наговорила нервозна мачка.

Позитивно и негативно појачање

Позитивно појачање повећава учесталост понашања, док негативно појачање смањује учесталост. Генерално, позитивно поткрепљење је најчешћи тип поткрепљења који се користи у учењу са поткрепљењем, јер помаже моделима да максимизирају учинак на датом задатку. И не само то, већ позитивно појачање води модел да прави одрживије промене, промене које могу постати конзистентни обрасци и опстати током дугог временског периода.

Насупрот томе, док негативно појачање такође чини да ће се неко понашање појавити, оно се користи за одржавање минималног стандарда перформанси, а не за постизање максималних перформанси модела. Негативно поткрепљење у учењу уз помоћ може помоћи да се осигура да се модел држи подаље од нежељених радњи, али не може заиста натерати модел да истражује жељене радње.

Обука агента за појачање

Када је агент за учење уз помоћ обучен, постоје четири различита састојка or државе користи се у обуци: почетна стања (Стање 0), ново стање (Стање 1), акције и награде.

Замислите да обучавамо агента за појачање да игра платформску видео игрицу где је циљ вештачке интелигенције да дође до краја нивоа крећући се право преко екрана. Почетно стање игре је извучено из окружења, што значи да се први оквир игре анализира и даје моделу. На основу ових информација, модел мора одлучити о акцији.

Током почетних фаза обуке, ове акције су насумичне, али како се модел ојача, одређене радње ће постати све чешће. Након што је акција предузета, окружење игре се ажурира и креира се ново стање или оквир. Ако је акција коју је предузео агент довела до жељеног резултата, рецимо у овом случају да је агент још увек жив и да га непријатељ није погодио, агенту се даје нека награда и постаје већа вероватноћа да ће то исто учинити у Будућност.

Овај основни систем се стално врти у петљи, дешава се изнова и изнова, и сваки пут агент покушава да научи мало више и максимизира своју награду.

Епизодни вс континуирани задаци

Задаци учења са појачавањем се обично могу ставити у једну од две различите категорије: епизодне задатке и континуиране задатке.

Епизодични задаци ће спровести петљу учења/обуке и побољшати свој учинак све док се не испуне неки крајњи критеријуми и обука се не прекине. У игри, ово може бити достизање краја нивоа или упадање у опасност попут шиљака. Насупрот томе, континуирани задаци немају критеријуме завршетка, у суштини настављају да се обучавају заувек док инжењер не одлучи да прекине обуку.

Монте Карло против временске разлике

Постоје два примарна начина учења, или обуке, агента за учење уз помоћ. Ин приступ Монте Карлу, награде се испоручују агенту (његов резултат се ажурира) тек на крају епизоде обуке. Другим речима, тек када се постигне услов завршетка, модел учи колико је добро прошао. Затим може да користи ове информације за ажурирање и када започне следећа рунда обуке, одговориће у складу са новим информацијама.

метод временске разлике разликује се од Монте Карло методе по томе што се процена вредности, односно оцена, ажурира током епизоде обуке. Када модел пређе на следећи временски корак, вредности се ажурирају.

Истраживање против експлоатације

Обука агента за учење са појачањем је чин балансирања, који укључује балансирање две различите метрике: истраживања и експлоатације.

Истраживање је чин прикупљања више информација о окружењу, док истраживање користи информације које су већ познате о окружењу да би се зарадили наградни поени. Ако агент само истражује и никада не експлоатише околину, жељене радње никада неће бити спроведене. С друге стране, ако агент само експлоатише и никада не истражује, агент ће научити само да изврши једну акцију и неће открити друге могуће стратегије зарађивања награда. Стога је балансирање истраживања и експлоатације критично када се креира агенс за учење уз помоћ.

Случајеви употребе за учење са појачањем

Учење са појачањем се може користити у широком спектру улога и најпогодније је за апликације где задаци захтевају аутоматизацију.

Аутоматизација задатака које треба да обављају индустријски роботи је једна област у којој се учење са појачањем показује корисним. Учење са појачањем се такође може користити за проблеме као што је рударење текста, креирање модела који су у стању да сумирају дугачка тела текста. Истраживачи такође експериментишу са коришћењем учења за појачавање у области здравствене заштите, при чему се агенти за појачавање баве пословима попут оптимизације политике лечења. Учење са појачањем се такође може користити за прилагођавање образовног материјала за ученике.

Резиме учења са појачањем

Учење са појачањем је моћан метод конструисања АИ агената који може довести до импресивних и понекад изненађујућих резултата. Обука агента кроз учење са појачањем може бити сложена и тешка, јер је потребно много понављања обуке и деликатна равнотежа дихотомије истраживање/експлоатација. Међутим, ако је успешан, агент креиран уз помоћ учења може да обавља сложене задатке у широком спектру различитих окружења.

Повезане теме:101

Уп Нект

Шта је стабло одлучивања?

Не пропустите

Шта је дубоко учење?

Даниел Нелсон

Блогер и програмер са специјалностима у Машинско учење Дееп Леарнинг теме. Данијел се нада да ће помоћи другима да искористе моћ вештачке интелигенције за друштвено добро.

Уните.АИ

Шта је учење са појачањем?

АИ 101

Шта је учење са појачањем?

Преглед садржаја

Шта је учење са појачањем?

Позитивно и негативно појачање

Обука агента за појачање

Епизодни вс континуирани задаци

Монте Карло против временске разлике

Истраживање против експлоатације

Случајеви употребе за учење са појачањем

Резиме учења са појачањем

Уните.АИ

Шта је учење са појачањем?

Преглед садржаја

Шта је учење са појачањем?

Позитивно и негативно појачање

Обука агента за појачање

Епизодни вс континуирани задаци

Монте Карло против временске разлике

Истраживање против експлоатације

Случајеви употребе за учење са појачањем

Резиме учења са појачањем

Можда вам се свидја