стуб Шта је појачавање градијента? - Уните.АИ
Повежите се са нама
АИ Мастерцласс:

АИ 101

Шта је појачавање градијента?

mm
Ажурирано on

Уобичајени тип модела машинског учења који је успео да буде изузетно користан на такмичењима у науци о подацима је модел повећања градијента. Појачавање градијента је у основи процес претварања слабих модела учења у јаке моделе учења. Ипак, како се то тачно постиже? Хајде да ближе погледамо алгоритме за повећање градијента и боље разумеју како модел повећања градијента претвара слабе ученике у јаке ученике.

Дефинисање Градијента Боостинг

Овај чланак има за циљ да вам пружи добру интуицију о томе шта је повећање градијента, без много кварова у математици која је у основи алгоритама. Једном када схватите како повећање градијента функционише на високом нивоу, подстичемо вас да идете дубље и истражите математику која то омогућава.

Почнимо тако што ћемо дефинисати шта значи „подстицати“ ученика. Слаби ученици се претварају у јаке ученике прилагођавањем својстава модела учења. Који се тачно алгоритам учења појачава?

Појачавајући модели функционишу тако што повећавају још један уобичајени модел машинског учења, дрво одлучивања.

A стабло одлуке модел функционише тако што се скуп података дели на све мање и мање делове, а када се подскупови не могу даље делити, резултат је стабло са чворовима и листовима. Чворови у стаблу одлучивања су места где се одлуке о тачкама података доносе коришћењем различитих критеријума филтрирања. Листови у стаблу одлучивања су тачке података које су класификоване. Алгоритми стабла одлучивања могу да обрађују и нумеричке и категоричке податке, а поделе у стаблу су засноване на специфичним варијаблама/карактеристима.

Илустрација начина на који се обучавају модели за повећање.
Фотографија: СеаттлеДатаБуи преко Викимедиа Цоммонс, ЦЦ 4.0 (хттпс://цоммонс.викимедиа.орг/вики/Филе:Боостинг.пнг)

Једна врста алгоритма за појачавање је АдаБоост алгоритам. АдаБоост алгоритми почињу обучавањем модела стабла одлучивања и додељивањем једнаке тежине сваком посматрању. Након што је прво стабло процењено на тачност, пондери за различита запажања се прилагођавају. Запажањима која је било лако класификовати смањена је тежина, док су запажања која је била тешко класификовати повећана. Друго дрво се креира коришћењем ових прилагођених тежина, са циљем да предвиђања другог дрвета буду тачнија од предвиђања првог дрвета.

Модел се сада састоји од предвиђања за оригинално стабло и ново стабло (или дрво 1 + стабло 2). Тачност класификације се још једном процењује на основу новог модела. Треће стабло се креира на основу израчунате грешке за модел, а тежине се још једном прилагођавају. Овај процес се наставља за дати број итерација, а коначни модел је модел ансамбла који користи пондерисани збир предвиђања свих претходно конструисаних стабала.

Горе описани процес користи стабла одлучивања и основне предикторе/моделе, али приступ побољшања може се спровести са широким спектром модела као што су многи стандардни модели класификатора и регресора. Кључни концепти које треба разумети су да каснији предиктори уче из грешака које су направили претходни и да се предиктори креирају секвенцијално.

Примарна предност алгоритама за унапређење је што им је потребно мање времена да пронађу тренутна предвиђања у поређењу са другим моделима машинског учења. Међутим, треба бити опрезан када се користе алгоритми за појачавање, јер су склони претераном прилагођавању.

Градиент Боостинг

Сада ћемо погледати један од најчешћих алгоритама за појачавање. Градиент Боостинг Модели (ГБМ) су познати по својој високој прецизности и повећавају опште принципе који се користе у АдаБоост-у.

Примарна разлика између Градиент Боостинг модела и АдаБоост-а је у томе што ГБМ-ови користе другачији метод израчунавања који ученици погрешно идентификују тачке података. АдаБоост израчунава где модел има слаб учинак испитивањем тачака података који су јако пондерисани. У међувремену, ГБМ-ови користе градијенте да одреде тачност ученика, примењујући функцију губитка на модел. Функције губитка су начин да се измери тачност уклапања модела у скуп података, израчунавање грешке и оптимизација модела како би се та грешка смањила. ГБМ омогућавају кориснику да оптимизује одређену функцију губитка на основу жељеног циља.

Узимање најчешће функције губитка – Средња квадратна грешка (МСЕ) - као пример, градијентно спуштање се користи за ажурирање предвиђања на основу унапред дефинисане стопе учења, са циљем да се пронађу вредности где је губитак минималан.

Да буде јасније:

Предвиђања новог модела = излазне варијабле – стара несавршена предвиђања.

У више статистичком смислу, ГБМ-ови имају за циљ да пронађу релевантне обрасце у резидуама модела, прилагођавајући модел тако да одговара обрасцу и доводе остатке што је могуће ближе нули. Ако бисте извршили регресију на предвиђањима модела, резидуали би били распоређени око 0 (савршено уклапање), а ГБМ-ови проналазе обрасце унутар резидуала и ажурирају модел око ових образаца.

Другим речима, предвиђања се ажурирају тако да је збир свих резидуала што је могуће ближи 0, што значи да ће предвиђене вредности бити веома блиске стварним вредностима.

Имајте на уму да ГБМ може користити широк спектар других функција губитка (као што је логаритамски губитак). МСЕ је изабран горе ради једноставности.

Варијације на моделима за повећање градијента

Модели за повећање градијента су похлепни алгоритми који су склони претераном прилагођавању скупа података. Овога се може заштитити са неколико различитих метода који могу побољшати перформансе ГБМ-а.

ГБМ-и се могу регулисати са четири различите методе: скупљање, ограничења стабла, повећање стохастичког градијента и пенализовано учење.

Схринкаге

Као што је раније поменуто, у ГБМ предвиђања се сумирају заједно на секвенцијални начин. У „Смањивању“ се прилагођавају додаци сваког дрвета укупној суми. Примењују се тежине које успоравају брзину учења алгоритма, што захтева да се моделу дода више стабала, што обично побољшава робусност и перформансе модела. Замена је у томе што моделу треба дуже да се обуче.

Трее Цонстраинтс

Ограничавање стабла разним подешавањима као што је додавање веће дубине стаблу или повећање броја чворова или листова у дрвету може отежати моделу да се прилагоди. Наметање ограничења на минимални број посматрања по подели има сличан ефекат. Још једном, компромис је што ће моделу бити потребно више времена да се обуче.

Случајни узорак

Појединачни ученици се могу креирати кроз стохастички процес, заснован на насумично одабраним подстампама скупа података за обуку. Ово утиче на смањење корелације између стабала, што штити од преоптерећења. Скуп података се може подстампати пре креирања стабала или пре разматрања поделе у стаблу.

Пенализед Леарнинг

Осим ограничавања модела кроз ограничавање структуре стабла, могуће је користити стабло регресије. Стабла регресије имају нумеричке вредности придружене сваком од листова, а оне функционишу као тежине и могу се подесити уобичајеним функцијама регуларизације као што су Л1 и Л2 регуларизација.

Блогер и програмер са специјалностима у Машинско учење Дееп Леарнинг теме. Данијел се нада да ће помоћи другима да искористе моћ вештачке интелигенције за друштвено добро.