кочан Контролирано срещу неконтролирано обучение - Unite.AI
Свържете се с нас
AI майсторски клас:

AI 101 г

Контролирано срещу неконтролирано обучение

mm
Обновено on

В машинното обучение повечето задачи могат лесно да бъдат категоризирани в един от два различни класа: проблеми с контролираното обучение или проблеми с обучението без надзор. При контролирано обучение данните имат етикети или класове, добавени към тях, докато в случай на неконтролирано обучение данните не са етикетирани. Нека да разгледаме отблизо защо това разграничение е важно и да разгледаме някои от алгоритмите, свързани с всеки тип обучение.

Контролирано срещу неконтролирано обучение

Повечето задачи за машинно обучение са в домейна на контролирано обучение. В алгоритмите за контролирано обучение отделните екземпляри/точки от данни в набора от данни имат присвоен клас или етикет. Това означава, че моделът за машинно обучение може да се научи да разграничава кои характеристики са свързани с даден клас и че инженерът по машинно обучение може да провери производителността на модела, като види колко екземпляра са правилно класифицирани. Алгоритмите за класифициране могат да се използват за разпознаване на много сложни модели, стига данните да са етикетирани с правилните класове. Например, алгоритъм за машинно обучение може да се научи да различава различни животни едно от друго въз основа на характеристики като „мустаци“, „опашка“, „нокти“ и т.н.

За разлика от обучението под наблюдение, обучението без надзор включва създаване на модел, който е в състояние да извлича модели от немаркирани данни. С други думи, компютърът анализира входните характеристики и определя за себе си кои са най-важните характеристики и модели. Неконтролираното обучение се опитва да намери присъщите прилики между различни случаи. Ако алгоритъмът за контролирано обучение има за цел да постави точки от данни в известни класове, алгоритмите за неконтролирано обучение ще изследват характеристиките, общи за екземплярите на обекта, и ще ги поставят в групи въз основа на тези характеристики, като по същество създават свои собствени класове.

Примери за алгоритми за контролирано обучение са линейна регресия, логистична регресия, K-най-близки съседи, дървета на решенията и опорни векторни машини.

Междувременно някои примери за алгоритми за неконтролирано обучение са анализ на главни компоненти и клъстериране на K-средни стойности.

Алгоритъм за контролирано обучение

линейна регресия е алгоритъм, който взема две характеристики и начертава връзката между тях. Линейната регресия се използва за прогнозиране на числени стойности във връзка с други числови променливи. Линейната регресия има уравнението на Y = a +bX, където b е наклонът на линията, а a е мястото, където y пресича оста X.

Логистична регресия е алгоритъм за двоична класификация. Алгоритъмът изследва връзката между числените характеристики и намира вероятността екземплярът да може да бъде класифициран в един от два различни класа. Стойностите на вероятностите са „притиснати“ към 0 или 1. С други думи, силните вероятности ще се доближат до 0.99, докато слабите вероятности ще се доближат до 0.

K-най-близки съседи присвоява клас на нови точки от данни въз основа на присвоените класове на избрано количество съседи в набора за обучение. Броят на съседите, разглеждани от алгоритъма, е важен и твърде малко или твърде много съседи могат да класифицират погрешно точките.

Дървета за вземане на решения са вид алгоритъм за класификация и регресия. Дървото на решенията работи чрез разделяне на набор от данни на по-малки и по-малки части, докато подмножествата не могат да бъдат разделени повече и резултатът е дърво с възли и листа. Възлите са мястото, където се вземат решения за точки от данни, като се използват различни критерии за филтриране, докато листата са екземплярите, на които е присвоен някакъв етикет (точка от данни, която е класифицирана). Алгоритмите на дървото на решенията могат да обработват както числови, така и категорични данни. Разделянията се правят в дървото на конкретни променливи/характеристики.

Поддръжка на векторни машини са алгоритъм за класификация, който работи чрез изчертаване на хиперравнини или линии на разделяне между точките от данни. Точките от данни са разделени на класове в зависимост от това от коя страна на хиперравнината се намират. Множество хиперравнини могат да бъдат начертани през една равнина, разделяйки набор от данни в множество класове. Класификаторът ще се опита да увеличи максимално разстоянието между гмуркащата се хиперравнина и точките от двете страни на равнината и колкото по-голямо е разстоянието между линията и точките, толкова по-уверен е класификаторът.

Алгоритми за неконтролирано обучение

Анализ на главния компонент е техника, използвана за намаляване на размерността, което означава, че размерността или сложността на данните е представена по по-прост начин. Алгоритъмът за анализ на главните компоненти намира нови измерения за данните, които са ортогонални. Въпреки че размерността на данните е намалена, вариацията между данните трябва да се запази възможно най-много. Това, което означава на практика, е, че той взема характеристиките в набора от данни и ги дестилира до по-малко характеристики, които представляват повечето от данните.

К-средства групиране е алгоритъм, който автоматично групира точки от данни в клъстери въз основа на подобни характеристики. Моделите в набора от данни се анализират и точките от данни се разделят на групи въз основа на тези модели. По същество K-means създава свои собствени класове от немаркирани данни. Алгоритъмът K-Means работи чрез присвояване на центрове на клъстерите или центроиди и преместване на центроидите, докато се намери оптималната позиция за центроидите. Оптималната позиция ще бъде тази, при която разстоянието между центроидите до околните точки от данни в рамките на класа е сведено до минимум. „K“ в K-означава клъстериране се отнася до това колко центроиди са избрани.

Oбобщение

За да приключим, нека набързо прегледаме основните разлики между контролирано и неконтролирано обучение.

Както обсъдихме по-рано, в задачите за контролирано обучение входните данни са етикетирани и броят на класовете е известен. Междувременно входните данни са неетикетирани и броят на класовете не е известен в случаите на обучение без надзор. Неконтролираното обучение има тенденция да бъде по-малко изчислително сложно, докато контролираното обучение има тенденция да бъде по-сложно в изчислително отношение. Докато резултатите от контролираното обучение обикновено са много точни, резултатите от обучението без надзор обикновено са по-малко точни/средно точни.