taló Què és l'augment del gradient? - Unite.AI
Connecteu-vos amb nosaltres
Classe magistral d'IA:

IA 101

Què és l'augment del gradient?

mm
actualitzat on

Un tipus comú de model d'aprenentatge automàtic que ha aconseguit ser extremadament útil en competicions de ciència de dades és un model d'impuls del gradient. Augment del gradient és bàsicament el procés de convertir models d'aprenentatge febles en models d'aprenentatge forts. Però, com s'aconsegueix això exactament? Fem una ullada més de prop als algorismes d'augment del gradient i millor entendre com un model d'augment del gradient converteix els aprenents febles en aprenents forts.

Definició de l'augment del gradient

Aquest article pretén donar-vos una bona intuïció del que és l'augment del gradient, sense molts desglossament de les matemàtiques que subjauen als algorismes. Una vegada que apreneu com funciona l'augment del gradient a un alt nivell, us animem a aprofundir i explorar les matemàtiques que ho fan possible.

Comencem per definir què vol dir "impulsar" un aprenent. Els aprenents febles es converteixen en aprenents forts ajustant les propietats del model d'aprenentatge. Quin algorisme d'aprenentatge s'està potenciant exactament?

Els models d'impuls funcionen augmentant un altre model d'aprenentatge automàtic comú, un arbre de decisió.

A arbre de decisió El model funciona dividint un conjunt de dades en porcions cada cop més petites i, una vegada que els subconjunts no es poden dividir més, el resultat és un arbre amb nodes i fulles. Els nodes d'un arbre de decisions són on es prenen decisions sobre punts de dades utilitzant diferents criteris de filtratge. Les fulles d'un arbre de decisió són els punts de dades que s'han classificat. Els algorismes de l'arbre de decisions poden gestionar tant dades numèriques com categòriques, i les divisions de l'arbre es basen en variables/característiques específiques.

Il·lustració de la manera com s'entrenen els models d'impuls.
Foto: SeattleDataBuy a través de Wikimedia Commons, CC 4.0 (https://commons.wikimedia.org/wiki/File:Boosting.png)

Un tipus d'algoritme de reforç és el Algorisme AdaBoost. Els algorismes d'AdaBoost comencen entrenant un model d'arbre de decisió i assignant un pes igual a cada observació. Després d'avaluar la precisió del primer arbre, s'ajusten els pesos de les diferents observacions. Les observacions que eren fàcils de classificar tenen el seu pes rebaixat, mentre que les observacions que eren difícils de classificar tenen el seu pes augmentat. Es crea un segon arbre amb aquests pesos ajustats, amb l'objectiu que les prediccions del segon arbre siguin més precises que les prediccions del primer arbre.

El model consisteix ara en les prediccions per a l'arbre original i el nou arbre (o Arbre 1 + Arbre 2). La precisió de la classificació s'avalua una vegada més a partir del nou model. Es crea un tercer arbre basat en l'error calculat per al model i els pesos es tornen a ajustar. Aquest procés continua durant un nombre determinat d'iteracions, i el model final és un model de conjunt que utilitza la suma ponderada de les prediccions fetes per tots els arbres construïts anteriorment.

El procés descrit anteriorment utilitza arbres de decisió i els predictors/models bàsics, però es pot dur a terme un enfocament de millora amb una àmplia gamma de models com els molts models estàndard de classificadors i regressors. Els conceptes clau a entendre són que els predictors posteriors aprenen dels errors comesos pels anteriors i que els predictors es creen seqüencialment.

L'avantatge principal d'augmentar els algorismes és que triguen menys temps a trobar les prediccions actuals en comparació amb altres models d'aprenentatge automàtic. Tanmateix, cal tenir cura quan s'utilitzen algorismes de reforç, ja que són propensos a sobreajustar-se.

Augment del gradient

Ara veurem un dels algorismes de millora més comuns. Els models d'augment del gradient (GBM) són coneguts per la seva alta precisió i augmenten els principis generals utilitzats a AdaBoost.

La diferència principal entre un model de millora del gradient i AdaBoost és que els GBM utilitzen un mètode diferent per calcular quins estudiants estan identificant malament els punts de dades. AdaBoost calcula on un model té un rendiment inferior mitjançant l'examen de punts de dades que tenen una gran ponderació. Mentrestant, els GBM utilitzen gradients per determinar la precisió dels aprenents, aplicant una funció de pèrdua a un model. Les funcions de pèrdua són una manera de mesurar la precisió de l'ajust d'un model al conjunt de dades, calculant un error i optimitzant el model per reduir aquest error. Els GBM permeten a l'usuari optimitzar una funció de pèrdua especificada en funció del seu objectiu desitjat.

Prenent la funció de pèrdua més comuna: Error quadrat mitjà (MSE) - com un exemple, descens en gradient s'utilitza per actualitzar les prediccions en funció d'una taxa d'aprenentatge predefinida, amb l'objectiu de trobar els valors on la pèrdua és mínima.

Per fer-ho més clar:

Prediccions de nous models = variables de sortida - antigues prediccions imperfectes.

En un sentit més estadístic, els GBM pretenen trobar patrons rellevants en els residus d'un model, ajustant el model per adaptar-se al patró i apropar els residus el més a zero possible. Si haguéssiu de dur a terme una regressió a les prediccions del model, els residus es distribuirien al voltant de 0 (ajust perfecte) i els GBM estan trobant patrons dins dels residus i actualitzen el model al voltant d'aquests patrons.

És a dir, les prediccions s'actualitzen de manera que la suma de tots els residus sigui el més propera a 0 com sigui possible, el que significa que els valors predits seran molt propers als valors reals.

Tingueu en compte que un GBM pot utilitzar una gran varietat d'altres funcions de pèrdua (com ara la pèrdua logarítmica). MSE es va seleccionar anteriorment per simplificar.

Variacions dels models d'augment de gradients

Els models d'augment de gradients són algorismes cobdiciosos que són propensos a sobreajustar-se en un conjunt de dades. Això es pot evitar amb diversos mètodes diferents que pot millorar el rendiment d'un GBM.

Els GBM es poden regular amb quatre mètodes diferents: contracció, restriccions d'arbre, augment del gradient estocàstic i aprenentatge penalitzat.

Encongiment

Com s'ha esmentat anteriorment, en els GBM les prediccions es sumen de manera seqüencial. A "Contracció", les addicions de cada arbre a la suma global s'ajusten. S'apliquen pesos que alenteixen la taxa d'aprenentatge de l'algorisme, la qual cosa requereix que s'afegeixin més arbres al model, cosa que normalment millora la robustesa i el rendiment del model. La compensació és que el model triga més a entrenar.

Restriccions de l'arbre

Restringir l'arbre amb diversos ajustaments com afegir més profunditat a l'arbre o augmentar el nombre de nodes o fulles de l'arbre pot dificultar que el model s'ajusti més. Imposar una restricció al nombre mínim d'observacions per divisió té un efecte similar. Una vegada més, la compensació és que el model trigarà més a entrenar.

Mostreig aleatori

Els aprenents individuals es poden crear mitjançant un procés estocàstic, basat en substamples seleccionats aleatòriament del conjunt de dades d'entrenament. Això té l'efecte de reduir les correlacions entre arbres, la qual cosa evita un sobreajustament. El conjunt de dades es pot subestampar abans de crear els arbres o abans de considerar una divisió a l'arbre.

Aprenentatge penalitzat

Més enllà de restringir el model mitjançant la limitació de l'estructura de l'arbre, és possible utilitzar un arbre de regressió. Els arbres de regressió tenen valors numèrics units a cadascuna de les fulles, i aquests funcionen com a pesos i es poden ajustar amb funcions de regularització comunes com la regularització L1 i L2.

Blogger i programador amb especialitats en Aprenentatge automàtic i Aprenentatge profund temes. Daniel espera ajudar els altres a utilitzar el poder de la IA per al bé social.