taló Què és l'aprenentatge profund? (2024) - Unite.AI
Connecteu-vos amb nosaltres
Classe magistral d'IA:

IA 101

Què és l'aprenentatge profund?

mm
actualitzat on

L'aprenentatge profund és un dels camps més influents i de més ràpid creixement de la intel·ligència artificial. Tanmateix, aconseguir una comprensió intuïtiva de l'aprenentatge profund pot ser difícil perquè el terme aprenentatge profund cobreix una varietat d'algorismes i tècniques diferents. L'aprenentatge profund també és una subdisciplina de l'aprenentatge automàtic en general, per la qual cosa és important entendre què és l'aprenentatge automàtic per entendre l'aprenentatge profund.

Què és l'aprenentatge automàtic?

Aprenentatge profund és una extensió d'alguns dels conceptes originats de l'aprenentatge automàtic, per això, dediquem un minut a explicar què és l'aprenentatge automàtic.

En poques paraules, l'aprenentatge automàtic és un mètode que permet als ordinadors dur a terme tasques específiques sense codificar explícitament cada línia dels algorismes utilitzats per dur a terme aquestes tasques. Hi ha molts algorismes d'aprenentatge automàtic diferents, però un dels algorismes més utilitzats és a perceptró multicapa. Un perceptró multicapa també es coneix com a xarxa neuronal i està format per una sèrie de nodes/neurones enllaçats entre si. Hi ha tres capes diferents en un perceptró multicapa: la capa d'entrada, la capa oculta i la capa de sortida.

La capa d'entrada porta les dades a la xarxa, on són manipulades pels nodes de la capa mitjana/amagada. Els nodes de la capa oculta són funcions matemàtiques que poden manipular les dades procedents de la capa d'entrada, extreint patrons rellevants de les dades d'entrada. Així és com la xarxa neuronal "aprèn". Les xarxes neuronals reben el seu nom pel fet que s'inspiren en l'estructura i la funció del cervell humà.

Les connexions entre nodes de la xarxa tenen valors anomenats pesos. Aquests valors són essencialment suposicions sobre com es relacionen les dades d'una capa amb les dades de la capa següent. A mesura que la xarxa s'entrena, els pesos s'ajusten i l'objectiu és que els pesos/supòsits sobre les dades convergiran en valors que representin amb precisió els patrons significatius de les dades.

Les funcions d'activació estan presents als nodes de la xarxa, i aquestes funcions d'activació transformen les dades de manera no lineal, permetent a la xarxa aprendre representacions complexes de les dades. Les funcions d'activació multipliquen els valors d'entrada pels valors de pes i afegeixen un terme de biaix.

Què és l'aprenentatge profund?

L'aprenentatge profund és el terme donat a les arquitectures d'aprenentatge automàtic que uneixen molts perceptrons multicapa, de manera que no hi ha només una capa oculta, sinó moltes capes ocultes. Com més "profunda" sigui la xarxa neuronal profunda, els patrons més sofisticats poden aprendre la xarxa.

Les xarxes de capa profunda formades per neurones de vegades s'anomenen xarxes totalment connectades o capes completament connectades, fent referència al fet que una neurona determinada manté una connexió amb totes les neurones que l'envolten. Les xarxes totalment connectades es poden combinar amb altres funcions d'aprenentatge automàtic per crear diferents arquitectures d'aprenentatge profund.

Diferents tipus d'aprenentatge profund

Hi ha una varietat d'arquitectures d'aprenentatge profund utilitzades per investigadors i enginyers, i cadascuna de les diferents arquitectures té el seu propi cas d'ús especialitzat.

Xarxes neuronals revolucionàries

Xarxes neuronals convolucionals, o CNN, són l'arquitectura de xarxa neuronal que s'utilitza habitualment en la creació de sistemes de visió per ordinador. L'estructura de les xarxes neuronals convolucionals els permet interpretar dades d'imatge, convertint-les en números que una xarxa completament connectada pot interpretar. Una CNN té quatre components principals:

  • Capes convolucionals
  • Capes de submostreig/agrupació
  • Funcions d'activació
  • Capes totalment connectades

Les capes convolucionals són les que prenen les imatges com a entrades a la xarxa, analitzant les imatges i obtenint els valors dels píxels. El submostreig o agrupació és on els valors de la imatge es converteixen/redueixen per simplificar la representació de les imatges i reduir la sensibilitat dels filtres d'imatge al soroll. Les funcions d'activació controlen com les dades flueixen d'una capa a la següent, i les capes totalment connectades són les que analitzen els valors que representen la imatge i aprenen els patrons que contenen aquests valors.

RNN/LSTM

Xarxes neuronals recurrents, o RNN, són populars per a tasques on l'ordre de les dades importa, on la xarxa ha d'aprendre sobre una seqüència de dades. Els RNN s'apliquen habitualment a problemes com el processament del llenguatge natural, ja que l'ordre de les paraules és important a l'hora de descodificar el significat d'una frase. La part "recurrent" del terme xarxa neuronal recurrent prové del fet que la sortida d'un element determinat en una seqüència depèn del càlcul anterior, així com del càlcul actual. A diferència d'altres formes de xarxes neuronals profundes, les RNN tenen "memòries" i la informació calculada en els diferents passos de temps de la seqüència s'utilitza per calcular els valors finals.

Hi ha diversos tipus de RNN, incloses les RNN bidireccionals, que tenen en compte els elements futurs de la seqüència, a més dels elements anteriors, a l'hora de calcular el valor d'un article. Un altre tipus de RNN és ​​a Memòria a curt termini o LSTM, xarxa. Els LSTM són tipus de RNN que poden gestionar llargues cadenes de dades. Els RNN habituals poden ser víctimes d'alguna cosa que s'anomena "problema del gradient explosiu". Aquest problema es produeix quan la cadena de dades d'entrada es fa extremadament llarga, però els LSTM tenen tècniques per combatre aquest problema.

Autocodificadors

La majoria de les arquitectures d'aprenentatge profund esmentades fins ara s'apliquen a problemes d'aprenentatge supervisat, en lloc de tasques d'aprenentatge no supervisades. Els codificadors automàtics són capaços de transformar dades no supervisades en un format supervisat, permetent que les xarxes neuronals s'utilitzin en el problema.

Autocodificadors s'utilitzen amb freqüència per detectar anomalies en conjunts de dades, un exemple d'aprenentatge no supervisat, ja que no es coneix la naturalesa de l'anomalia. Aquests exemples de detecció d'anomalies inclouen la detecció de fraus per a institucions financeres. En aquest context, el propòsit d'un codificador automàtic és determinar una línia de base de patrons regulars a les dades i identificar anomalies o valors atípics.

L'estructura d'un codificador automàtic és sovint simètrica, amb capes ocultes disposades de manera que la sortida de la xarxa s'assembla a l'entrada. Els quatre tipus d'autocodificadors que s'utilitzen freqüentment són:

  • Autocodificadors normals/normals
  • Codificadors multicapa
  • Codificadors convolucionals
  • Codificadors regularitzats

Els codificadors automàtics normals / simples són només xarxes neuronals amb una única capa oculta, mentre que els codificadors automàtics multicapa són xarxes profundes amb més d'una capa oculta. Els codificadors automàtics convolucionals utilitzen capes convolucionals en lloc de, o a més de, capes completament connectades. Els codificadors automàtics regularitzats utilitzen un tipus específic de funció de pèrdua que permet a la xarxa neuronal dur a terme funcions més complexes, altres que només copiar les entrades a les sortides.

Xarxes adversàries generatives

Xarxes adversàries generatives (GAN) en realitat són múltiples xarxes neuronals profundes en lloc d'una sola xarxa. S'entrenen dos models d'aprenentatge profund al mateix temps i les seves sortides s'alimenten a l'altra xarxa. Les xarxes competeixen entre elles i, com que tenen accés a les dades de sortida de l'altra, totes dues aprenen d'aquestes dades i milloren. Les dues xarxes estan jugant essencialment a un joc de falsificació i detecció, on el model generatiu intenta crear noves instàncies que enganyin el model detectiu/el discriminador. Els GAN s'han popularitzat en el camp de la visió per ordinador.

Resum de l'aprenentatge profund

L'aprenentatge profund amplia els principis de les xarxes neuronals per crear models sofisticats que poden aprendre patrons complexos i generalitzar aquests patrons a futurs conjunts de dades. Les xarxes neuronals convolucionals s'utilitzen per interpretar imatges, mentre que els RNN/LSTM s'utilitzen per interpretar dades seqüencials. Els codificadors automàtics poden transformar les tasques d'aprenentatge no supervisades en tasques d'aprenentatge supervisades. Finalment, les GAN són múltiples xarxes enfrontades entre si que són especialment útils per a tasques de visió per ordinador.