toco Aprendizado supervisionado x não supervisionado - Unite.AI
Entre em contato
Masterclass de IA:

AI 101

Aprendizagem supervisionada x não supervisionada

mm
Atualização do on

No aprendizado de máquina, a maioria das tarefas pode ser facilmente categorizada em uma de duas classes diferentes: problemas de aprendizado supervisionado ou problemas de aprendizado não supervisionado. Na aprendizagem supervisionada, os dados possuem rótulos ou classes anexados, enquanto no caso da aprendizagem não supervisionada os dados não são rotulados. Vamos examinar mais de perto por que essa distinção é importante e examinar alguns dos algoritmos associados a cada tipo de aprendizagem.

Aprendizagem supervisionada x não supervisionada

A maioria das tarefas de aprendizado de máquina está no domínio de aprendizagem supervisionada. Em algoritmos de aprendizado supervisionado, as instâncias/pontos de dados individuais no conjunto de dados têm uma classe ou rótulo atribuído a eles. Isso significa que o modelo de aprendizado de máquina pode aprender a distinguir quais recursos estão correlacionados com uma determinada classe e que o engenheiro de aprendizado de máquina pode verificar o desempenho do modelo vendo quantas instâncias foram classificadas corretamente. Algoritmos de classificação podem ser usados ​​para discernir muitos padrões complexos, desde que os dados sejam rotulados com as classes apropriadas. Por exemplo, um algoritmo de aprendizado de máquina pode aprender a distinguir diferentes animais uns dos outros com base em características como “bigodes”, “cauda”, “garras”, etc.

Ao contrário do aprendizado supervisionado, o aprendizado não supervisionado envolve a criação de um modelo capaz de extrair padrões de dados não rotulados. Em outras palavras, o computador analisa os recursos de entrada e determina por si mesmo quais são os recursos e padrões mais importantes. O aprendizado não supervisionado tenta encontrar as semelhanças inerentes entre diferentes instâncias. Se um algoritmo de aprendizado supervisionado visa colocar pontos de dados em classes conhecidas, os algoritmos de aprendizado não supervisionado examinarão os recursos comuns às instâncias do objeto e os colocarão em grupos com base nesses recursos, criando essencialmente suas próprias classes.

Exemplos de algoritmos de aprendizagem supervisionada são regressão linear, regressão logística, K vizinhos mais próximos, árvores de decisão e máquinas de vetores de suporte.

Enquanto isso, alguns exemplos de algoritmos de aprendizado não supervisionados são a Análise de Componentes Principais e o Clustering K-Means.

Algoritmo de Aprendizagem Supervisionada

Regressão linear é um algoritmo que pega dois recursos e traça a relação entre eles. A regressão linear é usada para prever valores numéricos em relação a outras variáveis ​​numéricas. A Regressão Linear tem a equação de Y = a +bX, onde b é a inclinação da linha e a é onde y cruza o eixo X.

Regressão Logística é um algoritmo de classificação binária. O algoritmo examina a relação entre os recursos numéricos e encontra a probabilidade de que a instância possa ser classificada em uma das duas classes diferentes. Os valores de probabilidade são "espremidos" em direção a 0 ou 1. Em outras palavras, probabilidades fortes se aproximarão de 0.99, enquanto probabilidades fracas se aproximarão de 0.

Vizinhos mais próximos atribui uma classe a novos pontos de dados com base nas classes atribuídas de alguma quantidade escolhida de vizinhos no conjunto de treinamento. O número de vizinhos considerados pelo algoritmo é importante, e poucos ou muitos vizinhos podem classificar incorretamente os pontos.

Árvores de decisão são um tipo de algoritmo de classificação e regressão. Uma árvore de decisão opera dividindo um conjunto de dados em porções cada vez menores até que os subconjuntos não possam mais ser divididos e o resultado seja uma árvore com nós e folhas. Os nós são onde as decisões sobre os pontos de dados são tomadas usando diferentes critérios de filtragem, enquanto as folhas são as instâncias às quais foi atribuído algum rótulo (um ponto de dados que foi classificado). Algoritmos de árvore de decisão são capazes de lidar com dados numéricos e categóricos. As divisões são feitas na árvore em variáveis/recursos específicos.

Máquinas de vetor de suporte são um algoritmo de classificação que opera desenhando hiperplanos, ou linhas de separação, entre pontos de dados. Os pontos de dados são separados em classes com base em qual lado do hiperplano eles estão. Vários hiperplanos podem ser desenhados em um plano, dividindo um conjunto de dados em várias classes. O classificador tentará maximizar a distância entre o hiperplano de mergulho e os pontos em ambos os lados do plano, e quanto maior a distância entre a linha e os pontos, mais confiante estará o classificador.

Algoritmos de Aprendizagem Não Supervisionada

Análise do componente principal é uma técnica utilizada para redução de dimensionalidade, significando que a dimensionalidade ou complexidade dos dados é representada de forma mais simples. O algoritmo de Análise de Componentes Principais encontra novas dimensões para os dados que são ortogonais. Embora a dimensionalidade dos dados seja reduzida, a variância entre os dados deve ser preservada o máximo possível. O que isso significa em termos práticos é que ele pega os recursos no conjunto de dados e os destila em menos recursos que representam a maioria dos dados.

K-significa clusters é um algoritmo que agrupa automaticamente pontos de dados em clusters com base em recursos semelhantes. Os padrões dentro do conjunto de dados são analisados ​​e os pontos de dados divididos em grupos com base nesses padrões. Essencialmente, K-means cria suas próprias classes a partir de dados não rotulados. O algoritmo K-Means opera atribuindo centros aos clusters, ou centróides, e movendo os centróides até que a posição ideal para os centróides seja encontrada. A posição ideal será aquela em que a distância entre os centróides aos pontos de dados circundantes dentro da classe é minimizada. O “K” no agrupamento K-means refere-se a quantos centróides foram escolhidos.

Resumo

Para encerrar, vamos examinar rapidamente as principais diferenças entre aprendizagem supervisionada e não supervisionada.

Como discutimos anteriormente, em tarefas de aprendizado supervisionado, os dados de entrada são rotulados e o número de classes é conhecido. Enquanto isso, os dados de entrada não são rotulados e o número de classes não é conhecido em casos de aprendizado não supervisionado. O aprendizado não supervisionado tende a ser menos complexo computacionalmente, enquanto o aprendizado supervisionado tende a ser mais complexo computacionalmente. Enquanto os resultados do aprendizado supervisionado tendem a ser altamente precisos, os resultados do aprendizado não supervisionado tendem a ser menos precisos/moderadamente precisos.