IA 101

Aprendizado Supervisionado vs Aprendizado Não Supervisionado

mm

Na aprendizagem de máquina, a maioria das tarefas pode ser facilmente categorizada em uma das duas classes diferentes: problemas de aprendizado supervisionado ou problemas de aprendizado não supervisionado. No aprendizado supervisionado, os dados têm rótulos ou classes anexados a eles, enquanto no caso do aprendizado não supervisionado, os dados são não rotulados. Vamos dar uma olhada mais de perto sobre por que essa distinção é importante e olhar alguns dos algoritmos associados a cada tipo de aprendizado.

Aprendizado Supervisionado vs Aprendizado Não Supervisionado

A maioria das tarefas de aprendizado de máquina estão no domínio do aprendizado supervisionado. Nos algoritmos de aprendizado supervisionado, as instâncias/pontos de dados no conjunto de dados têm uma classe ou rótulo atribuído a eles. Isso significa que o modelo de aprendizado de máquina pode aprender a distinguir quais recursos estão correlacionados com uma classe determinada e que o engenheiro de aprendizado de máquina pode verificar o desempenho do modelo vendo quantas instâncias foram corretamente classificadas. Algoritmos de classificação podem ser usados para discernir muitos padrões complexos, desde que os dados sejam rotulados com as classes apropriadas. Por exemplo, um algoritmo de aprendizado de máquina pode aprender a distinguir diferentes animais entre si com base em características como “bigodes”, “cauda”, “garras”, etc.

Em contraste com o aprendizado supervisionado, o aprendizado não supervisionado envolve criar um modelo que seja capaz de extrair padrões de dados não rotulados. Em outras palavras, o computador analisa os recursos de entrada e determina por si mesmo quais são os recursos e padrões mais importantes. O aprendizado não supervisionado tenta encontrar as semelhanças inerentes entre diferentes instâncias. Se um algoritmo de aprendizado supervisionado visa colocar pontos de dados em classes conhecidas, os algoritmos de aprendizado não supervisionado examinarão os recursos comuns às instâncias de objetos e as colocarão em grupos com base nesses recursos, essencialmente criando suas próprias classes.

Exemplos de algoritmos de aprendizado supervisionado são Regressão Linear, Regressão Logística, K-Vizinhos Mais Próximos, Árvores de Decisão e Máquinas de Vetor de Suporte.

Enquanto isso, alguns exemplos de algoritmos de aprendizado não supervisionado são Análise de Componentes Principais e Agrupamento K-Means.

Algoritmo de Aprendizado Supervisionado

Regressão Linear é um algoritmo que pega dois recursos e traça a relação entre eles. A Regressão Linear é usada para prever valores numéricos em relação a outras variáveis numéricas. A Regressão Linear tem a equação de Y = a + bX, onde b é a inclinação da linha e a é onde y cruza o eixo X.

A Regressão Logística é um algoritmo de classificação binária. O algoritmo examina a relação entre recursos numéricos e encontra a probabilidade de que a instância possa ser classificada em uma das duas classes diferentes. Os valores de probabilidade são “espremidos” em direção a 0 ou 1. Em outras palavras, probabilidades fortes se aproximam de 0,99, enquanto probabilidades fracas se aproximam de 0.

K-Vizinhos Mais Próximos atribui uma classe a novos pontos de dados com base nas classes atribuídas a alguns vizinhos escolhidos no conjunto de treinamento. O número de vizinhos considerados pelo algoritmo é importante, e muito poucos ou muitos vizinhos podem classificar mal os pontos.

Árvores de Decisão são um tipo de algoritmo de classificação e regressão. Uma árvore de decisão opera dividindo um conjunto de dados em porções menores e menores até que os subconjuntos não possam ser divididos mais e o que resulta é uma árvore com nós e folhas. Os nós são onde as decisões sobre os pontos de dados são feitas usando diferentes critérios de filtragem, enquanto as folhas são as instâncias que foram atribuídas a algum rótulo (um ponto de dados que foi classificado). Algoritmos de árvore de decisão são capazes de lidar com dados numéricos e categóricos. As divisões são feitas na árvore em variáveis específicas/recursos.

Máquinas de Vetor de Suporte são um algoritmo de classificação que opera desenhando hiperplanos, ou linhas de separação, entre pontos de dados. Os pontos de dados são separados em classes com base em qual lado do hiperplano eles estão. Múltiplos hiperplanos podem ser desenhados em um plano, dividindo um conjunto de dados em múltiplas classes. O classificador tentará maximizar a distância entre o hiperplano de divisão e os pontos em cada lado do plano, e quanto maior a distância entre a linha e os pontos, mais confiante é o classificador.

Algoritmos de Aprendizado Não Supervisionado

Análise de Componentes Principais é uma técnica usada para redução de dimensionalidade, o que significa que a dimensionalidade ou complexidade dos dados é representada de uma forma mais simples. O algoritmo de Análise de Componentes Principais encontra novas dimensões para os dados que são ortogonais. Enquanto a dimensionalidade dos dados é reduzida, a variância entre os dados deve ser preservada o máximo possível. O que isso significa em termos práticos é que ele pega os recursos no conjunto de dados e os destila em menos recursos que representam a maior parte dos dados.

O Agrupamento K-Means é um algoritmo que agrupa automaticamente os pontos de dados em clusters com base em recursos semelhantes. Os padrões dentro do conjunto de dados são analisados e os pontos de dados são divididos em grupos com base nesses padrões. Essencialmente, o K-Means cria suas próprias classes a partir de dados não rotulados. O algoritmo de K-Means opera atribuindo centros aos clusters, ou centróides, e movendo os centróides até que a posição ótima para os centróides seja encontrada. A posição ótima será uma onde a distância entre os centróides e os pontos de dados circundantes dentro da classe é minimizada. O “K” no Agrupamento K-Means se refere ao número de centróides escolhidos.

Resumo

Para concluir, vamos rapidamente revisar as principais diferenças entre aprendizado supervisionado e aprendizado não supervisionado.

Como discutimos anteriormente, nas tarefas de aprendizado supervisionado, os dados de entrada são rotulados e o número de classes é conhecido. Enquanto isso, os dados de entrada são não rotulados e o número de classes não é conhecido nos casos de aprendizado não supervisionado. O aprendizado não supervisionado tende a ser menos complexo computacionalmente, enquanto o aprendizado supervisionado tende a ser mais complexo computacionalmente. Enquanto os resultados do aprendizado supervisionado tendem a ser altamente precisos, os resultados do aprendizado não supervisionado tendem a ser menos precisos/moderadamente precisos.

Blogueiro e programador com especialidades em Machine Learning e Deep Learning tópicos. Daniel espera ajudar os outros a usar o poder da IA para o bem social.