talón Aprendizaje supervisado vs no supervisado - Unite.AI
Contáctanos
Clase magistral de IA:

AI 101

Aprendizaje supervisado vs no supervisado

mm
Actualizado on

En el aprendizaje automático, la mayoría de las tareas se pueden clasificar fácilmente en una de dos clases diferentes: problemas de aprendizaje supervisado o problemas de aprendizaje no supervisados. En el aprendizaje supervisado, los datos tienen etiquetas o clases adjuntas, mientras que en el caso del aprendizaje no supervisado los datos no están etiquetados. Echemos un vistazo más de cerca a por qué esta distinción es importante y veamos algunos de los algoritmos asociados con cada tipo de aprendizaje.

Aprendizaje supervisado vs no supervisado

La mayoría de las tareas de aprendizaje automático están en el dominio de aprendizaje supervisado. En los algoritmos de aprendizaje supervisado, las instancias/puntos de datos individuales en el conjunto de datos tienen asignada una clase o etiqueta. Esto significa que el modelo de aprendizaje automático puede aprender a distinguir qué funciones están correlacionadas con una clase determinada y que el ingeniero de aprendizaje automático puede comprobar el rendimiento del modelo al ver cuántas instancias se clasificaron correctamente. Los algoritmos de clasificación se pueden usar para discernir muchos patrones complejos, siempre que los datos estén etiquetados con las clases adecuadas. Por ejemplo, un algoritmo de aprendizaje automático puede aprender a distinguir diferentes animales entre sí en función de características como "bigotes", "cola", "garras", etc.

A diferencia del aprendizaje supervisado, el aprendizaje no supervisado implica la creación de un modelo que pueda extraer patrones de datos no etiquetados. En otras palabras, la computadora analiza las características de entrada y determina por sí misma cuáles son las características y los patrones más importantes. El aprendizaje no supervisado trata de encontrar las similitudes inherentes entre diferentes instancias. Si un algoritmo de aprendizaje supervisado tiene como objetivo colocar puntos de datos en clases conocidas, los algoritmos de aprendizaje no supervisados ​​examinarán las características comunes a las instancias del objeto y las colocarán en grupos según estas características, creando esencialmente sus propias clases.

Ejemplos de algoritmos de aprendizaje supervisado son la regresión lineal, la regresión logística, los K vecinos más cercanos, los árboles de decisión y las máquinas de vectores de soporte.

Mientras tanto, algunos ejemplos de algoritmos de aprendizaje no supervisados ​​son el análisis de componentes principales y el agrupamiento de K-Means.

Algoritmo de aprendizaje supervisado

Regresión lineal es un algoritmo que toma dos características y traza la relación entre ellas. La regresión lineal se utiliza para predecir valores numéricos en relación con otras variables numéricas. La regresión lineal tiene la ecuación de Y = a +bX, donde b es la pendiente de la línea y a es donde y cruza el eje X.

Regresión logística es un algoritmo de clasificación binaria. El algoritmo examina la relación entre las características numéricas y encuentra la probabilidad de que la instancia se pueda clasificar en una de dos clases diferentes. Los valores de probabilidad se “aprietan” hacia 0 o 1. En otras palabras, las probabilidades fuertes se acercarán a 0.99 mientras que las probabilidades débiles se acercarán a 0.

K-Vecinos más cercanos asigna una clase a nuevos puntos de datos en función de las clases asignadas de una determinada cantidad de vecinos en el conjunto de entrenamiento. La cantidad de vecinos considerados por el algoritmo es importante, y muy pocos o demasiados vecinos pueden clasificar erróneamente los puntos.

Árboles de decisión son un tipo de algoritmo de clasificación y regresión. Un árbol de decisión opera dividiendo un conjunto de datos en porciones cada vez más pequeñas hasta que los subconjuntos no se pueden dividir más y el resultado es un árbol con nodos y hojas. Los nodos son donde se toman decisiones sobre puntos de datos utilizando diferentes criterios de filtrado, mientras que las hojas son las instancias a las que se les ha asignado alguna etiqueta (un punto de datos que ha sido clasificado). Los algoritmos de árbol de decisión son capaces de manejar datos tanto numéricos como categóricos. Las divisiones se realizan en el árbol en variables/características específicas.

Máquinas de vectores de soporte son un algoritmo de clasificación que opera dibujando hiperplanos, o líneas de separación, entre puntos de datos. Los puntos de datos se separan en clases según el lado del hiperplano en el que se encuentren. Se pueden dibujar múltiples hiperplanos a través de un plano, dividiendo un conjunto de datos en múltiples clases. El clasificador intentará maximizar la distancia entre el hiperplano en picado y los puntos a ambos lados del plano, y cuanto mayor sea la distancia entre la línea y los puntos, más confianza tendrá el clasificador.

Algoritmos de aprendizaje no supervisados

Análisis de componentes principales es una técnica utilizada para la reducción de la dimensionalidad, lo que significa que la dimensionalidad o complejidad de los datos se representa de una manera más simple. El algoritmo de análisis de componentes principales encuentra nuevas dimensiones para los datos que son ortogonales. Si bien se reduce la dimensionalidad de los datos, la variación entre los datos debe conservarse tanto como sea posible. Lo que esto significa en términos prácticos es que toma las características del conjunto de datos y las descompone en menos características que representan la mayoría de los datos.

Agrupamiento de medias K es un algoritmo que agrupa automáticamente puntos de datos en grupos basados ​​en características similares. Los patrones dentro del conjunto de datos se analizan y los puntos de datos se dividen en grupos según estos patrones. Esencialmente, K-means crea sus propias clases a partir de datos no etiquetados. El algoritmo K-Means funciona asignando centros a los conglomerados, o centroides, y moviendo los centroides hasta encontrar la posición óptima para los centroides. La posición óptima será aquella en la que se minimice la distancia entre los centroides y los puntos de datos circundantes dentro de la clase. La "K" en el agrupamiento de K-medias se refiere a cuántos centroides se han elegido.

Resumen

Para cerrar, repasemos rápidamente las diferencias clave entre Aprendizaje supervisado y no supervisado.

Como comentamos anteriormente, en las tareas de aprendizaje supervisado se etiquetan los datos de entrada y se conoce el número de clases. Mientras tanto, los datos de entrada no están etiquetados y el número de clases no se conoce en los casos de aprendizaje no supervisado. El aprendizaje no supervisado tiende a ser menos complejo computacionalmente, mientras que el aprendizaje supervisado tiende a ser más complejo computacionalmente. Mientras que los resultados del aprendizaje supervisado tienden a ser muy precisos, los resultados del aprendizaje no supervisado tienden a ser menos precisos/moderadamente precisos.