IA 101
Aprendizaje Supervisado vs Aprendizaje No Supervisado

En el aprendizaje automático, la mayoría de las tareas se pueden categorizar fácilmente en una de dos clases diferentes: problemas de aprendizaje supervisado o problemas de aprendizaje no supervisado. En el aprendizaje supervisado, los datos tienen etiquetas o clases adjuntas, mientras que en el caso del aprendizaje no supervisado, los datos no están etiquetados. Veamos de cerca por qué esta distinción es importante y veamos algunos de los algoritmos asociados con cada tipo de aprendizaje.
Aprendizaje Supervisado vs Aprendizaje No Supervisado
La mayoría de las tareas de aprendizaje automático están en el dominio del aprendizaje supervisado. En los algoritmos de aprendizaje supervisado, las instancias/puntos de datos individuales en el conjunto de datos tienen una clase o etiqueta asignada. Esto significa que el modelo de aprendizaje automático puede aprender a distinguir qué características están correlacionadas con una clase determinada y que el ingeniero de aprendizaje automático puede verificar el rendimiento del modelo viendo cuántas instancias se clasificaron correctamente. Los algoritmos de clasificación se pueden utilizar para discernir muchos patrones complejos, siempre y cuando los datos estén etiquetados con las clases adecuadas. Por ejemplo, un algoritmo de aprendizaje automático puede aprender a distinguir diferentes animales entre sí en función de características como “bigotes”, “cola”, “garras”, etc.
En contraste con el aprendizaje supervisado, el aprendizaje no supervisado implica crear un modelo que pueda extraer patrones de datos no etiquetados. En otras palabras, la computadora analiza las características de entrada y determina por sí misma qué características y patrones son los más importantes. El aprendizaje no supervisado intenta encontrar las similitudes inherentes entre diferentes instancias. Si un algoritmo de aprendizaje supervisado tiene como objetivo colocar los puntos de datos en clases conocidas, los algoritmos de aprendizaje no supervisado examinarán las características comunes a las instancias de objetos y las colocarán en grupos en función de estas características, esencialmente creando sus propias clases.
Ejemplos de algoritmos de aprendizaje supervisado son Regresión Lineal, Regresión Logística, K-vecinos más cercanos, Árboles de Decisión y Máquinas de Vectores de Soporte.
Mientras que, algunos ejemplos de algoritmos de aprendizaje no supervisado son Análisis de Componentes Principales y Clustering K-Medias.
Algoritmo de Aprendizaje Supervisado
Regresión Lineal es un algoritmo que toma dos características y traza la relación entre ellas. La Regresión Lineal se utiliza para predecir valores numéricos en relación con otras variables numéricas. La Regresión Lineal tiene la ecuación de Y = a + bX, donde b es la pendiente de la línea y a es donde y cruza el eje X.
La Regresión Logística es un algoritmo de clasificación binaria. El algoritmo examina la relación entre las características numéricas y encuentra la probabilidad de que la instancia se pueda clasificar en una de dos clases diferentes. Los valores de probabilidad se “aprietan” hacia 0 o 1. En otras palabras, las probabilidades fuertes se acercarán a 0,99, mientras que las probabilidades débiles se acercarán a 0.
K-vecinos más cercanos asigna una clase a los nuevos puntos de datos en función de las clases asignadas a algunos vecinos elegidos en el conjunto de entrenamiento. La cantidad de vecinos considerados por el algoritmo es importante, y demasiados o demasiados pocos vecinos pueden mal clasificar los puntos.
Árboles de Decisión son un tipo de algoritmo de clasificación y regresión. Un árbol de decisión opera dividiendo un conjunto de datos en porciones cada vez más pequeñas hasta que los subconjuntos no se pueden dividir más y lo que resulta es un árbol con nodos y hojas. Los nodos son donde se toman decisiones sobre los puntos de datos utilizando diferentes criterios de filtrado, mientras que las hojas son las instancias que han sido asignadas a alguna etiqueta (un punto de datos que ha sido clasificado). Los algoritmos de árbol de decisión pueden manejar tanto datos numéricos como categóricos. Las divisiones se realizan en el árbol en variables/características específicas.
Máquinas de Vectores de Soporte son un algoritmo de clasificación que opera dibujando hiperplanos, o líneas de separación, entre los puntos de datos. Los puntos de datos se separan en clases en función de qué lado del hiperplano se encuentran. Se pueden dibujar varios hiperplanos en un plano, dividiendo un conjunto de datos en varias clases. El clasificador intentará maximizar la distancia entre el hiperplano divisor y los puntos de ambos lados del plano, y cuanto mayor sea la distancia entre la línea y los puntos, más confiado estará el clasificador.
Algoritmos de Aprendizaje No Supervisado
Análisis de Componentes Principales es una técnica utilizada para la reducción de dimensionalidad, lo que significa que la dimensionalidad o complejidad de los datos se representa de una manera más simple. El algoritmo de Análisis de Componentes Principales encuentra nuevas dimensiones para los datos que son ortogonales. Mientras que la dimensionalidad de los datos se reduce, la varianza entre los datos debe preservarse tanto como sea posible. Lo que esto significa en términos prácticos es que toma las características del conjunto de datos y las destila en menos características que representan la mayoría de los datos.
El Clustering K-Medias es un algoritmo que agrupa automáticamente los puntos de datos en clusters en función de características similares. Los patrones dentro del conjunto de datos se analizan y los puntos de datos se dividen en grupos en función de estos patrones. Esencialmente, K-Medias crea sus propias clases a partir de datos no etiquetados. El algoritmo K-Medias opera asignando centros a los clusters, o centros, y moviendo los centros hasta que se encuentra la posición óptima para los centros. La posición óptima será una en la que la distancia entre los centros y los puntos de datos circundantes dentro de la clase se minimice. La “K” en Clustering K-Medias se refiere a la cantidad de centros elegidos.
Resumen
Para concluir, veamos rápidamente las diferencias clave entre aprendizaje supervisado y aprendizaje no supervisado.
Como discutimos anteriormente, en las tareas de aprendizaje supervisado, los datos de entrada están etiquetados y se conocen el número de clases. Mientras que, en los casos de aprendizaje no supervisado, los datos de entrada no están etiquetados y no se conocen el número de clases. El aprendizaje no supervisado tiende a ser menos complejo computacionalmente, mientras que el aprendizaje supervisado tiende a ser más complejo computacionalmente. Mientras que los resultados del aprendizaje supervisado tienden a ser muy precisos, los resultados del aprendizaje no supervisado tienden a ser menos precisos / moderadamente precisos.












