talón Modelos de aprendizaje automático generativo frente a discriminativo - Unite.AI
Contáctanos
Clase magistral de IA:

AI 101

Modelos de aprendizaje automático generativo frente a discriminativo

mm
Actualizado on

Algunos modelos de aprendizaje automático pertenecen a las categorías de modelos "generativos" o "discriminativos". Sin embargo, ¿qué es la diferencia entre estas dos categorías de modelos? ¿Qué significa que un modelo sea discriminativo o generativo?

La respuesta corta es que los modelos generativos son aquellos que incluyen la distribución del conjunto de datos, devolviendo una probabilidad para un ejemplo dado. Los modelos generativos se utilizan a menudo para predecir lo que ocurre a continuación en una secuencia. Mientras tanto, los modelos discriminativos se utilizan para la clasificación o la regresión y devuelven una predicción. basado en condicional probabilidad. Exploremos las diferencias entre los modelos generativos y discriminativos con más detalle, para que podamos entender realmente qué separa los dos tipos de modelos y cuándo se debe usar cada tipo.

Modelos Generativos vs Discriminativos

Hay una variedad de formas de categorizar un modelo de aprendizaje automático. Un modelo se puede clasificar como perteneciente a diferentes categorías como: modelos generativos, modelos discriminativos, modelos paramétricos, modelos no paramétricos, modelos basados ​​en árboles, modelos no basados ​​en árboles.

Este artículo se centrará en las diferencias entre los modelos generativos y los modelos discriminativos. Comenzaremos definiendo modelos generativos y discriminativos, y luego exploraremos algunos ejemplos de cada tipo de modelo.

Modelos generativos

Modelos generativos son aquellos que se centran en la distribución de las clases dentro del conjunto de datos. Los algoritmos de aprendizaje automático suelen modelar la distribución de los puntos de datos. Los modelos generativos se basan en encontrar la probabilidad conjunta. Crear puntos donde una característica de entrada determinada y una etiqueta/salida deseada existan al mismo tiempo.

Los modelos generativos se emplean típicamente para estimar probabilidades y verosimilitud, modelando puntos de datos y discriminando entre clases en función de estas probabilidades. Debido a que el modelo aprende una distribución de probabilidad para el conjunto de datos, puede hacer referencia a esta distribución de probabilidad para generar nuevas instancias de datos. Los modelos generativos a menudo se basan en Teorema de Bayes para encontrar la probabilidad conjunta, encontrando p(x,y). Esencialmente, los modelos generativos modelan cómo se generaron los datos, responde la siguiente pregunta:

"¿Cuál es la probabilidad de que esta clase u otra clase haya generado este punto/instancia de datos?"

Los ejemplos de modelos generativos de aprendizaje automático incluyen análisis discriminante lineal (LDA), modelos ocultos de Markov y redes bayesianas como Naive Bayes.

Modelos Discriminativos

Mientras que los modelos generativos aprenden sobre la distribución del conjunto de datos, modelos discriminativos aprender sobre el límite entre las clases dentro de un conjunto de datos. Con los modelos discriminativos, el objetivo es identificar el límite de decisión entre clases para aplicar etiquetas de clase fiables a las instancias de datos. Los modelos discriminativos separan las clases en el conjunto de datos mediante el uso de probabilidad condicional, sin hacer suposiciones sobre puntos de datos individuales.

Los modelos discriminativos se proponen responder a la siguiente pregunta:

"¿En qué lado del límite de decisión se encuentra esta instancia?"

Ejemplos de modelos discriminativos en aprendizaje automático incluyen máquinas de vectores de soporte, regresión logística, árboles de decisión y bosques aleatorios.

Diferencias entre generativo y discriminativo

Aquí hay un resumen rápido de las principales diferencias entre los modelos generativos y discriminativos.

Modelos generativos:

  • Los modelos generativos tienen como objetivo capturar la distribución real de las clases en el conjunto de datos.
  • Los modelos generativos predicen la distribución de probabilidad conjunta – p(x,y) – utilizando el teorema de Bayes.
  • Los modelos generativos son computacionalmente costosos en comparación con los modelos discriminativos.
  • Los modelos generativos son útiles para tareas de aprendizaje automático no supervisadas.
  • Los modelos generativos se ven afectados por la presencia de valores atípicos más que los modelos discriminativos.

Modelos discriminativos:

  • Los modelos discriminativos modelan el límite de decisión para las clases de conjuntos de datos.
  • Los modelos discriminativos aprenden la probabilidad condicional – p(y|x).
  • Los modelos discriminativos son computacionalmente baratos en comparación con los modelos generativos.
  • Los modelos discriminativos son útiles para tareas de aprendizaje automático supervisado.
  • Los modelos discriminativos tienen la ventaja de ser más resistentes a los valores atípicos, a diferencia de los modelos generativos.
  • Los modelos discriminativos son más resistentes a los valores atípicos en comparación con los modelos generativos.

Ahora exploraremos brevemente algunos ejemplos diferentes de modelos de aprendizaje automático generativo y discriminativo.

Ejemplos de modelos generativos

Análisis discriminante lineal (LDA)

modelos LDA función estimando la varianza y la media de los datos para cada clase en el conjunto de datos. Después de calcular la media y las varianzas de cada clase, se pueden hacer predicciones estimando la probabilidad de que un conjunto dado de entradas pertenezca a una clase dada.

Modelos ocultos de Markov

Cadenas de Markov se pueden considerar como gráficos con probabilidades que indican qué tan probable es que pasemos de un punto de la cadena, un “estado”, a otro estado. Las cadenas de Markov se utilizan para determinar la probabilidad de pasar del estado j al estado i, que se puede denotar como p(i,j). Esta es solo la probabilidad conjunta mencionada anteriormente. Un modelo de Markov oculto es donde se usa una cadena de Markov invisible e inobservable. Las entradas de datos se dan al modelo y las probabilidades para el estado actual y el estado inmediatamente anterior se utilizan para calcular el resultado más probable.

Redes bayesianas

Redes bayesianas son un tipo de modelo gráfico probabilístico. Representan dependencias condicionales entre variables, representadas por un gráfico acíclico dirigido. En una red bayesiana, cada borde del gráfico representa una dependencia condicional y cada nodo corresponde a una variable única. La independencia condicional de las relaciones únicas en el gráfico se puede utilizar para determinar la distribución conjunta de las variables y calcular la probabilidad conjunta. En otras palabras, una red bayesiana captura un subconjunto de relaciones independientes en una distribución de probabilidad conjunta específica.

Una vez que se ha creado y definido adecuadamente una red bayesiana, con variables aleatorias, relaciones condicionales y distribuciones de probabilidad conocidas, se puede usar para estimar la probabilidad de eventos o resultados.

Uno de los tipos de redes bayesianas más utilizados es el modelo Naive Bayes. Un modelo Naive Bayes maneja el desafío de calcular la probabilidad de conjuntos de datos con muchos parámetros/variables al tratar todas las características como independientes entre sí.

Ejemplos de modelos discriminativos

Máquinas de vectores de soporte

Máquinas de vectores de soporte operar dibujando un límite de decisión entre los puntos de datos, encontrando el límite de decisión que separa mejor las diferentes clases en el conjunto de datos. El algoritmo SVM dibuja líneas o hiperplanos que separan puntos, para espacios bidimensionales y espacios 2D respectivamente. SVM se esfuerza por encontrar la línea/hiperplano que mejor separe las clases tratando de maximizar el margen, o la distancia entre la línea/hiperplano a los puntos más cercanos. Los modelos SVM también se pueden usar en conjuntos de datos que no son linealmente separables usando el "truco del núcleo" para identificar límites de decisión no lineales.

Regresión logística

Regresión logística es un algoritmo que utiliza una función logit (log-odds) para determinar la probabilidad de que una entrada se encuentre en uno de dos estados. Se utiliza una función sigmoidea para "aplastar" la probabilidad hacia 0 o 1, verdadero o falso. Se supone que las probabilidades superiores a 0.50 son de clase 1, mientras que las probabilidades de 0.49 o inferiores se suponen 0. Por este motivo, la regresión logística se suele utilizar en problemas de clasificación binaria. Sin embargo, la regresión logística se puede aplicar a problemas de clases múltiples usando un enfoque de uno contra todos, creando un modelo de clasificación binaria para cada clase y determinando la probabilidad de que un ejemplo sea una clase objetivo u otra clase en el conjunto de datos.

Árbol de decisión

A árbol de decisión el modelo funciona dividiendo un conjunto de datos en porciones cada vez más pequeñas, y una vez que los subconjuntos no se pueden dividir más, el resultado es un árbol con nodos y hojas. Los nodos en un árbol de decisión son donde se toman las decisiones sobre los puntos de datos utilizando diferentes criterios de filtrado. Las hojas de un árbol de decisión son los puntos de datos que se han clasificado. Los algoritmos de árboles de decisión pueden manejar datos numéricos y categóricos, y las divisiones en el árbol se basan en variables/características específicas.

Bosques al azar

A modelo de bosque aleatorio es básicamente una colección de árboles de decisión donde se promedian las predicciones de los árboles individuales para llegar a una decisión final. El algoritmo de bosque aleatorio selecciona observaciones y características al azar, construyendo árboles individuales basados ​​en estas selecciones.

Este artículo del tutorial explorará cómo crear un diagrama de caja en Matplotlib. Los diagramas de caja se utilizan para visualizar estadísticas resumidas de un conjunto de datos, mostrando atributos de la distribución como el rango y la distribución de los datos.

Blogger y programador con especialidades en Aprendizaje automático (Machine learning & LLM) y Aprendizaje profundo temas Daniel espera ayudar a otros a usar el poder de la IA para el bien social.