Inteligencia artificial

Modelos de difusión en IA: todo lo que necesita saber

Publicado

Hace años 1

Marzo 31, 2023

Un collage de rostros humanos creado con un generador de imágenes de IA

En el ecosistema de IA, los modelos de difusión están marcando la dirección y el ritmo del avance tecnológico. Están revolucionando la forma en que abordamos los complejos IA generativa tareas. Estos modelos se basan en las matemáticas de los principios gaussianos, la varianza, las ecuaciones diferenciales y las secuencias generativas. (Explicaremos la jerga técnica a continuación)

Los productos y soluciones modernos centrados en IA desarrollados por Nvidia, Google, Adobe y OpenAI han puesto los modelos de difusión en el centro de atención. DALL.E 2, Difusión establey a mitad de camino son ejemplos destacados de modelos de difusión que están dando vueltas en Internet recientemente. Los usuarios proporcionan un mensaje de texto simple como entrada y estos modelos pueden convertirlos en imágenes realistas, como la que se muestra a continuación.

Una imagen generada con Midjourney v5 utilizando el indicador de entrada: vibrantes amapolas de California. Fuente: a mitad de camino

Exploremos los principios de funcionamiento fundamentales de los modelos de difusión y cómo están cambiando las direcciones y las normas del mundo tal como lo vemos hoy.

¿Qué son los modelos de difusión?

Según la publicación de investigación “Modelos probabilísticos de difusión de eliminación de ruido”, los modelos de difusión se definen como:

“Un modelo de difusión o modelo de difusión probabilística es una cadena de Markov parametrizada entrenada mediante inferencia variacional para producir muestras que coincidan con los datos después de un tiempo finito”

En pocas palabras, los modelos de difusión pueden generar datos similares a aquellos en los que están entrenados. Si el modelo entrena con imágenes de gatos, puede generar imágenes realistas similares de gatos.

Ahora intentemos desglosar la definición técnica mencionada anteriormente. Los modelos de difusión se inspiran en el principio de funcionamiento y la base matemática de un modelo probabilístico que puede analizar y predecir el comportamiento de un sistema que varía con el tiempo, como predecir el rendimiento del mercado de valores o la propagación de la pandemia.

La definición establece que son cadenas de Markov parametrizadas entrenadas con inferencia variacional. Las cadenas de Markov son modelos matemáticos que definen un sistema que cambia entre diferentes estados a lo largo del tiempo. El estado existente del sistema solo puede determinar la probabilidad de transición a un estado específico. En otras palabras, el estado actual de un sistema contiene los posibles estados que un sistema puede seguir o adquirir en un momento dado.

El entrenamiento del modelo mediante la inferencia variacional implica cálculos complejos para las distribuciones de probabilidad. Su objetivo es encontrar los parámetros exactos de la cadena de Markov que coincidan con los datos observados (conocidos o reales) después de un tiempo específico. Este proceso minimiza el valor de la función de pérdida del modelo, que es la diferencia entre el estado previsto (desconocido) y observado (conocido).

Una vez entrenado, el modelo puede generar muestras que coincidan con los datos observados. Estas muestras representan posibles trayectorias o indican que el sistema podría seguir o adquirir con el tiempo, y cada trayectoria tiene una probabilidad diferente de suceder. Por lo tanto, el modelo puede predecir el comportamiento futuro del sistema generando un rango de muestras y encontrando sus respectivas probabilidades (probabilidad de que estos eventos sucedan).

¿Cómo interpretar los modelos de difusión en IA?

Los modelos de difusión son modelos generativos profundos que funcionan agregando ruido (ruido gaussiano) a los datos de entrenamiento disponibles (también conocido como proceso de difusión directa) y luego invirtiendo el proceso (conocido como eliminación de ruido o proceso de difusión inversa) para recuperar los datos. El modelo aprende gradualmente a eliminar el ruido. Este proceso de eliminación de ruido aprendido genera imágenes nuevas de alta calidad a partir de semillas aleatorias (imágenes con ruido aleatorio), como se muestra en la siguiente ilustración.

Proceso de difusión inversa: se elimina el ruido de una imagen ruidosa para recuperar la imagen original (o generar sus variaciones) a través de un modelo de difusión entrenado. Fuente: Modelos probabilísticos de difusión de eliminación de ruido

3 categorías de modelos de difusión

Existen tres marcos matemáticos fundamentales que sustentan la ciencia detrás de los modelos de difusión. Los tres funcionan con los mismos principios de agregar ruido y luego eliminarlo para generar nuevas muestras. Discutámoslos a continuación.

Un modelo de difusión agrega y elimina ruido de una imagen. Fuente: Modelos de difusión en visión: una encuesta

1. Modelos probabilísticos de difusión de eliminación de ruido (DDPM)

Como se explicó anteriormente, los DDPM son modelos generativos que se utilizan principalmente para eliminar el ruido de los datos visuales o de audio. Han mostrado resultados impresionantes en varias tareas de eliminación de ruido de imagen y audio. Por ejemplo, la industria cinematográfica utiliza herramientas modernas de procesamiento de imágenes y videos para mejorar la calidad de la producción.

2. Modelos generativos basados en puntajes condicionados por ruido (SGM)

Los SGM pueden generar nuevas muestras a partir de una distribución determinada. Funcionan mediante el aprendizaje de una función de puntuación de estimación que puede estimar la densidad logarítmica de la distribución objetivo. La estimación de la densidad de registro hace suposiciones para los puntos de datos disponibles de que es parte de un conjunto de datos desconocido (conjunto de prueba). Esta función de puntuación puede generar nuevos puntos de datos a partir de la distribución.

Por ejemplo, falsificaciones profundas son conocidos por producir videos y audios falsos de personalidades famosas. Pero se atribuyen principalmente a Redes Adversarias Generativas (GAN). Sin embargo, los SGM tienen mostrado capacidades similares, a veces superan – en la generación de caras de celebridades de alta calidad. Además, los SGM pueden ayudar a expandir los conjuntos de datos de atención médica, que no están disponibles en grandes cantidades debido a las estrictas regulaciones y estándares de la industria.

3. Ecuaciones diferenciales estocásticas (EDS)

Los SDE describen cambios en procesos aleatorios relacionados con el tiempo. Son ampliamente utilizados en física y mercados financieros que involucran factores aleatorios que impactan significativamente en los resultados del mercado.

Por ejemplo, los precios de las materias primas son muy dinámicos y se ven afectados por una serie de factores aleatorios. Las SDE calculan derivados financieros como contratos de futuros (como contratos de petróleo crudo). Pueden modelar las fluctuaciones y calcular precios favorables con precisión para dar una sensación de seguridad.

Principales aplicaciones de los modelos de difusión en IA

Veamos algunas prácticas y usos ampliamente adaptados de modelos de difusión en IA.

Generación de video de alta calidad

Creación de videos de alta gama usando deep learning es un desafío ya que requiere una alta continuidad de los cuadros de video. Aquí es donde los modelos de difusión son útiles, ya que pueden generar un subconjunto de cuadros de video para completar los cuadros que faltan, lo que da como resultado videos fluidos y de alta calidad sin latencia.

Los investigadores han desarrollado el Modelo de difusión flexible y difusión de video residual técnicas para cumplir con este propósito. Estos modelos también pueden producir videos realistas agregando sin problemas cuadros generados por IA entre los cuadros reales.

Estos modelos pueden simplemente extender el FPS (fotogramas por segundo) de un video de bajo FPS agregando fotogramas ficticios después de aprender los patrones de los fotogramas disponibles. Casi sin pérdida de fotogramas, estos marcos pueden ayudar aún más a los modelos basados en el aprendizaje profundo para generar videos basados en IA desde cero que parecen tomas naturales de configuraciones de cámara de alta gama.

Una amplia gama de notables Generadores de video AI está disponible en 2023 para que la producción y edición de contenido de video sea rápida y sencilla.

Generación de texto a imagen

Los modelos de texto a imagen utilizan indicaciones de entrada para generar imágenes de alta calidad. Por ejemplo, dar entrada "manzana roja en un plato" y producir una imagen fotorrealista de una manzana en un plato. difusión combinada y desclipar son dos ejemplos destacados de tales modelos que pueden generar imágenes altamente relevantes y precisas basadas en la entrada del usuario.

También, DESLIZAMIENTO de OpenAI es otra solución ampliamente conocida lanzada en 2021 que produce imágenes fotorrealistas utilizando la entrada del usuario. Más tarde, OpenAI lanzó DALL.E-2, su modelo de generación de imágenes más avanzado hasta el momento.

Asimismo, Google también ha desarrollado un modelo de generación de imágenes conocido como Imagen, que utiliza un modelo de lenguaje grande para desarrollar una comprensión textual profunda del texto de entrada y luego genera imágenes fotorrealistas.

Hemos mencionado otras herramientas populares de generación de imágenes como Midjourney y Stable Diffusion (DreamStudio) arriba. Eche un vistazo a una imagen generada con Stable Diffusion a continuación.

Un collage de rostros humanos creado con Stable Diffusion 1.5

Una imagen creada con Stable Diffusion 1.5 utilizando el siguiente mensaje: “collages, hiperrealista, muchas variaciones retrato de Thom Yorke muy viejo, variaciones de rostro, cantautor, perfil (lateral), varias edades, lente macro, espacio liminal, por lee bermejo, alphonse mucha y greg rutkowski, barba gris, cara suave, pómulos”

Modelos de difusión en IA: ¿qué esperar en el futuro?

Los modelos de difusión han revelado un potencial prometedor como un enfoque sólido para generar muestras de alta calidad a partir de conjuntos de datos de imágenes y videos complejos. Al mejorar la capacidad humana para usar y manipular datos, los modelos de difusión pueden revolucionar potencialmente el mundo tal como lo vemos hoy. Podemos esperar ver aún más aplicaciones de modelos de difusión que se conviertan en una parte integral de nuestra vida diaria.

Dicho esto, los modelos de difusión no son la única técnica de IA generativa. Los investigadores también utilizan redes generativas antagónicas (GAN), variacionales Codificadores automáticosy modelos generativos profundos basados en flujo para generar contenido de IA. Comprender las características fundamentales que diferencian los modelos de difusión de otros modelos generativos puede ayudar a producir soluciones más efectivas en los próximos días.

Para obtener más información sobre las tecnologías basadas en IA, visite Unirse.ai. Consulte nuestros recursos seleccionados sobre herramientas de IA generativa a continuación.