Refresh

This website www.unite.ai/es/the-future-of-rag-augmented-image-generation/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Contáctanos

El ángulo de Anderson

El futuro de la generación de imágenes aumentadas con RAG

mm
Actualizado on
ChatGPT-4o: 'Hace décadas, las fotografías eran un proceso fotoquímico y, por lo general, las impresiones fotográficas se hacían en un cuarto oscuro, con las impresiones húmedas colgadas de un tendedero como si fueran ropa. Muéstreme ese entorno, con 10 fotografías secándose en un tendedero en un cuarto oscuro y un científico con bata blanca sacando una de ellas del tendedero. Enfoque bokeh, 1792 x 1024'

Los modelos de difusión generativa, como Stable Diffusion, Flux y los modelos de video, como Hunyuan, se basan en el conocimiento adquirido durante una única sesión de capacitación que consume muchos recursos y utiliza un conjunto de datos fijo. Todos los conceptos introducidos después de esta capacitación, denominados corte de conocimiento – están ausentes del modelo a menos que se complementen mediante sintonia FINA o técnicas de adaptación externa como Adaptación de bajo rango (LoRA).

Por lo tanto, sería ideal si un sistema generativo que genere imágenes o vídeos pudiera... Contacte con fuentes en línea y los incorporan al proceso de generación según sea necesario. De esta manera, por ejemplo, un modelo de difusión que no sabe nada sobre el último lanzamiento de Apple o Tesla podría producir imágenes que contengan estos nuevos productos.

En lo que respecta a los modelos de lenguaje, la mayoría de nosotros estamos familiarizados con sistemas como Perplexity, Notebook LM y ChatGPT-4o, que pueden incorporar información externa novedosa en un Recuperación Generación Aumentada Modelo (RAG).

Los procesos RAG hacen que las respuestas de ChatGPT 4o sean más relevantes. Fuente: https://chatgpt.com/

Los procesos RAG hacen que las respuestas de ChatGPT 4o sean más relevantes. Fuente: https://chatgpt.com/

Sin embargo, esta es una función poco común cuando se trata de generar imágenes, y ChatGPT confesará sus propias limitaciones a este respecto:

ChatGPT 4o ha hecho una buena conjetura sobre la visualización de un nuevo lanzamiento de reloj, basándose en la línea general y en las descripciones que ha interpretado; pero no puede "absorber" e integrar nuevas imágenes en una generación basada en DALL-E.

ChatGPT 4o ha hecho una buena conjetura sobre la visualización de un nuevo lanzamiento de reloj, basándose en la línea general y en las descripciones que ha interpretado; pero no puede "absorber" e integrar nuevas imágenes en una generación basada en DALL-E.

Incorporar datos recuperados externamente en una imagen generada es un desafío porque la imagen entrante primero debe descomponerse en tokens e incrustaciones, que luego se asignan al conocimiento del dominio entrenado más cercano del modelo del sujeto.

Si bien este proceso funciona de manera eficaz para herramientas posteriores a la capacitación como Red de controlEstas manipulaciones siguen siendo en gran medida superficiales, y en esencia canalizan la imagen recuperada a través de un proceso de renderizado, pero sin integrarla profundamente en la representación interna del modelo.

Como resultado, el modelo carece de la capacidad de generar nuevas perspectivas en la forma en que lo hacen los sistemas de representación neuronal como NERF pueden, que construyen escenas con verdadera comprensión espacial y estructural.

Lógica madura

Una limitación similar se aplica a las consultas basadas en RAG en modelos de lenguaje grandes (LLM), como Perplexity. Cuando un modelo de este tipo procesa datos recuperados externamente, funciona de manera muy similar a un adulto que recurre a toda una vida de conocimiento para inferir probabilidades sobre un tema.

Sin embargo, así como una persona no puede integrar retroactivamente nueva información en el marco cognitivo que dio forma a su visión fundamental del mundo –cuando sus prejuicios y preconcepciones todavía se estaban formando–, un LLM no puede fusionar sin problemas el nuevo conocimiento en su estructura pre-entrenada.

En cambio, sólo puede “impactar” o yuxtaponer los nuevos datos contra su conocimiento internalizado existente, utilizando principios aprendidos para analizar y conjeturar en lugar de sintetizar en el nivel fundamental.

Esta falta de equivalencia entre yuxtapuestos e internalizado Es probable que la generación sea más evidente en una imagen generada que en una generación basada en el lenguaje: las conexiones de red más profundas y la mayor creatividad de la generación "nativa" (en lugar de la basada en RAG) se han establecido en varios estudios.

Riesgos ocultos de la generación de imágenes con capacidad RAG

Incluso si fuera técnicamente factible integrar sin problemas las imágenes de Internet recuperadas en las recién sintetizadas al estilo RAG, las limitaciones relacionadas con la seguridad presentarían un desafío adicional.

Muchos conjuntos de datos utilizados para entrenar modelos generativos han sido seleccionados para minimizar la presencia de contenido explícito, racista o violento, entre otras categorías sensibles. Sin embargo, este proceso es imperfecto y pueden persistir asociaciones residuales. Para mitigar esto, sistemas como DALL·E y Adobe Firefly se basan en mecanismos de filtrado secundarios que filtran tanto las indicaciones de entrada como las salidas generadas en busca de contenido prohibido.

Como resultado, un filtro NSFW simple (que bloquee principalmente el contenido abiertamente explícito) sería insuficiente para evaluar la aceptabilidad de los datos recuperados basados ​​en RAG. Dicho contenido podría ser ofensivo o dañino de maneras que quedan fuera de los parámetros de moderación predefinidos del modelo, lo que podría introducir material que la IA no tiene la conciencia contextual necesaria para evaluar adecuadamente.

Descubrimiento de Una vulnerabilidad reciente En DeepSeek, producido por el PCCh y diseñado para suprimir discusiones sobre contenido político prohibido, se ha resaltado cómo se pueden explotar vías de entrada alternativas para eludir las salvaguardas éticas de un modelo; podría decirse que esto también se aplica a datos arbitrarios nuevos recuperados de Internet, cuando se pretende incorporarlos a una nueva generación de imágenes.

RAG para generación de imágenes

A pesar de estos desafíos y aspectos políticos espinosos, han surgido varios proyectos que intentan utilizar métodos basados ​​en RAG para incorporar datos nuevos a las generaciones visuales.

ReDi

La Difusión basada en recuperación El proyecto (ReDi) es un marco de trabajo sin aprendizaje que acelera la inferencia del modelo de difusión al recuperar datos similares. trayectorias a partir de una base de conocimientos precalculada.

Los valores de un conjunto de datos se pueden "tomar prestados" para una nueva generación en ReDi. Fuente: https://arxiv.org/pdf/2302.02285

Los valores de un conjunto de datos se pueden "tomar prestados" para una nueva generación en ReDi. Fuente: https://arxiv.org/pdf/2302.02285

En el contexto de los modelos de difusión, una trayectoria es el camino paso a paso que toma el modelo para generar una imagen a partir de puro ruidoNormalmente, este proceso se lleva a cabo de forma gradual a lo largo de muchos pasos, y en cada paso se va refinando un poco más la imagen.

ReDi acelera este proceso saltándose varios de esos pasos. En lugar de calcular cada uno de ellos, recupera una trayectoria anterior similar de una base de datos y avanza hasta un punto posterior del proceso. Esto reduce la cantidad de cálculos necesarios, lo que hace que la generación de imágenes basada en difusión sea mucho más rápida y, al mismo tiempo, mantiene una alta calidad.

ReDi no modifica el modelo de difusión pesos, sino que utiliza la base de conocimientos para omitir pasos intermedios, reduciendo así la cantidad de estimaciones de funciones necesarias para el muestreo.

Por supuesto, esto no es lo mismo que incorporar imágenes específicas a voluntad en una solicitud de generación; pero sí se relaciona con tipos similares de generación.

Lanzado en 2022, el año en que los modelos de difusión latente capturado En la imaginación del público, ReDi parece ser uno de los primeros enfoques basados ​​en la difusión que se apoyan en una metodología RAG.

Aunque cabe mencionar que en 2021 Facebook Research publicó GAN condicionada por instancia, que pretendía condicionar GAN imágenes sobre nuevas entradas de imágenes, este tipo de proyección En la literatura, el uso de métodos RAG centrados en LLM para modelar el espacio latente es extremadamente común; el desafío es lograr que dicho proceso no requiera entrenamiento y sea funcional en tiempo real.

RDM

Otra incursión temprana en la generación de imágenes aumentadas con RAG es Modelos de difusión con recuperación aumentada (RDM), que introduce un modelo semi-paramétrico Enfoque de síntesis de imágenes generativas. Mientras que los modelos de difusión tradicionales almacenan todo el conocimiento visual aprendido dentro de los parámetros de su red neuronal, RDM se basa en una base de datos de imágenes externa:

Vecinos más cercanos recuperados en una pseudoconsulta ilustrativa en RDM*.

Vecinos más cercanos recuperados en una pseudoconsulta ilustrativa en RDM*.

Durante el entrenamiento el modelo recupera vecinos más cercanos (imágenes visual o semánticamente similares) de la base de datos externa, para guiar el proceso de generación. Esto permite que el modelo condicione sus resultados a instancias visuales del mundo real.

El proceso de recuperación está impulsado por CLIP incrustaciones, diseñadas para forzar las imágenes recuperadas a compartir similitudes significativas con la consulta y también para proporcionar información novedosa para mejorar la generación.

Esto reduce la dependencia de los parámetros, lo que facilita modelos más pequeños que logran resultados competitivos sin la necesidad de grandes conjuntos de datos de entrenamiento.

El enfoque RDM apoya post-hoc modificaciones: los investigadores pueden intercambiar la base de datos en el momento de la inferencia, lo que permite una adaptación sin precedentes a nuevos estilos, dominios o incluso tareas completamente diferentes, como la estilización o la síntesis condicional de clase.

En las filas inferiores, vemos a los vecinos más cercanos atraídos por el proceso de difusión en RDM*.

En las filas inferiores, vemos a los vecinos más cercanos atraídos por el proceso de difusión en RDM*.

Una ventaja clave de RDM es su capacidad de mejorar la generación de imágenes sin tener que volver a entrenar el modelo. Con solo modificar la base de datos de recuperación, el modelo puede generalizarse a nuevos conceptos para los que nunca se entrenó explícitamente. Esto es particularmente útil para aplicaciones en las que cambios de dominio ocurren, como la generación de imágenes médicas basadas en conjuntos de datos en evolución o la adaptación de modelos de texto a imagen para aplicaciones creativas.

Negativamente, los métodos basados ​​en la recuperación de este tipo dependen de la calidad y relevancia de la base de datos externa, lo que hace que la curación de datos sea un factor importante para lograr generaciones de alta calidad; y este enfoque aún está lejos de ser un equivalente de síntesis de imágenes del tipo de interacciones basadas en RAG típicas de los LLM comerciales.

ReMoDiffuse

ReMoDiffuse es un modelo de difusión de movimiento aumentado por recuperación diseñado para la generación de movimiento humano en 3D. A diferencia de modelos tradicionales de generación de movimiento que se basan puramente en representaciones aprendidas, ReMoDiffuse recupera muestras de movimiento relevantes de un gran conjunto de datos de movimiento y las integra en el proceso de eliminación de ruido, en un esquema similar a RDM (ver arriba).

Comparación de ReMoDiffuse aumentada con RAG (extremo derecho) con métodos anteriores. Fuente: https://arxiv.org/pdf/2304.01116

Comparación de ReMoDiffuse aumentado con RAG (más a la derecha) con métodos anteriores. Fuente: https://arxiv.org/pdf/2304.01116

Esto permite que el modelo genere secuencias de movimiento diseñadas para ser más naturales y diversas, además de semánticamente fieles a las indicaciones de texto del usuario.

ReMoDiffuse utiliza un innovador mecanismo de recuperación híbrido, que selecciona secuencias de movimiento basándose en similitudes semánticas y cinemáticas, con la intención de garantizar que los movimientos recuperados no solo sean temáticamente relevantes sino también físicamente plausibles cuando se integren en la nueva generación.

Luego, el modelo refina estas muestras recuperadas utilizando un Transformador modulado por semántica, que incorpora selectivamente el conocimiento de los movimientos recuperados manteniendo las cualidades características de la secuencia generada:

Esquema del pipeline de ReMoDiffuse.

Esquema del pipeline de ReMoDiffuse.

Los proyectos Mezcla de condiciones La técnica mejora la capacidad del modelo para generalizar a través de diferentes indicaciones y condiciones de recuperación, equilibrando las muestras de movimiento recuperadas con indicaciones de texto durante la generación y ajustando cuánto peso recibe cada fuente en cada paso.

Esto puede ayudar a evitar resultados irreales o repetitivos, incluso para indicaciones poco frecuentes. También aborda el Problema de sensibilidad de escala que a menudo surge en el orientación sin clasificador Técnicas comúnmente utilizadas en modelos de difusión.

RA-CM3

Stanford 2023 papeEl modelado de lenguaje multimodal aumentado por recuperación (RA-CM3) permite que el sistema acceda a información del mundo real en el momento de la inferencia:

El modelo RA-CM3 (Retrieval-Augmented Multimodal Language Modeling) de Stanford utiliza imágenes recuperadas de Internet para aumentar el proceso de generación, pero sigue siendo un prototipo sin acceso público. Fuente: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

El modelo de modelado de lenguaje multimodal aumentado por recuperación (RA-CM3) de Stanford utiliza imágenes recuperadas de Internet para aumentar el proceso de generación, pero sigue siendo un prototipo sin acceso público. Fuente: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

RA-CM3 integra el texto y las imágenes recuperados en el proceso de generación, lo que mejora la síntesis de texto a imagen y de imagen a texto. El uso de CLIP para la recuperación y un transformador Como generador, el modelo hace referencia a documentos multimodales pertinentes antes de componer una salida.

Los puntos de referencia en MS-COCO muestran mejoras notables con respecto a DALL-E y sistemas similares, logrando una puntuación de 12 puntos. Fréchet Inicio Distancia Reducción (FID), con un coste computacional mucho menor.

Sin embargo, al igual que con otros métodos de recuperación aumentada, RA-CM3 no internaliza sin problemas el conocimiento recuperado. En cambio, superpone nuevos datos a su red previamente entrenada, de manera muy similar a un LLM que aumenta las respuestas con los resultados de la búsqueda. Si bien este método puede mejorar la precisión fáctica, no reemplaza la necesidad de actualizaciones de entrenamiento en dominios donde se requiere una síntesis profunda.

Además, no parece que se haya publicado una implementación práctica de este sistema, ni siquiera en una plataforma basada en API.

RealRAG

A nueva versión de China, y el que ha impulsado esta mirada a los sistemas de imágenes generativas aumentadas con RAG, se llama Recuperación-Generación de imágenes realistas aumentadas (RealRAG).

Imágenes externas dibujadas en RealRAG (parte inferior central). Fuente: https://arxiv.o7rg/pdf/2502.00848

Imágenes externas dibujadas en RealRAG (parte inferior central). Fuente: https://arxiv.o7rg/pdf/2502.00848

RealRAG recupera imágenes reales de objetos relevantes de una base de datos seleccionada a partir de conjuntos de datos disponibles públicamente, como ImagenNet, Autos de Stanford, perros de stanfordy Flores de OxfordLuego integra las imágenes recuperadas en el proceso de generación, abordando las lagunas de conocimiento en el modelo.

Un componente clave de RealRAG es aprendizaje contrastivo autorreflexivo, que entrena un modelo de recuperación para encontrar imágenes de referencia informativas, en lugar de simplemente seleccionar visualmente similar queridos.

Los autores declaran:

'Nuestro objetivo principal es entrenar un recuperador que recupere imágenes manteniéndose fuera del espacio de generación del generador, pero acercándose a la representación de indicaciones de texto.

'Para ello, primero generamos imágenes a partir de las indicaciones de texto dadas y luego utilizamos las imágenes generadas como consultas para recuperar las imágenes más relevantes en la base de datos basada en objetos reales. Estas imágenes más relevantes se utilizan como negativos reflexivos.'

Este enfoque garantiza que las imágenes recuperadas contribuyan conocimiento faltante al proceso de generación, en lugar de reforzar los sesgos existentes en el modelo.

A la izquierda, la imagen de referencia recuperada; en el centro, sin RAG; a la derecha, con el uso de la imagen recuperada.

A la izquierda, la imagen de referencia recuperada; en el centro, sin RAG; a la derecha, con el uso de la imagen recuperada.

Sin embargo, la dependencia de la calidad de la recuperación y de la cobertura de la base de datos implica que su eficacia puede variar según la disponibilidad de referencias de alta calidad. Si una imagen relevante no existe en el conjunto de datos, el modelo puede tener dificultades para manejar conceptos desconocidos.

RealRAG es una arquitectura muy modular, que ofrece compatibilidad con muchas otras arquitecturas generativas, incluidos modelos basados ​​en U-Net, DiT y autorregresivos.

En general, la recuperación y el procesamiento de imágenes externas agregan una sobrecarga computacional, y el rendimiento del sistema depende de qué tan bien funcione el mecanismo de recuperación. generaliza en diferentes tareas y conjuntos de datos.

Conclusión

Esta es una descripción general más bien representativa y no exhaustiva de los sistemas generativos multimodales de recuperación de imágenes. Algunos sistemas de este tipo utilizan la recuperación únicamente para mejorar la comprensión de la visión o la conservación de conjuntos de datos, entre otros motivos diversos, en lugar de buscar generar imágenes. Un ejemplo es Internet Explorer.

Muchos de los otros proyectos integrados con RAG que aparecen en la literatura aún no se han publicado. Entre los prototipos, con solo investigaciones publicadas, se incluyen: Re-imagen, que, a pesar de proceder de Google, solo puede acceder a imágenes de una base de datos local personalizada.

Además, en noviembre de 2024, Baidu anunció Recuperación basada en imágenes: generación aumentada (iRAG), una nueva plataforma que utiliza imágenes recuperadas "de una base de datos". Aunque iRAG está disponible en la plataforma Ernie, no parece haber más detalles sobre este proceso de recuperación, que parece depender de una local base de datos (es decir, local para el servicio y no directamente accesible para el usuario).

Además, el 2024 Generación y recuperación unificada de texto a imagen ofrece otro método basado en RAG para usar imágenes externas para aumentar los resultados en el momento de la generación, nuevamente, desde una base de datos local en lugar de ad hoc fuentes de internet.

Es probable que el entusiasmo en torno a la mejora basada en RAG en la generación de imágenes se centre en sistemas que puedan incorporar imágenes provenientes de Internet o cargadas por el usuario directamente en el proceso generativo y que permitan a los usuarios participar en la elección o las fuentes de las imágenes.

Sin embargo, esto supone un desafío importante por al menos dos razones: en primer lugar, porque la eficacia de dichos sistemas suele depender de relaciones profundamente integradas formadas durante un proceso de formación que consume muchos recursos; y en segundo lugar, porque las preocupaciones sobre la seguridad, la legalidad y las restricciones de derechos de autor, como se señaló anteriormente, hacen que esta sea una característica poco probable para un servicio web basado en API y para la implementación comercial en general.

 

* Source: https://proceedings.neurips.cc/paper_files/paper/2022/file/62868cc2fc1eb5cdf321d05b4b88510c-Paper-Conference.pdf

Publicado por primera vez el martes 4 de febrero de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai