Andersons hoek

De Toekomst van RAG-Versterkte Beeldgeneratie

Published February 4, 2025

Updated April 3, 2026

Martin Anderson

ChatGPT-4o: ‘Decades ago photos were a photochemical process, and typically photographic prints were done in a darkroom, with the wet prints hung from a line like clothes. Show me that environment, with 10 photos drying on a line in darkroom, and a white-coated scientist picking one of them off the line. Bokeh focus, 1792x1024’

Generatieve diffusiemodellen zoals Stable Diffusion, Flux en videomodellen zoals Hunyuan zijn afhankelijk van kennis die is verworven tijdens een enkele, resource-intensieve trainingsessie met een vaste dataset. Elk concept dat na deze training wordt geïntroduceerd – waarnaar wordt verwezen als de kenniscutoff – ontbreekt in het model, tenzij het wordt aangevuld door fine-tuning of externe adaptatie-technieken zoals Low Rank Adaptation (LoRA).

Het zou ideaal zijn als een generatief systeem dat afbeeldingen of video’s produceert onlinebronnen kan raadplegen en deze in het generatieproces kan integreren als dat nodig is. Op deze manier kan een diffusiemodel dat niets weet over de allernieuwste Apple- of Tesla-release nog steeds afbeeldingen produceren die deze nieuwe producten bevatten.

Wat betreft taalmodellen zijn de meeste van ons vertrouwd met systemen zoals Perplexity, Notebook LM en ChatGPT-4o, die nieuwe externe informatie kunnen incorporeren in een Retrieval Augmented Generation (RAG)-model.

RAG-processen maken ChatGPT 4o’s antwoorden meer relevant. Source: https://chatgpt.com/

Echter, deze faciliteit is ongebruikelijk bij het genereren van afbeeldingen, en ChatGPT zal zijn eigen beperkingen in dit opzicht erkennen:

ChatGPT 4o heeft een goede gok gedaan over de visualisatie van een gloednieuwe horloge-release, op basis van het algemene ontwerp en de beschrijvingen die het heeft geïnterpreteerd; maar het kan geen nieuwe afbeeldingen ‘absorberen’ en integreren in een DALL-E-gebaseerde generatie.

Het incorporeren van extern opgehaalde gegevens in een gegenereerde afbeelding is uitdagend omdat de binnenkomende afbeelding eerst moet worden afgebroken in tokens en embeddings, die vervolgens worden toegewezen aan de model’s dichtstbijzijnde getrainde domeinkennis van het onderwerp.

Hoewel dit proces effectief werkt voor post-training tools zoals ControlNet, blijven dergelijke manipulaties grotendeels oppervlakkig, waarbij de opgehaalde afbeelding in wezen wordt doorgestuurd naar een renderpijplijn, maar zonder deze diep te integreren in de model’s interne representatie.

Als gevolg daarvan ontbreekt het model de mogelijkheid om nieuwe perspectieven te genereren op de manier waarop neurale renderingsystemen zoals NeRF kunnen, die scènes construeren met echte ruimtelijke en structurele kennis.

Volwassen Logica

Een soortgelijke beperking geldt voor RAG-gebaseerde queries in Large Language Models (LLM’s), zoals Perplexity. Wanneer een model van dit type extern opgehaalde gegevens verwerkt, functioneert het veel zoals een volwassene die een leven lang kennis heeft om probabilities over een onderwerp te kunnen afleiden.

Echter, net zoals een persoon geen nieuwe informatie retroactief kan integreren in het cognitieve kader dat zijn fundamentele wereldbeeld heeft gevormd – toen zijn vooroordelen en vooronderstellingen nog in ontwikkeling waren – kan een LLM nieuwe kennis niet naadloos in zijn pre-getrainde structuur integreren.

In plaats daarvan kan het alleen ‘impact’ of juxtaposeer de nieuwe gegevens tegen zijn bestaande geïnternaliseerde kennis, met behulp van geleerde principes om te analyseren en te concluderen in plaats van te synthetiseren op fundamenteel niveau.

Deze tekortkoming in equivalentie tussen gejuxtaposeerd en geïnternaliseerd generatie is waarschijnlijk meer evident in een gegenereerde afbeelding dan in een taalgebaseerde generatie: de diepere netwerkverbindingen en toegenomen creativiteit van ‘native’ (in plaats van RAG-gebaseerde) generatie is vastgesteld in verschillende studies.

Verborgen Risico’s van RAG-Geïntegreerde Beeldgeneratie

Zelfs als het technisch mogelijk zou zijn om extern opgehaalde internetafbeeldingen naadloos te integreren in nieuw gegenereerde afbeeldingen in een RAG-stijl, zouden veiligheidsgerelateerde beperkingen een aanvullende uitdaging vormen.

Veel datasets die worden gebruikt voor het trainen van generatieve modellen zijn gecureerd om de aanwezigheid van expliciete, racistische of gewelddadige inhoud te minimaliseren, onder andere gevoelige categorieën. Echter, dit proces is onvolmaakt, en residuele associaties kunnen blijven bestaan. Om dit te mitigeren, vertrouwen systemen zoals DALL·E en Adobe Firefly op secundaire filtermechanismen die zowel invoerprompts als gegenereerde uitvoer screenen op verboden inhoud.

Als gevolg daarvan zou een eenvoudige NSFW-filter – die voornamelijk expliciet inhoud blokkeert – onvoldoende zijn voor het evalueren van de acceptabiliteit van opgehaalde RAG-gebaseerde gegevens. Dergelijke inhoud kan nog steeds offensief of schadelijk zijn op manieren die buiten het model’s vooraf gedefinieerde moderatieparameters vallen, waardoor mogelijk materiaal wordt geïntroduceerd dat de AI ontbreekt aan de contextuele bewustzijn om het goed te beoordelen.

De ontdekking van een recente kwetsbaarheid in de CCP-geproduceerde DeepSeek, ontworpen om discussies over verboden politieke inhoud te onderdrukken, heeft aangetoond hoe alternatieve invoerpaden kunnen worden uitgebuit om de ethische waarborgen van een model te omzeilen; dit geldt mogelijk ook voor willekeurig nieuwe gegevens die van internet worden opgehaald, wanneer deze bedoeld zijn om te worden geïntegreerd in een nieuwe beeldgeneratie.

RAG voor Beeldgeneratie

Ondanks deze uitdagingen en delicate politieke aspecten zijn er verschillende projecten ontstaan die proberen RAG-gebaseerde methoden te gebruiken om nieuwe gegevens in visuele generaties te integreren.

ReDi

Het 2023 Retrieval-based Diffusion (ReDi)-project is een leer-vrije framework die diffusiemodel-inferentie versnelt door soortgelijke trajecten op te halen uit een pre-compute kennisbasis.

Waarden uit een dataset kunnen worden ‘geleend’ voor een nieuwe generatie in ReDi. Source: https://arxiv.org/pdf/2302.02285

In de context van diffusiemodellen is een traject de stap-voor-stap-pad dat het model neemt om een afbeelding te genereren van pure ruis. Normaal gesproken gebeurt dit proces geleidelijk over veel stappen, met elke stap die de afbeelding een beetje meer verfijnt.

ReDi versnelt dit proces door een aantal van deze stappen over te slaan. In plaats van elke enkele stap te berekenen, haalt het een soortgelijk verleden traject op uit een database en springt het naar een later punt in het proces. Dit reduceert het aantal berekeningen dat nodig is, waardoor diffusie-gebaseerde beeldgeneratie veel sneller wordt, terwijl de kwaliteit nog steeds hoog blijft.

ReDi wijzigt de diffusiemodel’s gewichten niet, maar gebruikt in plaats daarvan de kennisbasis om tussenliggende stappen over te slaan, waardoor het aantal functie-schattingen dat nodig is voor sampling wordt verminderd.

Natuurlijk is dit niet hetzelfde als het incorporeren van specifieke afbeeldingen naar wens in een generatie-aanvraag; maar het heeft wel betrekking op soortgelijke typen generatie.

Uitgegeven in 2022, het jaar dat latent diffusiemodellen de publieke verbeelding vastlegden, lijkt ReDi een van de vroegste diffusie-gebaseerde benaderingen te zijn die leunt op een RAG-methodologie.

Hoewel het moet worden vermeld dat in 2021 Facebook Research Instance-Conditioned GAN heeft uitgebracht, die probeerde om GAN-afbeeldingen te conditioneren op nieuwe beeldinvoer, is dit type projectie in de latent ruimte extreem gemeenschappelijk in de literatuur, zowel voor GAN’s als diffusiemodellen; de uitdaging is om een dergelijk proces trainings-vrij en functioneel in real-time te maken, zoals LLM-gefocuste RAG-methoden.

RDM

Een andere vroege poging tot RAG-geïntegreerde beeldgeneratie is Retrieval-Augmented Diffusion Models (RDM), die een semi-parametrische benadering introduceert voor generatieve beeldsynthese. Terwijl traditionele diffusiemodellen alle geleerde visuele kennis binnen hun neurale netwerkparameters opslaan, vertrouwt RDM op een externe beeld-database:

Opgehaalde dichtstbijzijnde buren in een illustratieve pseudo-query in RDM*.

Tijdens de training haalt het model dichtstbijzijnde buren (visueel of semantisch soortgelijke afbeeldingen) op uit de externe database, om de generatieproces te leiden. Dit stelt het model in staat om zijn uitvoer te conditioneren op echte wereldvisuele instanties.

Het ophalen van gegevens wordt aangedreven door CLIP-embeddings, ontworpen om de opgehaalde afbeeldingen te dwingen om betekenisvolle overeenkomsten te delen met de query, en om ook nieuwe informatie te bieden om de generatie te verbeteren.

Dit reduceert de afhankelijkheid van parameters, waardoor kleinere modellen kunnen worden gemaakt die concurrerende resultaten bereiken zonder de noodzaak van uitgebreide trainingsdatasets.

De RDM-benadering ondersteunt post-hoc modificaties: onderzoekers kunnen de database op inference-tijd omwisselen, waardoor zero-shot adaptatie mogelijk wordt voor nieuwe stijlen, domeinen of zelfs geheel andere taken zoals stijl- of klasse-geconditioneerde synthese.

In de onderste rijen zien we de dichtstbijzijnde buren getrokken in het diffusieproces in RDM*.

Een belangrijk voordeel van RDM is zijn vermogen om beeldgeneratie te verbeteren zonder het model opnieuw te trainen. Door eenvoudigweg de ophaal-database te wijzigen, kan het model generaliseren naar nieuwe concepten waarop het nooit expliciet is getraind. Dit is vooral nuttig voor toepassingen waar domeinverschuivingen optreden, zoals het genereren van medische beelden op basis van evoluerende datasets, of het aanpassen van tekst-naar-afbeelding-modellen voor creatieve toepassingen.

Negatief, retrieval-gebaseerde methoden van deze soort zijn afhankelijk van de kwaliteit en relevantie van de externe database, wat data-curatatie een belangrijke factor maakt in het bereiken van hoge kwaliteit generaties; en deze benadering blijft ver verwijderd van een equivalent van de soort RAG-gebaseerde interacties die typisch zijn in commerciële LLM’s.

ReMoDiffuse

ReMoDiffuse is een retrieval-versterkt motion diffusie-model ontworpen voor 3D menselijke bewegingsgeneratie. In tegenstelling tot traditionele bewegingsgeneratie-modellen die puur vertrouwen op geleerde representaties, haalt ReMoDiffuse relevante bewegingsmonsters op uit een grote bewegingsdataset en integreert deze in het denoiseringsproces, in een schema vergelijkbaar met RDM (zie boven).

Vergelijking van RAG-versterkte ReMoDiffuse (rechts) met eerdere methoden. Source: https://arxiv.org/pdf/2304.01116

Dit stelt het model in staat om bewegingssequenties te genereren die zijn ontworpen om natuurlijker en diverser te zijn, evenals semantisch getrouw aan de tekstprompts van de gebruiker.

ReMoDiffuse gebruikt een innovatieve hybride ophaalmechanisme, dat bewegingssequenties selecteert op basis van zowel semantische als kinematische overeenkomsten, met de bedoeling om ervoor te zorgen dat de opgehaalde bewegingen niet alleen thematisch relevant zijn, maar ook fysiek plausibel zijn wanneer ze worden geïntegreerd in de nieuwe generatie.

Het model verfijnt deze opgehaalde monsters vervolgens met een semantiek-gemoduleerde transformatie, die selectief kennis uit de opgehaalde bewegingen incorporeert, terwijl het de karakteristieke kwaliteiten van de gegenereerde sequentie behoudt:

Schema voor ReMoDiffuse’s pipeline.

Het project’s Condition Mixture-techniek verbetert het vermogen van het model om te generaliseren over verschillende prompts en ophaalcondities, door opgehaalde bewegingsmonsters te balanceren met tekstprompts tijdens de generatie, en door aan te passen hoeveel gewicht elke bron krijgt bij elke stap.

Dit kan helpen om onrealistische of repetitieve uitvoer te voorkomen, zelfs voor zeldzame prompts. Het lost ook het schaalgevoeligheidsprobleem op dat vaak optreedt in de classifier-free guidance-technieken die gewoonlijk worden gebruikt in diffusiemodellen.

RA-CM3

Stanfords 2023 paper Retrieval-Augmented Multimodal Language Modeling (RA-CM3) stelt het systeem in staat om toegang te krijgen tot echte wereldinformatie op inference-tijd:

Stanfords Retrieval-Augmented Multimodal Language Modeling (RA-CM3)-model gebruikt internet-opgehaalde afbeeldingen om de generatieproces te versterken, maar blijft een prototype zonder openbare toegang. Source: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

RA-CM3 integreert opgehaalde tekst en afbeeldingen in de generatiepijplijn, waardoor zowel tekst-naar-afbeelding als afbeelding-naar-tekst-synthese worden verbeterd. Met behulp van CLIP voor ophalen en een Transformer als generator, verwijst het model naar pertinente multimodale documenten voordat het een uitvoer samenstelt.

Benchmarks op MS-COCO laten aanzienlijke verbeteringen zien ten opzichte van DALL-E en soortgelijke systemen, met een 12-punts Fréchet Inception Distance (FID)-reductie, met een veel lagere computationele kosten.

Echter, net als bij andere retrieval-versterkte benaderingen, integreert RA-CM3 zijn opgehaalde kennis niet naadloos. In plaats daarvan superponeert het nieuwe gegevens tegen zijn pre-getrainde netwerk, veel zoals een LLM antwoorden aanvult met zoekresultaten. Hoewel deze methode de feitelijke nauwkeurigheid kan verbeteren, vervangt het niet de noodzaak voor trainingsupdates in domeinen waar diepe synthese vereist is.

Bovendien lijkt een praktische implementatie van dit systeem niet te zijn uitgebracht, zelfs niet naar een API-gebaseerde platform.

RealRAG

Een nieuwe release uit China, en degene die deze blik op RAG-geïntegreerde generatieve beeldsystemen heeft uitgelokt, is genaamd Retrieval-Augmented Realistic Image Generation (RealRAG).

Externe afbeeldingen getrokken in RealRAG (onderste midden). Source: https://arxiv.o7rg/pdf/2502.00848

RealRAG haalt werkelijke afbeeldingen van relevante objecten op uit een database die is gecurd uit openbaar beschikbare datasets zoals ImageNet, Stanford Cars, Stanford Dogs, en Oxford Flowers. Het integreert deze opgehaalde afbeeldingen vervolgens in het generatieproces, waardoor kennislacunes in het model worden aangepakt.

Een belangrijk onderdeel van RealRAG is zelfreflecterende contrastieve leren, dat een ophaalmodel traint om informatieve referentie-afbeeldingen te vinden, in plaats van alleen visueel soortgelijke afbeeldingen.