Andersons vinkel

Fremtiden for RAG-forstærket billedgenerering

Published February 4, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: ‘Decades ago photos were a photochemical process, and typically photographic prints were done in a darkroom, with the wet prints hung from a line like clothes. Show me that environment, with 10 photos drying on a line in darkroom, and a white-coated scientist picking one of them off the line. Bokeh focus, 1792x1024’

Generative diffusionsmodeller som Stable Diffusion, Flux og videomodeller som Hunyuan afhænger af viden, der er erhvervet under en enkelt, ressourcekrævende træningssession med et fast dataset. Enhver koncept, der introduceres efter denne træning – kendt som viden afkørsel – er fraværende i modellen, medmindre den suppleres gennem finjustering eller eksterne tilpasningsmetoder som Low Rank Adaptation (LoRA).

Det ville derfor være ideelt, hvis et generativt system, der producerer billeder eller videoer, kunne tilgå onlinekilder og bringe dem ind i genereringsprocessen efter behov. På denne måde kunne en diffusionsmodel, der intet kender til den aller seneste Apple- eller Tesla-model, stadig producere billeder, der indeholder disse nye produkter.

I forhold til sprogmodeller er de fleste af os bekendt med systemer som Perplexity, Notebook LM og ChatGPT-4o, der kan inkorporere nyt eksternt information i en Retrieval Augmented Generation (RAG)-model.

RAG-processer gør ChatGPT 4o’s svar mere relevante. Kilde: https://chatgpt.com/

Men dette er en usædvanlig facilitet, når det kommer til billedgenerering, og ChatGPT vil indrømme sine egne begrænsninger på dette punkt:

ChatGPT 4o har lavet et godt gæt om visualiseringen af en helt ny ur-model, baseret på den generelle linje og på beskrivelser, den har fortolket; men den kan ikke ’absorbere’ og integrere nye billeder i en DALL-E-baseret generation.

At inkorporere eksternt hentet data i en genereret billed er udfordrende, fordi det indkommende billede først skal brydes ned i tokens og embeddings, som derefter skal kobles til modellens nærmeste trænede domæneviden om emnet.

Selv om denne proces virker effektivt for post-træningsværktøjer som ControlNet, forbliver sådanne manipulationer overvejende overfladiske, hvilket i virkeligheden kanaliserer det hentede billede gennem en renderingspipeline, men uden dybt at integrere det i modellens interne repræsentation.

Som følge heraf mangler modellen evnen til at generere nye perspektiver på samme måde, som neurale renderingsystemer som NeRF kan, der konstruerer scener med sand spatial og strukturel forståelse.

Moden Logik

En lignende begrænsning gælder for RAG-baserede forespørgsler i store sprogmodeller (LLM), såsom Perplexity. Når en model af denne type behandler eksternt hentet data, fungerer den meget ligesom en voksen, der tegner på en livslang viden for at slutte sandsynligheder om et emne.

Men ligesom en person ikke kan retroaktivt integrere ny information i den kognitive ramme, der formede deres grundlæggende verdenssyn – når deres fordomme og antagelser stadig var under udvikling – kan en LLM ikke ubemærket sammenføje ny viden med sin forhåndstrænede struktur.

I stedet kan den kun ’påvirke’ eller stille det nye data op mod sin eksisterende internaliserede viden, ved at bruge lært principper til at analysere og gisne snarere end at syntetisere på et grundlæggende niveau.

Denne mangel på ækvivalens mellem stillet og internaliseret generation er sandsynligvis mere tydelig i en genereret billed end i en sprog-baseret generation: de dybere netværksforbindelser og den øgede kreativitet af ’native’ (i modsætning til RAG-baseret) generation er etableret i forskellige studier.

Skjulte Risici for RAG-kapabel Billedgenerering

Selv hvis det teknisk set var muligt at ubemærket integrere hentede internetbilleder i ny syntetiserede billeder på en RAG-måde, ville sikkerhedsrelaterede begrænsninger stadig udgøre en ekstra udfordring.

Mange datasæt, der bruges til træning af generative modeller, er kurateret for at minimere tilstedeværelsen af eksplicit, racistisk eller voldelig indhold, blandt andre følsomme kategorier. Men denne proces er ikke perfekt, og residuelle associationer kan bestå. For at mildne dette bruger systemer som DALL·E og Adobe Firefly sekundære filtermekanismer, der screener både inputprompts og genererede outputs for forbudt indhold.

Som følge heraf ville en simpel NSFW-filter – en, der primært blokerer åbenlyst eksplicit indhold – være utilstrækkelig til at evaluere acceptabiliteten af hentet RAG-baseret data. Sådant indhold kunne stadig være stødende eller skadeligt på måder, der falder uden for modellens forhåndsbestemte moderationsparametre, potentielt introducerer materiale, som AI mangler den kontekstuelle bevidsthed til at korrekt vurdere.

Opdagelsen af en ny sårbarhed i CCP-produceret DeepSeek, designet til at undertrykke diskussioner om forbudt politisk indhold, har højligtet, hvordan alternative inputveje kan udnyttes til at omgå en modells etiske sikkerhedsforanstaltninger; dette gælder sandsynligvis også for vilkårligt nyt data hentet fra internettet, når det er tiltænkt at blive inkorporeret i en ny billedgeneration.

RAG for Billedgenerering

Trods disse udfordringer og tornefulde politiske aspekter er der opstået en række projekter, der forsøger at bruge RAG-baserede metoder til at inkorporere nyt data i visuelle generationer.

ReDi

ReDi-projektet fra 2023 Retrieval-baseret Diffusion er en læring-fri ramme, der accelererer diffusionsmodelinference ved at hente lignende traektorier fra en forhåndskomputeret videnbas.

Værdier fra et datasæt kan ’lånes’ til en ny generation i ReDi. Kilde: https://arxiv.org/pdf/2302.02285

I sammenhængen med diffusionsmodeller er en traektori den skridt-for-skridt vej, som modellen tager for at generere et billede fra ren støj. Normalt sker denne proces gradvist over mange skridt, hvor hvert skridt refinerer billedet lidt mere.

ReDi accelererer dette ved at springe over en masse af disse skridt. I stedet for at beregne hvert enkelt skridt, henter den en lignende tidligere traektori fra en database og hopper frem til et senere punkt i processen. Dette reducerer antallet af beregninger, der er nødvendige, og gør diffusionsbaseret billedgenerering meget hurtigere, samtidig med at kvaliteten opretholdes.

ReDi ændrer ikke diffusionsmodellens vægte, men bruger i stedet videnbasen til at springe over mellemste skridt, hvilket reducerer antallet af funktionsestimeringer, der er nødvendige for sampling.

Selvfølgelig er dette ikke det samme som at inkorporere specifikke billeder efter behov i en generationforespørgsel; men det relaterer til lignende typer generation.

Udgivet i 2022, året hvor latent diffusionsmodeller fangede den offentlige opmærksomhed, synes ReDi at være blandt de tidligste diffusionsbaserede tilgange til en RAG-metodologi.

Selv om det skal nævnes, at Facebook Research i 2021 udgav Instance-Conditioned GAN, der søger at betinge GAN-billeder på nye billedindgange, er denne type projektion i latent rum meget almindelig i litteraturen, både for GAN og diffusionsmodeller; udfordringen er at gøre en sådan proces træningsfri og funktionsdygtig i realtid, som LLM-fokuserede RAG-metoder er.

RDM

En anden tidlig forsøg på RAG-forstærket billedgenerering er Retrieval-Augmented Diffusion Models (RDM), der introducerer en semi-parametrisk tilgang til generativ billedsynthese. Mens traditionelle diffusionsmodeller gemmer al lært visuel viden inden for deres neurale netværksparametre, afhænger RDM af en ekstern billedatabase:

Hentede nærmeste naboer i en illustrativ pseudo-forespørgsel i RDM*.

Under træning henter modellen nærmeste naboer (visuelt eller semantisk lignende billeder) fra den eksterne database for at guide generationen. Dette tillader modellen at betinge sine outputs på virkelige visuelle eksempler.

Hentningsprocessen er drevet af CLIP-embeddings, designet til at tvinge de hentede billeder til at dele meningsfulde ligheder med forespørgslen, og også til at give nyt information til at forbedre generationen.

Dette reducerer afhængigheden af parametre, hvilket faciliterer mindre modeller, der opnår konkurrencedygtige resultater uden behov for omfattende træningsdatasæt.

RDM-tilgangen understøtter post-hoc-modifikationer: forskere kan udskifte databasen under slutningstid, hvilket tillader nul-skudtilpasning til nye stilarter, domæner eller endda helt andre opgaver, såsom stil- eller klassebetinget syntese.

I de nederste rækker ser vi nærmeste naboer trukket ind i diffusionsprocessen i RDM*.

En nøglefordel ved RDM er dens evne til at forbedre billedgenerering uden at gen-træne modellen. Ved blot at ændre hentningsdatabasen kan modellen generalisere til nye koncepter, den aldrig er blevet eksponeret for under træningen. Dette er særligt nyttigt i applikationer, hvor domæneskift forekommer, såsom generering af medicinsk billedmateriale baseret på udviklende datasæt eller tilpasning af tekst-til-billed-modeller til kreative formål.

Negativt afhænger hentningsbaserede metoder af denne type af kvaliteten og relevansen af den eksterne database, hvilket gør datakurering en vigtig faktor i opnåelse af høj-kvalitets generationer; og denne tilgang forbliver langt fra en billedsynthesesækvivalent til den type RAG-baserede interaktioner, der er typiske i kommercielle LLM.

… (resten af indholdet er oversat på samme måde)