Connect with us

Andersons vinkel

Fremtiden for RAG-forstærket billedegenerering

mm
ChatGPT-4o: ‘Decades ago photos were a photochemical process, and typically photographic prints were done in a darkroom, with the wet prints hung from a line like clothes. Show me that environment, with 10 photos drying on a line in darkroom, and a white-coated scientist picking one of them off the line. Bokeh focus, 1792x1024’

Generative diffusionmodeller som Stable Diffusion, Flux og videomodeller som Hunyuan afhænger af viden, der er erhvervet under en enkelt, ressourcekrævende træningssession med et fast dataset. Enhver koncept, der introduceres efter denne træning – kendt som viden afkørsel – er fraværende fra modellen, medmindre den suppleres gennem finjustering eller eksterne tilpasningsteknikker som Low Rank Adaptation (LoRA).

Det ville derfor være ideelt, hvis et generativt system, der producerer billeder eller videoer, kunne tilgå onlinekilder og bringe dem ind i generationsprocessen efter behov. På denne måde kunne en diffusionmodel, der intet kender til den aller seneste Apple- eller Tesla-model, alligevel producere billeder, der indeholder disse nye produkter.

I forhold til sprogmodeller er de fleste af os bekendt med systemer som Perplexity, Notebook LM og ChatGPT-4o, der kan inkorporere nyt eksternt information i en Retrieval Augmented Generation (RAG)-model.

RAG-processer gør ChatGPT 4o’s svar mere relevante. Kilde: https://chatgpt.com/

RAG-processer gør ChatGPT 4o’s svar mere relevante. Kilde: https://chatgpt.com/

Men dette er en usædvanlig facilitet, når det kommer til billedgenerering, og ChatGPT vil indrømme sine egne begrænsninger på dette punkt:

ChatGPT 4o har lavet et godt gæt om visualiseringen af en helt ny urudgivelse, baseret på den generelle linje og på beskrivelser, den har fortolket; men den kan ikke ’absorbere’ og integrere nye billeder i en DALL-E-baseret generation.

ChatGPT 4o har lavet et godt gæt om visualiseringen af en helt ny urudgivelse, baseret på den generelle linje og på beskrivelser, den har fortolket; men den kan ikke ’absorbere’ og integrere nye billeder i en DALL-E-baseret generation.

At inkorporere eksternt hentet data i en genereret billede er udfordrende, fordi det indkommende billede først skal brydes ned i tokens og indlejring, som derefter skal kobles til modellens nærmeste trænede domæneviden om emnet.

Selv om denne proces virker effektivt for post-træningsværktøjer som ControlNet, forbliver sådanne manipulationer overvejende overfladiske, og fungerer i virkeligheden som en renderingspipeline, men uden dybt at integrere det i modellens interne repræsentation.

Som følge heraf mangler modellen evnen til at generere nye perspektiver på samme måde, som neurale renderingsystemer som NeRF kan, som konstruerer scener med sand spatial og strukturel forståelse.

Moden Logik

En lignende begrænsning gælder for RAG-baserede forespørgsler i Large Language Models (LLM), såsom Perplexity. Når en model af denne type behandler eksternt hentet data, fungerer den meget som en voksen, der tegner på en livslang viden for at slutte sandsynligheder om et emne.

Men ligesom en person ikke kan retroaktivt integrere ny information i den kognitive ramme, der formede deres grundlæggende verdenssyn – når deres fordomme og antagelser stadig var under udvikling – kan en LLM ikke ubesværet sammenføje ny viden i sin forhåndstrænede struktur.

I stedet kan den kun ’påvirke’ eller stille det nye data op mod sin eksisterende internaliserede viden, ved at bruge lært principper til at analysere og gisne snarere end at syntetisere på et grundlæggende niveau.

Denne mangel på ækvivalens mellem juxtaponeret og internaliseret generation er sandsynligvis mere tydelig i en genereret billede end i en sprog-baseret generation: de dybere netværksforbindelser og den øgede kreativitet af ’native’ (i modsætning til RAG-baseret) generation er etableret i forskellige studier.

Skjulte Risici for RAG-kapabel Billedegenerering

Selv hvis det teknisk set var muligt at uhindret integrere hentede internetbilleder i ny syntetiserede billeder på en RAG-måde, ville sikkerhedsrelaterede begrænsninger præsentere en yderligere udfordring.

Mange datasæt, der bruges til træning af generative modeller, er kurateret for at minimere tilstedeværelsen af eksplisit, racistisk eller voldelig indhold, blandt andre følsomme kategorier. Men denne proces er ikke perfekt, og resterende associationer kan bestå. For at mindske dette afhænger systemer som DALL·E og Adobe Firefly af sekundære filtermekanismer, der screener både inputprompts og genererede outputs for forbudt indhold.

Som følge heraf ville en simpel NSFW-filter – en, der primært blokerer åbenlyst eksplisit indhold – være utilstrækkelig til at evaluere acceptabiliteten af hentet RAG-baseret data. Sådant indhold kunne stadig være stødende eller skadeligt på måder, der falder uden for modellens forhåndsbestemte moderationsparametre, potentielt introducerer materiale, som AI mangler kontekstuel bevidsthed til at korrekt vurderer.

Opdagelsen af en ny sårbarhed i CCP-produceret DeepSeek, designet til at undertrykke diskussioner om forbudt politisk indhold, har højligt, hvordan alternative inputveje kan udnyttes til at omgå en modells etiske sikkerhedsforanstaltninger; dette gælder sandsynligvis også for vilkårligt nyt data hentet fra internettet, når det er tiltænkt at blive inkorporeret i en ny billedegeneration.

RAG for Billedegenerering

Trods disse udfordringer og tornefulde politiske aspekter er der opstået en række projekter, der forsøger at bruge RAG-baserede metoder til at inkorporere nyt data i visuelle generationer.

ReDi

2023 Retrieval-baseret Diffusion (ReDi)-projektet er en læring-fri ramme, der accelererer diffusion model inference ved at hente lignende traektorier fra en forhåndskomputeret videnbas.

Værdier fra et datasæt kan ’lånes’ til en ny generation i ReDi. Kilde: https://arxiv.org/pdf/2302.02285

Værdier fra et datasæt kan ’lånes’ til en ny generation i ReDi. Kilde: https://arxiv.org/pdf/2302.02285

I sammenhæng med diffusionmodeller er en traektori den skridt-for-skridt vej, som modellen tager for at generere et billede fra ren støj. Normalt sker denne proces gradvist over mange skridt, hvor hvert skridt refinerer billedet lidt mere.

ReDi accelererer dette ved at springe en masse af disse skridt over. I stedet for at beregne hvert enkelt skridt, henter den en lignende tidligere traektori fra en database og hopper frem til et senere punkt i processen. Dette reducerer antallet af beregninger, der er nødvendige, og gør diffusion-baseret billedegenerering meget hurtigere, samtidig med at kvaliteten holdes høj.

ReDi ændrer ikke diffusion modellens vægte, men bruger i stedet videnbasen til at springe intermediate skridt over, og reducerer således antallet af funktionsestimeringer, der er nødvendige for sampling.

Selvfølgelig er dette ikke det samme som at inkorporere specifikke billeder efter behov i en generationforespørgsel; men det relaterer til lignende typer generation.

Udgivet i 2022, året hvor latent diffusion modeller fangede den offentlige imagination, synes ReDi at være blandt de tidligste diffusion-baserede tilgange til at læne sig op af en RAG-metodik.

Selv om det skal nævnes, at i 2021 udgav Facebook Research Instance-Conditioned GAN, der søger at betinge GAN-billeder på nye billedindgange, er denne type projektion i latente rum meget almindelig i litteraturen, både for GAN og diffusion modeller; udfordringen er at gøre en sådan proces træningsfri og funktionsdygtig i realtid, som LLM-fokuserede RAG-metoder er.

RDM

En anden tidlig forsøg på RAG-forstærket billedegenerering er Retrieval-Augmented Diffusion Models (RDM), der introducerer en semi-parametrisk tilgang til generativ billede-syntese. Mens traditionelle diffusion modeller gemmer al lært visuel viden inden for deres neurale netværksparametre, afhænger RDM af en ekstern billedatabase:

Hentede nærmeste naboer i en illustrativ pseudo-forespørgsel i RDM*.

Hentede nærmeste naboer i en illustrativ pseudo-forespørgsel i RDM*.

Under træning henter modellen nærmeste naboer (visuelt eller semantisk lignende billeder) fra den eksterne database for at guide generationsprocessen. Dette tillader modellen at betinge sine outputs på virkelige visuelle eksempler.

Hentningsprocessen er drevet af CLIP-indlejring, designet til at tvinge de hentede billeder til at dele meningsfulde ligheder med forespørgslen, og også til at give nyt information til at forbedre generation.

Dette reducerer afhængigheden af parametre, hvilket faciliterer mindre modeller, der opnår konkurrencedygtige resultater uden behov for omfattende træningsdatasæt.

RDM-tilgangen understøtter post-hoc-modifikationer: forskere kan udskifte databasen ved inferenstid, hvilket giver mulighed for zero-shot-tilpasning til nye stilarter, domæner eller endda helt andre opgaver, såsom stil- eller klasse-betinget syntese.

I de nedre rækker ser vi nærmeste naboer trukket ind i diffusionprocessen i RDM*.

I de nedre rækker ser vi nærmeste naboer trukket ind i diffusionprocessen i RDM*.

En nøglefordel ved RDM er dens evne til at forbedre billedegeneration uden at gen-træne modellen. Ved blot at ændre hentningsdatabasen kan modellen generalisere til nye koncepter, den aldrig er blevet eksponeret for under træning. Dette er især nyttigt i applikationer, hvor domæne-skift forekommer, såsom generering af medicinske billeder baseret på udviklende datasæt eller tilpasning af tekst-til-billede-modeller til kreative formål.

Negativt afhænger hentnings-baserede metoder af denne type af kvaliteten og relevansen af den eksterne database, hvilket gør datakurering en vigtig faktor i opnåelse af høj-kvalitets generationer; og denne tilgang forbliver langt fra en billedsyntese-ækvivalent af den type RAG-baseret interaktion, der er typisk i kommercielle LLM.

ReMoDiffuse

ReMoDiffuse er en hentnings-forstærket bevægelsesdiffusionsmodel designet til 3D-menneskebevægelsesgeneration. I modsætning til traditionelle bevægelsesgenereringsmodeller, der udelukkende afhænger af lært repræsentationer, henter ReMoDiffuse relevante bevægelsesprøver fra et stort bevægelsesdatasæt og integrerer dem i den afstøbningsproces, i en skema lignende RDM (se ovenfor).

Sammenligning af RAG-forstærket ReMoDiffuse (yderst til højre) med tidligere metoder. Kilde: https://arxiv.org/pdf/2304.01116

Sammenligning af RAG-forstærket ReMoDiffuse (yderst til højre) med tidligere metoder. Kilde: https://arxiv.org/pdf/2304.01116

Dette tillader modellen at generere bevægelsessekvenser, der er designet til at være mere naturlige og diverse, samt semantisk trofaste over for brugerens tekstforespørgsler.

ReMoDiffuse bruger en innovativ hybrid hentningsmekanisme, der vælger bevægelsessekvenser baseret på både semantiske og kinematiske ligheder, med det formål at sikre, at de hentede bevægelser ikke blot er tematisk relevante, men også fysisk plausibelt, når de integreres i den nye generation.

Modellen refinerer derefter disse hentede prøver ved hjælp af en Semantik-Moduleret Transformer, der selektivt inkorporerer viden fra de hentede bevægelser, samtidig med at den opretholder de karakteristiske kvaliteter af den genererede sekvens:

Schema for ReMoDiffuses pipeline.

Schema for ReMoDiffuses pipeline.

Projektets Betingelsesblanding-teknik forbedrer modellens evne til at generalisere på tværs af forskellige forespørgsler og hentningsbetingelser, ved at afbalancere hentede bevægelsesprøver med tekstforespørgsler under generation, og justere, hvor meget vægt hver kilde får ved hvert skridt.

Dette kan hjælpe med at forhindre urealistiske eller gentagne outputs, selv for sjældne forespørgsler. Det adresserer også skala-følsomhedsproblemet, der ofte opstår i klassifikator-fri vejledning-teknikker, der er almindelige i diffusion modeller.

RA-CM3

Stanfords 2023 papir Retrieval-Augmented Multimodal Language Modeling (RA-CM3) giver systemet mulighed for at tilgå virkelige verdensinformationer ved inferenstid:

Stanfords Retrieval-Augmented Multimodal Language Modeling (RA-CM3)-model bruger internet-hentede billeder til at forstærke generationsprocessen, men forbliver en prototype uden offentlig adgang. Kilde: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

Stanfords Retrieval-Augmented Multimodal Language Modeling (RA-CM3)-model bruger internet-hentede billeder til at forstærke generationsprocessen, men forbliver en prototype uden offentlig adgang. Kilde: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

RA-CM3 integrerer hentede tekst og billeder i generationspipeline, og forbedrer både tekst-til-billede- og billede-til-tekst-syntese. Ved hjælp af CLIP til hentning og en Transformer som generator, henviser modellen til relevante multimodale dokumenter, før den komponerer en output.

Benchmark på MS-COCO viser betydelige forbedringer over DALL-E og lignende systemer, og opnår en 12-punkts Fréchet Inception Distance (FID)-reduktion, med langt lavere beregningsomkostninger.

Men, som med andre hentnings-forstærkede tilgange, gør RA-CM3 ikke uhindret sin hentede viden. I stedet overlejrer den nyt data mod sin forhåndstrænede netværk, meget ligesom en LLM, der forstærker svar med søgeresultater. Selv om denne metode kan forbedre faktuelle nøjagtighed, erstatter den ikke behovet for træningsopdateringer i domæner, hvor dyb syntese er nødvendig.

Desuden synes en praktisk implementering af dette system ikke at være blevet udgivet, selv til en API-baseret platform.

RealRAG

En ny udgivelse fra Kina, og den, der har udløst denne gennemgang af RAG-forstærkede generative billedsystemer, er kaldt Retrieval-Augmented Realistisk Billedegeneration (RealRAG).

Eksterne billeder trukket ind i RealRAG (nederst i midten).

Eksterne billeder trukket ind i RealRAG (nederst i midten). Kilde: https://arxiv.o7rg/pdf/2502.00848

RealRAG henter faktiske billeder af relevante objekter fra en database, der er kurateret fra offentligt tilgængelige datasæt, såsom ImageNet, Stanford Cars, Stanford Dogs og Oxford Flowers. Den integrerer derefter de hentede billeder i generationsprocessen, og adresserer videnlækager i modellen.

En nøglekomponent i RealRAG er selv-reflektiv kontrastiv læring, der træner en hentningsmodel til at finde informative referencebilleder, snarere end blot at vælge visuelt lignende billeder.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.