Andersonov kot
Prihodnost RAG-Augmented Image Generation

Modeli generativne difuzije, kot sta Stable Diffusion, Flux, in video modeli, kot je Hunyuan, se zanašajo na znanje, pridobljeno med eno samo sejo usposabljanja, ki zahteva veliko virov, z uporabo fiksnega nabora podatkov. Vsi koncepti, uvedeni po tem usposabljanju – imenovani meja znanja – niso prisotne v modelu, razen če so dopolnjene fina nastavitev ali zunanjimi tehnikami prilagajanja, npr Nizka prilagoditev (LoRA).
Zato bi bilo idealno, če bi lahko obstajal generativni sistem, ki bi oddajal slike ali videe se obrnite na spletne vire in jih po potrebi vključite v proces ustvarjanja. Na ta način bi lahko na primer difuzijski model, ki ne ve ničesar o najnovejši izdaji Apple ali Tesla, še vedno ustvaril slike, ki vsebujejo te nove izdelke.
V zvezi z jezikovnimi modeli večina od nas pozna sisteme, kot so Perplexity, Notebook LM in ChatGPT-4o, ki lahko vključujejo nove zunanje informacije v Povečana generacija pridobivanja (RAG) model.

Zaradi procesov RAG so odgovori ChatGPT 4o bolj relevantni. Vir: https://chatgpt.com/
Vendar pa je to neobičajna možnost, ko gre za ustvarjanje slik, in ChatGPT bo v zvezi s tem priznal svoje omejitve:

ChatGPT 4o je dobro ugibal o vizualizaciji popolnoma nove izdaje ure na podlagi splošne linije in opisov, ki jih je interpretiral; vendar ne more 'absorbirati' in integrirati novih slik v generacijo, ki temelji na DALL-E.
Vključevanje zunanje pridobljenih podatkov v ustvarjeno sliko je zahtevno, ker je treba dohodno sliko najprej razčleniti na žetone in vdelave, ki se nato preslikajo v najbližje usposobljeno področje znanja modela o predmetu.
Medtem ko ta postopek deluje učinkovito za orodja po usposabljanju, kot je ControlNet, ostajajo takšne manipulacije večinoma površne, v bistvu usmerjajo pridobljeno sliko skozi cevovod za upodabljanje, vendar brez njene globoke integracije v notranjo predstavitev modela.
Posledično model nima zmožnosti ustvarjanja novih perspektiv na način, ki ga uporabljajo sistemi nevronskega upodabljanja, kot je NeRF lahko, ki konstruirajo prizore s pravim prostorskim in strukturnim razumevanjem.
Zrela logika
Podobna omejitev velja za poizvedbe, ki temeljijo na RAG, v velikih jezikovnih modelih (LLM), kot je Perplexity. Ko model te vrste obdeluje podatke, pridobljene od zunaj, deluje podobno kot odrasel človek, ki črpa iz vseživljenjskega znanja, da sklepa o verjetnosti o temi.
Vendar, tako kot oseba ne more retroaktivno vključiti novih informacij v kognitivni okvir, ki je oblikoval njen temeljni pogled na svet – ko so se njene pristranskosti in predsodki še oblikovali – LLM ne more neopazno združiti novega znanja v svojo predhodno usposobljeno strukturo.
Namesto tega lahko samo 'vpliva' na nove podatke ali jih primerja z obstoječim ponotranjenim znanjem, pri čemer uporablja naučena načela za analizo in domnevo, namesto da bi sintetiziral na temeljni ravni.
Ta kratek padec enakovrednosti med nasproti in ponotranjili generacija je verjetno bolj očitna v ustvarjeni podobi kot v generaciji, ki temelji na jeziku: globlje omrežne povezave in povečana ustvarjalnost "native" (namesto RAG-osnovane) generacije je bila vzpostavljena v študij.
Skrita tveganja generiranja slik, ki podpira RAG
Tudi če bi bilo tehnično izvedljivo brezhibno integrirati pridobljene internetne slike v na novo sintetizirane na način RAG, bi omejitve, povezane z varnostjo, predstavljale dodaten izziv.
Številni nabori podatkov, ki se uporabljajo za usposabljanje generativnih modelov, so bili izbrani tako, da zmanjšajo prisotnost eksplicitne, rasistične ali nasilne vsebine med drugimi občutljivimi kategorijami. Vendar je ta proces nepopoln in preostale povezave lahko ostanejo. Da bi to ublažili, se sistemi, kot sta DALL·E in Adobe Firefly, zanašajo na mehanizme sekundarnega filtriranja, ki pregledujejo vhodne pozive in ustvarjene izhode za prepovedano vsebino.
Posledično preprost filter NSFW – tisti, ki primarno blokira odkrito eksplicitno vsebino – ne bi zadostoval za ovrednotenje sprejemljivosti pridobljenih podatkov, ki temeljijo na RAG. Takšna vsebina je lahko še vedno žaljiva ali škodljiva na načine, ki ne spadajo v okvire vnaprej določenih parametrov moderiranja modela, kar lahko uvaja gradivo, ki ga umetna inteligenca ne pozna konteksta, da bi ga pravilno ocenil.
Odkritje nedavno ranljivost v DeepSeek, ki ga je proizvedla KPK, namenjenem zatiranju razprav o prepovedanih političnih vsebinah, je poudaril, kako je mogoče izkoristiti alternativne vhodne poti, da bi zaobšli etične zaščitne ukrepe modela; verjetno to velja tudi za poljubne nove podatke, pridobljene iz interneta, ko naj bi jih vključili v novo generacijo slik.
RAG za ustvarjanje slik
Kljub tem izzivom in kočljivim političnim vidikom so se pojavili številni projekti, ki poskušajo uporabiti metode, ki temeljijo na RAG, za vključitev novih podatkov v vizualne generacije.
ReDi
2023 Difuzija na podlagi iskanja (ReDi) project je okvir brez učenja, ki pospeši sklepanje o difuzijskem modelu s pridobivanjem podobnih trajektorije iz vnaprej izračunane baze znanja.

Vrednosti iz nabora podatkov si lahko 'izposodite' za novo generacijo v ReDi. Vir: https://arxiv.org/pdf/2302.02285
V kontekstu difuzijskih modelov je trajektorija korak za korakom pot, ki jo ubere model, da ustvari sliko iz čisti hrup. Običajno se ta postopek zgodi postopoma v številnih korakih, pri čemer vsak korak nekoliko bolj izboljša sliko.
ReDi to pospeši tako, da preskoči veliko teh korakov. Namesto izračuna vsakega posameznega koraka pridobi podobno preteklo trajektorijo iz baze podatkov in skoči naprej na poznejšo točko v procesu. To zmanjša število potrebnih izračunov, zaradi česar je generiranje slik na osnovi difuzije veliko hitrejše, hkrati pa ohranja visoko kakovost.
ReDi ne spreminja difuzijskih modelov Uteži, vendar namesto tega uporablja bazo znanja za preskok vmesnih korakov in s tem zmanjša število ocen funkcij, potrebnih za vzorčenje.
Seveda to ni isto kot vključevanje določenih slik po želji v zahtevo za generiranje; vendar se nanaša na podobne vrste generacije.
Izdano leta 2022, v letu, ko so bili modeli latentne difuzije Zajeto javnosti se zdi, da je ReDi med najzgodnejšimi pristopi, ki temeljijo na difuziji in se opirajo na metodologijo RAG.
Čeprav je treba omeniti, da je leta 2021 raziskava Facebook objavila Primerno pogojen GAN, ki je skušala pogoj GAN slike na novih vnosih slik, te vrste Projekcija v latentni prostor je v literaturi izjemno pogost, tako za GAN kot za modele difuzije; izziv je narediti tak proces brez usposabljanja in delovati v realnem času, kot so metode RAG, osredotočene na LLM.
RDM
Še en zgodnji napad na ustvarjanje slik, razširjenih z RAG, je Priklicno razširjeni difuzijski modeli (RDM), ki uvaja pol-parametrična pristop k generativni sintezi slik. Medtem ko tradicionalni difuzijski modeli shranjujejo vse naučeno vizualno znanje znotraj svojih parametrov nevronske mreže, se RDM opira na zunanjo podatkovno zbirko slik:

Pridobljeni najbližji sosedi v ilustrativni psevdo poizvedbi v RDM*.
Med treningom se model dvigne najbližji sosedje (vizualno ali pomensko podobne slike) iz zunanje baze podatkov, za vodenje procesa ustvarjanja. To omogoča modelu, da svoje rezultate prilagodi vizualnim primerkom iz resničnega sveta.
Postopek pridobivanja poganja CLIP vdelave, zasnovane tako, da prisilijo pridobljene slike, da si delijo pomembne podobnosti s poizvedbo, in tudi zagotovijo nove informacije za izboljšanje generiranja.
To zmanjša odvisnost od parametrov in omogoča manjše modele, ki dosegajo konkurenčne rezultate brez potrebe po obsežnih naborih podatkov za usposabljanje.
Pristop RDM podpira post-hoc modifikacije: raziskovalci lahko zamenjajo bazo podatkov v času sklepanja, kar omogoča brezhibno prilagajanje novim slogom, domenam ali celo povsem drugačnim nalogam, kot sta stilizacija ali razredno pogojna sinteza.

V spodnjih vrsticah vidimo najbližje sosede, ki so vključeni v proces difuzije v RDM*.
Ključna prednost RDM je njegova zmožnost izboljšanja generiranja slike brez ponovnega usposabljanja modela. S preprostim spreminjanjem baze podatkov za iskanje lahko model posploši na nove koncepte, za katere ni bil nikoli izrecno usposobljen. To je še posebej uporabno za aplikacije, kjer premiki domene pojavijo, kot je ustvarjanje medicinskih posnetkov na podlagi razvijajočih se naborov podatkov ali prilagajanje modelov besedila v sliko za kreativne aplikacije.
Negativno pa so tovrstne metode, ki temeljijo na iskanju, odvisne od kakovosti in ustreznosti zunanje baze podatkov, zaradi česar je skrbništvo podatkov pomemben dejavnik pri doseganju visokokakovostnih generacij; in ta pristop je daleč od sinteze slike, ki je enaka vrsti interakcij na podlagi RAG, ki so značilne za komercialne LLM.
ReMoDiffuse
ReMoDiffuse je model difuzije gibanja s priklicem, ki je zasnovan za generiranje 3D človeškega gibanja. Za razliko od tradicionalni modeli generiranja gibanja ki se zanašajo zgolj na naučene predstavitve, ReMoDiffuse pridobi ustrezne vzorce gibanja iz velikega nabora podatkov o gibanju in jih integrira v postopek odstranjevanja šumov v shemi, podobni RDM (glejte zgoraj).

Primerjava RAG-razširjenega ReMoDiffuse (skrajno desno) s prejšnjimi metodami. Vir: https://arxiv.org/pdf/2304.01116
To omogoča modelu, da ustvari sekvence gibanja, oblikovane tako, da so bolj naravne in raznolike, pa tudi pomensko zveste besedilnim pozivom uporabnika.
ReMoDiffuse uporablja inovativno hibridni mehanizem pridobivanja, ki izbira sekvence gibanja na podlagi semantičnih in kinematičnih podobnosti, z namenom zagotoviti, da pridobljena gibanja niso le tematsko pomembna, ampak tudi fizično verjetna, ko so vključena v novo generacijo.
Model nato izboljša te pridobljene vzorce z uporabo a Semantično moduliran transformator, ki selektivno vključuje znanje iz pridobljenih gibov, hkrati pa ohranja značilne lastnosti ustvarjenega zaporedja:

Shema za cevovod ReMoDiffuse.
Projekt je Pogoj Mešanica tehnika izboljša zmožnost modela za posploševanje v različnih pozivih in pogojih pridobivanja, uravnava pridobljene vzorce gibanja z besedilnimi pozivi med generiranjem in prilagaja, koliko teže ima vsak vir pri vsakem koraku.
To lahko pomaga preprečiti nerealne ali ponavljajoče se rezultate, tudi za redke pozive. Obravnava tudi težava z občutljivostjo na lestvico ki se pogosto pojavi v vodenje brez klasifikatorjev tehnike, ki se običajno uporabljajo v difuzijskih modelih.
RA-CM3
Stanford 2023 Paper Retrieval-Augmented Multimodal Language Modeling (RA-CM3) omogoča sistemu dostop do informacij iz resničnega sveta v času sklepanja:

Stanfordov model RA-CM3 (Retrieval-Augmented Multimodal Language Modeling) uporablja slike, pridobljene iz interneta, za izboljšanje procesa generiranja, vendar ostaja prototip brez javnega dostopa. Vir: https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf
RA-CM3 integrira pridobljeno besedilo in slike v cevovod za generiranje, kar izboljša sintezo besedila v sliko in slike v besedilo. Uporaba CLIP za iskanje in a Transformer kot generator se model sklicuje na ustrezne multimodalne dokumente, preden sestavi izhod.
Primerjalna merila na MS-COCO kažejo opazne izboljšave v primerjavi z DALL-E in podobnimi sistemi, saj dosegajo 12 točk Začetna razdalja Fréchet (FID) z veliko nižjimi računskimi stroški.
Vendar, tako kot pri drugih pristopih, razširjenih z iskanjem, RA-CM3 ne ponotranji brezhibno svojega pridobljenega znanja. Namesto tega prekriva nove podatke s svojim vnaprej usposobljenim omrežjem, podobno kot LLM, ki dopolnjuje odgovore z rezultati iskanja. Čeprav lahko ta metoda izboljša natančnost dejstev, ne nadomesti potrebe po posodobitvah usposabljanja na področjih, kjer je potrebna globoka sinteza.
Poleg tega se zdi, da praktična izvedba tega sistema ni bila izdana, niti za platformo, ki temelji na API-ju.
RealRAG
A nova izdaja iz Kitajske in tista, ki je spodbudila ta pogled na generativne slikovne sisteme, razširjene z RAG, se imenuje Generiranje realistične slike z razširjeno pridobitvijo (RealRAG).

Zunanje slike, narisane v RealRAG (spodnja sredina). Vir: https://arxiv.o7rg/pdf/2502.00848
RealRAG pridobi dejanske slike ustreznih predmetov iz podatkovne baze, kurirane iz javno dostopnih nizov podatkov, kot je npr ImageNet, Stanford Cars, Stanford Dogsin Oxford Flowers. Nato integrira pridobljene slike v proces generiranja in tako odpravi vrzeli v znanju v modelu.
Ključna komponenta RealRAG je samorefleksivno kontrastno učenje, ki usposablja model iskanja za iskanje informativnih referenčnih slik, namesto da samo izbira vizualno podobni tiste.
Avtorji navajajo:
„Naš ključni vpogled je usposobiti prinašalca, ki pridobiva slike, ki ostanejo zunaj generacijskega prostora generatorja, vendar se približajo predstavitvi besedilnih pozivov.
„Za ta [konec] najprej ustvarimo slike iz danih besedilnih pozivov in nato uporabimo ustvarjene slike kot poizvedbe za pridobitev najbolj ustreznih slik v zbirki podatkov, ki temelji na resničnih objektih. Te najbolj ustrezne slike se uporabljajo kot odsevni negativi.'
Ta pristop zagotavlja, da pridobljene slike prispevajo manjkajoče znanje na proces generiranja, namesto da bi okrepili obstoječe pristranskosti v modelu.

Skrajno levo, pridobljena referenčna slika; center, brez RAG; skrajno desno, z uporabo pridobljene slike.
Vendar pa zanašanje na kakovost iskanja in pokritost baze podatkov pomeni, da se lahko njegova učinkovitost razlikuje glede na razpoložljivost visokokakovostnih referenc. Če ustrezna slika ne obstaja v naboru podatkov, se lahko model še vedno spopada z neznanimi koncepti.
RealRAG je zelo modularna arhitektura, ki ponuja združljivost z več drugimi generativnimi arhitekturami, vključno z modeli, ki temeljijo na U-Net, DiT, in avtoregresijskimi modeli.
Na splošno pridobivanje in obdelava zunanjih slik dodatno poveča računske stroške, delovanje sistema pa je odvisno od tega, kako dober je mehanizem za iskanje. posplošuje med različnimi nalogami in nabori podatkov.
zaključek
To je prej reprezentativen kot izčrpen pregled multimodalnih generativnih sistemov za pridobivanje slik. Nekateri sistemi te vrste uporabljajo iskanje izključno za izboljšanje razumevanja vida ali urejanje nabora podatkov, med drugimi različnimi motivi, namesto da bi poskušali ustvariti slike. En primer je Internet Explorer.
Številni drugi projekti, integrirani v RAG, v literaturi ostajajo neobjavljeni. Prototipi, z objavljenimi raziskavami, vključujejo Re-Imagen, ki – kljub poreklu iz Googla – lahko dostopa samo do slik iz lokalne baze podatkov po meri.
Poleg tega je novembra 2024 Baidu razglasitve Generacija razširjenega pridobivanja na podlagi slik (iRAG), nova platforma, ki uporablja pridobljene slike "iz baze podatkov". Čeprav je iRAG domnevno na voljo na platformi Ernie, se zdi, da ni nadaljnjih podrobnosti o tem postopku pridobivanja, ki se zdi, da se zanaša na lokalna baza podatkov (tj. lokalna za storitev in ni neposredno dostopna uporabniku).
Nadalje, 2024 papirja Poenoteno ustvarjanje in iskanje besedila v sliko ponuja še eno metodo, ki temelji na RAG, za uporabo zunanjih slik za izboljšanje rezultatov v času ustvarjanja – spet iz lokalne baze podatkov in ne iz ad hoc internetnih virov.
Navdušenje nad razširitvijo na osnovi RAG pri ustvarjanju slik se bo verjetno osredotočilo na sisteme, ki lahko vključijo slike iz interneta ali uporabnike naložene slike neposredno v proces ustvarjanja in ki uporabnikom omogočajo sodelovanje pri izbiri ali virih slik.
Vendar je to pomemben izziv vsaj iz dveh razlogov; prvič, ker je učinkovitost takšnih sistemov običajno odvisna od globoko povezanih odnosov, oblikovanih med procesom usposabljanja, ki zahteva veliko virov; in drugič, ker zaradi pomislekov glede varnosti, zakonitosti in omejitev avtorskih pravic, kot smo že omenili, je to malo verjetna funkcija za spletno storitev, ki temelji na API-ju, in za komercialno uporabo na splošno.
* Source: https://proceedings.neurips.cc/paper_files/paper/2022/file/62868cc2fc1eb5cdf321d05b4b88510c-Paper-Conference.pdf
Prvič objavljeno v torek, 4. februarja 2025