Andersons vinkel

Att korrigera diffusionmodellers begränsade förståelse för speglar och reflektioner

Publicerad 28 april 2025

Uppdaterad 19 maj 2026

Martin Anderson

Sedan generativ AI började väcka allmänhetens intresse har datavetenskapsforskningen fördjupat sitt intresse för att utveckla AI-modeller som kan förstå och replikera fysiska lagar; dock har utmaningen att lära maskinlärningssystem att simulera fenomen som tyngdkraft och vätskedynamik varit ett betydande fokus för forskningsinsatser under minst de senaste fem åren.

Sedan latenta diffusionsmodeller (LDM) kom att dominera den generativa AI-scenen 2022, har forskare alltmer fokuserat på LDM-arkitekturernas begränsade förmåga att förstå och återge fysikaliska fenomen. Nu har detta problem fått ytterligare betydelse med den banbrytande utvecklingen av OpenAI:s generativa videomodell Sora, och den (förmodligen) mer betydelsefulla nyligen släppta öppen källkods-video-modellerna Hunyuan Video och Wan 2.1.

Reflekterar dåligt

De flesta forskningsinsatser som syftar till att förbättra LDM:s förståelse av fysik har fokuserat på områden som gångsimulering, partikelfysik och andra aspekter av newtonska rörelser. Dessa områden har väckt uppmärksamhet eftersom inkonsekvenser i grundläggande fysikaliska beteenden omedelbart skulle undergräva autenticiteten hos AI-genererade videor.

En mindre men växande forskningssträng fokuserar på en av LDM:s största svagheter – dess relativa oförmåga att producera exakta reflektioner.

Från januari 2025-papperet ‘Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections’, exempel på ‘reflektionsfel’ jämfört med forskarnas egen metod. Källa: https://arxiv.org/pdf/2409.14677

Detta problem var också en utmaning under CGI-eran och kvarstår inom dataspelsbranschen, där ray-tracing-algoritmer simulerar ljusets bana när det interagerar med ytor. Ray-tracing beräknar hur virtuella ljusstrålar studsar eller passerar genom objekt för att skapa realistiska reflektioner, refraktioner och skuggor.

Men eftersom varje ytterligare studsning kraftigt ökar beräkningskostnaden, måste realtidsapplikationer avväga latens mot noggrannhet genom att begränsa antalet tillåtna ljusstrålar.

En representation av en virtuell ljusstråle i en traditionell 3D-baserad (dvs. CGI) scenario, som använder tekniker och principer som först utvecklades på 1960-talet och som nådde sin kulmen mellan 1982-93 (perioden mellan ‘Tron’ [1982] och ‘Jurassic Park’ [1993]). Källa: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

Till exempel kan en representation av en kromad tekanna framför en spegel innebära en ray-tracing-process där ljusstrålar studsar upprepade gånger mellan reflekterande ytor, skapar en nästan oändlig loop med liten praktisk nytta för den slutliga bilden. I de flesta fall räcker en reflektionsdjup på två till tre studsningar redan för att överstiga vad betraktaren kan uppfatta. En enda studsning skulle resultera i en svart spegel, eftersom ljuset måste fullborda minst två resor för att bilda en synlig reflektion.

Varje ytterligare studsning ökar beräkningskostnaden kraftigt, ofta fördubblar renderingtider, vilket gör snabbare hantering av reflektioner en av de mest betydande möjligheterna för att förbättra ray-tracerad renderingkvalitet.

Naturligtvis förekommer reflektioner och är essentiella för fotorealism i långt mindre uppenbara scenarier – som reflekterande ytor på en stadsgata eller en slagfält efter regn; reflektionen av den motsatta gatan i en butiksfönster eller glasdörr; eller i glasögonen på avbildade karaktärer, där objekt och miljöer kan krävas för att framträda.

En simulerad dubbelreflektion uppnådd via traditionell kompositing för en ikonisk scen i ‘The Matrix’ (1999).

Bildproblem

Av denna anledning har ramverk som var populära före diffusionmodellernas tillkomst, som Neurala Radiancefält (NeRF), och vissa senare utmanare som Gaussisk Sprutning har haft sina egna svårigheter att åstadkomma reflektioner på ett naturligt sätt.

REF²-NeRF-projektet (avbildat nedan) föreslog en NeRF-baserad modellering av scener som innehåller ett glasfall. I denna metod modellerades refraction och reflektion med hjälp av element som var beroende av och oberoende av betraktarens perspektiv. Denna metod tillät forskarna att uppskatta ytor där refraction skedde, specifikt glasytor, och möjliggjorde separation och modellering av både direkt och reflekterat ljus.

Exempel från Ref2Nerf-papperet. Källa: https://arxiv.org/pdf/2311.17116

Andra NeRF-relaterade reflektionslösningar under de senaste 4-5 åren har inkluderat NeRFReN, Reflecting Reality och Metas 2024 Planar Reflection-Aware Neural Radiance Fields projekt.

För GSplat har papper som Mirror-3DGS, Reflekterande Gaussisk Sprutning och RefGaussian erbjudit lösningar avseende reflektionsproblemet, medan 2023 Nero-projektet föreslog en specialanpassad metod för att införa reflekterande egenskaper i neurala representationer.

Spegelvärlden

Att få en diffusionsmodell att respektera reflektionslogik är förmodligen svårare än med explicita, icke-semantiska tillvägagångssätt som Gaussisk Sprutning och NeRF. I diffusionsmodeller är en regel av detta slag endast troligen att bli tillförlitligt inbäddad om träningsdata innehåller många varierade exempel över ett brett spektrum av scenarier, vilket gör den starkt beroende av distributionen och kvaliteten på den ursprungliga datamängden.

Traditionellt är tillägg av specifika beteenden av detta slag inom ramen för en LoRA eller finjustering av basmodellen; men dessa är inte ideala lösningar, eftersom en LoRA tenderar att sneda utdata mot sin egen träningsdata, även utan prompting, medan finjusteringar – förutom att de är dyra – kan göra att en stor modell avviker oåterkalleligt från huvudfåran och genererar en mängd anpassade verktyg som aldrig kommer att fungera med någon annan variant av modellen, inklusive den ursprungliga.

Generellt kräver förbättring av diffusionsmodeller att träningsdata fokuserar mer på fysiken bakom reflektion. Men många andra områden behöver också liknande särskild uppmärksamhet. I sammanhanget med hyperskale-dataset, där anpassad kurering är kostsam och svår, är det omöjligt att åtgärda varje enskild svaghet på detta sätt.

Trots allt dyker lösningar på LDM-reflektionsproblemet upp då och då. En nylig sådan insats, från Indien, är MirrorVerse-projektet, som erbjuder en förbättrad datamängd och träningsmetod som kan förbättra tillståndet inom denna specifika utmaning inom diffusionsforskning.

Höger, resultaten från MirrorVerse jämfört med två tidigare tillvägagångssätt (mellersta två kolumner). Källa: https://arxiv.org/pdf/2504.15397

Som vi kan se i exemplet ovan (funktionen i PDF-filen för den nya studien), förbättrar MirrorVerse de senaste erbjudandena som hanterar samma problem, men är långt ifrån perfekt.

I den övre bilden ser vi att de keramiska krukorna är något till höger om där de borde vara, och i bilden nedan, som tekniskt sett inte borde innehålla en reflektion av koppen alls, har en inkorrekt reflektion skjutits in i högerområdet, mot den logiska reflektionsvinkeln.

Därför kommer vi att undersöka den nya metoden inte så mycket för att den kan representera den nuvarande tillståndskonsten inom diffusionsbaserad reflektion, utan också för att illustrera den utsträckning till vilken detta kan visa sig vara ett olösligt problem för latenta diffusionsmodeller, både statiska och videobaserade, eftersom de erforderliga dataexemplen på reflektivitet sannolikt är sammanflätade med specifika handlingar och scenarier.

Därför kan denna specifika funktion hos LDM fortsätta att vara underlägsen struktur-specifika tillvägagångssätt som NeRF, GSplat och traditionell CGI.

Den nya artikeln har titeln MirrorVerse: Pushing Diffusion Models to Realistically Reflect the World och kommer från tre forskare vid Vision and AI Lab, IISc Bangalore, och Samsung R&D Institute i Bangalore. Artikeln har en associerad projektsida, samt en datamängd på Hugging Face, med källkod släppt på GitHub.

Metod

Forskarna påpekar från början den svårighet som modeller som Stable Diffusion och Flux har med att respektera reflektionsbaserade promter, och illustrerar problemet med elegans:

Från papperet: Nuvarande tillståndskonst inom text-till-bild-modeller, SD3.5 och Flux, visade betydande utmaningar i att producera konsekventa och geometriskt korrekta reflektioner när de ombads att generera dem i en scen.

Forskarna har utvecklat MirrorFusion 2.0, en diffusionsbaserad generativ modell som syftar till att förbättra fotorealismen och den geometriska noggrannheten hos spegelreflektioner i syntetiska bilder. Träning för modellen baserades på forskarnas egen nyskapade datamängd, betitlad MirrorGen2, som utformades för att åtgärda generaliserings-svagheter observerade i tidigare tillvägagångssätt.

MirrorGen2 utvidgar tidigare metoder genom att införa slumpmässig objektpositionering, slumpmässiga rotationer och explicit objektförankring, med målet att säkerställa att reflektioner förblir trovärdiga över en bredare variation av objektpositioner och placeringar i förhållande till spegelytan.

Schema för generering av syntetiska data i MirrorVerse: datamängds-genereringspipelinen tillämpade nyckelaugmenteringar genom att slumpmässigt positionera, rotera och förankra objekt inom scenen med hjälp av 3D-Positioneraren. Objekt är också parade i semantiskt sammanhängande kombinationer för att simulera komplexa rumsliga relationer och ocklusioner, vilket tillåter datamängden att fånga mer realistiska interaktioner i multi-objektscener.

För att ytterligare stärka modellens förmåga att hantera komplexa rumsliga arrangemang, inkorporerar MirrorGen2-pipelinen parade objektscener, vilket möjliggör för systemet att bättre representera ocklusioner och interaktioner mellan flera element i reflekterande miljöer.

Artikeln påpekar:

‘Kategorier är manuellt parade för att säkerställa semantisk sammanhängighet – till exempel, parning av en stol med ett bord. Under rendering, efter positionering och rotation av det primära [objektet], sampas ett ytterligare [objekt] från den parade kategorin och arrangeras för att undvika överlappning, vilket säkerställer distinkta rumsliga områden inom scenen.’

I fråga om explicit objektförankring säkerställde författarna att de genererade objekten var “förankrade” till marken i de syntetiska data som genererades, snarare än att “sväva” olämpligt, vilket kan inträffa när syntetiska data genereras i stor skala eller med högt automatiserade metoder.

Sedan datamängdsinnovation är central för artikeln, kommer vi att fortsätta tidigare än vanligt till denna sektion av täckningen.

Data och tester

SynMirrorV2

Forskarnas SynMirrorV2-datamängd konceptualiserades för att förbättra mångfalden och realismen hos spegelreflektions-träningsdata, med 3D-objekt hämtade från Objaverse och Amazon Berkeley Objects (ABO)-datamängderna, med dessa urval sedan raffinerade genom OBJECT 3DIT, samt filterprocessen från V1 MirrorFusion-projektet, för att eliminera lågkvalitets-tillgångar. Detta resulterade i en raffinerad pool på 66 062 objekt.

Exempel från Objaverse-datamängden, som användes för att skapa den kuraterade datamängden för det nya systemet. Källa: https://arxiv.org/pdf/2212.08051

Scenkonstruktionen innebar att placera dessa objekt på texturerade golv från CC-Textures och HDRI-bakgrunder från PolyHaven-CGI-repositoriet, med antingen fullväggs- eller höga rektangulära speglar. Belysningen standardiserades med en area-ljuskälla placerad ovanför och bakom objekten, i en 45-graders vinkel. Objekten skalades för att passa inom en enhetscub och positionerades med hjälp av en förberäknad skärning av spegel- och kameravyns frustumer, vilket säkerställde synlighet.

Slumpmässiga rotationer tillämpades runt y-axeln, och en förankringsteknik användes för att förhindra ‘flytande artefakter’.

För att simulera mer komplexa scener, inkorporerade datamängden också flera objekt arrangerade enligt semantiskt sammanhängande parningar baserade på ABO-kategorier. Sekundära objekt placerades för att undvika överlappning, skapande 3 140 multi-objektscener utformade för att fånga varierade ocklusioner och djuprelationer.

Exempel på renderade vyer från författarnas datamängd som innehåller flera (mer än två) objekt, med illustrationer av objektssegmentering och djupkartsvisualiseringar som visas nedan.

Träningsprocess

Med erkännande av att syntetisk realism ensam var otillräcklig för robust generalisering till verkliga data, utvecklade forskarna en tre-stegs läroprocess för att träna MirrorFusion 2.0.

I Steg 1 initierade författarna vikterna för både konditionerings- och genereringsgrenarna med Stable Diffusion v1.5-kontrollpunkten, och finjusterade modellen på den enskilda objekts-träningsdelen av SynMirrorV2-datamängden. Till skillnad från den ovan nämnda Reflecting Reality-projektet, frös forskarna inte genereringsgrenen. De tränade sedan modellen i 40 000 iterationer.

I Steg 2 finjusterades modellen i ytterligare 10 000 iterationer på den multi-objekt-träningsdelen av SynMirrorV2, för att lära systemet att hantera ocklusioner och de mer komplexa rumsliga arrangemang som finns i realistiska scener.

Slutligen, i Steg 3, utfördes ytterligare 10 000 iterationer av finjustering med hjälp av verkliga data från MSD-datamängden, med hjälp av djupkartor genererade av Matterport3D-monokulär djupuppskattare.

Exempel från MSD-datamängden, med verkliga scener analyserade i djup- och segmenteringskartor. Källa: https://arxiv.org/pdf/1908.09101

Under träning utelämnades textprompts under 20 procent av träningstiden för att uppmuntra modellen att göra optimalt bruk av den tillgängliga djupinformationen (dvs. en ‘maskerad’ tillvägagångssätt).

Träning skedde på fyra NVIDIA A100-GPU:er för alla steg (VRAM-specifikationen anges inte, men den skulle ha varit 40 GB eller 80 GB per korthus). En inlärningshastighet på 1e^-5 användes med en batchstorlek på 4 per GPU, under AdamW-optimeraren.

Denna träningsplan progressivt ökade svårighetsgraden av uppgifter som presenterades för modellen, börjande med enklare syntetiska scener och fortsatte mot mer utmanande kompositioner, med avsikt att utveckla robusta verkliga överföringsförmågor.

Testning

Författarna utvärderade MirrorFusion 2.0 mot den tidigare tillståndskonsten, MirrorFusion, som fungerade som baslinjen, och genomförde experiment på MirrorBenchV2-datamängden, som täckte både enskilda och multi-objektscener.

Ytterligare kvalitativa tester genomfördes på prover från MSD-datamängden och Google Scanned Objects (GSO)-datamängden.

Utvarderingen använde 2 991 enskilda objektbilder från sedda och osedda kategorier, och 300 två-objektscener från ABO. Prestanda mättes med hjälp av Peak Signal-to-Noise Ratio (PSNR); Structural Similarity Index (SSIM); och Lärd Perceptuell Bildpatch-Likhet (LPIPS)-poäng, för att bedöma reflektionskvalitet på den maskerade spegelregionen. CLIP-likhet användes för att utvärdera textuell anpassning till indata-prompts.

I kvantitativa tester genererade författarna bilder med hjälp av fyra frön för en specifik prompt, och valde den resulterande bilden med den bästa SSIM-poängen. De två rapporterade tabellerna med resultat för de kvantitativa testerna visas nedan.

Vänster, Kvantitativa resultat för enskild objektsreflektionsgenereringskvalitet på MirrorBenchV2 enskild objektsdel. MirrorFusion 2.0 överträffade baslinjen, med de bästa resultaten markerade i fetstil. Höger, kvantitativa resultat för multi-objektreflektionsgenereringskvalitet på MirrorBenchV2 multi-objektsdel. MirrorFusion 2.0, tränad med flera objekt, överträffade versionen tränad utan dem, med de bästa resultaten markerade i fetstil.

Författarna påpekar:

‘[Resultaten] visar att vår metod överträffar baslinje-metoden och finjustering på flera objekt förbättrar resultaten på komplexa scener.’

Större delen av resultaten, och de som betonas av författarna, gäller kvalitativa tester. På grund av dimensionerna hos dessa illustrationer kan vi bara delvis reproducera papperets exempel.

Jämförelse på MirrorBenchV2: baslinjen misslyckades med att upprätthålla korrekta reflektioner och rumslig sammanhängighet, visade felaktig stolorientering och förvrängda reflektioner av flera objekt, medan (författarna hävdar) MirrorFusion 2.0 korrekt återger stolen och sofforna, med korrekt position, orientering och struktur.

Av dessa subjektiva resultat anser författarna att baslinjemodellen misslyckades med att korrekt återge objektorientering och rumsliga relationer i reflektioner, ofta producerande artefakter som felaktig rotation och flytande objekt. MirrorFusion 2.0, tränad på SynMirrorV2, återger (enligt författarna) korrekt objektorientering och position i både enskilda och multi-objektscener, vilket resulterar i mer realistiska och sammanhängande reflektioner.

Nedan ser vi kvalitativa resultat på den ovannämnda GSO-datamängden:

Jämförelse på GSO-datamängden. Baslinjen missrepresenterade objektsstruktur och producerade ofullständiga, förvrängda reflektioner, medan MirrorFusion 2.0 (enligt författarna) bevarar rumslig integritet och genererar korrekt geometri, färg och detalj, även för objekt utanför distributionen.

Här påpekar författarna:

‘MirrorFusion 2.0 genererar betydligt mer exakta och realistiska reflektioner. Till exempel i Fig. 5 (a – ovan), genererar MirrorFusion 2.0 korrekt reflektionen av handtagen (markerad i grönt), medan baslinjemodellen producerar en otrolig reflektion (markerad i rött). ‘

‘Likaså, för “Vit-Gul mugg” i Fig. 5 (b), levererar MirrorFusion 2.0 en övertygande geometri med minimala artefakter, till skillnad från baslinjen, som misslyckas med att korrekt fånga objektsgeometri och utseende.’

Den sista kvalitativa testet var mot den ovannämnda verkliga MSD-datamängden (delvisa resultat visas nedan):

Verkliga scenresultat som jämför MirrorFusion, MirrorFusion 2.0 och MirrorFusion 2.0, finjusterad på MSD-datamängden. MirrorFusion 2.0 (enligt författarna) fångar komplexa scendetaljer mer exakt, inklusive klädsamma objekt på ett bord och närvaron av flera speglar inom en tredimensionell miljö. Endast delvisa resultat visas här, på grund av dimensionerna hos resultaten i den ursprungliga artikeln, till vilken vi hänvisar läsaren för fullständiga resultat och bättre upplösning.

Här påpekar författarna att medan MirrorFusion 2.0 presterade bra på MirrorBenchV2- och GSO-data, hade den initialt svårt med komplexa verkliga scener i MSD-datamängden. Finjustering av modellen på en delmängd av MSD förbättrade dess förmåga att hantera klädsamma miljöer och flera speglar, vilket resulterade i mer sammanhängande och detaljerade reflektioner på den testdel som hölls tillbaka.

Dessutom genomfördes en användarstudie, där 84 procent av användarna rapporterades ha föredragit generationer från MirrorFusion 2.0 jämfört med baslinjemetoden.

Resultat från användarstudien.

Eftersom detaljer om användarstudien har förvisats till artikeln appendix, hänvisar vi läsaren till den för specifik information om studien.

Slutsats

Även om flera av resultaten som visas i artikeln är imponerande förbättringar av tillståndskonsten, är tillståndskonsten för detta specifika företag så usel att till och med en icke-övertygande sammansatt lösning kan vinna med minimal ansträngning. Den grundläggande arkitekturen för en diffusionsmodell är ofördelaktig för att tillförlitligt lära och demonstrera konsekvent fysik, så att problemet är dåligt formulerat och tycks inte vara benäget för en elegant lösning.

Ytterligare, att lägga till data till befintliga modeller är redan den standardmetod som används för att avhjälpa brister i LDM-prestanda, med alla de nackdelar som nämns tidigare. Det är rimligt att anta att om framtida högskale-dataset skulle ägna mer uppmärksamhet åt distributionen (och annoteringen) av reflektionsrelaterade datapunkter, kunde vi förvänta oss att de resulterande modellerna skulle hantera denna scenariot bättre.

Ändå är samma sak sant för flera andra problem i LDM-utdata – vem kan säga vilken av dem som mest förtjänar den ansträngning och pengar som är involverade i den typ av lösning som författarna till den nya artikeln föreslår här?

Publicerad första gången måndagen den 28 april 2025. Tisdagen den 29 april: gjorde grammatisk korrigering i de sista styckena.