Unghiul lui Anderson
Remedierea înțelegerii limitate a modelelor de difuzie asupra oglinzilor și reflecțiilor

De când IA generativă a început să atragă interesul publicului, domeniul de cercetare a vederii computerizate și-a adâncit interesul pentru dezvoltarea modelelor AI capabile să înțeleagă și să reproducă legile fizice; cu toate acestea, provocarea de a preda sisteme de învățare automată pentru a simula fenomene precum gravitația și dinamica lichidelor a fost un accent semnificativ al eforturilor de cercetare pentru cel puțin ultimii cinci ani.
Întrucât modele de difuzie latentă (LDM) au ajuns să domine scena AI generativă în 2022, au spus cercetătorii din ce în ce mai concentrat pe capacitatea limitată a arhitecturii LDM de a înțelege și reproduce fenomenele fizice. Acum, această problemă a câștigat o importanță sporită odată cu dezvoltarea importantă a modelului video generativ OpenAI Sora, și lansarea recentă (probabil) mai semnificativă a sursei deschise video Modele Hunyuan Video și Wan 2.1.
Reflectând Prost
Majoritatea cercetărilor care vizează îmbunătățirea înțelegerii LDM a fizicii s-au concentrat pe domenii precum simularea mersului, fizica particulelor și alte aspecte ale mișcării newtoniene. Aceste zone au atras atenția, deoarece inexactitățile în comportamentele fizice de bază ar submina imediat autenticitatea videoclipurilor generate de AI.
Cu toate acestea, o mică, dar tot mai mare parte a cercetării se concentrează pe una dintre cele mai mari slăbiciuni ale LDM - aceasta este incapacitatea relativă pentru a produce exacte reflecţii.

Din lucrarea din ianuarie 2025 „Reflectând realitatea: Permiterea modelelor de difuzie să producă reflexii oglindă fidele”, exemple de „eșec al reflexiei” versus propria abordare a cercetătorilor. Sursa: https://arxiv.org/pdf/2409.14677
Această problemă a fost, de asemenea, o provocare în timpul erei CGI și rămâne așa în domeniul jocurilor video, unde urmărirea razelor algoritmii simulează calea luminii în timp ce aceasta interacționează cu suprafețele. Ray-tracing calculează modul în care razele de lumină virtuale revin sau trec prin obiecte pentru a crea reflexii, refracții și umbre realiste.
Cu toate acestea, deoarece fiecare respingere suplimentară crește foarte mult costul de calcul, aplicațiile în timp real trebuie să compenseze latența cu acuratețea prin limitarea numărului de respingeri de raze de lumină permise.
![O reprezentare a unui fascicul de lumină calculat virtual într-un scenariu tradițional bazat pe 3D (adică, CGI), folosind tehnologii și principii dezvoltate pentru prima dată în anii 1960 și care a ajuns la fulminare între 1982-93 (intervalul dintre Tron [1982] și Jurassic Park [1993]. https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing](https://www.unite.ai/wp-content/uploads/2025/04/ray-tracing.jpg)
O reprezentare a unui fascicul de lumină calculat virtual într-un scenariu tradițional bazat pe 3D (adică CGI), utilizând tehnologii și principii dezvoltate pentru prima dată în anii 1960 și care au atins apogeul între 1982-93 (intervalul dintre „Tron” [1982] și „Jurassic Park” [1993]). Sursa: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing
Fiecare respingere suplimentară crește brusc costul de calcul, adesea dublând timpul de randare, făcând o gestionare mai rapidă a reflexiilor una dintre cele mai importante oportunități pentru îmbunătățirea calității redării cu trasare de raze.
În mod firesc, reflexiile apar și sunt esențiale pentru fotorealism, în scenarii mult mai puțin evidente – cum ar fi suprafața reflectorizantă a străzii unui oraș sau a unui câmp de luptă după ploaie; reflectarea străzii opuse într-o vitrină sau ușă de sticlă; sau în ochelarii personajelor înfățișate, unde obiectele și mediile pot fi solicitate să apară.

O reflexie dublă simulată, obținută prin compoziție tradițională pentru o scenă emblematică din „Matrix” (1999).
Probleme de imagine
Din acest motiv, cadrele care erau populare înainte de apariția modelelor de difuzie, cum ar fi Câmpuri de radiație neurale (NeRF) și câțiva contestatori mai recenti, cum ar fi Splatting Gaussian și-au menținut propriile lupte pentru a pune în practică reflecțiile într-un mod natural.
REF2-NeRF proiectul (foto de mai jos) a propus o metodă de modelare bazată pe NeRF pentru scenele care conțin o carcasă de sticlă. În această metodă, refracția și reflexia au fost modelate folosind elemente care erau dependente și independente de perspectiva privitorului. Această abordare a permis cercetătorilor să estimeze suprafețele pe care a avut loc refracția, în special suprafețele de sticlă, și a permis separarea și modelarea atât a componentelor luminii directe, cât și a celor reflectate.

Exemple din lucrarea Ref2Nerf. Sursa: https://arxiv.org/pdf/2311.17116
Au fost incluse și alte soluții de reflexie cu fața NeRF din ultimii 4-5 ani NeRFReN, Reflectând Realitateași Meta's 2024 Câmpuri de radiație neurale conștiente de reflexie plană proiect.
Pentru GSplat, lucrări precum Oglindă-3DGS, Splatting Gaussian reflectorizant și RefGaussian au oferit soluții cu privire la problema reflecției, în timp ce 2023 Proiectul Nero a propus o metodă personalizată de încorporare a calităților reflectorizante în reprezentările neuronale.
MirrorVerse
Obținerea unui model de difuzie care să respecte logica reflexiei este probabil mai dificilă decât cu abordări explicit structurale, non-semantice, cum ar fi Gaussian Splatting și NeRF. În modelele de difuzie, este probabil ca o regulă de acest fel să devină încorporată în mod fiabil doar dacă datele de antrenament conțin multe exemple variate într-o gamă largă de scenarii, ceea ce o face foarte dependentă de distribuția și calitatea setului de date original.
În mod tradițional, adăugarea unor comportamente particulare de acest fel este de competența a LoRA sau reglaj fin a modelului de bază; dar acestea nu sunt soluții ideale, deoarece un LoRA tinde să oblige producția către propriile date de antrenament, chiar și fără a fi solicitat, în timp ce reglajele fine – pe lângă faptul că sunt costisitoare – pot îndepărta irevocabil un model major de mainstream și pot genera o serie de instrumente personalizate conexe care nu vor funcționa niciodată cu niciunul. alte tulpina modelului, inclusiv a celui original.
În general, îmbunătățirea modelelor de difuzie necesită ca datele de antrenament să acorde o atenție mai mare fizicii reflexiei. Cu toate acestea, multe alte domenii au nevoie de o atenție specială similară. În contextul seturilor de date hiperscale, în care curatarea personalizată este costisitoare și dificilă, soluționarea fiecărei slăbiciuni în acest fel este nepractică.
Cu toate acestea, soluțiile la problema reflectării LDM apar din când în când. Un astfel de efort recent, din India, este MirrorVerse proiect, care oferă un set de date îmbunătățit și o metodă de instruire capabilă să îmbunătățească stadiul tehnicii în această provocare specială în cercetarea de difuziune.

În partea dreaptă, rezultatele de la MirrorVerse s-au confruntat cu două abordări anterioare (în două coloane centrale). Sursa: https://arxiv.org/pdf/2504.15397
După cum putem vedea în exemplul de mai sus (imaginea caracteristică din PDF-ul noului studiu), MirrorVerse îmbunătățește ofertele recente care abordează aceeași problemă, dar este departe de a fi perfectă.
În imaginea din dreapta sus, vedem că borcanele de ceramică sunt oarecum la dreapta de unde ar trebui să fie, iar în imaginea de mai jos, care din punct de vedere tehnic nu ar trebui să prezinte deloc o reflexie a cupei, o reflexie inexactă a fost introdusă în zona din dreapta, împotriva logicii unghiurilor reflectorizante naturale.
Prin urmare, vom analiza noua metodă nu atât pentru că ar putea reprezenta stadiul actual al tehnicii în reflexia bazată pe difuzie, cât și pentru a ilustra măsura în care aceasta se poate dovedi a fi o problemă dificil de rezolvat pentru modelele de difuzie latentă, statice și video deopotrivă, deoarece exemplele de date necesare pentru reflectivitate sunt cel mai probabil legate de anumite acțiuni și scenarii.
Prin urmare, această funcție specială a LDM-urilor poate continua să nu respecte abordările specifice structurii, cum ar fi NeRF, GSplat și, de asemenea, CGI tradiționale.
hârtie nouă se intitulează MirrorVerse: Impingerea modelelor de difuzie pentru a reflecta în mod realist lumeași provine de la trei cercetători din Vision and AI Lab, IISc Bangalore și Samsung R&D Institute din Bangalore. Hârtia are un pagina de proiect asociată, precum și a set de date la Hugging Face, cu cod sursă lansat pe GitHub.
Metodă
Cercetătorii notează încă de la început dificultatea pe care modelele precum Stable Diffusion și Flux au în respectarea indicațiilor bazate pe reflecție, ilustrând problema cu pricepere:

Din lucrare: Modele actuale de ultimă generație text-to-image, SD3.5 și Flux, care prezintă provocări semnificative în producerea de reflexii consistente și precise din punct de vedere geometric atunci când vi se solicită să le genereze într-o scenă.
Cercetătorii au dezvoltat MirrorFusion 2.0, un model generativ bazat pe difuzie care vizează îmbunătățirea fotorealismului și a preciziei geometrice a reflexiilor oglinzii în imaginile sintetice. Antrenamentul pentru model s-a bazat pe propriul set de date nou selectat de cercetători, intitulat MirrorGen2, conceput pentru a aborda generalizare punctele slabe observate în abordările anterioare.
MirrorGen2 extinde metodologiile anterioare prin introducerea poziționarea aleatorie a obiectelor, rotatii randomizate și împământarea explicită a obiectului, cu scopul de a se asigura că reflexiile rămân plauzibile într-o gamă mai largă de poziții și plasări ale obiectelor în raport cu suprafața oglinzii.

Schemă pentru generarea de date sintetice în MirrorVerse: conducta de generare a seturilor de date a aplicat creșteri cheie prin poziționarea aleatorie, rotirea și împământarea obiectelor în interiorul scenei utilizând 3D-Positioner. Obiectele sunt, de asemenea, asociate în combinații consistente semantic pentru a simula relații spațiale complexe și ocluzii, permițând setului de date să surprindă interacțiuni mai realiste în scene cu mai multe obiecte.
Pentru a consolida și mai mult capacitatea modelului de a gestiona aranjamente spațiale complexe, conducta MirrorGen2 încorporează împerecheat scene de obiecte, permițând sistemului să reprezinte mai bine ocluziile și interacțiunile dintre mai multe elemente în setări reflectorizante.
Lucrarea afirmă:
„Categoriile sunt asociate manual pentru a asigura coerența semantică – de exemplu, asocierea unui scaun cu o masă. În timpul randării, după poziționarea și rotirea [obiectului] principal, un [obiect] suplimentar din categoria asociată este eșantionat și aranjat pentru a preveni suprapunerea, asigurând regiuni spațiale distincte în cadrul scenei.”
În ceea ce privește împământarea explicită a obiectelor, autorii s-au asigurat că obiectele generate au fost „ancorate” la sol în datele sintetice de ieșire, în loc să „plutească” în mod necorespunzător, ceea ce poate apărea atunci când datele sintetice sunt generate la scară largă sau cu metode extrem de automatizate.
Deoarece inovarea setului de date este esențială pentru noutatea lucrării, vom trece mai devreme decât de obicei la această secțiune a acoperirii.
Date și teste
SynMirrorV2
Setul de date SynMirrorV2 al cercetătorilor a fost conceput pentru a îmbunătăți diversitatea și realismul datelor de antrenament prin reflexie în oglindă, incluzând obiecte 3D provenite din... Objarserse și Obiecte Amazon Berkeley (ABO), cu aceste selecții ulterior rafinate OBIECTUL 3DIT, precum și procesul de filtrare din V1 Proiectul MirrorFusion, pentru a elimina activele de calitate scăzută. Acest lucru a dus la un pool rafinat de 66,062 de obiecte.

Exemple din setul de date Objaverse, utilizate la crearea setului de date organizat pentru noul sistem. Sursa: https://arxiv.org/pdf/2212.08051
Construcția scenei a implicat plasarea acestor obiecte pe podele texturate din CC-Texturi și fundaluri HDRI din PolyHaven Depozitare CGI, folosind fie oglinzi dreptunghiulare înalte, fie cu perete complet. Iluminatul a fost standardizat cu o zonă-lumină poziționată deasupra și în spatele obiectelor, la un unghi de patruzeci și cinci de grade. Obiectele au fost scalate pentru a se potrivi într-un cub de unitate și poziționate utilizând o intersecție precalculată a oglinzii și vizionarea camerei. frumuseţe, asigurând vizibilitatea.
S-au aplicat rotații randomizate în jurul axei y și s-a utilizat o tehnică de împământare pentru a preveni „artefactele plutitoare”.
Pentru a simula scene mai complexe, setul de date a încorporat și mai multe obiecte aranjate în funcție de perechi semantic coerente bazate pe categorii ABO. Obiectele secundare au fost plasate pentru a evita suprapunerea, creând 3,140 de scene cu mai multe obiecte concepute pentru a surprinde ocluzii variate și relații de adâncime.

Exemple de vizualizări randate din setul de date al autorilor care conțin mai multe (mai mult de două) obiecte, cu ilustrații ale segmentării obiectelor și vizualizărilor hărții de adâncime prezentate mai jos.
Procesul de instruire
Recunoscând că realismul sintetic în sine nu a fost suficient pentru o generalizare robustă a datelor din lumea reală, cercetătorii au dezvoltat un proces de învățare a curriculumului în trei etape pentru antrenarea MirrorFusion 2.0.
În etapa 1, autorii au inițializat greutăți atât a ramurilor de condiţionare cât şi a celor de generare cu Difuziunea Stabilă v1.5 punct de control și a reglat fin modelul pe antrenamentul cu un singur obiect împărţi din setul de date SynMirrorV2. Spre deosebire de cele menționate mai sus Reflectând Realitatea proiect, cercetătorii nu au făcut-o îngheţa ramura generatiei. Apoi au antrenat modelul pentru 40,000 de iterații.
În etapa 2, modelul a fost ajustat pentru încă 10,000 de iterații, pe diviziunea de antrenament cu mai multe obiecte a SynMirrorV2, pentru a învăța sistemul să gestioneze ocluziile și aranjamentele spațiale mai complexe găsite în scenele realiste.
În cele din urmă, în etapa 3, s-au efectuat încă 10,000 de iterații de reglare fină folosind date din lumea reală de la Setul de date MSD, folosind hărțile de adâncime generate de Matterport3D estimator de adâncime monocular.

Exemple din setul de date MSD, cu scene din lumea reală analizate în hărți de profunzime și de segmentare. Sursa: https://arxiv.org/pdf/1908.09101
În timpul antrenamentului, solicitările text au fost omise timp de 20% din timpul de antrenament pentru a încuraja modelul să utilizeze optim informațiile de profunzime disponibile (adică o abordare „mascată”).
Antrenamentul a avut loc pe patru GPU-uri NVIDIA A100 pentru toate etapele (specificația VRAM nu este furnizată, deși ar fi fost de 40 GB sau 80 GB per card). O rată de învățare de 1e-5 a fost utilizat pe o dimensiune de lot de 4 per GPU, sub AdamW optimizator.
Această schemă de antrenament a crescut progresiv dificultatea sarcinilor prezentate modelului, începând cu scene sintetice mai simple și avansând spre compoziții mai provocatoare, cu intenția de a dezvolta o transferabilitate robustă în lumea reală.
Testarea
Autorii au evaluat MirrorFusion 2.0 față de stadiul anterior al tehnicii, MirrorFusion, care a servit drept bază și au efectuat experimente pe setul de date MirrorBenchV2, acoperind atât scene cu un singur obiect, cât și cu mai multe obiecte.
Au fost efectuate teste calitative suplimentare pe mostre din setul de date MSD și Obiecte scanate de Google (GSO) setul de date.
Evaluarea a folosit 2,991 de imagini cu un singur obiect din categoriile văzute și nevăzute și 300 de scene cu două obiecte din ABO. Performanța a fost măsurată folosind Raportul semnal-zgomot de vârf (PSNR); Indicele de similaritate structurală (SSIM); şi Asemănarea imaginilor perceptive învățate (LPIPS), pentru a evalua calitatea reflexiei pe regiunea oglinzii mascate. CLIP asemănare a fost folosit pentru a evalua alinierea textului cu solicitările de intrare.
În testele cantitative, autorii au generat imagini folosind patru semințe pentru un prompt specific și selectând imaginea rezultată cu cel mai bun scor SSIM. Cele două tabele de rezultate raportate pentru testele cantitative sunt prezentate mai jos.

Stânga, Rezultate cantitative pentru calitatea generării reflexiilor pe un singur obiect pe divizarea pe un singur obiect MirrorBenchV2. MirrorFusion 2.0 a depășit performanța de referință, cele mai bune rezultate fiind afișate cu caractere aldine. Dreapta, rezultate cantitative pentru calitatea generării reflexiilor pe mai multe obiecte pe divizarea pe mai multe obiecte MirrorBenchV2. MirrorFusion 2.0 antrenat cu mai multe obiecte a depășit versiunea antrenată fără acestea, cele mai bune rezultate fiind afișate cu caractere aldine.
Autorii comentează:
„[Rezultatele] arată că metoda noastră depășește performanța metodei de bază, iar reglajul fin pe mai multe obiecte îmbunătățește rezultatele în scenele complexe.”
Cea mai mare parte a rezultatelor, precum și cele subliniate de autori, se referă la testarea calitativă. Din cauza dimensiunilor acestor ilustrații, putem reproduce doar parțial exemplele din lucrare.

Comparație pe MirrorBenchV2: linia de bază nu a reușit să mențină reflexiile precise și consistența spațială, arătând orientarea incorectă a scaunului și reflexiile distorsionate ale mai multor obiecte, în timp ce (sustin autorii) MirrorFusion 2.0 redă corect scaunul și canapelele, cu poziție, orientare și structură precise.
Dintre aceste rezultate subiective, cercetătorii opinează că modelul de bază nu a reușit să redă cu precizie orientarea obiectelor și relațiile spațiale în reflexii, producând adesea artefacte precum rotația incorectă și obiectele plutitoare. MirrorFusion 2.0, antrenat pe SynMirrorV2, susțin autorii, păstrează orientarea și poziționarea corectă a obiectelor atât în scenele cu un singur obiect, cât și în scenele cu mai multe obiecte, rezultând reflexii mai realiste și mai coerente.
Mai jos vedem rezultate calitative ale setului de date GSO menționat anterior:

Comparație pe setul de date GSO. Linia de bază denaturează structura obiectului și a produs reflexii incomplete, distorsionate, în timp ce MirrorFusion 2.0, susțin autorii, păstrează integritatea spațială și generează geometrie, culoare și detalii precise, chiar și pe obiectele în afara distribuției.
Aici autorii comentează:
„MirrorFusion 2.0 generează reflexii mult mai precise și realiste. De exemplu, în Fig. 5 (a – de mai sus), MirrorFusion 2.0 reflectă corect mânerele sertarelor (evidențiate cu verde), în timp ce modelul de bază produce o reflexie neplauzibilă (evidențiată cu roșu).
„În mod similar, pentru «cana alb-galbenă» din Fig. 5 (b), MirrorFusion 2.0 oferă o geometrie convingătoare cu artefacte minime, spre deosebire de linia de bază, care nu reușește să surprindă cu exactitate geometria și aspectul obiectului.”
Testul calitativ final a fost împotriva setului de date MSD din lumea reală menționat mai sus (rezultate parțiale prezentate mai jos):

Rezultatele scenei din lumea reală comparând MirrorFusion, MirrorFusion 2.0 și MirrorFusion 2.0, reglate fin pe setul de date MSD. MirrorFusion 2.0, susțin autorii, surprinde detalii complexe ale scenei cu mai multă acuratețe, inclusiv obiecte aglomerate pe o masă și prezența mai multor oglinzi într-un mediu tridimensional. Aici sunt afișate doar rezultate parțiale, datorită dimensiunilor rezultatelor din lucrarea originală, la care trimitem cititorul pentru rezultate complete și o rezoluție mai bună.
Aici, autorii observă că, în timp ce MirrorFusion 2.0 a funcționat bine pe datele MirrorBenchV2 și GSO, inițial sa luptat cu scene complexe din lumea reală din setul de date MSD. Reglarea fină a modelului pe un subset de MSD i-a îmbunătățit capacitatea de a gestiona medii aglomerate și mai multe oglinzi, rezultând reflecții mai coerente și mai detaliate asupra diviziunii de testare.
În plus, a fost efectuat un studiu asupra utilizatorilor, în care 84% dintre utilizatori sunt raportați că au generații preferate de la MirrorFusion 2.0 față de metoda de bază.

Rezultatele studiului utilizatorului.
Deoarece detaliile studiului utilizatorului au fost relegate în anexa lucrării, trimitem cititorul la acestea pentru specificul studiului.
Concluzie
Deși mai multe dintre rezultatele prezentate în lucrare reprezintă îmbunătățiri impresionante față de stadiul actual al tehnicii, stadiul actual al tehnicii pentru această problemă particulară este atât de slab încât chiar și o soluție agregată neconvingătoare poate fi câștigată cu un minim de efort. Arhitectura fundamentală a unui model de difuzie este incompatibilă cu învățarea și demonstrarea fiabilă a fizicii consistente, astfel încât problema este pusă greșit și, aparent, nu este înclinată spre o soluție elegantă.
Mai mult, adăugarea de date la modelele existente este deja metoda standard de remediere a deficiențelor de performanță LDM, cu toate dezavantajele enumerate mai devreme. Este rezonabil să presupunem că, dacă viitoarele seturi de date la scară mare ar acorda mai multă atenție distribuției (și adnotării) punctelor de date legate de reflecție, ne-am putea aștepta ca modelele rezultate să gestioneze mai bine acest scenariu.
Totuși, același lucru este valabil și pentru mai mulți alți bugbears în producția LDM – cine poate spune care dintre ei merită cel mai mult efortul și banii implicați în tipul de soluție pe care autorii noii lucrări o propun aici?
Publicat inițial luni, 28 aprilie 2025. Marți, 29 aprilie: s-au făcut corecții gramaticale în paragrafele finale.