Angolo di Anderson

Risolvere le limitazioni dei modelli di diffusione nell’interpretazione degli specchi e delle riflessioni

Published April 28, 2025

Updated May 19, 2026

Martin Anderson

Da quando l’intelligenza artificiale generativa ha iniziato a suscitare l’interesse del pubblico, il campo della ricerca sulla visione artificiale ha approfondito l’interesse per lo sviluppo di modelli di apprendimento automatico in grado di comprendere e replicare leggi fisiche; tuttavia, la sfida di insegnare ai sistemi di apprendimento automatico a simulare fenomeni come la gravità e la dinamica dei fluidi è stata un importante focus degli sforzi di ricerca per almeno gli ultimi cinque anni.

Da quando i modelli di diffusione latente (LDM) hanno dominato la scena dell’intelligenza artificiale generativa nel 2022, i ricercatori hanno increasingly focalizzato l’attenzione sull’architettura LDM e sulla sua limitata capacità di comprendere e riprodurre fenomeni fisici. Ora, questo problema ha guadagnato ulteriore rilievo con lo sviluppo del modello di video generativo di OpenAI Sora e del recente rilascio del modello di video open source Hunyuan Video e Wan 2.1.

Riflettere male

La maggior parte della ricerca finalizzata a migliorare la comprensione dell’LDM della fisica si è concentrata su aree come la simulazione del movimento, la fisica delle particelle e altri aspetti del moto newtoniano. Queste aree hanno attirato l’attenzione perché le inesattezze nei comportamenti fisici di base comprometterebbero immediatamente l’autenticità del video generato dall’AI.

Tuttavia, un filone di ricerca in crescita si concentra su una delle principali debolezze dell’LDM – la sua relativa incapacità di produrre riflessi accurati.

Dal paper del gennaio 2025 ‘Reflecting Reality: abilitando i modelli di diffusione a produrre riflessi fedeli’, esempi di ‘fallimento della riflessione’ versus l’approccio dei ricercatori. Fonte: https://arxiv.org/pdf/2409.14677

Questo problema era anche una sfida durante l’era del CGI e rimane tale nel campo del videogioco, dove algoritmi di ray-tracing simulano il percorso della luce mentre interagisce con le superfici. Il ray-tracing calcola come i raggi di luce virtuali rimbalzano o passano attraverso gli oggetti per creare riflessi, rifrazioni e ombre realistici.

Tuttavia, poiché ogni rimbalzo aggiuntivo aumenta notevolmente il costo computazionale, le applicazioni in tempo reale devono scambiare la latenza con l’accuratezza limitando il numero di rimbalzi dei raggi di luce consentiti.

Una rappresentazione di un raggio di luce virtualmente calcolato in uno scenario basato su CGI, utilizzando tecnologie e principi sviluppati per la prima volta negli anni ’60 e che sono giunti a compimento tra il 1982 e il 1993 (il periodo tra ‘Tron’ [1982] e ‘Jurassic Park’ [1993]). Fonte: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

Martin Anderson

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.

Unite.AI

Risolvere le limitazioni dei modelli di diffusione nell’interpretazione degli specchi e delle riflessioni

Riflettere male

You may like