Ángulo de Anderson

Corrigiendo la limitada comprensión de los modelos de difusión sobre espejos y reflejos

Published April 28, 2025

Updated April 26, 2026

Martin Anderson

Desde que la inteligencia artificial generativa comenzó a generar interés público, el campo de investigación de visión por computadora ha profundizado su interés en desarrollar modelos de inteligencia artificial capaces de entender y replicar leyes físicas; sin embargo, el desafío de enseñar a los sistemas de aprendizaje automático a simular fenómenos como la gravedad y la dinámica de líquidos ha sido un foco significativo de esfuerzos de investigación durante al menos los últimos cinco años.

Desde que los modelos de difusión latente (LDM) dominaron la escena de la inteligencia artificial generativa en 2022, los investigadores se han centrado cada vez más en la capacidad limitada de la arquitectura de LDM para entender y reproducir fenómenos físicos. Ahora, este problema ha ganado prominencia adicional con el desarrollo emblemático del modelo de video generativo de OpenAI, Sora, y la (arguablemente) más consecuente publicación reciente de los modelos de video de código abierto Hunyuan Video y Wan 2.1.

Reflejando mal

La mayoría de las investigaciones destinadas a mejorar la comprensión de LDM de la física se han centrado en áreas como la simulación de la marcha, la física de partículas y otros aspectos del movimiento newtoniano. Estas áreas han atraído la atención porque las inexactitudes en los comportamientos físicos básicos socavarían inmediatamente la autenticidad del video generado por la inteligencia artificial.

Sin embargo, una pequeña pero creciente corriente de investigación se centra en una de las debilidades más grandes de LDM: su relativa incapacidad para producir reflejos precisos.

Del papel de enero de 2025 ‘Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections’, ejemplos de ‘falla de reflejo’ versus el enfoque de los investigadores. Source: https://arxiv.org/pdf/2409.14677

Este problema también fue un desafío durante la era de CGI y sigue siéndolo en el campo de los videojuegos, donde los algoritmos de trazado de rayos simulan la trayectoria de la luz a medida que interactúa con superficies. El trazado de rayos calcula cómo los rayos de luz virtuales rebotan o pasan a través de objetos para crear reflejos, refracciones y sombras realistas.

Sin embargo, debido a que cada rebote adicional aumenta significativamente el costo computacional, las aplicaciones en tiempo real deben equilibrar la latencia con la precisión limitando el número de rebotes de rayos de luz permitidos.

Una representación de un haz de luz virtualmente calculado en un escenario basado en 3D (es decir, CGI), utilizando tecnologías y principios desarrollados por primera vez en la década de 1960 y que llegaron a su punto culminante entre 1982-93 (el período entre ‘Tron’ [1982] y ‘Jurassic Park’ [1993]). Source: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

Martin Anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.

Unite.AI

Corrigiendo la limitada comprensión de los modelos de difusión sobre espejos y reflejos

Reflejando mal

You may like