Погляд Anderson
Виправлення обмеженого розуміння дифузійних моделей щодо дзеркал і відбитків

З моменту, коли генеративний ІІ почав привертати увагу громадськості, область досліджень комп’ютерного зору поглибила свій інтерес до розробки моделей ІІ, здатних розуміти та відтворювати фізичні закони; однак, проблема навчання систем машинного навчання симулювати явища, такі як гравітація та динаміка рідин, була суттєвим напрямком дослідницьких зусиль принаймні за останні п’ять років.
Відтоді, як латентні дифузійні моделі (LDM) зайняли панівне становище в сфері генеративного ІІ у 2022 році, дослідники все частіше фокусувалися на обмеженій здатності архітектури LDM розуміти та відтворювати фізичні явища. Тепер ця проблема набула додаткової ваги завдяки видатному розвитку генеративної відеомоделі OpenAI Sora та (можливо, більш суттєвому) недавньому відкритому випуску відеомоделей Hunyuan Video та Wan 2.1.
Відбиваючи погано
Більшість досліджень, спрямованих на покращення розуміння фізики LDM, зосередилися на таких областях, як симуляція поході, фізика частинок та інші аспекти ньютонівського руху. Ці області привернули увагу, оскільки неточності в базових фізичних поведінках негайно підірвали б автентичність відео, згенерованого ІІ.
Однак невелика, але зростаюча галузь досліджень зосереджується на одному з найбільших слабкостей LDM – їх відносній нездатності виробляти точні відбитки.

З січня 2025 року паперу ‘Відбиваючи реальність: надання дифузійним моделям можливості виробляти вірні дзеркальні відбитки’, приклади ‘відбиткової невдачі’ проти підходу самих дослідників. Джерело: https://arxiv.org/pdf/2409.14677
Ця проблема була також викликом під час епохи CGI та залишається такою в галузі відеоігор, де алгоритми трасування променів симулюють шлях світла при взаємодії з поверхнями. Трасування променів розраховує, як віртуальні промені світла відбиваються від або проходять крізь об’єкти, створюючи реалістичні відбитки, преломлення та тіні.
Однак кожен додатковий відбиток суттєво збільшує обчислювальні витрати, тому застосунки в реальному часі повинні зважувати затримку проти точності, обмежуючи кількість дозволених відбитків променів світла.
![Представлення віртуально розрахованого світлового променя в традиційній 3D-сценарії (тобто CGI), що використовує технології та принципи, вперше розроблені в 1960-х роках, та які досягли свого апогею між 1982-93 роками (період між 'Троном' [1982] та 'Парком Юрського періоду' [1993]).](https://www.unite.ai/wp-content/uploads/2025/04/ray-tracing.jpg)
Представлення віртуально розрахованого світлового променя в традиційній 3D-сценарії (тобто CGI), що використовує технології та принципи, вперше розроблені в 1960-х роках, та які досягли свого апогею між 1982-93 роками (період між ‘Троном’ [1982] та ‘Парком Юрського періоду’ [1993]). Джерело: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing












