Connect with us

Виправлення обмеженого розуміння дифузійних моделей щодо дзеркал і відбитків

Погляд Anderson

Виправлення обмеженого розуміння дифузійних моделей щодо дзеркал і відбитків

mm
ChatGPT-4o and Adobe Firefly

З моменту, коли генеративний ІІ почав привертати увагу громадськості, область досліджень комп’ютерного зору поглибила свій інтерес до розробки моделей ІІ, здатних розуміти та відтворювати фізичні закони; однак, проблема навчання систем машинного навчання симулювати явища, такі як гравітація та динаміка рідин, була суттєвим напрямком дослідницьких зусиль принаймні за останні п’ять років.

Відтоді, як латентні дифузійні моделі (LDM) зайняли панівне становище в сфері генеративного ІІ у 2022 році, дослідники все частіше фокусувалися на обмеженій здатності архітектури LDM розуміти та відтворювати фізичні явища. Тепер ця проблема набула додаткової ваги завдяки видатному розвитку генеративної відеомоделі OpenAI Sora та (можливо, більш суттєвому) недавньому відкритому випуску відеомоделей Hunyuan Video та Wan 2.1.

Відбиваючи погано

Більшість досліджень, спрямованих на покращення розуміння фізики LDM, зосередилися на таких областях, як симуляція поході, фізика частинок та інші аспекти ньютонівського руху. Ці області привернули увагу, оскільки неточності в базових фізичних поведінках негайно підірвали б автентичність відео, згенерованого ІІ.

Однак невелика, але зростаюча галузь досліджень зосереджується на одному з найбільших слабкостей LDM – їх відносній нездатності виробляти точні відбитки.

З січня 2025 року паперу 'Відбиваючи реальність: надання дифузійним моделям можливості виробляти вірні дзеркальні відбитки', приклади 'відбиткової невдачі' проти підходу самих дослідників.

З січня 2025 року паперу ‘Відбиваючи реальність: надання дифузійним моделям можливості виробляти вірні дзеркальні відбитки’, приклади ‘відбиткової невдачі’ проти підходу самих дослідників. Джерело: https://arxiv.org/pdf/2409.14677

Ця проблема була також викликом під час епохи CGI та залишається такою в галузі відеоігор, де алгоритми трасування променів симулюють шлях світла при взаємодії з поверхнями. Трасування променів розраховує, як віртуальні промені світла відбиваються від або проходять крізь об’єкти, створюючи реалістичні відбитки, преломлення та тіні.

Однак кожен додатковий відбиток суттєво збільшує обчислювальні витрати, тому застосунки в реальному часі повинні зважувати затримку проти точності, обмежуючи кількість дозволених відбитків променів світла.

Представлення віртуально розрахованого світлового променя в традиційній 3D-сценарії (тобто CGI), що використовує технології та принципи, вперше розроблені в 1960-х роках, та які досягли свого апогею між 1982-93 роками (період між 'Троном' [1982] та 'Парком Юрського періоду' [1993]).

Представлення віртуально розрахованого світлового променя в традиційній 3D-сценарії (тобто CGI), що використовує технології та принципи, вперше розроблені в 1960-х роках, та які досягли свого апогею між 1982-93 роками (період між ‘Троном’ [1982] та ‘Парком Юрського періоду’ [1993]). Джерело: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing


Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]