Штучний інтелект
Сплектр-образ: Ультра-швидка 3D-реконструкція з одного виду

Одновидова 3D-реконструкція об’єктів з використанням конволюційних мереж продемонструвала видатні можливості. Моделі одновидової 3D-реконструкції генерують 3D-модель будь-якого об’єкта, використовуючи один зображення як посилання, що робить її однією з найгарячіших тем досліджень у сфері комп’ютерного зору.

Наприклад, розгляньмо мотоцикл на вищезазначеному зображенні. Генерування його 3D-структури вимагає складного процесу, який спочатку поєднує підказки з низькорівневих зображень з високорівневою семантичною інформацією та знаннями про структурну організацію частин.
Через складний процес, одновидова 3D-реконструкція була однією з основних проблем у сфері комп’ютерного зору. У спробі підвищити ефективність одновидової 3D-реконструкції, розробники працювали над Сплектр-образом, методом, який спрямований на досягнення ультра-швидкої одновидової 3D-формування та 3D-виду об’єктів. У своєму ядрі, фреймворк Сплектр-образ використовує метод розсіювання Гауса для аналізу 3D-представлень, використовуючи швидкість і якість, які він пропонує.
Нещодавно, метод розсіювання Гауса був реалізований багатьма моделями багатовидової реконструкції для реального часу, підвищення масштабу та швидкої підготовки. З урахуванням цього, Сплектр-образ є першим фреймворком, який реалізує метод розсіювання Гауса для одновидових завдань реконструкції.
У цій статті ми будемо досліджувати, як фреймворк Сплектр-образ використовує розсіювання Гауса для досягнення ультра-швидкої одновидової 3D-реконструкції. Тому почнімо.
Сплектр-образ : Спроба ультра-швидкої одновидової 3D-реконструкції
Як згадувалося раніше, Сплектр-образ є ультра-швидким підходом для одновидової 3D-реконструкції об’єктів на основі методу розсіювання Гауса. Сплектр-образ є першим комп’ютерним фреймворком, який реалізує розсіювання Гауса для генерації моновидових 3D-об’єктів, оскільки традиційно розсіювання Гауса живить багатовидові 3D-об’єктні фреймворки реконструкції. Однак, що відрізняє фреймворк Сплектр-образ від попередніх методів, полягає в тому, що це підхід, заснований на навчанні, і реконструкція під час тестування вимагає лише прямої оцінки нейронної мережі.
Сплектр-образ фундаментально залежить від якості рендерингу розсіювання Гауса та високої швидкості обробки для генерації 3D-реконструкцій. Фреймворк Сплектр-образ має просту конструкцію: фреймворк використовує 2D-нейронну мережу зображення-у-зображення для передбачення 3D-Гауса для кожного пікселя входного зображення, і відображає входове зображення на один 3D-Гаус для кожного пікселя. Результатом є 3D-Гауси мають форму зображення, відомого як Сплектр-образ, і ці Гауси також забезпечують 360-градусне представлення зображення. Процес демонструється на наступному зображенні.

Хоча процес простий і прямий, існують деякі ключові виклики, з якими стикається фреймворк Сплектр-образ при використанні розсіювання Гауса для генерації 3D-Гаусів для одновидових 3D-представлень. Перший великий перепон є розробка нейронної мережі, яка приймає зображення об’єкта як вхід, і генерує відповідний Гаусівський суміш, який представляє всі сторони зображення як вихід. Для подолання цього, Сплектр-образ використовує той факт, що хоча і згенерована Гаусівська суміш є набором або незупорядкованою колекцією елементів, її все ж можна зберігати в упорядкованій структурі даних. Відповідно, фреймворк використовує 2D-зображення як контейнер для 3D-Гаусів, внаслідок чого кожен піксель контейнера містить параметри одного Гауса, включаючи його властивості, такі як форма, непрозорість та колір.
Зберігаючи 3D-Гаусівські набори в зображенні, фреймворк Сплектр-образ здатний зменшити перепони реконструкції, з якими стикається навчання зображення-у-зображення нейронної мережі. Використовуючи цей підхід, процес реконструкції можна реалізувати лише за допомогою ефективних 2D-операторів, а не залежності від 3D-операторів. Крім того, у фреймворку Сплектр-образ 3D-представлення є сумішшю 3D-Гаусів, що дозволяє йому використовувати переваги швидкості рендерингу та ефективності пам’яті, пропонованих розсіюванням Гауса, що підвищує ефективність під час навчання, а також під час висновку.
З емпіричної точки зору, варто відзначити, що фреймворк Сплектр-образ може генерувати 360-градусну реконструкцію об’єкта, хоча він бачить лише одну сторону об’єкта. Фреймворк потім розподіляє різні Гауси в 2D-сусідстві до різних частин 3D-об’єкта для кодування згенерованої 360-градусної інформації в 2D-зображенні. Крім того, фреймворк встановлює непрозорість декількох Гаусів до нуля, що деактивує їх, дозволяючи їм бути вилученими під час постобробки.
Підсумувавши, фреймворк Сплектр-образ
- Є новим підходом для генерації одновидових 3D-об’єктних реконструкцій шляхом перенесення підходу розсіювання Гауса.
- Розширює метод для багатовидової 3D-об’єктної реконструкції.
- Досягає найвищої 3D-об’єктної реконструкції на стандартних тестах з винятковою швидкістю та якістю.
Сплектр-образ : Методологія та архітектура
Розсіювання Гауса
Як згадувалося раніше, розсіювання Гауса є основним методом, реалізованим фреймворком Сплектр-образ для генерації одновидових 3D-об’єктних реконструкцій. У простих термінах, розсіювання Гауса є методом растеризації для реконструкції 3D-зображень та реального часу, а також рендерингу зображень з多 точки зору. 3D-простір у зображенні називається Гаусами, і методи машинного навчання реалізуються для навчання параметрів кожного Гауса. Розсіювання Гауса не вимагає навчання під час рендерингу, що полегшує швидке рендерингу. Наступне зображення підсумовує архітектуру 3D-розсіювання Гауса.

3D-розсіювання Гауса спочатку використовує набір входових зображень для генерації хмари точок. Розсіювання Гауса потім використовує входові зображення для оцінки зовнішніх параметрів камери, таких як нахил і позиція, шляхом збігу пікселів між зображеннями, і ці параметри потім використовуються для розрахунку хмари точок. Використовуючи різні методи машинного навчання, розсіювання Гауса потім оптимізує чотири параметри для кожного Гауса, а саме: позицію (де знаходиться), коваріацію (розтягування чи масштабування у 3×3-матриці), колір (який є RGB-колірною схемою) та альфа (що вимірює прозорість). Процес оптимізації рендерить зображення для кожної позиції камери та використовує його для визначення параметрів, ближчих до оригінального зображення. Внаслідок цього, результатом 3D-розсіювання Гауса є зображення, назване Сплектр-образом, яке найбільше нагадує оригінальне зображення з камери, з якої воно було захоплено.

Крім того, функція непрозорості та функція кольору в розсіюванні Гауса дають радіаційне поле з напрямком перегляду 3D-точки. Фреймворк потім рендерить радіаційне поле на зображення шляхом інтеграції кольорів, спостережуваних уздовж промені, який проходить через піксель. Розсіювання Гауса представляє ці функції як комбінацію кольорових Гаусів, де середнє значення Гауса або центр разом із коваріацією Гауса допомагає визначити його форму та розмір. Кожен Гаус також має властивість непрозорості та властивість залежного від виду кольору, які разом визначають радіаційне поле.
Сплектр-образ
Компонент рендерера відображає набір 3D-Гаусів на зображення. Для виконання одновидової 3D-реконструкції фреймворк потім шукає обернену функцію для 3D-Гаусів, яка реконструює суміш 3D-Гаусів з зображення. Ключовим тут є пропозиція ефективного, але простого дизайну для оберненої функції. Зокрема, для входового зображення фреймворк передбачає Гаус для кожного окремого пікселя, використовуючи архітектуру нейронної мережі зображення-у-зображення для виходу зображення, Сплектр-образ. Мережа також передбачає форму, непрозорість та колір.
Тепер можна припустити, як фреймворк Сплектр-образ реконструює 3D-представлення об’єкта, хоча він має доступ лише до одного з його видів? У реальному часі фреймворк Сплектр-образ вчиться використовувати деякі з доступних Гаусів для реконструкції виду, та використовує інші Гауси для автоматичної реконструкції невидимих частин зображення. Для максимізації своєї ефективності фреймворк може автоматично вимкнути будь-які Гауси, передбачаючи, чи є непрозорість рівна нулю. Якщо непрозорість рівна нулю, Гауси вимикаються, та фреймворк не рендерить ці точки, а натомість вилучає їх під час постобробки.
Втрата на рівні зображення
Одна з основних переваг використання швидкості та ефективності, пропонованих методом розсіювання Гауса, полягає в тому, що це дозволяє фреймворку рендерити всі зображення на кожній ітерації, навіть для пакетів з відносно великим розміром пакету. Крім того, це означає, що фреймворк не тільки може використовувати розкладові втрати, але також може використовувати втрати на рівні зображення, які не розкладаються на втрати на піксель.
Нормалізація масштабу
Це складно оцінити розмір об’єкта, дивлячись на один вид, і це складне завдання для вирішення цієї двозначності, коли воно тренується з втратою. Та ж проблема не спостерігається у синтетичних наборах даних, оскільки всі об’єкти відображаються з однаковими внутрішніми параметрами камери, а об’єкти знаходяться на фіксованій відстані від камери, що в кінцевому підсумку допомагає вирішити двозначність. Однак у наборах даних з реальними зображеннями двозначність досить очевидна, і фреймворк Сплектр-образ використовує кілька методів попередньої обробки для приблизного фіксування масштабу всіх об’єктів.
Залежний від виду колір
Для представлення залежних від виду кольорів фреймворк Сплектр-образ використовує сферичні гармоніки для узагальнення кольорів за межами ламбертовської моделі кольору. Для будь-якого конкретного Гауса модель визначає коефіцієнти, які передбачаються мережею, та сферичні гармоніки. Зміна точки зору перетворює напрямок перегляду 3D-точки в камері-джерелі на відповідний напрямок перегляду у системі відліку. Модель потім знаходить відповідні коефіцієнти для визначення перетвореної функції кольору. Модель здатна зробити це, оскільки сферичні гармоніки закриті під час обертання, разом з кожним іншим порядком.
Архітектура нейронної мережі
Більшість архітектури передбачувальної відображення входового зображення на суміш Гаусів ідентична процесу, використованому у фреймворку SongUNet. Останній шар у архітектурі замінений на шар зворотного зв’язку 1×1 з шириною виходу, визначеною моделлю кольору. Для входового зображення мережа генерує тензор виходу каналу, і для кожного піксельного каналу кодує параметри, які потім перетворюються в зміщення, непрозорість, обертання, глибину та колір. Фреймворк потім використовує нелінійні функції для активації параметрів та отримання параметрів Гауса.
Для реконструкції 3D-представлень з багатовидовими фреймворк Сплектр-образ застосовує ту ж саму мережу до кожного входового виду, а потім використовує підхід точки зору для поєднання окремих реконструкцій. Крім того, для забезпечення ефективної координації та обміну інформацією між видами у мережі фреймворк Сплектр-образ робить дві зміни у мережі. По-перше, фреймворк умовно моделює модель з її власною позицією камери, та передає вектори, кодуючи кожен запис за допомогою синусоїдального позиційного вкладення, що результатує у декілька вимірів. По-друге, фреймворк додає шари уваги для забезпечення спілкування між ознаками різних видів.
Сплектр-образ : Експерименти та результати
Фреймворк Сплектр-образ вимірює якість своїх реконструкцій, оцінюючи якість синтезу нового виду, оскільки фреймворк використовує джерельний вид та рендерить 3D-форму для цільових невидимих видів для виконання реконструкцій. Фреймворк оцінює свою продуктивність, вимірюючи SSIM або структурну подібність, піксельний сигнал до шуму або PSNR, та перцептивну якість або LPIPS-оцінки.
Продуктивність одновидової 3D-реконструкції
Наступна таблиця демонструє продуктивність моделі Сплектр-образ у завданнях одновидової 3D-реконструкції на тесті ShapeNet.

Як можна побачити, фреймворк Сплектр-образ перевершує всі детермінативні методи реконструкції по показникам LPIPS та SSIM. Оцінки вказують на те, що модель Сплектр-образ генерує зображення з чіткими реконструкціями. Крім того, модель Сплектр-образ також перевершує всі детермінативні базові показники за показником PSNR, який вказує на те, що згенеровані реконструкції також більш точні. Крім того, окрім перевершення всіх детермінативних методів, фреймворк Сплектр-образ потребує лише відносних позицій камери для підвищення своєї ефективності як у фазі навчання, так і у фазі тестування.
Наступне зображення демонструє якісні можливості фреймворку Сплектр-образ, і, як можна побачити, модель генерує реконструкції з тонкими та цікавими геометріями, та захоплює деталі умовного виду.

Наступне зображення показує, що реконструкції, згенеровані фреймворком Сплектр-образ, не тільки чіткіші, але також мають кращу точність, ніж попередні моделі, особливо в незвичайних умовах з тонкими структурами та обмеженою видимістю.

Багатовидова 3D-реконструкція
Для оцінки своїх багатовидових можливостей 3D-реконструкції фреймворк Сплектр-образ тренується на наборі даних SpaneNet-SRN Cars для прогнозування двох видів. Існуючі методи використовують абсолютне умовне положення камери для завдань багатовидової 3D-реконструкції, що означає, що модель вчиться залежати в першу чергу від канонічної орієнтації об’єкта в об’єкті. Хоча це робить свою роботу, це обмежує застосовність моделей, оскільки абсолютне положення камери часто невідоме для нового зображення об’єкта.

Остаточні думки
У цій статті ми говорили про Сплектр-образ, метод, який спрямований на досягнення ультра-швидкої одновидової 3D-формування та 3D-виду об’єктів. У своєму ядрі фреймворк Сплектр-образ використовує метод розсіювання Гауса для аналізу 3D-представлень, використовуючи швидкість та якість, які він пропонує. Фреймворк Сплектр-образ обробляє зображення, використовуючи стандартну 2D-архітектуру нейронної мережі, для передбачення псевдо-зображення, яке містить один кольоровий Гаус для кожного пікселя. Використовуючи метод розсіювання Гауса, фреймворк Сплектр-образ здатний поєднати швидке рендерингу з швидким висновком, що результатує у швидкому навчанні та швидшому оцінюванні на реальних та синтетичних тестах.












