Штучний інтелект

Нейронні частини: розбивка примітивів для значущої інферованої геометрії

Published June 22, 2021

Updated April 28, 2026

Martin Anderson

Хоча системи, здатні генерувати 3D-геометрію зі статичних одиночних зображень, поширилися в останні роки, об’єкти, які вони отримують, схильні бути “злитими” разом, без будь-якої реальної семантичної схеми, яка відбиває, як частини внесок у ціле.

Є кілька добрих причин для генерації ієрархічних інферованих моделей з значущим поділом частин, включаючи промисловий аналіз, медичні дослідження та застосування зображень, автоматичну генерацію геометрії для відеоігор, симуляторів та середовищ VR/AR, а також візуальні ефекти ригінгу, серед інших.

Багато методів, розроблених в останні роки, таких як Superquadrics розбивка форми, дають менше ніж задовільні результати, і їм було важко просунути стан мистецтва за межі кубоїдного стилю індикативного скибання.

Сегментація за допомогою Superquadrics та інших підходів забезпечує грубу або загально представницьку підчастини до інферованого зображення. Source: https://www.youtube.com/watch?v=6WK3B0IZJsw

Однак, нове дослідження з Інституту Макса Планка, озаглавлене Нейронні частини: навчання виразних 3D-абстракцій форми з інвертованими нейронними мережами, пропонує нову нейронну примітивну систему представлення 3D, яка створює семантично корисні секції.

Попередні методи можуть розбивати великі інферовані об’єкти, але не у семантично корисний спосіб. Праворуч, метод Нейронних частин створює більш практичні фрагменти. Source: https://paschalidoud.github.io/neural_parts

Сегментація досягається за допомогою інвертованої нейронної мережі (INN), яка використовує умовну гомеоморфізм для деформації базової геометричної форми в примітиви, і навпаки, обчислюючи топологічну ієрархію в обидва боки. Таким чином кожна примітивна форма асоціюється з навчуваною примітивною вкладенням для генерації вкладення форми для цієї примітивної форми.

Архітектура

Нейронні частини повинні знайти баланс між якістю реконструкції та цілісністю примітивів, оскільки складні примітиви схильні систему до складної деконструкції. Тому архітектура Нейронних частин була розроблена для того, щоб строювати ці конфліктуючі фактори в елегантний спосіб.

Архітектура Нейронних частин складається з витягувача особливостей, який відображує вхід вектор, і умовного гомеоморфізму, який вивчає гомеоморфні відображення, умовні за вкладенням форми.

Початкова секція витягувача особливостей використовує компонент ResNet-18 для витягування зображень особливостей. Умовний гомеоморфізм використовує модуль перетворення дійсних значень, що не зберігають об’єм (дійсне NVP).

Оцінка

Система була протестована проти трьох наборів даних – 2017 року Dynamic FAUST (D-FAUST), FreiHAND (2019) і популярного набору даних 2015 року ShapeNet Стенфордського університету. Д-FAUST містить 38 640 людських центрованих сіток, які виявилися придатними для порівняння, тоді як перші 5000 поз的手 у FreiHAND були використані для генерації сіток. Для ShapeNet дослідники слідували тій же категорійній навчальній схемі, яку виклали дослідники Стенфордського університету у 2016 році.

Тести були проведені проти примітивно-орієнтованих методів, включаючи суперквадрики, CvxNet і H-SQs.

Під ShapeNet дослідники виявили, що модель Нейронних частин дала більш точні реконструкції, ніж CvxNet на рівні як 5, так і 25 примітивів. Деякі простіших об’єктів у базі даних, таких як стілець, не містили достатньо геометрії для значущої деконструкції.

Для FreiHAND Нейронні частини дали більш геометрично точні реконструкції, з кращим захопленням тонких деталей, таких як положення великого пальця. Дослідники відзначають, що порівняно з цим, CvxNet і SQs більше зосереджені на загальній структурі ядра, і не мають цих деталей.

Для Dynamic FAUST CvxNet і SQs були порівняні з виходом Нейронних частин, використовуючи п’ять примітивів для захоплення цілісності людського тіла, спочатку інферованого з даних. Нейронні частини змогли досягти більш гладкої сегментації, не пожертвувавши суттєвими моментами топології.

Майбутня робота

Дослідники мають намір розширити Нейронні частини до досліджень, які не безпосередньо пропонують цільові сітки, за допомогою технік диференціального рендерингу. Оскільки базова сфера є поточною примітивною, використовуваною в рамках Нейронних частин, дослідники також розглядають можливість використання більш складних і виразних геометричних примітивів.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]