Штучний інтелект

Як працює однозіркова 3D-реконструкція?

Published January 19, 2024

Updated April 4, 2026

Kunal Kejriwal

Традиційно моделі однозіркової реконструкції об’єктів, побудовані на основі卷невих нейронних мереж, показали вражаючі результати у завданнях реконструкції. В останні роки однозіркова 3D-реконструкція стала популярною темою дослідження в спільноті штучного інтелекту. Незалежно від конкретної методології, яку використовують всі моделі однозіркової 3D-реконструкції, вони мають спільний підхід, який полягає у включенні мережі кодування-декодування у свій каркас. Ця мережа здійснює складні висновки про 3D-структуру у вивідному просторі.

У цій статті ми розглянемо, як однозіркова 3D-реконструкція працює в реальному часі, а також поточні проблеми, з якими стикаються ці каркаси у завданнях реконструкції. Ми обговоримо різні ключові компоненти та методи, які використовуються моделями однозіркової 3D-реконструкції, та дослідимо стратегії, які можуть покращити продуктивність цих каркасів. Крім того, ми проаналізуємо результати, отримані найкращими каркасами, які використовують методи кодування-декодування. Давайте почнемо.

Однозіркова 3D-реконструкція об’єктів

Однозіркова 3D-реконструкція об’єктів полягає у генерації 3D-моделі об’єкта з одного огляду, або, простіше кажучи, з одного зображення. Наприклад, висновок про 3D-структуру об’єкта, такого як мотоцикл з зображення, є складним процесом. Він поєднує знання про структурну організацію частин, низькорівневі зображенні підказки та високорівневу семантичну інформацію. Цей спектр охоплює два основних аспекти: реконструкцію та визнання. Процес реконструкції розрізняє 3D-структуру вхідного зображення, використовуючи підказки, такі як затінення, текстура та візуальні ефекти. Натомість, процес визнання класифікує вхідне зображення та витягує відповідну 3D-модель з бази даних.

Поточні моделі однозіркової 3D-реконструкції об’єктів можуть відрізнятися за архітектурою, але вони є уніфікованими включенням структури кодування-декодування у свій каркас. У цій структурі кодувальник відображує вхідне зображення на латентне представлення, тоді як декодувальник здійснює складні висновки про 3D-структуру вивідного простору. Для успішного виконання цього завдання мережа повинна інтегрувати як високорівневу, так і низькорівневу інформацію. Крім того, багато сучасних методів кодування-декодування залежать від визнання для завдань однозіркової 3D-реконструкції, що обмежує їхні можливості реконструкції. Крім того, продуктивність сучасних卷невих нейронних мереж у завданнях однозіркової 3D-реконструкції об’єктів може бути перевершена без явного висновку про 3D-структуру об’єкта. Однак домінування визнання у卷невих нейронних мережах у завданнях однозіркової реконструкції об’єктів залежить від різних експериментальних процедур, включаючи протоколи оцінки та склад бази даних. Такі фактори дозволяють каркасу знайти рішення-закоротку, у цьому випадку, визнання зображення.

Традиційно моделі однозіркової 3D-реконструкції об’єктів підходять до завдань реконструкції, використовуючи підхід “форма з затінення”, з текстурою та розфокусуванням, що служать екзотичними виглядами для завдань реконструкції. Оскільки ці методи використовують один глибинний сигнал, вони здатні надавати висновки про видимі частини поверхні. Крім того, багато моделей однозіркової 3D-реконструкції використовують кілька сигналів разом зі структурними знаннями для оцінки глибини з одного монокулярного зображення, що дозволяє цим каркасам передбачати глибину видимих поверхонь. Більш сучасні каркаси оцінки глибини розгортають структури卷невих нейронних мереж для витягування глибини з монокулярного зображення.

Однак, для ефективної однозіркової 3D-реконструкції моделі не тільки повинні здійснювати висновки про 3D-структуру видимих об’єктів у зображенні, але також повинні уявиати невидимі частини у зображенні, використовуючи певні апріорні знання, вивчені з даних. Для досягнення цього більшість моделей зараз розгортають навчені卷неві нейронні мережі для відображення 2D-зображень на 3D-фігури, використовуючи прямий 3D-нагляд, тоді як багато інших каркасів розгортають воксельні представлення 3D-фігур та використовують латентне представлення для генерації 3D-уп-конволюцій. Деякі каркаси також розділяють вивідний простір ієрархічно для покращення обчислювальної та пам’ятної ефективності, що дозволяє моделі передбачати 3D-фігури вищої роздільності. Останні дослідження зосереджені на використанні слабших форм нагляду для однозіркової 3D-фігури передбачення, використовуючи卷неві нейронні мережі, або порівняння передбачених фігур та їхніх основних передбачень для навчання апріорних регресорів, або використання кількох сигналів навчання для навчання середніх фігур, що допомагає моделі передбачати деформації. Іншою причиною обмежених досягнень у однозірковій 3D-реконструкції є обмежена кількість тренувальних даних, доступних для завдання.

Переходячи далі, однозіркова 3D-реконструкція є складним завданням, оскільки вона не тільки тлумачить візуальні дані геометрично, але також семантично. Хоча вони не є повністю різними, вони охоплюють різні спектри від геометричної реконструкції до семантичного визнання. Завдання реконструкції передбачає піксельний висновок про 3D-структуру об’єкта у зображенні. Завдання реконструкції не потребують семантичного розуміння змісту зображення, і їх можна досягти, використовуючи низькорівневі зображенні підказки, включаючи текстуру, колір, затінення, тіні, перспективу та фокус. Визнання, з іншого боку, є крайнім випадком використання семантики зображення, оскільки завдання визнання використовують цілі об’єкти та еквівалентно класифікують об’єкт у вхідному зображенні та витягує відповідну 3D-фігуру з бази даних. Хоча завдання визнання можуть надавати міцні висновки про частини об’єкта, які не видимі у зображенні, семантичне рішення є можливим лише у тому випадку, якщо воно може бути пояснено об’єктом, присутнім у базі даних.

Хоча завдання визнання та реконструкції можуть відрізнятися один від одного суттєво, вони обидва мають тенденцію ігнорувати цінну інформацію, яка міститься у вхідному зображенні. Радить використовувати обидва ці завдання у єдності один з одним, щоб отримати найкращі можливі результати, та точні 3D-фігури для реконструкції об’єктів, тобто для оптимальної однозіркової 3D-реконструкції завдань, модель повинна розгортати структурні знання, низькорівневі зображенні підказки та високорівневе розуміння об’єкта.

Однозіркова 3D-реконструкція: Традиційна установка

Щоб пояснити традиційну установку та проаналізувати установку моделі однозіркової 3D-реконструкції, ми розгортаємо стандартну установку для оцінки 3D-фігури, використовуючи один огляд або зображення об’єкта. База даних, використана для тренування, є базою даних ShapeNet, та оцінює продуктивність по 13 класам, що дозволяє моделі зрозуміти, як кількість класів у базі даних визначає продуктивність оцінки форми моделі.

Більшість сучасних卷невих нейронних мереж використовують одне зображення для передбачення високороздільних 3D-моделей, та ці каркаси можна категоризувати на основі представлення їхнього виводу: глибинні карти, хмари точок та воксельні сітки. Модель використовує OGN або мережі генерації октодерев як свій представницький метод, який історично перевершував підхід воксельної сітки, та/або може охопити домінантні представлення виводу. На відміну з існуючими методами, які використовують представлення виводу, підхід OGN дозволяє моделі передбачати високороздільні форми, та використовує октодерева для ефективного представлення займаного простору.

Базові лінії

Щоб оцінити результати, модель розгортає дві базові лінії, які розглядають проблему як завдання визнання. Перша базова лінія заснована на кластеризації, тоді як друга базова лінія виконує витягування з бази даних.

Кластеризація

У базовій лінії кластеризації модель використовує алгоритм K-Means для кластеризації або згрупування тренувальних форм у K-підкатегорії, та запускає алгоритм на 32*32*32 воксельних зображеннях, сплющених у вектор. Після визначення кластерних призначень модель повертається до роботи з моделями вищої роздільності. Модель потім обчислює середню форму у кожному кластері, та порогові значення середніх форм, де оптимальне значення обчислюється шляхом максимізації середнього IoU або перехрестного співвідношення над моделями. Оскільки модель знає зв’язок між 3D-формами та зображеннями у тренувальних даних, модель може легко зіставити зображення з відповідним кластером.

Витягування

Базова лінія витягування вчиться вкладати форми та зображення у спільний простір. Модель розглядає парну схожість 3D-матричних форм у тренувальному наборі для конструкції простору вкладення. Модель досягає цього, використовуючи підхід багатомірного масштабування з відображенням Саммона для стиснення кожного рядка матриці у низькорозмірний дескриптор. Крім того, для розрахунку схожості між двома довільними формами модель використовує дескриптор світлового поля. Крім того, модель тренує卷неву нейронну мережу для відображення зображень на дескриптор, щоб вкладати зображення у простір.

Аналіз

Моделі однозіркової 3D-реконструкції слідують різним стратегіям, унаслідок чого вони перевершують інші моделі у деяких областях, тоді як у інших вони відстають. Для порівняння різних каркасів та оцінки їхньої продуктивності у нас є різні метрики, одна з яких є середнім показником IoU.

Як можна побачити на вищезазначеному зображенні, незважаючи на те, що вони мають різні архітектури, сучасні моделі 3D-реконструкції демонструють майже однакову продуктивність. Однак цікаво відзначити, що, незважаючи на те, що це є чистим завданням визнання, каркас витягування демонструє кращі результати, ніж інші моделі, у термінах середнього та медіанного показників IoU. Каркас кластеризації демонструє солідні результати, перевершуючи каркаси AtlasNet, OGN та Matryoshka. Однак найнеочікуванішим результатом цього аналізу залишається Oracle NN, який перевершує всі інші методи, незважаючи на те, що він використовує ідеальну архітектуру витягування. Хоча розрахунок середнього показника IoU допомагає у порівнянні, він не надає повного уявлення, оскільки розкид результатів високий незалежно від моделі.

Спільні метрики оцінки

Моделі однозіркової 3D-реконструкції часто використовують різні метрики оцінки для аналізу їхньої продуктивності у широкому діапазоні завдань. Нижче наведені деякі з найбільш часто використовуваних метрик оцінки.

Перехрестне співвідношення

Середній показник перехрестного співвідношення є метрикою, яка часто використовується як кількісна міра для оцінки моделей однозіркової 3D-реконструкції. Хоча IoU надає деяке уявлення про продуктивність моделі, його не вважають єдиною метрикою для оцінки методу, оскільки він вказує на якість форми, передбаченої моделлю, лише у тому випадку, якщо значення достатньо високі з суттєвою розбіжністю, спостережуваною між низькими та середніми балами для двох заданих форм.

Чамферна відстань

Чамферна відстань визначається на хмарах точок, та була розроблена таким чином, щоб її можна було застосовувати до різних 3D-представлень задовільно. Однак метрика чамферної відстані є високочутливою до аутлієрів, що робить її проблематичною мірою для оцінки продуктивності моделі, з відстанню аутлієра від форми-еталону, суттєво визначаючи якість генерації.

F-оцінка

F-оцінка є метрикою, яка активно використовується більшістю моделей багатозіркової 3D-реконструкції. Метрика F-оцінки визначається як гармонійне середнє між відозвом та точністю, та оцінює відстань між поверхнями об’єктів явно. Точність рахує відсоток реконструйованих точок, що лежать у межах заданої відстані до форми-еталону, для вимірювання точності реконструкції. Відозва, з іншого боку, рахує відсоток точок на формі-еталоні, що лежать у межах заданої відстані до реконструкції, для вимірювання повноти реконструкції. Крім того, змінюючи порогову відстань, розробники можуть контролювати суворість метрики F-оцінки.

Аналіз за класами

Схожість продуктивності, наданої вище каркасами, не може бути результатом методів, що працюють на різних підмножинах класів, та наступна фігура демонструє стабільну відносну продуктивність по різних класам, з базовою лінією Oracle NN, яка досягає найкращого результату серед усіх, та всі методи спостерігають високу дисперсію для всіх класів.

Крім того, кількість тренувальних зразків, доступних для класу, може привести до висновку, що це впливає на продуктивність за класами. Однак, як демонструється на наступній фігурі, кількість тренувальних зразків, доступних для класу, не впливає на продуктивність за класами, та кількість зразків у класі та його середній бал IoU не корелюють.

Якісний аналіз

Кількісні результати, обговорені у вищезазначеному розділі, підтверджуються якісними результатами, як показано на наступному зображенні.

Для більшості класів немає суттєвої різниці між базовою лінією кластеризації та передбаченнями, зробленими декодувальними методами. Підхід кластеризації не дає результатів, коли відстань між зразком та середньою формою кластера є високою, або у ситуаціях, коли середня форма сама по собі не може описати кластер достатньо добре. Натомість, каркаси, які використовують декодувальні методи та архітектуру витягування, демонструють найточніші та привабливіші результати, оскільки вони здатні включати тонкі деталі у згенеровану 3D-модель.

Однозіркова 3D-реконструкція: Остаточні думки

У цій статті ми говорили про однозіркову 3D-об’єктну реконструкцію, та говорили про те, як вона працює, та говорили про дві базові лінії: витягування та класифікацію, з базовою лінією витягування, яка перевершує сучасні моделі. Нарешті, хоча однозіркова 3D-об’єктна реконструкція є однією з найгарячіших тем та найбільш досліджуваних тем у спільноті штучного інтелекту, та尽管 зробили суттєві досягнення за останні роки, однозіркова 3D-об’єктна реконструкція ще далека від досконалості з суттєвими перешкодами, які потрібно подолати у майбутніх роках.

Related Topics:3D object 3D Reconstruction