Refresh

This website www.unite.ai/bg/splatter-image-ultra-fast-single-view-3d-reconstruction/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

кочан Пръскащо изображение: Ултра-бърза 3D реконструкция на един изглед - Unite.AI
Свържете се с нас

Изкуствен интелект

Пръскащо изображение: ултра-бърза 3D реконструкция на един изглед

mm

Публикуван

 on

Пръскащо изображение: ултра-бърза 3D реконструкция на един изглед

Реконструкцията на 3D обект с един изглед с конволюционни мрежи демонстрира забележителни възможности. Моделите за 3D реконструкция с един изглед генерират 3D модела на всеки обект, използвайки едно изображение като референтен, което го прави една от най-горещите теми за изследване в компютърно зрение

Например, нека разгледаме мотоциклета в горното изображение. Генерирането на неговата 3D структура изисква сложен тръбопровод, който първо комбинира сигнали от изображения на ниско ниво със семантична информация на високо ниво и знания за структурното подреждане на частите. 

Благодарение на сложния процес, 3D реконструкцията на един изглед е голямо предизвикателство в компютърното зрение. В опит да подобрят ефективността на 3D реконструкцията в един изглед, разработчиците са работили върху Splatter Image, метод, който има за цел да постигне ултра-бързо изграждане на 3D форма в един изглед и 3D изглед на обектите. В основата си рамката Splatter Image използва метода Gaussian Splatting за анализиране на 3D представяния, като се възползва от скоростта и качеството, които предлага. 

Наскоро методът Gaussian Splatting беше внедрен от множество модели за реконструкция с множество изгледи за изобразяване в реално време, подобрено мащабиране и бързо обучение. Като се има предвид това, Splatter Image е първата рамка, която прилага метода Gaussian Splatting за задачи за реконструкция на един изглед. 

В тази статия ще проучим как рамката Splatter Image използва Gaussian Splatting за постигане на ултра-бърза 3D реконструкция на един изглед. Така че нека да започнем. 

Пръскащо изображение: Опит за ултра-бърза 3D реконструкция на един изглед

Както бе споменато по-рано, Splatter Image е ултра-бърз подход за реконструкция на 3D обект с един изглед, базиран на метода на Gaussian Splatting. Splatter Image е първата рамка за компютърно зрение, която прилага Gaussian Splatting за генериране на монокулярни 3D обекти, тъй като традиционно Gaussian Splatting захранва рамки за реконструкция на 3D обекти с множество изгледи. Въпреки това, това, което разделя рамката на Splatter Image от предишните методи, е, че това е подход, базиран на обучение, и реконструкцията при тестване изисква само предварителна оценка на невронната мрежа. 

Splatter Image разчита основно на качествата на изобразяване на Gaussian Splatting и високата скорост на обработка за генериране 3D реконструкции. Рамката Splatter Image се отличава с ясен дизайн: рамката използва 2D невронна мрежа от изображение към изображение, за да предвиди 3D Gaussian на пиксел на входното изображение и картографира входното изображение към един 3D Gaussian на пиксел. Получените 3D Gaussians имат формата на изображение, известно като Splatter Image, и те Gaussians също осигуряват 360-градусово представяне на изображението. Процесът е демонстриран на следното изображение. 

Въпреки че процесът е прост и ясен, има някои ключови предизвикателства, пред които е изправена рамката Splatter Image, когато използва Gaussian Splatting за генериране на 3D Gaussians за 3D изображения с един изглед. Първото голямо препятствие е да се проектира невронна мрежа, която приема изображението на обект като вход и генерира съответна гаусова смес, представяща всички страни на изображението като изход. За да се справи с това, Splatter Image се възползва от факта, че въпреки че генерираната гаусова смес е набор или неподредена колекция от елементи, тя все още може да се съхранява в подредена структура от данни. Съответно рамката използва 2D изображение като контейнер за 3D Gaussian, в резултат на което всеки пиксел в контейнера съдържа параметрите на един Gaussian, включително неговите свойства като форма, непрозрачност и цвят. 

Съхранявайки 3D гаусови набори в изображение, рамката Splatter Image е в състояние да намали препятствията при реконструкцията, пред които се изправя, когато изучавате невронна мрежа от изображение към изображение. Чрез използването на този подход процесът на реконструкция може да се реализира само чрез използване на ефективни 2D оператори, вместо да се разчита на 3D оператори. Освен това, в рамките на Splatter Image, 3D представянето е смес от 3D Gaussians, което му позволява да използва предимствата на скоростта на изобразяване и ефективността на паметта, предлагани от Gaussian Splatting, което подобрява ефективността при обучението, както и при изводите. Продължавайки напред, рамката Splatter Image не само генерира 3D представяния с един изглед, но също така демонстрира забележителна ефективност, тъй като може да бъде обучена дори на един GPU на стандартни бенчмаркове за 3D обекти. Освен това рамката Splatter Image може да бъде разширена, за да приема няколко изображения като вход. Той е в състояние да постигне това чрез регистриране на отделните гаусови смеси към обща справка и след това чрез вземане на комбинацията от гаусови смеси, предсказани от отделни изгледи. Рамката също така инжектира леки слоеве за кръстосано внимание в своята архитектура, което позволява на различни изгледи да комуникират един с друг по време на прогнозиране. 

От емпирична гледна точка си струва да се отбележи, че рамката Splatter Image може да създаде 360-градусова реконструкция на обекта, въпреки че вижда само едната му страна. След това рамката разпредели различни гаусиани в 2D съседство към различни части на 3D обекта, за да кодира генерираната 360-градусова информация в 2D изображението. Освен това, рамката задава непрозрачността на няколко Gaussians на нула, което ги дезактивира, като по този начин им позволява да бъдат отстранени по време на последваща обработка. 

За да обобщим, рамката Splatter Image е

  1. Нов подход за генериране на реконструкции на триизмерни обекти с един изглед чрез пренасяне на подхода на Gaussian Splatting. 
  2. Разширява метода за реконструкция на 3D обект с множество изгледи. 
  3. Постига най-съвременна производителност при 3D реконструкция на обекти при стандартни тестове с изключителна скорост и качество. 

Splatter Image: Методология и архитектура

Gaussian Splatting

Както бе споменато по-рано, Gaussian Splatting е основният метод, реализиран от рамката Splatter Image за генериране на реконструкции на 3D обекти с един изглед. Казано с прости думи, Gaussian Splatting е метод за растеризация за реконструиране на 3D изображения и в реално време, както и изобразяване на изображения с множество гледни точки. 3D пространството в изображението се нарича гаусиани и машинно обучение прилагат се техники за научаване на параметрите на всеки Gaussian. Gaussian Splatting не изисква обучение по време на изобразяване, което улеснява по-бързото изобразяване. Следното изображение обобщава архитектурата на 3D Gaussian Splatting. 

3D Gaussian Splatting първо използва набора от входни изображения, за да генерира облак от точки. След това Gaussian Splatting използва входните изображения, за да оцени външните параметри на камерата като наклон и позиция чрез съпоставяне на пикселите между изображенията и тези параметри след това се използват за изчисляване на облака от точки. Използвайки различни методи за машинно обучение, Gaussian Splatting след това оптимизира четири параметъра за всеки Gaussian, а именно: позиция (къде се намира), ковариация (степента на нейното разтягане или мащабиране в матрица 3×3), цвят (каква е RGB цветовата схема) и Alpha (измерване на прозрачността). Процесът на оптимизация изобразява изображението за всяка позиция на камерата и го използва за определяне на параметрите, по-близки до оригиналното изображение. В резултат на това полученият резултат от 3D Gaussian Splatting е изображение, наречено Splatter Image, което наподобява най-много оригиналното изображение в позицията на камерата, от която е заснето. 

Освен това функцията за непрозрачност и функцията за цвят в Gaussian Splatting дава поле на излъчване с посоката на гледане на 3D точката. След това рамката изобразява полето на излъчване върху изображение чрез интегриране на цветовете, наблюдавани по дължината на лъча, който преминава през пиксела. Gaussian Splatting представя тези функции като комбинация от цветни гаусови стойности, където гаусовата средна стойност или центърът заедно с гаусовата ковариация помагат при определянето на неговата форма и размер. Всеки Гаус също има свойство за непрозрачност и свойство за цвят, зависещо от изгледа, които заедно определят полето на излъчване. 

Пръскащо изображение

Компонентът за изобразяване картографира набора от 3D Gaussians към изображение. За да извърши 3D реконструкция на един изглед, рамката след това търси обратна функция за 3D гаусиани, които реконструират сместа от 3D гаусиани от изображение. Ключовото включване тук е да се предложи ефективен, но прост дизайн за обратната функция. По-конкретно, за входно изображение рамката прогнозира гаус за всеки отделен пиксел, използвайки архитектура на невронна мрежа от изображение към изображение, за да изведе изображение, Splatter Image. Мрежата също така предвижда формата, непрозрачността и цвета. 

Сега може да се спекулира как може рамката Splatter Image реконструира 3D представянето на обект, въпреки че има достъп само до един от своите изгледи? В реално време рамката Splatter Image се научава да използва някои от наличните Gaussians, за да реконструира изгледа, и използва останалите Gaussians, за да реконструира автоматично невидими части от изображението. За да увеличи максимално ефективността си, рамката може автоматично да изключи всякакви гаусиани, като предвиди дали непрозрачността е нула. Ако непрозрачността е нула, гаусианите са изключени и рамката не изобразява тези точки и вместо това се отстраняват при последваща обработка. 

Загуба на ниво на изображението

Основно предимство на използването на скоростта и ефективността, предлагани от метода на Splatter Gaussian, е, че той улеснява рамката за изобразяване на всички изображения при всяка итерация, дори за партиди с относително по-голям размер на партида. Освен това, това означава, че не само рамката е в състояние да използва разложими загуби, тя може също да използва загубите на ниво изображение, които не се разлагат на загуби на пиксел. 

Нормализация на мащаба

Предизвикателство е да се оцени размерът на обект, като се погледне един изглед, и е предизвикателна задача да се разреши тази неяснота, когато се тренира със загуба. Същият проблем не се наблюдава при синтетичните набори от данни, тъй като всички обекти се изобразяват с идентични вътрешни характеристики на камерата и обектите са на фиксирано разстояние от камерата, което в крайна сметка помага при респ;вирането на неяснотата. Въпреки това, в набори от данни с изображения от реалния живот, неяснотата е доста очевидна и рамката Splatter Image използва няколко метода за предварителна обработка, за да фиксира приблизително мащаба на всички обекти. 

Преглед на зависим цвят

За представяне на цветове, зависещи от изгледа, рамката Splatter Image използва сферични хармоници за обобщаване на цветовете извън цветовия модел на Lambertian. За всеки специфичен Гаус моделът определя коефициенти, които се предсказват от мрежата и сферичните хармоници. Промяната на гледната точка трансформира посоката на гледане в източника на камерата в съответната посока на гледане в референтната рамка. След това моделът намира съответните коефициенти, за да намери трансформираната цветова функция. Моделът е в състояние да направи това, защото когато са подложени на въртене, сферичните хармоници са затворени, заедно с всеки друг ред. 

Архитектура на невронна мрежа

По-голямата част от архитектурата на предиктора, картографиращ входното изображение към комбинацията от Gaussian, е идентична с процеса, използван в рамката SongUNet. Последният слой в архитектурата е заменен от 1×1 конволюционен слой с цветовия модел, определящ ширината на изходните канали. Като се има предвид входното изображение, мрежата произвежда тензор на изходния канал като изход и за всеки пикселен канал кодира параметрите, които след това се трансформират в отместване, непрозрачност, ротация, дълбочина и цвят. След това рамката използва нелинейни функции за активиране на параметрите и получаване на параметрите на Гаус. 

За реконструиране на 3D представяния с множество изгледи рамката Splatter Image прилага една и съща мрежа към всеки входен изглед и след това използва подхода на гледната точка, за да комбинира отделните реконструкции. Освен това, за да се улесни ефективната координация и обмен на информация между изгледите в мрежата, рамката Splatter Image прави две модификации в мрежата. Първо, рамката обуславя модела със съответната му поза на камерата и предава вектори чрез кодиране на всеки запис с помощта на вграждане на синусоидална позиция, което води до множество измерения. Второ, рамката добавя слоеве за кръстосано внимание, за да улесни комуникацията между характеристиките на различни изгледи. 

Пръскащо изображение: Експерименти и резултати

Рамката Splatter Image измерва качеството на своите реконструкции чрез оценка на качеството на нов синтез на изглед, тъй като рамката използва изгледа на източника и изобразява 3D формата, за да насочи невидими изгледи за извършване на реконструкции. Рамката оценява своята производителност чрез измерване на SSIM или структурно сходство, пиково съотношение сигнал/шум или PSNR и резултати за качество на възприемане или LPIPS. 

Изпълнение на 3D реконструкция с един изглед

Следващата таблица демонстрира производителността на модела Splatter Image в задача за 3D реконструкция на един изглед при теста за сравнение на ShapeNet. 

Както може да се види, рамката на Splatter Image превъзхожда всички детерминистични методи за реконструкция в LPIPS и SSIM резултатите. Резултатите показват, че моделът Splatter Image генерира изображения с по-отчетливи реконструкции. Освен това, моделът Splatter Image също превъзхожда всички детерминистични базови линии по отношение на PSNR резултата, което показва, че генерираните реконструкции също са по-точни. Освен това, в допълнение към превъзходството на всички детерминистични методи, рамката Splatter Image изисква само относителните пози на камерата, за да подобри ефективността си както във фазите на обучение, така и във фазите на тестване. 

Следващото изображение демонстрира качествената мощ на рамката Splatter Image и, както може да се види, моделът генерира реконструкции с тънки и интересни геометрии и улавя детайлите на изгледите на кондициониране. 

Следното изображение показва, че реконструкциите, генерирани от рамката на Splatter Image, са не само по-отчетливи, но и имат по-добра точност от предишните модели, особено при нетрадиционни условия с тънки структури и ограничена видимост. 

3D реконструкция с множество изгледи

За да се оценят неговите възможности за 3D реконструкция с множество изгледи, рамката Splatter Image е обучена върху набора от данни SpaneNet-SRN Cars за две прогнози за изгледи. Съществуващите методи използват абсолютна настройка на позата на камерата за задачи за 3D реконструкция с множество изгледи, което означава, че моделът се научава да разчита основно на каноничната ориентация на обекта в обекта. Въпреки че върши работата, ограничава приложимостта на моделите, тъй като абсолютната поза на камерата често е неизвестна за ново изображение на обект. 

Заключителни мисли

В тази статия говорихме за Splatter Image, метод, който има за цел да постигне ултра-бърза конструкция на 3D форма на един изглед и 3D изглед на обектите. В основата си рамката Splatter Image използва метода Gaussian Splatting за анализиране на 3D представяния, като се възползва от скоростта и качеството, които предлага. Рамката Splatter Image обработва изображения с помощта на готова 2D CNN архитектура, за да предвиди псевдоизображение, което съдържа един цветен гаус на всеки пиксел. Използвайки метода на Gaussian Splatting, рамката Splatter Image е в състояние да комбинира бързо изобразяване с бързи изводи, което води до бързо обучение и по-бърза оценка на реални и синтетични бенчмаркове. 

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.