никулец Како функционира 3D реконструкцијата со еден поглед? - Обединете се.АИ
Поврзете се со нас

Вештачка интелигенција

Како функционира 3D реконструкцијата со еден поглед?

mm

Објавено

 on

Традиционално, моделите за реконструкција на објект со еден поглед изградени на конволутивни невронски мрежи покажаа извонредни перформанси во задачите за реконструкција. Во последниве години, 3D реконструкцијата со еден поглед се појави како популарна тема за истражување во заедницата за вештачка интелигенција. Без оглед на употребената специфична методологија, сите 3D модели за реконструкција со еден поглед го делат заедничкиот пристап на инкорпорирање на мрежа за шифрирање-декодер во нивната рамка. Оваа мрежа врши сложено расудување за 3D структурата во излезниот простор.

Во оваа статија, ќе истражиме како функционира 3D реконструкцијата со еден поглед во реално време и тековните предизвици со кои се соочуваат овие рамки во задачите за реконструкција. Ќе разговараме за различни клучни компоненти и методи кои се користат од моделите за реконструкција на 3D со еден поглед и ќе истражиме стратегии кои би можеле да ги подобрат перформансите на овие рамки. Дополнително, ќе ги анализираме резултатите произведени од најсовремените рамки кои користат методи на енкодер-декодер. Ајде да се нурнеме.

Реконструкција на 3D објект со еден поглед

Реконструкцијата на 3D објект со еден поглед вклучува генерирање на 3D модел на објект од една гледна точка, или поедноставно, од една слика. На пример, заклучувањето на 3D структурата на објектот, како што е мотоцикл од слика, е сложен процес. Комбинира знаење за структурното уредување на делови, знаци на слики на ниско ниво и семантички информации на високо ниво. Овој спектар опфаќа два главни аспекти: реконструкција признавање. Процесот на реконструкција ја препознава 3D структурата на влезната слика користејќи знаци како засенчување, текстура и визуелни ефекти. Спротивно на тоа, процесот на препознавање ја класифицира влезната слика и вади соодветен 3D модел од базата на податоци.

Тековните модели за реконструкција на 3D објекти со еден поглед може да се разликуваат во архитектурата, но тие се обединети со вклучување на структура на енкодер-декодер во нивната рамка. Во оваа структура, енкодерот ја мапира влезната слика на латентна претстава, додека декодерот прави сложени заклучоци за 3Д структурата на излезниот простор. За успешно извршување на оваа задача, мрежата мора да ги интегрира информациите на високо и на ниско ниво. Дополнително, многу најсовремени методи за енкодер-декодер се потпираат на препознавање за задачи за реконструкција на 3D со еден приказ, што ги ограничува нивните можности за реконструкција. Згора на тоа, перформансите на модерните конволутивни невронски мрежи во реконструкција на 3D објекти со еден поглед може да се надминат без експлицитно да се заклучи структурата на 3D објектот. Сепак, доминацијата на препознавањето во конволуционите мрежи во задачите за реконструкција на објект со еден поглед е под влијание на различни експериментални процедури, вклучувајќи протоколи за евалуација и состав на податоци. Ваквите фактори овозможуваат рамката да најде решение за кратенки, во овој случај, препознавање слика.

Традиционално, 3D-рамките за реконструкција на објекти со еден поглед им пристапуваат на задачите за реконструкција користејќи ја формата од пристапот на засенчување, при што текстурата и дефокусирањето служат како егзотични погледи за задачите за реконструкција. Бидејќи овие техники користат единствен знак за длабочина, тие се способни да обезбедат расудување за видливите делови на површината. Понатаму, многу од 3D рамки за реконструкција со еден поглед користете повеќе знаци заедно со структурно знаење за проценка на длабочина од една монокуларна слика, комбинација што им овозможува на овие рамки да ја предвидат длабочината на видливите површини. Поновите рамки за проценка на длабочина распоредуваат структури на конволуциони невронски мрежи за да извлечат длабочина во монокуларна слика. 

Меѓутоа, за ефикасна 3D реконструкција со еден поглед, моделите не само што треба да размислуваат за 3D структурата на видливите објекти на сликата, туку тие исто така треба да ги халуцинираат невидливите делови на сликата користејќи одредени претходни научени од податоците. За да се постигне ова, поголемиот дел од моделите моментално распоредуваат обучени структури на невронска мрежа за да мапираат 2D слики во 3D форми користејќи директен 3D надзор, додека многу други рамки распоредиле претстави на 3D форма базирани на воксели и користеле латентна претстава за да генерира 3D до-конволуции. Одредени рамки, исто така, го делат излезниот простор хиерархиски за да ја подобрат пресметковната и мемориската ефикасност што му овозможува на моделот да предвидува 3D форми со повисока резолуција. Неодамнешните истражувања се фокусираат на користење на послаби форми на надзор за предвидувања на 3D форма со еден приказ користејќи конволутивни невронски мрежи, или споредувајќи ги предвидените форми и нивните предвидувања на основната вистина за обука на регресори на обликот или користење на повеќе сигнали за учење за обука на средни форми што му помагаат на моделот да предвиди деформации. Друга причина зад ограничениот напредок во 3D реконструкцијата со еден поглед е ограничениот број на податоци за обука достапни за задачата. 

Движејќи се заедно, 3D реконструкцијата со еден поглед е сложена задача бидејќи не само што ги толкува визуелните податоци геометриски, туку и семантички. Иако тие не се сосема различни, тие опфаќаат различни спектри од геометриска реконструкција до семантичко препознавање. Задачи за реконструкција по пиксел расудување на 3D структурата на објектот на сликата. Задачите за реконструкција не бараат семантичко разбирање на содржината на сликата, а тоа може да се постигне со помош на знаци на слики на ниско ниво, вклучувајќи текстура, боја, засенчување, сенки, перспектива и фокус. Од друга страна, препознавањето е екстремен случај на користење на семантика на слики бидејќи задачите за препознавање користат цели објекти и износи за да го класифицираат објектот во влезот и да ја преземат соодветната форма од базата на податоци. Иако задачите за препознавање можат да обезбедат цврсто расудување за деловите од објектот што не се видливи на сликите, семантичкото решение е изводливо само ако може да се објасни со објект присутен во базата на податоци. 

Иако задачите за препознавање и реконструкција може значително да се разликуваат една од друга, и двете имаат тенденција да ги игнорираат вредните информации содржани во влезната слика. Препорачливо е да се користат двете овие задачи во дует една со друга за да се добијат најдобри можни резултати и точни 3Д форми за реконструкција на објекти, т.е. за оптимални задачи за реконструкција на 3D со еден поглед, моделот треба да користи структурно знаење, знаци на слики на ниско ниво, и разбирање на објектот на високо ниво. 

3D реконструкција со еден поглед: конвенционално поставување

За да го објасниме конвенционалното поставување и да го анализираме поставувањето на рамка за реконструкција на 3D со еден приказ, ќе распоредиме стандардна поставка за проценка на 3D формата користејќи еден приказ или слика на објектот. Базата на податоци што се користи за целите на обуката е базата на податоци ShapeNet и ги проценува перформансите во 13 класи што му овозможува на моделот да разбере како бројот на класи во базата на податоци ги одредува перформансите за проценка на обликот на моделот.

Поголемиот дел од современите конволуциски невронски мрежи користат една слика за да предвидат 3D модели со висока резолуција, а овие рамки може да се категоризираат врз основа на претставувањето на нивниот излез: мапи на длабочина, облаци на точки и вокселни мрежи. Моделот користи OGN или Octree Generating Networks како свој репрезентативен метод кој историски го надминува пристапот на вокселната мрежа и/или може да ги покрие доминантните излезни претстави. За разлика од постоечките методи кои користат излезни претстави, пристапот OGN му дозволува на моделот да предвидува форми со висока резолуција и користи октри за ефикасно да го претстави зафатениот простор. 

Основни линии

За да се проценат резултатите, моделот распоредува две основни линии кои го разгледуваат проблемот чисто како задача за препознавање. Првата основна линија се заснова на кластерирање додека втората основна линија врши пребарување на базата на податоци. 

Кластерирање

Според основната линија за кластерирање, моделот го користи алгоритмот K-Means за групирање или здружување на облиците за обука во К под-категории и го извршува алгоритмот на 32*32*32 вокселизации срамнети со земја во вектор. По одредувањето на задачите на кластерот, моделот се враќа на работа со модели со поголема резолуција. Потоа, моделот ја пресметува средната форма во секој кластер и ги одредува праговите на средните форми каде што се пресметува оптималната вредност со максимизирање на просечната IoU или Пресек преку Унијата над моделите. Бидејќи моделот ја знае врската помеѓу 3D формите и сликите во податоците за обуката, моделот може лесно да ја совпадне сликата со соодветниот кластер. 

Враќање

Основната линија за пронаоѓање учи да вградува облици и слики во заеднички простор. Моделот ја разгледува парната сличност на формите на 3Д матрицата во комплетот за обука за да го конструира просторот за вградување. Моделот го постигнува ова со користење на пристапот за мапирање на повеќедимензионално скалирање со Sammon за компресирање на секој ред во матрицата до нискодимензионален дескриптор. Понатаму, за да се пресмета сличноста помеѓу две произволни форми, моделот користи дескриптор на светлосно поле. Дополнително, моделот тренира конволутивна невронска мрежа за мапирање на слики на дескриптор за да ги вгради сликите во просторот. 

Анализа

Моделите за реконструкција на 3D со еден поглед следат различни стратегии, како резултат на што тие ги надминуваат другите модели во некои области, додека во други не успеваат. За да споредиме различни рамки и да ги оцениме нивните перформанси, имаме различни метрики, а една од нив е средната оценка на IoU. 

Како што може да се види на горната слика, и покрај тоа што имаат различни архитектури, сегашните најсовремени модели за реконструкција на 3D обезбедуваат речиси слични перформанси. Сепак, интересно е да се забележи дека и покрај тоа што е чист метод за препознавање, рамката за пребарување ги надминува другите модели во однос на средните и средните резултати на IoU. Рамката за кластерирање дава солидни резултати кои ги надминуваат рамките на AtlasNet, OGN и Matryoshka. Сепак, најнеочекуваниот исход од оваа анализа останува Oracle NN кој ги надминува сите други методи и покрај тоа што користи совршена архитектура за пребарување. Иако пресметувањето на средниот резултат на IoU помага во споредбата, тоа не дава целосна слика бидејќи варијансата во резултатите е висока без оглед на моделот. 

Вообичаени метрики за евалуација

Моделите за реконструкција на 3D со еден поглед често користат различни метрики за евалуација за да ги анализираат нивните перформанси на широк опсег на задачи. Следниве се некои од најчесто користените метрики за евалуација. 

Пресек над Унијата

Средната вредност на пресекот над унијата е метрика која вообичаено се користи како квантитативна мерка за да служи како репер за 3D модели за реконструкција со еден поглед. Иако IoU обезбедува одреден увид во перформансите на моделот, тој не се смета како единствена метрика за евалуација на методот бидејќи го покажува квалитетот на обликот предвиден од моделот само ако вредностите се доволно високи со значително несовпаѓање помеѓу оценки од низок и среден опсег за две дадени форми. 

Растојание на заоблени

Растојанието на браздата е дефинирано на облаците со точки и е дизајнирано на начин што може да се примени на различни 3D претстави на задоволително ниво. Како и да е, метриката за оценка на оддалеченоста на браздата е многу чувствителна на оддалечените вредности што ја прави проблематична мерка за оценување на перформансите на моделот, при што растојанието на оддалеченоста од референтната форма значително го одредува квалитетот на генерирањето. 

F-резултат

F-Score е вообичаена метрика за евалуација која активно се користи од мнозинството модели за реконструкција на 3D со повеќе прегледи. Метриката F-Score е дефинирана како хармонична средина помеѓу потсетувањето и прецизноста и експлицитно го проценува растојанието помеѓу површините на објектите. Прецизноста го брои процентот на реконструирани точки што лежат на предефинирано растојание до вистината на земјата, за да се измери точноста на реконструкцијата. Потсетувањето, од друга страна, го брои процентот на точки на вистината на земјата што лежат на предефинирано растојание до реконструкцијата за да ја измери комплетноста на реконструкцијата. Понатаму, со менување на прагот на растојанието, програмерите можат да ја контролираат строгоста на метриката F-Score. 

Анализа по класа

Сличноста во перформансите испорачани со горенаведените рамки не може да биде резултат на методите што се извршуваат на различни подмножества на класи, а следната слика ја покажува конзистентната релативна изведба низ различни класи, при што основната линија за пребарување на Oracle NN го постигнува најдобриот резултат од сите нив и сите методи кои набљудуваат висока варијанса за сите класи.  

Понатаму, бројот на примероци за обука достапни за една класа може да доведе до претпоставка дека влијае на перформансите по класа. Меѓутоа, како што е прикажано на следната слика, бројот на примероци за обука достапни за класа не влијае на перформансите по класа, а бројот на примероци во класата и неговиот среден IoU резултат не се во корелација. 

Квалитативна анализа

Квантитативните резултати дискутирани во делот погоре се поткрепени со квалитативни резултати како што е прикажано на следната слика. 

За повеќето класи, нема значајна разлика помеѓу основната линија за кластерирање и предвидувањата направени со методите базирани на декодер. Пристапот за кластерирање не успева да даде резултати кога растојанието помеѓу примерокот и средната форма на кластерот е големо, или во ситуации кога самата средна форма не може доволно добро да го опише кластерот. Од друга страна, рамки кои користат методи засновани на декодер и архитектура за пронаоѓање даваат најточни и најпривлечни резултати бидејќи се способни да вклучат фини детали во генерираниот 3D модел. 

3D реконструкција со еден поглед: завршни мисли

Во оваа статија, разговаравме за реконструкција на 3D објекти со еден поглед, и зборувавме за тоа како функционира, и зборувавме за две основни линии: пребарување и класификација, при што основниот пристап за пронаоѓање ги надминува моменталните модели на уметност. Конечно, иако Реконструкција на 3D објект со еден поглед е една од најжешките теми и најистражуваните теми во заедницата за вештачка интелигенција, и покрај тоа што постигна значителен напредок во изминатите неколку години, реконструкцијата на 3D објекти со еден поглед е далеку од совршена со значителни пречки што треба да се надминат во наредните години. 

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.