քոթուկ Mega-NeRF-ի միջոցով նեյրոնային որոնման և փրկարարական թռիչքների միջով միջավայրերի ստեղծում - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

Mega-NeRF-ի միջոցով նեյրոնային որոնման և փրկարարական թռչող միջավայրերի ստեղծում

mm
Թարմացվել է on

Carnegie Mellon-ի և ինքնավար մեքենա վարելու տեխնոլոգիաների ընկերության Argo AI-ի նոր հետազոտական ​​համագործակցությունը մշակել է դինամիկ թռչող միջավայրեր ստեղծելու համար՝ հիմնված Նյարդային ճառագայթման դաշտերի (NeRF) վրա՝ օգտագործելով անօդաչու թռչող սարքերի կողմից նկարահանված կադրերը:

Mega-NeRF-ն առաջարկում է ինտերակտիվ թռիչքներ՝ հիմնված անօդաչու թռչող սարքերի կադրերի վրա՝ ըստ պահանջի LOD-ով: Աղբյուրը՝ Mega-NeRF-Full - Rubble Flythrough: Լրացուցիչ մանրամասների համար (ավելի լավ լուծաչափով) դիտեք այս հոդվածի վերջում ներկառուցված տեսանյութը: - https://www.youtube.com/watch?v=t_xfRmZtR7k

Mega-NeRF-ն առաջարկում է ինտերակտիվ թռիչքներ՝ հիմնված անօդաչու թռչող սարքերի կադրերի վրա՝ ըստ պահանջի LOD-ով: Լրացուցիչ մանրամասների համար (ավելի լավ լուծաչափով) դիտեք այս հոդվածի վերջում ներկառուցված տեսանյութը: Source: Mega-NeRF-Full – Rubble Flythrough  – https://www.youtube.com/watch?v=t_xfRmZtR7k

Նոր մոտեցումը, որը կոչվում է Mega-NeRF, ստանում է 40 անգամ արագություն՝ համեմատած միջին նեյրոնային ճառագայթման դաշտերի մատուցման ստանդարտի հետ, ինչպես նաև առաջարկում է ստանդարտից զգալիորեն տարբերվող բան։ տանկեր և տաճարներ որոնք կրկնվում են NeRF-ի նոր թղթերում:

The նոր թուղթ վերնագրված է Mega-NeRF. լայնածավալ NeRF-ների ընդլայնելի կառուցում վիրտուալ թռիչքների համար, և գալիս է Carnegie Mellon-ի երեք հետազոտողներից, որոնցից մեկը ներկայացնում է նաև Argo AI-ն:

NeRF լանդշաֆտի մոդելավորում որոնման և փրկության համար

Հեղինակները կարծում են, որ որոնողափրկարարական աշխատանքները (SAR) իրենց տեխնիկայի հնարավոր օպտիմալ օգտագործման դեպքն է: SAR-ի լանդշաֆտը գնահատելիս անօդաչու սարքերը ներկայումս սահմանափակված են ինչպես թողունակության, այնպես էլ մարտկոցի շահագործման սահմանափակումներով, և, հետևաբար, սովորաբար չեն կարողանում մանրամասն կամ համապարփակ ծածկույթ ստանալ նախքան բազա վերադառնալը, այդ պահին նրանց հավաքած տվյալները դարձի դեպի ստատիկ 2D օդային դիտման քարտեզներ:

Հեղինակները նշում են.

«Մենք պատկերացնում ենք ապագա, երբ նեյրոնային արտապատկերումը կվերածի այս վերլուծությունը 3D-ի` հնարավորություն տալով արձագանքող թիմերին ստուգել դաշտը, կարծես իրական ժամանակում թռչում են անօդաչու թռչող սարքով այն մակարդակով, որը շատ ավելին է, քան կարելի է դասական Structure-from-Motion-ով: SfM).'

Այս գործի հետ կապված՝ հեղինակները փորձել են ստեղծել NeRF-ի վրա հիմնված բարդ մոդել, որը կարող է մարզվել մեկ օրվա ընթացքում՝ հաշվի առնելով, որ որոնողափրկարարական գործողություններում փրկվածների կյանքի տեւողությունը նվազում է մինչև 80%-ով։ առաջին 24 ժամը.

Հեղինակները նշում են, որ Mega-NeRF մոդելը վարժեցնելու համար անհրաժեշտ անօդաչու սարքերի հավաքագրման տվյալների հավաքածուները «մագնիտուդի կարգեր» են ավելի մեծ, քան NeRF-ի ստանդարտ տվյալների բազան, և այդ մոդելի հզորությունը պետք է զգալիորեն ավելի մեծ լինի, քան լռելյայն պատառաքաղում կամ NeRF-ի ածանցյալից: Բացի այդ, որոնողափրկարարական տեղանքի քարտեզում էական նշանակություն ունեն ինտերակտիվությունն ու հետազոտելիությունը, մինչդեռ իրական ժամանակի ստանդարտ NeRF ռենդերը ակնկալում են նախապես հաշվարկված հնարավոր շարժման շատ ավելի սահմանափակ շրջանակ:

Բաժանել եւ նվաճել

Այս խնդիրները լուծելու համար հեղինակները ստեղծել են երկրաչափական կլաստերավորման ալգորիթմ, որը առաջադրանքը բաժանում է ենթամոդուլների և արդյունավետորեն ստեղծում են ենթաNeRF-ների մատրիցա, որոնք միաժամանակ վերապատրաստվում են:

Վերարտադրման պահին հեղինակները նաև կիրառում են ճիշտ ժամանակին վիզուալիզացիայի ալգորիթմ, որը բավականաչափ արձագանքում է լիարժեք ինտերակտիվությունը հեշտացնելու համար՝ առանց ավելորդ նախնական մշակման, ինչպես, որ տեսախաղերը կընդլայնեն մանրամասները, երբ դրանք մոտենում են օգտատիրոջը: տեսակետ, բայց որոնք մնում են էներգախնայող և ավելի տարրական մասշտաբով, երբ գտնվում են հեռավորության վրա:

Այս տնտեսությունները, ըստ հեղինակների, հանգեցնում են ավելի լավ մանրամասների, քան նախորդ մեթոդները, որոնք փորձում են անդրադառնալ շատ լայն առարկայական ոլորտներին ինտերակտիվ համատեքստում: Սահմանափակ լուծաչափով տեսանյութերի մանրամասների էքստրապոլյացիայի առումով, հեղինակները նշում են նաև Mega-NeRF-ի տեսողական բարելավումը համարժեք ֆունկցիոնալության նկատմամբ: UC Berkeley-ի PlenOctrees.

Ծրագրի շղթայված ենթակառուցվածքների օգտագործումը հիմնված է KiloNeRF-ի վրա իրական ժամանակում մատուցման հնարավորություններ,- խոստովանում են հեղինակները։ Այնուամենայնիվ, Mega-NeRF-ը հեռանում է այս մոտեցումից՝ իրականում կատարելով «sharding» (տեսարանի երեսների դիսկրետ շունտավորում) մարզման ընթացքում, այլ ոչ թե KiloNeRF-ի հետմշակման մոտեցումը, որը վերցնում է արդեն հաշվարկված NeRF տեսարանը և հետագայում այն ​​վերածում ուսումնասիրելի։ տարածություն.

Ենթամոդուլների համար ստեղծվում է դիսկրետ ուսուցման հավաքածու, որը բաղկացած է ուսումնական պատկերի պիքսելներից, որոնց հետագիծը կարող է ընդարձակվել այն բջիջի վրա, որը ներկայացնում է: Հետևաբար, յուրաքանչյուր մոդուլ վերապատրաստվում է հարակից բջիջներից ամբողջովին առանձին: Աղբյուր՝ https://arxiv.org/pdf/2112.10703.pdf

Ենթամոդուլների համար ստեղծվում է դիսկրետ ուսուցման հավաքածու, որը բաղկացած է ուսումնական պատկերի պիքսելներից, որոնց հետագիծը կարող է ընդարձակվել այն բջիջի վրա, որը ներկայացնում է: Հետևաբար, յուրաքանչյուր մոդուլ վերապատրաստվում է հարակից բջիջներից ամբողջովին առանձին: Աղբյուր՝ https://arxiv.org/pdf/2112.10703.pdf

Հեղինակները Mega-NeRF-ը բնութագրում են որպես «NeRF ճարտարապետության վերաձեւակերպում, որը նոսրացնում է շերտերի միացումները տարածականորեն տեղեկացված եղանակով, նպաստելով արդյունավետության բարելավմանը մարզման և տրամադրման ժամանակի ընթացքում»:.

NeRF-ում, NeRF++-ում և Mega-NeRF-ում վերապատրաստման և տվյալների դիսկրետացման հայեցակարգային համեմատություն: Աղբյուր՝ https://meganerf.cmusatyalab.org/

NeRF-ում վերապատրաստման և տվյալների դիսկրետացման հայեցակարգային համեմատություն, NeRF ++, և Mega-NeRF: Աղբյուր՝ https://meganerf.cmusatyalab.org/

Հեղինակները պնդում են, որ Mega-NeRF-ի կողմից նոր ժամանակային համահունչ ռազմավարությունների օգտագործումը խուսափում է չափից ավելի նախնական մշակման անհրաժեշտությունից, հաղթահարում է մասշտաբի ներքին սահմանները և ներկայացնում է մանրամասների ավելի բարձր մակարդակ, քան նախորդ նմանատիպ աշխատանքները, առանց զոհաբերելու ինտերակտիվությունը կամ մի քանի օրվա վերապատրաստման անհրաժեշտություն: .

Հետազոտողները նաև հասանելի են դարձնում տվյալների լայնածավալ հավաքածուներ, որոնք պարունակում են հազարավոր բարձր հստակությամբ պատկերներ, որոնք ստացվել են անօդաչու թռչող սարքի կադրերից, որոնք ֆիքսել են ավելի քան 100,000 քառակուսի մետր տարածք արդյունաբերական համալիրի շուրջը: Երկու առկա տվյալների հավաքածուներն են 'Շինություն' և «Փլատակներ».

Նախնական աշխատանքի բարելավում

Թերթը նշում է, որ նախորդ ջանքերը նույն ուղղությամբ, ներառյալ SneRG, PlenOctree, եւ FastNeRF, բոլորն էլ ապավինում են ինչ-որ քեշավորման կամ նախնական մշակման վրա, որն ավելացնում է հաշվարկային և/կամ ժամանակի ծախսերը, որոնք հարմար չեն վիրտուալ որոնման և փրկարարական միջավայրերի ստեղծման համար:

Թեև KiloNeRF-ը ստանում են ենթաNeRF-ներ բազմաշերտ պերցեպտրոնների (MLPs) գոյություն ունեցող հավաքածուից, այն ճարտարապետական ​​առումով սահմանափակված է ներքին տեսարաններով, որոնք ունեն սահմանափակ ընդարձակելիություն կամ ավելի բարձր մասշտաբի միջավայրեր լուծելու կարողություն: FastNeRF-ը, միևնույն ժամանակ, պահում է NeRF մոդելի «թխված», նախապես հաշվարկված տարբերակը հատուկ տվյալների կառուցվածքում և թույլ է տալիս վերջնական օգտագործողին նավարկելու դրա միջով հատուկ MLP-ի կամ գնդաձև հիմքի հաշվարկի միջոցով:

KiloNeRF սցենարում տեսարանի յուրաքանչյուր կողմի առավելագույն լուծաչափն արդեն հաշվարկված է, և ավելի մեծ լուծում հասանելի չի լինի, եթե օգտատերը որոշի «մեծացնել»:

Ի տարբերություն, NeRF ++ կարող է ինքնուրույն կարգավորել ոչ սահմանափակ, արտաքին միջավայրերը՝ պոտենցիալ հետազոտվող տարածքը բաժանելով առաջին պլանի և հետին պլանի շրջանների, որոնցից յուրաքանչյուրը վերահսկվում է հատուկ MLP մոդելի կողմից, որն իրականացնում է ճառագայթային ձուլում մինչև վերջնական կազմը:

Եվ, վերջապես, Ներֆը վայրի բնության մեջ, որն ուղղակիորեն չի անդրադառնում անսահմանափակ տարածություններին, այնուամենայնիվ, բարելավում է պատկերի որակը Ֆոտոտուրիզմի տվյալների բազա, և դրա արտաքին տեսքի ներկառուցումները հետևվել են Mega-NeRF-ի ճարտարապետության մեջ:

Հեղինակները խոստովանում են նաև, որ Mega-NeRF-ը ոգեշնչված է Structure-from-Motion (SfM) նախագծերով, հատկապես Վաշինգտոնի համալսարանի Հռոմի կառուցում մեկ օրում թ.

Ժամանակավոր համախմբվածություն

Ինչպես PlenOctree-ն, Mega-NeRF-ը նախապես հաշվարկում է գույնի և անթափանցիկության կոպիտ քեշը ներկայիս օգտագործողի ուշադրության կենտրոնում: Այնուամենայնիվ, Mega-NeRF-ն ամեն անգամ հաշվարկված ուղու մոտակայքում գտնվող ուղիները հաշվարկելու փոխարեն, ինչպես անում է PlenOctree-ն, Mega-NeRF-ը «փրկում» և նորից օգտագործում է այս տեղեկատվությունը` բաժանելով հաշվարկված ծառը` հետևելով NeRF-ի սերտորեն կապված մշակման վարվելակարգը տարանջատելու աճող միտումին: .

Ձախ կողմում՝ PlenOctree-ի մեկանգամյա օգտագործման հաշվարկը: Միջին, Mega-NeRF-ի դինամիկ ընդլայնումը octree, հարաբերական ընթացիկ դիրքի fly-through. Ճիշտ է, ութնյակը կրկին օգտագործվում է հետագա նավարկության համար:

Ձախ կողմում՝ PlenOctree-ի մեկանգամյա օգտագործման հաշվարկը: Միջին, Mega-NeRF-ի դինամիկ ընդլայնումը octree, հարաբերական ընթացիկ դիրքի fly-through. Ճիշտ է, ութնյակը կրկին օգտագործվում է հետագա նավարկության համար:

Հաշվարկի այս տնտեսությունը, ըստ հեղինակների, զգալիորեն նվազեցնում է վերամշակման ծանրաբեռնվածությունը՝ օգտագործելով թռիչքային հաշվարկները որպես տեղական քեշ, այլ ոչ թե դրանք բոլորը կանխարգելիչ կերպով գնահատելու և պահելու փոխարեն՝ համաձայն վերջին պրակտիկայի:

Ուղղորդված նմուշառում

Նախնական նմուշառումից հետո, մինչ օրս ստանդարտ մոդելների համաձայն, Mega-NeRF-ն իրականացնում է առաջնորդվող ճառագայթների նմուշառման երկրորդ փուլը ութնյակի ճշգրտումից հետո՝ պատկերի որակը բարելավելու նպատակով: Դրա համար Mega-NeRF-ն օգտագործում է միայն մեկ անցում, որը հիմնված է octree տվյալների կառուցվածքում առկա կշիռների վրա:

Ինչպես երևում է վերևի նկարում, նոր թղթից ստանդարտ նմուշառումը վատնում է հաշվարկային ռեսուրսները՝ գնահատելով թիրախային տարածքի չափազանց մեծ քանակությունը, մինչդեռ Mega-NeRF-ը սահմանափակում է հաշվարկները՝ հիմնվելով երկրաչափության առկայության իմացության վրա՝ ճնշելով հաշվարկները նախօրոք: - սահմանել շեմը.

Տվյալներ և ուսուցում

Հետազոտողները փորձարկել են Mega-NeRF-ը տարբեր տվյալների հավաքածուների վրա, ներառյալ վերոհիշյալ երկու, ձեռքով պատրաստված հավաքածուները, որոնք վերցված են անօդաչու թռչող սարքի կադրերից արդյունաբերական հողի վրա: Առաջին տվյալների բազան, Ջրաղաց 19 – Շենք, ներկայացնում է 500 x 250 քառակուսի մետր տարածքի վրա արված կադրեր: Երկրորդ, Ջրաղաց 19 – Կոպիճ, ներկայացնում է նմանատիպ կադրեր, որոնք արվել են հարակից շինհրապարակում, որտեղ հետազոտողները որոնողական-փրկարարական սցենարում պոտենցիալ փրկվածներին ներկայացնող կեղծամներ են տեղադրել:

Թերթի հավելյալ նյութից. Ձախ՝ Parrot Anafi անօդաչու սարքով ծածկվող քառորդները (նկարված կենտրոնում, իսկ հեռավորության վրա՝ աջ կողմի լուսանկարում):

Թերթի հավելյալ նյութից. Ձախ, քառորդները, որոնք պետք է ծածկվեն Parrot Anafi դրոն (պատկերված կենտրոնում, իսկ հեռվում՝ աջ կողմի լուսանկարում):

Բացի այդ, ճարտարապետությունը փորձարկվել է մի քանի տեսարանների դեմ UrbanScene3D, Չինաստանի Շենժեն համալսարանի Visual Computing Research Center-ից, որը բաղկացած է մեծ քաղաքային միջավայրերի HD անօդաչու սարքերով նկարահանված կադրերից; եւ Չորս 6k տվյալների բազաԻնդիանայի համալսարանի IU Computer Vision Lab-ից:

Դասընթացը տեղի ունեցավ 8 ենթամոդուլների վրա, որոնցից յուրաքանչյուրը 8 շերտով 256 թաքնված միավորներով, և հաջորդող 128 ալիքով ReLU շերտով: Ի տարբերություն NeRF-ի, նույն MLP-ն օգտագործվել է կոպիտ և զտված նմուշների հարցումների համար՝ նվազեցնելով մոդելի ընդհանուր չափը և թույլ տալով վերաօգտագործել կոպիտ ցանցի ելքերը հետագա արտապատկերման փուլում: Հեղինակները հաշվարկել են, որ սա խնայում է մոդելի հարցումների 25%-ը յուրաքանչյուր ճառագայթի համար:

Ադամի տակ մեկ խմբաքանակից 1024 ճառագայթ է նմուշառվել 5×10 սովորելու մեկնարկային արագությամբ4, քայքայվելով մինչև 5×10-5. Արտաքին տեսքի ներդիրները վարվել են նույն կերպ, ինչպես վերը նշվածը Ներֆը վայրի բնության մեջ. Խառը ճշգրիտ նմուշառում Օգտագործվել է 32-բիթանոց լողացող կետից ցածր ճշգրտությամբ մարզում, և MLP լայնությունը ամրագրվել է 2048 թաքնված միավորի վրա:

Փորձարկում եւ արդյունքներ

Հետազոտողների թեստերում Mega-NeRF-ը կարողացել է ուժեղորեն գերազանցել NeRF, NeRF++ և DeepView 500,000 կրկնությունների վերապատրաստումից հետո վերոհիշյալ տվյալների հավաքածուներում: Քանի որ Mega-NeRF-ի թիրախային սցենարը ժամանակի սահմանափակ է, հետազոտողները թույլ են տվել ավելի դանդաղ նախորդ շրջանակներին լրացուցիչ ժամանակ անցկացնել 24-ժամյա սահմանից ավելի, և հայտնել, որ Mega-NeRF-ը դեռևս գերազանցել է նրանց՝ նույնիսկ հաշվի առնելով այս առավելությունները:

Օգտագործված չափիչները եղել են ազդանշան-աղմուկի առավելագույն հարաբերակցությունը (PSNR), Ապա LPIPS-ի VGG տարբերակը, եւ SSIM. Դասընթացը տեղի ունեցավ մեկ մեքենայի վրա, որը հագեցած էր ութ V100 GPU-ով, արդյունավետորեն 256 ԳԲ VRAM-ով և 5120 Tensor միջուկներով:

Mega-NeRF փորձարկումների նմուշների արդյունքները (խնդրում ենք, տե՛ս թերթը ավելի ընդլայնված արդյունքների համար բոլոր շրջանակների և տվյալների հավաքածուների համար) ցույց են տալիս, որ PlenOctree-ն առաջացնում է զգալի վոքսելիզացիա, մինչդեռ KiloNeRF-ն արտադրում է արտեֆակտներ և, ընդհանուր առմամբ, ավելի մշուշոտ արդյունքներ:

Mega-NeRF փորձարկումների նմուշների արդյունքները (խնդրում ենք, տե՛ս թերթը ավելի ընդլայնված արդյունքների համար բոլոր շրջանակների և տվյալների հավաքածուների համար) ցույց են տալիս, որ PlenOctree-ն առաջացնում է զգալի վոքսելիզացիա, մինչդեռ KiloNeRF-ն արտադրում է արտեֆակտներ և, ընդհանուր առմամբ, ավելի մշուշոտ արդյունքներ:

Ծրագրի էջը գտնվում է https://meganerf.cmusatyalab.org/, իսկ թողարկված կոդը գտնվում է հասցեում https://github.com/cmusatyalab/mega-nerf.

Առաջին անգամ հրապարակվել է 21 թվականի դեկտեմբերի 2021-ին։