Արհեստական բանականություն

ST-NeRF. Կոմպոզիտացիա և մոնտաժ վիդեո սինթեզի համար

Թարմացվել է on Դեկտեմբերի 9, 2022

Չինական հետազոտական կոնսորցիումն ունի զարգացած խմբագրման և կոմպոզիցիայի հնարավորությունները վերջին տարվա ամենաթեժ պատկերների սինթեզի հետազոտական հատվածներից մեկին՝ Նյարդային ճառագայթման դաշտերը (NeRF): Համակարգը կոչվում է ST-NeRF (տարածական-ժամանակավոր համահունչ նյարդային ճառագայթման դաշտ):

Ստորև նկարում պատկերված տեսախցիկի ֆիզիկական թալան իրականում պարզապես օգտագործողն է «պտտվում» տեսաբովանդակության տեսանկյունների միջով, որը գոյություն ունի 4D տարածության մեջ: POV-ն կողպված չէ տեսանյութում պատկերված մարդկանց կատարմամբ, որոնց շարժումները կարելի է դիտել 180 աստիճան շառավղով ցանկացած հատվածից։

ST-NeRF

Տեսանյութի յուրաքանչյուր երեսակ առանձին նկարահանված տարր է, որը միասին կազմված է միաձև տեսարանի մեջ, որը կարող է դինամիկ կերպով ուսումնասիրվել:

Երեսները կարող են ազատորեն կրկնօրինակվել տեսարանի ներսում կամ չափափոխվել՝

ST-NeRF

Բացի այդ, յուրաքանչյուր երեսակի ժամանակավոր վարքագիծը կարող է հեշտությամբ փոփոխվել, դանդաղեցնել, հետ աշխատել կամ մանիպուլյացիայի ենթարկվել ցանկացած ձևով, բացելով ճանապարհը դեպի զտիչ ճարտարապետություն և մեկնաբանելիության չափազանց բարձր մակարդակ:

Երկու առանձին NeRF երեսակներ աշխատում են տարբեր արագությամբ նույն տեսարանում: Աղբյուր՝ https://www.youtube.com/watch?v=Wp4HfOwFGP4

Կարիք չկա ռոտոսկոպի կատարողներին կամ միջավայրերին, կամ կատարողներին իրենց շարժումներն իրականացնել կուրորեն և նախատեսված տեսարանի համատեքստից դուրս: Փոխարենը, կադրերը նկարահանվում են բնական ճանապարհով՝ 16 աստիճան ընդգրկող 180 տեսախցիկների զանգվածի միջոցով.

16 տեսախցիկ ST-NeRF

Վերևում պատկերված երեք տարրերը՝ երկու մարդիկ և շրջակա միջավայրը, տարբեր են և ուրվագծված են միայն լուսաբանման նպատակով: Նրանցից յուրաքանչյուրը կարող է փոխարինվել, և յուրաքանչյուրը կարող է տեղադրվել տեսարան ավելի վաղ կամ ավելի ուշ՝ իրենց անհատական նկարահանման ժամանակացույցում:

ST-NeRF-ը նեյրոնային ճառագայթման դաշտերում հետազոտության նորարարություն է (Ներֆ), մեքենայական ուսուցման շրջանակ, որով մի քանի տեսանկյունների նկարահանումներ սինթեզվում են նավարկելի վիրտուալ տարածության մեջ՝ ընդարձակ ուսուցման միջոցով (չնայած մեկ դիտակետի գրավումը նաև NeRF հետազոտության ենթաոլորտ է):

Նյարդային ճառագայթման դաշտերը աշխատում են՝ հավաքելով բազմաթիվ տեսանկյուններ մեկ համահունչ և նավարկելի 3D տարածության մեջ՝ նեյրոնային ցանցի կողմից գնահատված և ստացված ծածկույթի միջև եղած բացերով: Այնտեղ, որտեղ օգտագործվում է տեսանյութ (այլ ոչ թե անշարժ պատկերներ), ապա անհրաժեշտ ռեսուրսները հաճախ զգալի են: Աղբյուր՝ https://www.matthewtancik.com/nerf

Նյարդային ճառագայթման դաշտերն աշխատում են՝ հավաքելով բազմաթիվ տեսանկյուններ մեկ համահունչ և նավարկելի 3D տարածության մեջ՝ նեյրոնային ցանցի կողմից գնահատված և ստացված ծածկույթի միջև եղած բացերով: Այնտեղ, որտեղ օգտագործվում է տեսանյութ (այլ ոչ թե անշարժ պատկերներ), ապա անհրաժեշտ ռեսուրսները հաճախ զգալի են: Աղբյուր՝ https://www.matthewtancik.com/nerf

NeRF-ի նկատմամբ հետաքրքրությունը ինտենսիվ է դարձել վերջին ինը ամիսների ընթացքում, և Reddit-ը պահպանվում է ցուցակ ածանցյալ կամ հետախուզական NeRF փաստաթղթերը ներկայումս թվարկում են վաթսուն նախագծեր:

Օրիգինալ NeRF թղթի բազմաթիվ նկարահանումներից ընդամենը մի քանիսը: Աղբյուր՝ https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Մատչելի թրեյնինգ

Թուղթը համագործակցություն է Շանհայի տեխնիկական համալսարանի հետազոտողների և DGene թվային տեխնոլոգիա, և ընդունվել է որոշակի ոգևորությամբ Open Review-ում.

ST-NeRF-ն առաջարկում է մի շարք նորամուծություններ նախորդ նախաձեռնությունների համեմատ ML-ից ստացված նավարկվող տեսանյութերի տարածություններում: Ոչ պակաս, այն հասնում է ռեալիզմի բարձր մակարդակի ընդամենը 16 տեսախցիկով: Չնայած Facebook-ի DyNeRF օգտագործում է ընդամենը երկու տեսախցիկ, քան սրանից ավել, այն առաջարկում է շատ ավելի սահմանափակ նավարկելի աղեղ:

Facebook-ի DyNeRF միջավայրի օրինակ՝ ավելի սահմանափակ շարժման դաշտով և ավելի շատ տեսախցիկներ մեկ քառակուսի ոտնաչափով, որոնք անհրաժեշտ են տեսարանը վերակառուցելու համար: Աղբյուրը՝ https://neural-3d-video.github.io

Facebook-ի DyNeRF միջավայրի օրինակ՝ ավելի սահմանափակ շարժման դաշտով և ավելի շատ տեսախցիկներով մեկ քառակուսի ոտնաչափով, տեսարանը վերակառուցելու համար: Աղբյուրը՝ https://neural-3d-video.github.io

Բացի առանձին կողմերը խմբագրելու և կոմպոզիցիայի ունակության բացակայությունից, DyNeRF-ը հատկապես թանկ է հաշվողական ռեսուրսների առումով: Ի հակադրություն, չինացի հետազոտողները նշում են, որ իրենց տվյալների վերապատրաստման արժեքը կազմում է 900-3,000 ԱՄՆ դոլար՝ 30,000 դոլարի համեմատ՝ վիդեո ստեղծման գերժամանակակից DVDGAN մոդելի և ինտենսիվ համակարգերի, ինչպիսիք են DyNeRF-ը:

Գրախոսները նաև նշել են, որ ST-NeRF-ը մեծ նորամուծություն է անում՝ շարժում սովորելու գործընթացը պատկերների սինթեզի գործընթացից անջատելու հարցում: Այս տարանջատումն այն է, ինչը հնարավորություն է տալիս խմբագրել և բաղադրել՝ նախորդ մոտեցումներով սահմանափակող և գծային համեմատությամբ:

Թեև 16 տեսախցիկը շատ սահմանափակ զանգված է նման ամբողջական կիսաշրջանի տեսադաշտի համար, հետազոտողները հույս ունեն հետագայում կրճատել այս թիվը՝ օգտագործելով պրոքսի նախապես սկանավորված ստատիկ ֆոներ և ավելի շատ տվյալների վրա հիմնված տեսարանների մոդելավորման մոտեցումներ: Նրանք նաև հույս ունեն ներառել վերալուսավորության հնարավորությունները, ա վերջին նորամուծությունը NeRF հետազոտության մեջ:

Անդրադառնալով ST-NeRF-ի սահմանափակումներին

Ակադեմիական CS-ի փաստաթղթերի համատեքստում, որոնք հակված են աղբը նետել նոր համակարգի փաստացի օգտագործելիությունը մի նետված վերջի պարբերության մեջ, նույնիսկ այն սահմանափակումները, որոնք հետազոտողները ընդունում են ST-NeRF-ի համար, անսովոր են:

Նրանք նկատում են, որ համակարգը ներկայումս չի կարող առանձնացնել և առանձին ցուցադրել որոշակի առարկաներ տեսարանում, քանի որ կադրերում մարդիկ բաժանվում են առանձին միավորների՝ մարդկանց ճանաչելու համար նախատեսված համակարգի միջոցով, և ոչ թե առարկաները. շրջանակներ, մարդկային տեսանյութերի արդյունահանման ավելի դժվար աշխատանքով, որն արդեն ավարտված է:

Թեև հետազոտողները նշում են, որ ներկայումս հնարավոր չէ դանդաղ շարժում ստեղծել, կարծես թե քիչ բան է կանխելու դրա իրականացումը, օգտագործելով գոյություն ունեցող նորարարությունները շրջանակային ինտերպոլացիայի մեջ, ինչպիսիք են. ԴԱՅՆ և ԿԱՐԳԱՎՈՐ.

Ինչպես NeRF-ի բոլոր ներդրումներում, և համակարգչային տեսողության հետազոտության շատ այլ ոլորտներում, ST-NeRF-ը կարող է ձախողվել ծանր խցանման դեպքերում, երբ առարկան ժամանակավորապես մթագնում է մեկ այլ անձի կամ առարկայի կողմից, և կարող է դժվար լինել անընդհատ հետևել կամ ճշգրիտ կերպով հետևել: այնուհետև նորից ձեռք բերել: Ինչպես և այլուր, այս դժվարությունը կարող է սպասել վերընթաց լուծումների: Միևնույն ժամանակ, հետազոտողները խոստովանում են, որ այս խցանված շրջանակներում անհրաժեշտ է ձեռքով միջամտություն:

Ի վերջո, հետազոտողները նկատում են, որ մարդկանց հատվածավորման ընթացակարգերը ներկայումս հիմնված են գունային տարբերությունների վրա, ինչը կարող է հանգեցնել երկու մարդկանց չմտածված համադրմանը մեկ հատվածավորման բլոկի մեջ. հնարավոր է լուծել օպտիկական հոսքի վերլուծության և այլ ձևավորվող տեխնիկայի միջոցով:

Առաջին անգամ հրապարակվել է 7 թվականի մայիսի 2021-ին։

Հաջորդը

Google-ը նախատեսում է GPT-3-ի նման հարցումների համակարգ՝ առանց որոնման արդյունքների

Բաց մի թողեք

Նոր ուսումնասիրությունը լույս է սփռում «ալգորիթմական հոգնածության» վրա

Մարտին Անդերսոն

Գրող մեքենայական ուսուցման, արհեստական ինտելեկտի և մեծ տվյալների մասին:
Անձնական կայք. martinanderson.ai
Հետադարձ: [էլեկտրոնային փոստով պաշտպանված]
Twitter՝ @manders_ai