Արհեստական բանականություն

Սինթետիկ տվյալներ. կամրջելով խցանման բացը Grand Theft Auto-ով

Թարմացվել է on Դեկտեմբերի 9, 2022

Իլինոյսի համալսարանի հետազոտողները ստեղծել են համակարգչային տեսողության նոր տվյալների բազա, որն օգտագործում է Grand Theft Auto խաղային շարժիչի կողմից ստեղծված սինթետիկ պատկերներ՝ օգնելու լուծել իմաստային հատվածավորման ամենավատ խոչընդոտներից մեկը՝ ճանաչելով օբյեկտները, որոնք միայն մասամբ են տեսանելի սկզբնաղբյուր պատկերներում և տեսանյութերում:

Այդ նպատակով, ինչպես նկարագրված է թուղթըՀետազոտողները օգտագործել են GTA-V վիդեո խաղերի շարժիչը՝ ստեղծելու սինթետիկ տվյալների բազա, որը ոչ միայն պարունակում է ռեկորդային թվով խցանման դեպքեր, այլև պարունակում է կատարյալ իմաստային հատվածավորում և պիտակավորում, ինչպես նաև ներկայացնում է ժամանակային տեղեկատվությունն այնպես, հասցեագրված բաց կոդով նմանատիպ տվյալների հավաքածուներով:

Ամբողջական տեսարանի ըմբռնում

Ստորև բերված տեսանյութը, որը հրապարակվել է որպես հետազոտության օժանդակ նյութ, ցույց է տալիս տեսարանի ամբողջական 3D ըմբռնման առավելությունները, քանի որ մթագնված օբյեկտները հայտնի են և բացահայտվում տեսարանում բոլոր հանգամանքներում, ինչը հնարավորություն է տալիս գնահատող համակարգին սովորել կապել մասնակի փակված դիտումները: ամբողջ (պիտակավորված) օբյեկտի հետ:

Աղբյուր՝ http://sailvos.web.illinois.edu/_site/index.html

Արդյունքում ստացված տվյալների բազան, որը կոչվում է SAIL-VOS 3D, հեղինակների կողմից պնդում են, որ այն առաջին սինթետիկ վիդեո ցանցերի հավաքածուն է՝ կադր առ կադր ծանոթագրությամբ, օրինակի մակարդակի հատվածավորումով, տեսարանների դիտումների հիմքի ճշմարտության խորությամբ և սահմանափակող տուփերով ուրվագծված 2D ծանոթագրություններով:

Աղբյուր (Սեղմեք մեծացնելու համար)

SAIL-VOS 3D-ի անոտացիաները ներառում են խորություն, օրինակի մակարդակի մոդալ և ամոդալ հատվածավորում, իմաստային պիտակներ և 3D ցանցեր: Տվյալները ներառում են 484 տեսանյութ՝ ընդհանուր 237,611 կադր 1280×800 լուծաչափով, ներառյալ նկարահանումների անցումները:

Վերևում բնօրինակ CGI շրջանակները; երկրորդ տող, օրինակի մակարդակի հատվածավորում; երրորդ շարք, ամոդալ հատվածավորում, որը ցույց է տալիս տեսարանի ըմբռնման խորությունը և տվյալների մեջ առկա թափանցիկությունը: Աղբյուր (Սեղմեք մեծացնելու համար)

Հավաքածուն բաժանվում է 6,807 տեսահոլովակի՝ յուրաքանչյուրը միջինում 34.6 կադրով, և տվյալները նշում են 3,460,213 օբյեկտների օրինակներով, որոնք առաջացել են GTA-V խաղային շարժիչի 3,576 ցանցային մոդելներից: Դրանք վերագրվում են ընդհանուր առմամբ 178 իմաստաբանական կատեգորիաների:

Ցանցերի վերակառուցում և ավտոմատացված պիտակավորում

Քանի որ ավելի ուշ տվյալների բազայի հետազոտությունը, ամենայն հավանականությամբ, տեղի կունենա իրական աշխարհի պատկերների վրա, SAIL-VOS 3D-ի ցանցերը ստեղծվում են մեքենայական ուսուցման շրջանակի միջոցով, այլ ոչ թե բխում են GTA-V շարժիչից:

Տեսարանի ամբողջ ներկայացման ծրագրային և ըստ էության «հոլոգրաֆիկ» ըմբռնմամբ՝ SAIL-VOS 3D պատկերները կարող են սինթեզել առարկաների ներկայացումները, որոնք սովորաբար թաքնված են խցանումների միջոցով, ինչպես օրինակ՝ կերպարի հեռու երևացող թեւը, որը շրջվում է այստեղ, այլ կերպ։ կախված են իրական աշխարհի կադրերում բազմաթիվ ներկայացուցչական օրինակներից: (Սեղմեք մեծացնելու համար) Աղբյուր՝ https://arxiv.org/pdf/2105.08612.pdf

Քանի որ GTA-V աշխարհի յուրաքանչյուր օբյեկտ պարունակում է եզակի ID, SAIL-VOS-ը դրանք առբերում է մատուցման շարժիչից՝ օգտագործելով GTA-V script hook գրադարանը: Սա լուծում է թեման նորից ձեռք բերելու խնդիրը, եթե այն ժամանակավորապես հեռանա տեսադաշտից, քանի որ պիտակավորումը մշտական է և հուսալի: Շրջակա միջավայրում առկա է 162 օբյեկտ, որոնք հետազոտողները քարտեզագրել են համապատասխան թվով դասերի։

Տեսարանների և առարկաների բազմազանություն

GTA-V շարժիչի օբյեկտներից շատերը բնույթով սովորական են, և, հետևաբար, SAIL-VOS գույքագրումը պարունակում է Microsoft-ի հաճախ օգտագործվող 60 թ. MS-COCO տվյալների բազա.

SAIL-VOS տվյալների բազան ներառում է ինտերիերի և արտաքին տեսարանների մեծ տեսականի տարբեր եղանակային պայմաններում, որոնց կերպարները կրում են բազմազան հագուստ: (Սեղմեք մեծացնելու համար)

Կիրառելիություն

Այս ոլորտում հետազոտությունների ընդհանուր ընթացքի հետ համատեղելիությունն ապահովելու և հաստատելու համար, որ այս սինթետիկ մոտեցումը կարող է օգտակար լինել ոչ սինթետիկ նախագծերին, հետազոտողները գնահատել են տվյալների բազան՝ օգտագործելով MS-COCO-ի համար օգտագործված շրջանակի վրա հիմնված հայտնաբերման մոտեցումը և 2012 թ. PASCAL Visual Object Classes (VOC) մարտահրավեր, միջին ճշգրտությամբ՝ որպես մետրիկ։

Հետազոտողները պարզել են, որ SAIL-VOS տվյալների բազայի վրա նախնական ուսուցումը բարելավում է Intersection over Union (IoU) 19%-ով` համապատասխան բարելավմամբ VideoMatch կատարողականությունը՝ 55%-ից մինչև 74% չտեսնված տվյալների վրա:

Այնուամենայնիվ, ծայրահեղ խցանման դեպքերում եղել են դեպքեր, երբ բոլոր հին մեթոդները չեն կարողացել նույնականացնել առարկան կամ անձին, թեև հետազոտողները կանխատեսել են, որ դա կարող է շտկվել ապագայում՝ ուսումնասիրելով հարակից շրջանակները՝ պարզելու ամոդալ դիմակի պատճառաբանությունը: .

Աջակողմյան երկու նկարներում ավանդական սեգմենտավորման ալգորիթմները չկարողացան բացահայտել կնոջ կերպարը նրա գլխի շատ սահմանափակ հատվածից, որը տեսանելի է: Հետագայում օպտիկական հոսքի գնահատմամբ նորարարությունները կարող են բարելավել այս արդյունքները: (Սեղմեք մեծացնելու համար)

Հաջորդը

Deepfake-ի նոր մեթոդը լուծում է «Face Host» խնդիրը

Բաց մի թողեք

Էմոցիոնալ դինամիկայի քարտեզագրում ֆիլմերի սցենարներից

Մարտին Անդերսոն

Գրող մեքենայական ուսուցման, արհեստական ինտելեկտի և մեծ տվյալների մասին:
Անձնական կայք. martinanderson.ai
Հետադարձ: [էլեկտրոնային փոստով պաշտպանված]
Twitter՝ @manders_ai