Արհեստական բանականություն
Սինթետիկ տվյալներ. կամրջելով խցանման բացը Grand Theft Auto-ով
Իլինոյսի համալսարանի հետազոտողները ստեղծել են համակարգչային տեսողության նոր տվյալների բազա, որն օգտագործում է Grand Theft Auto խաղային շարժիչի կողմից ստեղծված սինթետիկ պատկերներ՝ օգնելու լուծել իմաստային հատվածավորման ամենավատ խոչընդոտներից մեկը՝ ճանաչելով օբյեկտները, որոնք միայն մասամբ են տեսանելի սկզբնաղբյուր պատկերներում և տեսանյութերում:
Այդ նպատակով, ինչպես նկարագրված է թուղթըՀետազոտողները օգտագործել են GTA-V վիդեո խաղերի շարժիչը՝ ստեղծելու սինթետիկ տվյալների բազա, որը ոչ միայն պարունակում է ռեկորդային թվով խցանման դեպքեր, այլև պարունակում է կատարյալ իմաստային հատվածավորում և պիտակավորում, ինչպես նաև ներկայացնում է ժամանակային տեղեկատվությունն այնպես, հասցեագրված բաց կոդով նմանատիպ տվյալների հավաքածուներով:
Ամբողջական տեսարանի ըմբռնում
Ստորև բերված տեսանյութը, որը հրապարակվել է որպես հետազոտության օժանդակ նյութ, ցույց է տալիս տեսարանի ամբողջական 3D ըմբռնման առավելությունները, քանի որ մթագնված օբյեկտները հայտնի են և բացահայտվում տեսարանում բոլոր հանգամանքներում, ինչը հնարավորություն է տալիս գնահատող համակարգին սովորել կապել մասնակի փակված դիտումները: ամբողջ (պիտակավորված) օբյեկտի հետ:
Աղբյուր՝ http://sailvos.web.illinois.edu/_site/index.html
Արդյունքում ստացված տվյալների բազան, որը կոչվում է SAIL-VOS 3D, հեղինակների կողմից պնդում են, որ այն առաջին սինթետիկ վիդեո ցանցերի հավաքածուն է՝ կադր առ կադր ծանոթագրությամբ, օրինակի մակարդակի հատվածավորումով, տեսարանների դիտումների հիմքի ճշմարտության խորությամբ և սահմանափակող տուփերով ուրվագծված 2D ծանոթագրություններով:
SAIL-VOS 3D-ի անոտացիաները ներառում են խորություն, օրինակի մակարդակի մոդալ և ամոդալ հատվածավորում, իմաստային պիտակներ և 3D ցանցեր: Տվյալները ներառում են 484 տեսանյութ՝ ընդհանուր 237,611 կադր 1280×800 լուծաչափով, ներառյալ նկարահանումների անցումները:
Հավաքածուն բաժանվում է 6,807 տեսահոլովակի՝ յուրաքանչյուրը միջինում 34.6 կադրով, և տվյալները նշում են 3,460,213 օբյեկտների օրինակներով, որոնք առաջացել են GTA-V խաղային շարժիչի 3,576 ցանցային մոդելներից: Դրանք վերագրվում են ընդհանուր առմամբ 178 իմաստաբանական կատեգորիաների:
Ցանցերի վերակառուցում և ավտոմատացված պիտակավորում
Քանի որ ավելի ուշ տվյալների բազայի հետազոտությունը, ամենայն հավանականությամբ, տեղի կունենա իրական աշխարհի պատկերների վրա, SAIL-VOS 3D-ի ցանցերը ստեղծվում են մեքենայական ուսուցման շրջանակի միջոցով, այլ ոչ թե բխում են GTA-V շարժիչից:
Քանի որ GTA-V աշխարհի յուրաքանչյուր օբյեկտ պարունակում է եզակի ID, SAIL-VOS-ը դրանք առբերում է մատուցման շարժիչից՝ օգտագործելով GTA-V script hook գրադարանը: Սա լուծում է թեման նորից ձեռք բերելու խնդիրը, եթե այն ժամանակավորապես հեռանա տեսադաշտից, քանի որ պիտակավորումը մշտական է և հուսալի: Շրջակա միջավայրում առկա է 162 օբյեկտ, որոնք հետազոտողները քարտեզագրել են համապատասխան թվով դասերի։
Տեսարանների և առարկաների բազմազանություն
GTA-V շարժիչի օբյեկտներից շատերը բնույթով սովորական են, և, հետևաբար, SAIL-VOS գույքագրումը պարունակում է Microsoft-ի հաճախ օգտագործվող 60 թ. MS-COCO տվյալների բազա.
Կիրառելիություն
Այս ոլորտում հետազոտությունների ընդհանուր ընթացքի հետ համատեղելիությունն ապահովելու և հաստատելու համար, որ այս սինթետիկ մոտեցումը կարող է օգտակար լինել ոչ սինթետիկ նախագծերին, հետազոտողները գնահատել են տվյալների բազան՝ օգտագործելով MS-COCO-ի համար օգտագործված շրջանակի վրա հիմնված հայտնաբերման մոտեցումը և 2012 թ. PASCAL Visual Object Classes (VOC) մարտահրավեր, միջին ճշգրտությամբ՝ որպես մետրիկ։
Հետազոտողները պարզել են, որ SAIL-VOS տվյալների բազայի վրա նախնական ուսուցումը բարելավում է Intersection over Union (IoU) 19%-ով` համապատասխան բարելավմամբ VideoMatch կատարողականությունը՝ 55%-ից մինչև 74% չտեսնված տվյալների վրա:
Այնուամենայնիվ, ծայրահեղ խցանման դեպքերում եղել են դեպքեր, երբ բոլոր հին մեթոդները չեն կարողացել նույնականացնել առարկան կամ անձին, թեև հետազոտողները կանխատեսել են, որ դա կարող է շտկվել ապագայում՝ ուսումնասիրելով հարակից շրջանակները՝ պարզելու ամոդալ դիմակի պատճառաբանությունը: .