სტუბი „დაქვეითებული“ სინთეზური სახეები ხელს შეუწყობს სახის გამოსახულების ამოცნობის გაუმჯობესებას - Unite.AI
დაკავშირება ჩვენთან ერთად

დაკვირვება

'დეგრადირებული' სინთეზური სახეები შეიძლება დაეხმაროს სახის გამოსახულების ამოცნობის გაუმჯობესებას

mm

გამოქვეყნებულია

 on

მიჩიგანის სახელმწიფო უნივერსიტეტის მკვლევარებმა შეიმუშავეს გზა, რათა სინთეზური სახეები დაისვენონ ღრმა ფეიქების სცენაზე და გაეკეთებინათ გარკვეული სიკეთე მსოფლიოში - დაეხმარნენ გამოსახულების ამოცნობის სისტემებს უფრო ზუსტი გახდნენ.

მათ მიერ შექმნილ ახალ კონტროლირებად სახის სინთეზის მოდულს (CFSM) შეუძლია სახეების რეგენერაცია რეალურ სამყაროში ვიდეოთვალთვალის კადრების სტილში, ვიდრე დაეყრდნოს ერთგვაროვნად უფრო მაღალი ხარისხის სურათებს, რომლებიც გამოიყენება ცნობილი ადამიანების პოპულარულ ღია კოდის მონაცემთა ნაკრებებში. არ ასახავს ნამდვილი CCTV სისტემების ყველა ხარვეზს და ნაკლოვანებას, როგორიცაა სახის დაბინდვა, დაბალი გარჩევადობა და სენსორის ხმაური - ფაქტორები, რომლებიც გავლენას ახდენენ ამოცნობის სიზუსტეზე.

კონცეპტუალური არქიტექტურა კონტროლირებადი სახის სინთეზის მოდულისთვის (CFSM). წყარო: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

კონცეპტუალური არქიტექტურა კონტროლირებადი სახის სინთეზის მოდულისთვის (CFSM). წყარო: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

CFSM არ არის გამიზნული კონკრეტულად თავის პოზების, გამონათქვამების ან ყველა სხვა ჩვეულებრივი მახასიათებლის ავთენტური სიმულაციისთვის, რომლებიც ღრმაყალბი სისტემების მიზანს წარმოადგენს, არამედ მიზნის ამოცნობის სისტემის სტილში ალტერნატიული ხედების გენერირებას. სტილის გადაცემა.

სისტემა შექმნილია იმისთვის, რომ მიბაძოს სამიზნე სისტემის სტილის დომენს და მოახდინოს მისი გამოსავლის ადაპტირება მასში არსებული „ექსცენტრიულობების“ გარჩევადობისა და დიაპაზონის მიხედვით. გამოყენების შემთხვევა მოიცავს მოძველებულ სისტემებს, რომლებიც სავარაუდოდ არ განახლდება ღირებულების გამო, მაგრამ რომელსაც ამჟამად მცირედი წვლილი შეუძლია სახის ამოცნობის ახალი თაობის ტექნოლოგიების განვითარებაში, გამომავალი დაბალი ხარისხის გამო, რომელიც შესაძლოა ოდესღაც მოწინავე იყო.

სისტემის ტესტირებისას, მკვლევარებმა დაადგინეს, რომ მან მნიშვნელოვანი მიღწევები მიაღწია სურათის ამოცნობის სისტემებს, რომლებიც უნდა გაუმკლავდნენ ამ ტიპის ხმაურიან და დაბალი ხარისხის მონაცემებს.

სახის ამოცნობის მოდელების სწავლება სამიზნე სისტემების შეზღუდვებთან ადაპტაციისთვის. წყარო: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

სახის ამოცნობის მოდელების სწავლება სამიზნე სისტემების შეზღუდვებთან ადაპტაციისთვის. წყარო: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

მათ დამატებით იპოვეს პროცესის სასარგებლო გვერდითი პროდუქტი - ის, რომ სამიზნე მონაცემთა ნაკრები ახლა შეიძლება დახასიათდეს და შედარდეს ერთმანეთთან, რაც მომავალში ამარტივებს სხვადასხვა CCTV სისტემებისთვის შეკვეთილი მონაცემთა ნაკრების შედარებას, ბენჩმარკინგის შექმნას.

გარდა ამისა, მეთოდი შეიძლება გამოყენებულ იქნას არსებულ მონაცემთა ნაკრებებზე, ასრულებენ დე ფაქტო დომენის ადაპტაცია და გახადოს ისინი უფრო შესაფერისი სახის ამოცნობის სისტემებისთვის.

ის ახალი ქაღალდი სახელდება კონტროლირებადი და მართვადი სახის სინთეზი სახის შეუზღუდავი ამოცნობისთვის, ნაწილობრივ მხარს უჭერს აშშ-ს ეროვნული დაზვერვის დირექტორის ოფისს (ODNI, at IARPA), და მოდის MSU-ს კომპიუტერული მეცნიერებისა და ინჟინერიის დეპარტამენტის ოთხი მკვლევარისგან.

რჩეული კონტენტი

დაბალი ხარისხის სახის ამოცნობა (LQFR) გახდა ა სწავლის მნიშვნელოვანი სფერო ბოლო რამდენიმე წლის განმავლობაში. იმის გამო, რომ სამოქალაქო და მუნიციპალურმა ხელისუფლებამ ააშენა ვიდეოთვალთვალის სისტემები, რომ იყოს გამძლე და გრძელვადიანი (არ სურთ რესურსების პერიოდულად გადანაწილება პრობლემასთან დაკავშირებით), ბევრი „მემკვიდრეობითი“ სათვალთვალო ქსელი გახდა ტექნიკური დავალიანების მსხვერპლი, მათი ადაპტირებულობის თვალსაზრისით. მანქანური სწავლის წყაროები.

სახის გარჩევადობის სხვადასხვა დონეები ისტორიული და უახლესი ვიდეო თვალთვალის სისტემებში. წყარო: https://arxiv.org/pdf/1805.11519.pdf

სახის გარჩევადობის სხვადასხვა დონეები ისტორიული და უახლესი ვიდეო თვალთვალის სისტემებში. წყარო: https://arxiv.org/pdf/1805.11519.pdf

საბედნიეროდ, ეს არის ამოცანა, რომლის გადასაჭრელადაც დიფუზიური მოდელები და სხვა ხმაურზე დაფუძნებული მოდელები უჩვეულოდ კარგად არის ადაპტირებული. ბოლო წლების მრავალი ყველაზე პოპულარული და ეფექტური გამოსახულების სინთეზის სისტემა მუშაობს upscaling დაბალი რეზოლუციის სურათები, როგორც მათი მილსადენის ნაწილი, მაშინ, როდესაც ეს ასევე აბსოლუტურად აუცილებელია ნერვული შეკუმშვის ტექნიკისთვის (გამოსახულებებისა და ფილმების ნერვულ მონაცემებად შენახვის მეთოდები ბიტმაპის მონაცემების ნაცვლად).

სახის ამოცნობის გამოწვევის ნაწილი არის მაქსიმალური სიზუსტის მიღება მინიმალური რაოდენობისგან მახასიათებლები რომელიც შეიძლება ამოღებული იყოს ყველაზე პატარა და ნაკლებად პერსპექტიული დაბალი რეზოლუციის სურათებიდან. ეს შეზღუდვა არსებობს არა მხოლოდ იმიტომ, რომ სასარგებლოა სახის იდენტიფიცირება (ან შექმნა) დაბალი გარჩევადობით, არამედ ტექნიკური შეზღუდვების გამო გამოსახულების ზომაზე, რომელიც შეიძლება გაიაროს მოდელის ლატენტურ სივრცეში, რომელიც სწავლობს ნებისმიერ საკითხს. VRAM ხელმისაწვდომია ადგილობრივ GPU-ზე.

ამ გაგებით, ტერმინი „ფუნქციები“ დამაბნეველია, ვინაიდან ასეთი მახასიათებლების მიღება შესაძლებელია პარკის სკამების მონაცემთა ნაკრებიდანაც. კომპიუტერული ხედვის სექტორში, "ფუნქციები" ეხება განმასხვავებელი მახასიათებლები მიღებული სურათებიდან - ნებისმიერი სურათები, იქნება ეს ეკლესიის ხაზები, მთის თუ განლაგება სახის ფუნქციები სახის მონაცემთა ბაზაში.

იმის გამო, რომ კომპიუტერული ხედვის ალგორითმები ახლა დახელოვნებულნი არიან სურათებისა და ვიდეო კადრების გაზრდისას, შემოთავაზებულია სხვადასხვა მეთოდები დაბალი გარჩევადობის ან სხვაგვარად დეგრადირებული მემკვიდრეობითი სათვალთვალო მასალის „გამდიდრებისთვის“, იმ დონემდე, რომ შესაძლებელი იყოს გამოიყენეთ ასეთი გამაძლიერებლები იურიდიული მიზნებისთვის, როგორიცაა კონკრეტული პირის მოთავსება შემთხვევის ადგილზე, დანაშაულის გამოძიებასთან დაკავშირებით.

გარდა იმისა, რომ არასწორი იდენტიფიკაციის შესაძლებლობა აქვს დროდადრო იკრიბებოდა სათაურებითეორიულად არ უნდა იყოს საჭირო დაბალი რეზოლუციის კადრების ჰიპერ-გადაწყვეტა ან სხვაგვარად გარდაქმნა, რათა მოხდეს ინდივიდის პოზიტიური იდენტიფიკაცია, ვინაიდან სახის ამოცნობის სისტემას, რომელიც ჩართულია დაბალი დონის მახასიათებლებზე, არ უნდა სჭირდებოდეს გარჩევადობის ეს დონე და სიცხადე. გარდა ამისა, ასეთი ტრანსფორმაციები პრაქტიკაში ძვირია და იწვევს დამატებით, განმეორებადი კითხვები მათი პოტენციური მართებულობისა და კანონიერების ირგვლივ.

საჭიროება მეტი "ქვემოთ-ქუსლიანი" ცნობილი ადამიანებისთვის

უფრო სასარგებლო იქნება, თუ სახის ამოცნობის სისტემას შეუძლია გამოიტანოს ფუნქციები (მაქ ადამიანის ფუნქციები) ძველი სისტემების გამომავალიდან, როგორც ისინი დგას, უკეთესად გავიგოთ ურთიერთობა „მაღალი გარჩევადობის“ იდენტობასა და დეგრადირებულ სურათებს შორის, რომლებიც ხელმისაწვდომია დაუოკებელ (და ხშირად შეუცვლელ) არსებულ ვიდეოთვალთვალის ჩარჩოებში.

პრობლემა აქ არის ერთ-ერთი სტანდარტი: ინტერნეტში შეგროვებული საერთო მონაცემთა ნაკრები, როგორიცაა MS-Celeb-1M მდე WebFace260M (რამდენიმე სხვასთან ერთად), ყოფილა ჩაკეტილი კვლევითი საზოგადოების მიერ, რადგან ისინი უზრუნველყოფენ თანმიმდევრულ კრიტერიუმებს, რომელთა მიხედვითაც მკვლევარებს შეუძლიათ შეაფასონ თავიანთი დამატებითი ან ძირითადი პროგრესი თანამედროვე ტექნიკის მიმართ.

მაგალითები Microsoft-ის პოპულარული MS-Celeb1m მონაცემთა ნაკრებიდან. წყარო: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

მაგალითები Microsoft-ის პოპულარული MS-Celeb1m მონაცემთა ნაკრებიდან. წყარო: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

თუმცა, ავტორები ამტკიცებენ, რომ სახის ამოცნობის (FR) ალგორითმები, რომლებიც მომზადებულია ამ მონაცემთა ნაკრებებზე, არასასურველი მასალაა მრავალი ძველი სათვალთვალო სისტემის გამომავალი ვიზუალური „დომენებისთვის“.

ნაშრომში ნათქვამია *:

„[თანამედროვე] (SoTA) FR მოდელები კარგად არ მუშაობს რეალურ სამყაროს სათვალთვალო სურათებზე (შეუზღუდავი) დომენის ცვლის საკითხის გამო, ანუ მიღებული ფართომასშტაბიანი ტრენინგის მონაცემთა ნაკრები (ნახევრად შეზღუდული). ინტერნეტში მოძიებული ცნობილი ადამიანების სახეებს აკლიათ ველური ვარიაციები, როგორიცაა თანდაყოლილი სენსორის ხმაური, დაბალი გარჩევადობა, მოძრაობის დაბინდვა, ტურბულენტური ეფექტი და ა.შ.

'მაგალითად, 1:1 გადამოწმების სიზუსტე მოხსენებული SoTA-ს ერთ-ერთი მოდელი შეუზღუდავზე იჯბ-ს მონაცემთა ნაკრები დაახლოებით 30%-ით დაბალია, ვიდრე ნახევრად შეზღუდულზე LFW.

„ეფექტურობის ასეთი ხარვეზის პოტენციური გამოსავალი არის ფართომასშტაბიანი შეუზღუდავი სახის მონაცემთა ნაკრების შეკრება. თუმცა, ათიათასობით სუბიექტით ასეთი სავარჯიშო მონაცემთა ნაკრების აგება ძალზედ რთულია ეტიკეტირების მაღალი ღირებულებით.'

ნაშრომი აღწერს სხვადასხვა წინა მეთოდებს, რომლებიც ცდილობდნენ „შეესაბამებინათ“ ისტორიული ან დაბალფასიანი სათვალთვალო სისტემების შედეგების მრავალფეროვანი ტიპები, მაგრამ გაითვალისწინეთ, რომ ეს ეხება „ბრმა“ გაძლიერებებს. ამის საპირისპიროდ, CFSM იღებს პირდაპირ უკუკავშირს სამიზნე სისტემის რეალურ სამყაროში გამოსვლიდან ტრენინგის დროს და ადაპტირდება სტილის გადაცემის გზით ამ დომენის მიბაძვის მიზნით.

მსახიობი ნატალი პორტმანი, უცხო არ არის მონაცემთა რამდენიმე ნაკრებისთვის, რომელიც დომინირებს კომპიუტერული ხედვის საზოგადოებაში, ახასიათებს იდენტობებს CFSM-ის ამ მაგალითში, რომელიც ასრულებს სტილის შესატყვისი დომენის ადაპტაციას, რომელიც ეფუძნება უკუკავშირს რეალური სამიზნე მოდელის დომენიდან.

მსახიობი ნატალი პორტმანი, უცხო არ არის მონაცემთა რამდენიმე ნაკრებისთვის, რომელიც დომინირებს კომპიუტერული ხედვის საზოგადოებაში, ახასიათებს იდენტობებს CFSM-ის ამ მაგალითში, რომელიც ასრულებს სტილის შესატყვისი დომენის ადაპტაციას, რომელიც ეფუძნება უკუკავშირს რეალური სამიზნე მოდელის დომენიდან.

ავტორების მიერ შემუშავებული არქიტექტურა იყენებს სწრაფი გრადიენტის ნიშნის მეთოდს (FGSM) მიღებული სტილებისა და მახასიათებლების ინდივიდუალიზაცია და „იმპორტი“ სამიზნე სისტემის ჭეშმარიტი შედეგიდან. მილსადენის ნაწილი, რომელიც ეძღვნება გამოსახულების გენერირებას, შემდგომში გაუმჯობესდება და ტრენინგით უფრო ერთგული გახდება სამიზნე სისტემის მიმართ. ეს უკუკავშირი სამიზნე სისტემის დაბალი განზომილებიანი სტილის სივრციდან არის დაბალი დონის ბუნებით და შეესაბამება ყველაზე ფართო წარმოებულ ვიზუალურ აღწერებს.

ავტორები კომენტარს აკეთებენ:

'FR მოდელის გამოხმაურებით, სინთეზირებული სურათები უფრო სასარგებლოა FR შესრულებისთვის, რაც იწვევს მათთან გაწვრთნილი FR მოდელების განზოგადების შესაძლებლობებს.'

ტესტები

მკვლევარებმა გამოიყენეს MSU-ს საკუთარი წინა სამუშაო როგორც შაბლონი მათი სისტემის შესამოწმებლად. იმავე ექსპერიმენტულ პროტოკოლებზე დაყრდნობით, მათ გამოიყენეს MS-Celeb-1m, რომელიც შედგება ექსკლუზიურად ვებ-ტრავლეული ცნობილი ადამიანების ფოტოებისგან, როგორც ეტიკეტირებული სასწავლო მონაცემთა ბაზა. სამართლიანობისთვის, მათ ასევე შეიტანეს MS1M-V2, რომელიც შეიცავს 3.9 მილიონ სურათს 85,700 კლასში.

სამიზნე მონაცემები იყო WiderFace მონაცემთა ნაკრები, ჰონგ კონგის ჩინური უნივერსიტეტიდან. ეს არის სურათების განსაკუთრებით მრავალფეროვანი ნაკრები, რომელიც შექმნილია რთულ სიტუაციებში სახის ამოცნობის ამოცანებისთვის. გამოყენებული იქნა 70,000 სურათი ამ ნაკრებიდან.

შეფასებისთვის, სისტემა შემოწმდა ოთხი სახის ამომცნობი ნიშნის მიხედვით: IJB-B, IJB-C, იჯბ-სდა TinyFace.

CFSM ტრენინგს ჩაუტარდა MS-Celeb-10m-ის ტრენინგის მონაცემების ~1%-ით, დაახლოებით 0.4 მილიონი სურათით, 125,000 გამეორებისთვის 32 პარტიული ზომით Adam ოპტიმიზერის (ძალიან დაბალი) სწავლის სიჩქარით 1e-4.

სამიზნე სახის ამოცნობის მოდელი გამოყენებული ა მოდიფიკაცია ResNet-50-ის ხერხემალისთვის, ვარჯიშის დროს ჩართულია ArcFace-ის დაკარგვის ფუნქციით. გარდა ამისა, მოდელი გაწვრთნილი იყო CFSM-ით, როგორც აბლაციისა და შედარებითი სავარჯიშო (მონიშნულია როგორც 'ArcFace' შედეგების ცხრილში ქვემოთ).

CFSM-ის პირველადი ტესტების შედეგები. უფრო მაღალი რიცხვები უკეთესია.

CFSM-ის პირველადი ტესტების შედეგები. უფრო მაღალი რიცხვები უკეთესია.

ავტორები კომენტარს აკეთებენ პირველადი შედეგების შესახებ:

'ArcFace მოდელი აღემატება ყველა საბაზისო ხაზს როგორც სახის იდენტიფიკაციის, ისე გადამოწმების ამოცანებში და აღწევს ახალ SoTA შესრულებას.'

დომენების ამოღების შესაძლებლობა მემკვიდრეობითი ან დაუზუსტებელი სათვალთვალო სისტემების სხვადასხვა მახასიათებლიდან ასევე საშუალებას აძლევს ავტორებს შეადარონ და შეაფასონ განაწილების მსგავსება ამ ჩარჩოებს შორის და წარმოადგინონ თითოეული სისტემა ვიზუალური სტილის თვალსაზრისით, რომელიც შეიძლება გამოყენებულ იქნას შემდგომ მუშაობაში. .

სხვადასხვა მონაცემთა ნაკრების მაგალითები აჩვენებს აშკარა განსხვავებებს სტილში.

სხვადასხვა მონაცემთა ნაკრების მაგალითები აჩვენებს აშკარა განსხვავებებს სტილში.

ავტორები დამატებით აღნიშნავენ, რომ მათ სისტემას შეუძლია ღირებულად გამოიყენოს ზოგიერთი ტექნოლოგია, რომელიც დღემდე განიხილება, როგორც მხოლოდ კვლევისა და ხედვის საზოგადოების მიერ გადასაჭრელი პრობლემები:

„[CFSM] გვიჩვენებს, რომ მოწინააღმდეგე მანიპულირება შეიძლება სცილდება თავდამსხმელობას და ემსახურება ხედვის ამოცანების ამოცნობის სიზუსტის გაზრდას. იმავდროულად, ჩვენ განვსაზღვრავთ მონაცემთა ბაზის მსგავსების მეტრიკას, რომელიც დაფუძნებულია ნასწავლი სტილის საფუძვლებზე, რომელიც აღწერს სტილის განსხვავებებს ლეიბლის ან პროგნოზირების აგნოსტიკური გზით.

"ჩვენ გვჯერა, რომ ჩვენმა კვლევამ წარმოადგინა კონტროლირებადი და მართვადი სახის სინთეზის მოდელის ძალა შეუზღუდავი FR-ისთვის და უზრუნველყოფს მონაცემთა ბაზის განსხვავებების გაგებას."

 

* ავტორის შიდა ციტატების ჩემი გადაყვანა ჰიპერბმულებად.

პირველად გამოქვეყნდა 1 წლის 2022 აგვისტოს.