სტუბი JPEG შეკუმშვა ზრდის სახის ამოცნობის შეცდომის სიხშირეს არაკავკასიური სახეებისთვის, კვლევის შედეგები - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

JPEG შეკუმშვა ზრდის სახის ამოცნობის შეცდომის სიხშირეს არაკავკასიური სახეებისთვის, კვლევის შედეგები

mm
განახლებულია on
მთავარი სურათი: DALL-E 2.
მთავარი სურათი: DALL-E 2.

დიდი ბრიტანეთიდან ჩატარებულმა ახალმა კვლევამ დაასკვნა, რომ JPEG სურათებში დაკარგვის შეკუმშვის ტექნიკას შეუძლია უარყოფითი გავლენა მოახდინოს სახის ამოცნობის სისტემების ეფექტურობაზე, რაც ამ სისტემებს უფრო მეტად აქცევს არა-კავკასიელი ადამიანის არასწორ იდენტიფიცირებას.

ნაშრომში ნათქვამია:

„ვრცელი ექსპერიმენტული ინსტალაციის საშუალებით ჩვენ ვამტკიცებთ, რომ საერთო დანაკარგებით გამოსახულების შეკუმშვის მიდგომები უფრო მკვეთრად უარყოფით გავლენას ახდენს სახის ამოცნობაზე კონკრეტული რასობრივი ფენოტიპის კატეგორიებისთვის, როგორიცაა მუქი კანის ტონები (34.55%-მდე).

შედეგები ასევე მიუთითებს იმაზე ქრომის ქვენიმუშების აღება, რომელიც ამცირებს ფერის ინფორმაციას (და არა სიკაშკაშის ინფორმაციას) სახის გამოსახულების მონაკვეთებზე, ზრდის ცრუ შესატყვისობის სიხშირეს (FMR) ტესტირებული მონაცემთა ნაკრებების დიაპაზონში, რომელთაგან ბევრი სტანდარტული საცავია კომპიუტერული ხედვისთვის.

ქრომის ქვენიმუშების ოპერაციები წყაროს სურათზე, განსხვავებული სიჩქარით, ნათლად მოქმედებს დეტალების შენარჩუნების ხარისხზე და რამდენად ქვეტონები უბრალოდ "ერწყმის" ერთმანეთს, სწირავს დეტალებს და განსაზღვრავს მახასიათებლებს. გთხოვთ გაითვალისწინოთ, რომ ეს სურათი თავისთავად შეიძლება დაექვემდებაროს შეკუმშვას და ზუსტი გარჩევადობისთვის მიმართეთ წყაროს ქაღალდს. წყარო: https://arxiv.org/pdf/2208.07613.pdf

ქრომის ქვენიმუშების ოპერაციები წყაროს სურათზე, განსხვავებული სიჩქარით, ნათლად მოქმედებს დეტალების შენარჩუნების ხარისხზე და რამდენად ქვეტონები უბრალოდ "ერწყმის" ერთმანეთს, სწირავს დეტალებს და განსაზღვრავს მახასიათებლებს. გთხოვთ გაითვალისწინოთ, რომ ეს სურათი თავისთავად შეიძლება დაექვემდებაროს შეკუმშვას და ზუსტი გარჩევადობისთვის მიმართეთ წყაროს ქაღალდს. წყარო: https://arxiv.org/pdf/2208.07613.pdf

Chroma subsampling გამოიყენება, როგორც დამატებითი ეკონომიკური საზომი JPEG შეკუმშვისას, რადგან ადამიანებს ნაკლებად შეუძლიათ აღიქვან ფერთა ზოლების სირთულისა და დიაპაზონის შემცირება, ვიდრე კომპიუტერული ხედვის სისტემები, რომლებიც აღიქვამენ ამ „აგრეგაციებს“ ბევრად უფრო სიტყვასიტყვით ვიდრე ჩვენ.

ახალი კვლევის მკვლევარებმა დაადგინეს, რომ ქრომის ქვენიმუშების ამოღება შეკუმშვის პროცესიდან ამცირებს ამ ნეგატიურ ეფექტს 15.95%-მდე, თუმცა ეს პრობლემას მთლიანად არ ხსნის.

კვლევა ასევე ამტკიცებს, რომ ტრენინგი არაკომპრესირებულ (ან ნაკლებად შეკუმშულ) მონაცემებზე იქნება არ პრობლემის გადაჭრა, თუ დასკვნის დროის სურათები შეკუმშულია. ფაქტობრივად, ეს ნიშნავს, რომ სახის ამოცნობის მოდელის სწავლება ნაკლებად შეკუმშულ გამოსახულებაზე არ გადაჭრის მიკერძოებას, თუ საბოლოო წარმოების მოდელს მიეწოდება გამოსახულებები, რომლებსაც აქვთ მითითებული შეკუმშვის პრობლემები.

ავტორები იუწყებიან*:

'დაკარგული გამოსახულების შეკუმშვის გამოყენება დასკვნის დროს უარყოფითად მოქმედებს თანამედროვეობის შესრულებაზე სახის ამოცნობის მიდგომები რასასთან დაკავშირებული სახის ფენოტიპების დაჯგუფების ქვეჯგუფზე (მაგ. კანის მუქი ტონები, თვალის მონოლიდური ფორმა) და რომ მისი ეფექტი არსებობს მიუხედავად იმისა, გამოყენებულია თუ არა შეკუმშული გამოსახულება მოდელის ვარჯიშისთვის.'

ნაშრომი ხაზს უსვამს გამოსახულების შეკუმშვის შედეგებს კომპიუტერული ხედვის კვლევის სექტორზე, რომლებიც დეტალურად იყო აღწერილი 2021 study მერილენდის უნივერსიტეტიდან და Facebook AI-დან.

Ეს არის რთული გამოსასწორებელი საკითხი; მაშინაც კი, თუ შენახვისა და გამტარუნარიანობის პრობლემები, რომლებიც შეკუმშვას აუცილებელს ხდის, აღმოიფხვრა ერთ ღამეში, და მაშინაც კი, თუ ყველა დაბალი ხარისხის სურათი, რომელიც შეიცავს სექტორში ოცი ან მეტი წლის მონაცემთა ნაკრებებს, მოულოდნელად ხელახლა შეკუმშულიყო უკეთესი სიჩქარით მაღალი ხარისხის წყაროებიდან, ეს მოხდება. წარმოადგენს აკადემიური ბენჩმარკინგის ინსტრუმენტების უწყვეტობის „გადატვირთვას“ ბოლო რამდენიმე ათწლეულის განმავლობაში. CV საზოგადოებამ, ფაქტობრივად, მიეჩვია პრობლემამდე, იქამდე, სადაც იგი წარმოადგენს შესამჩნევ ტექნიკურ ვალს.

რასობრივი კომპენსაცია სახის ამოცნობაში (FR) აქვს გახდა a მედიის ცხელი თემა ბოლო წლებში, რამაც გამოიწვია ერთობლივი ძალისხმევა კვლევით საზოგადოებაში, რათა აღმოიფხვრას იგი დაზარალებული სისტემებიდან. თუმცა, გლობალური კვლევის ორგანოზე დამოკიდებულება ა ზედმეტად შეზღუდული "ოქროს სტანდარტის" მონაცემთა ნაკრების რაოდენობა, რომელთაგან ბევრი ან არა რასობრივად დაბალანსებული or ცუდად ეტიკეტირებული ამ მხრივ, ამძაფრებს გამოწვევას.

ახალი ნაშრომის მკვლევარები დამატებით აღნიშნავენ დისონანსს გამოსახულების შეძენის სტანდარტებსა და სახის ამოცნობის საორიენტაციო სტანდარტებს შორის დადგენილ სტანდარტებს შორის, სადაც ნათქვამია*:

„[არსებული] გამოსახულების შეძენის სტანდარტები სახის ამოცნობის სისტემებისთვის, როგორიცაა ISO / IEC 19794-5 მდე ICAO 9303 შესთავაზეთ როგორც გამოსახულებაზე დაფუძნებული (მაგ. განათება, ოკლუზია) ასევე სუბიექტზე დაფუძნებული (ანუ პოზა, ექსპრესია, აქსესუარები) ხარისხის სტანდარტები სახის გამოსახულების ხარისხის უზრუნველსაყოფად.

„შესაბამისად, სახის გამოსახულებები ასევე უნდა ინახებოდეს დაკარგვითი გამოსახულების შეკუმშვის სტანდარტების გამოყენებით, როგორიცაა JPEG  ან JPEG2000; და იდენტიფიცირებადი სქესის, თვალის ფერის, თმის ფერის, გამოხატვის, თვისებების (მაგ. სათვალეების), პოზების კუთხით (კირი, სიმაღლე და გადახვევა) და საეტაპო პოზიციები.

თუმცა, სახის ამოცნობის საერთო საორიენტაციო ნიშნები არ შეესაბამება ISO/IEC 19794-5 და ICAO 9303 სტანდარტებს. უფრო მეტიც, ველურ ბუნებაში ნიმუშები ხშირად მიიღება სხვადასხვა კამერისა და გარემო პირობების ქვეშ, შემოთავაზებული გადაწყვეტილებების გამოწვევის მიზნით.

„მიუხედავად ამისა, სახის გამოსახულების ნიმუშების უმეტესობა ასეთ მონაცემთა ნაკრებში შეკუმშულია ზარალი JPEG შეკუმშვის საშუალებით.“

ახალი ნაშრომის ავტორები აცხადებენ, რომ მათი მომავალი ძალისხმევა შეისწავლის დაკარგვითი გამოსახულების კვანტიზაციის გავლენას სახის ამოცნობის მრავალფეროვან ჩარჩოებზე და შესთავაზებენ შესაძლო მეთოდებს ამ სისტემების სამართლიანობის გასაუმჯობესებლად.

ის ახალი ქაღალდი სახელდება იმოქმედებს თუ არა დაკარგული გამოსახულების შეკუმშვა სახის ამოცნობაში რასობრივ მიკერძოებაზე?და მოდის ლონდონის საიმპერატორო კოლეჯის სამი მკვლევრისგან, ერთთან ერთად InsightFace ღრმა სახის ანალიზიდან ბიბლიოთეკა.

მონაცემები და მეთოდი

ექსპერიმენტებისთვის მკვლევარებმა გამოიყენეს ImageMagick მდე libjpeg ღია კოდის ბიბლიოთეკები, რათა შეიქმნას წყაროს მონაცემების სურათების ვერსიები შეკუმშვის სხვადასხვა მატებით.

შეკუმშვის ეფექტის პირველადი მიმოხილვისთვის ავტორებმა შეისწავლეს პიკური სიგნალი-ხმაურის თანაფარდობის ეფექტი (PSNR) JPEG შეკუმშვის ოთხ სხვადასხვა დონეზე რასის სახეებზე ველურში (RFW) მონაცემთა ბაზა.

PSNR ქულები Racial Faces-in-the-Wild მონაცემთა ნაკრებისთვის, რაც აჩვენებს, რამდენად შეუძლია შეკუმშვას გავლენა მოახდინოს შეკუმშული სურათების ამოცნობის შესაძლებლობებზე.

PSNR ქულები Racial Faces-in-the-Wild მონაცემთა ნაკრებისთვის, რაც აჩვენებს, რამდენად შეუძლია შეკუმშვას გავლენა მოახდინოს შეკუმშული სურათების ამოცნობის შესაძლებლობებზე.

სხვა ტესტებთან ერთად, მათ ჩაატარეს კვლევა რასობრივად გაუწონასწორებელ მონაცემთა ბაზაზე და მეორე, რომელიც რასობრივად დაბალანსებული იყო. რასობრივად დაბალანსებული ნაკრებისთვის მათ გამოიყენეს დანამატი კუთხოვანი მარჟის დაკარგვა (ArcFace) ფუნქციასთან ერთად ResNet101v2, ორიგინალზე VGGFace2 საორიენტაციო მონაცემთა ნაკრები, რომელიც შეიცავს 3.3 მილიონ სურათს 8631 რასობრივად გაუწონასწორებელი სუბიექტით.

ტესტირებისთვის მკვლევარებმა გამოიყენეს RFW მონაცემთა ბაზა. სისტემა ოთხჯერ იყო გაწვრთნილი, შეკუმშვის ოთხ სხვადასხვა დონეზე, რის შედეგადაც შეიქმნა ოთხი ArcFace მოდელი.

რასობრივად დაბალანსებული ნაკრებისთვის, იგივე ჩარჩოები თავდაპირველად გამოიყენებოდა თავდაპირველ გასწორებულზე BUPT-დაბალანსებული საორიენტაციო მონაცემთა ნაკრები, რომელიც შეიცავს 28,000 სახეს, რომლებიც დაბალანსებულია ოთხ ჯგუფში აფრიკის, აზიური, ინდურიდა კავკასიური, თითოეული რასა წარმოდგენილია 7000 სურათით. ისევე როგორც რასობრივად გაუწონასწორებელი მონაცემთა ბაზა, ოთხი ArcFace მოდელი ამ გზით იქნა მიღებული.

გარდა ამისა, მკვლევარებმა გაამრავლეს შეკუმშული და არაკომპრესირებული ვარჯიშის ეფექტები ქრომის ქვენიმუშების ამოღებით, რათა გაზომონ მისი გავლენა შესრულებაზე.

შედეგები

ამის შემდეგ იქნა შესწავლილი ცრუ შესატყვისობის სიხშირე (FMR) ამ გენერირებულ მონაცემთა ნაკრებებში. კრიტერიუმები, რომლებსაც მკვლევარები ეძებდნენ, წინასწარ იყო განსაზღვრული ფენოტიპები რაც შეეხება რასობრივ მახასიათებლებს კანის სახე (1, 2, 3, 4, 5 ან 6), ქუთუთოების ტიპი (მონოლიდი/სხვა), ცხვირის ფორმა (Განიერი ვიწრო), ტუჩის ფორმა (სრული/პატარა), თმის ტიპი (სწორი / ტალღოვანი / ხვეული / მელოტი) და Თმის ფერი - 2019 წლიდან შედგენილი მეტრიკა ქაღალდი ფარული მიკერძოების გაზომვა სახის ამოცნობაში რასობრივი ფენოტიპების საშუალებით.

ნაშრომში ნათქვამია:

ჩვენ ვხედავთ, რომ შეკუმშვის ყველა ქვემოთ შერჩეული დონისთვის q = {5, 10, 15, 95}, FMR იზრდება დამატებითი დანაკარგებით შეკუმშვის გამოყენებისას, რაც აჩვენებს, რომ შეკუმშვის დონე 5 (შეკუმშვის უმაღლესი სიჩქარე) იწვევს ყველაზე მნიშვნელოვან შემცირებას. FMR შესრულებაში, ხოლო შეკუმშვის დონე 95 (შეკუმშვის ყველაზე დაბალი სიჩქარე) არ იწვევს რაიმე შესამჩნევი FMR შესრულების სხვაობებს.'

ნიმუში ქაღალდის ვრცელი შედეგების სქემებიდან, რომლებიც ძალიან დიდი და მრავალრიცხოვანია აქ გასამრავლებლად – გთხოვთ, იხილოთ წყაროს ქაღალდი უკეთესი გარჩევადობისა და სრული შედეგებისთვის. აქ ჩვენ ვხედავთ FMR შესრულების დიაპაზონს VGGFace2-ისთვის უფრო დაქვეითებული/შეკუმშული სახის სურათებში, დიაპაზონში, რომელიც მოიცავს არაკომპრესირებულ ან ნაკლებად შეკუმშულ ხარისხს.

ნიმუში ქაღალდის ვრცელი შედეგების სქემებიდან, რომლებიც ძალიან დიდი და მრავალრიცხოვანია აქ გასამრავლებლად – გთხოვთ, იხილოთ წყაროს ქაღალდი უკეთესი გარჩევადობისა და სრული შედეგებისთვის. აქ ჩვენ ვხედავთ FMR შესრულების დიაპაზონს VGGFace2-ისთვის უფრო დაქვეითებული/შეკუმშული სახის სურათებში, დიაპაზონში, რომელიც მოიცავს არაკომპრესირებულ ან ნაკლებად შეკუმშულ ხარისხს.

ნაშრომი ასკვნის:

საერთო ჯამში, ჩვენი შეფასებით აღმოაჩენს, რომ დასკვნის დროს შეკუმშული სახის გამოსახულების ნიმუშების გამოყენება მნიშვნელოვნად ამცირებს შესრულებას კონკრეტულ ფენოტიპებზე, მათ შორის მუქი კანის ტონალობაში, ფართო ცხვირი, ხვეული თმა და მონოლიდური თვალი ყველა სხვა ფენოტიპურ მახასიათებლებში.

თუმცა, ტრენინგის დროს შეკუმშული გამოსახულების გამოყენება მიღებულ მოდელებს უფრო ელასტიურს ხდის და ზღუდავს შესრულების დეგრადაციას: რჩება დაბალი შესრულება კონკრეტულ რასობრივ ქვეჯგუფებში. გარდა ამისა, chroma subsampling-ის ამოღება აუმჯობესებს FMR-ს კონკრეტული ფენოტიპის კატეგორიებისთვის, რომლებიც გავლენას ახდენენ დაკარგვითი შეკუმშვით.'

 

* ავტორის შიდა ციტატების ჩემი გადაყვანა ჰიპერბმულებად.

პირველად გამოქვეყნდა 22 წლის 2022 აგვისტოს.