სტუბი სიღრმისეული ინფორმაცია შეიძლება გამოავლინოს Deepfakes რეალურ დროში - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

სიღრმისეული ინფორმაცია შეიძლება გამოავლინოს Deepfakes რეალურ დროში

mm
განახლებულია on

იტალიის ახალმა კვლევამ აჩვენა, რომ სურათებიდან მიღებული სიღრმისეული ინფორმაცია შეიძლება იყოს სასარგებლო ინსტრუმენტი ღრმა ფეიქების გამოსავლენად - თუნდაც რეალურ დროში.

ვინაიდან ბოლო ხუთი წლის განმავლობაში ღრმა ყალბი გამოვლენის კვლევის უმეტესი ნაწილი კონცენტრირებულია არტეფაქტის იდენტიფიკაცია (რომელიც შეიძლება შემცირდეს გაუმჯობესებული ტექნიკით, ან შეცდომით ჩაითვალოს ვიდეო კოდეკის ცუდი შეკუმშვა), გარემოს განათება, ბიომეტრიული თვისებები, დროებითი დარღვევადა კიდევ ადამიანის ინსტინქტიახალი კვლევა პირველია, რომელიც ვარაუდობს, რომ სიღრმისეული ინფორმაცია შეიძლება იყოს ღირებული შიფრი ღრმა ყალბი შინაარსისთვის.

მიღებული სიღრმის რუქების მაგალითები და აღქმის სიღრმის ინფორმაციის სხვაობა რეალურ და ყალბ სურათებს შორის. წყარო: https://arxiv.org/pdf/2208.11074.pdf

მიღებული სიღრმის რუქების მაგალითები და აღქმის სიღრმის ინფორმაციის სხვაობა რეალურ და ყალბ სურათებს შორის. წყარო: https://arxiv.org/pdf/2208.11074.pdf

კრიტიკულად, ახალი კვლევისთვის შემუშავებული გამოვლენის ჩარჩოები ძალიან კარგად მუშაობს მსუბუქ ქსელზე, როგორიცაა Xception, და მისაღები კარგად მობილურინეტიდა ახალი ნაშრომი აღიარებს, რომ ასეთი ქსელების საშუალებით შემოთავაზებული დასკვნის დაბალი შეყოვნება შეუძლია რეალურ დროში ღრმა ყალბი თაღლითობის გამოვლენის შესაძლებლობას ცოცხალი ღრმა თაღლითობის ახალი ტენდენციის წინააღმდეგ, რაც ასახულია ბოლო დროს თავდასხმა Binance-ზე.

დასკვნის დროში უფრო დიდი ეკონომიის მიღწევა შესაძლებელია, რადგან სისტემას არ სჭირდება სრული ფერადი სურათები, რათა დადგინდეს განსხვავება ყალბ და რეალურ სიღრმის რუქებს შორის, მაგრამ შეუძლია საოცრად ეფექტურად იმუშაოს მხოლოდ სიღრმის ინფორმაციის ნაცრისფერი მასშტაბის სურათებზე.

ავტორები აცხადებენ: 'ეს შედეგი ვარაუდობს, რომ სიღრმე ამ შემთხვევაში უფრო მნიშვნელოვან წვლილს მატებს კლასიფიკაციაში, ვიდრე ფერადი არტეფაქტები.'

აღმოჩენები წარმოადგენს ღრმა ყალბი გამოვლენის კვლევის ახალი ტალღის ნაწილს, რომელიც მიმართულია რეალურ დროში სახის სინთეზის სისტემების წინააღმდეგ, როგორიცაა DeepFaceLive - ძალისხმევის ადგილი, რომელიც შესამჩნევად დაჩქარდა ბოლო 3-4 თვის განმავლობაში, FBI-ს ფონზე გაფრთხილება მარტში რეალურ დროში ვიდეო და აუდიო ღრმა ფეიქების რისკის შესახებ.

ის ქაღალდი სახელდება DepthFake: სიღრმეზე დაფუძნებული სტრატეგია Deepfake ვიდეოების გამოსავლენად, და მოდის რომის საპიენცას უნივერსიტეტის ხუთი მკვლევარისგან.

Edge Cases

ტრენინგის დროს, autoencoder-ზე დაფუძნებული ღრმა ყალბი მოდელები უპირატესობას ანიჭებენ სახის შიდა რეგიონებს, როგორიცაა თვალები, ცხვირი და პირი. უმეტეს შემთხვევაში, ღია კოდის დისტრიბუციებში, როგორიცაა DeepFaceLab მდე სახის გაცვლა (ორივე ჩანგალი 2017 წლის ორიგინალიდან Reddit კოდი მის წაშლამდე), სახის გარე ხაზები კარგად არ არის გამოკვეთილი ვარჯიშის ძალიან გვიან ეტაპამდე და ნაკლებად სავარაუდოა, რომ ემთხვევა სინთეზის ხარისხს სახის შიდა მიდამოში.

წინა გამოკვლევიდან ჩვენ ვხედავთ სახის „გამორჩეული რუქების“ ვიზუალიზაციას. წყარო: https://arxiv.org/pdf/2203.01318.pdf

წინა გამოკვლევიდან ჩვენ ვხედავთ სახის „გამორჩეული რუქების“ ვიზუალიზაციას. წყარო: https://arxiv.org/pdf/2203.01318.pdf

ჩვეულებრივ, ეს არ არის მნიშვნელოვანი, რადგან ჩვენი ტენდენცია, პირველ რიგში, თვალებზე ფოკუსირება და პრიორიტეტების მინიჭება, ყურადღების დაქვეითების დონეზე, ნიშნავს, რომ ნაკლებად სავარაუდოა, რომ შეგვაწუხოს პერიფერიული ხარისხის ეს ვარდნები - განსაკუთრებით მაშინ, თუ ჩვენ პირდაპირ ეთერში ვსაუბრობთ. ადამიანი, რომელიც ყალბს სხვა იდენტობას, რაც იწვევს სოციალურ კონვენციებს და დამუშავების შეზღუდვები არ არის წარმოდგენილი, როდესაც ჩვენ ვაფასებთ "გადაღებულ" ღრმა ფეიკ კადრებს.

თუმცა, დეტალების ან სიზუსტის ნაკლებობა ღრმა გაყალბებული სახის დაზიანებულ ზღვრულ რეგიონებში შეიძლება გამოვლინდეს ალგორითმულად. მარტში, სისტემა, რომელიც ღილაკების პერიფერიული სახის ფართობი იყო გამოაცხადა. თუმცა, იმის გამო, რომ ის მოითხოვს საშუალოზე მეტი ტრენინგის მონაცემებს, ის განკუთვნილია მხოლოდ ცნობილი ადამიანებისთვის, რომლებიც, სავარაუდოდ, მოხვდებიან სახის პოპულარულ მონაცემთა ნაკრებებში (როგორიცაა ImageNet), რომლებსაც აქვთ წარმოშობა კომპიუტერულ ხედვაში და ღრმა ყალბი აღმოჩენის ტექნიკაში.

ამის ნაცვლად, ახალი სისტემა, სახელწოდებით DepthFake, შეუძლია ზოგადად იმოქმედოს გაურკვეველ ან უცნობ იდენტობებზეც კი, რეალურ და ყალბ ვიდეოში არსებული სიღრმისეული რუქის ინფორმაციის ხარისხის განასხვავებით.

ღრმად წასვლა

სიღრმისეული რუქის ინფორმაცია სულ უფრო ხშირად იკვებება სმარტფონებში, მათ შორის AI-ის დახმარებით სტერეო იმპლემენტაციები რომლებიც განსაკუთრებით სასარგებლოა კომპიუტერული ხედვის კვლევისთვის. ახალ კვლევაში ავტორებმა გამოიყენეს ირლანდიის ეროვნული უნივერსიტეტის FaceDepth მოდელი, კონვოლუციური ენკოდერის/დეკოდერის ქსელი, რომელსაც შეუძლია ეფექტურად შეაფასოს სიღრმის რუკები ერთი წყაროს სურათებიდან.

FaceDepth მოდელი მოქმედებაში. წყარო: https://tinyurl.com/3ctcazma

FaceDepth მოდელი მოქმედებაში. წყარო: https://tinyurl.com/3ctcazma

შემდეგ, იტალიელი მკვლევარების ახალი ჩარჩოს მილსადენი ამოიღებს სუბიექტის სახის 224×224 პიქსელიან პაჩს, როგორც ორიგინალური RGB სურათიდან, ასევე მიღებული სიღრმის რუქიდან. კრიტიკულად, ეს საშუალებას აძლევს პროცესს დააკოპიროს ძირითადი შინაარსი მისი ზომის შეცვლის გარეშე; ეს მნიშვნელოვანია, რადგან ზომის სტანდარტული ზომის შეცვლის ალგორითმები უარყოფითად იმოქმედებს სამიზნე ტერიტორიების ხარისხზე.

ამ ინფორმაციის გამოყენებით, როგორც რეალური, ასევე ღრმა გაყალბებული წყაროებიდან, მკვლევარებმა შემდეგ მოამზადეს კონვოლუციური ნერვული ქსელი (CNN), რომელსაც შეუძლია განასხვავოს რეალური და ყალბი შემთხვევები, შესაბამისი სიღრმის რუქების აღქმის ხარისხს შორის განსხვავებების საფუძველზე.

კონცეპტუალური მილსადენი DepthFake-ისთვის.

კონცეპტუალური მილსადენი DepthFake-ისთვის.

FaceDepth მოდელი ივარჯიშება რეალისტურ და სინთეზურ მონაცემებზე ჰიბრიდული ფუნქციის გამოყენებით, რომელიც გთავაზობთ უფრო მეტ დეტალს სახის გარე კიდეებზე, რაც მას კარგად შეეფერება DepthFake-სთვის. ის იყენებს MobileNet-ის ინსტანციას, როგორც ფუნქციების ამომყვანი და გაწვრთნილი იყო 480×640 შეყვანის სურათებით, რომლებიც აწარმოებენ 240×320 სიღრმის რუქებს. თითოეული სიღრმის რუკა წარმოადგენს ახალი პროექტის დისკრიმინატორში გამოყენებული ოთხი შეყვანის არხის მეოთხედს.

სიღრმის რუკა ავტომატურად ჩასმულია ორიგინალურ RGB სურათში, რათა უზრუნველყოს RGBD გამოსახულების ისეთი სახე, რომელიც სავსეა სიღრმისეული ინფორმაციით, რომელიც თანამედროვე სმარტფონის კამერებს შეუძლიათ.

სასწავლო

მოდელი გაწვრთნილი იყო Xception ქსელზე, რომელიც უკვე წინასწარ იყო გაწვრთნილი ImageNet-ზე, თუმცა არქიტექტურას სჭირდებოდა გარკვეული ადაპტაცია დამატებითი სიღრმის შესახებ ინფორმაციის განსათავსებლად წონების სწორი ინიციალიზაციის შესანარჩუნებლად.

გარდა ამისა, მნიშვნელობის შეუსაბამობა სიღრმის ინფორმაციასა და ქსელის მოლოდინებს შორის, განაპირობებს იმას, რომ მკვლევარებმა მნიშვნელობები ნორმალიზება 0-255-მდე.

ვარჯიშის დროს გამოიყენებოდა მხოლოდ გადახვევა და როტაცია. ხშირ შემთხვევაში სხვადასხვა ვიზუალური აშლილობა წარედგინება მოდელს მტკიცე დასკვნის შესაქმნელად, მაგრამ წყაროს ფოტოებში შეზღუდული და ძალიან მყიფე კიდეების სიღრმის რუქის ინფორმაციის შენარჩუნების აუცილებლობამ აიძულა მკვლევარები მიეღოთ შემცირების რეჟიმი.

სისტემა დამატებით ივარჯიშებდა უბრალო 2-არხიან ნაცრისფერ შკალაზე, რათა დადგინდეს, რამდენად რთული იყო წყაროს სურათები, რათა მივიღოთ გამოსადეგი ალგორითმი.

ტრენინგი ჩატარდა TensorFlow API-ს მეშვეობით NVIDIA GTX 1080-ზე 8 გბ VRAM-ით, ADAMAX ოპტიმიზატორის გამოყენებით, 25 ეპოქის განმავლობაში, 32 პარტიული ზომით. შეყვანის გარჩევადობა დაფიქსირდა 224×224-ზე კრეფის დროს, ხოლო სახის ამოცნობა და ამოღება იყო. შესრულებული ერთად dlib C++ ბიბლიოთეკა.

შედეგები

შედეგების სიზუსტე გამოცდილი იყო Deepfake-ის წინააღმდეგ, face2face, FaceSwap, ნერვული ტექსტურადა სრული მონაცემთა ნაკრები RGB და RGBD შეყვანებით, გამოყენებით FaceForensic++ ჩარჩო.

შედეგები სიზუსტეზე ოთხი ღრმა გაყალბების მეთოდზე და მთელ გაუყოფელ მონაცემთა ბაზაზე. შედეგები იყოფა წყაროს RGB სურათების ანალიზსა და იმავე სურათებს შორის ჩაშენებული დასკვნის სიღრმის რუქით. საუკეთესო შედეგები არის თამამად, პროცენტული ფიგურები ქვემოთ აჩვენებენ რამდენად აუმჯობესებს სიღრმის რუქის ინფორმაცია შედეგს.

შედეგები სიზუსტეზე ოთხი ღრმა გაყალბების მეთოდზე და მთელ გაუყოფელ მონაცემთა ბაზაზე. შედეგები იყოფა წყაროს RGB სურათების ანალიზსა და იმავე სურათებს შორის ჩაშენებული დასკვნის სიღრმის რუქით. საუკეთესო შედეგები არის თამამად, პროცენტული ფიგურები ქვემოთ აჩვენებენ რამდენად აუმჯობესებს სიღრმის რუქის ინფორმაცია შედეგს.

ყველა შემთხვევაში, სიღრმის არხი აუმჯობესებს მოდელის მუშაობას ყველა კონფიგურაციაში. Xception იღებს საუკეთესო შედეგებს, მოხერხებული MobileNet-ით უკან. ამის შესახებ ავტორები კომენტარს აკეთებენ:

„[საინტერესოა] აღინიშნოს, რომ MobileNet ოდნავ ჩამორჩება Xception-ს და აღემატება ღრმა ResNet50-ს. ეს შესამჩნევი შედეგია რეალურ დროში აპლიკაციებისთვის დასკვნის დროის შემცირების მიზნის განხილვისას. მიუხედავად იმისა, რომ ეს არ არის ამ სამუშაოს მთავარი წვლილი, ჩვენ მაინც მივიჩნევთ მას წამახალისებელ შედეგად მომავალი განვითარებისთვის.'

მკვლევარები ასევე აღნიშნავენ RGBD და 2-არხიანი ნაცრისფერი შეყვანის თანმიმდევრულ უპირატესობას RGB და სწორი ნაცრისფერი შეყვანის მიმართ, დაკვირვებით, რომ სიღრმისეული დასკვნების ნაცრისფერი ფერის კონვერტაცია, რომელიც გამოთვლით ძალიან იაფია, საშუალებას აძლევს მოდელს მიიღოს გაუმჯობესებული შედეგები ძალიან შეზღუდული ადგილობრივი რესურსებით. სიღრმისეული ინფორმაციის საფუძველზე რეალურ დროში ღრმა ყალბი აღმოჩენის სამომავლო განვითარების ხელშეწყობა.

 

პირველად გამოქვეყნდა 24 წლის 2022 აგვისტოს.