სტუბი ობიექტების ვიდეოდან უფრო ეფექტურად ამოღება მანქანური სწავლებით - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

ობიექტების ამოღება ვიდეოდან უფრო ეფექტურად მანქანური სწავლით

mm
განახლებულია on

ჩინეთის ახალი კვლევა აჩვენებს უახლესი შედეგების - ისევე როგორც ეფექტურობის შთამბეჭდავ გაუმჯობესებას - ახალი ვიდეო შეღებვის სისტემისთვის, რომელსაც შეუძლია ჭკვიანურად ამოიღოს ობიექტები კადრებიდან.

საკიდლის აღკაზმულობა შეღებილია ახალი პროცედურის მიხედვით. იხილეთ წყაროს ვიდეო (ჩაშენებული ამ სტატიის ბოლოში) უკეთესი გარჩევადობისა და მეტი მაგალითებისთვის. წყარო: https://www.youtube.com/watch?v=N--qC3T2wc4

საკიდლის აღკაზმულობა შეღებილია ახალი პროცედურის მიხედვით. იხილეთ წყაროს ვიდეო (ჩაშენებული ამ სტატიის ბოლოში) უკეთესი გარჩევადობისა და მეტი მაგალითებისთვის. წყარო: https://www.youtube.com/watch?v=N–qC3T2wc4

ტექნიკა, სახელწოდებით End-to-End Framework for Flow Guided video Inpainting (E2FGVI), ასევე შეუძლია ამოიღოს წყლის ნიშნები და სხვა სახის ოკლუზია ვიდეო კონტენტიდან.

E2FGVI ითვლის პროგნოზებს იმ კონტენტის შესახებ, რომელიც დევს ოკლუზიების მიღმა, რაც შესაძლებელს ხდის ამოიღოს თუნდაც შესამჩნევი და გადაუჭრელი წყლის ნიშნები. წყარო: https://github.com/MCG-NKU/E2FGVI

E2FGVI ითვლის პროგნოზებს კონტენტისთვის, რომელიც დევს ოკლუზიების მიღმა, რაც საშუალებას აძლევს ამოიღოს თუნდაც შესამჩნევი და სხვაგვარად გაუგებარი ჭვირნიშნების. წყარო: https://github.com/MCG-NKU/E2FGVI

უკეთესი გარჩევადობით მეტი მაგალითის სანახავად, იხილეთ სტატიის ბოლოს ჩაშენებული ვიდეო.

მიუხედავად იმისა, რომ გამოქვეყნებულ ნაშრომში წარმოდგენილი მოდელი გაწვრთნილი იყო 432px x 240px ვიდეოებზე (ჩვეულებრივ დაბალი შეყვანის ზომები, შეზღუდული GPU ხელმისაწვდომი სივრცით ოპტიმალური სერიის ზომებით და სხვა ფაქტორებით), ავტორებმა მას შემდეგ გამოაქვეყნეს E2FGVI-HQ, რომელსაც შეუძლია ვიდეოების თვითნებური გარჩევადობით დამუშავება.

მიმდინარე ვერსიის კოდი არის ხელმისაწვდომია GitHub-ში, ხოლო HQ ვერსია, რომელიც გამოვიდა გასულ კვირას, შეგიძლიათ ჩამოტვირთოთ Google წამყვანი მდე ბაიდუ დისკი.

ბავშვი რჩება სურათზე.

ბავშვი რჩება სურათზე.

E2FGVI-ს შეუძლია 432×240 ვიდეოს დამუშავება 0.12 წამში თითო კადრზე Titan XP GPU-ზე (12 GB VRAM) და ავტორები აცხადებენ, რომ სისტემა თხუთმეტჯერ უფრო სწრაფად მუშაობს, ვიდრე წინა თანამედროვე მეთოდებზე დაყრდნობით. ოპტიკური ნაკადი.

ჩოგბურთელი მოულოდნელად გადის.

ჩოგბურთელი მოულოდნელად გადის.

ტესტირება სტანდარტულ მონაცემთა ნაკრებებზე გამოსახულების სინთეზის კვლევის ამ ქვესექტორისთვის, ახალმა მეთოდმა შეძლო აჯობა კონკურენტებს როგორც ხარისხობრივ, ასევე რაოდენობრივ შეფასების რაუნდებში.

ტესტები წინა მიდგომების წინააღმდეგ. წყარო: https://arxiv.org/pdf/2204.02663.pdf

ტესტები წინა მიდგომების წინააღმდეგ. წყარო: https://arxiv.org/pdf/2204.02663.pdf

ის ქაღალდი სახელდება დინებით მართული ვიდეო შეღებვისთვის ბოლოდან ბოლომდე ჩარჩოსკენ, და არის ნანკაის უნივერსიტეტის ოთხი მკვლევრის თანამშრომლობა Hisilicon Technologies-ის მკვლევართან ერთად.

რა აკლია ამ სურათს

ვიზუალური ეფექტებისთვის აშკარა აპლიკაციების გარდა, მაღალი ხარისხის ვიდეო შეღებვა უნდა გახდეს ახალი AI-ზე დაფუძნებული გამოსახულების სინთეზისა და გამოსახულების შეცვლის ტექნოლოგიების ძირითადი განმსაზღვრელი ფუნქცია.

ეს განსაკუთრებით ეხება ტანის შემცვლელ მოდას და სხვა ჩარჩოებს შეეცადე "გადაიკიდე" ან სხვაგვარად შეცვალოს სცენები სურათებსა და ვიდეოებში. ასეთ შემთხვევებში საჭიროა დამაჯერებლად „შევსება“ სინთეზის შედეგად გამოვლენილი დამატებითი ფონის.

ბოლო ნაშრომიდან, სხეულის „გადაფორმების“ ალგორითმი დავალებულია ახლად გამოვლენილი ფონის დახატვაზე, როდესაც საგნის ზომა იცვლება. აქ, ეს ნაკლოვანება წარმოდგენილია წითელი მოხაზულობით, რომელსაც (რეალურ ცხოვრებაში, იხილეთ სურათი მარცხნივ) უფრო სრული ფიგურის მქონე ადამიანი ეკავა. წყაროს მასალაზე დაყრდნობით https://arxiv.org/pdf/2203.10496.pdf

ბოლო ნაშრომიდან, სხეულის „გადაფორმების“ ალგორითმი დავალებულია ახლად გამოვლენილი ფონის დახატვაზე, როდესაც საგნის ზომა იცვლება. აქ, ეს ნაკლოვანება წარმოდგენილია წითელი მოხაზულობით, რომელსაც (რეალურ ცხოვრებაში, იხილეთ სურათი მარცხნივ) უფრო სრული ფიგურის მქონე ადამიანი ეკავა. წყაროს მასალაზე დაყრდნობით https://arxiv.org/pdf/2203.10496.pdf

თანმიმდევრული ოპტიკური ნაკადი

ოპტიკური ნაკადი (OF) გახდა ძირითადი ტექნოლოგია ვიდეო ობიექტების მოცილების შემუშავებაში. ისევე როგორც ატლასი, OF გთავაზობთ დროებითი თანმიმდევრობის ერთჯერადი რუკას. ხშირად გამოიყენება სიჩქარის გასაზომად კომპიუტერული ხედვის ინიციატივებში, OF-ს შეუძლია ასევე ჩართოს დროებით თანმიმდევრული შეღებვა, სადაც დავალების საერთო ჯამი შეიძლება განიხილებოდეს ერთი პასით, ნაცვლად დისნეის სტილის „თითო ჩარჩოზე“ ყურადღების, რაც აუცილებლად იწვევს დროებითი შეწყვეტისკენ.

ვიდეო შეღებვის მეთოდები დღემდე სამი ეტაპის პროცესზეა ორიენტირებული: ნაკადის დასრულება, სადაც ვიდეო არსებითად არის შედგენილი დისკრეტულ და შესასწავლ ერთეულში; პიქსელების გავრცელება, სადაც "დაზიანებულ" ვიდეოებში ხვრელები ივსება ორმხრივად გამრავლებული პიქსელებით; და შინაარსის ჰალუცინაცია (პიქსელის „გამოგონება“, რომელიც ჩვენგან უმეტესობას ნაცნობია ღრმა ფეიქეებიდან და ტექსტიდან გამოსახულების ჩარჩოებიდან, როგორიცაა DALL-E სერია), სადაც სავარაუდო „დაკარგული“ კონტენტი გამოიგონა და ჩასმულია კადრებში.

ცენტრალური ინოვაცია ე2FGVI არის ამ სამი ეტაპის გაერთიანება ბოლომდე სისტემაში, რათა თავიდან აიცილოს კონტენტზე ან პროცესზე ხელით ოპერაციების განხორციელების აუცილებლობა.

ნაშრომი აღნიშნავს, რომ ხელით ჩარევის აუცილებლობა მოითხოვს, რომ ძველი პროცესები არ ისარგებლონ GPU-ით, რაც მათ საკმაოდ შრომატევადს ხდის. ქაღალდიდან *:

'მიღება DFVI მაგალითად, ერთი ვიდეოს დასრულება 432 × 240 ზომით DAVIS, რომელიც შეიცავს დაახლოებით 70 კადრს, სჭირდება დაახლოებით 4 წუთი, რაც მიუღებელია უმეტეს რეალურ აპლიკაციებში. გარდა ამისა, ზემოაღნიშნული ნაკლოვანებების გარდა, მხოლოდ წინასწარ გაწვრთნილი გამოსახულების შეღებვის ქსელის გამოყენება შინაარსის ჰალუცინაციის ეტაპზე უგულებელყოფს შინაარსობრივ ურთიერთობებს დროებით მეზობლებს შორის, რაც იწვევს ვიდეოებში არათანმიმდევრულ გენერირებულ კონტენტს.'

ვიდეო შეღებვის სამი ეტაპის გაერთიანებით, ე2FGVI-ს შეუძლია შეცვალოს მეორე ეტაპი, პიქსელების გამრავლება, ფუნქციების გამრავლებით. წინა სამუშაოების უფრო სეგმენტირებულ პროცესებში, ფუნქციები არც თუ ისე ფართოდ არის ხელმისაწვდომი, რადგან თითოეული ეტაპი შედარებით ჰერმეტულია და სამუშაო პროცესი მხოლოდ ნახევრად ავტომატიზირებულია.

გარდა ამისა, მკვლევარებმა შეიმუშავეს ა დროებითი ფოკუსური ტრანსფორმატორი შინაარსის ჰალუცინაციის სტადიისთვის, რომელიც ითვალისწინებს არა მხოლოდ პიქსელების პირდაპირ მეზობლებს მიმდინარე კადრში (ანუ რა ხდება კადრის ამ ნაწილში წინა ან შემდეგ სურათზე), არამედ შორეულ მეზობლებსაც, რომლებიც მრავალი კადრით არიან დაშორებული, და თუმცა გავლენას მოახდენს ვიდეოზე მთლიანობაში შესრულებული ნებისმიერი ოპერაციის შეკრულ ეფექტზე.

E2FGVI-ის არქიტექტურა.

E2FGVI-ის არქიტექტურა.

სამუშაო ნაკადის ახალ ფუნქციებზე დაფუძნებულ ცენტრალურ განყოფილებას შეუძლია ისარგებლოს უფრო ფუნქციების დონის პროცესებით და შესასწავლად შერჩევის ოფსეტებით, ხოლო პროექტის ახალი ფოკუსური ტრანსფორმატორი, ავტორების აზრით, აფართოებს ფოკუსური ფანჯრების ზომას "2D-დან 3D-მდე". .

ტესტები და მონაცემები

შესამოწმებლად ე2FGVI, მკვლევარებმა შეაფასეს სისტემა ორი პოპულარული ვიდეო ობიექტის სეგმენტაციის მონაცემთა ნაკრების მიხედვით: YouTube-VOSდა DAVIS. YouTube-VOS შეიცავს 3741 სასწავლო ვიდეო კლიპს, 474 ვალიდაციის კლიპს და 508 სატესტო კლიპს, ხოლო DAVIS შეიცავს 60 სასწავლო ვიდეო კლიპს და 90 სატესტო კლიპს.

E2FGVI გაიარა ტრენინგი YouTube-VOS-ზე და შეფასდა ორივე მონაცემთა ნაკრების მიხედვით. ტრენინგის დროს შეიქმნა ობიექტების ნიღბები (მწვანე ადგილები ზემოთ სურათებში და ჩაშენებული ვიდეო ქვემოთ) ვიდეოს დასრულების სიმულაციისთვის.

მეტრიკებისთვის, მკვლევარებმა მიიღეს პიკური სიგნალი-ხმაურის თანაფარდობა (PSNR), სტრუქტურული მსგავსება (SSIM), ვიდეოზე დაფუძნებული Fréchet Inception Distance (VFID) და ნაკადის დამახინჯების შეცდომა - ეს უკანასკნელი დაზარალებულ ვიდეოში დროებითი სტაბილურობის გასაზომად.

იყო წინა არქიტექტურები, რომლებზეც სისტემა შემოწმდა VINet, DFVI, LGTSM, C, FGVC, STTNდა FuseFormer.

ნაშრომის რაოდენობრივი შედეგების განყოფილებიდან. ზემოთ და ქვემოთ ისრები მიუთითებს იმაზე, რომ უფრო მაღალი ან ქვედა რიცხვები, შესაბამისად, უკეთესია. E2FGVI აღწევს საუკეთესო ქულებს მთელს დაფაზე. მეთოდები შეფასებულია FuseFormer-ის მიხედვით, თუმცა DFVI, VINet და FGVC არ არის ბოლოდან ბოლომდე სისტემები, რაც შეუძლებელს ხდის მათი FLOP-ების შეფასებას.

ნაშრომის რაოდენობრივი შედეგების განყოფილებიდან. ზემოთ და ქვემოთ ისრები მიუთითებს იმაზე, რომ უფრო მაღალი ან ქვედა რიცხვები, შესაბამისად, უკეთესია. E2FGVI აღწევს საუკეთესო ქულებს მთელს დაფაზე. მეთოდები შეფასებულია FuseFormer-ის მიხედვით, თუმცა DFVI, VINet და FGVC არ არის ბოლოდან ბოლომდე სისტემები, რაც შეუძლებელს ხდის მათი FLOP-ების შეფასებას.

ყველა კონკურენტ სისტემასთან საუკეთესო ქულების მიღწევის გარდა, მკვლევარებმა ჩაატარეს თვისებრივი მომხმარებლის კვლევა, რომელშიც ხუთი წარმომადგენლობითი მეთოდით გარდაქმნილი ვიდეოები ინდივიდუალურად აჩვენეს ოც მოხალისეს, რომლებსაც სთხოვეს შეაფასონ ისინი ვიზუალური ხარისხის მიხედვით.

ვერტიკალური ღერძი წარმოადგენს მონაწილეთა პროცენტს, ვინც უპირატესობას ანიჭებს E2FGVI გამომავალს ვიზუალური ხარისხის თვალსაზრისით.

ვერტიკალური ღერძი წარმოადგენს მონაწილეთა პროცენტს, ვინც უპირატესობას ანიჭებს E2FGVI გამომავალი ვიზუალური ხარისხის თვალსაზრისით.

ავტორები აღნიშნავენ, რომ მათი მეთოდის ერთსულოვანი უპირატესობის მიუხედავად, ერთ-ერთი შედეგი, FGVC, არ ასახავს რაოდენობრივ შედეგებს და ისინი ვარაუდობენ, რომ ეს მიუთითებს, რომ E.2კონკრეტულად, FGVI-მ შეიძლება გამოიწვიოს "ვიზუალურად უფრო სასიამოვნო შედეგები".

ეფექტურობის თვალსაზრისით, ავტორები აღნიშნავენ, რომ მათი სისტემა მნიშვნელოვნად ამცირებს მცურავი წერტილის ოპერაციებს წამში (FLOPs) და დასკვნის დროს ერთ Titan GPU-ზე DAVIS მონაცემთა ბაზაში, და აკვირდებიან, რომ შედეგები აჩვენებს E.2FGVI მუშაობს x15 უფრო სწრაფად, ვიდრე ნაკადზე დაფუძნებული მეთოდები.

ისინი კომენტარს აკეთებენ:

'[ე2FGVI] ფლობს ყველაზე დაბალ FLOP-ებს ყველა სხვა მეთოდისგან განსხვავებით. ეს მიუთითებს იმაზე, რომ შემოთავაზებული მეთოდი ძალიან ეფექტურია ვიდეო შეღებვისთვის.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

*ავტორთა შიდა ციტატების ჩემი გადაყვანა ჰიპერბმულებად.

პირველად გამოქვეყნდა 19 წლის 2022 მაისს.