ხელოვნური ინტელექტი

მკვლევარები იყენებენ ღრმა სწავლებას, რათა გადააქციონ საეტაპო ფოტოები 4D

განახლებულია on დეკემბერი 9, 2022

კორნელის უნივერსიტეტის მკვლევარებმა შეიმუშავეს ახალი მეთოდი, რომელიც იყენებს ღრმა სწავლებას მსოფლიოს ღირსშესანიშნაობების ფოტოების 4D გადაქცევისთვის. გუნდი ეყრდნობოდა საჯაროდ ხელმისაწვდომ ტურისტულ ფოტოებს, როგორიცაა ტრევის შადრევანი რომში, და საბოლოო შედეგი არის 3D გამოსახულებები, რომლებიც მანევრირებადია და შეუძლია აჩვენოს ცვლილებები გარეგნობაში დროთა განმავლობაში.

ახლად შემუშავებული მეთოდი იღებს და ასინთეზირებს ათიათასობით არატეგირებულ და დათარიღებულ ფოტოს და ეს არის დიდი წინგადადგმული ნაბიჯი კომპიუტერული ხედვისთვის.

ნაწარმოებს სათაური აქვს „პლენოპტიკური ფუნქციის ხალხმრავალი ნიმუში,“ და წარმოდგენილი იყო კომპიუტერული ხედვის ვირტუალურ ევროპულ კონფერენციაზე, რომელიც გაიმართა 23-28 აგვისტოს შორის.

ნოა სნაველი არის Cornell Tech-ის კომპიუტერული მეცნიერების ასოცირებული პროფესორი და ნაშრომის უფროსი ავტორი. სხვა მონაწილეები არიან კორნელის დოქტორანტი ჟენჩი ლი, ნაშრომის პირველი ავტორი, ასევე აბე დევისი, კომპიუტერული მეცნიერების ასისტენტ პროფესორი კომპიუტერული და საინფორმაციო მეცნიერების ფაკულტეტზე და კორნელის ტექნიკური დოქტორანტი ვენკი ქსიანი.

„ეს არის სცენის მოდელირების ახალი გზა, რომელიც არა მხოლოდ საშუალებას გაძლევთ აწიოთ თავი და დაათვალიეროთ, ვთქვათ, შადრევანი სხვადასხვა კუთხით, არამედ გაძლევთ კონტროლს დროის შესაცვლელად“, - თქვა სნაველიმ.

”თუ თქვენ ნამდვილად წახვედით ტრევის შადრევანთან შვებულებაში, მისი გარეგნობა დამოკიდებული იქნება იმაზე, თუ რომელ საათზე წახვედით - ღამით იგი განათებული იქნება ქვემოდან პროჟექტორებით. დღის მეორე ნახევარში მზე იქნებოდა, თუ მოღრუბლულ დღეს არ წახვედით, - განაგრძო მან. „ჩვენ ვისწავლეთ გარეგნობის მთელი დიაპაზონი, დღის დროზე და ამინდიდან გამომდინარე, ამ არაორგანიზებული ფოტო კოლექციებიდან, ისე, რომ თქვენ შეგიძლიათ შეისწავლოთ მთელი დიაპაზონი და ერთდროულად იმოძრაოთ სცენაზე“.

ტრადიციული კომპიუტერული ხედვის შეზღუდვები

იმის გამო, რომ შეიძლება იყოს მრავალი განსხვავებული ტექსტურა, რომელიც საჭიროებს რეპროდუცირებას, ტრადიციული კომპიუტერული ხედვისთვის რთულია ადგილების ზუსტად წარმოდგენა ფოტოების საშუალებით.

„რეალური სამყარო თავისი გარეგნობით იმდენად მრავალფეროვანია და მას აქვს სხვადასხვა სახის მასალები - მბზინავი ნივთები, წყალი, თხელი სტრუქტურები“, - თქვა სნაველიმ.

ამ ბარიერების გარდა, ტრადიციული კომპიუტერული ხედვა ასევე ებრძვის არათანმიმდევრულ მონაცემებს. Plenoptic ფუნქცია არის ის, თუ როგორ ჩნდება რაღაც ყველა შესაძლო თვალსაზრისით სივრცეში და დროში, მაგრამ ამის რეპროდუცირებისთვის საჭიროა ასობით ვებკამერა სცენაზე. არა მხოლოდ ეს, არამედ მათ უნდა ჩაწერონ მთელი დღე და ღამე. ეს შეიძლება გაკეთდეს, მაგრამ ეს ძალზე რესურსებით მძიმე ამოცანაა, როდესაც ხედავთ სცენების რაოდენობას, სადაც ეს მეთოდი იქნება საჭირო.

სწავლა სხვა ფოტოებიდან

ამის თავიდან ასაცილებლად, მკვლევართა ჯგუფმა შეიმუშავა ახალი მეთოდი.

„მონაცემთა კომპლექტში შეიძლება არ იყოს ფოტო გადაღებული საღამოს 4 საათზე ზუსტად ამ თვალსაზრისით. ასე რომ, ჩვენ უნდა ვისწავლოთ საღამოს 9 საათზე გადაღებული ფოტოდან ერთ ადგილას და 4:03 საათზე გადაღებული ფოტოდან სხვა ლოკაციიდან“, - თქვა სნაველიმ. „და ჩვენ არ ვიცით, თუ როდის არის გადაღებული ეს ფოტოები. მაგრამ ღრმა სწავლის გამოყენება საშუალებას გვაძლევს დავასკვნათ, როგორი იქნებოდა სცენა ნებისმიერ დროსა და ადგილას“.

მკვლევარებმა შემოიღეს ახალი სცენის წარმოდგენა, სახელწოდებით Deep Multiplane Images, რათა გარეგნობის ინტერპოლაცია გაეკეთებინათ ოთხ განზომილებაში, რომლებიც არის 3D და იცვლება დროთა განმავლობაში.

Snavely-ს თქმით, „ჩვენ ვიყენებთ იგივე იდეას, რომელიც გამოგონილია 3D ანიმაციაში 2D ეფექტების შესაქმნელად, რათა შევქმნათ 3D ეფექტები რეალურ სამყაროში, რათა შევქმნათ ეს ღრმა მრავალშრიანი გამოსახულება ტურისტების ფოტოების ყველა ამ განსხვავებული გაზომვებისთვის. საინტერესოა, რომ ის ერთგვარად მომდინარეობს ამ ძალიან ძველი, კლასიკური ტექნიკიდან, რომელიც გამოიყენება ანიმაციაში“.

კვლევამ აჩვენა, რომ გაწვრთნილ მოდელს შეუძლია შექმნას სცენა 50,000 საჯაროდ ხელმისაწვდომი სურათებით სხვადასხვა საიტებიდან. გუნდი თვლის, რომ მას შეიძლება ჰქონდეს გავლენა ბევრ სფეროში, მათ შორის კომპიუტერული ხედვის კვლევასა და ვირტუალურ ტურიზმში.

”თქვენ შეგიძლიათ მიიღოთ გრძნობა, რომ ნამდვილად იქ ხართ”, - თქვა სნაველიმ. "საოცრად კარგად მუშაობს სცენების სპექტრისთვის."

პროექტმა მიიღო Google-ის ყოფილი აღმასრულებელი დირექტორისა და ფილანტროპის ერიკ შმიდტის, ასევე ვენდტ შმიდტის მხარდაჭერა.

დაკავშირებული თემები:AI ხელოვნური ინტელექტი ღრმა სწავლება

შემდეგი

ხელოვნური ინტელექტის სისტემა, რომელსაც შეუძლია ინდივიდუალური მოლეკულების გადაადგილება

არ გამოტოვოთ

AI Startup Diffbot კითხულობს მთელ საჯარო ინტერნეტს, რათა განახორციელოს ფაქტებზე დაფუძნებული ტექსტის გენერაცია

ალექს მაკფარლანდი

ალექს მაკფარლანდი არის ხელოვნური ინტელექტის ჟურნალისტი და მწერალი, რომელიც იკვლევს ხელოვნურ ინტელექტის უახლეს მოვლენებს. ის თანამშრომლობდა მრავალრიცხოვან AI სტარტაპთან და პუბლიკაციებთან მთელ მსოფლიოში.