ხელოვნური ინტელექტი

GAN-ის ლატენტური სივრცის რუკების არასასურველი სარგებელი

განახლებულია on დეკემბერი 9, 2022

ხელოვნური ინტელექტის მიერ გენერირებული სურათების ხარისხისა და ერთგულების გაუმჯობესების მცდელობისას, მკვლევართა ჯგუფმა ჩინეთიდან და ავსტრალიიდან უნებურად აღმოაჩინეს მეთოდი ლატენტური სივრცის ინტერაქტიულად კონტროლისთვის. გენერალური მოწინააღმდეგე ქსელი (GAN) – იდუმალი გამოთვლითი მატრიცა გამოსახულების სინთეზის ტექნიკის ახალი ტალღის მიღმა, რომელიც რევოლუციას მოახდენს ფილმებში, თამაშებსა და სოციალურ მედიაში და ბევრ სხვა სექტორში გართობისა და კვლევის სფეროში.

მათი აღმოჩენა, პროექტის ცენტრალური მიზნის გვერდითი პროდუქტი, საშუალებას აძლევს მომხმარებელს თვითნებურად და ინტერაქტიულად გამოიკვლიოს GAN-ის ფარული სივრცე თაგვის საშუალებით, თითქოს ათვალიერებს ვიდეოს ან ათვალიერებს წიგნს.

ნაწყვეტი მკვლევართა თანმხლები ვიდეოდან (იხილეთ ჩაშენება სტატიის ბოლოს). გაითვალისწინეთ, რომ მომხმარებელი მანიპულირებს ტრანსფორმაციებით "დაჭერის" კურსორით (ზედა მარცხნივ). წყარო: https://www.youtube.com/watch?v=k7sG4XY5rIc

ნაწყვეტი მკვლევართა თანმხლები ვიდეოდან (იხილეთ ჩაშენებული სტატიის ბოლოს მრავალი სხვა მაგალითისთვის). გაითვალისწინეთ, რომ მომხმარებელი მანიპულირებს ტრანსფორმაციებით "დაჭერის" კურსორით (ზედა მარცხნივ). წყარო: https://www.youtube.com/watch?v=k7sG4XY5rIc

მეთოდი იყენებს "სითბოს რუქებს", რათა მიუთითოს გამოსახულების რომელი სფეროები უნდა გაუმჯობესდეს, რადგან GAN გადის იმავე მონაცემთა ბაზაში ათასობით (ან ასობით ათასი) ჯერ. სითბოს რუქები გამიზნულია გამოსახულების ხარისხის გასაუმჯობესებლად GAN-ის მითითებით, თუ სად არის ის არასწორი, რათა მისი შემდეგი მცდელობა უკეთესი იყოს; მაგრამ, შემთხვევით, ეს ასევე იძლევა მთელი ფარული სივრცის „რუქას“, რომლის დათვალიერება შესაძლებელია მაუსის გადაადგილებით.

სივრცითი ვიზუალური ყურადღება ხაზგასმულია GradCAM-ის საშუალებით, რაც მიუთითებს უბნებზე, რომლებსაც ყურადღება სჭირდებათ ნათელი ფერების დახატვით. წყარო: https://arxiv.org/pdf/2112.00718.pdf

ის ქაღალდი ეწოდება GAN-ის წონასწორობის გაუმჯობესება სივრცითი ცნობიერების ამაღლებით, და მოდის ჰონგ კონგის ჩინური უნივერსიტეტისა და ავსტრალიის ეროვნული უნივერსიტეტის მკვლევარების მიერ. ნაშრომის გარდა, ვიდეო და სხვა მასალა შეგიძლიათ იხილოთ პროექტის გვერდზე.

ნამუშევარი ახალშობილშია და ამჟამად შემოიფარგლება დაბალი რეზოლუციის გამოსახულებებით (256×256), მაგრამ არის კონცეფციის დადასტურება, რომელიც გვპირდება ლატენტური სივრცის „შავი ყუთის“ გახსნას და მოდის იმ დროს, როდესაც მრავალი კვლევითი პროექტი მიმდინარეობს. იმ კართან, გამოსახულების სინთეზზე მეტი კონტროლის მიზნით.

მიუხედავად იმისა, რომ ასეთი სურათები მიმზიდველია (და თქვენ შეგიძლიათ ნახოთ მათი მეტი, უკეთესი გარჩევადობით, ვიდეოში, რომელიც ჩაშენებულია ამ სტატიის ბოლოს), ყველაზე მნიშვნელოვანი ის არის, რომ პროექტმა იპოვა გამოსახულების ხარისხის გაუმჯობესებული და პოტენციურად შექმნის გზა ამის გაკეთება უფრო სწრაფად, უთხარით GAN-ს კონკრეტულად სად არის ის არასწორი ვარჯიშის დროს.

მაგრამ, როგორც Adversarial მიუთითებს, რომ GAN არ არის ერთიანი ერთეული, არამედ არათანაბარი კონფლიქტი ავტორიტეტსა და შრომას შორის. იმის გასაგებად, თუ რა გაუმჯობესება მოახდინეს მკვლევარებმა ამ კუთხით, ვნახოთ, როგორ ახასიათებდა ეს ომი აქამდე.

გენერატორის საშინელი მდგომარეობა

თუ ოდესმე გაგიჩენიათ იმის აზრმა, რომ თქვენ მიერ შეძენილი ტანსაცმლის ზოგიერთი ახალი პროდუქტი დამზადდა ექსპლუატაციაში მყოფ ქვეყანაში, ან გყავდათ ბოსი ან კლიენტი, რომელიც მუდმივად გეუბნებოდათ, გაიმეორეთ ეს! არასოდეს გითხრათ, რა იყო ცუდი თქვენს ბოლო მცდელობაში, დაზოგეთ სამწუხარო ტკიპა გენერატორი გენერაციული საპირისპირო ქსელის ნაწილი.

გენერატორი არის სამუშაო ცხენი, რომელიც აღფრთოვანებული ხართ ბოლო ხუთი წლის განმავლობაში და ეხმარება GAN-ებს შექმნან ფოტორეალისტური ადამიანები, რომლებიც არ არსებობენ, მაღალი დონის ძველი ვიდეო თამაშები 4K გარჩევადობამდე, და გადააქციე საუკუნოვანი კადრები სრული ფერადი HD გამომავალი 60fpsსხვა გასაოცარ AI სიახლეებს შორის.

არარეალური ადამიანების ფოტორეალური სახეების შექმნიდან დაწყებული უძველესი კადრების აღდგენამდე და საარქივო ვიდეო თამაშების აღორძინებამდე, GAN დაკავებულია ბოლო რამდენიმე წლის განმავლობაში.

გენერატორი ამუშავებს ყველა სასწავლო მონაცემს ისევ და ისევ (როგორიცაა სახეების სურათები, რათა შექმნას GAN, რომელსაც შეუძლია შექმნას შემთხვევითი, არარსებული ადამიანების ფოტოები), თითო ფოტო ერთდროულად, დღეების ან თუნდაც კვირების განმავლობაში, სანამ ის შეძლებს შექმნას სურათები, რომლებიც ისეთივე დამაჯერებელია, როგორც ნამდვილი ფოტოები, რომლებიც მან შეისწავლა.

მაშ, როგორ იცის გენერატორმა, რომ პროგრესირებს, ყოველ ჯერზე, როცა ცდილობს შექმნას სურათი, რომელიც უკეთესია, ვიდრე მისი წინა მცდელობა?

გენერატორს ჰყავს ბოსი ჯოჯოხეთიდან.

დისკრიმინატორის დაუნდობელი გამჭვირვალობა

სამუშაო დისკრიმინატორი არის გითხრათ გენერატორს, რომ მან საკმარისად კარგად ვერ შექმნა სურათი, რომელიც ორიგინალური მონაცემებისთვის ავთენტურია და ისევ გააკეთე. დისკრიმინატორი არ ეუბნება გენერატორს რა არასწორი იყო გენერატორის ბოლო მცდელობაში; ის უბრალოდ ათვალიერებს მას, ადარებს გენერირებულ სურათს წყაროს სურათებს (ისევ კერძო) და ანიჭებს სურათს ქულას.

ქულა არის არასოდეს საკმარისად კარგი. დისკრიმინატორი არ შეწყვეტს სათქმელს 'გააკეთე ისევ' სანამ მკვლევარი მეცნიერები არ გამორბენ მას (როდესაც ისინი განიხილავენ, რომ დამატებითი ტრენინგი აღარ გააუმჯობესებს გამომუშავებას).

ამგვარად, ყოველგვარი კონსტრუქციული კრიტიკის გარეშე და შეიარაღებული მხოლოდ ქულით, რომლის მეტრიკა საიდუმლოა, გენერატორმა შემთხვევით უნდა გამოიცნოს გამოსახულების რომელმა ნაწილმა ან ასპექტმა გამოიწვია უფრო მაღალი ქულა, ვიდრე ადრე. ეს მიიყვანს მას კიდევ ბევრ არადამაკმაყოფილებელ მარშრუტზე, სანამ ის საკმარისად დადებითად შეცვლის რაიმეს უფრო მაღალი ქულის მისაღებად.

დისკრიმინატორი, როგორც დამრიგებელი და მენტორი

ახალი კვლევის მიერ მოწოდებული სიახლე არსებითად არის ის, რასაც ახლა დისკრიმინატორი მიუთითებს გენერატორს გამოსახულების რომელი ნაწილები იყო არადამაკმაყოფილებელი, ასე რომ გენერატორს შეუძლია ფოკუსირება მოახდინოს იმ უბნებზე მის შემდეგ გამეორებაში და არ გადააგდოს სექციები, რომლებიც უფრო მაღალი იყო შეფასებული. ურთიერთობის ბუნება საბრძოლოდან თანამშრომლობით გადაიქცა.

დისკრიმინატორსა და გენერატორს შორის გამჭრიახობის უთანასწორობის გამოსასწორებლად მკვლევარებმა გამოიყენეს GradCAM როგორც მექანიზმი, რომელსაც შეუძლია ჩამოაყალიბოს დისკრიმინატორის შეხედულებები გენერატორის შემდეგი მცდელობისთვის ვიზუალური უკუკავშირის შესახებ.

ახალ "წონასწორობის" ტრენინგის მეთოდს ეწოდება EqGAN. მაქსიმალური განმეორებადობისთვის, მკვლევარებმა შეიტანეს არსებული ტექნიკა და მეთოდები ნაგულისხმევ პარამეტრებში, მათ შორის StyleGan2 არქიტექტურა.

EqGAN-ის არქიტექტურა. გენერატორის სივრცითი კოდირება შეესაბამება დისკრიმინატორის სივრცულ ცნობიერებას, სივრცითი სითბოს რუქების შემთხვევითი ნიმუშები (იხ. წინა სურათი) დაშიფრულია გენერატორში სივრცითი კოდირების ფენის (SEL) მეშვეობით. GradCAM არის მექანიზმი, რომლითაც დისკრიმინატორის ყურადღების რუქები ხელმისაწვდომი ხდება გენერატორისთვის.

GradCAM აწარმოებს სითბოს რუქებს (იხ. ზემოთ სურათები), რომლებიც ასახავს დისკრიმინატორის კრიტიკას უახლესი გამეორების მიმართ და ეს გენერატორისთვის ხელმისაწვდომს ხდის.

მოდელის მომზადების შემდეგ, რუკა რჩება ამ კოოპერატიული პროცესის არტეფაქტად, მაგრამ ასევე შეიძლება გამოყენებულ იქნას საბოლოო ლატენტური კოდის შესასწავლად მკვლევართა პროექტის ვიდეოში ნაჩვენები ინტერაქტიული გზით (იხ. ქვემოთ).

EqGAN

პროექტმა გამოიყენა რამდენიმე პოპულარული მონაცემთა ნაკრები, მათ შორის LSUN Cat და Churches მონაცემთა ნაკრები, ასევე FFHQ მონაცემთა ნაკრები. ქვემოთ მოცემულ ვიდეოში ასევე მოცემულია სახის და კატის მანიპულირების მაგალითები EqGAN-ის გამოყენებით.

ყველა სურათის ზომა შეიცვალა 256×256-მდე EqGAN-ის ტრენინგის დაწყებამდე StyleGAN2-ის ოფიციალურ განხორციელებაზე. მოდელი გაწვრთნილი იყო 64-დან 8 GPU-ზე სერიული ზომით, სანამ დისკრიმინატორი 25 მილიონზე მეტ სურათს არ ექვემდებარებოდა.

სისტემის შედეგების ტესტირება შერჩეულ ნიმუშებზე Frechet Inception Distance-ით (FID), ავტორებმა დაადგინეს მეტრიკა სახელწოდებით Disequilibrium Indicator (DI) - ხარისხი, რომლითაც დისკრიმინატორი ინარჩუნებს თავის ცოდნას უპირატესობას გენერატორთან შედარებით, ამ უფსკრულის შემცირების მიზნით.

გაწვრთნილ მონაცემთა სამ ნაკრებში ახალმა მეტრიკამ აჩვენა სასარგებლო ვარდნა გენერატორში სივრცითი ცნობიერების კოდირების შემდეგ, გაუმჯობესებული წონასწორობით, რომელიც აჩვენა როგორც FID, ასევე DI.

მკვლევარები ასკვნიან:

ვიმედოვნებთ, რომ ეს ნამუშევარი შთააგონებს უფრო მეტ სამუშაოს GAN წონასწორობის გადახედვის შესახებ და შეიმუშავებს უფრო ახალ მეთოდებს გამოსახულების სინთეზის ხარისხის გასაუმჯობესებლად GAN წონასწორობის მანევრირების გზით. ჩვენ ასევე ჩავატარებთ უფრო თეორიულ კვლევას ამ საკითხზე სამომავლო სამუშაოებში.'

და განაგრძე:

„ხარისხობრივი შედეგები აჩვენებს, რომ ჩვენი მეთოდი წარმატებით [აიძულებს გენერატორს] კონცენტრირება მოახდინოს კონკრეტულ რეგიონებზე. სხვადასხვა მონაცემთა ნაკრებებზე ჩატარებული ექსპერიმენტები ადასტურებს, რომ ჩვენი მეთოდი ამცირებს GAN-ის ვარჯიშის დისბალანსს და არსებითად აუმჯობესებს გამოსახულების სინთეზის საერთო ხარისხს. შედეგად მიღებული მოდელი სივრცითი ცნობიერებით ასევე საშუალებას იძლევა გამომავალი გამოსახულების ინტერაქტიული მანიპულირება.'

შეხედეთ ქვემოთ მოცემულ ვიდეოს პროექტის შესახებ დამატებითი დეტალებისთვის და ფარული სივრცის დინამიური და ინტერაქტიული კვლევის შემდგომი მაგალითებისთვის GAN-ში.

GAN-ის წონასწორობის გაუმჯობესება სივრცითი ცნობიერების ამაღლებით

Improving GAN Equilibrium by Raising Spatial Awareness

Watch this video on YouTube

11:12 სთ 4 დეკემბერი 2021 – შესწორებული URL GradCAM-ისთვის და მოწესრიგებული მიმდებარე ცნობარი.

დაკავშირებული თემები:GAN განები გენერალური შეჯიბრის ქსელები გამოსახულების სინთეზი კვლევის

შემდეგი

მანქანათმცოდნეობის ახალ მიდგომას შეუძლია დააჩქაროს წამლის დიზაინი

არ გამოტოვოთ

ემოციების შეცვლა ვიდეო კადრებში ხელოვნური ინტელექტის საშუალებით

მარტინ ანდერსონი

მწერალი მანქანათმცოდნეობის, ხელოვნური ინტელექტისა და დიდი მონაცემების შესახებ.
პირადი საიტი: მარტინადერსონი.აი
კონტაქტი: [ელ.ფოსტით დაცულია]
Twitter: @manders_ai