სტუბი ხელოვნური ინტელექტის სისტემა, რომელსაც შეუძლია ადამიანების სურათები უფრო „ლამაზი“ გახადოს - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

ხელოვნური ინტელექტის სისტემა, რომელსაც შეუძლია ადამიანების სურათები უფრო "ლამაზი" გახადოს

mm
განახლებულია on
ფონის სურათი: DALL-E 2 "მსოფლიოში ყველაზე ლამაზი კავკასიური პოდიუმის მოდელის ჯილდოს მფლობელი 8K ფოტო" - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA
ფონის სურათი: DALL-E 2 "მსოფლიოში ყველაზე ლამაზი კავკასიური პოდიუმის მოდელის ჯილდოს მფლობელი 8K ფოტო" - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

ჩინეთიდან მკვლევარებმა შეიმუშავეს AI-ზე დაფუძნებული გამოსახულების გაუმჯობესების ახალი სისტემა, რომელსაც შეუძლია ადამიანის გამოსახულებები გახადოს უფრო „ლამაზი“, გაძლიერებული სწავლის ახალი მიდგომის საფუძველზე.

ახალი მიდგომა იყენებს „სახის სილამაზის პროგნოზირების ქსელს“ გამოსახულების ვარიაციების გასამეორებლად, რომელიც დაფუძნებულია უამრავ ფაქტორზე, რომელთა შორის „განათება“ და თვალის პოზები შეიძლება იყოს კრიტიკული ფაქტორები. აქ ორიგინალური წყაროები (თითოეული სვეტის მარცხნივ) არის EigenGAN სისტემიდან, ახალი შედეგები მათ მარჯვნივ. წყარო: https://arxiv.org/pdf/2208.04517.pdf

ახალი მიდგომა იყენებს „სახის სილამაზის პროგნოზირების ქსელს“ გამოსახულების ვარიაციების გასამეორებლად, რომელიც დაფუძნებულია უამრავ ფაქტორზე, რომელთა შორის „განათება“ და თვალის პოზები შეიძლება იყოს კრიტიკული ფაქტორები. აქ ორიგინალური წყაროები (თითოეული სვეტის მარცხნივ) არის EigenGAN სისტემიდან, ახალი შედეგებით მათ მარჯვნივ. წყარო: https://arxiv.org/pdf/2208.04517.pdf

ტექნიკა ეყრდნობა ამისთვის აღმოჩენილ ინოვაციებს EigenGAN გენერატორიკიდევ ერთი ჩინური პროექტი, 2021 წლიდან, რომელმაც მნიშვნელოვანი ნაბიჯები გადადგა მრავალფეროვნების იდენტიფიცირებაში და გარკვეული კონტროლის მოპოვებაში სემანტიკური ატრიბუტები Generative Adversarial Networks (GANs) ლატენტურ სივრცეში.

2021 წლის EigenGAN გენერატორმა შეძლო მაღალი დონის ცნებების გამოყოფა, როგორიცაა „თმის ფერი“ გენერაციული მოწინააღმდეგე ქსელის ლატენტურ სივრცეში. ახალი ნამუშევარი ეფუძნება ამ ინოვაციურ ინსტრუმენტს, რათა მიაწოდოს სისტემა, რომელსაც შეუძლია წყაროს სურათების „გალამაზება“, მაგრამ ცნობადი იდენტობის შეცვლის გარეშე - პრობლემა წინა მიდგომებში. წყარო: https://arxiv.org/pdf/2104.12476.pdf

2021 წლის EigenGAN გენერატორმა შეძლო მაღალი დონის ცნებების გამოყოფა, როგორიცაა „თმის ფერი“ გენერაციული მოწინააღმდეგე ქსელის ლატენტურ სივრცეში. ახალი ნამუშევარი ეფუძნება ამ ინოვაციურ ინსტრუმენტს, რათა მიაწოდოს სისტემა, რომელსაც შეუძლია წყაროს სურათების „გალამაზება“, მაგრამ ცნობადი იდენტობის შეცვლის გარეშე - პრობლემა წინა მიდგომებში. წყარო: https://arxiv.org/pdf/2104.12476.pdf

სისტემა იყენებს "ესთეტიკის ქულების ქსელს", რომელიც მომდინარეობს SCUT-FBP5500 (SCUT), 2018 წლის საორიენტაციო მონაცემთა ნაკრები სახის სილამაზის პროგნოზირებისთვის, სამხრეთ ჩინეთის ტექნოლოგიური უნივერსიტეტიდან გუანჯოუში.

2018 წლის ნაშრომიდან „SCUT-FBP5500: მრავალფეროვანი საორიენტაციო მონაცემთა ნაკრები სახის სილამაზის მრავალ-პარადიგმური პროგნოზისთვის“, რომელიც გვთავაზობდა „სახის სილამაზის პროგნოზის“ (FBP) ქსელს, რომელსაც შეუძლია სახეების რანჟირება აღქმული მიმზიდველობის მიხედვით, მაგრამ რომელიც რეალურად ვერ გარდაიქმნება. ან "განახლება" სახეები. წყარო: https://arxiv.org/pdf/1801.06345.pdf

2018 წლის ნაშრომიდან „SCUT-FBP5500: მრავალფეროვანი საორიენტაციო მონაცემთა ნაკრები სახის სილამაზის მრავალ-პარადიგმური პროგნოზისთვის“, რომელიც გვთავაზობდა „სახის სილამაზის პროგნოზის“ (FBP) ქსელს, რომელსაც შეუძლია სახეების რანჟირება აღქმული მიმზიდველობის მიხედვით, მაგრამ რომელიც რეალურად ვერ გარდაიქმნება. ან "განახლება" სახეები.  წყარო: https://arxiv.org/pdf/1801.06345.pdf

ახალი ნამუშევრისგან განსხვავებით, 2018 წლის პროექტს რეალურად არ შეუძლია ტრანსფორმაციების განხორციელება, მაგრამ შეიცავს ალგორითმულ მნიშვნელობებს 5,500 სახეზე, მოწოდებულს 60 შერეული სქესის მარკერის მიერ (50/50 გაყოფა). ისინი ჩართულია ახალ სისტემაში, როგორც ეფექტური დისკრიმინატორი, ტრანსფორმაციების ინფორმირება, რომლებიც სავარაუდოდ გაზრდის გამოსახულების „მიმზიდველობას“.

საინტერესოა, რომ ახალი ქაღალდი სახელდება ატრიბუტი კონტროლირებადი ლამაზი კავკასიური სახის გენერაცია ესთეტიკაზე ორიენტირებული განმტკიცების სწავლებით. მიზეზი იმისა, რომ ყველა რასა, გარდა კავკასიურისა, გამორიცხულია სისტემიდან (გაითვალისწინეთ ისიც, რომ თავად მკვლევარები ჩინელები არიან) არის ის, რომ SCUT-ის წყაროს მონაცემები ძირითადად აზიურ წყაროებს ეყრდნობა (4000 თანაბრად დაყოფილი აზიელი ქალი/მამაკაცი, 1500 თანაბრად დაყოფილი კავკასიელი ქალი). /მამაკაცები), რაც ამ მონაცემთა ბაზაში „საშუალო პირს“ ყავისფერთმიან და ყავისფერ თვალებს აქცევს.

აქედან გამომდინარე, იმისათვის, რომ შეესაბამებოდეს შეღებვის ცვალებადობას მინიმუმ ერთი რასის ფარგლებში, საჭირო იყო აზიური კომპონენტის გამორიცხვა თავდაპირველი მონაცემებიდან, ან სხვაგვარად გადაეხადათ მონაცემების აღდგენის მნიშვნელოვანი ხარჯები, რათა განევითარებინათ მეთოდი, რომელიც შესაძლოა არ გამოსულიყო. დამატებით, სილამაზის კულტურული აღქმის ცვალებადობა გარდაუვლად ნიშნავს, რომ ასეთ სისტემებს დასჭირდება გარკვეული გეოგრაფიული კონფიგურაციის დონე იმის თაობაზე, თუ რას წარმოადგენს „მიმზიდველობა“.

შესაბამისი ატრიბუტები

პიროვნების „მიმზიდველი“ ფოტოს პირველადი ხელშემწყობი ფაქტორების დასადგენად, მკვლევარებმა ასევე გამოსცადეს სურათების სხვადასხვა ცვლილებების ეფექტი, იმის მიხედვით, თუ რამდენად აძლიერებს ამგვარი გაძლიერება „სილამაზის“ ალგორითმულ აღქმას. მათ აღმოაჩინეს, რომ ერთი ასპექტი მაინც უფრო მნიშვნელოვანია კარგი ფოტოგრაფიისთვის, ვიდრე კარგი გენეტიკა:

განათების გარდა, მისი ასპექტები, რომლებმაც ყველაზე დიდი გავლენა მოახდინეს სილამაზის ქულაზე, იყო ბაფთები (რაც, მამაკაცების შემთხვევაში, ხშირად შეიძლება ექვივალენტური იყოს მთლიანი თმის ქონასთან), სხეულის პოზა და თვალების განწყობა (როდესაც ჩართულობაა კამერის ხედვა არის მიმზიდველობის შევსება).

(რაც შეეხება „პომადის ფერს“, ახალი სისტემა, რომელსაც შეუძლია ეფექტურად იმუშაოს როგორც მამრობითი, ასევე მდედრობითი სქესის პრეზენტაციებზე, არ ასხვავებს გენდერულ გარეგნობას, არამედ ეყრდნობა ახალ დისკრიმინატორ სისტემას, როგორც „ფილტრს“ ამ მხრივ)

მეთოდი

დაჯილდოების ფუნქცია ახალ სისტემაში გაძლიერების სწავლის მექანიზმში იკვებება SCUT მონაცემების პირდაპირი რეგრესით, რომელიც ასახავს სახის სილამაზის პროგნოზებს.

სასწავლო სისტემა იმეორებს მონაცემთა შეყვანის სურათებს (ქვემოთ მარცხნივ ქვემოთ მოცემულ სქემაში). თავდაპირველად წინასწარ გაწვრთნილი ResNet18 მოდელი (გაწვრთნილი IMAGEnet) ამოიღებს მახასიათებლებს ხუთი იდენტური ('y') სურათიდან. შემდეგი, პოტენციური ტრანსფორმაციული მოქმედება გამომდინარეობს a-ს ფარული მდგომარეობიდან სრულად დაკავშირებული ფენა (GRUCell, ქვემოთ მოცემულ სურათზე) და გამოყენებული ტრანსფორმაციები, რაც იწვევს ხუთ შეცვლილ სურათს, რომლებიც მიეწოდება ესთეტიკური ქულების ქსელს, რომელთა რეიტინგი, დარვინის სტილში, განსაზღვრავს რომელი ვარიაციები განვითარდება და რომელი გაუქმდება.

ახალი სისტემის მუშაობის პროცესის ფართო ილუსტრაცია.

ახალი სისტემის მუშაობის პროცესის ილუსტრაცია.

ესთეტიკური ქულების ქსელი იყენებს ეფექტური არხის ყურადღებას (ACE) მოდული, ხოლო წინასწარ მომზადებული ინსტანციის ადაპტაცია EfficientNet-B4 დავალებულია თითოეული სურათიდან 1,792 მახასიათებლის ამოღება.

ნორმალიზების შემდეგ ა ReLU აქტივაციის ფუნქცია, 4 განზომილებიანი ვექტორი მიიღება უკან ECA მოდულიდან, რომელიც შემდეგ გაბრტყელდება ერთგანზომილებიან ვექტორად აქტივაციის შემდეგ და ადაპტური საშუალო გაერთიანება. საბოლოოდ, შედეგები იკვებება რეგრესიული ქსელი, რომელიც იღებს ესთეტიკურ ქულას.

სისტემიდან გამომავალი ხარისხობრივი შედარება. ქვედა მწკრივში ჩვენ ვხედავთ ყველა ცალკეული ასპექტის აგრეგირებულ ჯამს, რომლებიც იდენტიფიცირებულია EigenGAN მეთოდით და შემდგომ გაუმჯობესებულია. სურათების საშუალო FID ქულები არის გამოსახულების რიგების მარცხნივ (უფრო მაღალი, უკეთესია).

სისტემიდან გამომავალი ხარისხობრივი შედარება. ქვედა მწკრივში ჩვენ ვხედავთ ყველა ცალკეული ასპექტის აგრეგირებულ ჯამს, რომლებიც იდენტიფიცირებულია EigenGAN მეთოდით და შემდგომ გაუმჯობესებულია. სურათების საშუალო FID ქულები არის გამოსახულების რიგების მარცხნივ (უფრო მაღალი, უკეთესია).

ტესტები და მომხმარებლის შესწავლა

შემოთავაზებული მეთოდის ხუთი ვარიანტი შეფასდა ალგორითმულად (იხ. სურათი ზემოთ), ფრეშეტის საწყისი მანძილით (FID, საკამათოა ზოგიერთ მხარეში) სისტემაში განთავსებული სულ 1000 სურათს მინიჭებული ქულები.

მკვლევარები აღნიშნავენ, რომ განათების გაუმჯობესებამ მიაღწია ფოტოებზე გამოსახულ სუბიექტებს მიმზიდველობის უკეთეს ქულას, ვიდრე რამდენიმე სხვა უფრო „აშკარა“ შესაძლო ცვლილება (ანუ გამოსახული პიროვნების რეალური გარეგნობა).

გარკვეულწილად, ამ გზით სისტემის ტესტირება შემოიფარგლება SCUT მონაცემების ექსცენტრიულობით, რომელსაც არ აქვს ბევრი "ნათელი ღიმილი" და ავტორები ამტკიცებენ, რომ ამან შეიძლება ზედმეტად გადააჭარბოს უფრო ტიპურ "იდუმალი" სახეს. მონაცემები, პოტენციური სამიზნე საბოლოო მომხმარებლების სავარაუდო პრეფერენციებთან შედარებით (სავარაუდოდ, ამ შემთხვევაში, დასავლური ბაზარი).

თუმცა, ვინაიდან მთელი სისტემა მხოლოდ 60 ადამიანის საშუალო საშუალო მოსაზრებებზეა დამოკიდებული (EigenGAN ნაშრომში) და რამდენადაც შესასწავლი ხარისხი შორს არის ემპირიულისგან, შეიძლება ითქვას, რომ პროცედურა უფრო გამართლებულია, ვიდრე მონაცემთა ნაკრები.

მიუხედავად იმისა, რომ ნაშრომში ძალიან მოკლედ არის განხილული, სურათები EigenGAN-დან და სისტემის საკუთარი ხუთი ვარიანტიდან ასევე ნაჩვენები იყო მომხმარებლის შეზღუდულ კვლევაში (რვა მონაწილე), რომლებსაც სთხოვეს აერჩიათ „საუკეთესო სურათი“ (სიტყვა „მიმზიდველი“ იყო აცილებული).

ზემოთ, GUI წარმოდგენილი იყო მცირე სასწავლო ჯგუფში; ქვემოთ, შედეგები.

ზემოთ, GUI წარმოდგენილი იყო მცირე სასწავლო ჯგუფში; ქვემოთ, შედეგები.

შედეგები მიუთითებს, რომ ახალი სისტემის გამომუშავებამ მიაღწია მონაწილეთა შორის შერჩევის ყველაზე მაღალ მაჩვენებელს („MAES“ ზემოთ მოცემულ სურათზე).

სილამაზის (უმიზნო?) დევნა

ასეთი სისტემის სარგებლიანობის დადგენა ძნელია, მიუხედავად იმისა, როგორც ჩანს, ა აღსანიშნავია ლოკუსი of ძალისხმევა in China ამ მიზნებისკენ. ახალ პუბლიკაციაში არცერთი არ არის ასახული.

EigenGAN-ის წინა ნაშრომი ვარაუდობს*, რომ სილამაზის ამოცნობის სისტემა შეიძლება გამოყენებულ იქნას სახისთვის მაკიაჟის სინთეზის სარეკომენდაციო სისტემებიესთეტიკური ქირურგია, სახის გალამაზება, ან კონტენტზე დაფუძნებული სურათის მოძიება.

სავარაუდოდ, ასეთი მიდგომა შეიძლება გამოყენებულ იქნას გაცნობის საიტებზე, საბოლოო მომხმარებლების მიერ, რათა "გააძლიერონ" საკუთარი პროფილის ფოტოები გარანტირებულ "იღბლიან კადრად", როგორც მოძველებული ფოტოების ან ფოტოების გამოყენების ალტერნატივა. სხვა ადამიანების.

ანალოგიურად, გაცნობის საიტებს თავადაც შეეძლოთ „გაიტანონ“ თავიანთი კლიენტები რეიტინგების შესაქმნელად და კიდევ შეზღუდული წვდომის დონეები, თუმცა ეს სავარაუდოდ იმუშავებს მხოლოდ სიცოცხლისუნარიანობის ავტორიზაციის გადაღების გზით, ვიდრე გაგზავნილი ფოტოებით (რომლებიც შეიძლება ასევე იყოს „გაძლიერებული“ კლიენტების მიერ, თუ მიდგომა პოპულარული გახდებოდა).

რეკლამაში, სილამაზის შეფასების ალგორითმული მეთოდი (ტექნოლოგია, რომელიც იწინასწარმეტყველა გვიანდელი სამეცნიერო ფანტასტიკის ავტორის მაიკლ კრაიტონის მიერ 1982 წელს მის კინემატოგრაფიულ ექსკურსიაში. Looker) შეიძლება გამოყენებულ იქნას არაგაუმჯობესებული კრეატიული პროდუქტის შესარჩევად, რომელიც, სავარაუდოდ, სამიზნე აუდიტორიას ჩაერთვება, ხოლო სახის სურათების ესთეტიკური ზემოქმედების რეალურად გაზრდის შესაძლებლობა, მათი რეალურად გადაწერის გარეშე ღრმა ფეიქის სტილში, შეიძლება გაზარდოს უკვე ეფექტური გამოსახულება. საზოგადოების ინტერესის მოსაზიდად.

ახალ ნაშრომს მხარს უჭერს ჩინეთის ეროვნული საბუნებისმეტყველო ფონდი, კომპლექსური სისტემების მართვისა და კონტროლის სახელმწიფო საკვანძო ლაბორატორიის ღია ფონდის პროექტი და ჩინეთის განათლების სამინისტროს ფილოსოფიის და სოციალური მეცნიერების კვლევის პროექტი, სხვა მხარდამჭერებთან ერთად.

 

* EigenGAN-ის ნაშრომის ბევრი რეკომენდაცია მიუთითებს კომერციულად ხელმისაწვდომ 2016 წლის წიგნზე სახელწოდებით „კომპიუტერული მოდელები სახის სილამაზის ანალიზისთვის“ და არა აკადემიურ რესურსებზე.

პირველად გამოქვეყნდა 11 წლის 2022 აგვისტოს.